https://github.com/yhirose/yomi
Chinese Pinyin and Japanese Ruby generator using Kytea
https://github.com/yhirose/yomi
Last synced: 2 months ago
JSON representation
Chinese Pinyin and Japanese Ruby generator using Kytea
- Host: GitHub
- URL: https://github.com/yhirose/yomi
- Owner: yhirose
- Created: 2013-07-07T04:20:50.000Z (over 12 years ago)
- Default Branch: master
- Last Pushed: 2013-07-16T02:21:19.000Z (over 12 years ago)
- Last Synced: 2025-02-03T19:15:55.862Z (9 months ago)
- Language: C++
- Homepage:
- Size: 113 KB
- Stars: 1
- Watchers: 3
- Forks: 1
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
yomi
====中国語ピンイン・日本語ルビ振りツール
(powered by [KyTea](http://www.phontron.com/kytea/index-ja.html))## 実行環境の準備 (Mac OS X)
### KyTeaのインストール
KyTeaはHomebrewからインストールできます。
brew install kytea
### clangのインストール
このツールは,clang++を使用してビルドします。clang++はXCodeのCommand Line Toolsに含まれていますす。まずApp StoreからXCodeをインストールし,続いて【Xcode】→【Preference】→【Download】メーニューからCommand Line Toolsをインストールします。`brew install llvm`でもインストールできます。
### yomi 実行ファイルのビルド
読み付与実行ファイルをビルドします。scriptディレクトリにMakefileがあります。
cd scripts/
make### nokogiri gem ライブラリのインストール
Rubyスクリプト内でnokogiriライブラリを使用します。Ruby Gemからインストールして下さい。
gem install nokogiri
## モデルの作成
### コーパスの準備
corpusディレクトリの直下に,コーパスファイルを作成してください。複数ファイルでもOKです。フォーマットは以下の通りです。
{本日|ほんじつ}は{晴天|せいてん}なり。
縦棒で区切られた単語と読みを,波括弧で括ります。
### 辞書の準備
dictディレクトリの直下に,任意の名前の辞書ファイルを作成してください。決して1つ以上のファイルを置かないで下さい。フォーマットは以下の通りです。
我们/wo3\ men5
スラッシュで区切られた左側が単語,右側が読みになります。例のように,読みにスペースを入れたい時はバックスラッシュでエスケープしてください。
### モデルの作成
以下のコマンドを実行すると,yomi.modelファイルが作成されます。
./mkmodel
## 読みの付与
### HTML出力
標準入力からHTMLを読み込み,``タグ付きHTMLフォーマットで標準出力へ。
./mkhtml
### コーパス出力
標準入力からHTMLを読み込み,コーパスフォーマットで標準出力へ。このファイルを校正し,モデル作成用コーパスに追加することにより,精度を向上させることができます。
./mkcorpus