Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/sile/sanmoku
A morphological analyzer with a small memory footprint.
https://github.com/sile/sanmoku
Last synced: 6 days ago
JSON representation
A morphological analyzer with a small memory footprint.
- Host: GitHub
- URL: https://github.com/sile/sanmoku
- Owner: sile
- License: mit
- Created: 2011-11-04T03:29:47.000Z (about 13 years ago)
- Default Branch: master
- Last Pushed: 2011-12-02T13:11:16.000Z (almost 13 years ago)
- Last Synced: 2024-05-01T23:47:29.242Z (7 months ago)
- Language: Common Lisp
- Homepage:
- Size: 19.4 MB
- Stars: 19
- Watchers: 5
- Forks: 5
- Open Issues: 1
-
Metadata Files:
- Readme: README
- License: COPYING
Awesome Lists containing this project
README
[名前]
・Sanmoku[バージョン]
・0.0.6[概要]
・Gomoku( https://github.com/sile/gomoku )から派生した形態素解析器
・Gomokuに比べて実行時に必要なメモリ量が少ないのが特徴 (数分の一程度)
・形態素解析器としての特徴は、おおむねGomokuと同様[形態素解析器]
形態素解析を行う(Java)。= ビルド方法
# Sanmoku本体
$ cd analyzer
$ ant
$ ls sanmoku-0.0.5.jar# FeatureEx(拡張素性データ用)
$ cd feature-ex
$ ant
$ ls sanmoku-feature-ex-0.0.1.jar= 形態素解析コマンド
# 形態素解析
$ java -cp sanmoku-0.0.5.jar net.reduls.sanmoku.bin.Sanmoku < 解析対象テキスト# 分かち書き
$ java -cp sanmoku-0.0.5.jar net.reduls.sanmoku.bin.Sanmoku -wakati < 解析対象テキスト# 原型、読み、発音情報付きの形態素解析
$ java -cp sanmoku-0.0.5.jar:sanmoku-feature-ex-0.0.1.jar net.reduls.sanmoku.bin.SanmokuFeatureEx < 解析対象テキスト= java API
package net.reduls.sanmoku;class Tagger {
public static List parse(String text);
public static List wakati(String text);
}class Morpheme {
public final String surface; // 形態素表層形
public final String feature; // 形態素素性 (== 品詞)
public final int start; // 入力テキスト内での形態素の出現開始位置
}// 拡張素性(原型、読み、発音)用のクラス
// - sanmoku-feature-ex-0.0.1.jar
class FeatureEx {
public FeatureEx(Morpheme m); // 形態素インスタンスから素性インスタンスを構築
public final String baseform; // 原型: 対応する情報がない場合は空文字列を返す (以下同)
public final String reading; // 読み:
public final String pronunciation; // 発音:
}[辞書構築方法メモ]
# Sanmoku本体辞書
$ cd dicbuilder
$ sbcl --script make-build-dic-command.lisp
$ ./sanmoku-build-dic /path/to/mecab-ipadic-2.7.0-20070801/ dic/
$ sbcl --script reduce.lisp dic/
$ cp dic/* ../analyzer/src/net/reduls/sanmoku/dicdata/
$ cd ../analyzer
$ ant# 拡張素性辞書 (原型、読み、発音)
$ cd dicbuilder
$ sbcl --script gen-feature-ex-files.lisp /path/to/mecab-ipadic-2.7.0-20070801 dic-ex/
$ cp dic-ex/ ../feature-ex/src/net/reduls/sanmoku/dicdata/
$ cd ../feature-ex
$ ant[ライセンス]
・Sanmoku本体(ソースファイル及びjarファイル)
・MITライセンス: 詳細はCOPYINGファイルを参照・Sanmokuに含まれるIPADICバイナリデータ
・IPADICのライセンスに準拠: 詳細はCOPYING.ipadicを参照[TODO]
・諸々整理