Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/xen/nwc-toolkit
Automatically exported from code.google.com/p/nwc-toolkit
https://github.com/xen/nwc-toolkit
Last synced: about 1 month ago
JSON representation
Automatically exported from code.google.com/p/nwc-toolkit
- Host: GitHub
- URL: https://github.com/xen/nwc-toolkit
- Owner: xen
- License: bsd-3-clause
- Created: 2015-04-10T23:54:27.000Z (over 9 years ago)
- Default Branch: master
- Last Pushed: 2015-04-10T23:58:48.000Z (over 9 years ago)
- Last Synced: 2024-04-19T15:23:58.724Z (7 months ago)
- Language: C++
- Size: 441 KB
- Stars: 8
- Watchers: 2
- Forks: 3
- Open Issues: 0
-
Metadata Files:
- Readme: README
- Changelog: ChangeLog
- License: COPYING
Awesome Lists containing this project
README
Project URL: http://code.google.com/p/nwc-toolkit/
nwc-toolkit は[http://s-yata.jp/corpus/nwc2010/ 日本語ウェブコーパス]を作成するために開発されたソフトウェアです.[http://s-yata.jp/corpus/nwc2010/htmls/ HTML アーカイブ]から[http://s-yata.jp/corpus/nwc2010/texts/ テキストアーカイブ]を作成するツールと,分かち書きしたテキストから [http://s-yata.jp/corpus/nwc2010/ngrams/ N-gram コーパス]を作成するツールで構成されています.サイズが 1TiB を超える HTML アーカイブを想定して C++ で開発されたツールなので,正規表現を多用する HTML パーサなどと比べれば,かなり高速に動作します.
== ドキュメント ==
* [http://nwc-toolkit.googlecode.com/svn/trunk/docs/index.html nwc-toolkit(日本語ウェブコーパス用ツールキット)]
* テキストアーカイブの作成
* [http://nwc-toolkit.googlecode.com/svn/trunk/docs/tools/text-extractor.html nwc-toolkit-text-extractor(テキスト抽出ツール)]
* [http://s-yata.jp/apps/nwc-toolkit/text-extractor テキスト抽出ツールのウェブサービス]
* [http://nwc-toolkit.googlecode.com/svn/trunk/docs/tools/html-parser.html nwc-toolkit-html-parser(HTML 解析ツール)]
* [http://nwc-toolkit.googlecode.com/svn/trunk/docs/tools/unicode-normalizer.html nwc-toolkit-unicode-normalizer(Unicode 正規化ツール)]
* [http://nwc-toolkit.googlecode.com/svn/trunk/docs/tools/text-filter.html nwc-toolkit-text-filter(簡易文抽出ツール)]
* N-gram コーパスの作成
* [http://nwc-toolkit.googlecode.com/svn/trunk/docs/tools/ngram-counter.html nwc-toolkit-ngram-counter(N-gram 頻度計数ツール)]
* [http://nwc-toolkit.googlecode.com/svn/trunk/docs/tools/ngram-merger.html nwc-toolkit-ngram-merger(N-gram コーパス統合ツール)]
* その他
* [http://nwc-toolkit.googlecode.com/svn/trunk/docs/tools/hash-calculator.html nwc-toolkit-hash-calculator(ハッシュ値計算ツール)]
* [http://nwc-toolkit.googlecode.com/svn/trunk/docs/tools/duplicate-detector.html nwc-toolkit-duplicate-detector(重複検出ツール)]