Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/tamanobi/wikipediafromfurigana
wikipediaのプレーンテキストから単語とふりがなを抽出する
https://github.com/tamanobi/wikipediafromfurigana
Last synced: about 13 hours ago
JSON representation
wikipediaのプレーンテキストから単語とふりがなを抽出する
- Host: GitHub
- URL: https://github.com/tamanobi/wikipediafromfurigana
- Owner: tamanobi
- Created: 2015-06-23T14:19:05.000Z (over 9 years ago)
- Default Branch: master
- Last Pushed: 2015-06-27T05:00:24.000Z (over 9 years ago)
- Last Synced: 2024-03-30T06:34:23.157Z (8 months ago)
- Language: Python
- Homepage:
- Size: 3.66 MB
- Stars: 0
- Watchers: 3
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README
Awesome Lists containing this project
README
## retrieve ruby(word) from Wikipedia articles ##
wikipediaのarticlesファイルから、単語とふりがなのペアを(TSV形式)で抜き出す## Python3で動作します ##
Python3で動作します。ただし、いくつか問題を抱えています。## 実行例 ##
以下のコマンドで、標準出力からファイルへリダイレクトできます。PYTHONIOENCODING=utf-8 python extractRuby.py > out.txt