Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

https://github.com/tamanobi/wikipediafromfurigana

wikipediaのプレーンテキストから単語とふりがなを抽出する
https://github.com/tamanobi/wikipediafromfurigana

Last synced: about 13 hours ago
JSON representation

wikipediaのプレーンテキストから単語とふりがなを抽出する

Awesome Lists containing this project

README

        

## retrieve ruby(word) from Wikipedia articles ##
wikipediaのarticlesファイルから、単語とふりがなのペアを(TSV形式)で抜き出す

## Python3で動作します ##
Python3で動作します。ただし、いくつか問題を抱えています。

## 実行例 ##
以下のコマンドで、標準出力からファイルへリダイレクトできます。

PYTHONIOENCODING=utf-8 python extractRuby.py > out.txt