Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/ncaq/dic-nico-intersection-pixiv
ニコニコ大百科とピクシブ百科事典の共通部分のIME辞書
https://github.com/ncaq/dic-nico-intersection-pixiv
dictionary google-ime google-japanese-input haskell ime japanese mozc niconico pixiv
Last synced: 5 days ago
JSON representation
ニコニコ大百科とピクシブ百科事典の共通部分のIME辞書
- Host: GitHub
- URL: https://github.com/ncaq/dic-nico-intersection-pixiv
- Owner: ncaq
- License: mit
- Created: 2017-03-08T23:44:21.000Z (almost 8 years ago)
- Default Branch: master
- Last Pushed: 2024-09-03T07:55:48.000Z (5 months ago)
- Last Synced: 2025-01-09T09:17:19.204Z (12 days ago)
- Topics: dictionary, google-ime, google-japanese-input, haskell, ime, japanese, mozc, niconico, pixiv
- Language: Haskell
- Homepage: https://raw.githubusercontent.com/ncaq/dic-nico-intersection-pixiv/master/public/dic-nico-intersection-pixiv-google.txt
- Size: 1.5 MB
- Stars: 71
- Watchers: 6
- Forks: 2
- Open Issues: 1
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# dic-nico-intersection-pixiv
ニコニコ大百科とピクシブ百科事典の共通部分のIME辞書。
# ダウンロード
[dic-nico-intersection-pixiv-google.txt](https://raw.githubusercontent.com/ncaq/dic-nico-intersection-pixiv/master/public/dic-nico-intersection-pixiv-google.txt)
Google日本語入力およびMozc形式です。
# 説明
ニコニコ大百科とピクシブ百科事典の双方に登録されている単語の辞書です。
読みがなはニコニコ大百科のデータを使っています。[ニコニコ大百科](http://dic.nicovideo.jp/)と、[ピクシブ百科事典](https://dic.pixiv.net/)のデータを利用させていただいています。
ルールベースでIME辞書の役に立たなそうな単語を除外しています。
曖昧に絞り込んでいるので、本当はPixiv百科事典に存在しないのに単語が載っていたり、逆に存在していても載っていなかったりします。
誤変換指摘の記事をなるべく除外しようとしていますが、擬陽性や偽陰性が存在します。
品詞は諦めて全部アスキー文字の場合`アルファベット`、そうでない場合`固有名詞`にしています。
あまり変換に影響しないので気にしていません。# 想定利用シーン
* 標準辞書が貧弱なMozcの拡張辞書
* Android版Google日本語入力に入れてサジェストを強化
* 東方Project辞書(名前、曲、スペルカードなど)
* ネットスラング、作品名、VTuber、ポケモン、アイドルマスター辞書# 開発動機
主に東方Project関連の単語の変換を行いたかったのですが、[東方Project辞書 | Cue:LAB](https://9lab.jp/works/dic/th-dic.php)は開発当時は東方紺珠伝に対応していなかったことと、複数の辞書を世界の固有名詞が増えるたびに更新していくのは大変だという理由で、あまり使いたくありませんでした。
色々な単語を備えてうってつけなのが、[ニコニコ大百科IME辞書](http://tkido.com/blog/1019.html)に思えますが、これは単語量が多すぎて、PCならともかくスマートフォンのGoogle日本語入力が重たくなってしまいます。
また量が多すぎて読みで遊んでいる単語([読みが通常の読み方とは異なる記事の一覧](https://dic.nicovideo.jp/id/4652210)に載っているような単語)が沢山あって、誤爆をしやすいという問題がありました。
さらに下記のブログ記事に書いたように、括弧を使った単語が括弧なしの単語とコンフリクトしてしまい、括弧なしの単語がうまく変換できませんでした。
よって自分でニコニコ大百科をスクレイピングしています。単語をメジャーなものだけに絞り、遊んでいる読みの単語を排除するにはどうすれば良いか考えた結果、ピクシブ百科事典にも登録されている単語のみを採用すれば良いと思いつきました。
ニコニコ大百科のデータの処理に関しては、[ニコニコ大百科IME辞書 神は細部に宿り給う](http://tkido.com/blog/1019.html)の処理方法を参考にさせて頂きました。
読みが違う単語を弾くために、[読みが通常の読み方とは異なる記事の一覧](https://dic.nicovideo.jp/id/4652210)のデータを使用して私自身も編集に参加しています。
# ライセンス
コード部分はMITライセンスです。
生成物はスクレイピング結果を利用している都合上、著作権は主張しません。
# ブログ記事
* [軽量なネット用語辞書が欲しかったので, ニコニコ大百科とピクシブ百科事典の共通部分の辞書であるdic-nico-intersection-pixivを作りました - ncaq](https://www.ncaq.net/2017/03/10/)
* [dic-nico-intersection-pixivをpixivのサイトマップを使って生成するように変更しました - ncaq](https://www.ncaq.net/2017/08/23/)
* [dic-nico-intersection-pixivの直リンクを見て意味わからないと言われてしまったのでファイルにコメントを追加しました - ncaq](https://www.ncaq.net/2017/11/09/16/26/13/)
* [dic-nico-intersection-pixivをニコニコ大百科のデータを自前でスクレイピングするように変更しました - ncaq](https://www.ncaq.net/2019/08/20/13/16/20/)