https://github.com/jiro4989/naro-data
「小説家になろう」のタイトル一覧をスクレイピングする
https://github.com/jiro4989/naro-data
bash mecab scraping
Last synced: 2 months ago
JSON representation
「小説家になろう」のタイトル一覧をスクレイピングする
- Host: GitHub
- URL: https://github.com/jiro4989/naro-data
- Owner: jiro4989
- Created: 2019-05-06T09:12:11.000Z (about 7 years ago)
- Default Branch: master
- Last Pushed: 2019-05-06T09:40:17.000Z (about 7 years ago)
- Last Synced: 2025-03-31T17:51:04.656Z (over 1 year ago)
- Topics: bash, mecab, scraping
- Language: Shell
- Homepage:
- Size: 93.8 KB
- Stars: 0
- Watchers: 2
- Forks: 1
- Open Issues: 0
-
Metadata Files:
- Readme: README.adoc
Awesome Lists containing this project
README
= naro-data
:toc: left
:sectnums:
https://syosetu.com/[小説家になろう]のタイトルの一覧と頻出ワードを取得する。
== 前提条件
* mecab
== プロジェクト構成
[options="header"]
|================================
|ファイル名|説明
|README.adoc|このドキュメント
|dictionary.txt|タイトルから抽出した単語辞書と単語の出現回数
|fetch_title.sh|小説家になろうのページからタイトル一覧を取得するスクリプト
|mk_dictionary.sh|title.txtから辞書ファイルを生成するスクリプト
|title.txt|小説家になろうのページから取得したタイトル一覧
|================================
== スクリプトの使い方
タイトル一覧の取得 (title.txt)
[source,bash]
----
./fetch_title.sh
----
辞書の生成 (dictionary.txt)
[source,bash]
----
./mk_dictionary.sh
----