An open API service indexing awesome lists of open source software.

https://github.com/jiro4989/naro-data

「小説家になろう」のタイトル一覧をスクレイピングする
https://github.com/jiro4989/naro-data

bash mecab scraping

Last synced: 2 months ago
JSON representation

「小説家になろう」のタイトル一覧をスクレイピングする

Awesome Lists containing this project

README

          

= naro-data
:toc: left
:sectnums:

https://syosetu.com/[小説家になろう]のタイトルの一覧と頻出ワードを取得する。

== 前提条件

* mecab

== プロジェクト構成

[options="header"]
|================================
|ファイル名|説明
|README.adoc|このドキュメント
|dictionary.txt|タイトルから抽出した単語辞書と単語の出現回数
|fetch_title.sh|小説家になろうのページからタイトル一覧を取得するスクリプト
|mk_dictionary.sh|title.txtから辞書ファイルを生成するスクリプト
|title.txt|小説家になろうのページから取得したタイトル一覧
|================================

== スクリプトの使い方

タイトル一覧の取得 (title.txt)

[source,bash]
----
./fetch_title.sh
----

辞書の生成 (dictionary.txt)

[source,bash]
----
./mk_dictionary.sh
----