https://github.com/tuki0918/spiders
https://github.com/tuki0918/spiders
opencv python scrapy
Last synced: 3 months ago
JSON representation
- Host: GitHub
- URL: https://github.com/tuki0918/spiders
- Owner: tuki0918
- License: mit
- Created: 2017-01-08T15:45:59.000Z (over 8 years ago)
- Default Branch: master
- Last Pushed: 2017-05-11T14:30:27.000Z (about 8 years ago)
- Last Synced: 2025-03-10T16:49:15.194Z (3 months ago)
- Topics: opencv, python, scrapy
- Language: Python
- Size: 101 KB
- Stars: 0
- Watchers: 2
- Forks: 0
- Open Issues: 1
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# spiders
機械学習用データ収集のためのスパイダー
### 使用方法
`requirements.txt`に記載されたパッケージをインストールしたDockerイメージを作成する
```
./run.sh build
```必要なコンテナの起動(DB:mongodb)
```
./run.sh boot
```データ収集
```
./run.sh crawl "danbooru#all -o danbooru.csv"
```データセットを作成する
```
# DBデータをCSVに書き出す
./run.sh mongo-export# CSVにデータを元にデータセットを作成
# scrapyの`-o ***.csv`で出力したファイルも可(フィールド名がデータ箇所にある場合は削除すること)
./run.sh dataset "--csv ***.csv"
```データセットを解凍する
```
# 解凍後に分類クラス毎のファイル数が表示されるので要確認(偏りが激しいため)
./misc/extract.sh dataset_***.tar.gz | tee extract.txt
```----
### 設定
下記設定ファイルを書き換える、または実行時に`-s VAL=value`で上書きする
```
danbooru/danbooru/settings.py
```ディレクトリについて
+ `resources/cascades` ... カスケードファイル管理用
+ `resources/images` ... ダウンロード画像管理用
+ `resources/images/***` ... 顔認識した画像の切取(`IMAGES_STORE_ANIME_FACE_DIR`で指定)
+ `resources/images/full` ... ダウンロードした元画像
+ `resources/outputs` ... 収集データの出力先
+ `resources/storage` ... コンテナ内のデータ永続化用----
### 対応サイト
+ http://danbooru.donmai.us/
+ https://chan.sankakucomplex.com/