https://github.com/twtrubiks/pttstatistics
統計PTT看板推文 or 文章標題 熱門關鍵詞 on python
https://github.com/twtrubiks/pttstatistics
crawler ptt ptt-hot-key python statistics
Last synced: 8 months ago
JSON representation
統計PTT看板推文 or 文章標題 熱門關鍵詞 on python
- Host: GitHub
- URL: https://github.com/twtrubiks/pttstatistics
- Owner: twtrubiks
- Created: 2016-03-20T11:08:38.000Z (over 9 years ago)
- Default Branch: master
- Last Pushed: 2017-10-24T01:02:35.000Z (about 8 years ago)
- Last Synced: 2025-04-15T11:55:07.669Z (8 months ago)
- Topics: crawler, ptt, ptt-hot-key, python, statistics
- Language: Python
- Size: 1.8 MB
- Stars: 7
- Watchers: 1
- Forks: 2
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# PttStatistics
統計PTT看板推文 or 文章標題 熱門關鍵詞 for Windows and Linux on python
* [Demo Video](https://youtu.be/XNXCt0uOkCk) - Windows V2
* [Demo Video](https://youtu.be/kuLBL9ggBSg) - Windows V1
## 特色
* 統計PTT看板 推文 or 文章標題 熱門關鍵詞
## 使用方法
```python
pyhton PttStatistics.py [統計型態] [板名] [爬取頁數]
```
## 執行範例
### 範例一
``` python
python PttStatistics.py title gossiping 10
```
抓取PTT gossiping (八卦板) 10頁,統計 文章標題 熱門關鍵詞
### 範例二
``` python
python PttStatistics.py push gossiping 10
```
抓取PTT gossiping (八卦板) 10頁,統計 推文內容 熱門關鍵詞
## 執行畫面
### 範例一


### 範例二


如斷詞不夠精準,可自行將詞加入至"dictNew.txt"裡面,以增加斷詞準確度
## 輸出格式
文字檔(.txt)
格式( "詞" "次數" )

可借用 [tableau](http://www.tableau.com/products) 輸出圖片

## External
* 斷詞系統 [jieba](https://github.com/fxsjy/jieba)
## 執行環境
* Ubuntu 12.04
* Python 2.7.3
## License
MIT license