Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/zyearn/zhihucrawler
event-driven crawler implemented by C++
https://github.com/zyearn/zhihucrawler
Last synced: 8 days ago
JSON representation
event-driven crawler implemented by C++
- Host: GitHub
- URL: https://github.com/zyearn/zhihucrawler
- Owner: zyearn
- Created: 2014-03-08T05:47:57.000Z (over 10 years ago)
- Default Branch: master
- Last Pushed: 2019-04-16T03:36:33.000Z (over 5 years ago)
- Last Synced: 2024-07-31T22:53:16.611Z (3 months ago)
- Language: C++
- Homepage:
- Size: 65.4 KB
- Stars: 166
- Watchers: 28
- Forks: 91
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# 知乎爬虫
## 介绍
ZhihuCrawler是用C++编写的高效、基于事件驱动的知乎爬虫,目的是抓取最高赞回答、最高关注问题等数据。运行环境为支持epoll的平台。
## 使用
先找到浏览器访问知乎的cookie,将它复制到src/confic.cc下的cookie变量里。
编辑./startfile/seeds.txt, 将从这个文件指定的用户URL开始爬。
make
./zhihuCrawler可以访问http://localhost:8080来查看爬虫的状态。
## 输出
爬下的数据都存储在./datafile/rawData.raw下。
使用./sort.sh
可以查看根据票数排序后的结果。
## TODO
* ~~增加ajax获取用户的全部关注人和关注者~~
* 降低模块间耦合度
* 用代理IP处理429错误/IP被封
## 更多
更多详情请访问 http://zyearn.github.io/blog/2015/09/09/how-to-write-a-event-based-crawler-using-c/
// 用C/C++写爬虫真是做大死