https://github.com/hackstoic/fdbbs_picture_downloader
Download the pictures from bbs.fudan.edu.cn single board in batches.
https://github.com/hackstoic/fdbbs_picture_downloader
Last synced: 9 months ago
JSON representation
Download the pictures from bbs.fudan.edu.cn single board in batches.
- Host: GitHub
- URL: https://github.com/hackstoic/fdbbs_picture_downloader
- Owner: hackstoic
- Created: 2014-06-08T00:50:05.000Z (about 12 years ago)
- Default Branch: master
- Last Pushed: 2016-01-17T14:00:28.000Z (over 10 years ago)
- Last Synced: 2025-03-22T03:26:54.916Z (about 1 year ago)
- Language: JavaScript
- Size: 5.75 MB
- Stars: 1
- Watchers: 1
- Forks: 1
- Open Issues: 0
-
Metadata Files:
- Readme: README
Awesome Lists containing this project
README
论坛爬虫
分为4个模块
1. 下载器
下载整个网页
2. 解析器
从中抽取链接和需要的资源(图文及描述等)
3. URL管理器
管理要遍历的URL, 防止重复抓取和死循环
4. 文档归档器
将抽取的资源保存下来, 数据库或者以文档的方式
TO-DO
第一版:
基本的抓取, 指定板块
(图片和对应的描述)
第二版:
多进程抓取, 多个板块
第三版:
分布式抓取, BBS全站
第四版:
cookie管理, 自动登录, 反追踪
第五版:
展示优化, 定期更新