An open API service indexing awesome lists of open source software.

https://github.com/hackstoic/fdbbs_picture_downloader

Download the pictures from bbs.fudan.edu.cn single board in batches.
https://github.com/hackstoic/fdbbs_picture_downloader

Last synced: 9 months ago
JSON representation

Download the pictures from bbs.fudan.edu.cn single board in batches.

Awesome Lists containing this project

README

          

论坛爬虫

分为4个模块

1. 下载器
下载整个网页
2. 解析器
从中抽取链接和需要的资源(图文及描述等)
3. URL管理器
管理要遍历的URL, 防止重复抓取和死循环
4. 文档归档器
将抽取的资源保存下来, 数据库或者以文档的方式

TO-DO
第一版:
基本的抓取, 指定板块
(图片和对应的描述)

第二版:
多进程抓取, 多个板块

第三版:
分布式抓取, BBS全站

第四版:
cookie管理, 自动登录, 反追踪

第五版:
展示优化, 定期更新