https://github.com/out0fmemory/GuozhongCrawler
GuozhongCrawler的是一个无须配置、便于二次开发的爬虫开源框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。其设计灵感来源于多个爬虫国内外爬虫框架的总结。采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试,定制执行js、自定义cookie等功能。在处理网站抓取多次后被封IP的问题上,guozhongCrawler采用动态轮换IP机制有效防止IP被封。另外,源码中的注释及Log输出全部采用通俗易懂的中文。让初学者能有更加深刻的理解
https://github.com/out0fmemory/GuozhongCrawler
Last synced: about 1 year ago
JSON representation
GuozhongCrawler的是一个无须配置、便于二次开发的爬虫开源框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。其设计灵感来源于多个爬虫国内外爬虫框架的总结。采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试,定制执行js、自定义cookie等功能。在处理网站抓取多次后被封IP的问题上,guozhongCrawler采用动态轮换IP机制有效防止IP被封。另外,源码中的注释及Log输出全部采用通俗易懂的中文。让初学者能有更加深刻的理解
- Host: GitHub
- URL: https://github.com/out0fmemory/GuozhongCrawler
- Owner: out0fmemory
- Created: 2015-04-22T07:47:27.000Z (about 11 years ago)
- Default Branch: master
- Last Pushed: 2015-04-20T09:24:54.000Z (about 11 years ago)
- Last Synced: 2024-11-13T04:56:01.353Z (over 1 year ago)
- Language: Java
- Size: 28.6 MB
- Stars: 96
- Watchers: 12
- Forks: 65
- Open Issues: 0
-
Metadata Files: