Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/yaleimeng/free_proxy_pool
对免费代理IP网站进行爬取,收集汇总为自己的代理池。关键是验证代理的有效性、匿名性、去重复
https://github.com/yaleimeng/free_proxy_pool
proxy proxypool spiders
Last synced: about 2 months ago
JSON representation
对免费代理IP网站进行爬取,收集汇总为自己的代理池。关键是验证代理的有效性、匿名性、去重复
- Host: GitHub
- URL: https://github.com/yaleimeng/free_proxy_pool
- Owner: yaleimeng
- Created: 2017-10-09T08:47:10.000Z (over 7 years ago)
- Default Branch: master
- Last Pushed: 2022-01-11T02:36:21.000Z (about 3 years ago)
- Last Synced: 2024-08-03T17:12:27.934Z (5 months ago)
- Topics: proxy, proxypool, spiders
- Language: Python
- Size: 68.4 KB
- Stars: 74
- Watchers: 6
- Forks: 23
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
- awesome-network-stuff - **38**星
README
# Free_proxy_pool
对免费代理IP网站进行爬取,收集汇总为自己的代理池。其中关键是验证代理的有效性、匿名性、去重复。+ 本代理池的定位是初学者能看懂,能使用的单机库。所以不打算使用高大上的Redis或者MongoDB等数据库。抓到的代理仅与磁盘文件交互。
+ 本项目**无需安装,下载后查看example**即可学会使用。简洁易用的get_a_proxy(),便于在请求网页的参数中直接使用。
+ 运行所依赖的第三方库:requests、bs4、lxml、chardet。
+ 爬虫组件<200行代码,把高可用率的代理网站一网打尽。如果爬虫全开,一次性可以采集高匿代理300--700个。
+ 下表数据仅表明各网站在某一时段的代理质量,每天不同时段会有波动,整体质量比较高。代理网站|评估数|可用数|有效率|更新周期
:-:|-:|-:|-:|:-:
66ip|536|113|21.1%|10分钟
89ip|600|79|11.7%|10分钟
爱家网|1274|105|8.2%|每天2篇
codebusy|278|84|30.2%|1分钟
小舒代理|534|78|14.6%|每天2篇
小河虾|600|70|11.7%|10分钟如果感觉对您有帮助,欢迎给我加一个星星,或者fork。
为了避免大家浪费精力,经验证无实用价值的免费代理网站列举如下,是为“黑名单”:
- http://www.ip181.com/- https://list.proxylistplus.com/
- http://www.xicidaili.com/nn 百度排名靠前,可用率仅1%左右。
- http://www.kuaidaili.com/free/inha 较新的只有前5页,但可用仅1--2个。
- 更新日期:2019-11-5