https://github.com/vicanso/proxy-pool
http(s) proxy pool
https://github.com/vicanso/proxy-pool
http-proxy https-proxy proxy proxy-pool
Last synced: 6 months ago
JSON representation
http(s) proxy pool
- Host: GitHub
- URL: https://github.com/vicanso/proxy-pool
- Owner: vicanso
- License: apache-2.0
- Created: 2019-12-14T06:54:27.000Z (almost 6 years ago)
- Default Branch: master
- Last Pushed: 2023-01-05T03:17:51.000Z (almost 3 years ago)
- Last Synced: 2025-03-25T21:36:03.263Z (7 months ago)
- Topics: http-proxy, https-proxy, proxy, proxy-pool
- Language: Go
- Homepage: https://proxy.aslant.site/
- Size: 1.37 MB
- Stars: 18
- Watchers: 3
- Forks: 3
- Open Issues: 26
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# proxy-pool
虽然网上各类网站提供了一堆的免费代理地址,但是其可用性比较差,更新不及时,过多不可用的地址,以及延时较大等问题都干扰实际使用的效果。对于代理地址,期望是越多越好,但是对于代理质量有着更高的要求,宁缺勿滥,因此`proxy-pool`不再将抓取到的代理地址保存至数据库,而调整为定期从免费代理网站下抓取代理地址,使用该地址去测试其可用性(默认配置为访问baidu),测试可用则添加至可用代理地址列表中,如此循环一直抓取新的地址,一直校验。对于已校验可用的代理地址,也定期重新校验是否可用,默认校验间隔为30分钟。
注意:网页部分有增加百度统计,部署时可先删除。
![]()
## 常用配置
对于有特别需求,可以调整默认的配置,主要的配置如下:
抓取代理网站列表配置(暂时只实现了三个网站的抓取):
```yml
crawler:
- xici
- ip66
- kuai
```由于各网站对访问IP频率限制的不同,可根据实际使用中调整各网站的抓取间隔,如设置`xici`的抓取延时为10分钟(如果不配置则为默认值2分钟):
```yml
xici:
interval: 10m
```默认的检测方式是通过代理地址去访问`baidu`,可根据应用场景调整相应的配置:
```yml
detect:
# 检测时间(定时对现可用的代理地址重新检测)
interval: 30m
# 检测地址
url: https://www.baidu.com/
# 检测超时
timeout: 3s
# 最大次数
maxTimes: 3
```## 程序设计
- [config](./doc/config.md)
- [crawler](./doc/crawler.md)