https://github.com/baifei2014/crawl
selenium异步爬取网页图片
https://github.com/baifei2014/crawl
django docker mysql python python3 rabbitmq selenium
Last synced: 10 months ago
JSON representation
selenium异步爬取网页图片
- Host: GitHub
- URL: https://github.com/baifei2014/crawl
- Owner: baifei2014
- Created: 2019-11-29T03:11:10.000Z (over 6 years ago)
- Default Branch: master
- Last Pushed: 2019-11-29T03:18:11.000Z (over 6 years ago)
- Last Synced: 2025-04-04T20:36:33.115Z (about 1 year ago)
- Topics: django, docker, mysql, python, python3, rabbitmq, selenium
- Language: Python
- Size: 27.3 KB
- Stars: 14
- Watchers: 1
- Forks: 1
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# 背景简介
一朋友需要下载网页中大量图片,但是一个个点击下载太麻烦,问如何自动将所有图片下载到本地。一开始想使用python爬虫框架scrapy来做这件事,但是会触发网站反爬机制,比较难解决。后来决定使用selenium自动化测试框架来做这件事情,通过自动化测试框架打开页面,就像人操作浏览器打开是一样的,不会轻易的触发反爬机制。于是我就开始做这个项目。
爬取网页图片包含以下几个方面
- 基于python3的selenium页面解析工具集
- docker一键式部署解决依赖
- django常驻进程脚本开发
- rabbitmq异步任务消费
# 快速使用
1. 本地安装
- git
- docker
- docker-compose
2. 克隆项目
```
$ git clone git@github.com:baifei2014/crawl.git
```
3. 拷贝并命名配置文件
```
$ cd crawl
$ cp env.sample .env
$ docker-compose up
```
这时,如果生产者已经准备好,发送消息时,就能执行自动下载图片任务了
# License
MIT