https://github.com/baifei2014/crawl

selenium异步爬取网页图片
https://github.com/baifei2014/crawl

django docker mysql python python3 rabbitmq selenium

Last synced: 11 months ago
JSON representation

selenium异步爬取网页图片

Host: GitHub
URL: https://github.com/baifei2014/crawl
Owner: baifei2014
Created: 2019-11-29T03:11:10.000Z (over 6 years ago)
Default Branch: master
Last Pushed: 2019-11-29T03:18:11.000Z (over 6 years ago)
Last Synced: 2025-04-04T20:36:33.115Z (over 1 year ago)
Topics: django, docker, mysql, python, python3, rabbitmq, selenium
Language: Python
Size: 27.3 KB
Stars: 14
Watchers: 1
Forks: 1
Open Issues: 0
Metadata Files:
- Readme: README.md

Awesome Lists containing this project

README

# 背景简介

一朋友需要下载网页中大量图片，但是一个个点击下载太麻烦，问如何自动将所有图片下载到本地。一开始想使用python爬虫框架scrapy来做这件事，但是会触发网站反爬机制，比较难解决。后来决定使用selenium自动化测试框架来做这件事情，通过自动化测试框架打开页面，就像人操作浏览器打开是一样的，不会轻易的触发反爬机制。于是我就开始做这个项目。

爬取网页图片包含以下几个方面

- 基于python3的selenium页面解析工具集
- docker一键式部署解决依赖
- django常驻进程脚本开发
- rabbitmq异步任务消费

# 快速使用
1. 本地安装
- git
- docker
- docker-compose
2. 克隆项目
```
$ git clone git@github.com:baifei2014/crawl.git
```
3. 拷贝并命名配置文件
```
$ cd crawl
$ cp env.sample .env
$ docker-compose up
```

这时，如果生产者已经准备好，发送消息时，就能执行自动下载图片任务了

# License
MIT

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/baifei2014/crawl

Awesome Lists containing this project

README