Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/zhangyunhao116/mini-spider
简单、实用的爬虫工具,仅需四步创建属于你的爬虫程序!
https://github.com/zhangyunhao116/mini-spider
crawler python spider
Last synced: about 1 month ago
JSON representation
简单、实用的爬虫工具,仅需四步创建属于你的爬虫程序!
- Host: GitHub
- URL: https://github.com/zhangyunhao116/mini-spider
- Owner: zhangyunhao116
- License: other
- Created: 2017-03-10T04:36:27.000Z (almost 8 years ago)
- Default Branch: master
- Last Pushed: 2018-02-08T07:42:17.000Z (almost 7 years ago)
- Last Synced: 2024-11-07T06:43:37.634Z (about 2 months ago)
- Topics: crawler, python, spider
- Language: Python
- Homepage:
- Size: 1.63 MB
- Stars: 48
- Watchers: 8
- Forks: 23
- Open Issues: 3
-
Metadata Files:
- Readme: README.md
- License: LICENSE.txt
Awesome Lists containing this project
README
# Mini-Spider
[![PyPI](https://img.shields.io/pypi/v/yagmail.svg?style=flat-square)](https://pypi.python.org/pypi/mini-spider/)
[![platform](https://img.shields.io/badge/python-3.5-green.svg)]()
[![license](https://img.shields.io/github/license/mashape/apistatus.svg?style=flat-square)](https://pypi.python.org/pypi/mini-spider/)Mini-Spider是一个实用的爬虫工具,它的意义在于快速获得你所要的资源,而不用去关注诸如爬虫构造、数据存储、网络环境、语言实现等一系列的事情。现在你只需要简单的几个命令,就可以创建一个爬虫,并完成你的任务!
使用mini-spider,你仅需要两步即可创建属于你自己的爬虫!(大部分时候)
## 特性
- [x] 网页自动提取资源并根据算法分类(包括完整url和所有html标签内容)
- [x] 根据资源自动生成提取器
- [x] 自定义提取器以及Host数据
- [x] 自动将提取内容加入相应数据库
- [x] 自动分类下载,断点续传
- [x] 数据库导入和导出简单地说,你只需要几个命令就可以爬取你想要的资源!
## 安装
安装前注意:
- 只依赖于python 3.x ,不兼容pyhon 2.x
- 本项目不需要任何第三方依赖。
下载整个项目,切换到本目录,在终端中执行
```console
$ python3 setup.py install
```或者,使用pip下载
```console
$ pip3 install mini-spider
```## 如何使用
## [Mini-spider使用教程](http://pythonhosted.org/mini-spider)
## 示例
这里演示使用三个命令创建爬虫,后使用两个命令完成全部任务。
示例目标:提取[这里](http://bbs.fengniao.com/forum/9373824.html)作者发布的所有图片
![example](https://github.com/ZYunH/Mini-Spider/blob/master/example.gif)
## 当前版本
Ver 0.0.4 : 基本功能测试阶段。