Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/jannchie/simpyder
超高速异步协程Python爬虫
https://github.com/jannchie/simpyder
crawler python spider
Last synced: about 2 months ago
JSON representation
超高速异步协程Python爬虫
- Host: GitHub
- URL: https://github.com/jannchie/simpyder
- Owner: Jannchie
- License: mit
- Created: 2020-01-16T17:07:50.000Z (almost 5 years ago)
- Default Branch: master
- Last Pushed: 2023-02-15T15:54:32.000Z (almost 2 years ago)
- Last Synced: 2024-10-11T20:22:30.614Z (3 months ago)
- Topics: crawler, python, spider
- Language: Python
- Homepage: https://pypi.org/project/simpyder/
- Size: 65.4 KB
- Stars: 77
- Watchers: 3
- Forks: 24
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- Funding: .github/FUNDING.yml
- License: LICENSE
Awesome Lists containing this project
README
# Simpyder - Simple Python Spider
Simpyder - 轻量级**协程**Python爬虫
## 特点
- 轻量级:下载便利,依赖较少,使用简单。
- 协程:单线程,通过协程实现并发。
- 可定制:简单配置,适应各种爬取场合。
## 快速开始### 下载
```bash
#使用pip3
pip3 install simpyder --user
``````bash
# 更新包
pip3 install simpyder --upgrade
```### 编码
用户只需要定义三个函数,实现三个模块:
#### 链接获取
我们需要一个定义一个[异步生成器](https://docs.python.org/zh-cn/3/c-api/gen.html),用于产生链接。
``` python
async def gen_url():
for each_id in range(100):
yield "https://www.biliob.com/api/video/{}".format(each_id)
```#### 链接解析
我们需要定义一个解析链接的函数。其中第一个参数是Response对象,也就是上述函数对应URL的访问结果。
该函数需要返回一个对象,作为处理结果。
注意,与普通函数不同,这是一个协程函数。需要在前面加上`async`。代表该函数是异步的。
``` python
async def parse(response):
return response.xpath('//meta[@name="title"]/@content')[0]
```#### 数据导出
上面函数的处理结果将在这个函数中统一被导出。下列例子为直接在控制台中打印导出结果。
保存需要IO操作,因此这个函数可能运行较慢,因此也需要是异步的。我们在前面添加`async`关键词
``` python
async def save(item):
print(item)
```### 然后将这些模块组成一个Spider
首先导入爬虫对象:
``` python
import AsynSpider from simpyder.spiders
```你可以这样组装Spider
``` python
spider = AsyncSpider()
spider.gen_url = gen_url
spider.parse = parse
spider.save = save
```### 接着就可以开始爬虫任务
``` python
s.run()
```### 你也可以通过构造函数进行一些配置
``` python
spider = AsyncSpider(name="TEST")
```## 示例程序
``` python
from simpyder.spiders import AsynSpider# new一个异步爬虫
s = AsynSpider()# 定义链接生成的生成器,这里是爬取800次百度首页的爬虫
def g():
count = 0
while count < 800:
count += 1
yield "https://www.baidu.com"# 绑定生成器
s.gen_url = g# 定义用于解析的异步函数,这里不进行任何操作,返回一段文本
async def p(res):
return "parsed item"# 绑定解析器
s.parse = p# 定义用于存储的异步函数,这里不进行任何操作,但是返回2,表示解析出2个对象
async def s(item):
return 2# 绑定存储器
s.save = s# 运行
s.run()```
## 理论速率
运行上述代码,可以得到单进程、并发数:64、仅进行计数操作的下载速率:
``` log
[2020-09-02 23:42:48,097][CRITICAL] @ Simpyder: user_agent: Simpyder ver.0.1.9
[2020-09-02 23:42:48,169][CRITICAL] @ Simpyder: concurrency: 64
[2020-09-02 23:42:48,244][CRITICAL] @ Simpyder: interval: 0
[2020-09-02 23:42:48,313][INFO] @ Simpyder: 已经爬取0个链接(0/min),共产生0个对象(0/min)
[2020-09-02 23:42:48,319][INFO] @ Simpyder: Start Crawler: 0
[2020-09-02 23:42:53,325][INFO] @ Simpyder: 已经爬取361个链接(4332/min),共产生658个对象(7896/min)
[2020-09-02 23:42:58,304][INFO] @ Simpyder: 已经爬取792个链接(5280/min),共产生1540个对象(10266/min)
[2020-09-02 23:43:03,304][INFO] @ Simpyder: 已经爬取1024个链接(4388/min),共产生2048个对象(8777/min)
[2020-09-02 23:43:05,007][CRITICAL] @ Simpyder: Simpyder任务执行完毕
[2020-09-02 23:43:05,008][CRITICAL] @ Simpyder: 累计消耗时间:0:00:16.695013
[2020-09-02 23:43:05,008][CRITICAL] @ Simpyder: 累计爬取链接:1024
[2020-09-02 23:43:05,009][CRITICAL] @ Simpyder: 累计生成对象:2048
```---
- 该项目由[@Jannchie](https://github.com/Jannchie)维护
- 你可以通过邮箱[[email protected]]([email protected])进行联系