Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/ssssssss-team/spider-flow
新一代爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫。
https://github.com/ssssssss-team/spider-flow
crawler jsoup spider spider-flow web-crawler web-spider webcrawler webspider xpath
Last synced: about 20 hours ago
JSON representation
新一代爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫。
- Host: GitHub
- URL: https://github.com/ssssssss-team/spider-flow
- Owner: ssssssss-team
- License: mit
- Created: 2020-03-27T11:07:15.000Z (over 4 years ago)
- Default Branch: master
- Last Pushed: 2023-06-14T22:27:23.000Z (over 1 year ago)
- Last Synced: 2024-12-04T12:07:58.840Z (8 days ago)
- Topics: crawler, jsoup, spider, spider-flow, web-crawler, web-spider, webcrawler, webspider, xpath
- Language: Java
- Homepage: https://www.spiderflow.org
- Size: 3.23 MB
- Stars: 9,658
- Watchers: 95
- Forks: 1,872
- Open Issues: 20
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
- awesome - ssssssss-team/spider-flow - 新一代爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫。 (Java)
- awesome-hacking-lists - ssssssss-team/spider-flow - 新一代爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫。 (Java)
- my-awesome - ssssssss-team/spider-flow - flow,web-crawler,web-spider,webcrawler,webspider,xpath pushed_at:2023-06 star:9.7k fork:1.9k 新一代爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫。 (Java)
README
[介绍](#介绍) | [特性](#特性) | [插件](#插件) | DEMO站点 | 文档 | 更新日志 | [截图](#项目部分截图) | [其它开源](#其它开源项目) | [免责声明](#免责声明)
## 介绍
平台以流程图的方式定义爬虫,是一个高度灵活可配置的爬虫平台## 特性
- [x] 支持Xpath/JsonPath/css选择器/正则提取/混搭提取
- [x] 支持JSON/XML/二进制格式
- [x] 支持多数据源、SQL select/selectInt/selectOne/insert/update/delete
- [x] 支持爬取JS动态渲染(或ajax)的页面
- [x] 支持代理
- [x] 支持自动保存至数据库/文件
- [x] 常用字符串、日期、文件、加解密等函数
- [x] 支持插件扩展(自定义执行器,自定义方法)
- [x] 任务监控,任务日志
- [x] 支持HTTP接口
- [x] 支持Cookie自动管理
- [x] 支持自定义函数## 插件
- [x] [Selenium插件](https://gitee.com/ssssssss-team/spider-flow-selenium)
- [x] [Redis插件](https://gitee.com/ssssssss-team/spider-flow-redis)
- [x] [OSS插件](https://gitee.com/ssssssss-team/spider-flow-oss)
- [x] [Mongodb插件](https://gitee.com/ssssssss-team/spider-flow-mongodb)
- [x] [IP代理池插件](https://gitee.com/ssssssss-team/spider-flow-proxypool)
- [x] [OCR识别插件](https://gitee.com/ssssssss-team/spider-flow-ocr)
- [x] [电子邮箱插件](https://gitee.com/ssssssss-team/spider-flow-mailbox)## 项目部分截图
### 爬虫列表
![爬虫列表](https://images.gitee.com/uploads/images/2020/0412/104521_e1eb3fbb_297689.png "list.png")
### 爬虫测试
![爬虫测试](https://images.gitee.com/uploads/images/2020/0412/104659_b06dfbf0_297689.gif "test.gif")
### Debug
![Debug](https://images.gitee.com/uploads/images/2020/0412/104741_f9e1190e_297689.png "debug.png")
### 日志
![日志](https://images.gitee.com/uploads/images/2020/0412/104800_a757f569_297689.png "logo.png")## 其它开源项目
- [spider-flow-vue,spider-flow的前端](https://gitee.com/ssssssss-team/spider-flow-vue)
- [magic-api,一个以XML为基础自动映射为HTTP接口的框架](https://gitee.com/ssssssss-team/magic-api)
- [magic-api-spring-boot-starter](https://gitee.com/ssssssss-team/magic-api-spring-boot-starter)## 免责声明
请勿将`spider-flow`应用到任何可能会违反法律规定和道德约束的工作中,请友善使用`spider-flow`,遵守蜘蛛协议,不要将`spider-flow`用于任何非法用途。如您选择使用`spider-flow`即代表您遵守此协议,作者不承担任何由于您违反此协议带来任何的法律风险和损失,一切后果由您承担。