Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/nekolr/slime
🍰 A visual crawler management platform
https://github.com/nekolr/slime
crawler spider visual-crawler websocket
Last synced: about 7 hours ago
JSON representation
🍰 A visual crawler management platform
- Host: GitHub
- URL: https://github.com/nekolr/slime
- Owner: nekolr
- License: mit
- Created: 2021-05-10T09:31:34.000Z (over 3 years ago)
- Default Branch: master
- Last Pushed: 2023-09-04T06:07:52.000Z (about 1 year ago)
- Last Synced: 2023-09-04T23:11:56.198Z (about 1 year ago)
- Topics: crawler, spider, visual-crawler, websocket
- Language: Java
- Homepage:
- Size: 2.48 MB
- Stars: 63
- Watchers: 3
- Forks: 28
- Open Issues: 4
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
## 介绍
一个可视化的爬虫平台。以流程图的方式配置爬虫,基本上无需编写代码即可完成工作。本项目源自开源项目 [spider-flow](https://github.com/ssssssss-team/spider-flow) ,本着学习的目的,在它的基础上进行了重构,修复了一些问题,并增加了一些新的功能。
## 特性
- 支持 xpath 和 css 选择器
- 支持选择器提取、正则提取、json 提取等
- 支持 Cookie 自动管理
- 支持抓取由 js 动态渲染的页面
- 支持代理
- 支持多数据源
- 内置常用的字符串、日期、文件、加解密等函数
- 支持结果保存至多目的地(数据库、csv 文件等)
- 支持插件扩展(自定义执行器,自定义函数等)
- 支持任务日志
- 支持爬虫可视化调试新增的特性:
- 采用内置数据库 [H2](https://github.com/h2database/h2database) ,做到开箱即用
- 支持同步执行,对于执行结果有顺序要求的可以使用该功能
- 增加随机 User-Agent(数据来自:[useragentstring.com](http://useragentstring.com/pages/useragentstring.php) )
- 增加代理的管理界面,方便进行代理的手工添加(不推荐)和启动代理的自动管理功能
- 增加身份认证机制,默认账号和密码都是 slime,可以通过环境变量 `SLIME_USERNAME` 和 `SLIME_PASSWORD` 修改
- 增加 Feed 解析功能
- 增加延迟执行节点
- 通过远程 WebDriver 来操纵浏览器(本地不用再加载驱动,更省心)## 感谢
[spider-flow](https://github.com/ssssssss-team/spider-flow) - 新一代爬虫平台,以图形化方式定义爬虫流程,不写代码即可完成爬虫。## 免责声明
请勿使用本项目进行任何可能会违反法律规定和道德约束的工作。如您选择使用本项目,即代表您遵守此声明,作者不承担由于您违反此声明所带来的任何法律风险和损失。