https://github.com/easychen/catgate
CatGate is a small crawler framework based on Chrome extension . CatGate是一个基于浏览器插件的数据抓取工具。做成浏览器插件无需模拟登入,能最真实的模仿用户行为和特征。
https://github.com/easychen/catgate
Last synced: 5 months ago
JSON representation
CatGate is a small crawler framework based on Chrome extension . CatGate是一个基于浏览器插件的数据抓取工具。做成浏览器插件无需模拟登入,能最真实的模仿用户行为和特征。
- Host: GitHub
- URL: https://github.com/easychen/catgate
- Owner: easychen
- Created: 2017-06-27T14:37:01.000Z (about 9 years ago)
- Default Branch: master
- Last Pushed: 2017-10-16T02:54:53.000Z (over 8 years ago)
- Last Synced: 2025-02-28T01:47:08.020Z (over 1 year ago)
- Language: Vue
- Homepage:
- Size: 1.27 MB
- Stars: 668
- Watchers: 37
- Forks: 79
- Open Issues: 1
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# CatGate
CatGate 是一个基于浏览器插件的数据抓取工具。做成浏览器插件无需模拟登入,能最真实的模仿用户行为和特征。
## 演示视频
http://weibo.com/1088413295/F9P1izhY2
## 功能

- ① CatGate 会访问这个URL,这个URL应该返回一个Json格式的数组,每一个元素一个字符串(即网址)。点 ② 按钮即可载入数据,并可按 ③ 进行查看,会自动排重。
- ⑤ CatGate 抓取到数据后,会直接 POST 给这个URL,key 为 content , 通过 $_REQUEST['content'] 即可获取抓取内容。
- ⑥ 默认一秒抓取一次,如果抓取失败太多,可以增加秒数。
- ④ 这是一个高级用法,就是 ① 这个 URL 可以不停的新增 URL,CatGate 会自动每隔一秒(可设置)去抓取并合并进来。
## Demo
进入 `php` 目录,运行 `php -S localhost:8000` 即可测试。
- list.php 这个页面生成了要抓取的页面列表,默认是微博收藏的页面。
- save.php 这个页面定义了如何处置抓到的数据,默认是保持成为文件。
## 安装插件
商店地址:https://chrome.google.com/webstore/detail/catgate/nncgefdjnpnipajdfnindaiockdadpab
如果你不想或不能在Chrome商店安装插件,可手工安装。
chrome > extentsion > load unpacked extension > ./ext
# License
CC,保留签名、非商用。