Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/fanyong920/crawlitem
用于爬取淘宝天猫网页的谷歌插件
https://github.com/fanyong920/crawlitem
crawler javascript taobao tmall
Last synced: 3 months ago
JSON representation
用于爬取淘宝天猫网页的谷歌插件
- Host: GitHub
- URL: https://github.com/fanyong920/crawlitem
- Owner: fanyong920
- License: apache-2.0
- Created: 2019-01-17T07:24:57.000Z (about 6 years ago)
- Default Branch: master
- Last Pushed: 2020-06-04T12:12:18.000Z (over 4 years ago)
- Last Synced: 2024-10-11T20:12:00.636Z (3 months ago)
- Topics: crawler, javascript, taobao, tmall
- Language: JavaScript
- Homepage:
- Size: 190 KB
- Stars: 15
- Watchers: 0
- Forks: 10
- Open Issues: 1
-
Metadata Files:
- Readme: readme.md
- License: LICENSE
Awesome Lists containing this project
README
该插件适用chrome,360,搜狐等浏览器
## 起源
起初是想写一个爬取淘淘宝天猫商品的插件,现在这个插件抓取所有网站的整个网页内容。由于抓取的是整个网页内容,你得到整个网页内容后需要自己解析所需要的信息。下面是这个插件的使用步骤:**1.下载该项目到本地电脑,解压,得到crawlItem文件夹**
**2.打开chrome浏览器,在地址栏直接输入chrome://extensions/ 打开扩展程序页面**
**
或者点击界面右上角三点->更多工具->扩展程序也可实现同样的效果****3.在打开的页面右上点击开发者模式按钮,打开开发者模式**
**4.点击加载已解压的扩展程序,选择刚才的crwalItem文件夹,安装谷歌插件,稍等片刻,就能看到页面多了一个插件,如果安装的插件没有自动打开,请点击插件右下角的按钮,打开插件,同时在浏览器右上角也多了一个图标**
**5.点击图标,看到有两个选项,根据所需打开相关选项。**```java
打开爬取页面功能:勾选该复选框,才会向后台接口发送页面内容,同时接收数据接口出现
自动关闭页面:勾选该复选框,爬取页面完成后,页面自动关闭。
接收数据接口:接收页面数据的接口,需要自己定义,默认http://localhost:8080/content,与 打开爬取页面功能 联动
```
接收数据接口样例:
```java
package com.molikam.shop.controller;import java.util.concurrent.atomic.AtomicInteger;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RequestMethod;
import org.springframework.web.bind.annotation.RestController;@RestController
public class CrawlerController {
AtomicInteger count = new AtomicInteger(0);
@RequestMapping(value="/content",method={RequestMethod.POST})
public void getContent(String content){
System.out.println(count.incrementAndGet());
System.out.println(content);
}
}```
当您打开网页爬取功能,并且定义好接收数据接口,此时,您可以随意打开一个网页,如果顺利的话,接口会打印出网页的内容。
已经发布到谷歌商店,可搜索下载
![](https://i.loli.net/2020/04/10/6yxNbqOljRBdk94.png)
插件地址:[点我](https://chrome.google.com/webstore/detail/chromecrawl/pcadbaceejnkfhkoomcbdifcpfefkmbl?authuser=0&hl=zh-CN)#### 我的JAVA爬虫框架
https://github.com/fanyong920/jvppeteer