https://github.com/cecilxx/jd-spider

NodeJS京东商品详情页爬虫：轮播图，详情图，价格，店铺信息，是否自营等
https://github.com/cecilxx/jd-spider

jd-item jd-spider node nodejs sku spider

Last synced: 2 months ago
JSON representation

NodeJS京东商品详情页爬虫：轮播图，详情图，价格，店铺信息，是否自营等

Host: GitHub
URL: https://github.com/cecilxx/jd-spider
Owner: Cecilxx
Created: 2020-04-10T09:06:44.000Z (about 5 years ago)
Default Branch: master
Last Pushed: 2023-03-05T10:53:08.000Z (over 2 years ago)
Last Synced: 2024-12-30T12:10:15.363Z (6 months ago)
Topics: jd-item, jd-spider, node, nodejs, sku, spider
Language: JavaScript
Homepage:
Size: 338 KB
Stars: 13
Watchers: 2
Forks: 7
Open Issues: 3
Metadata Files:
- Readme: README.md

Awesome Lists containing this project

README

# jd-spider
爬取京东商品详情页信息：价格，主图，详情图，店铺信息等

## 反爬策略
通过多次实验发现，京东反爬策略大致如下：
1. 同一IP，同时访问链接次数大于100以上，定义为爬虫，会重定向到京东首页；

## 爬虫策略
1. 爬取的链接数量过大，采用分批次爬取，每次不超过100个链接数，可以自定义每个批次的数量，在上一个批次全部爬取完之后，进行下一批次的爬取
2. 文本信息，轮播图片来源于相应sku的h5页面，无论提供的链接是pc端还是h5端的，最终都转化为h5链接（因为h5页面比较好爬）
3. 详情图片默认来源于pc页面，若没有，则取对应的h5页面的图片链接

## 启动方式
默认只爬取页面文本信息，并导出excel
```bash
npm run jd
```
or
一键爬取文本信息和图片信息
```bash
npm run jdImg
```

## 需要的数据
1. 默认配置下，只需要下载resource的template.xlsx,并替换需要爬取的url链接，然后执行命令，就可以开始了
2. 若不使用template.xlsx模版，则需要修改相应配置文件 `config.js`

## 默认excel导出项
1. 链接
2. 商品名称
3. 价格
3. 店铺名称
4. 是否为自营

## 默认图片下载
1. 分为主图（轮播图）和详图（详情图）
2. 按sku建立文件夹
3. 若需按其他规则建立文件夹，需要修改相应代码 `download.js`

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/cecilxx/jd-spider

Awesome Lists containing this project

README