https://github.com/viper373/jd-comments
爬取京东商品评论数据
https://github.com/viper373/jd-comments
crawler-python data-analysis python spider
Last synced: about 2 months ago
JSON representation
爬取京东商品评论数据
- Host: GitHub
- URL: https://github.com/viper373/jd-comments
- Owner: Viper373
- License: mit
- Created: 2024-04-22T15:56:50.000Z (about 1 year ago)
- Default Branch: 1.0
- Last Pushed: 2024-08-21T02:32:17.000Z (10 months ago)
- Last Synced: 2025-03-28T19:07:40.515Z (2 months ago)
- Topics: crawler-python, data-analysis, python, spider
- Language: JavaScript
- Homepage:
- Size: 3.23 MB
- Stars: 11
- Watchers: 1
- Forks: 1
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
python爬取京东商品评论数据
> 作者:Nong-Yi(本人属于借鉴并改进,如有侵权请联系删除,谢谢)
>
> 版本:1.1.0
>
> 版权:©️Nong-Yi(以下内容为原作者原创,转载请注明出处)## 改进(所有更新内容均在原作者基础上增加)
- ✅增加了随机UA头,构建了Cookie池(jd_cookies.py),为爬取多种商品做好防风控
- ✅增加了data目录,用于存储爬取到的数据
- ✅将每一条评论构建为字典,append到列表中,最后将列表写入CSV文件
- ❗❗(特别注意)经本人多次测试,最终爬取的单个商品评论数据中有重复部分,建议使用drop_duplicates()去重,不知道的可自行百度,非常简单
- ❗❗(特别注意)cookie不稳定,容易过期或被服务器拒绝,导致报KeyError:'maxPage'错误。最好不要让cookie池中的账号退出登录,也可人工点击页面的“商品评价”处,手动过服务器的验证(旋转验证码)
- ❗❗(特别注意)单个商品规格的评论可能会报KeyError:'comments'错误,目前暂未解决
- 🚩TODO:
- 1、增加代理池
- 2、优化各个函数,重写变量的命名
- 3、使用rich库代替tqdm模块模块
模块使用了re、httpx这些库
httpx模块是一个可以发送网络请求的模块,与requests库相似但有一个requests库没有的功能,就是httpx可以发送http2协议的请求
re库是一个正则表达式的一个工具
关于这两个库大家可以去官网了解我就不过多介绍了
# 安装方式(安装了可以跳过):
pip install httpx
# 上面安装的httpx没办法使用http2请求我们还需要继续安装下面这个
pip install httpx[http2]
# 这样就可以使用http2协议进行请求了
pip install re作者的网站地址:www.nong-yi.cn