Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/skygongque/spider
爬虫合集
https://github.com/skygongque/spider
nodejs python3
Last synced: 3 days ago
JSON representation
爬虫合集
- Host: GitHub
- URL: https://github.com/skygongque/spider
- Owner: skygongque
- Created: 2020-04-10T15:15:06.000Z (over 4 years ago)
- Default Branch: master
- Last Pushed: 2024-01-12T13:09:22.000Z (10 months ago)
- Last Synced: 2024-01-13T02:48:33.876Z (10 months ago)
- Topics: nodejs, python3
- Language: Python
- Homepage:
- Size: 12.8 MB
- Stars: 100
- Watchers: 7
- Forks: 34
- Open Issues: 4
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
![pic](https://img.shields.io/badge/python-v3.7-green)
![pic](https://img.shields.io/badge/node-v12.16-green)
# 爬虫项目整理
> 声明:本项目的所有代码仅用于科研学习之用,禁止商用,否则造成的后果与本人无关## [网易云音乐下载](./01-网易音乐(execjs或express使用)/readme.md)
nodejs express
params和encSecKey参数
直接扣代码补全缺少的环境即可
Crypto-js库用npm安装
## [网易云音乐评论爬虫](./02-网易音乐评论(AES-RSA)/readme.md)
params和encSecKey参数
AES/CBC
`pad = lambda s: s + (16 - len(s) % 16) * chr(16 - len(s) % 16)`
RSA/nopading
## [微博模拟登录](./03-微博登录(RSA)/readme.md)
RSA/PKCS1_v1_5
用python的pycryptodome或rsa库都可以实现
下载验证码图片手动输入结果 可以接入深度学习的[验证码识别模型](https://github.com/skygongque/captcha-weibo)准确率98%以上
## [微博图片批量下载](./04-微博图片/readme.md)
用asyncio + aiohttp异步下载图片## 知乎x-zse-96(jsvmp 插桩还原算法)
md5 + 位运算 索引固定字符串
## [抖音web signature](https://github.com/skygongque/douyin_signature)
~~目前官方自己的**web端**也无法访问用户主页,无法得到tac参数,**所以该方法已经失效**,可以尝试逆向抖音的app。~~
~~通过补环境的方式得到可以在node环境单独运行的签名算法,需要tac参数(网页端源码中获取)。~~
相关环境的补充
```
Audio = {}
document = {
createElement: function() {
return canvas
}
};
canvas = {
getContext: function getContext() {
return CanvasRenderingContext2D
},
toDataURL: function toDataURL() {
return "data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAADAAAAAQCAYAAABQrvyxAAACyUlEQVRIS8XWTYhVZRgH8N8dkPFqJqgI4sKmTUSgaBCKihCI5dZFUEaLwHAThjujEnXjpkAUHSRc+AEtFJIWKWRBSR9QENgiggplNqkTlXBnhjveeM6cF955PXccFJ2zuPec99zz3v/X87+3ZfrRK67jslWvxb103vCxx770DN5sApSAloBLco+SzFKcxbZClmG8gw7uIdCkfnq+BDsXbmzEizhYg2p0oEn1PEK5II/SgTKPbXyE89iBt+oPDDcpWz7cbwZysq/h9Vqd9/E2fkWsn0GsJeVi/1DvE6xJQLJoNA1T7PN0wx73zMBMDsTGTXMQ1n6TAfkJ63ACr+IcDmekUr6D0FUkdb+uc18SCPCba4ILitlodGA2ik8R7Rmw2E4ThnR9oVsRjJyuxL/4FLdwJCOQE07O5CBjQONIRINk7l4iOOMQB4mkdn6eajWgM2mhYU855KhRXRMO6DqKD/Ay3sWygkCKUE6qJPAegmis3+5T0I0EEtj8PUVn+r2e+Zb52HqjPqti8ptFnnPHPhzH6lq5+KIcbOwX4AJkAtjkQK50Pi9pfWfEKR/ifjVaOjC1wcLq9ZoPXbTLZfyi7Vljlep/4nSd8ZzA9bpNokUuzYJASTSBT3Mzcr8qbO77CNBSk0ZNGrPHoO+r1plnta4YxhxcTiAAbMcPs3QgXLpSC1EmKfbd38+B/jMQ4NvuWoTlPnfNKfyIES3P142U12Y/B6oI1Kj6RSgcOIZX6lqe0YHyL0Su/tT5gJ5JbSt03PSfrl34vco//2i522fgHma5/M1Ie20KZ0oHEsj5Fhireqijra2j4wlL3HHMGrv9bC2+tKUGf1vLxMOgfNBnp89AT8sGq3xrHE/WVRo0ojQHvWSHK/Y6ab83qhz/gZsYr34V5uAoCQwYstV1F6zzlXlaxg0aMeQvq7zgqu+qno+WuYG/5xJ86PU//5znHgwZKlQAAAAASUVORK5CYII="
},
}CanvasRenderingContext2D = {
arc: function arc() {},
stroke: function stroke() {},
fillText: function fillText() {},
}
window = {
document: {
location:{},
_zid:2
},
}
```~~nodejs express puppeteer
1.得到指定uid请求返回的tac
2.puppeteer驱动chromium
在console中执行签名算法得到signature~~## [喜马拉雅有声书爬虫](./06-喜马拉雅(自研加密算法%20直接扣代码)/readme.md)
纯JavaScript爬虫
通过fileId和ep等参数还原真实地址
直接扣代码即可## [喜马拉雅模拟登录](https://github.com/skygongque/login-ximalaya)
opencv-python 识别滑块验证码的缺口识别成功率约 60-70%
参考腾讯防水墙缺口的识别算法简单修改
因为喜马拉雅滑块没有检测轨迹,只对post的缺口位置经过简单的偏移
可以实现此滑动验证码的突破## [58同城](./14-58同城登录(RSA%20fingerprint)/../14-58同城登录(RSA%20fingerprint)/58loginEncryptPassword.js)
密码加密RSA
有浏览器指纹## [豆瓣app](./08-豆瓣app%20(Frida%20hook实战)/readme.md) _sig
> frida 简单使用[安装frida环境](./08-豆瓣app%20(Frida%20hook实战)/installFrida.md)
[豆瓣app _sig 分析](./08-豆瓣app%20(Frida%20hook实战)/readme.md)## [懒人听书app](./10-懒人听书APP(MD5签名)/readme.md)
> md5 哈希
> frida hook 简单使用## 猫眼电影字体反爬
[猫眼电影字体反爬](https://github.com/skygongque/knn-font)
使用knn(k近邻算法)
字体文件的标注使用font creator 软件## 中国知网
[中国知网](./17-中国知网(CNKI)(英数验证码)/readme.MD)## 百度翻译
[百度翻译](./19-百度翻译(自研签名算法%20直接扣代码)/readme.md)## 百度登录RSA免扣调用实战记录
[百度登录RSA免扣调用实战记录](./21-RPC百度登录免扣实现RSA实战记录/readme.md)> 文章可能首次发表于吾爱破解论坛,以下账户也是本人
> https://www.52pojie.cn/home.php?mod=space&uid=965057