{"id":15012825,"url":"https://github.com/xishandong/crawlproject","last_synced_at":"2025-04-06T11:07:15.132Z","repository":{"id":182190437,"uuid":"668098835","full_name":"xishandong/crawlProject","owner":"xishandong","description":"python爬虫项目合集，从基础到js逆向，包含基础篇、自动化篇、进阶篇以及验证码篇。案例涵盖各大网站(xhs douyin weibo ins boss job，jd...)，你将会学到有关爬虫以及反爬虫、自动化和验证码的各方面知识","archived":false,"fork":false,"pushed_at":"2024-09-23T11:27:25.000Z","size":18113,"stargazers_count":1344,"open_issues_count":0,"forks_count":292,"subscribers_count":14,"default_branch":"main","last_synced_at":"2025-04-06T11:07:08.148Z","etag":null,"topics":["captcha","ddddocr","javascript","playwright","python","python-crawler","reverse-engineering"],"latest_commit_sha":null,"homepage":"","language":"JavaScript","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":null,"status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/xishandong.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":null,"code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null,"dei":null,"publiccode":null,"codemeta":null}},"created_at":"2023-07-19T03:01:04.000Z","updated_at":"2025-04-05T17:53:48.000Z","dependencies_parsed_at":"2024-12-09T23:30:29.937Z","dependency_job_id":null,"html_url":"https://github.com/xishandong/crawlProject","commit_stats":{"total_commits":97,"total_committers":2,"mean_commits":48.5,"dds":"0.030927835051546393","last_synced_commit":"f0973ac604104e206d738cf5937d2b68ccf398fb"},"previous_names":["xishandong/crawlproject"],"tags_count":0,"template":false,"template_full_name":null,"repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/xishandong%2FcrawlProject","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/xishandong%2FcrawlProject/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/xishandong%2FcrawlProject/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/xishandong%2FcrawlProject/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/xishandong","download_url":"https://codeload.github.com/xishandong/crawlProject/tar.gz/refs/heads/main","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":247471517,"owners_count":20944158,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":["captcha","ddddocr","javascript","playwright","python","python-crawler","reverse-engineering"],"created_at":"2024-09-24T19:43:16.947Z","updated_at":"2025-04-06T11:07:15.110Z","avatar_url":"https://github.com/xishandong.png","language":"JavaScript","funding_links":[],"categories":[],"sub_categories":[],"readme":"# 爬虫项目实战\n\n## 说明\n\n##### 作者个人博客\n[回锅炒辣椒的博客](https://www.xsblog.site/)\n\n所有项目均为作者**练手分享项目**，如遇**侵权请联系删除**，仅作**学习分享**，**不能进行任何商业活动**。\n\n由于程序完成的**时间问题**，部分项目可能**无法复用**。\n\n练习笔记见**note.txt**\n\n_此项目将持续更新_\n\n项目部分实战讲解见b站：https://space.bilibili.com/35242527/channel/collectiondetail?sid=1590251\n\n**下面是个人对于网站爬取难度评级**\n\n| 等级       | 标识  | 难度描述       |\n|----------|-----|------------|\n| 蜘蛛卵       | 0   | 入门          |\n| 幼蛛         | 00  | 踏过门槛了       |\n| 小蜘蛛       | *   | 初级          |\n| 大蜘蛛       | **  | 比初级高一点     |\n| 巨蜘蛛       | *** | 中等难度       |\n| 辉耀蜘蛛     | +   | 中上难度       |\n| 毒蛛         | ++  | 比较难         |\n| 蜘蛛王       | +++ | 难           |\n| 蜘蛛精       | KING| 地狱          |\n\n### 项目目录\n\n``` mermaid\ngraph TD;\n    基础篇--\u003erequest篇;\n    基础篇--\u003e解析html以及正则篇;\n    基础篇--\u003escrapy篇;\n    基础篇 --\u003e高性能异步爬虫;\n    基础篇--\u003efeapder;\n    自动化篇--\u003eselenium\n    自动化篇--\u003eplaywright;\n    进阶篇--\u003e综合案例;\n    进阶篇--\u003ejs逆向专题;\n    js逆向专题--\u003e请求头或响应数据加密;\n    js逆向专题--\u003e浏览器指纹检测;\n    js逆向专题--\u003ewebPack篇;\n    js逆向专题--\u003e环境检测篇;\n    js逆向专题--\u003ewasm篇;\n    验证码篇--\u003e滑块篇;\n    验证码篇--\u003e点选篇;\n```\n\n\u003e 项目所用到的第三方库\n\u003e\n\n ```bash\n pip install requests # requests库，爬虫的开始\n pip install curl_cffi # 标准tls请求库\n pip install lxml # xpath提取数据\n pip install playwright # 自动化需要\n pip install ddddocr # 识别验证码\n pip install selenium # 自动化需要，推荐playwright\n pip install scrapy # 爬虫框架\n pip install \"feapder[all]\" # 新一代爬虫框架\n pip install pycryptodome # python标准密码库\n pip install pyexecjs2 # python调用js代码\n pip install m3u8 # 下载m3u8视频\n pip install prettytable # 格式化输出\n pip install tqdm # 进度条\n pip install loguru # 强大的日志工具库\n pip install retrying # 强大的重试工具\n npm install crypto-js/cryptojs # 二选一，js标准密码库\n npm install jsdom # js模拟浏览器的dom和bom\n npm install tough-cookie # 浏览器cookie\n```\n\n## 基础篇\n\n### request篇\n\n| 难度标识 | 项目名     | 补充       | 快捷导航                                                                                            |\n|------|---------|----------|-------------------------------------------------------------------------------------------------|\n| 骑士侍从 | 百度网页    | 第一个爬虫程序  | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/request) |\n| 骑士侍从 | ua识别    | 初始反爬     | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/request) |\n| 骑士侍从 | 百度翻译    | 认识post请求 | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/request) |\n| 骑士侍从 | 豆瓣电影    | 基础       | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/request) |\n| 骑士侍从 | 肯德基位置查询 | json练习   | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/request) |\n\n### 解析html以及正则篇\n\n| 难度标识 | 项目名      | 补充             | 快捷导航                                                                                              |\n|------|----------|----------------|---------------------------------------------------------------------------------------------------|\n| 准骑士  | 获取fakeua | lxml解析         | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/lxml%26re) |\n| 准骑士  | 4k图片爬取   | lxml以及解决编码错误问题 | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/lxml%26re) |\n| 准骑士  | 58       | lxml以及分页爬取     | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/lxml%26re) |\n| 准骑士  | bs基础     | 初始bs           | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/lxml%26re) |\n| 准骑士  | bs案例     | 实战bs           | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/lxml%26re) |\n| 准骑士  | xpath基础  | 初始xpath        | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/lxml%26re) |\n| 准骑士  | xpath解析  | 练习xpath        | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/lxml%26re) |\n| 准骑士  | 正则基础     | 初始正则           | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/lxml%26re) |\n| 准骑士  | 正则练习     | 实战正则           | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/lxml%26re) |\n| 准骑士  | 简历爬取     | 以上的小综合         | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/lxml%26re) |\n\n### scrapy篇\n\n| 难度标识 | 项目名     | 补充                          | 快捷导航                                                                                           |\n|------|---------|-----------------------------|------------------------------------------------------------------------------------------------|\n| 大骑士  | bossjob | 一级页面爬取，可能不可用                | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/scrapy) |\n| 大骑士  | 双色球     | 都是基本scrapy操作                | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/scrapy) |\n| 大骑士  | 图片      | 都是基本scrapy操作                | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/scrapy) |\n| 大骑士  | 阳光政策    | 都是基本scrapy操作                | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/scrapy) |\n| 大骑士  | yi车数据爬取 | 带有js逆向，不过是入门级，以及大批量json数据解析 | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/scrapy) |\n| 大骑士  | 校花网     | 都是基本scrapy操作                | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/scrapy) |\n| 大骑士  | 网易新闻    | 都是基本scrapy操作                | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/scrapy) |\n| 大骑士  | 17k小说爬取 | 都是基本scrapy操作                | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/scrapy) |\n\n### 高性能异步爬虫\n\n| 难度标识 | 项目名         | 补充   | 快捷导航                                                                                                                                                    |\n|------|-------------|------|---------------------------------------------------------------------------------------------------------------------------------------------------------|\n| 骑士侍从 | 认识flask     | 基础知识 | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/%E9%AB%98%E6%80%A7%E8%83%BD%E5%BC%82%E6%AD%A5%E7%88%AC%E8%99%AB) |\n| 骑士   | 线程池基础       | 基础知识 | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/%E9%AB%98%E6%80%A7%E8%83%BD%E5%BC%82%E6%AD%A5%E7%88%AC%E8%99%AB) |\n| 大骑士  | meinv图片批量爬取 | 基础   | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/%E9%AB%98%E6%80%A7%E8%83%BD%E5%BC%82%E6%AD%A5%E7%88%AC%E8%99%AB) |\n| 大骑士  | 明星图片爬取      | 基础   | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/%E9%AB%98%E6%80%A7%E8%83%BD%E5%BC%82%E6%AD%A5%E7%88%AC%E8%99%AB) |\n| 大骑士  | 多任务协程       | 基础   | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/%E9%AB%98%E6%80%A7%E8%83%BD%E5%BC%82%E6%AD%A5%E7%88%AC%E8%99%AB) |\n| 大骑士  | 线程池应用       | 基础   | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E5%9F%BA%E7%A1%80%E7%AF%87/%E9%AB%98%E6%80%A7%E8%83%BD%E5%BC%82%E6%AD%A5%E7%88%AC%E8%99%AB) |\n\n### feapder\n| 难度标识     | 项目名     | 补充                                                  | 快捷导航                                                                                            |\n|----------|---------|-----------------------------------------------------|-------------------------------------------------------------------------------------------------|\n| 辉耀骑士     | 小红书数据采集    | 使用air模式的feapder，自定义csv储存管道，未来会以更多模式改写，以及更多功能加入，还迎补充 | [点这里](https://github.com/xishandong/crawlProject/tree/main/feapder%E7%AF%87) |\n## 自动化篇\n\n### selenium\n\n| 难度标识 | 项目名          | 补充      | 快捷导航                                                                                                      |\n|------|--------------|---------|-----------------------------------------------------------------------------------------------------------|\n| 骑士侍从 | 基础自动操作       | 基本自动化操作 | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%87%AA%E5%8A%A8%E5%8C%96%E7%AF%87/selenium) |\n| 骑士侍从 | 模拟登陆         | 练习自动化   | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%87%AA%E5%8A%A8%E5%8C%96%E7%AF%87/selenium) |\n| 骑士侍从 | 动作链和ifream处理 | 练习自动化   | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%87%AA%E5%8A%A8%E5%8C%96%E7%AF%87/selenium) |\n| 骑士侍从 | 无头浏览器和反检测    | 练习      | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%87%AA%E5%8A%A8%E5%8C%96%E7%AF%87/selenium) |\n| 骑士   | 12306模拟登录    | 多半不可用   | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%87%AA%E5%8A%A8%E5%8C%96%E7%AF%87/selenium) |\n| 骑士   | damai网       | 多半不可用   | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%87%AA%E5%8A%A8%E5%8C%96%E7%AF%87/selenium) |\n\n### playwright\n\n| 难度标识 | 项目名          | 补充                                                                                                                    | 快捷导航                                                                                                        |\n|------|--------------|-----------------------------------------------------------------------------------------------------------------------|-------------------------------------------------------------------------------------------------------------|\n| 骑士   | 邮政编码         | 通过地址查询邮政编码，使用同步方式，包含等待操作以及根据情况选择不同的表格，同时使用pandas对excel文件进行操作                                                          | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%87%AA%E5%8A%A8%E5%8C%96%E7%AF%87/playwright) |\n| 大骑士  | 采用本地浏览器进行反爬虫 | 我们使用自动化时有时会被检测，我们这里使用本地浏览器进行反爬虫，并且由于是本地浏览器，我们的session状态和cookie状态都是存在的，也就是说原本登录过的网站我们访问直接就是登录状态了，可以方便很多，不需要我们创建浏览器的上下文 | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%87%AA%E5%8A%A8%E5%8C%96%E7%AF%87/playwright) |\n| 大地骑士 | 采集资料         | 通过网站名采集网站的邮箱电话地址社交媒体链接，难点在于每个网站风格完全不一，所有数据也不一并且数量很大，写正则很不好写，处理异步也比较麻烦，仓库只列举了其中10个页面，需要编写者对正则以及异步playwright有一定的了解      | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%87%AA%E5%8A%A8%E5%8C%96%E7%AF%87/playwright) |\n| 大骑士  | 反检测浏览器       | 通过大牛的js文件创建一个反检测的浏览器，可以绕过绝大部分的检测                                                                                      | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%87%AA%E5%8A%A8%E5%8C%96%E7%AF%87/playwright) |\n| 大地骑士 | 起点vip小说爬取    | 通过屏幕快照的方式绕过起点vip小说的css反爬，用到的知识点有：定位盒子，截图，滑动，处理边界，合并截图。此方案不是最优解，欢迎大家补充                                                 | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%87%AA%E5%8A%A8%E5%8C%96%E7%AF%87/playwright) |\n\n## 进阶篇\n\n### 综合案例\n\n***\n\n| 难度标识 | 项目名          | 补充                                                                                                                                                                          | 快捷导航                                                                                                                         |\n|------|--------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------|------------------------------------------------------------------------------------------------------------------------------|\n| 骑士   | 某诗文网         | 验证码相关，登录以及图片验证码解决 --- ddddocr                                                                                                                                               | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%BF%9B%E9%98%B6%E7%AF%87/%E5%9F%BA%E7%A1%80%E7%BB%BC%E5%90%88) |\n| 大骑士  | 语言爬虫         | 利用网络将文本转为语言，支持中英韩三国语言                                                                                                                                                       | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%BF%9B%E9%98%B6%E7%AF%87/%E5%9F%BA%E7%A1%80%E7%BB%BC%E5%90%88) |\n| 大骑士  | b站综合         | 检查用户是否给你点赞，拉去消息列表，拉取点赞列表                                                                                                                                                    | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%BF%9B%E9%98%B6%E7%AF%87/%E5%9F%BA%E7%A1%80%E7%BB%BC%E5%90%88) |\n| 大地骑士 | 某视频网站        | m3u8视频下载，解决带密钥以及不带密钥情况，m3u8入门级别以及多线程下载                                                                                                                                      | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%BF%9B%E9%98%B6%E7%AF%87/%E5%9F%BA%E7%A1%80%E7%BB%BC%E5%90%88) |\n| 大地骑士 | ins爬虫        | 对于页面参数提取以及解析json文件                                                                                                                                                          | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%BF%9B%E9%98%B6%E7%AF%87/%E5%9F%BA%E7%A1%80%E7%BB%BC%E5%90%88) |\n| 大地骑士 | douyin全站数据爬取 | 包括视频图片下载，评论爬取，用户信息爬取...   目前部分接口也开始x-b检测了，如果需要用到被检测接口，则需要加上x-b才可以获取数据, 现在重新整合签名，大家在github找到获取签名的js文件即可，放到douyin文件同目录下命名为x-b.js即可, up提供了一个在github上别人开源的代码仓库，在代码中标志了仓库，目前可以使用 | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%BF%9B%E9%98%B6%E7%AF%87/%E5%9F%BA%E7%A1%80%E7%BB%BC%E5%90%88) |\n| 大地骑士 | weibo全站数据爬取  | 包括搜索用户，搜索帖子，下载评论，下载用户相册，用户主页，用户信息...                                                                                                                                        | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%BF%9B%E9%98%B6%E7%AF%87/%E5%9F%BA%E7%A1%80%E7%BB%BC%E5%90%88) |\n| 未知等级 | 爬虫轮子 | 个人对常用的爬虫方法进行二次封装，方便后期开发 |[点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%BF%9B%E9%98%B6%E7%AF%87/%E5%9F%BA%E7%A1%80%E7%BB%BC%E5%90%88) |\n### js逆向专题\n\n***\n\n#### 请求头或响应数据加密\n\n| 难度标识 | 项目名         | 补充                     | 快捷导航                                                                                                                                                                                  |\n|------|-------------|------------------------|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|\n| 骑士   | 烯牛数据        | 请求头加密，响应体加密            | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%BF%9B%E9%98%B6%E7%AF%87/js%E9%80%86%E5%90%91/%E8%AF%B7%E6%B1%82%E5%A4%B4%E8%AF%B7%E6%B1%82%E4%BD%93%E5%8A%A0%E5%AF%86) |\n| 骑士   | 娱乐指数        | 基础入门                   | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%BF%9B%E9%98%B6%E7%AF%87/js%E9%80%86%E5%90%91/%E8%AF%B7%E6%B1%82%E5%A4%B4%E8%AF%B7%E6%B1%82%E4%BD%93%E5%8A%A0%E5%AF%86) |\n| 骑士   | 艺恩数据        | 响应体加密                  | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%BF%9B%E9%98%B6%E7%AF%87/js%E9%80%86%E5%90%91/%E8%AF%B7%E6%B1%82%E5%A4%B4%E8%AF%B7%E6%B1%82%E4%BD%93%E5%8A%A0%E5%AF%86) |\n| 骑士   | 行行查         | 响应体加密                  | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%BF%9B%E9%98%B6%E7%AF%87/js%E9%80%86%E5%90%91)                                                                          |\n| 大骑士  | fjs公共交易     | 混淆参数加密                 | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%BF%9B%E9%98%B6%E7%AF%87/js%E9%80%86%E5%90%91/%E8%AF%B7%E6%B1%82%E5%A4%B4%E8%AF%B7%E6%B1%82%E4%BD%93%E5%8A%A0%E5%AF%86) |\n| 大骑士  | 唯一艺术        | 动态js运行代码               | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%BF%9B%E9%98%B6%E7%AF%87/js%E9%80%86%E5%90%91/%E8%AF%B7%E6%B1%82%E5%A4%B4%E8%AF%B7%E6%B1%82%E4%BD%93%E5%8A%A0%E5%AF%86) |\n| 大地骑士 | 某天气网站       | 动态js 动态key 动态参数 反debug | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%BF%9B%E9%98%B6%E7%AF%87/js%E9%80%86%E5%90%91/%E8%AF%B7%E6%B1%82%E5%A4%B4%E8%AF%B7%E6%B1%82%E4%BD%93%E5%8A%A0%E5%AF%86) |\n| 大地骑士 | 某足球网站       | 请求体多重加密，加密位置难定位        | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%BF%9B%E9%98%B6%E7%AF%87/js%E9%80%86%E5%90%91/%E8%AF%B7%E6%B1%82%E5%A4%B4%E8%AF%B7%E6%B1%82%E4%BD%93%E5%8A%A0%E5%AF%86) |\n| 大地骑士 | wangyiyun音乐 | 实现全站数据爬取               | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%BF%9B%E9%98%B6%E7%AF%87/js%E9%80%86%E5%90%91/%E8%AF%B7%E6%B1%82%E5%A4%B4%E8%AF%B7%E6%B1%82%E4%BD%93%E5%8A%A0%E5%AF%86) |\n| 大地骑士 | gds公共交易     | 混淆参数，需要找定位             | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%BF%9B%E9%98%B6%E7%AF%87/js%E9%80%86%E5%90%91/%E8%AF%B7%E6%B1%82%E5%A4%B4%E8%AF%B7%E6%B1%82%E4%BD%93%E5%8A%A0%E5%AF%86) |\n| 大地骑士 | 某道翻译        | 请求加密响应解密，难度不大          | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%BF%9B%E9%98%B6%E7%AF%87/js%E9%80%86%E5%90%91/%E8%AF%B7%E6%B1%82%E5%A4%B4%E8%AF%B7%E6%B1%82%E4%BD%93%E5%8A%A0%E5%AF%86) |\n| 大地骑士 | b站登录 | rsa加密密码，极验三代文字点选，文字点选部分可见验证码篇 | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%BF%9B%E9%98%B6%E7%AF%87/js%E9%80%86%E5%90%91/%E8%AF%B7%E6%B1%82%E5%A4%B4%E8%AF%B7%E6%B1%82%E4%BD%93%E5%8A%A0%E5%AF%86)|\n#### webPack\n\n| 难度标识 | 项目名     | 补充                                               | 快捷导航                                                                                                                 |\n|------|---------|--------------------------------------------------|----------------------------------------------------------------------------------------------------------------------|\n| 大地骑士 | china五矿 | 基础webpack，标准版加密算法，简单，可用多种方式实现（nodejs,python和扣代码） | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%BF%9B%E9%98%B6%E7%AF%87/js%E9%80%86%E5%90%91/webPack) |\n\n#### 环境检测\n\n| 难度标识 | 项目名                               | 补充                                                       | 快捷导航                                                                                                                                              |\n|------|-----------------------------------|----------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------------------------------------|\n| 辉耀骑士 | redBook                           | xhs x-s环境检测，需要自己把cookie和localstorage放到文件中                | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%BF%9B%E9%98%B6%E7%AF%87/js%E9%80%86%E5%90%91/%E7%8E%AF%E5%A2%83%E6%A3%80%E6%B5%8B) |\n| 辉耀骑士 | bossjob                           | __zp_s...__环境检测，每天js都不同，需要补一些环境，并且修改js，有一个module检测等...   | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%BF%9B%E9%98%B6%E7%AF%87/js%E9%80%86%E5%90%91/%E7%8E%AF%E5%A2%83%E6%A3%80%E6%B5%8B) |\n| 辉耀骑士 | 猿人学2023第一题                        | 魔改md5和aes 删除部分蜜罐，补充浏览器环境即可                               | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%BF%9B%E9%98%B6%E7%AF%87/js%E9%80%86%E5%90%91/%E7%8E%AF%E5%A2%83%E6%A3%80%E6%B5%8B) |\n| 大地骑士 | 饿了么参数                             | 通过playwright获取bx_et参数                                    | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%BF%9B%E9%98%B6%E7%AF%87/js%E9%80%86%E5%90%91/%E7%8E%AF%E5%A2%83%E6%A3%80%E6%B5%8B) |\n| 辉耀骑士 | pdd的anti_content参数                | 这个不是补环境，是扣的算法，pdd不同站点其实加密大概差不多，有些对象的值有所差别而已，加密的主函数都是一个逻辑 | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%BF%9B%E9%98%B6%E7%AF%87/js%E9%80%86%E5%90%91/%E7%8E%AF%E5%A2%83%E6%A3%80%E6%B5%8B) |\n| 大地骑士 | 更新boss直聘物品点选解ip封锁，坐标识别就随便在网上找了一个了 | 这个点选轨迹加密就是极验三代 | 更新在boss那个文件里面了                                                                                                                                    |\n#### wasm加密\n\n| 难度标识 | 项目名 | 补充                                                          | 快捷导航                                                                                                                  |\n|------|-----|-------------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------------|\n| 辉耀骑士 | 某航空 | wasm操作内容实现加密解密 请求头参数加密更新 阿里系v2检测 阿里系v3检测(自动化获取)，至此所有加密参数已解决 | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%BF%9B%E9%98%B6%E7%AF%87/js%E9%80%86%E5%90%91/wasm/air) |\n\n#### 浏览器指纹检测\n\n| 难度标识 | 项目名 | 补充                                 | 快捷导航                                                                                                                                                                                                     |\n|------|-----|------------------------------------|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|\n| 大地骑士 | 易九批 | 首先是加密请求体，其次是tls指纹检测，目前使用第三方库过了主页请求 | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E8%BF%9B%E9%98%B6%E7%AF%87/js%E9%80%86%E5%90%91/%E6%B5%8F%E8%A7%88%E5%99%A8%E6%8C%87%E7%BA%B9%E6%A3%80%E6%B5%8B/%E6%98%93%E4%B9%9D%E6%89%B9) |\n\n## 验证码篇\n\n### 滑块篇\n\n| 难度标识 | 项目名       | 补充                                                                                                                              | 快捷导航                                                                                                                                              |\n|------|-----------|---------------------------------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------------------------------------|\n| 大骑士  | JD滑块      | 我们获取到图片之后可以使用ddddocr来进行识别滑块，然后生成轨迹发送请求即可，我们这里的轨迹采用大佬的写法，首先准备一条基准，从左往右手工滑完，然后一个抖动轨迹，之后拼接两个轨迹即可（不知道为什么我自己滑的轨迹验证都不通过，所以直接用了大佬的轨迹了） | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E9%AA%8C%E8%AF%81%E7%A0%81%E7%AF%87/%E6%BB%91%E5%9D%97%E7%AF%87/JD%E6%BB%91%E5%9D%97) |\n| 大骑士  | 阿里226     | 此次更新playwright获取，比较简单                                                                                                           | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E9%AA%8C%E8%AF%81%E7%A0%81%E7%AF%87/%E6%BB%91%E5%9D%97%E7%AF%87)                      |\n| 大骑士  | 飞瓜获取验证码滑块 | 此次更新playwright获取，比较简单                                                                                                           | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E9%AA%8C%E8%AF%81%E7%A0%81%E7%AF%87/%E6%BB%91%E5%9D%97%E7%AF%87)                      |\n\n## 点选篇\n| 难度标识 | 项目名    | 补充                                                                               | 快捷导航                                                                                                                                             |\n|------|--------|----------------------------------------------------------------------------------|--------------------------------------------------------------------------------------------------------------------------------------------------|\n| 辉耀骑士 | 极验三代点选 | 我们根据请求顺序依次请求接口获取图片，获取到图片信息后送入识别接口获取点选坐标，获取到坐标后将坐标转化，送入js生成轨迹，得到轨迹后请求接口获取validate | [点这里](https://github.com/xishandong/crawlProject/tree/main/%E9%AA%8C%E8%AF%81%E7%A0%81%E7%AF%87) |\n\n\n## Star History\n\n[![Star History Chart](https://api.star-history.com/svg?repos=xishandong/crawlProject\u0026Date)](https://star-history.com/#xishandong/crawlProject\u0026Date)\n\n## 赞助\n\n如果你认为本仓库对你学习爬虫和逆向有所帮助，欢迎赞助作者，请作者喝一杯奶茶~！！\n\n（你的支持可以让作者开心一整天😊）\n\n\u003cdiv style='display:flex'\u003e\n    \u003cimg src=\"./README_img/wechatPay.JPG\" alt=\"微信支付\" style=\"width: 250px;height: 250px;objec-fit:contain\" /\u003e\n    \u003cimg src=\"./README_img/alipay.JPG\" alt=\"支付宝支付\" style=\"width: 250px;height: 250px;objec-fit:contain\" /\u003e\n\u003c/div\u003e\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fxishandong%2Fcrawlproject","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Fxishandong%2Fcrawlproject","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fxishandong%2Fcrawlproject/lists"}