https://github.com/Xywdmgs/XY_JSFinder-
获取页面上所有url支持深度爬取
https://github.com/Xywdmgs/XY_JSFinder-
Last synced: 2 months ago
JSON representation
获取页面上所有url支持深度爬取
- Host: GitHub
- URL: https://github.com/Xywdmgs/XY_JSFinder-
- Owner: Xywdmgs
- Created: 2024-01-18T17:26:00.000Z (almost 2 years ago)
- Default Branch: main
- Last Pushed: 2024-01-18T17:33:25.000Z (almost 2 years ago)
- Last Synced: 2025-01-02T10:38:11.894Z (10 months ago)
- Language: Python
- Size: 13.7 KB
- Stars: 3
- Watchers: 1
- Forks: 1
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
- awesome-hacking-lists - Xywdmgs/XY_JSFinder- - 获取页面上所有url支持深度爬取 (Python)
README
# -url-
获取页面上所有url支持深度爬取
XY_JSFinder 使用文档
概述
XY_JSFinder 是一个Python脚本,用于从指定的网站或多个网站提取超链接,并支持将结果保存到本地文件。它提供了基本的网页爬取功能以及深度爬取选项。
功能
单个网站爬取:对指定的单个网站进行超链接爬取。
多个网站爬取:从文件中读取多个网站的URL,对每个网站进行超链接爬取。
深度爬取:对单个网站进行深入的链接爬取。
保存结果:将爬取的链接保存到指定的输出文件中。
使用方法
单个网站爬取:
命令格式:python XY_JSFinder.py -u [网站URL] -o [输出文件]
示例:python XY_JSFinder.py -u http://example.com -o output.txt
多个网站爬取:
命令格式:python XY_JSFinder.py -f [输入文件] -o [输出文件]
示例:python XY_JSFinder.py -f input.txt -o output.txt
深度爬取:
命令格式:python XY_JSFinder.py -u [网站URL] -o [输出文件] -d
示例:python XY_JSFinder.py -u http://example.com -o output.txt -d
参数说明
-u 或 --url:指定要爬取的单个网站URL。
-f 或 --file:指定包含多个网站URL的输入文件。
-o 或 --output:指定爬取结果的输出文件。
-d 或 --deep:启用深度爬取模式。
注意事项
确保您的使用符合法律法规和网站的爬取政策。
在进行深度爬取时,请注意不要对服务器造成过大负担。
安装脚本所需的Python库,如 requests 和 beautifulsoup4。