Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/viper373/baidutieba
爬取百度贴吧(指定吧名、起始页数/重点页数、日志输出)
https://github.com/viper373/baidutieba
Last synced: 12 days ago
JSON representation
爬取百度贴吧(指定吧名、起始页数/重点页数、日志输出)
- Host: GitHub
- URL: https://github.com/viper373/baidutieba
- Owner: Viper373
- Created: 2024-04-09T13:52:12.000Z (9 months ago)
- Default Branch: main
- Last Pushed: 2024-06-02T13:03:10.000Z (7 months ago)
- Last Synced: 2024-06-02T14:25:40.438Z (7 months ago)
- Language: Python
- Size: 9.42 MB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# 百度贴吧爬虫
这是一个基于 Python 的百度贴吧爬虫,用于获取指定关键词的贴吧帖子信息并存储到 CSV 文件中。
## 项目结构
- 🚀 `tieba.py`:主要的爬虫脚本,用于爬取贴吧帖子信息。
- 🎂 `config.py`:配置文件,用于设置搜索关键词、爬取起始页数和终点页数。
- 🔗 `requirements.txt`:依赖的 Python 包列表。
- 📦 `data/{吧名}.csv`:存储爬取到的数据。
- 📩 `logs/{吧名}.log`:存储爬取过程中的日志信息。## 使用方法
- 1.⚡安装依赖:
* 项目版本:`Python 3.10.7`
```bash
pip install -r requirements.txt
```- 2.🌊配置参数:
在 config.py 中设置需要爬取的贴吧关键词 KW、爬取起始页数 ST 和终点页数 PN。
- 3.🚄运行脚本:```bash
python main.py
```脚本会开始爬取贴吧帖子信息,并将结果存储到 CSV 文件中。
- 4.🌈功能特点:
* ✅ 使用了 fake_useragent 库生成随机 User-Agent,增加了爬虫的隐蔽性。
* ✅ 使用了 rich 库提供的进度条功能,使爬取过程更加可视化。
* ✅ 支持设置爬取的起始页数和终点页数,灵活控制爬取范围。
* ✅ 使用了多个账号的cookie构建cookie池,提高反爬能力,增加数据获取的健壮性。
- 5.🚩注意事项:* 🚧爬取过程中请遵守网站的规则,不要过于频繁地进行请求,以免被封禁 IP。
* 🚥请勿将爬取到的数据用于违法或商业用途,仅限个人学习和研究使用。