Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

https://github.com/viper373/baidutieba

爬取百度贴吧（指定吧名、起始页数/重点页数、日志输出）
https://github.com/viper373/baidutieba

baidutieba-crawler bert data-analysis deep-learning python spider

Last synced: about 6 hours ago
JSON representation

爬取百度贴吧（指定吧名、起始页数/重点页数、日志输出）

Host: GitHub
URL: https://github.com/viper373/baidutieba
Owner: Viper373
Created: 2024-04-09T13:52:12.000Z (10 months ago)
Default Branch: main
Last Pushed: 2024-06-02T13:03:10.000Z (8 months ago)
Last Synced: 2024-12-11T18:29:01.478Z (about 2 months ago)
Topics: baidutieba-crawler, bert, data-analysis, deep-learning, python, spider
Language: Python
Homepage:
Size: 9.42 MB
Stars: 2
Watchers: 1
Forks: 0
Open Issues: 1
Metadata Files:
- Readme: README.md

Awesome Lists containing this project

README

# 百度贴吧爬虫

这是一个基于 Python 的百度贴吧爬虫，用于获取指定关键词的贴吧帖子信息并存储到 CSV 文件中。

## 项目结构

- 🚀 `tieba.py`：主要的爬虫脚本，用于爬取贴吧帖子信息。
- 🎂 `config.py`：配置文件，用于设置搜索关键词、爬取起始页数和终点页数。
- 🔗 `requirements.txt`：依赖的 Python 包列表。
- 📦 `data/{吧名}.csv`：存储爬取到的数据。
- 📩 `logs/{吧名}.log`：存储爬取过程中的日志信息。

## 使用方法
- 1.⚡安装依赖：
* 项目版本：`Python 3.10.7`
```bash
pip install -r requirements.txt
```

- 2.🌊配置参数：

在 config.py 中设置需要爬取的贴吧关键词 KW、爬取起始页数 ST 和终点页数 PN。

- 3.🚄运行脚本：

```bash
python main.py
```

脚本会开始爬取贴吧帖子信息，并将结果存储到 CSV 文件中。

- 4.🌈功能特点：

* ✅ 使用了 fake_useragent 库生成随机 User-Agent，增加了爬虫的隐蔽性。
* ✅ 使用了 rich 库提供的进度条功能，使爬取过程更加可视化。
* ✅ 支持设置爬取的起始页数和终点页数，灵活控制爬取范围。
* ✅ 使用了多个账号的cookie构建cookie池，提高反爬能力，增加数据获取的健壮性。

- 5.🚩注意事项：

* 🚧爬取过程中请遵守网站的规则，不要过于频繁地进行请求，以免被封禁 IP。
* 🚥请勿将爬取到的数据用于违法或商业用途，仅限个人学习和研究使用。