An open API service indexing awesome lists of open source software.

https://github.com/rasrea/python-spider

包含猫眼电影、豆瓣、b站、微博、天气预报、Metacritic、Pokemon图鉴等,爬取信息并保存在对应的文件中。
https://github.com/rasrea/python-spider

Last synced: about 2 months ago
JSON representation

包含猫眼电影、豆瓣、b站、微博、天气预报、Metacritic、Pokemon图鉴等,爬取信息并保存在对应的文件中。

Awesome Lists containing this project

README

        

# Python Spider 项目

该项目包含多个爬虫模块,涵盖了**猫眼电影**、**天气预报**、**豆瓣Top读书和电影**、**B站**、**微博**等多个领域。爬取的数据将保存在对应的 CSV 文件中,且每个模块都有相关的数据可视化代码(部分代码不具有通用性)。

---

## 主要功能

### 🐱 猫眼电影
- **基本功能**:爬取猫眼电影的实时票房数据(包括综合和分账票房),并进行可视化分析。运行 `source/main.py` 将自动生成对应的 CSV 文件和图表,数据存储在同目录的 `dataset` 文件夹中。
- **改进**:
- 增加了图片识别模型,可识别画出的数字(原方法是通过找规律来破解)。
- 可选择显示环形图,增强了可视化效果。

[详细教程请参考CSDN文章](https://blog.csdn.net/m0_74048576/article/details/136279937)

---

### 🌍 全球天气预报(近七天)
- **基本功能**:爬取天气网中的数据,进行可视化分析。通过运行 `sources/begin.py`,输入城市名称(中文)即可生成对应的天气图表。
- **改进**:
- 地点支持精确到乡镇级别,增加了数据的准确性。

[详细教程请参考CSDN文章](https://blog.csdn.net/m0_74048576/article/details/136590761)

---

### 📚 豆瓣
- **基本功能**:使用 Beautiful Soup 爬取豆瓣 Top250 的书籍、电影及科幻电影的相关信息,还包括使用正则表达式的爬虫示例。
- **booksTop250**:爬取豆瓣读书 Top250 的相关数据。
- **filmsTop250**:爬取豆瓣电影 Top250 的相关数据。
- **电影Top250(正则版)**:全程使用正则表达式爬取,不依赖 BeautifulSoup。
- **豆瓣科幻电影**:涉及动态网页渲染技术的爬虫实现。

---

### 🎥 B站
- **“每周必看”**:
- **基本功能**:爬取 B站每周必看排行榜信息。由于网页使用动态渲染,因此采用了 API 结合的方式来进行数据抓取。
- **改进**:支持爬取近一年的数据,时间范围可自定义。
- **加强版**:解决了反爬机制问题,使用了 Cookie 来绕过反爬机制。
- **视频细节**:从“每周必看”页面获取详细的视频信息,进一步分析相关内容。

---

### 🐦 微博三榜
- **基本功能**:爬取微博热搜榜、文娱榜和要闻榜的相关信息。
- **改进**:对代码进行了优化,提升了运行效率和稳定性。

---

### 🎮 Metacritic
- **基本功能**:爬取 Metacritic 网站上的游戏数据。
- **PCAndSwitch**:获取 2003-2024 年间 PC 和 Switch 端的游戏数据。
- **detail_data**:通过游戏网址进一步爬取更详细的游戏信息。

---

### 🧸 Pokemon 图鉴
- **基本功能**:爬取第三方网站中每个地区的 Pokémon 数据。
- **地区图鉴**:每次只能爬取一个地区的图鉴,修改网址即可继续抓取其他地区的数据。
- **阿罗拉和洗翠图鉴**:这两个地区的图鉴较为特殊,无法使用地区图鉴方法进行爬取。

---

> **注意**:所有爬虫代码下载即用,**不用于商业用途**。