https://github.com/rasrea/python-spider
包含猫眼电影、豆瓣、b站、微博、天气预报、Metacritic、Pokemon图鉴等,爬取信息并保存在对应的文件中。
https://github.com/rasrea/python-spider
Last synced: about 2 months ago
JSON representation
包含猫眼电影、豆瓣、b站、微博、天气预报、Metacritic、Pokemon图鉴等,爬取信息并保存在对应的文件中。
- Host: GitHub
- URL: https://github.com/rasrea/python-spider
- Owner: Rasrea
- Created: 2023-12-11T09:56:35.000Z (over 1 year ago)
- Default Branch: main
- Last Pushed: 2025-01-01T07:00:03.000Z (5 months ago)
- Last Synced: 2025-03-27T00:31:20.723Z (2 months ago)
- Language: Jupyter Notebook
- Homepage:
- Size: 19.8 MB
- Stars: 9
- Watchers: 1
- Forks: 1
- Open Issues: 1
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# Python Spider 项目
该项目包含多个爬虫模块,涵盖了**猫眼电影**、**天气预报**、**豆瓣Top读书和电影**、**B站**、**微博**等多个领域。爬取的数据将保存在对应的 CSV 文件中,且每个模块都有相关的数据可视化代码(部分代码不具有通用性)。
---
## 主要功能
### 🐱 猫眼电影
- **基本功能**:爬取猫眼电影的实时票房数据(包括综合和分账票房),并进行可视化分析。运行 `source/main.py` 将自动生成对应的 CSV 文件和图表,数据存储在同目录的 `dataset` 文件夹中。
- **改进**:
- 增加了图片识别模型,可识别画出的数字(原方法是通过找规律来破解)。
- 可选择显示环形图,增强了可视化效果。
[详细教程请参考CSDN文章](https://blog.csdn.net/m0_74048576/article/details/136279937)---
### 🌍 全球天气预报(近七天)
- **基本功能**:爬取天气网中的数据,进行可视化分析。通过运行 `sources/begin.py`,输入城市名称(中文)即可生成对应的天气图表。
- **改进**:
- 地点支持精确到乡镇级别,增加了数据的准确性。[详细教程请参考CSDN文章](https://blog.csdn.net/m0_74048576/article/details/136590761)
---
### 📚 豆瓣
- **基本功能**:使用 Beautiful Soup 爬取豆瓣 Top250 的书籍、电影及科幻电影的相关信息,还包括使用正则表达式的爬虫示例。
- **booksTop250**:爬取豆瓣读书 Top250 的相关数据。
- **filmsTop250**:爬取豆瓣电影 Top250 的相关数据。
- **电影Top250(正则版)**:全程使用正则表达式爬取,不依赖 BeautifulSoup。
- **豆瓣科幻电影**:涉及动态网页渲染技术的爬虫实现。---
### 🎥 B站
- **“每周必看”**:
- **基本功能**:爬取 B站每周必看排行榜信息。由于网页使用动态渲染,因此采用了 API 结合的方式来进行数据抓取。
- **改进**:支持爬取近一年的数据,时间范围可自定义。
- **加强版**:解决了反爬机制问题,使用了 Cookie 来绕过反爬机制。
- **视频细节**:从“每周必看”页面获取详细的视频信息,进一步分析相关内容。---
### 🐦 微博三榜
- **基本功能**:爬取微博热搜榜、文娱榜和要闻榜的相关信息。
- **改进**:对代码进行了优化,提升了运行效率和稳定性。---
### 🎮 Metacritic
- **基本功能**:爬取 Metacritic 网站上的游戏数据。
- **PCAndSwitch**:获取 2003-2024 年间 PC 和 Switch 端的游戏数据。
- **detail_data**:通过游戏网址进一步爬取更详细的游戏信息。---
### 🧸 Pokemon 图鉴
- **基本功能**:爬取第三方网站中每个地区的 Pokémon 数据。
- **地区图鉴**:每次只能爬取一个地区的图鉴,修改网址即可继续抓取其他地区的数据。
- **阿罗拉和洗翠图鉴**:这两个地区的图鉴较为特殊,无法使用地区图鉴方法进行爬取。---
> **注意**:所有爬虫代码下载即用,**不用于商业用途**。