https://github.com/cangkongman/crawling-bilibili-personal-collect
爬取bilibili的自己账号的收藏夹信息,并且json转excel储存,免得B站删视频的时候收藏夹里的已失效视频不知道是什么。
https://github.com/cangkongman/crawling-bilibili-personal-collect
Last synced: 3 months ago
JSON representation
爬取bilibili的自己账号的收藏夹信息,并且json转excel储存,免得B站删视频的时候收藏夹里的已失效视频不知道是什么。
- Host: GitHub
- URL: https://github.com/cangkongman/crawling-bilibili-personal-collect
- Owner: cangkongman
- Created: 2021-05-19T01:42:45.000Z (about 4 years ago)
- Default Branch: main
- Last Pushed: 2022-09-07T04:24:17.000Z (almost 3 years ago)
- Last Synced: 2024-10-27T11:51:27.027Z (8 months ago)
- Language: Python
- Homepage:
- Size: 56.6 KB
- Stars: 48
- Watchers: 1
- Forks: 6
- Open Issues: 2
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
- awesome-bilibili-extra - crawling-bilibili-personal-collect - bilibili-personal-collect?&label=) |  |  | (数据分析 / 直播脚本)
README
爬取bilibili的自己账号的收藏夹信息,并且json转excel存储
防止自己收藏夹什么视频被删都不知道
源文件下载下来有三点需要注意
1.UID要改。改成自己的
2.收藏夹要公开
3.路径注意一下。
功能及其实现思路
爬取收藏夹信息
1.先爬取所有收藏夹的id
2.通过爬取的收藏夹的id,再爬取各个收藏夹的每一页(一页最多20个视频)
3.再稍微整理,得到每个收藏夹的json文件
爬取视频封面和up主头像
1.从上一步的json文件中,提取出图片url
2.多线程爬取图片url
可视化
写入excel
大概如下图所示,不过上次没失效,而这次失效的视频会在右下角标记出来。