Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/moyuweiqing/bilibili-barrage-analysis
bilibili弹幕分析,包含爬虫、词云分析、词频分析、情感分析、构建衍生指标,可视化
https://github.com/moyuweiqing/bilibili-barrage-analysis
jieba pandas pyecharts python requests selenium snownlp wordcloud
Last synced: 12 days ago
JSON representation
bilibili弹幕分析,包含爬虫、词云分析、词频分析、情感分析、构建衍生指标,可视化
- Host: GitHub
- URL: https://github.com/moyuweiqing/bilibili-barrage-analysis
- Owner: moyuweiqing
- Created: 2021-03-23T09:33:35.000Z (over 3 years ago)
- Default Branch: main
- Last Pushed: 2023-03-30T07:51:33.000Z (over 1 year ago)
- Last Synced: 2024-08-01T02:29:32.320Z (3 months ago)
- Topics: jieba, pandas, pyecharts, python, requests, selenium, snownlp, wordcloud
- Language: HTML
- Homepage:
- Size: 25.2 MB
- Stars: 147
- Watchers: 2
- Forks: 19
- Open Issues: 2
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
- awesome-bilibili-extra - Bilibili-barrage-analysis - bilibili 弹幕分析,包含爬虫、词云分析、词频分析、情感分析、构建衍生指标,可视化.![Python](svg/python.svg?raw=true) (其他 / 直播脚本)
README
## Smartproxy stormproxies 海外http代理
#### Smart proxy-海外HTTP代理-1亿纯净住宅IP-全球代理Smartproxy![图片](https://github.com/moyuweiqing/bilibili-barrage-analysis/blob/main/samrt.png)
**官网链接:https://www.smartproxy.cn/**
**专属注册链接:https://www.smartproxy.cn/regist?invite=4DWE6S***专业海外http代理商,千万优质纯净住宅IP资源,,全球城市覆盖,,高匿稳定提供100%原生住宅IP,支持社交账户,电商平台,网络数据收集等服务。*
*真实IP住宅,可以TikTok养号,高匿名性,伪装度高,成功率高,实名注册就送500m流量,套餐价格65折!*- 超高并发备份
独享高性能服务器,以真实住宅地址进行请求访问,保持代理正常连接,不限制并发数量,降低业务成本,提高运行效率。
- 优质IP资源
整合真实家庭住宅IP,汇聚IP资源池,不断更新IP,来自全球各个国家地区进行访问。自有数据节点,网络集成快捷。
- 形式多样
多种代理认证模式,帮助账户灵活设置,账密模式通过region参数添加制定国家城市;API白名单模式通过API链接获取即可。
- 技术服务
支持业务场景定制独享IP,千兆超高速带宽,出口IP可定制时效提供获取流量使用报告,追踪流量记录。
### bilibili-barrage-analysis
bilibili弹幕分析,包含爬虫、词云分析、词频分析、情感分析、构建衍生指标,可视化
****
**主要依赖库**
> selenium
> pandas
> lxml
> json
> requests
> pyecharts
> jieba
> snownlp
> wordcloud
**信息爬取**
1.1 爬取bilibili某一个分区(可通过url定义)特定日期下按照视频热度降序排序的视频信息,包含:href、视频时长、名称、BV号、播放量、弹幕数、up主、up主id
1.2 通过BV号获取视频评论Cid,解析xml网页,简单获取各个视频的弹幕内容(注意:条数有限制,xml的弹幕条数不超过1000条)
1.3 通过up主id,获取up主在爬取时的粉丝数,此粉丝数可以精确到个位数
1.4 通过BV好获取视频评论Cid,获取详细的弹幕内容,包括:弹幕出现时间、弹幕模式、字号、弹幕颜色、弹幕池、发送者加密id、弹幕id
**数据分析--词云**
2.1 全区弹幕词云分析,可以通过自己编写剔除单字、去除停用词、调整分词模型进行优化
2.2 分频道弹幕词云分析
**数据分析--弹幕条数**
3.1 分析全区弹幕前十视频,使用pyecharts柱状图进行可视化
3.2 分析各频道平均/最高视频弹幕数
**数据分析--指标构建**
构建指标:互动指数:弹幕数 / 播放量 * 100
粉丝响应指数:up主粉丝数 / 播放量
4.1 全区互动指数最高前十视频
4.2 各频道最高/平均互动指数
4.3 全区粉丝响应指数最高前十视频
4.4 各频道最高/平均粉丝响应指数
**数据分析--情感分析**
5.1 分析全区所爬取的所有视频的所有弹幕的情感分布情况,获取总体情感指数印象
5.2 分析各个视频的情感分析,对每一条弹幕进行情感分析,输出弹幕的情感分析指数Excel表
5.3 分析各个频道的情感分析指数分布图