Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/MGMCN/bilibiliWordCloud
爬取b站番剧短评,利用jieba分词,wordcloud展示。因为有的时候评分高并不代表这部动画真的好看。
https://github.com/MGMCN/bilibiliWordCloud
bilibili comments generator wordcloud
Last synced: 12 days ago
JSON representation
爬取b站番剧短评,利用jieba分词,wordcloud展示。因为有的时候评分高并不代表这部动画真的好看。
- Host: GitHub
- URL: https://github.com/MGMCN/bilibiliWordCloud
- Owner: MGMCN
- License: apache-2.0
- Created: 2023-02-25T11:35:26.000Z (over 1 year ago)
- Default Branch: main
- Last Pushed: 2024-03-08T15:16:30.000Z (8 months ago)
- Last Synced: 2024-08-01T02:29:36.482Z (3 months ago)
- Topics: bilibili, comments, generator, wordcloud
- Language: Python
- Homepage:
- Size: 6.95 MB
- Stars: 32
- Watchers: 1
- Forks: 1
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
- awesome-bilibili-extra - BilibiliWordCloud - 爬取 b 站番剧短评,利用 jieba 分词,wordcloud 展示.![Python](svg/python.svg?raw=true) ![Docker](svg/docker.svg?raw=true) (其他 / 直播脚本)
README
# bilibiliWordCloud
![image](https://img.shields.io/github/actions/workflow/status/MGMCN/bilibiliWordCloud/release.yml?label=build&logo=github)
[![image](https://img.shields.io/docker/pulls/godmountain/bilibili-wordcloud?logo=docker&logoColor=white)](https://hub.docker.com/r/godmountain/bilibili-wordcloud)
![image](https://img.shields.io/github/last-commit/MGMCN/bilibiliWordCloud?logo=github)
![image](https://img.shields.io/github/license/MGMCN/bilibiliWordCloud)该程序实现了利用基于scrapy框架编写的爬虫程序爬取b站番剧短评,然后利用jieba库对爬取的短评分词,最后使用wordcloud展示的功能。( ps: 多年前写的代码,最近偶然整理文件夹时看到了,跑了一下居然还能用,觉得还挺有趣,就传上来了。)
## 使用指南
先确保你电脑安装了docker,以下docker的安装教程只针对MacOS用户。
```Bash
$ brew install --cask docker # 确保你已经安装了brew
```
运行docker,你也可以直接在你应用里找到Docker.app然后双击运行启动。
```Bash
$ open /Applications/Docker.app
```
如果你想直接拉取我编译好的镜像并运行,你需要确认你的操作系统架构基于以下两种。
> linux/arm64
> linux/amd64
### 拉取镜像运行
```Bash
$ docker pull godmountain/bilibili-wordcloud:latest
$ docker run --name bilibili -e media_id=1586 godmountain/bilibili-wordcloud:latest # media_id参数指定了爬取番剧
.
.
.
$ docker cp bilibili:/proj/bilibili/output.jpg /your/local/path # 别忘记了修改后面这个路径
```
当你在本地打开output.jpg后你就能看到
media_id的含义请参照 -> [如何找到对应番剧的media_id](#mediaid)
## 怎样在本地构建你自己的docker镜像
进入Dockerfile所在目录,然后使用build指令构建你自己的镜像。
```Bash
$ ls # 先确保你在的目录下有Dockerfile文件
.
├── Dockerfile
├── LICENSE
├── README.md
├── bilibili
├── images
└── requirements.txt
$ docker build . -t bilibili
$ docker run --name bilibili -e media_id=1586 bilibili
```
等待程序执行结束后将wordcloud生成的图片拷贝到本地查看
```Bash
$ docker cp bilibili:/proj/bilibili/output.jpg /your/local/path # 别忘记了修改后面这个路径
```## 怎样获取番剧的编号
打开你的b站找到一部你想爬取的番剧或者电影,只要有短评这个选项的都能爬。( ps: 请注意是短评不是评论🤪. ) 然后点击下面图示中的查看全部选项。
复制打开页面的链接中md后面的那串数字,在这个例子中是'1586'