Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/lixiang0/weibospider
微博数据本地持久化,自动下载图片、视频、微博;提供web端显示微博。
https://github.com/lixiang0/weibospider
html ubuntu web weibo weibo-crawler weibo-spider
Last synced: about 1 month ago
JSON representation
微博数据本地持久化,自动下载图片、视频、微博;提供web端显示微博。
- Host: GitHub
- URL: https://github.com/lixiang0/weibospider
- Owner: lixiang0
- License: bsd-3-clause
- Created: 2019-07-07T09:37:49.000Z (over 5 years ago)
- Default Branch: master
- Last Pushed: 2023-10-07T02:24:47.000Z (about 1 year ago)
- Last Synced: 2023-10-08T16:15:18.160Z (about 1 year ago)
- Topics: html, ubuntu, web, weibo, weibo-crawler, weibo-spider
- Language: Python
- Homepage: http://1.14.73.45:18089/
- Size: 7.51 MB
- Stars: 12
- Watchers: 1
- Forks: 6
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE.rst
Awesome Lists containing this project
README
# [悠然微博](http://1.14.73.45:18089/):微博爬虫、微博本地化部署
## 【文档不完善,继续补充中。】
## 20231007更新v0.2.0
- 更新UI:about中新增每日博文和博主数
- 完善爬取逻辑:
- 随机爬取全站每个用户前5页
- 定时抓取我的关注博主的博文(使用cookie)
- 定时更新热搜
- 从评论中抓取全站用户信息,以保证抓取到的是活跃用户
- 每天抓取最新一次代理IP
- 每天做一次用户和博文的统计## 20221015更新
- 更新UI
- 完善爬取逻辑## 主要功能:
- 爬取全站微博
- 抓取全站博主信息
- 实时抓取全站热搜
- 本地化部署微博
- 关注博主/搜索博主/收藏博文## 功能展示
- 用户主页
![](imgs/用户主页.png)
- 个人主页
![](imgs/个人主页.png)
- 关注页
![](imgs/关注页.png)
- 博文页
![](imgs/博文页.png)
- 搜索博主
![](imgs/搜索博主.png)
- 随机博文
![](imgs/随机博文.png)
## todo
- 完善文档
## 功能
## docker部署
```
git clone https://github.com/lixiang0/WeiboSpider
cd WeiboSpider/# 1.minio
docker run \
-p 9000:9000 \
-p 9001:9001 \
--name minio1 \
-e "MINIO_ROOT_USER=minio" \
-e "MINIO_ROOT_PASSWORD=minio" \
-v /mnt/data:/data \
quay.io/minio/minio server /data --console-address ":9001"# 2.[可选]关于cookie
# https://github.com/moonD4rk/HackBrowserData
# cookie保存在results目录下# 3.部署
# 注意docker-compose.yml里面的mongodb和minio的地址
sudo docker-compose up -d --build