https://github.com/ysh329/douban-crawler
抓取豆瓣小组相关信息(小组、用户、帖子)。
https://github.com/ysh329/douban-crawler
crawler douban douban-crawler
Last synced: about 1 year ago
JSON representation
抓取豆瓣小组相关信息(小组、用户、帖子)。
- Host: GitHub
- URL: https://github.com/ysh329/douban-crawler
- Owner: ysh329
- Created: 2016-08-07T16:02:10.000Z (almost 10 years ago)
- Default Branch: master
- Last Pushed: 2016-10-17T02:53:45.000Z (over 9 years ago)
- Last Synced: 2025-06-13T10:03:35.976Z (about 1 year ago)
- Topics: crawler, douban, douban-crawler
- Language: Python
- Homepage:
- Size: 28.3 KB
- Stars: 26
- Watchers: 3
- Forks: 8
- Open Issues: 1
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# Douban-Crawler
指定小组查询关键词,完全傻瓜式获取指定个数豆瓣小组详细信息,以及小组下指定个数帖子信息。
## CRAWLER库表结构
三个数据表:小组表,用户表,帖子表。
### GROUP表
注备:豆瓣小组、贴吧
##### 小组基本信息
|字段名|类型|含义|举例|
|:---:|:---:|:---:|:---:|
|GROUP_SOURCE|VARCHAR(10)|数据来源|"douban"或"tieba"|
|GROUP_QUERY|VARCHAR(20)|查询query(类似GROUP_TAG)|"北京,IT"|
|GROUP_NAME|VARCHAR(30)|组名、吧名|"北京读书交友会"|
|GROUP_ID|VARCHAR(20)|全站唯一性ID|"576850"|
|GROUP_MEMBER_NUM|INT|小组人数|300|
|GROUP_URL|TEXT|地址|"https://www.douban.com/group/10274/"|
|GROUP_INTRO|TEXT|介绍|"小组介绍内容"|
|GROUP_CREATE_DATE|VARCHAR(10)|小组创建时间|2010-10-10|
|GROUP_TAG|VARCHAR(20)|小组标签|"北京,读书,交友"|
##### 活跃度基本信息(每天字段更新)
|字段名|类型|含义|举例|
|:-:|:-:|:-:|:-:|
|CURRENT_DAY_POST_NUM|INT|小组当天总帖数|100|
|CURRENT_DAY_COMMENT_NUM|INT|当天帖子累计总回复数|5000|
|CURRENT_DAY_AVE_COMMENT_NUM|INT|当天帖子累计总回复数|50|
##### 管理员基本信息
|字段名|类型|含义|举例|
|:-:|:-:|:-:|:-:|
|ADMIN_NAME|VARCHAR(50)|管理员姓名|"章小希"|
|ADMIN_ID|VARCHAR(20)|全站唯一性ID(豆瓣唯一ID、贴吧唯一ID)|"148647315"|
|ADMIN_URL|TEXT|管理员账号页面|"https://www.douban.com/people/148647315/"|
##### 表更新时间(定期更新)
|字段名|类型|含义|举例|
|:-:|:-:|:-:|:-:|
|TABLE_UPDATE_DATE|VARCHAR(16)|最后一次表更新时间|"2015-11-19 21:04:48"|
### POST表
##### 来源和所在小组基本信息
|字段名|类型|含义|举例|
|:-:|:-:|:-:|:-:|
|GROUP_SOURCE|VARCHAR(10)|小组来源|"douban"或"tieba"|
|GROUP_URL|TEXT|小组地址链接|"https://www.douban.com/group/551307/"|
|GROUP_ID|VARCHAR(20)|所在来源的全(站)局唯一性ID|"hangzhougonglue"|
|GROUP_NAME|VARCHAR(30)|小组名称|"杭州旅游"|
##### 帖子基本信息
|字段名|类型|含义|举例|
|:-:|:-:|:-:|:-:|
|POST_URL|TEXT|帖子链接|"https://www.douban.com/group/topic/88272843/"|
|POST_TITLE|TEXT|帖子标题|"这是标题"|
|POST_ID|VARCHAR(10)|帖子唯一性ID|"850407300"|
|POST_CREATE_DATE|VARCHAR(19)|帖子创建时间|"2014-08-10 16:58:21"|
|POST_LAST_COMMENT_DATE|VARCHAR(16)|帖子最后回复时间|"2015-08-13 15:22"|
|POST_COMMENT_NUM|INT|帖子回复个数|10|
|POST_LIKE_NUM|INT|喜欢人数|10|
##### 帖子创建者基本信息
|字段名|类型|含义|举例|
|:-:|:-:|:-:|:-:|
|POST_AUTHOR_NAME|VARCHAR(50)|帖子创建者名称|"章小希"|
|POST_AUTHOR_ID|VARCHAR(10)|帖子创建者全站唯一性ID|"148647315"|
|POST_AUTHOR_SIGNATURE|TEXT|签名|"目标,前进;一切只为生活"|
|POST_AUTHOR_URL|TEXT|帖子创建者个人页面地址|"https://www.douban.com/people/148647315/"|
##### 内容和评论
|字段名|类型|含义|举例|
|:-:|:-:|:-:|:-:|
|POST_CONTENT|TEXT|帖子内容|"这是帖子内容"|
|POST_IMG_NUM|INT|图片张数|3|
|POST_IMG_URL_LIST|TEXT|所有图片地址列表的字符串(用"\t"拼接)|'www.1.com/1.png::www.1.com/2.jpg'|
|POST_AUTHOR_COMMENT|TEXT|帖子创建者的所有评论|"这是评论1+2+3拼接起来的结果"|
|POST_AUTHOR_COMMENT_NUM|INT|帖子创建者的评论个数|10|
##### 感兴趣信息(需要提取/抽取)
|字段名|类型|含义|举例|
|:-:|:-:|:-:|:-:|
|POST_CONTENT_QQ|VARCHAR(12)|帖子内容里的QQ号|"12345"|
|POST_CONTENT_WECHAT|VARCHAR(16)|帖子内容里的微信号|"12345"|
|POST_CONTENT_TEL|VARCHAR(15)|帖子内容里的电话号|"13312345678"|
|POST_CONTENT_ADDRESS|VARCHAR(30)|帖子内容里的地址|"北京市海淀区"|
### USER表
注备:主要用来记录小组(或贴吧)管理员和发帖人个人信息
##### 基本信息
|字段名|类型|含义|举例|
|:-:|:-:|:-:|:-:|
|USER_SOURCE|VARCHAR(10)|用户来源|"douban"或"tieba"|
|USER_NAME|TEXT|用户名、昵称|"小豆芽"|
|USER_ID|VARCHAR(20)|全站唯一性ID|"yncyd"|
|USER_SEX|INT|性别|0(未知)或1(男)或2(女)|
|USER_SIGNATURE|TEXT|签名|"目标,前进;一切只为生活"|
|USER_URL|TEXT|个人页面|"https://www.douban.com/people/yncyd/"|
##### 发帖情况(定期更新)
|字段名|类型|含义|举例|
|:-:|:-:|:-:|:-:|
|POST_NUM|INT|发帖总数|32|
|POST_LAST_CREATE_DATE|VARCHAR(16)|用户发帖目录页第1页最后一次发帖日期|"2015-01-01 11:11"|
|POST_MIDDLE_CREATE_DATE|VARCHAR(16)|用户发帖目录页第1页中间一次发帖日期|"2015-01-01 11:11"|
|POST_FIRST_CREATE_DATE|VARCHAR(16)|用户发帖目录页第1页第一次发帖日期|"2015-01-01 11:11"|
##### 活跃程度(定期更新)
|字段名|类型|含义|举例|
|:-:|:-:|:-:|:-:|
|USER_LAST_LOGIN|VARCHAR(16)|上次登陆时间|"2015-01-01 11:11"|
|USER_CREATE_DATE|VARCHAR(12)|用户创建日期|"2015-01-01"|
##### 感兴趣信息(需要提取/抽取)
|字段名|类型|含义|举例|
|:-:|:-:|:-:|:-:|
|USER_QQ|VARCHAR(12)|QQ号码|"111111111"|
|USER_WECHAT|VARCHAR(16)|微信号|"ZhangSan0912"|
|USER_TEL|VARCHAR(15)|手机号|"13311111111"|
|USER_MAIL|TEXT|邮箱|"zhangsan0912@gmail.com"|
|USER_ADDRESS|TEXT|所在位置|"北京市海淀区XXX路XXX号"或"XXX区"或"南京"|
##### 表更新时间(定期更新)
|字段名|类型|含义|举例|
|:-:|:-:|:-:|:-:|
|TABLE_UPDATE_DATE|VARCHAR(16)|最后一次表更新时间|"2015-11-19 21:04:48"|