Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/lixiang0/web_kg
爬取百度百科中文页面,抽取三元组信息,构建中文知识图谱
https://github.com/lixiang0/web_kg
baidu baike knowledge-graph neo4j nlp spider wiki
Last synced: 7 days ago
JSON representation
爬取百度百科中文页面,抽取三元组信息,构建中文知识图谱
- Host: GitHub
- URL: https://github.com/lixiang0/web_kg
- Owner: lixiang0
- Created: 2018-01-15T07:53:21.000Z (about 7 years ago)
- Default Branch: master
- Last Pushed: 2020-07-20T14:17:47.000Z (over 4 years ago)
- Last Synced: 2025-01-08T08:05:39.830Z (14 days ago)
- Topics: baidu, baike, knowledge-graph, neo4j, nlp, spider, wiki
- Language: Python
- Homepage: http://kg.rubenxiao.com
- Size: 41.1 MB
- Stars: 945
- Watchers: 22
- Forks: 190
- Open Issues: 19
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# 开源web知识图谱项目
- 爬取百度百科中文页面
- 解析三元组和网页内容
- 构建中文知识图谱
- 构建百科bot(构建中)##### update 20200720
Windows上的部署参考[如何在Windows上部署](https://github.com/lixiang0/WEB_KG/issues/20),感谢LMY-nlp0701!
##### update 20191121
- 迁移代码到爬虫框架scrapy
- 优化了抽取部分代码
- 数据持久化迁移到mongodb
- 修复chatbot失效问题
- 开放neo4j后台界面,可以查看知识图谱成型效果##### Tips
- 如果是项目问题,请提issue。
- 如果涉及到不方便公开的,请发邮件。
- ChatBot请访问[链接](http://bot.rubenxiao.com/)
- 成型的百科知识图谱访问[链接](http://kg.rubenxiao.com/),用户名:neo4j,密码:123。效果如下:
![](imgs/kg6.png)### 环境
- python 3.6
- re:url正则匹配
- scrapy:网页爬虫和网页解析
- neo4j:知识图谱图数据库,安装可以参考[链接](http://blog.rubenxiao.com/posts/install-neo4j.html)
- pip install neo4j-driver:neo4j python驱动
- pip install pymongodb:mongodb的python支持
- mongodb数据库:安装参考[链接](https://docs.mongodb.com/manual/tutorial/install-mongodb-on-ubuntu/)### 代码执行:
```
cd WEB_KG/baike
scrapy crawl baike
```执行界面(按ctrl+c停止):
![](./imgs/kg5.png)### 知识图谱效果图
![](./imgs/kg.png)
### mongodb存储的网页内容
![](./imgs/kg3.png)
### mongodb存储的三元组
![](./imgs/kg4.png)
### neo4j后台界面
![](./imgs/kg2.png)