https://github.com/mddct/knowledge-graph-ass
知识工程作业
https://github.com/mddct/knowledge-graph-ass
Last synced: 3 months ago
JSON representation
知识工程作业
- Host: GitHub
- URL: https://github.com/mddct/knowledge-graph-ass
- Owner: Mddct
- Created: 2018-05-23T02:44:36.000Z (about 8 years ago)
- Default Branch: master
- Last Pushed: 2018-06-27T07:31:22.000Z (almost 8 years ago)
- Last Synced: 2025-03-01T17:48:18.545Z (over 1 year ago)
- Language: HTML
- Homepage:
- Size: 11.5 MB
- Stars: 0
- Watchers: 2
- Forks: 1
- Open Issues: 0
-
Metadata Files:
- Readme: README.org
Awesome Lists containing this project
README
* knowledge grpah 作业
** 得分系数建议(姓):
| 周 | 杨 | 李 |
| 1/3 | 1/3 | 1/3 |
** 系统说明文档
*** 搜索系统使用MVC golang + ES + dbpedia sparql
*** 数据存储与查询
- 全文搜索引擎 elasticsearch
- jena
- dbpedia Dataset
- 爬虫爬取 电影网1905 5万条数据
*** 说明
- 推荐代码位于 crawel/knowledgegraph下
- 由于时间关系,缩小出版物集合重点放在电影部分,当然同时也支持基于名字的对书籍和游戏的查询和全文检索
- 推荐功能比较弱,只实现了同种类型查询下的根据名字及查询类型共享最多类型类别的推荐
- 局限:部分中文在dbpedia中查询不到, 推荐功能太弱, 日后要改进
*** 设计思路
- elasticsearch 中建立 3个index 分别是movie book game (movie 中id采用电影网的编号)。
- 由于sparql的regex匹配速度较慢,响应时间过长,采用把出版物的id和name存入到elasticsearch中,
- 获取搜索内容,由ES中全文检索和dbpedia的sparql中构成
#+BEGIN_SRC go
sparql = fmt.Sprintf(`PREFIX rdf:
PREFIX dbo:
PREFIX rdfs:
PREFIX dct:
select ?link ?name ?countrys ?abstract ?year ?thumbnail
where{
?link rdf:type dbo:Film;
rdfs:label ?name;
dbp:country ?countrys;
rdfs:comment ?abstract;
dbo:runtime ?year
filter regex(?name,"%s")
filter(LANG(?abstract)="zh" ).
optional {
?link dbo:thumbnail ?thumbnail
}`, %s)
#+END_SRC
- 每个页面由左边基于内容查找和右端知识卡片,知识卡片由dbpedia中相应推荐填充
#+BEGIN_SRC go
categoryMost= `SELECT COUNT(?movie) SAMPLE(?movie)
WHERE
{
?name rdf:type dbo:film
?name dct:subject ?o .
rdfs:label ?name;
dbp:country ?countrys;
rdfs:comment ?abstract;
dbo:runtime ?year
?movie dct:subject ?o
FILTER (?movie != dbr:?name) .
} GROUP BY ?movie
ORDER BY DESC(COUNT(?movie))
limit 5`
type = `SELECT COUNT(?movie) SAMPLE(?movie)
WHERE
{
dbr:A_Trip_to_the_Moon rdf:type ?o .
?movie rdf:type ?o
FILTER (?movie != dbr:A_Trip_to_the_Moon) .
} GROUP BY ?movie
ORDER BY DESC(COUNT(?movie))
lim5`
#+END_SRC
- 渲染网页,返回结果。
注意:
- 本文爬虫属于并发,架构如下,支撑elasticsearch和dbpedia中查询结果内容的部分补充
比如dbpedia中电影海报,可自定义解析器,本文爬虫爬取豆瓣电影 书籍 的封面。
- ES查询 sparql查询并发 缩短响应时间
[[file:crawler/并发版.PNG]]
*** 使用说明:
#+BEGIN_SRC go
cd crawler/src/
go run main.go
#+END_SRC
#+BEGIN_SRC go
for i := range ret {
wg.Add(1)
go func(i int, imgSrc *string) {
defer wg.Done()
iui := fmt.Sprintf(`https://www.douban.com/search?q=%s`,
ret[i].Name)
contents, err := fetcher.Fetch(iui)
if err != nil {
return
}
var dom, _ = goquery.NewDocumentFromReader(
strings.NewReader(string(contents)))
ok := false
,*imgSrc, ok = dom.Find(".pic").Find("img").Attr("src")
if !ok {
return
}
}(i, &(ret[i].ImageSrc))
}
#+END_SRC
[[file:src/static/img/demo0.jpg]]
[[file:src/static/img/demo.png]]
[[file:src/static/img/demo1.jpg]]
[[file:src/static/img/demo2.jpg]]
** 总结
项目最有特色的功能是什么,能让用户获得什么好处?
1 可以同时获得基于关键字 内容 和知识图谱的多方面内容,提高搜索效率
2 支持分页功能,
3 并发处理, 可以获得较快的响应速度
对课程有什么批评建议?
1. 希望能在知识图谱构建方面提供更多的材料和内容
2. 能够提供基于知识图谱对话系统实现的思路
** 参考 nlp to sparql (或者三元组)
- 语义解析
参考
https://nlp.stanford.edu/pubs/semparseEMNLP13.pdf
https://zhuanlan.zhihu.com/p/25759682
http://octopuscoder.github.io/2018/02/04/%E7%9F%A5%E8%AF%86%E5%9B%BE%E8%B0%B1%E9%97%AE%E7%AD%94%E6%80%BB%E7%BB%93/
http://www.websemanticsjournal.org/index.php/ps/article/view/189
https://github.com/IeuanWalker/Dissertation-Project
-
PREFIX owl:
PREFIX xsd:
PREFIX rdfs:
PREFIX rdf:
PREFIX foaf:
PREFIX dc:
PREFIX :
PREFIX dbpedia2:
PREFIX dbpedia:
PREFIX skos:
select ?movieLink ?title ?genreLink ?genre ?releaseDate where{
?movieLink rdf:type db:Film;
foaf:name ?title .
optional {
?movieLink dbpedia2:genre ?genreLink.
?genreLink rdfs:label ?genre.
filter(lang(?genre)='en')
}.
optional{
?movieLink ?releaseDate
}.
{0}{1}
filter(lang(?title)='en')
}
@prefix dt: .
@prefix ns: .
@prefix : .
@prefix xsd: .
:x ns:p "cat"@en .
:y ns:p "42"^^xsd:integer .
:z ns:p "abc"^^dt:specialDatatype .
@prefix dc: .
@prefix : .
@prefix ns: .
:book1 dc:title "SPARQL Tutorial" .
:book1 ns:price 42 .
:book2 dc:title "The Semantic Web" .
:book2 ns:price 23 .