{"id":13754301,"url":"https://github.com/liuhuanyong/PersonGraphDataSet","last_synced_at":"2025-05-09T22:31:51.652Z","repository":{"id":60271198,"uuid":"333055209","full_name":"liuhuanyong/PersonGraphDataSet","owner":"liuhuanyong","description":"PersonGraphDataSet, nearly 10 thousand person2person relationship facts。 人物图谱数据集，近十万的人物关系图谱事实数据库，通过人物关系抽取算法抽取+人工整理得出，可用于人物关系搜索、查询、人物关系多跳问答，以及人物关系推理等场景提供基础数据。","archived":false,"fork":false,"pushed_at":"2021-01-27T03:01:54.000Z","size":1174,"stargazers_count":239,"open_issues_count":3,"forks_count":37,"subscribers_count":11,"default_branch":"master","last_synced_at":"2024-11-16T07:33:21.329Z","etag":null,"topics":[],"latest_commit_sha":null,"homepage":"","language":null,"has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":null,"status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/liuhuanyong.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":null,"code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null}},"created_at":"2021-01-26T10:54:28.000Z","updated_at":"2024-11-08T09:48:49.000Z","dependencies_parsed_at":"2022-09-27T12:50:27.998Z","dependency_job_id":null,"html_url":"https://github.com/liuhuanyong/PersonGraphDataSet","commit_stats":null,"previous_names":[],"tags_count":0,"template":false,"template_full_name":null,"repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/liuhuanyong%2FPersonGraphDataSet","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/liuhuanyong%2FPersonGraphDataSet/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/liuhuanyong%2FPersonGraphDataSet/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/liuhuanyong%2FPersonGraphDataSet/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/liuhuanyong","download_url":"https://codeload.github.com/liuhuanyong/PersonGraphDataSet/tar.gz/refs/heads/master","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":253335780,"owners_count":21892732,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":[],"created_at":"2024-08-03T09:01:53.730Z","updated_at":"2025-05-09T22:31:46.639Z","avatar_url":"https://github.com/liuhuanyong.png","language":null,"funding_links":[],"categories":["知识图谱"],"sub_categories":["其他_文本生成、文本对话"],"readme":"# PersonGraphDataSet\nPersonGraphDataSet, nearly 10 thousand person2person relationship facts that build from extraction method, which can be applied to person kg search and inference applications。  人物图谱数据集，近十万的人物关系图谱事实数据库，通过人物关系抽取算法抽取+人工整理得出，可用于人物关系搜索、查询、人物关系多跳问答，以及人物关系推理等场景提供基础数据。\n\n# 项目由来\n关于为什么要开放这个项目，主要有以下几个方面的缘由：  \n1、阶段性总结。以刻画人物复杂关系为核心的网络关系网构建，具有十分重要的现实意义，两年前，带着个人兴趣，发布了一个未完成版的人物关系知识图谱项目(https://github.com/liuhuanyong/PersonRelationKnowledgeGraph)，    尝试采用基于知识库的数据回标,基于远程监督与bootstrapping方法的人物关系抽取，并以此完成基于知识图谱的知识问答等应用。但但由于工作时间为题，一直没能更新。今天，先对该工作的一个结果数据集开放出来，以对之前的项目做一个阶段性的总结。  \n2、数据集空缺。目前，面向中文领域的人物关系抽取数据集，还相对较少，代表性有ccks2019的开放数据集（https://arxiv.org/abs/1907.12801） ，该数据集公开了亲属关系、社交关系、师生关系三大类，现夫、前夫、朋友、恋人等34小类的人物关系数据集。该数据集是面向评测使用的，其所涉及的人物关系类型有限，并且不提供现成可用的人物关系数据。  \n3、应用驱动。当前，面向知识图谱入门级别的知识图谱推理、知识图谱可视化、知识问答、图谱搜索等场景，还缺乏可用的数据集。目前关于人物关系方面的应用，目前看到的，主要是百科类的展示以及搜狗人物图谱（https://www.sogou.com/tupu/person.html） 为代表，虽说是娱乐导向，但目前还缺乏这样的练手的数据和项目。  \n4、应用支撑。基于开放出来的人物关系知识数据，大家可以在此基础上进行多种应用尝试，包括算法训练、知识图谱入门、培训等等，这十分有意义。  \n \n# 项目构成\n本项目一共包括三个文件，分别记录人物关系元组信息以及关系类型信息：  \n1、big_rel_distribution.txt：大类关系及其分布文件。  \n2、person_rel_kg.data：人物关系图谱数据集文件。    \n3、small_rel_distribution.txt：小类关系及其分布文件      \n\n# 数据概况\n本数据集，一共包括97,158条人物关系数据，涉及人物71,243个，大类关系102个，小类关系266条，大致的情况具体如下：    \n\n| 数据类型 | 数据规模 | 示例 |\n| :--- | :---: | :---: |  \n| 关系数目 | 97,158 | 父亲、母亲、女友 | \n| 人物数目 | 71,243 | 姚明、易建联、乔布斯 | \n| 大类关系数 | 102 | 父亲、母亲、朋友 | \n| 小类关系数 | 266 | 闺蜜、女好友、前妻 | \n\n# 关系类型\n本数据集对人物关系进行了上下级分类，针对小类关系进一步归类整理成了若干个大类，选取小类数大于3的大类进行展示，如下表所示：\n| 关系大类 | 关系小类 |\n| :--- | :--- |\n|敌人|死敌;传闻不和;竞争对手;死对头;敌人;对手;骂战|\n|父亲|父亲;其父;继父;生父;干爹;义父;养父|\n|学生|学生;爱徒;徒孙|\n|合作|同伙;合作人;相声搭档;合作演员;合作;影视搭档;戏曲搭档;搭档;同时期队友;前队友;队友;国家队队友;女双搭档;主持搭档;合作伙伴;盟友;戏曲合作;混双搭档;合伙人|\n|情人|初恋;配偶;情侣;情人;伴侣;情敌;旧爱;情夫;爱人;前任;恋人;心上人;分手|\n|朋友|圈中好友;同伴;密友;友人;伙伴;好友;圈内好友;红颜知己;挚友;女好友|\n|丈夫|未婚夫;第二任丈夫;现任丈夫;前夫;第一任丈夫;丈夫|\n|祖先|祖先;鼻祖;始祖;先祖|\n|姐姐|大姐;二姐;姐姐|\n|妻子|妻妾;第二任妻子;现任妻子;第三任妻子;未婚妻;前妻;妻子;第一任妻子|\n|同门|同门师兄;校友;师妹;师弟;师兄弟;师姐|\n|弟弟|义弟;三弟;弟弟;五弟;四弟;六弟;胞弟;二弟|\n|女儿|女儿;继女;大女儿;养女;次女;干女儿;义女;三女;长女;二女儿;小女儿|\n|儿子|四子;三子;大儿子;干儿子;儿子;次子;五子;继子;义子;小儿子;二儿子;养子;幼子;长子|\n|哥哥|三哥;哥哥;长兄;二哥;四哥;大哥;五哥|\n|家人|亲戚;家属;亲属;近亲;亲人;孩子;家人;长辈|\n|老师|启蒙教练;师祖;师;师叔;师承;老师;现任教练;教练;班主任;伯乐|\n|母亲|义母;生母;养母;继母;干妈;母亲|\n|下属|下级;下属;属下;部下;君臣|\n|同学|同班同学;同学;同门|\n|继任者|继任者;后裔;继承人;后人;后代;继任|\n|偶像|喜欢的演员;最喜欢的歌手;喜欢的歌手;偶像|\n|妹妹|义妹;二妹;三妹;妹妹|\n\n# 数据分布\n目前，共涉及大类关系102个，小类关系266条，大类的top20样例如下：\n| 关系类型 | 关系规模 | 示例 | 关系类型 | 关系规模 | 示例 |\n| :--- | :---: | :---: |:--- | :---: | :---: |   \n| 合作 | 14,048 | \u003c左永邦,合作演员,合作,王珞丹\u003e |哥哥 | 2,379 | \u003c周星霞,哥哥,哥哥,周星驰\u003e |  \n| 朋友 | 13,632 | \u003c祖孙登,好友,朋友,张正见\u003e |学生 | 2,017 | \u003c左宏元,学生,学生,邓丽君\u003e |  \n| 父亲 | 6,857 | \u003c左太北,父亲,父亲,左权\u003e | 敌人 | 1,948 | \u003c左武王,死敌,敌人,诸葛正我\u003e | \n| 丈夫 | 5,348 | \u003c左蓝,未婚夫,丈夫,余则成\u003e | 弟弟 | 1,880 | \u003c祝龙,弟弟,弟弟,祝彪\u003e | \n| 情人 | 4,880 | \u003c庄睿,爱人,情人,秦萱冰\u003e | 同学 | 1,695 | \u003c祖峰,同学,同学,黄晓明\u003e | \n| 老师 | 4,727 | \u003c左欣然,老师,老师,许蕙兰\u003e | 女友 | 1,427 | \u003c邹世龙,前女友,女友,梅艳芳\u003e |\n| 儿子 | 4,631 | \u003c左武王,儿子,儿子,安祯侯\u003e | 妹妹 | 1,384 | \u003c祝齐英,妹妹,妹妹,祝英台\u003e |\n| 妻子 | 4,491 | \u003c祖峰,现任妻子,妻子,刘天池\u003e |姐姐 | 1,149 | \u003c卓龙,姐姐,姐姐,卓凤\u003e |  \n| 母亲 | 3,832 | \u003c卓玥,母亲,母亲,邓榕\u003e | 子女 | 977 | \u003c朱寿,子女,子女,朱厚熜\u003e |\n| 女儿 | 2,583 | \u003c宗庆后,女儿,女儿,宗馥莉\u003e | 祖父 | 962 | \u003c周璟馨,祖父,祖父,周海婴\u003e |\n\n# 数据样例\n1、数据格式为：\u003c人物1,小类关系,大类关系,人物2\u003e，为四元组形式，以满足不同的数据需求。  \n2、注意：为了对存在歧义的实体，采用了实体[实体简短描述]的方式进行区分处理。\n3、样例数据：  \n\n    \"\"\"\n        周洋,队友,合作,孙琳琳\n        周洋,队友,合作,王濛\n        周洋,队友,合作,张会\n        周洋,启蒙教练,老师,崔顺子\n        周洋,老师,老师,李琰\n        周扬[中国内地女演员],搭档,合作,叶童\n        周扬[中国内地女演员],好友,朋友,蒋欣\n        周扬[中国内地女演员],同学,同学,黄渤\n        周扬,搭档,合作,高圆圆\n        周扬,搭档,合作,叶童\n        周扬,好友,朋友,蒋欣\n        周扬,好友,朋友,霍思燕\n        周扬,好友,朋友,佟丽娅\n        周扬,同学,同学,黄渤\n    \"\"\"\n# 数据应用\n拥有了刻画人与人之间的复杂关系数据集，可以支撑包括知识问答、多跳推理、图谱可视化、未知关系推理、数据回标、特征增强、人物推荐、人物建模等多种应用尝试和科学研究：     \n| 大类场景 | 小类场景 | 应用举例 |\n| :--- | :---: | :---: |  \n| 信息检索 | 知识问答 | 姚明的老婆是谁？ | \n| 信息检索 | 多跳推理 | 姚明的女儿的爷爷是谁？ | \n| 信息检索 | 图谱可视化 | 将数据导入图数据库，进行图谱可视化展示 | \n| 信息检索 | 未知关系推理 | 给定两个人物节点，进行人物之间的潜在关联路径发现 | \n| 信息抽取 | 数据回标 | 根据结构化人物关系数据，利用远程监督方法进行回标 | \n| 信息抽取 | 特征增强 | 根据结构化人物关系数据，将用户的关联关系作为某个用户的某个特征 | \n| 信息推荐 | 人物推荐 | 根据关注某个人物，类推出与该人物相关的其他人物 | \n| 用户画像 | 人物建模 | 利用某个人物的关联信息，对其进行特征表示和画像建模 | \n\n# 项目总结\n1、本项目开放了一个人物关系知识图谱数据集，一共包括97,158条人物关系数据，涉及人物71,243个，大类关系102个，小类关系266条。  \n2、本项目采用了数据格式为：\u003c人物1,小类关系,大类关系,人物2\u003e，为四元组形式，可以满足不同的数据使用需求。  \n3、基于本项目，可以支撑包括知识问答、多跳推理、图谱可视化、未知关系推理、数据回标、特征增强、人物推荐、人物建模等多种应用尝试和科学研究工作。    \n4、本项目面向开放文本，采用人物关系抽取模型进行抽取形成，经人工矫正后，可以保证数据的质量。  \n\n# 关于作者\n\n刘焕勇，中国科学院软件研究所，专注金融、情报两大领域，从事事件抽取、事件演化、情感分析、事理（知识）图谱、常识推理、语言资源构建与应用等研发工作。如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作，可联系我：  \n1、我的github项目介绍：https://liuhuanyong.github.io  \n2、我的csdn技术博客：https://blog.csdn.net/lhy2014  \n3、我的联系方式: 刘焕勇，中国科学院软件研究所，lhy_in_blcu@126.com.  \n4、我的共享知识库项目：刘焕勇，数据地平线，http://www.openkg.cn/organization/datahorizon.  \n5、我的工业项目：刘焕勇，数据地平线，大规模实时事理学习系统：https://xueji.datahorizon.cn.  \n6、我的工业项目：刘焕勇，数据地平线，面向事件和语义的自然语言处理工具箱：https://nlp.datahorizon.cn  \n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fliuhuanyong%2FPersonGraphDataSet","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Fliuhuanyong%2FPersonGraphDataSet","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fliuhuanyong%2FPersonGraphDataSet/lists"}