{"id":13754310,"url":"https://github.com/liuhuanyong/ChineseSemanticKB","last_synced_at":"2025-05-09T22:31:53.853Z","repository":{"id":43020156,"uuid":"280658951","full_name":"liuhuanyong/ChineseSemanticKB","owner":"liuhuanyong","description":"ChineseSemanticKB,chinese semantic knowledge base, 面向中文处理的12类、百万规模的语义常用词典，包括34万抽象语义库、34万反义语义库、43万同义语义库等，可支持句子扩展、转写、事件抽象与泛化等多种应用场景。","archived":false,"fork":false,"pushed_at":"2023-03-17T16:22:50.000Z","size":8441,"stargazers_count":740,"open_issues_count":4,"forks_count":163,"subscribers_count":19,"default_branch":"master","last_synced_at":"2024-11-16T07:33:21.111Z","etag":null,"topics":[],"latest_commit_sha":null,"homepage":"","language":"Python","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":null,"status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/liuhuanyong.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":null,"code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null}},"created_at":"2020-07-18T13:10:37.000Z","updated_at":"2024-11-01T19:59:10.000Z","dependencies_parsed_at":"2022-07-10T23:16:29.269Z","dependency_job_id":"13cb3b83-88ea-4b2c-8a80-bb196061cdd7","html_url":"https://github.com/liuhuanyong/ChineseSemanticKB","commit_stats":null,"previous_names":[],"tags_count":0,"template":false,"template_full_name":null,"repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/liuhuanyong%2FChineseSemanticKB","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/liuhuanyong%2FChineseSemanticKB/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/liuhuanyong%2FChineseSemanticKB/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/liuhuanyong%2FChineseSemanticKB/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/liuhuanyong","download_url":"https://codeload.github.com/liuhuanyong/ChineseSemanticKB/tar.gz/refs/heads/master","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":253335801,"owners_count":21892737,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":[],"created_at":"2024-08-03T09:01:54.007Z","updated_at":"2025-05-09T22:31:48.832Z","avatar_url":"https://github.com/liuhuanyong.png","language":"Python","funding_links":[],"categories":["知识图谱","Python"],"sub_categories":["其他_文本生成、文本对话"],"readme":"# ChineseSemanticKB\nChineseSemanticKB,chinese semantic knowledge base, 面向中文处理的12类、百万规模的语义常用词典，包括34万抽象语义库、34万反义语义库、43万同义语义库等，可支持句子扩展、转写、事件抽象与泛化等多种应用场景。\n\n# 项目介绍\n语义知识库是自然语言处理中十分重要的一个基础资源，与学术界追求算法模型不同，工业界的自然语言处理对于底层的词汇知识库、语义知识库等多种资源依赖度很高，具体体现在：  \n1、具有落地场景的自然语言处理任务都是业务高度相关，一个业务需求刚进去，需要解决的是业务的词汇问题，无基础词库，无项目冷启动；  \n2、规则和正则启动下的工业级应用，规则的扩展、泛化都需要底层的词汇网络做支撑；  \n3、目前包括搜索、问答、舆情监控、事件分析等应用，与标签体系的运作关系密切，而这与先验的底层词汇库依赖性很强；  \n4、自然语言场景越来越关注推理层面，即所谓的“认知”层面，认知背后的各种逻辑关系库，是驱动这一决策的根本途径；  \n5、当前，面向中文开源词库的工作存在少量、分散的状态，无论从规模，还是质量，都需要进一步聚合；  \n因此，我从过往的开源工作中进一步抽离和整理，形成了中文处理的12类、百万规模的语义常用词典，包括34万抽象语义库、34万反义语义库、43万同义语义库等，用于相关下游任务。  \n\n项目放于dict当中，可直接下载，不建议二次建库共享，尊重开源。\n\n# 词库的类别\n\n| 词库类型 | 词库规模 | 词库举例 | 词库应用 |\n| :--- | :---: | :---: | :---: |\n| 抽象关系库 | 346,048 | 座椅,抽象,家具 | 事件抽象与泛化，人民币贬值到货币贬值，再到美元贬值，可支持查询扩展、推荐等任务 |\n| 反义关系库 | 34,380 | 开心@苦恼 | 可用于句子改写，开心改苦恼，支持数据增强，句子生成 |\n| 同义关系库 | 424,826 | 开心@高兴| 可用于查询扩展、数据增强，也可结合抽象关系库完成推荐等任务 |\n| 简称关系库 | 136,081 | 北京大学@北大| 可用于句子标准化、句子改写、实体消歧等任务 |\n| 程度副词 | 222 | 极其,2.0 | 可用于情感强度计算，带情感色彩的句子生成 |\n| 否定词 | 586 | 不,无,没有 | 可用于情感计算等任务 |\n| 节日时间词 | 54 | 春节、五四节 | 可用于时间词识别等任务 |\n| 量比词 | 7 | 占比、环比、同比 | 可用于金融领域指标类数据提取任务 |\n| 数量介词 | 24| 大约、达到、超过 |可用于金融事件抽象或主干化的搭配词处理任务  |\n| 停用词 | 3,861 | ？、的、着 | 常规的文本特征提取等任务 |\n| 修饰副词 | 222 | 所、有所 | 可结合程度副词完成情感强度计算等任务 |\n| 情态词 |　77 | 肯定、应该、大概 | 可用于句子主观性计算、舆情与可信度计算 |\n\n# 总结\n1、本项目开源了一个目前可用于事件处理以及工业舆情的12类语义词库，总规模数目一百余万；  \n2、本项目开源的34万抽象语义库、34万反义语义库、43万同义语义库，在作者的实际工作中【事件处理、事理抽取、事件推理】等有重要用途;  \n3、中文常用语义常用词典，均来源于公开文本+人工整理+机器抽取形成，其中若有质量不高之处，可积极批评指正;  \n4、中文开源事业还是要坚持做下去，尽可能地缩短自然语言处理学术界和工业界之间的鸿沟。  \n\nIf any question about the project or me ,see https://liuhuanyong.github.io/.   \n如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作，可联系我：        \n1、我的github项目介绍：https://liuhuanyong.github.io     \n2、我的csdn技术博客：https://blog.csdn.net/lhy2014    \n3、我的联系方式: 刘焕勇，中国科学院软件研究所，lhy_in_blcu@126.com.    \n4、我的共享知识库项目：刘焕勇，数据地平线，http://www.openkg.cn/organization/datahorizon.   \n5、我的工业项目：刘焕勇，数据地平线，大规模实时事理学习系统：https://xueji.datahorizon.cn.     \n6、我的工业项目：刘焕勇，数据地平线，面向事件和语义的自然语言处理工具箱：https://nlp.datahorizon.cn      \n\n\n\n\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fliuhuanyong%2FChineseSemanticKB","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Fliuhuanyong%2FChineseSemanticKB","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fliuhuanyong%2FChineseSemanticKB/lists"}