{"id":27164799,"url":"https://github.com/yanghao5/lexicon","last_synced_at":"2025-07-09T11:05:00.502Z","repository":{"id":197113293,"uuid":"698000682","full_name":"yanghao5/lexicon","owner":"yanghao5","description":"输入法词库整理","archived":false,"fork":false,"pushed_at":"2025-05-09T15:23:28.000Z","size":12993,"stargazers_count":18,"open_issues_count":0,"forks_count":1,"subscribers_count":0,"default_branch":"main","last_synced_at":"2025-05-09T15:44:14.606Z","etag":null,"topics":["chinese","ime","lexicon","vocabulary"],"latest_commit_sha":null,"homepage":"","language":null,"has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":null,"status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/yanghao5.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":null,"code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null,"dei":null,"publiccode":null,"codemeta":null,"zenodo":null}},"created_at":"2023-09-28T23:28:35.000Z","updated_at":"2025-05-09T15:23:31.000Z","dependencies_parsed_at":"2023-09-29T03:01:54.290Z","dependency_job_id":"61047e01-58e8-4372-8853-23370fc448ef","html_url":"https://github.com/yanghao5/lexicon","commit_stats":null,"previous_names":["neo742/lexicon","ohjunk1/lexicon","ohjunk2001/lexicon","hallyoung/lexicon","nealhallyoung/lexicon","yanghao5/lexicon"],"tags_count":0,"template":false,"template_full_name":null,"purl":"pkg:github/yanghao5/lexicon","repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/yanghao5%2Flexicon","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/yanghao5%2Flexicon/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/yanghao5%2Flexicon/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/yanghao5%2Flexicon/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/yanghao5","download_url":"https://codeload.github.com/yanghao5/lexicon/tar.gz/refs/heads/main","sbom_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/yanghao5%2Flexicon/sbom","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":264446716,"owners_count":23609632,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":["chinese","ime","lexicon","vocabulary"],"created_at":"2025-04-09T02:25:12.824Z","updated_at":"2025-07-09T11:05:00.493Z","avatar_url":"https://github.com/yanghao5.png","language":null,"funding_links":[],"categories":[],"sub_categories":[],"readme":"# 输入法词库整理\n\n收集了一些输入法词库，希望能对后来者有用.\n\n如果觉得不错，点点 star.\n\n# 更新说明（2025.05.09）\n\n- 上一次更新是在 2023 年末尾.\n- 过去了一年多，我对词库以及输入法有了新的理解.\n- 所以我决定重构词库.\n\n主要做五件事\n\n- 重新对词库分类，并新增一些类别\n- 添加码表（汉字集，常用汉字集，全拼，86五笔，98五笔，笔画，拆字，小鹤辅助码，自然码辅助码）\n- 使用新的格式，将 txt 转换成 json 格式\n- 生成可供 AI 训练的，文本和拼音对应的语料\n- 将数据同步到 huggingface\n\n全部更新，计划预计将于 2025 年年底完成.\n\n在此之前，你可以使用旧版本.\n\n```\ngit clone https://github.com/yanghao5/lexicon.git\ngit checkout 44a62328996be19c6d2d5383a8713bcf8971054b\n```\n# 码表说明（experimental）\n\n码表部分包含，汉字集，常用汉字集，全拼码表，86五笔码表，98五笔码表，笔画码表，小鹤辅助码，自然码辅助码，拆字码表\n- **汉字集**: 一个包含许多汉字的集合\n- **常用汉字集**: 通用规范汉字表中包含的 8105 个汉字，和一些补充汉字\n- 全拼码表: 包含汉字集中的所有汉字拼音编码，和补充汉字\n- **86 五笔码表**\n- **98 五笔码表**\n- **小鹤辅助码表**\n- **自然码辅助码表**\n- **拆字码表**\n\n## 汉字集特别说明\n\n汉字集中包含的汉字，并非以诸如 `GB2312 GB18030—2022` 等标准中包含汉字为准.\n\n**而是根据流行字体中所包含的汉字，整理得到的汉字表.**\n\n这个汉字表会随着字体的更新而更新.\n\n```\n# 当前汉字集所涵盖的字体\n\n# 安卓 思源黑体 \nFonts Version 2.004R\nhttps://github.com/adobe-fonts/source-han-sans \n\n# 苹果 苹方\nFonts Version 19.0d5e3\nhttps://developer.apple.com/fonts/system-fonts/\n\n# 微软雅黑\nFonts Version 6.25\nhttps://learn.microsoft.com/en-us/typography/fonts/windows_11_font_list\n```\n\n**为什么要这么做？**\n\n汉字的显示需要字体的支持.\n\n99.9999% 的普通人不会为了显示某个汉字而去安装特别的字体.\n\n所以，我们需要一个在主流电子设备中，能正常显示的汉字集合.\n\n而不是为了追求大而全，把 Unicode 标准中的所有汉字搞到一起.\n\n## 字体安装\n\n为了显示码表中所有的汉字集合，你需要额外安装字体\n\n```\nhttps://kamichikoichi.github.io/jigmo/\n```\n\n## 结构\n```go\ntype MataData struct {\n\tToken         string     `json:\"token\"` \\\\ 汉字对应的文本\n\tUnicode       [][]string `json:\"unicode\"` \\\\ 汉字所对应的 Unicode\n\tEncode        [][]string `json:\"encode\"` \\\\ 对应的编码（全拼，86，98，拆字，笔画，辅助码）\n\tErrorEncode   [][]string `json:\"error_encode\"` \\\\ 某些错误编码（仅在 全拼 和 98 提供，其他编码为空）\n\tTextFrequency float64    `json:\"textfreq\"` \\\\ token 在文本出现的频率\n\tPronFrequency []float64  `json:\"pronfreq\"` \\\\ token 的发音频率，对应 Encode 中的编码（仅在全拼中提供，其他为空）\n\tNote          string     `json:\"note\"` \\\\ 备注\n}\n```\n\n# 词库说明（experimental）\n\n**词库的使用具有边际效应，并不是越大越好，适合自己的才是最好的**\n\n## 词库文件结构 （experimental）\n\n- 词库使用 json 文本存储数据.\n- 每一个 json 存储一个数组\n- 数组元素格式，参考以下 go 或 py 代码\n\ngo\n```go\ntype MataData struct {\n\tToken         string     `json:\"token\"` \\\\ 对应的文本\n\tEncode        [][]string `json:\"encode\"` \\\\ 对应的拼音编码\n\tErrorEncode   [][]string `json:\"error_encode\"` \\\\ 某些错误拼音\n\tTextFrequency float64    `json:\"textfreq\"` \\\\ token 在文本出现的频率\n\tPronFrequency []float64  `json:\"pronfreq\"` \\\\ token 的发音频率，对应 Encode 中的编码\n\tNote          string     `json:\"note\"` \\\\ 备注\n}\n```\npy\n```py\nclass MataData:\n    def __init__(self, token, encode, error_encode, textfreq, pronfreq, note):\n        self.token = token\n        self.encode = encode              \n        self.error_encode = error_encode  \n        self.textfreq = textfreq         \n        self.pronfreq = pronfreq          \n        self.note = note\n\n```\n## 示例\n\n```json\n[\n    {\n        \"token\": \"但为君故\",\n        \"encode\": [\n            [\"dan\",\"wei\",\"jun\",\"gu\"]\n        ],\n        \"error_encode\": [],\n        \"textfreq\": 0,\n        \"pronfreq\": [0],\n        \"note\": \"\"\n    },\n    {\n        \"token\": \"沉吟至今\",\n        \"encode\": [\n            [\"chen\",\"yin\",\"zhi\",\"jin\"]\n        ],\n        \"error_encode\": [],\n        \"textfreq\": 0,\n        \"pronfreq\": [0],\n        \"note\": \"\"\n    }\n]\n```\n\n# 词库一览（experimental）\n\n| 词库名       | 介绍                                     |\n| ------------ | ---------------------------------------- |\n| 小词库       | 收录了 76168 条词汇，适合五笔输入法使用  |\n| 大词库       | 收录了 265766 条词汇，适合拼音输入法使用 |\n| 网络流行新词 | 收录了 38836 条网络词汇                  |\n| 常用聊天语   | 收录了 6451 条聊天词汇                   |\n| 缩写词库     | 收录了 858 条缩写词汇                    |\n\n## 专业性词库（experimental）\n\n| 词库名             | 介绍                                           |\n| ------------------ | ---------------------------------------------- |\n| 数学专业词汇       | 收录数学专业词汇，共计 15992 条                |\n| 物理学             | 收录物理专业词汇，共计 13207 条                |\n| 化学               | 收录化学专业词汇，共计 13264 条                |\n| IT                 | 收录 IT 词汇，共计 18530 条                    |\n| 医学               | 收录医学词汇，共计 121023 条                   |\n| 中医               | 收录中医词汇，共计 34651 条                    |\n| 植物               | 收录数学专业词汇，共计 59641 条                |\n| 动物和生物         | 收录动物、生物和动物疾病词汇，共计 94552 条    |\n| 法律               | 收录法律词汇，共计 13272 条                    |\n| 经济金融           | 收录经济金融，共计 13777 条                    |\n| 化学               | 收录化学词汇，共计 13264 条                    |\n| 农业               | 收录农业专业词汇，共计 8874 条                 |\n| 服装               | 收录现代服装专业和汉服的相关词汇，共计 2276 条 |\n| 冶金               | 收录冶金词汇，共计 88284 条                    |\n| 绘画美术           | 收录绘画美术词汇，共计 6317 条                 |\n| 考古               | 收录考古专业词汇，共计 5001 条                 |\n| 船舶               | 收录船舶专业词汇，共计 4277 条                 |\n| 天文学             | 收录天文学词汇，共计 2471 条                   |\n| 建筑学             | 收录建筑学词汇，共计 7479 条                   |\n| 机械               | 收录机械专业词汇，共计 1147 条                 |\n| 电子               | 收录电子专业词汇，共计 5596 条                 |\n| 书法               | 收录书法相关词汇，共计 5977 条                 |\n| 哲学               | 收录哲学词汇，共计 3752 条                     |\n| 世界史             | 收录世界史词汇，共计 1781 条                   |\n| 古文名句           | 收录古文名句，共计 13703 条                    |\n| 汉语语法           | 收录汉语语法词汇，共计 26 条                   |\n| 英语语法术语       | 收录英语语法词汇，共计 286 条                  |\n| 石油               | 收录石油词汇，共计 2906 条                     |\n| 武术               | 收录武术词汇，共计 482 条                      |\n| 红色               | 收录红色思想词汇，共计 896 条                  |\n| 地理               | 收录地理专业词汇，共计 3124 条                 |\n| 水利               | 收录水利词汇，共计 11904 条                    |\n| 八字命理，风水玄学 | 收录玄学相关词汇，共计 505 条                  |\n| 象棋               | 收录象棋词汇，共计 1772 条                     |\n| 音乐               | 收录音乐词汇，共计 169 条                      |\n| 测绘               | 收录测绘专业词汇，共计 2586 条                 |\n| 节日               | 收录节日相关词汇，共计 212 条                  |\n| 日本               | 收录日本相关词汇，共计 1655 条                 |\n| 职称大全           | 收录职称相关词汇，共计 152 条                  |\n\n## 人名 （experimental）\n\n| 词库名       | 介绍                     |\n| ------------ | ------------------------ |\n| 人名         | 收录了 5022 条常见人名   |\n| 名人         | 收录了 9673 条名人姓名   |\n| 外国人名     | 收录了 6973 条外国人姓名 |\n| 影视明星人名 | 收录了 1784 条外国人姓名 |\n| 满族人名     | 收录了 820 条满族人名    |\n\n## 地名 （experimental）\n\n| 词库名                     | 介绍                                 |\n| -------------------------- | ------------------------------------ |\n| 全国县及县以上行政区划地名 | 收录了中国行政区词汇，共计 47325 条  |\n| 中国风景名胜               | 收录了中国风景名胜词汇，共计 1565 条 |\n\n## 食物（experimental）\n\n| 词库名 | 介绍                        |\n| ------ | --------------------------- |\n| 食物   | 收录食物词汇，共计 10819 条 |\n| 菜谱   | 收录菜谱，共计 1165  条     |\n\n## 古代（experimental）\n\n| 词库名           | 介绍                                                  |\n| ---------------- | ----------------------------------------------------- |\n| 古代             | 收录古代时期相关词汇，共计 32025  条                  |\n| 古典文献名录     | 收录古典文献名录共计 7537  条                         |\n| 古汉语常用词汇   | 收录古汉语常用词汇共计 910  条                        |\n| 先秦             | 收录先秦时期相关词汇，共计 1048  条                   |\n| 秦               | 收录秦朝时期相关词汇，共计 183  条                    |\n| 汉               | 收录两汉时期相关词汇，共计 304  条                    |\n| 三国             | 收录三国时期包括《三国演义》的相关词汇，共计 6994  条 |\n| 南北朝和五代十国 | 收录南北朝和五代十国时期相关词汇，共计 2289  条       |\n| 唐               | 收录唐朝时期相关词汇，共计 519  条                    |\n| 宋               | 收录北宋和南宋两朝相关词汇，共计 4580 条              |\n| 元               | 收录元朝相关词汇，共计 249 条                         |\n| 明               | 收录明朝时期相关词汇，共计 300 条                     |\n| 清               | 收录清朝时期相关词汇，共计 31 条                      |\n| 曲牌名           | 收录曲牌名共计 526 条                                 |\n| 词牌名           | 收录词牌名共计 1652 条                                |\n| 元代杂剧名       | 收录元代杂剧名共计 673 条                             |\n\n## 宗教（experimental）\n\n| 词库名   | 介绍                     |\n| -------- | ------------------------ |\n| 道教     | 收录道教共计 1229 条     |\n| 佛教     | 收录佛教共计 20705 条    |\n| 伊斯兰教 | 收录伊斯兰教共计 2034 条 |\n| 基督教   | 收录基督教共计 20 条     |\n\n## 方言（experimental）\n\n| 词库名 | 介绍               |\n| ------ | ------------------ |\n| 广东话 | 收录广东地区方言   |\n| 四川话 | 收录四川地区方言   |\n| 庄河话 | 收录庄河地区方言   |\n| 揭阳话 | 收录了揭阳地区方言 |\n| 淮北话 | 收录了淮北地区方言 |\n| 湖口话 | 收录了湖口地区方言 |\n| 辽宁话 | 收录了辽宁地区方言 |\n| 镇巴话 | 收录了镇巴地区方言 |\n\n## 高校及专业名（experimental）\n\n| 词库名           | 介绍                                    |\n| ---------------- | --------------------------------------- |\n| 中国高等院校名称 | 收录全国高校名称，共计  7192 条         |\n| 精简大学名称     | 收录 985 高校名称及其缩写，共计  76  条 |\n| 高校专业         | 收录高校专业名称，共计  441 条          |\n\n## 写作（experimental）\n\n- yy小说词库.txt \n- 写作常用三字词.txt  \n- 头发描写.txt        \n- 美女形容词.txt\n- 人物性格.txt    \n- 写作总论.txt        \n- 描写脸庞的词汇.txt\n- 公文写作.txt    \n- 外貌描写大全.txt    \n- 神态动作.txt\n\n## 流行词库（experimental）\n\n-  2007-8-18 汉语新词选目.txt\n- 2008-2-26 十七大报告新词.txt\n- 2008-3-1 网络爱情数字代码.txt\n- 2009-5-10 网络流行语.txt\n- 2013-3-26 颜文字词汇.txt\n- 2014-10-25 网络语言用词.txt\n- 2014-11-17 实用流行新词.txt\n- 2014-网络流行语.txt\n- 2015-网络用语.txt\n- 2016-网络词.txt\n- 百度贴吧.txt\n- 网络热词.txt\n\n# AI 语言模型语料（experimental）\n\n等待更新\n\n# 参考（experimental）\n\n- [搜狗词库](https://pinyin.sogou.com/dict/)\n- [百度词库](https://shurufa.baidu.com/dict)\n- [清华大学开放词库](http://thuocl.thunlp.org/)\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fyanghao5%2Flexicon","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Fyanghao5%2Flexicon","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fyanghao5%2Flexicon/lists"}