https://github.com/yanghao5/lexicon
输入法词库整理
https://github.com/yanghao5/lexicon
chinese ime lexicon vocabulary
Last synced: 3 months ago
JSON representation
输入法词库整理
- Host: GitHub
- URL: https://github.com/yanghao5/lexicon
- Owner: yanghao5
- Created: 2023-09-28T23:28:35.000Z (about 2 years ago)
- Default Branch: main
- Last Pushed: 2025-05-09T15:23:28.000Z (5 months ago)
- Last Synced: 2025-05-09T15:44:14.606Z (5 months ago)
- Topics: chinese, ime, lexicon, vocabulary
- Homepage:
- Size: 12.4 MB
- Stars: 18
- Watchers: 0
- Forks: 1
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# 输入法词库整理
收集了一些输入法词库,希望能对后来者有用.
如果觉得不错,点点 star.
# 更新说明(2025.05.09)
- 上一次更新是在 2023 年末尾.
- 过去了一年多,我对词库以及输入法有了新的理解.
- 所以我决定重构词库.主要做五件事
- 重新对词库分类,并新增一些类别
- 添加码表(汉字集,常用汉字集,全拼,86五笔,98五笔,笔画,拆字,小鹤辅助码,自然码辅助码)
- 使用新的格式,将 txt 转换成 json 格式
- 生成可供 AI 训练的,文本和拼音对应的语料
- 将数据同步到 huggingface全部更新,计划预计将于 2025 年年底完成.
在此之前,你可以使用旧版本.
```
git clone https://github.com/yanghao5/lexicon.git
git checkout 44a62328996be19c6d2d5383a8713bcf8971054b
```
# 码表说明(experimental)码表部分包含,汉字集,常用汉字集,全拼码表,86五笔码表,98五笔码表,笔画码表,小鹤辅助码,自然码辅助码,拆字码表
- **汉字集**: 一个包含许多汉字的集合
- **常用汉字集**: 通用规范汉字表中包含的 8105 个汉字,和一些补充汉字
- 全拼码表: 包含汉字集中的所有汉字拼音编码,和补充汉字
- **86 五笔码表**
- **98 五笔码表**
- **小鹤辅助码表**
- **自然码辅助码表**
- **拆字码表**## 汉字集特别说明
汉字集中包含的汉字,并非以诸如 `GB2312 GB18030—2022` 等标准中包含汉字为准.
**而是根据流行字体中所包含的汉字,整理得到的汉字表.**
这个汉字表会随着字体的更新而更新.
```
# 当前汉字集所涵盖的字体# 安卓 思源黑体
Fonts Version 2.004R
https://github.com/adobe-fonts/source-han-sans# 苹果 苹方
Fonts Version 19.0d5e3
https://developer.apple.com/fonts/system-fonts/# 微软雅黑
Fonts Version 6.25
https://learn.microsoft.com/en-us/typography/fonts/windows_11_font_list
```**为什么要这么做?**
汉字的显示需要字体的支持.
99.9999% 的普通人不会为了显示某个汉字而去安装特别的字体.
所以,我们需要一个在主流电子设备中,能正常显示的汉字集合.
而不是为了追求大而全,把 Unicode 标准中的所有汉字搞到一起.
## 字体安装
为了显示码表中所有的汉字集合,你需要额外安装字体
```
https://kamichikoichi.github.io/jigmo/
```## 结构
```go
type MataData struct {
Token string `json:"token"` \\ 汉字对应的文本
Unicode [][]string `json:"unicode"` \\ 汉字所对应的 Unicode
Encode [][]string `json:"encode"` \\ 对应的编码(全拼,86,98,拆字,笔画,辅助码)
ErrorEncode [][]string `json:"error_encode"` \\ 某些错误编码(仅在 全拼 和 98 提供,其他编码为空)
TextFrequency float64 `json:"textfreq"` \\ token 在文本出现的频率
PronFrequency []float64 `json:"pronfreq"` \\ token 的发音频率,对应 Encode 中的编码(仅在全拼中提供,其他为空)
Note string `json:"note"` \\ 备注
}
```# 词库说明(experimental)
**词库的使用具有边际效应,并不是越大越好,适合自己的才是最好的**
## 词库文件结构 (experimental)
- 词库使用 json 文本存储数据.
- 每一个 json 存储一个数组
- 数组元素格式,参考以下 go 或 py 代码go
```go
type MataData struct {
Token string `json:"token"` \\ 对应的文本
Encode [][]string `json:"encode"` \\ 对应的拼音编码
ErrorEncode [][]string `json:"error_encode"` \\ 某些错误拼音
TextFrequency float64 `json:"textfreq"` \\ token 在文本出现的频率
PronFrequency []float64 `json:"pronfreq"` \\ token 的发音频率,对应 Encode 中的编码
Note string `json:"note"` \\ 备注
}
```
py
```py
class MataData:
def __init__(self, token, encode, error_encode, textfreq, pronfreq, note):
self.token = token
self.encode = encode
self.error_encode = error_encode
self.textfreq = textfreq
self.pronfreq = pronfreq
self.note = note```
## 示例```json
[
{
"token": "但为君故",
"encode": [
["dan","wei","jun","gu"]
],
"error_encode": [],
"textfreq": 0,
"pronfreq": [0],
"note": ""
},
{
"token": "沉吟至今",
"encode": [
["chen","yin","zhi","jin"]
],
"error_encode": [],
"textfreq": 0,
"pronfreq": [0],
"note": ""
}
]
```# 词库一览(experimental)
| 词库名 | 介绍 |
| ------------ | ---------------------------------------- |
| 小词库 | 收录了 76168 条词汇,适合五笔输入法使用 |
| 大词库 | 收录了 265766 条词汇,适合拼音输入法使用 |
| 网络流行新词 | 收录了 38836 条网络词汇 |
| 常用聊天语 | 收录了 6451 条聊天词汇 |
| 缩写词库 | 收录了 858 条缩写词汇 |## 专业性词库(experimental)
| 词库名 | 介绍 |
| ------------------ | ---------------------------------------------- |
| 数学专业词汇 | 收录数学专业词汇,共计 15992 条 |
| 物理学 | 收录物理专业词汇,共计 13207 条 |
| 化学 | 收录化学专业词汇,共计 13264 条 |
| IT | 收录 IT 词汇,共计 18530 条 |
| 医学 | 收录医学词汇,共计 121023 条 |
| 中医 | 收录中医词汇,共计 34651 条 |
| 植物 | 收录数学专业词汇,共计 59641 条 |
| 动物和生物 | 收录动物、生物和动物疾病词汇,共计 94552 条 |
| 法律 | 收录法律词汇,共计 13272 条 |
| 经济金融 | 收录经济金融,共计 13777 条 |
| 化学 | 收录化学词汇,共计 13264 条 |
| 农业 | 收录农业专业词汇,共计 8874 条 |
| 服装 | 收录现代服装专业和汉服的相关词汇,共计 2276 条 |
| 冶金 | 收录冶金词汇,共计 88284 条 |
| 绘画美术 | 收录绘画美术词汇,共计 6317 条 |
| 考古 | 收录考古专业词汇,共计 5001 条 |
| 船舶 | 收录船舶专业词汇,共计 4277 条 |
| 天文学 | 收录天文学词汇,共计 2471 条 |
| 建筑学 | 收录建筑学词汇,共计 7479 条 |
| 机械 | 收录机械专业词汇,共计 1147 条 |
| 电子 | 收录电子专业词汇,共计 5596 条 |
| 书法 | 收录书法相关词汇,共计 5977 条 |
| 哲学 | 收录哲学词汇,共计 3752 条 |
| 世界史 | 收录世界史词汇,共计 1781 条 |
| 古文名句 | 收录古文名句,共计 13703 条 |
| 汉语语法 | 收录汉语语法词汇,共计 26 条 |
| 英语语法术语 | 收录英语语法词汇,共计 286 条 |
| 石油 | 收录石油词汇,共计 2906 条 |
| 武术 | 收录武术词汇,共计 482 条 |
| 红色 | 收录红色思想词汇,共计 896 条 |
| 地理 | 收录地理专业词汇,共计 3124 条 |
| 水利 | 收录水利词汇,共计 11904 条 |
| 八字命理,风水玄学 | 收录玄学相关词汇,共计 505 条 |
| 象棋 | 收录象棋词汇,共计 1772 条 |
| 音乐 | 收录音乐词汇,共计 169 条 |
| 测绘 | 收录测绘专业词汇,共计 2586 条 |
| 节日 | 收录节日相关词汇,共计 212 条 |
| 日本 | 收录日本相关词汇,共计 1655 条 |
| 职称大全 | 收录职称相关词汇,共计 152 条 |## 人名 (experimental)
| 词库名 | 介绍 |
| ------------ | ------------------------ |
| 人名 | 收录了 5022 条常见人名 |
| 名人 | 收录了 9673 条名人姓名 |
| 外国人名 | 收录了 6973 条外国人姓名 |
| 影视明星人名 | 收录了 1784 条外国人姓名 |
| 满族人名 | 收录了 820 条满族人名 |## 地名 (experimental)
| 词库名 | 介绍 |
| -------------------------- | ------------------------------------ |
| 全国县及县以上行政区划地名 | 收录了中国行政区词汇,共计 47325 条 |
| 中国风景名胜 | 收录了中国风景名胜词汇,共计 1565 条 |## 食物(experimental)
| 词库名 | 介绍 |
| ------ | --------------------------- |
| 食物 | 收录食物词汇,共计 10819 条 |
| 菜谱 | 收录菜谱,共计 1165 条 |## 古代(experimental)
| 词库名 | 介绍 |
| ---------------- | ----------------------------------------------------- |
| 古代 | 收录古代时期相关词汇,共计 32025 条 |
| 古典文献名录 | 收录古典文献名录共计 7537 条 |
| 古汉语常用词汇 | 收录古汉语常用词汇共计 910 条 |
| 先秦 | 收录先秦时期相关词汇,共计 1048 条 |
| 秦 | 收录秦朝时期相关词汇,共计 183 条 |
| 汉 | 收录两汉时期相关词汇,共计 304 条 |
| 三国 | 收录三国时期包括《三国演义》的相关词汇,共计 6994 条 |
| 南北朝和五代十国 | 收录南北朝和五代十国时期相关词汇,共计 2289 条 |
| 唐 | 收录唐朝时期相关词汇,共计 519 条 |
| 宋 | 收录北宋和南宋两朝相关词汇,共计 4580 条 |
| 元 | 收录元朝相关词汇,共计 249 条 |
| 明 | 收录明朝时期相关词汇,共计 300 条 |
| 清 | 收录清朝时期相关词汇,共计 31 条 |
| 曲牌名 | 收录曲牌名共计 526 条 |
| 词牌名 | 收录词牌名共计 1652 条 |
| 元代杂剧名 | 收录元代杂剧名共计 673 条 |## 宗教(experimental)
| 词库名 | 介绍 |
| -------- | ------------------------ |
| 道教 | 收录道教共计 1229 条 |
| 佛教 | 收录佛教共计 20705 条 |
| 伊斯兰教 | 收录伊斯兰教共计 2034 条 |
| 基督教 | 收录基督教共计 20 条 |## 方言(experimental)
| 词库名 | 介绍 |
| ------ | ------------------ |
| 广东话 | 收录广东地区方言 |
| 四川话 | 收录四川地区方言 |
| 庄河话 | 收录庄河地区方言 |
| 揭阳话 | 收录了揭阳地区方言 |
| 淮北话 | 收录了淮北地区方言 |
| 湖口话 | 收录了湖口地区方言 |
| 辽宁话 | 收录了辽宁地区方言 |
| 镇巴话 | 收录了镇巴地区方言 |## 高校及专业名(experimental)
| 词库名 | 介绍 |
| ---------------- | --------------------------------------- |
| 中国高等院校名称 | 收录全国高校名称,共计 7192 条 |
| 精简大学名称 | 收录 985 高校名称及其缩写,共计 76 条 |
| 高校专业 | 收录高校专业名称,共计 441 条 |## 写作(experimental)
- yy小说词库.txt
- 写作常用三字词.txt
- 头发描写.txt
- 美女形容词.txt
- 人物性格.txt
- 写作总论.txt
- 描写脸庞的词汇.txt
- 公文写作.txt
- 外貌描写大全.txt
- 神态动作.txt## 流行词库(experimental)
- 2007-8-18 汉语新词选目.txt
- 2008-2-26 十七大报告新词.txt
- 2008-3-1 网络爱情数字代码.txt
- 2009-5-10 网络流行语.txt
- 2013-3-26 颜文字词汇.txt
- 2014-10-25 网络语言用词.txt
- 2014-11-17 实用流行新词.txt
- 2014-网络流行语.txt
- 2015-网络用语.txt
- 2016-网络词.txt
- 百度贴吧.txt
- 网络热词.txt# AI 语言模型语料(experimental)
等待更新
# 参考(experimental)
- [搜狗词库](https://pinyin.sogou.com/dict/)
- [百度词库](https://shurufa.baidu.com/dict)
- [清华大学开放词库](http://thuocl.thunlp.org/)