https://github.com/amorphobia/opencc-tonggui
开放中文转换 - 简繁转换之通用规范汉字标准
https://github.com/amorphobia/opencc-tonggui
opencc opencc-data
Last synced: about 2 months ago
JSON representation
开放中文转换 - 简繁转换之通用规范汉字标准
- Host: GitHub
- URL: https://github.com/amorphobia/opencc-tonggui
- Owner: amorphobia
- Created: 2023-08-25T11:55:12.000Z (almost 3 years ago)
- Default Branch: master
- Last Pushed: 2026-05-02T11:40:25.000Z (about 2 months ago)
- Last Synced: 2026-05-02T13:27:11.793Z (about 2 months ago)
- Topics: opencc, opencc-data
- Language: Makefile
- Homepage:
- Size: 858 KB
- Stars: 16
- Watchers: 2
- Forks: 3
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# OpenCC 简繁转换之通用规范汉字标准
> [!NOTE]
> - 由于转换词典的底稿是 OpenCC 的简繁转换词典,少许异体字的使用并不符合中国大陆标准,仍需进一步校对。
> - 由于排除了异体字,本表不包含由繁至简的转换,可使用 OpenCC 现有繁简转换。
## 构建
首先安装 OpenCC 命令行工具和 GNU make 工具,然后运行 `make all` 或者 `make extend`,构建产物在 `opencc` 文件夹中。
如果不需要[扩展](#扩展)转换,推荐使用 GitHub Action 自动构建的[每夜版](https://github.com/amorphobia/opencc-tonggui/releases/tag/latest)。
## 介绍
本仓库提供以中国大陆标准为基础的 [OpenCC](https://github.com/BYVoid/OpenCC) 转换词典,基于《[通用规范汉字表](https://zh.wikipedia.org/zh-cn/%E9%80%9A%E7%94%A8%E8%A7%84%E8%8C%83%E6%B1%89%E5%AD%97%E8%A1%A8)》(以下简称《通规》)、《[简化字总表](https://zh.wikipedia.org/zh-cn/%E7%AE%80%E5%8C%96%E5%AD%97%E6%80%BB%E8%A1%A8)》(以下简称《总表》)、OpenCC 数据等资料制作。
## 原则
1. 简繁关系、异体字关系、适用意项、字形以《通规》为基础,辅以《[新华字典](https://zh.wikipedia.org/zh-cn/%E6%96%B0%E5%8D%8E%E5%AD%97%E5%85%B8)》、《[现代汉语词典](https://zh.wikipedia.org/zh-cn/%E7%8E%B0%E4%BB%A3%E6%B1%89%E8%AF%AD%E8%AF%8D%E5%85%B8)》(以下简称《现汉》)、《[汉语大字典](https://zh.wikipedia.org/zh-cn/%E6%B1%89%E8%AF%AD%E5%A4%A7%E5%AD%97%E5%85%B8)》(以下简称《大字典》)参考修正。
1. 只考虑由简到繁的转换,不进行异体字、异写字的转换。
1. 对于表外汉字(包括表内含可类推简化部件的异体字),可依照《总表》第二表进行类推简化;不符合《总表》规则的类推不予收录。以下提及“类推简化”时,如无特别说明,均需符合《总表》类推规则。
1. 字形以统一码 G 源字为准,若无 G 源字形的,需类推其应有的 G 源字形。如“麪”需参考其 G 源字形“⿰麥丏”而非 H 源“⿺麥丏”;那么“𪋿”字虽无 G 源字形,也需类推为“⿰麥卜”而非参考已有的 H 源“⿺麥卜”。
统一码中 G 源字形与预期应有字形不一致的,在此修正
|单字|统一码|G 源字形|修正字形|备注|
|---|---|---|---|---|
|栃|U+6803|⿰木⿸𠂆万|⿰木厉|大陆标准中,“厉”字第一笔应为横;由于无字体如此设计,本条修正等效于将“栃〔櫔〕”添加到《总表》的第一表|
|𫡬|U+2B86C|⿰丸呙|⿺丸呙|拟将 G 源中形如“⿰丸?”的字均修正为“⿺丸?”|
## 关于《通规》
本表以《通规》为基础,但依然会酌情考虑字词之非通用意项,如姓氏、地名、旧意(参考前述辞书),因此个别字的繁体略有不同。
|规范字|《通规》繁体字|修正|备注|
|---|---|---|---|
|荐|薦|+荐|《大字典》荐:➌副词。表示频度,相当于“一再”、“屡次”。……|
|价|價|+价|《新华字典》价 jiè:旧时称被派遣传送东西或传达事情的人。|
|柜|櫃|+柜|《新华字典》柜 jǔ:柜柳,落叶乔木,即枫杨,羽状复叶,性耐湿、耐碱,可固沙。枝韧,可以编筐。|
|适|適|+适|《现汉》适 kuò:➊同“𨓈”。➋(Kuò)姓。|
|篱|篱 籬|-篱|《大字典》篱:同“籬”。……按:今为“籬”的简化字。《新华字典》、《现汉》之繁体“籬”亦可用于所有意项。|
|确|確|+确|《新华字典》确 què:➍同“埆”。|
|胜|勝|+胜|《新华字典》胜 shēng:“肽”(tài)的旧称。|
|腊|臘|+腊|《新华字典》腊 xī:干肉。|
|佣|傭|+佣|《新华字典》佣 yòng:佣金,佣钱,买卖东西时给介绍人的钱。|
|愿|願|+愿|《新华字典》愿 yuàn:➍恭谨。|
|蜡|蠟|+蜡|《新华字典》蜡 zhà:古代年终的一种祭祀名。|
|只|隻 衹|+只|《现汉》只² Zhǐ:姓。|
## 关于《总表》
制定《总表》时,一些简化方式可能会导致不合理的情况。这在《通规》发布后,通过不类推表外字而暂时绕开了。由于本仓库会收录类推简化字,所以不得不做一点小的修正。
1. “㝉〔宁〕”、“丝〔絲〕”应添加到第二表。
1. “乌〔烏〕”、“鸟〔鳥〕” 上部(即除“一〔灬〕”以外的部分)亦添加到第二表,以兼容“凫〔鳬〕”、“岛〔島〕”等字。
1. 繁体中,“萈”与“莧”是两个不同声旁,事实上都简化为了“苋”,因此需额外添加“苋〔萈〕”到第二表。
1. “毂〔轂〕”应添加到第一表。
1. 由于大量含“㒼”偏旁的字被类推简化为含“𬜯”的字,应添加“𬜯〔㒼〕”到第二表的**简化偏旁**部分。与“只〔戠〕”类似,此简繁对应关系仅在作为偏旁时成立。
1. 规定“與”作上偏旁时不类推简化,如“𱊭->鸒”,而将“𱉰”视为异体字(除非“𱉰”加入《通规》,否则不视为简繁关系)。
1. 规定“廣”作上偏旁和左上包围偏旁时不类推简化,如“懬”不类推简化为“応”。
1. 规定“氣”作上偏旁和右上包围偏旁时不类推简化,如“𣱩”不类推简化为“氜”。
1. 区分“㚒”与“夾”,“夾”简化为“夹”,并适用类推,而“㚒”不类推简化,因此“陕〔陝〕”应放入第一表,而非第三表。
1. “龻”只在作上偏旁时类推简化为“𰁜”,如“䜌”、“羉”**不**简化为“𰁜”、“⿱罒𰁜”。
1. 如同“酆”字若类推简化为“⿰丰阝”,会与“邦”字混同,“奱”字若类推简化“⿱𰁜大”,亦会与“奕”字混同;应效仿《通规》中的做法,规定“奱”字不类推简化。
1. 若造成《通规》未提及的合并简化,且简化后为《通规》规范汉字,则放弃类推简化;若合并简化后不为《通规》规范汉字,则可添加为一对多转换。如“戠”单用时不合并简化到“只”、“橒”和“枟”可合并简化到“枟”。
由于某些类推简化无望加入统一码,作如下妥协,若今后有相关字形加入统一码,则废除相应妥协
1. 当“龻”不简化为“𰁜”时,组成它的“糹”、“言”**不**当作左偏旁,即**不**类推简化为“⿲纟言纟”。
1. “𨊥”不类推简化为“⿱车凵”,如“轚”应类推简化为“𰺟”。
## 关于类推简化
按照现行标准,《通规》以外的汉字不进行类推简化,但实际使用时会遇到类推简化字,因此本表收录了符合《总表》类推简化规则的字。具体收录原则如下:
1. 《通规》中的异体字类推简化后,不是规范字的,可额外收录。如“𬣣->註”。
1. 《通规》中的繁体字类推简化后,不是规范字的,可额外收录。如“𪠽->噹”。
1. 《通规》外的繁体字若可无争议地类推简化,且符合前述关于《总表》之修正时,可额外收录。如大部分鸟类用字、鱼类用字。
1. 若存在只能属于简体的偏旁,则不作为繁体收录;若存在只能属于繁体的偏旁,则不作为简体收录。如“𧹔”字中的“贝”只能属于简体,而“長”只能属于繁体,则该字既不能作为繁体、也不能作为简体收录。
1. 不规范的类推简化不收录。如“𪹀->𤑹”。
1. 简体或繁体未分配统一码的,暂不收录。
## 扩展
不符合前述类推规则的字,酌情收录到扩展字集 `src/00.extend.txt.in`,使用 `make extend` 可构建,目前包含如下两类:
1. 偏旁的简繁关系属于第一表,甚至是异体字,不应类推简化;但统一码中实际可找到这样的类推简化字对,如“𰬮〔縴〕”。
1. 偏旁按照第二表类推简化后,该简化字在通规表中,已由其他方式简化,如通规表中已有简繁对“闹〔鬧〕”,扩展表另加“闹〔閙〕”。