{"id":15014033,"url":"https://github.com/explosion/spacy-pkuseg","last_synced_at":"2025-10-06T08:31:09.008Z","repository":{"id":40431442,"uuid":"301337248","full_name":"explosion/spacy-pkuseg","owner":"explosion","description":"pkuseg多领域中文分词工具; The pkuseg toolkit for multi-domain Chinese word segmentation","archived":false,"fork":true,"pushed_at":"2024-09-04T18:24:17.000Z","size":4428,"stargazers_count":58,"open_issues_count":0,"forks_count":6,"subscribers_count":2,"default_branch":"master","last_synced_at":"2025-01-12T20:16:38.817Z","etag":null,"topics":[],"latest_commit_sha":null,"homepage":"","language":"Python","has_issues":false,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":"lancopku/pkuseg-python","license":"mit","status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/explosion.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":"LICENSE","code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null}},"created_at":"2020-10-05T08:13:16.000Z","updated_at":"2025-01-10T08:21:25.000Z","dependencies_parsed_at":null,"dependency_job_id":null,"html_url":"https://github.com/explosion/spacy-pkuseg","commit_stats":null,"previous_names":[],"tags_count":10,"template":false,"template_full_name":null,"repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/explosion%2Fspacy-pkuseg","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/explosion%2Fspacy-pkuseg/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/explosion%2Fspacy-pkuseg/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/explosion%2Fspacy-pkuseg/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/explosion","download_url":"https://codeload.github.com/explosion/spacy-pkuseg/tar.gz/refs/heads/master","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":235515424,"owners_count":19002481,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":[],"created_at":"2024-09-24T19:45:05.409Z","updated_at":"2025-10-06T08:31:01.407Z","avatar_url":"https://github.com/explosion.png","language":"Python","funding_links":[],"categories":[],"sub_categories":[],"readme":"\u003ca href=\"https://explosion.ai\"\u003e\u003cimg src=\"https://explosion.ai/assets/img/logo.svg\" width=\"125\" height=\"125\" align=\"right\" /\u003e\u003c/a\u003e\n\n# spacy-pkuseg: Chinese word segmentation toolkit for spaCy\n\nThis package is a fork of\n[`pkuseg-python`](https://github.com/lancopku/pkuseg-python) that simplifies\ninstallation and serialization for use with [spaCy](https://spacy.io). The\nunderlying segmentation tools remain unmodified.\n\n----------\n\n# pkuseg：一个多领域中文分词工具包 [**(English Version)**](readme/readme_english.md)\n\npkuseg 是基于论文[[Luo et. al, 2019](#论文引用)]的工具包。其简单易用，支持细分领域分词，有效提升了分词准确度。\n\n\n\n## 目录\n\n* [主要亮点](#主要亮点)\n* [编译和安装](#编译和安装)\n* [各类分词工具包的性能对比](#各类分词工具包的性能对比)\n* [使用方式](#使用方式)\n* [论文引用](#论文引用)\n* [作者](#作者)\n* [常见问题及解答](#常见问题及解答)\n\n\n\n## 主要亮点\n\npkuseg具有如下几个特点：\n\n1. 多领域分词。不同于以往的通用中文分词工具，此工具包同时致力于为不同领域的数据提供个性化的预训练模型。根据待分词文本的领域特点，用户可以自由地选择不同的模型。我们目前支持了新闻领域，网络领域，医药领域，旅游领域，以及混合领域的分词预训练模型。在使用中，如果用户明确待分词的领域，可加载对应的模型进行分词。如果用户无法确定具体领域，推荐使用在混合领域上训练的通用模型。各领域分词样例可参考 [**example.txt**](https://github.com/lancopku/pkuseg-python/blob/master/example.txt)。\n2. 更高的分词准确率。相比于其他的分词工具包，当使用相同的训练数据和测试数据，pkuseg可以取得更高的分词准确率。\n3. 支持用户自训练模型。支持用户使用全新的标注数据进行训练。\n4. 支持词性标注。\n\n\n## 编译和安装\n\n- 目前**仅支持python3**\n- **为了获得好的效果和速度，强烈建议大家通过pip install更新到目前的最新版本**\n\n1. 通过PyPI安装(自带模型文件)：\n\t```\n\tpip3 install pkuseg\n\t之后通过import pkuseg来引用\n\t```\n **建议更新到最新版本**以获得更好的开箱体验：\n \t```\n\tpip3 install -U pkuseg\n\t```\n2. 如果PyPI官方源下载速度不理想，建议使用镜像源，比如： \n 初次安装：\n\t```\n\tpip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple pkuseg\n\t```\n 更新：\n\t```\n\tpip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple -U pkuseg\n\t```\n \n3. 如果不使用pip安装方式，选择从GitHub下载，可运行以下命令安装：\n\t```\n\tpython setup.py build_ext -i\n\t```\n\t\n GitHub的代码并不包括预训练模型，因此需要用户自行下载或训练模型，预训练模型可详见[release](https://github.com/lancopku/pkuseg-python/releases)。使用时需设定\"model_name\"为模型文件。\n\n注意：**安装方式1和2目前仅支持linux(ubuntu)、mac、windows 64 位的python3版本**。如果非以上系统，请使用安装方式3进行本地编译安装。\n\t\n\n## 各类分词工具包的性能对比\n\n我们选择jieba、THULAC等国内代表分词工具包与pkuseg做性能比较，详细设置可参考[实验环境](readme/environment.md)。\n\n\n\n#### 细领域训练及测试结果\n\n以下是在不同数据集上的对比结果：\n\n| MSRA | Precision | Recall | F-score |\n| :----- | --------: | -----: | --------: |\n| jieba | 87.01 | 89.88 | 88.42 |\n| THULAC | 95.60 | 95.91 | 95.71 |\n| pkuseg | 96.94 | 96.81 | **96.88** |\n\n\n| WEIBO | Precision | Recall | F-score |\n| :----- | --------: | -----: | --------: |\n| jieba | 87.79 | 87.54 | 87.66 |\n| THULAC | 93.40 | 92.40 | 92.87 |\n| pkuseg | 93.78 | 94.65 | **94.21** |\n\n\n\n\n#### 默认模型在不同领域的测试效果\n\n考虑到很多用户在尝试分词工具的时候，大多数时候会使用工具包自带模型测试。为了直接对比“初始”性能，我们也比较了各个工具包的默认模型在不同领域的测试效果。请注意，这样的比较只是为了说明默认情况下的效果，并不一定是公平的。\n\n| Default | MSRA | CTB8 | PKU | WEIBO | All Average |\n| ------- | :---: | :---: | :---: | :---: | :---------: |\n| jieba | 81.45 | 79.58 | 81.83 | 83.56 | 81.61 |\n| THULAC |\t85.55 | 87.84 | 92.29 | 86.65 | 88.08 |\n| pkuseg | 87.29 | 91.77 | 92.68 | 93.43 | **91.29** |\n\n其中，`All Average`显示的是在所有测试集上F-score的平均。\n\n更多详细比较可参见[和现有工具包的比较](readme/comparison.md)。\n\n## 使用方式\n\n#### 代码示例\n\n以下代码示例适用于python交互式环境。\n\n代码示例1：使用默认配置进行分词（**如果用户无法确定分词领域，推荐使用默认模型分词**）\n```python3\nimport pkuseg\n\nseg = pkuseg.pkuseg() # 以默认配置加载模型\ntext = seg.cut('我爱北京天安门') # 进行分词\nprint(text)\n```\n\n代码示例2：细领域分词（**如果用户明确分词领域，推荐使用细领域模型分词**）\n```python3\nimport pkuseg\n\nseg = pkuseg.pkuseg(model_name='medicine') # 程序会自动下载所对应的细领域模型\ntext = seg.cut('我爱北京天安门') # 进行分词\nprint(text)\n```\n\n代码示例3：分词同时进行词性标注，各词性标签的详细含义可参考 [tags.txt](https://github.com/lancopku/pkuseg-python/blob/master/tags.txt)\n```python3\nimport pkuseg\n\nseg = pkuseg.pkuseg(postag=True) # 开启词性标注功能\ntext = seg.cut('我爱北京天安门') # 进行分词和词性标注\nprint(text)\n```\n\n\n代码示例4：对文件分词\n```python3\nimport pkuseg\n\n# 对input.txt的文件分词输出到output.txt中\n# 开20个进程\npkuseg.test('input.txt', 'output.txt', nthread=20) \n```\n\n其他使用示例可参见[详细代码示例](readme/interface.md)。\n\n\n\n#### 参数说明\n\n模型配置\n```\npkuseg.pkuseg(model_name = \"default\", user_dict = \"default\", postag = False)\n\tmodel_name\t\t模型路径。\n\t\t\t \"default\"，默认参数，表示使用我们预训练好的混合领域模型(仅对pip下载的用户)。\n\t\t\t\t\"news\", 使用新闻领域模型。\n\t\t\t\t\"web\", 使用网络领域模型。\n\t\t\t\t\"medicine\", 使用医药领域模型。\n\t\t\t\t\"tourism\", 使用旅游领域模型。\n\t\t\t model_path, 从用户指定路径加载模型。\n\tuser_dict\t\t设置用户词典。\n\t\t\t\t\"default\", 默认参数，使用我们提供的词典。\n\t\t\t\tNone, 不使用词典。\n\t\t\t\tdict_path, 在使用默认词典的同时会额外使用用户自定义词典，可以填自己的用户词典的路径，词典格式为一行一个词（如果选择进行词性标注并且已知该词的词性，则在该行写下词和词性，中间用tab字符隔开）。\n\tpostag\t\t 是否进行词性分析。\n\t\t\t\tFalse, 默认参数，只进行分词，不进行词性标注。\n\t\t\t\tTrue, 会在分词的同时进行词性标注。\n```\n\n对文件进行分词\n```\npkuseg.test(readFile, outputFile, model_name = \"default\", user_dict = \"default\", postag = False, nthread = 10)\n\treadFile\t\t输入文件路径。\n\toutputFile\t\t输出文件路径。\n\tmodel_name\t\t模型路径。同pkuseg.pkuseg\n\tuser_dict\t\t设置用户词典。同pkuseg.pkuseg\n\tpostag\t\t\t设置是否开启词性分析功能。同pkuseg.pkuseg\n\tnthread\t\t\t测试时开的进程数。\n```\n\n模型训练\n```\npkuseg.train(trainFile, testFile, savedir, train_iter = 20, init_model = None)\n\ttrainFile\t\t训练文件路径。\n\ttestFile\t\t测试文件路径。\n\tsavedir\t\t\t训练模型的保存路径。\n\ttrain_iter\t\t训练轮数。\n\tinit_model\t\t初始化模型，默认为None表示使用默认初始化，用户可以填自己想要初始化的模型的路径如init_model='./models/'。\n```\n\n\n\n#### 多进程分词\n\n当将以上代码示例置于文件中运行时，如涉及多进程功能，请务必使用`if __name__ == '__main__'`保护全局语句，详见[多进程分词](readme/multiprocess.md)。\n\n\n\n## 预训练模型\n\n从pip安装的用户在使用细领域分词功能时，只需要设置model_name字段为对应的领域即可，会自动下载对应的细领域模型。\n\n从github下载的用户则需要自己下载对应的预训练模型，并设置model_name字段为预训练模型路径。预训练模型可以在[release](https://github.com/lancopku/pkuseg-python/releases)部分下载。以下是对预训练模型的说明：\n\n- **news**: 在MSRA（新闻语料）上训练的模型。\n\n- **web**: 在微博（网络文本语料）上训练的模型。\n\n- **medicine**: 在医药领域上训练的模型。\n\n- **tourism**: 在旅游领域上训练的模型。\n\n- **mixed**: 混合数据集训练的通用模型。随pip包附带的是此模型。\n\n\n\n欢迎更多用户可以分享自己训练好的细分领域模型。\n\n\n\n## 版本历史\n\n详见[版本历史](readme/history.md)。\n\n\n## 开源协议\n1. 本代码采用MIT许可证。\n2. 欢迎对该工具包提出任何宝贵意见和建议，请发邮件至jingjingxu@pku.edu.cn。\n\n\n\n## 论文引用\n\n该代码包主要基于以下科研论文，如使用了本工具，请引用以下论文：\n* Ruixuan Luo, Jingjing Xu, Yi Zhang, Xuancheng Ren, Xu Sun. [PKUSEG: A Toolkit for Multi-Domain Chinese Word Segmentation](https://arxiv.org/abs/1906.11455). Arxiv. 2019.\n\n```\n\n@article{pkuseg,\n author = {Luo, Ruixuan and Xu, Jingjing and Zhang, Yi and Ren, Xuancheng and Sun, Xu},\n journal = {CoRR},\n title = {PKUSEG: A Toolkit for Multi-Domain Chinese Word Segmentation.},\n url = {https://arxiv.org/abs/1906.11455},\n volume = {abs/1906.11455},\n year = 2019\n}\n```\n\n## 其他相关论文\n\n* Xu Sun, Houfeng Wang, Wenjie Li. Fast Online Training with Frequency-Adaptive Learning Rates for Chinese Word Segmentation and New Word Detection. ACL. 2012.\n* Jingjing Xu and Xu Sun. Dependency-based gated recursive neural network for chinese word segmentation. ACL. 2016.\n* Jingjing Xu and Xu Sun. Transfer learning for low-resource chinese word segmentation with a novel neural network. NLPCC. 2017.\n\n## 常见问题及解答\n\n\n1. [为什么要发布pkuseg？](https://github.com/lancopku/pkuseg-python/wiki/FAQ#1-为什么要发布pkuseg)\n2. [pkuseg使用了哪些技术？](https://github.com/lancopku/pkuseg-python/wiki/FAQ#2-pkuseg使用了哪些技术)\n3. [无法使用多进程分词和训练功能，提示RuntimeError和BrokenPipeError。](https://github.com/lancopku/pkuseg-python/wiki/FAQ#3-无法使用多进程分词和训练功能提示runtimeerror和brokenpipeerror)\n4. [是如何跟其它工具包在细领域数据上进行比较的？](https://github.com/lancopku/pkuseg-python/wiki/FAQ#4-是如何跟其它工具包在细领域数据上进行比较的)\n5. [在黑盒测试集上进行比较的话，效果如何？](https://github.com/lancopku/pkuseg-python/wiki/FAQ#5-在黑盒测试集上进行比较的话效果如何)\n6. [如果我不了解待分词语料的所属领域呢？](https://github.com/lancopku/pkuseg-python/wiki/FAQ#6-如果我不了解待分词语料的所属领域呢)\n7. [如何看待在一些特定样例上的分词结果？](https://github.com/lancopku/pkuseg-python/wiki/FAQ#7-如何看待在一些特定样例上的分词结果)\n8. [关于运行速度问题？](https://github.com/lancopku/pkuseg-python/wiki/FAQ#8-关于运行速度问题)\n9. [关于多进程速度问题？](https://github.com/lancopku/pkuseg-python/wiki/FAQ#9-关于多进程速度问题)\n\n\n## 致谢\n\n感谢俞士汶教授（北京大学计算语言所）与邱立坤博士提供的训练数据集！\n\n## 作者\n\nRuixuan Luo （罗睿轩）, Jingjing Xu（许晶晶）, Xuancheng Ren（任宣丞）, Yi Zhang（张艺）, Bingzhen Wei（位冰镇）， Xu Sun （孙栩） \n\n北京大学 [语言计算与机器学习研究组](http://lanco.pku.edu.cn/)\n\n\n\n\n\n\n\n\n\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fexplosion%2Fspacy-pkuseg","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Fexplosion%2Fspacy-pkuseg","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fexplosion%2Fspacy-pkuseg/lists"}