{"id":18187758,"url":"https://github.com/risesoft-y9/data-labeling","last_synced_at":"2025-05-15T10:04:30.169Z","repository":{"id":254967542,"uuid":"847527454","full_name":"risesoft-y9/Data-Labeling","owner":"risesoft-y9","description":"数据标注是一款专门对文本数据进行处理和标注的工具，通过简化快捷的文本标注流程和动态的算法反馈，支持用户快速标注关键词并能通过算法持续减少人工标注的成本和时间。数据标注的过程先由人工标注构建基础，再由自动标注反哺人工标注，最后由人工标注进行纠偏，从而大幅度提高标注的精准度和高效性。数据标注需要依赖开源的数字底座进行人员岗位管控。","archived":false,"fork":false,"pushed_at":"2025-01-20T04:06:51.000Z","size":1851,"stargazers_count":671,"open_issues_count":0,"forks_count":95,"subscribers_count":68,"default_branch":"main","last_synced_at":"2025-05-15T10:03:55.799Z","etag":null,"topics":["chinese","data-annotation-tools","data-annotations","docker","elasticsearch","java","nacos","springboot2","tokenizer","tokenizer-parser","vue3"],"latest_commit_sha":null,"homepage":"https://www.risesoft.net/","language":"Java","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":"gpl-3.0","status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/risesoft-y9.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":"LICENSE","code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null,"dei":null,"publiccode":null,"codemeta":null}},"created_at":"2024-08-26T03:15:53.000Z","updated_at":"2025-05-01T12:15:24.000Z","dependencies_parsed_at":"2024-12-08T15:01:24.511Z","dependency_job_id":"9bbccd0f-20ea-4d56-9734-a3962a46916f","html_url":"https://github.com/risesoft-y9/Data-Labeling","commit_stats":{"total_commits":27,"total_committers":6,"mean_commits":4.5,"dds":"0.33333333333333337","last_synced_commit":"d55d06e76e816bcf044abd29ca5aaf5253f957f1"},"previous_names":["risesoft-y9/data-labeling"],"tags_count":0,"template":false,"template_full_name":null,"repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/risesoft-y9%2FData-Labeling","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/risesoft-y9%2FData-Labeling/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/risesoft-y9%2FData-Labeling/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/risesoft-y9%2FData-Labeling/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/risesoft-y9","download_url":"https://codeload.github.com/risesoft-y9/Data-Labeling/tar.gz/refs/heads/main","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":254319718,"owners_count":22051072,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":["chinese","data-annotation-tools","data-annotations","docker","elasticsearch","java","nacos","springboot2","tokenizer","tokenizer-parser","vue3"],"created_at":"2024-11-03T02:03:11.051Z","updated_at":"2025-05-15T10:04:25.029Z","avatar_url":"https://github.com/risesoft-y9.png","language":"Java","readme":"\u003cp align=\"center\"\u003e\n \u003cimg alt=\"logo\" src=\"https://vue.youshengyun.com/files/img/qrCodeLogo.png\"\u003e\n\u003cp align=\"center\"\u003e\n \u003ca href='https://gitee.com/risesoft-y9/y9-label/stargazers'\u003e\u003cimg src='https://gitee.com/risesoft-y9/y9-label/badge/star.svg?theme=dark' alt='star'\u003e\u003c/img\u003e\u003c/a\u003e\n    \u003cimg src=\"https://img.shields.io/badge/version-v9.6.6-yellow.svg\"\u003e\n    \u003cimg src=\"https://img.shields.io/badge/Spring%20Boot-2.7-blue.svg\"\u003e\n    \u003cimg alt=\"logo\" src=\"https://img.shields.io/badge/Vue-3.3-red.svg\"\u003e\n    \u003cimg alt=\"\" src=\"https://img.shields.io/badge/JDK-11-green.svg\"\u003e\n    \u003ca href=\"https://gitee.com/risesoft-y9/y9-core/blob/master/LICENSE\"\u003e\n    \u003cimg src=\"https://img.shields.io/badge/license-GPL3-blue.svg\"\u003e\u003c/a\u003e\n\u003c/p\u003e\n\n## 简介\n\n数据标注是一款专门对文本数据进行处理和标注的工具，通过简化快捷的文本标注流程和动态的算法反馈，支持用户快速标注关键词并能通过算法持续减少人工标注的成本和时间。数据标注的过程先由人工标注构建基础，再由自动标注反哺人工标注，最后由人工标注进行纠偏，从而大幅度提高标注的精准度和高效性。数据标注需要依赖开源的数字底座进行人员岗位管控。\n\n## 源码目录\n\n```\nvue -- 前端工程\n ├── y9vue-tokenizer -- 数据标注前端工程\nwebapp -- 系统模块\n ├── risenet-y9boot-webapp-tokenizer -- 数据标注后端工程\n```\n\n## 数据标注功能架构图\n\u003cdiv\u003e\u003cimg src=\"https://vue.youshengyun.com/files/img/开源网站图片上传/数据标注功能架构图.png\"\u003e\u003cdiv/\u003e\n\n## 数据标注应用架构图\n\u003cdiv\u003e\u003cimg src=\"https://vue.youshengyun.com/files/img/开源网站图片上传/数据标注应用架构图.png\"\u003e\u003cdiv/\u003e\n\n## 产品特点\n\n### 高效标注\n\n针对文章和文本，数据标注利用各种标识、快捷键、组合键、分类方法来提高标注的效率并减少标注错误率。\n\n### 全局算法校准\n\n在多组同时标注的情况下，数据标注会汇聚全部的标注结果，从而减少重复标注的工作量。通过全局校准的方法，标注人员可以看到全局当前对于文章的自动标注结果，从而只需要对结果纠偏即可。\n\n### 行业词库\n\n针对数据标注的结果，本项目会定期释放各类、各行业以txt形式存储的经过人工纠偏的标注结果，从而帮助AI和分词器更精准地识别中文词汇里面不断的新生词汇和组合词汇。\n\n## 功能描述\n\n| 序\u0026nbsp;号       | 特\u0026nbsp;点\u0026nbsp;\u0026nbsp;名\u0026nbsp;称        | 特点描述                       |\n|--------|------------------------|---------------------------------------------------------------------------------------------------------------------------------------------------------|\n| 1      | 添加文章                |通过本地导入或者批量导入的方式添加文章，同时可以根据文章类型进行必要的分类。|\n| 2      | 文章筛选                |根据文章类型和顺序编号进行筛选。|\n| 3      | 导出分词                |支持将全部已经完成的分词和标注进行一次性的导出。本功能以压txt的形式导出文件。|\n| 4      | 标注结果                |通过红色方框显示最终的人工标注结果。此结果为全局的人工标注的综合结果，而非单人单文章的标注结果。|\n| 5      | 标注操作                |支持以快捷键、右键、组合键等方式确认标注，同时支持在页面或者快捷键的方式删除已经标注的词汇。|\n| 6      | 标注状态                |包含“全部标注”、“标注中”、“未标注”、“已标注”共计四种状态，可以根据状态、序号、文章分类进行筛选。|\n| 7      | 标注验证                |利用分词器和已具备的全局综合分词能力进行一次标注验证，检查是否有遗漏的标注语料，也可以检验全局综合分词能力是否有偏颇。标注验证以下划线和波浪线的方式区别邻近的名词。|\n| 8      | 标注日志                |在单个文章中查看已经完成的标注操作日志。|\n\n\n## 数据资产\n\n### 1. 行业领域专有词汇\n\u003cdiv\u003e\u003cimg src=\"https://vue.youshengyun.com/files/行业领域专有词汇.png\"\u003e\u003cdiv/\u003e\n\n### 2. 政务公开文章词汇\n\u003cdiv\u003e\u003cimg src=\"https://vue.youshengyun.com/files/政务公开文章词汇.png\"\u003e\u003cdiv/\u003e\n\n### 3. 司法案件观点条例\n\u003cdiv\u003e\u003cimg src=\"https://vue.youshengyun.com/files/司法案件观点条例.png\"\u003e\u003cdiv/\u003e\n\n### 4. 数据库分类题目库\n\u003cdiv\u003e\u003cimg src=\"https://vue.youshengyun.com/files/数据库分类题目库.png\"\u003e\u003cdiv/\u003e\n\n### 5. 算法库（来自“山东国家应用数学中心”）\n\u003cdiv\u003e\u003cimg src=\"https://vue.youshengyun.com/files/算法库.jpg\"\u003e\u003cdiv/\u003e\n\n## 后端技术选型\n\n| 序号 | 依赖              | 版本      | 官网                                                                                                                 |\n|----|-----------------|---------|--------------------------------------------------------------------------------------------------------------------|\n| 1  | Spring Boot     | 2.7.10  | \u003ca href=\"https://spring.io/projects/spring-boot\" target=\"_blank\"\u003e官网\u003c/a\u003e                                            |\n| 2  | SpringDataJPA   | 2.7.10  | \u003ca href=\"https://spring.io/projects/spring-data-jpa\" target=\"_blank\"\u003e官网\u003c/a\u003e                                        |\n| 3  | nacos           | 2.2.1   | \u003ca href=\"https://nacos.io/zh-cn/docs/v2/quickstart/quick-start.html\" target=\"_blank\"\u003e官网\u003c/a\u003e                        |\n| 4  | druid           | 1.2.16  | \u003ca href=\"https://github.com/alibaba/druid/wiki/%E9%A6%96%E9%A1%B5\" target=\"_blank\"\u003e官网\u003c/a\u003e                          |\n| 5  | Jackson         | 2.13.5  | \u003ca href=\"https://github.com/FasterXML/jackson-core\" target=\"_blank\"\u003e官网\u003c/a\u003e                                         |\n| 6  | javers          | 6.13.0  | \u003ca href=\"https://github.com/javers/javers\" target=\"_blank\"\u003e官网\u003c/a\u003e                                                  |\n| 7  | lombok          | 1.18.26 | \u003ca href=\"https://projectlombok.org/\" target=\"_blank\"\u003e官网\u003c/a\u003e                                                        |\n| 8  | logback         | 1.2.11  | \u003ca href=\"https://www.docs4dev.com/docs/zh/logback/1.3.0-alpha4/reference/introduction.html\" target=\"_blank\"\u003e官网\u003c/a\u003e |\n\n## 前端技术选型\n\n| 序号 | 依赖           | 版本      | 官网                                                                     |\n|----|--------------|---------|------------------------------------------------------------------------|\n| 1  | vue          | 3.3.2   | \u003ca href=\"https://cn.vuejs.org/\" target=\"_blank\"\u003e官网\u003c/a\u003e                 |\n| 2  | vite2        | 2.9.13  | \u003ca href=\"https://vitejs.cn/\" target=\"_blank\"\u003e官网\u003c/a\u003e                    |\n| 3  | vue-router   | 4.0.13  | \u003ca href=\"https://router.vuejs.org/zh/\" target=\"_blank\"\u003e官网\u003c/a\u003e          |\n| 4  | pinia        | 2.0.11  | \u003ca href=\"https://pinia.vuejs.org/zh/\" target=\"_blank\"\u003e官网\u003c/a\u003e           |\n| 5  | axios        | 0.24.0  | \u003ca href=\"https://www.axios-http.cn/\" target=\"_blank\"\u003e官网\u003c/a\u003e            |\n| 6  | typescript   | 4.5.4   | \u003ca href=\"https://www.typescriptlang.org/\" target=\"_blank\"\u003e官网\u003c/a\u003e       |\n| 7  | core-js      | 3.20.1  | \u003ca href=\"https://www.npmjs.com/package/core-js\" target=\"_blank\"\u003e官网\u003c/a\u003e |\n| 8  | element-plus | 2.2.29  | \u003ca href=\"https://element-plus.org/zh-CN/\" target=\"_blank\"\u003e官网\u003c/a\u003e       |\n| 9  | sass         | 1.58.0  | \u003ca href=\"https://www.sass.hk/\" target=\"_blank\"\u003e官网\u003c/a\u003e                  |\n| 10 | animate.css  | 4.1.1   | \u003ca href=\"https://animate.style/\" target=\"_blank\"\u003e官网\u003c/a\u003e                |\n| 11 | vxe-table    | 4.3.5   | \u003ca href=\"https://vxetable.cn\" target=\"_blank\"\u003e官网\u003c/a\u003e                   |\n| 12 | echarts      | 5.3.2   | \u003ca href=\"https://echarts.apache.org/zh/\" target=\"_blank\"\u003e官网\u003c/a\u003e        |\n| 13 | svgo         | 1.3.2   | \u003ca href=\"https://github.com/svg/svgo\" target=\"_blank\"\u003e官网\u003c/a\u003e           |\n| 14 | lodash       | 4.17.21 | \u003ca href=\"https://lodash.com/\" target=\"_blank\"\u003e官网\u003c/a\u003e                   |\n\n## 中间件选型\n\n| 序号 | 工具               | 版本   | 官网                                                                        |\n|----|------------------|------|---------------------------------------------------------------------------|\n| 1  | JDK              | 11   | \u003ca href=\"https://openjdk.org/\" target=\"_blank\"\u003e官网\u003c/a\u003e                     |\n| 2  | Tomcat           | 9.0+ | \u003ca href=\"https://tomcat.apache.org/\" target=\"_blank\"\u003e官网\u003c/a\u003e               |\n\n## 数据库选型\n\n| 序号 | 工具            | 版本         | 官网                                                                        |\n|----|---------------|------------|---------------------------------------------------------------------------|\n| 1  | elasticsearch | 7.9+       | \u003ca href=\"https://www.elastic.co/cn/elasticsearch/\" target=\"_blank\"\u003e官网\u003c/a\u003e |\n\n\n## 信创兼容适配\n\n| **序号** | 类型   | 对象                 |\n|:-------|------|--------------------|\n| 1      | 浏览器  | 奇安信、火狐、谷歌、360等     |\n| 2      | 插件   | 金山、永中、数科、福昕等       |\n| 3      | 中间件  | 东方通、金蝶、宝兰德等        |\n| 4      | 数据库  | 人大金仓、达梦、高斯等        |\n| 5      | 操作系统 | 统信、麒麟、中科方德等        |\n| 6      | 芯片   | ARM体系、MIPS体系、X86体系 |\n\n## 文档专区\n\n开发文档：https://docs.youshengyun.com/\n\n| 序号 | 名称                                                                                                               |\n|:---|------------------------------------------------------------------------------------------------------------------|\n| 1  | \u003ca href=\"https://vue.youshengyun.com/files/内部Java开发规范手册.pdf\" target=\"_blank\"\u003e内部Java开发规范手册\u003c/a\u003e                    |\n| 2  | \u003ca href=\"https://vue.youshengyun.com/files/日志组件使用文档.pdf\" target=\"_blank\"\u003e日志组件使用文档\u003c/a\u003e                            |\n| 3  | \u003ca href=\"https://vue.youshengyun.com/files/文件组件使用文档.pdf\" target=\"_blank\"\u003e文件组件使用文档\u003c/a\u003e                            |\n| 4  | \u003ca href=\"https://vue.youshengyun.com/files/代码生成器使用文档.pdf\" target=\"_blank\"\u003e代码生成器使用文档\u003c/a\u003e                          |\n| 5  | \u003ca href=\"https://vue.youshengyun.com/files/配置文件说明文档.pdf\" target=\"_blank\"\u003e配置文件说明文档\u003c/a\u003e                            |\n| 6  | \u003ca href=\"https://vue.youshengyun.com/files/常用工具类使用示例文档.pdf\" target=\"_blank\"\u003e常用工具类使用示例文档\u003c/a\u003e                      |\n| 7  | \u003ca href=\"https://vue.youshengyun.com/files/有生博大Vue开发手册v1.0.pdf\" target=\"_blank\"\u003e前端开发手册\u003c/a\u003e                       |\n| 8  | \u003ca href=\"https://vue.youshengyun.com/files/开发规范.pdf\" target=\"_blank\"\u003e前端开发规范\u003c/a\u003e                                  |\n| 9  | \u003ca href=\"https://vue.youshengyun.com/files/代码格式化.pdf\" target=\"_blank\"\u003e前端代码格式化\u003c/a\u003e                                |\n| 10 | \u003ca href=\"https://vue.youshengyun.com/files/系统组件.pdf\" target=\"_blank\"\u003e前端系统组件\u003c/a\u003e                                  |\n| 11 | \u003ca href=\"https://vue.youshengyun.com/files/通用方法.pdf\" target=\"_blank\"\u003e前端通用方法\u003c/a\u003e                                  |\n| 12 | \u003ca href=\"https://vue.youshengyun.com/files/国际化.pdf\" target=\"_blank\"\u003e前端国际化\u003c/a\u003e                                    |\n| 13 | \u003ca href=\"https://vue.youshengyun.com/files/Icon图标.pdf\" target=\"_blank\"\u003e前端Icon图标\u003c/a\u003e                              |\n| 14 | \u003ca href=\"https://vue.youshengyun.com/files/单点登录对接文档.pdf\" target=\"_blank\"\u003e单点登录对接文档\u003c/a\u003e                            |\n| 15 | \u003ca href=\"https://vue.youshengyun.com/files/分词器安装部署文档.pdf\" target=\"_blank\"\u003e分词器安装部署文档\u003c/a\u003e                                               |\n| 16 | \u003ca href=\"https://vue.youshengyun.com/files/分词器操作手册.pdf\" target=\"_blank\"\u003e分词器操作手册\u003c/a\u003e                                               |\n\n## 数据标注截图\n\n\u003cdiv\u003e\u003cimg src=\"https://vue.youshengyun.com/files/img/shujubiaozhu.jpg\"\u003e\u003cdiv/\u003e\n\u003cdiv\u003e\u003cimg src=\"https://vue.youshengyun.com/files/img/biaozhuyanzheng.jpg\"\u003e\u003cdiv/\u003e\n\n## 依赖开源项目\n\n| 序\u0026nbsp;号 | 项\u0026nbsp;目\u0026nbsp;\u0026nbsp;名\u0026nbsp;称          | 项目介绍           | 地\u0026nbsp;址                                                                                                                                                          |\n| ----- | ----------- | ----------------------------------------- |-------------------------------------------------------------------------------------------------------------------------------------------------------------------|\n| 1    | 数字底座 | 数字底座是一款面向大型政府、企业数字化转型，基于身份认证、组织架构、岗位职务、应用系统、资源角色等功能构建的统一且安全的管理支撑平台。数字底座基于三员管理模式，具备微服务、多租户、容器化和国产化，支持用户利用代码生成器快速构建自己的业务应用，同时可关联诸多成熟且好用的内部生态应用      | \u003ca href=\"https://gitee.com/risesoft-y9/y9-core\" target=\"_blank\"\u003e码云\u003c/a\u003e \u003ca href=\"https://github.com/risesoft-y9/Digital-Infrastructure\" target=\"_blank\"\u003eGitHub\u003c/a\u003e |\n\n## 赞助与支持\n\n### 中关村软件和信息服务产业创新联盟\n\n官网：\u003ca href=\"https://www.zgcsa.net\" target=\"_blank\"\u003ehttps://www.zgcsa.net\u003c/a\u003e\n\n### 北京有生博大软件股份有限公司\n\n官网：\u003ca href=\"https://www.risesoft.net/\" target=\"_blank\"\u003ehttps://www.risesoft.net/\u003c/a\u003e\n\n### 统一标识代码注册管理中心\n\n官网：\u003ca href=\"https://www.idcode.org.cn/\" target=\"_blank\"\u003ehttps://www.idcode.org.cn/\u003c/a\u003e\n\n\n\u003e\n数字底座已经全面接入统一标识码（MA码），具体使用说明请查看：\u003ca href=\"https://gitee.com/risesoft-y9/y9-core/tree/main/y9-digitalbase-idcode\" target=\"_blank\"\u003ehttps://gitee.com/risesoft-y9/y9-core/tree/main/y9-digitalbase-idcode\u003c/a\u003e\n\u003e\n\n### 中国城市发展研究会\n\n官网：\u003ca href=\"https://www.china-cfh.com/\" target=\"_blank\"\u003ehttps://www.china-cfh.com/\u003c/a\u003e\n\n### 济南亚跃信息技术有限公司\n\n官网：\u003ca href=\"https://www.yayueyun.com/yayueOwe\" target=\"_blank\"\u003ehttps://www.yayueyun.com/yayueOwe\u003c/a\u003e\n\n### 北京京畿法律咨询有限公司\n\n联系人：邱先生\n\n邮箱：bjbj7@qq.com\n\n### 山东国家应用数学中心\n\n官网：\u003ca href=\"http://www.sdam.sdu.edu.cn/\" target=\"_blank\"\u003ehttp://www.sdam.sdu.edu.cn/\u003c/a\u003e\n\n## 咨询与合作\n\n联系人：曲经理\n\n微信号：qq349416828\n\n备注：开源咨询-姓名\n\u003cdiv\u003e\u003cimg style=\"width: 40%\" src=\"https://vue.youshengyun.com/files/img/开源网站图片上传/曲经理-微信二维码.png\"\u003e\u003cdiv/\u003e\n联系人：有生博大-咨询热线\n\n座机号：010-86393151\n\u003cdiv\u003e\u003cimg style=\"width: 45%\" src=\"https://vue.youshengyun.com/files/img/有生博大-咨询热线.png\"\u003e\u003cdiv/\u003e\n","funding_links":[],"categories":[],"sub_categories":[],"project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Frisesoft-y9%2Fdata-labeling","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Frisesoft-y9%2Fdata-labeling","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Frisesoft-y9%2Fdata-labeling/lists"}