https://github.com/Tele-AI/Telechat
https://github.com/Tele-AI/Telechat
Last synced: 8 months ago
JSON representation
- Host: GitHub
- URL: https://github.com/Tele-AI/Telechat
- Owner: Tele-AI
- Created: 2024-01-07T06:06:18.000Z (about 2 years ago)
- Default Branch: master
- Last Pushed: 2024-11-20T02:00:07.000Z (about 1 year ago)
- Last Synced: 2025-03-24T09:44:42.609Z (10 months ago)
- Language: Python
- Size: 6.64 MB
- Stars: 1,838
- Watchers: 21
- Forks: 102
- Open Issues: 55
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
- StarryDivineSky - Tele-AI/Telechat - 7B与TeleChat-12B。TeleChat-PTD 是由电信星辰大模型TeleChat预训练语料中抽取出的的综合性大规模中文数据集。数据主要来源于网页、书籍、官方媒体等。 我们使用规则+模型的方式进行了相关的过滤,并对数据进行了相似性去重,尽可能地提取出高质量地数据。TeleChat-PTD 数据集大约公开了2.7亿条数据,数据由纯中文文本构成,原始大小约1TB,压缩后480G,共189个文件。数据集中已经去除了其它冗余信息。[数据下载](https://huggingface.co/datasets/Tele-AI/TeleChat-PTD) (A01_文本生成_文本对话 / 大语言对话模型及数据)