Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

https://github.com/zjrwtx/sft-data-builder

利用免费的大模型api来结合你的私域数据来生成sft训练数据(妥妥白嫖)支持llamafactory等工具的训练数据格式synthetic data
https://github.com/zjrwtx/sft-data-builder

agents alpaca cot datagene gpt40 llm mllm multiagents o1 python react sharegpt slm synthetic-data tailwindcss visionlanguagemodel

Last synced: 6 days ago
JSON representation

利用免费的大模型api来结合你的私域数据来生成sft训练数据(妥妥白嫖)支持llamafactory等工具的训练数据格式synthetic data

Awesome Lists containing this project

README

        

# 🤖 捕获月球大模型合成数据平台-公众号:正经人王同学
### 捕获月球大模型合成数据平台:致力于打造低成本的人人都懂用的多模态合成数据解决方案助力各类大模型的预训练、微调、gpto1(cot)、function calling等训练场景,欢迎加入我们或与我们合作!

在线体验地址:https://sft-data-builder.vercel.app
演示视频:[https://www.bilibili.com/video/BV1dvDQYBEew/?spm_id_from=333.999.0.0](https://www.bilibili.com/video/BV19qD6YqEJ2/?spm_id_from=333.999.0.0)

![License](https://img.shields.io/badge/license-MIT-blue.svg)
![Version](https://img.shields.io/badge/version-1.0.0-green.svg)
![React](https://img.shields.io/badge/React-18.x-61dafb.svg)
![image](https://github.com/user-attachments/assets/ffd1f820-dd6f-4d11-8411-0c12d6ba76ce)

8d5400bce0635b5e236cba05e923c44
0972de00f8afa29489cba138ecac6ac

d5445bacd9f03810e326039f9653267
4570df76058f5bd3e996b4f6bdba9db

a03d915893cfcec4a2ff76e8cf93fbb
cfb9e2c681df09534217d12fc79c1c3
![image](https://github.com/user-attachments/assets/c8c2ddf0-f3c6-4baf-9b81-ea21e7422ae9)

1fb4e0bc5e6c94936a07184aec76ed6
63303795320f7f0f2410b405a367704

2bfe538bbe133542a2235bfd4b90df9


演示

## ✨ 特性

- 🎯 **一键生成训练数据**:支持众多openai格式调用的本地或云端模型(包括GLM-4-Flash等免费调用模型) 将普通文本秒变高质量AI训练数据 支持直接从微信公众号文章等链接内容生成训练数据
- 📝 **合成gpto1类的cot数据合成功能,且可同步上传至huggingface**
- 📤 **支持vison language model的sharegpt微调格式数据合成**
- 🔄 **批量生成**:一次生成多条不同角度的训练数据、支持批量url文章自动生成批量数据
- 📝 **灵活编辑**:所有生成的数据都可以随时编辑和调整
- 💾 **本地存储**:自动保存所有数据到本地
- 🔌 **上传合成数据到huggingface平台**:填好accesstoken和仓库等信息后 一键上传合成好的数据到huggingface平台存储或分享给他人
- 📤 **导出简单**:一键导出标准格式JSON文件
- 🎨 **优雅界面**:简洁直观的用户界面,操作便捷
- 🔌 **多模型支持**:支持多种主流AI模型,可自定义模型
- 📚 **多格式支持**:支持PDF、Word、TXT等多种文件格式
- 📚 **主流训练格式互换**:增加了 Alpaca训练格式与Openai训练格式互换功能 支持批量文件互换格式

## 📅 更新动态
### v1.1.4 (2024-11-24)
- ✨ 支持vison language model的sharegpt微调格式数据合成

### v1.1.3 (2024-11-22)
- ✨ 增加了合成gpto1类的cot数据合成功能,且可同步上传至huggingface

### v1.1.2 (2024-11-20)
- ✨ 增加了上传合成数据到huggingface平台:填好accesstoken和仓库等信息后 一键上传合成好的数据到huggingface平台存储或分享给他人

### v1.1.1 (2024-11-12)
- ✨ 增加了 Alpaca训练格式与Openai训练格式互换功能 支持批量文件互换格式
### v1.1.0 (2024-11-09)
- ✨ 新增支持批量url文章自动生成批量数据
- 🔧 优化了数据生成的速度
- 🐛优化界面

## 🚀 快速开始

### 安装依赖
```bash
npm install
```
### 启动项目
```bash
npm run start
```

## 📖 使用指南

1. **配置API**
- 点击"打开配置"按钮
- 设置API地址和密钥
- 选择或自定义AI模型
- 设置每次生成的数据条数

2. **输入内容**
- 上传文件(支持PDF、DOCX、TXT)
- 或直接输入文本内容

3. **生成数据**
- 点击"生成AI响应"按钮
- 在多个生成结果中切换
- 根据需要编辑生成的内容

4. **管理数据**
- 添加到数据列表
- 预览所有生成的数据
- 删除不需要的数据
- 导出为JSON文件

## 🎯 训练数据格式
json
{
"instruction": "用户指令",
"input": "用户输入(可选)",
"output": "AI回答",
"system": "系统提示词(可选)",
"history": [
["历史问题1", "历史回答1"],
["历史问题2", "历史回答2"]
]
}

## 🛠️ 技术栈

- ⚛️ React 18
- 🎨 TailwindCSS
- 📄 PDF.js
- 📝 Mammoth.js
- 💾 LocalStorage API

## 📋 待办功能

- [ ] 支持更多文件格式
- [ ] 添加数据验证功能
- [ ] 批量导入功能
- [ ] 数据标签系统
- [ ] 导出更多格式

## 🤝 贡献指南

1. Fork 本仓库
2. 创建特性分支 (`git checkout -b feature/AmazingFeature`)
3. 提交改动 (`git commit -m 'Add some AmazingFeature'`)
4. 推送到分支 (`git push origin feature/AmazingFeature`)
5. 提交 Pull Request

## 📜 许可证

本项目采用 MIT 许可证 - 查看 [LICENSE](LICENSE) 文件了解详情

## 👨‍💻 作者

正经人王同学

- 微信公众号:正经人王同学
- 微信:whatisallineed
- GitHub:[https://github.com/zjrwtx](https://github.com/zjrwtx)
- Email:[[email protected]](mailto:[email protected])

## 🌟 Star 历史

[![Star History Chart](https://api.star-history.com/svg?repos=zjrwtx/SFT-data-builder&type=Date)](https://star-history.com/#zjrwtx/SFT-data-builder&Date)

## 🙏 致谢
特别感谢以下开源项目和贡献者:
- [LaiWei魏来](https://github.com/waltonfuture) -提供算法指导等支持
- gpto1(cot)数据合成的参考来源 -https://github.com/HKAIR-Lab/HK-O1aw
- 所有提供反馈和建议的用户

---

如果这个项目对你有帮助,请给一个 ⭐️ 鼓励一下!