https://github.com/NanGePlus/DataAugmentationTest

根据业务数据特性进行数据增强，使用的数据为开源的预定酒店场景下的酒店数据库。主要内容:基于原始的数据利用大模型进行数据增强。
https://github.com/NanGePlus/DataAugmentationTest

Last synced: 11 months ago
JSON representation

根据业务数据特性进行数据增强，使用的数据为开源的预定酒店场景下的酒店数据库。主要内容:基于原始的数据利用大模型进行数据增强。

Host: GitHub
URL: https://github.com/NanGePlus/DataAugmentationTest
Owner: NanGePlus
Created: 2024-11-16T05:37:58.000Z (over 1 year ago)
Default Branch: main
Last Pushed: 2024-11-16T13:41:51.000Z (over 1 year ago)
Last Synced: 2024-11-16T14:29:15.525Z (over 1 year ago)
Language: Python
Size: 2.97 MB
Stars: 0
Watchers: 2
Forks: 0
Open Issues: 0
Metadata Files:
- Readme: README.md

Awesome Lists containing this project

awesome-hacking-lists - NanGePlus/DataAugmentationTest - 根据业务数据特性进行数据增强，使用的数据为开源的预定酒店场景下的酒店数据库。主要内容:基于原始的数据利用大模型进行数据增强。 (Python)

README

# 1、业务数据预处理简介
轻量化微调流程图

## 1.1 业务数据增强
根据业务数据特性进行数据增强，使用的数据为开源的预定酒店场景下的酒店数据库
主要内容:基于原始的数据利用大模型进行数据增强
(1)对酒店设施的描述进行口语化重写
(2)补充一定比例的多轮问答和结束语对话
(3)补充按酒店名(简称)、价格上限查询等对话
演示视频如下:
https://www.bilibili.com/video/BV1dNUeY7EsY/?vd_source=30acb5331e4f5739ebbad50f7cc6b949
https://youtu.be/giK3zvvE6qE

## 1.2 制作数据集及拆分训练集、验证集、测试集
根据增强后的业务数据进行数据集整理，按照规则处理成特定的数据组织格式
最后按照8:1:1拆分训练集、验证集、测试集

# 2、前期准备工作
## 2.1 开发环境搭建:anaconda、pycharm
anaconda:提供python虚拟环境，官网下载对应系统版本的安装包安装即可
pycharm:提供集成开发环境，官网下载社区版本安装包安装即可
可参考如下视频进行安装，【大模型应用开发基础】集成开发环境搭建Anaconda+PyCharm
https://www.bilibili.com/video/BV1q9HxeEEtT/?vd_source=30acb5331e4f5739ebbad50f7cc6b949
https://youtu.be/myVgyitFzrA

## 2.2 大模型相关配置
(1)GPT大模型使用方案
(2)非GPT大模型(国产大模型)使用方案(OneAPI安装、部署、创建渠道和令牌)
(3)本地开源大模型使用方案(Ollama安装、启动、下载大模型)
可参考如下视频:
提供一种LLM集成解决方案，一份代码支持快速同时支持gpt大模型、国产大模型(通义千问、文心一言、百度千帆、讯飞星火等)、本地开源大模型(Ollama)
https://www.bilibili.com/video/BV12PCmYZEDt/?vd_source=30acb5331e4f5739ebbad50f7cc6b949
https://youtu.be/CgZsdK43tcY

## 2.3 业务数据库搭建
Weaviate (we-vee-eight) 是一个开源的AI原生向量数据库,可同时存储对象和向量，这样就可以将向量搜索与结构化过滤结合使用
官网地址: https://weaviate.io/
github地址:https://github.com/weaviate/weaviate
可参考如下视频:
Weaviate向量数据库实用指南，从安装部署、配置使用embedding模型、数据写入和查询全流程闭环实操演示和源码分析，支持GPT、国产大模型、本地大模型
https://youtu.be/hD09V7jaXSo
https://www.bilibili.com/video/BV1LhUAYFEku/?vd_source=30acb5331e4f5739ebbad50f7cc6b949

# 3、项目初始化
## 3.1 下载源码
GitHub或Gitee中下载工程文件到本地，下载地址如下：
https://github.com/NanGePlus/DataAugmentationTest
https://gitee.com/NanGePlus/DataAugmentationTest

## 3.2 构建项目
使用pycharm构建一个项目，为项目配置虚拟python环境
项目名称：DataAugmentationTest

## 3.3 将相关代码拷贝到项目工程中
直接将下载的文件夹中的文件拷贝到新建的项目目录中

## 3.4 安装项目依赖
命令行终端中执行如下命令安装依赖包
pip install -r requirements.txt
每个软件包后面都指定了本次视频测试中固定的版本号
**注意:** 本项目weaviate使用的版本3.26.7，建议先使用要求的对应版本进行本项目测试，避免因版本升级造成的代码不兼容。测试通过后，可进行升级测试

# 4、项目测试
## 4.1 数据增强处理1
enhanceBasic目录中脚本包含以下功能:
(1)将原始数据中设施相关的说法，改为更口语化的表达
(2)在原始数据中，补充针对上文已推荐的酒店的问答，如：“XXX多少钱”，“XXX地址在哪”
(3)在原始数据中，补充针对上文已推荐的酒店的比较型问答，如：“哪个更便宜”
(4)在原始数据中，补充结束语，如：“就住XXX吧”“祝您入住愉快”
打开命令行终端，运行如下命令进行测试
cd enhanceBasic
mkdir enhanced_data
python enhance.py

## 4.2 数据增强处理2
enhanceMore目录中脚本包含以下功能
(1)限制价格上/下界的查询
(2)限制价格区间的查询
(3)组合价格与其他条件的查询
(4)按酒店名称查询（包括用户不说酒店全名的情况）
打开命令行终端，运行如下命令进行测试
cd enhanceMore
python generate_by_filter_search.py
python generate_by_hotel_name.py

## 4.3 制作数据集
打开命令行终端，运行如下命令进行测试
cd dataset
python combine_and_split.py

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/NanGePlus/DataAugmentationTest

Awesome Lists containing this project

README