https://github.com/truman-min-show/cvpr2024-dpo-summary
2024年CVPR中所有文献的标题以及摘要等信息整理,以及一个基于MT5模型的DPO学习任务
https://github.com/truman-min-show/cvpr2024-dpo-summary
cvpr2024 dataset dpo summary
Last synced: 7 months ago
JSON representation
2024年CVPR中所有文献的标题以及摘要等信息整理,以及一个基于MT5模型的DPO学习任务
- Host: GitHub
- URL: https://github.com/truman-min-show/cvpr2024-dpo-summary
- Owner: Truman-min-show
- Created: 2025-03-14T01:33:12.000Z (7 months ago)
- Default Branch: main
- Last Pushed: 2025-03-25T06:04:26.000Z (7 months ago)
- Last Synced: 2025-03-25T07:20:02.287Z (7 months ago)
- Topics: cvpr2024, dataset, dpo, summary
- Language: Python
- Homepage:
- Size: 6.27 MB
- Stars: 0
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
Awesome Lists containing this project
README
# 📂 CVPR2024-DPO-Summary
本项目基于2024年CVPR会议的文献数据,构建了一个用于直接偏好优化(DPO)的文本摘要数据集,并提供了完整的数据处理、模型训练和推理代码。项目包含:
- CVPR 2024论文标题和摘要的CSV数据集
- 用于DPO训练的JSON格式数据集
- 基于mT5模型的DPO训练、评估和推理代码
- 数据清洗、预处理和生成工具适合用于研究DPO方法在摘要生成任务中的应用,以及探索如何利用学术会议文献数据提升语言模型性能。
## 📜 数据集说明
数据集包含两部分:
1. **CSV 文件**(完整数据)
- 2024年CVPR会议所有论文(约1400篇)的:
- `title`(标题)
- `abstract`(摘要)
- `introduction`(引文介绍)2. **JSON 文件**(DPO训练数据)
- 用于偏好优化(DPO)任务,共200条数据:
- `prompt`:论文摘要
- `chosen`:高评分优质摘要
- `rejected`:低评分摘要## 📊 数据示例
### 📄 CSV数据(arxiv_data.csv)

👉 [查看完整CSV数据](./data/arxiv_data.csv)
### 📜 JSON数据(2024_CVPR_DPO.json)
```json
[
{
"prompt": "summary: Efficient generation of 3D digital humans is important\nin several industries...",
"chosen": "Gaussian Shell Maps (GSMs) are introduced to enhance 3D human generation efficiency...",
"rejected": "Efficient generation of 3D digital humans using Gaussian Shell Maps that ..."
},
{
"prompt": "summary: Quantifying the degree of similarity between images is a\nkey copyright issue for image-based machine learning..."
"chosen": "A novel method called Complexity-Constrained Descriptive Autoencoding (CC:DAE) is proposed to define...",
"rejected": "This work introduces a method to quantify 'conceptual similarity' among images by generating ..."
}
]
```👉 [查看完整JSON数据](./data/cleaned_DPO.json)
## 🚀 项目功能
本项目不仅提供了丰富的数据集,还包含了基于DPO方法对mT5模型进行训练和推理的完整流程,具体功能如下:
### 🧠 模型训练与评估
- `train.py`:基于DPO方法对mT5模型进行训练,配置了训练参数如批量大小、学习率、训练轮数等,并在训练过程中保存模型。
- `evaluate.py`:评估模型在测试集上的表现,计算ROUGE指标,包括ROUGE-1和ROUGE-L,以衡量生成摘要的质量。
- `inference.py`:加载训练好的模型,对输入文本进行摘要生成,支持自定义文本的摘要提取。### 📖 配置管理
- `config.py`:集中管理项目中的各种配置参数,包括模型名称、数据集路径、训练参数等,方便统一管理和调整。
## 💻 环境配置
### 📋 安装依赖
项目依赖于以下Python库,可在项目根目录下运行以下命令安装:
```bash
pip install -r requirements.txt
```### 📜 依赖列表
- `transformers~=4.49.0`:用于加载和使用Hugging Face的预训练模型。
- `trl~=0.15.2`:提供了DPO训练器等工具,便于实现Direct Preference Optimization训练。
- `numpy~=1.26.4`:用于数值计算和数组操作。
- `rouge-score~=0.1.2`:用于计算ROUGE指标,评估生成摘要的质量。
- `datasets~=3.3.2`:提供了数据集加载和处理的功能。
- `tqdm~=4.66.5`:用于显示进度条,方便跟踪长时间运行的任务进度。## 📖 使用指南
### 📑 数据准备
1. 将CVPR 2024的文献数据整理成CSV格式,包含`title`、`abstract`、`introduction`等字段。
2. 将CSV文件放置在`data`目录下,命名为`arxiv_data.csv`。### 🚂 模型训练
在完成数据处理后,运行`train.py`进行模型训练。脚本会自动加载配置参数、初始化训练器,并在训练过程中保存模型。训练完成后,模型将保存在`./dpo_final_model`目录下。
### 🧪 模型评估
训练完成后,运行`evaluate.py`评估模型在测试集上的表现。脚本会计算并输出ROUGE-1和ROUGE-L指标,帮助了解模型生成摘要的质量。
### 📝 模型推理
加载训练好的模型,对输入文本进行摘要生成。可以在`inference.py`中修改`example_text`变量的值,替换为自定义的文本内容,然后运行脚本,查看生成的摘要结果。
## 🔍 使用方式
- **数据分析**:本项目的数据集可用于NLP任务、文献分析等研究,帮助研究人员了解CVPR 2024会议的论文分布和研究热点。
- **DPO训练**:提供了完整的DPO训练流程和代码实现,研究者可以基于此数据集和代码框架,进一步探索和优化文本摘要生成模型。
- **机器学习**:项目中的代码和模型可结合其他LLM进行研究,为自然语言处理领域的相关任务提供参考和基础。
## 协作者- [tzhm5577](https://github.com/tzhm5577)
- [wangxinyue-maomi](https://github.com/wangxinyue-maomi)
- [dzwdzwd1](https://github.com/dzwdzwd1)
- [ChenMing_Li]📢 **欢迎Star ⭐ 和 Fork 🍴!** 如果您在使用过程中有任何问题或建议,欢迎随时提出,我们会尽力为您解答和改进!