https://github.com/yanqiangmiffy/deepresearch-evaluate

面向深度研究场景的长报告多维度评估方法研究
https://github.com/yanqiangmiffy/deepresearch-evaluate

Last synced: about 1 month ago
JSON representation

面向深度研究场景的长报告多维度评估方法研究

Host: GitHub
URL: https://github.com/yanqiangmiffy/deepresearch-evaluate
Owner: yanqiangmiffy
Created: 2025-05-24T12:45:33.000Z (5 months ago)
Default Branch: main
Last Pushed: 2025-06-12T15:41:05.000Z (4 months ago)
Last Synced: 2025-06-12T16:48:47.555Z (4 months ago)
Language: HTML
Size: 2.43 MB
Stars: 1
Watchers: 0
Forks: 0
Open Issues: 0
Metadata Files:
- Readme: README.md

Awesome Lists containing this project

README

## 对比模型/平台
- DeepSeek（联网搜索）
- ChatGPT(DeepResearch)
- Grok3
- Google Gemini DeepResearch
- Qwen3
- GLM 沉思
- 豆包深度思考
- 秘塔
- 纳米
- perplexity

## 报告1：大语言模型研究进展（2022–2025）

- url:https://chatgpt.com/c/681b9b44-105c-8004-a588-3d4eeffd8d04
- 查询:请从四个主要方面对 LLM 的最近进展进行文献综述，包括预训练（如何预训练出一个有能力的 LLM）、适配微调（如何从有效性和安全性两个角度有效地微调预训练的 LLM）、使用（如何利用LLM 解决各种下游任务）以及能力评估（如何评估 LLM 的能力和现有的经验性发现）。
- 模型：ChatGPT-DeepResearch：GPT-4O
- 目录：samples1
- 类型：研究文献综述

## 报告2：大模型智能体（AI Agent）组成

- url:https://chatgpt.com/c/681b9e02-368c-8004-b16f-11fb2e9cbdb4
- 查询:请帮我梳理一下Agent的知识，其中主要包括Agent组成、技术架构、技术前沿、应用场景、部署落地等，生成一份深度研究报告
- 模型：ChatGPT-DeepResearch：GPT-4O
- 目录：samples2
- 类型：研究文献综述

## 报告3：检索增强生成（RAG）系统评估的研究报告

- url:https://chatgpt.com/c/681b9e02-368c-8004-b16f-11fb2e9cbdb4
- 查询:请生成一份关于检索增强生成（RAG）系统评估的深度研究报告，需涵盖以下内容： RAG在自然语言处理中的关键作用及其混合结构的独特挑战；现有RAG评估方法的系统性分析框架（如RGAR框架），包括检索（Retrieval）、生成（Generation）和附加要求（Additional Requirement）的量化指标（如相关性、准确性、真实性）；当前RAG基准的局限性，以及如何通过输出与真实情况对的对比解决评估问题；未来研究的潜在方向，以改进RAG评估的标准化与全面性。要求：结合最新研究进展，提供具体指标、案例分析和领域内权威论文的引用支持。
- 模型：ChatGPT-DeepResearch：GPT-4O
- 目录：samples3
- 类型：研究文献综述

## 报告4：大语言模型研究进展（2022–2025）

- url:https://chat.deepseek.com/a/chat/s/3f76927a-a3e9-4cd5-bc97-9fae1b95211d
- 查询:请从四个主要方面对 LLM 的最近进展进行文献综述，包括预训练（如何预训练出一个有能力的 LLM）、适配微调（如何从有效性和安全性两个角度有效地微调预训练的 LLM）、使用（如何利用LLM 解决各种下游任务）以及能力评估（如何评估 LLM 的能力和现有的经验性发现）。
- 模型：DeepSeek：DeeoSeek-V3-671B
- 目录：samples4
- 类型：研究文献综述
- 备注：**最后生成没有完整**,原始json数据获取不到,和第一个样本问题一样

## 报告5：大语言模型研究进展（2022–2025）

- url:https://gemini.google.com/app/197ce1069b081dc2?utm_source=gemini&utm_medium=referral&utm_campaign=gemini_deep_research_landing_page&redirect=home&hl=zh-CN
- 查询:Please Write A Survey About Retrieval Augmented Generation
- 模型：Gemini-Gemini 2.5 Pro (experimental)
- 目录：samples5
- 类型：研究文献综述

## 报告6：2025年中国智造深度研究

- url:https://gemini.google.com/app/56c8afe2f3c4caa0?utm_source=gemini&utm_medium=referral&utm_campaign=gemini_deep_research_landing_page&redirect=home&hl=zh-CN
- 查询:2025年中国智造深度研究
- 模型：Gemini-Gemini 2.5 Pro (experimental)
- 目录：samples6
- 类型：调研报告

## 报告7：以《哪吒2》为切入点，分析中国电影的发展

- url:https://chat.qwen.ai/c/105c9300-6cef-4b3e-b812-a4632aa712ef
- 查询:以《哪吒2》为切入点，分析中国电影的发展
- 模型：Qwen3-235B-A22B
- 目录：samples7
- 类型：调研报告

## 报告8：特朗普政府‘对等关税’政策的战略逻辑与全球影响深度解析

- url:https://desearch.zeelin.cn/reportContent?sessionId=31096f6eb26d470898cc57cd3b24f651&r=s&s=2krybDdh
- 查询:特朗普政府‘对等关税’政策的战略逻辑与全球影响深度解析
- 模型：Zeelin
- 目录：samples8
- 类型：主题研究

## 报告9：特朗普政府‘对等关税’政策的战略逻辑与全球影响深度解析

- url:https://desearch.zeelin.cn/reportContent?sessionId=e87bc03b180a4669a60b94d50908de5c&r=s&s=RmM_M6p5
- 查询:对2025 英伟达（NVIDIA) GTC 大会进行详细分析总结，包括但不限于最新产品、技术突破、增长空间、未来展望等
- 模型：Zeelin
- 目录：samples9
- 类型：主题研究

## 报告10：对4月2号特朗普政府“对等关税”进行深入分析

- url:https://desearch.zeelin.cn/reportContent?sessionId=f31c7571a3654ad697373de0531c40ec&r=s&s=L2ovLdZy
- 查询:对4月2号特朗普政府“对等关税”进行深入分析
- 模型：Zeelin
- 目录：samples10
- 类型：主题研究

## 报告11：对低空经济行业做一个深入研究

- url:https://desearch.zeelin.cn/reportContent?sessionId=dfee303c75b34aa4ac0b5cfda7741a8b&r=s&s=Svy5BklV
- 查询:对低空经济行业做一个深入研究
- 模型：Zeelin
- 目录：samples11
- 类型：行业研究

## 报告12：对霸王茶姬-云南味知觉餐饮管理有限公司进行深度调研分析

- url:https://desearch.zeelin.cn/reportContent?sessionId=714a95da96d345d19f80e2b150e23f8b&r=s&s=EGMIEQQU
- 查询:对霸王茶姬-云南味知觉餐饮管理有限公司进行深度调研分析
- 模型：Zeelin
- 目录：samples12
- 类型：行业研究

## 报告13：请分别介绍并对比一下PPO, GRPO和DAPO这三种算法的优劣

- url:https://chat.qwen.ai/c/61919f5c-6c22-4a0b-ba3e-d6f64e23cc93
- 查询: 请分别介绍并对比一下PPO, GRPO和DAPO这三种算法的优劣
- 模型：Qwen3-235B-A22B
- 目录：samples13
- 类型：主题研究

## 报告14：帮我调研后续的deep research deepsearch agent rag等技术

- url:https://grok.com/chat/e4a70c36-61bd-47fa-bd99-12b8ed29f551
- 查询: 帮我调研后续的deep research deepsearch agent rag等技术
- 模型：Grok3
- 目录：samples14
- 类型：主题研究

## 报告15：未来三年男子单打职业网坛格局的分析和预测

- url:https://chat.qwen.ai/c/d6573161-db9a-4f5b-b598-0a4d399afb75
- 查询: 帮我调研后续的deep research deepsearch agent rag等技术
- 模型：Qwen3-235B-A22B
- 目录：samples15
- 类型：主题研究

## 报告16：豆包AI语音聊天产品未来发展方向

- url: https://www.doubao.com/chat/4369108667496962
- 查询: 豆包AI语音聊天产品未来发展方向
- 模型：Doubao
- 目录：samples16
- 类型：主题研究

## 报告17：大语言模型在医学问答与辅助诊疗中的应用研究

- url: https://grok.com/chat/8c675804-6190-4e89-a87a-925885bf0311
- 查询: 大语言模型在医学问答与辅助诊疗中的应用研究
- 模型：Grok3
- 目录：samples17
- 类型：主题研究

## 报告18：推理优化技术综述（KV Cache优化、Speculative Decoding、FlashAttention等）

- url: https://metaso.cn/search/8608687388587216896?q=%E6%8E%A8%E7%90%86%E4%BC%98%E5%8C%96%E6%8A%80%E6%9C%AF%E7%BB%BC%E8%BF%B0%EF%BC%88KV+Cache%E4%BC%98%E5%8C%96%E3%80%81Speculative+Decoding%E3%80%81FlashAttention%E7%AD%89%EF%BC%89
- 查询: 推理优化技术综述（KV Cache优化、Speculative Decoding、FlashAttention等）
- 模型：秘塔搜索
- 目录：samples18
- 类型：研究文献综述

## 报告19：Parameter Efficient Fine-Tuning（PEFT）方法综述与比较（LoRA、Adapter、IA3等）

- url: https://www.n.cn/search/5202927dcd654ea7ae907685e15b3509?fr=360dh_list&src=360dh_list
- 查询: Parameter Efficient Fine-Tuning（PEFT）方法综述与比较（LoRA、Adapter、IA3等）
- 模型：纳米Ai搜索
- 目录：samples19
- 类型：研究文献综述

## 报告20：讨论“电力系统管理”，可以先按日期顺序从新到旧检索，对重大改革或智能调度系统做重点记录。

- url: https://chat.qwen.ai/c/bd548318-f14f-451a-a6c2-b057725da234
- 查询: 讨论“电力系统管理”，可以先按日期顺序从新到旧检索，对重大改革或智能调度系统做重点记录。
- 模型：Qwen3-235B-A22B
- 目录：samples20
- 类型：研究文献综述

ecosyste.ms

Data

Tools

Indexes

Applications

Experiments

Awesome

https://github.com/yanqiangmiffy/deepresearch-evaluate

Awesome Lists containing this project

README