An open API service indexing awesome lists of open source software.

https://github.com/yanqiangmiffy/deepresearch-evaluate

面向深度研究场景的长报告多维度评估方法研究
https://github.com/yanqiangmiffy/deepresearch-evaluate

Last synced: about 1 month ago
JSON representation

面向深度研究场景的长报告多维度评估方法研究

Awesome Lists containing this project

README

          

## 对比模型/平台
- DeepSeek(联网搜索)
- ChatGPT(DeepResearch)
- Grok3
- Google Gemini DeepResearch
- Qwen3
- GLM 沉思
- 豆包 深度思考
- 秘塔
- 纳米
- perplexity

## 报告1:大语言模型研究进展(2022–2025)

- url:https://chatgpt.com/c/681b9b44-105c-8004-a588-3d4eeffd8d04
- 查询:请从四个主要方面对 LLM 的最近进展进行文献综述,包括预训练(如何预训练 出一个有能力的 LLM)、适配微调(如何从有效性和安全性两个角度有效地微调预训练的 LLM)、使用(如何利用LLM 解决各种下游任务)以及能力评估(如何评估 LLM 的能力和现有的经验性发现)。
- 模型:ChatGPT-DeepResearch:GPT-4O
- 目录:samples1
- 类型:研究文献综述

## 报告2:大模型智能体(AI Agent)组成

- url:https://chatgpt.com/c/681b9e02-368c-8004-b16f-11fb2e9cbdb4
- 查询:请帮我梳理一下Agent的知识,其中主要包括Agent组成、技术架构、技术前沿、应用场景、部署落地等,生成一份深度研究报告
- 模型:ChatGPT-DeepResearch:GPT-4O
- 目录:samples2
- 类型:研究文献综述

## 报告3:检索增强生成(RAG)系统评估的研究报告

- url:https://chatgpt.com/c/681b9e02-368c-8004-b16f-11fb2e9cbdb4
- 查询:请生成一份关于检索增强生成(RAG)系统评估的深度研究报告,需涵盖以下内容: RAG在自然语言处理中的关键作用及其混合结构的独特挑战; 现有RAG评估方法的系统性分析框架(如RGAR框架),包括检索(Retrieval)、生成(Generation)和附加要求(Additional Requirement)的量化指标(如相关性、准确性、真实性); 当前RAG基准的局限性,以及如何通过输出与真实情况对的对比解决评估问题; 未来研究的潜在方向,以改进RAG评估的标准化与全面性。 要求:结合最新研究进展,提供具体指标、案例分析和领域内权威论文的引用支持。
- 模型:ChatGPT-DeepResearch:GPT-4O
- 目录:samples3
- 类型:研究文献综述

## 报告4:大语言模型研究进展(2022–2025)

- url:https://chat.deepseek.com/a/chat/s/3f76927a-a3e9-4cd5-bc97-9fae1b95211d
- 查询:请从四个主要方面对 LLM 的最近进展进行文献综述,包括预训练(如何预训练 出一个有能力的 LLM)、适配微调(如何从有效性和安全性两个角度有效地微调预训练的 LLM)、使用(如何利用LLM 解决各种下游任务)以及能力评估(如何评估 LLM 的能力和现有的经验性发现)。
- 模型:DeepSeek:DeeoSeek-V3-671B
- 目录:samples4
- 类型:研究文献综述
- 备注:**最后生成没有完整**,原始json数据获取不到,和第一个样本问题一样

## 报告5:大语言模型研究进展(2022–2025)

- url:https://gemini.google.com/app/197ce1069b081dc2?utm_source=gemini&utm_medium=referral&utm_campaign=gemini_deep_research_landing_page&redirect=home&hl=zh-CN
- 查询:Please Write A Survey About Retrieval Augmented Generation
- 模型:Gemini-Gemini 2.5 Pro (experimental)
- 目录:samples5
- 类型:研究文献综述

## 报告6:2025年中国智造深度研究

- url:https://gemini.google.com/app/56c8afe2f3c4caa0?utm_source=gemini&utm_medium=referral&utm_campaign=gemini_deep_research_landing_page&redirect=home&hl=zh-CN
- 查询:2025年中国智造深度研究
- 模型:Gemini-Gemini 2.5 Pro (experimental)
- 目录:samples6
- 类型:调研报告

## 报告7:以《哪吒2》为切入点,分析中国电影的发展

- url:https://chat.qwen.ai/c/105c9300-6cef-4b3e-b812-a4632aa712ef
- 查询:以《哪吒2》为切入点,分析中国电影的发展
- 模型:Qwen3-235B-A22B
- 目录:samples7
- 类型:调研报告

## 报告8:特朗普政府‘对等关税’政策的战略逻辑与全球影响深度解析

- url:https://desearch.zeelin.cn/reportContent?sessionId=31096f6eb26d470898cc57cd3b24f651&r=s&s=2krybDdh
- 查询:特朗普政府‘对等关税’政策的战略逻辑与全球影响深度解析
- 模型:Zeelin
- 目录:samples8
- 类型:主题研究

## 报告9:特朗普政府‘对等关税’政策的战略逻辑与全球影响深度解析

- url:https://desearch.zeelin.cn/reportContent?sessionId=e87bc03b180a4669a60b94d50908de5c&r=s&s=RmM_M6p5
- 查询:对2025 英伟达(NVIDIA) GTC 大会进行详细分析总结,包括但不限于最新产品、技术突破、增长空间、未来展望等
- 模型:Zeelin
- 目录:samples9
- 类型:主题研究

## 报告10:对4月2号特朗普政府“对等关税”进行深入分析

- url:https://desearch.zeelin.cn/reportContent?sessionId=f31c7571a3654ad697373de0531c40ec&r=s&s=L2ovLdZy
- 查询:对4月2号特朗普政府“对等关税”进行深入分析
- 模型:Zeelin
- 目录:samples10
- 类型:主题研究

## 报告11:对低空经济行业做一个深入研究

- url:https://desearch.zeelin.cn/reportContent?sessionId=dfee303c75b34aa4ac0b5cfda7741a8b&r=s&s=Svy5BklV
- 查询:对低空经济行业做一个深入研究
- 模型:Zeelin
- 目录:samples11
- 类型:行业研究

## 报告12:对霸王茶姬-云南味知觉餐饮管理有限公司进行深度调研分析

- url:https://desearch.zeelin.cn/reportContent?sessionId=714a95da96d345d19f80e2b150e23f8b&r=s&s=EGMIEQQU
- 查询:对霸王茶姬-云南味知觉餐饮管理有限公司进行深度调研分析
- 模型:Zeelin
- 目录:samples12
- 类型:行业研究

## 报告13:请分别介绍并对比一下PPO, GRPO和DAPO这三种算法的优劣

- url:https://chat.qwen.ai/c/61919f5c-6c22-4a0b-ba3e-d6f64e23cc93
- 查询: 请分别介绍并对比一下PPO, GRPO和DAPO这三种算法的优劣
- 模型:Qwen3-235B-A22B
- 目录:samples13
- 类型:主题研究

## 报告14:帮我调研后续的deep research deepsearch agent rag等技术

- url:https://grok.com/chat/e4a70c36-61bd-47fa-bd99-12b8ed29f551
- 查询: 帮我调研后续的deep research deepsearch agent rag等技术
- 模型:Grok3
- 目录:samples14
- 类型:主题研究

## 报告15:未来三年男子单打职业网坛格局的分析和预测

- url:https://chat.qwen.ai/c/d6573161-db9a-4f5b-b598-0a4d399afb75
- 查询: 帮我调研后续的deep research deepsearch agent rag等技术
- 模型:Qwen3-235B-A22B
- 目录:samples15
- 类型:主题研究

## 报告16:豆包AI语音聊天产品未来发展方向

- url: https://www.doubao.com/chat/4369108667496962
- 查询: 豆包AI语音聊天产品未来发展方向
- 模型:Doubao
- 目录:samples16
- 类型:主题研究

## 报告17:大语言模型在医学问答与辅助诊疗中的应用研究

- url: https://grok.com/chat/8c675804-6190-4e89-a87a-925885bf0311
- 查询: 大语言模型在医学问答与辅助诊疗中的应用研究
- 模型:Grok3
- 目录:samples17
- 类型:主题研究

## 报告18:推理优化技术综述(KV Cache优化、Speculative Decoding、FlashAttention等)

- url: https://metaso.cn/search/8608687388587216896?q=%E6%8E%A8%E7%90%86%E4%BC%98%E5%8C%96%E6%8A%80%E6%9C%AF%E7%BB%BC%E8%BF%B0%EF%BC%88KV+Cache%E4%BC%98%E5%8C%96%E3%80%81Speculative+Decoding%E3%80%81FlashAttention%E7%AD%89%EF%BC%89
- 查询: 推理优化技术综述(KV Cache优化、Speculative Decoding、FlashAttention等)
- 模型:秘塔搜索
- 目录:samples18
- 类型:研究文献综述

## 报告19:Parameter Efficient Fine-Tuning(PEFT)方法综述与比较(LoRA、Adapter、IA3等)

- url: https://www.n.cn/search/5202927dcd654ea7ae907685e15b3509?fr=360dh_list&src=360dh_list
- 查询: Parameter Efficient Fine-Tuning(PEFT)方法综述与比较(LoRA、Adapter、IA3等)
- 模型:纳米Ai搜索
- 目录:samples19
- 类型:研究文献综述

## 报告20:讨论“电力系统管理”,可以先按日期顺序从新到旧检索,对重大改革或智能调度系统做重点记录。

- url: https://chat.qwen.ai/c/bd548318-f14f-451a-a6c2-b057725da234
- 查询: 讨论“电力系统管理”,可以先按日期顺序从新到旧检索,对重大改革或智能调度系统做重点记录。
- 模型:Qwen3-235B-A22B
- 目录:samples20
- 类型:研究文献综述