https://github.com/karthikv792/LLMs-Planning

An extensible benchmark for evaluating large language models on planning
https://github.com/karthikv792/LLMs-Planning

benchmark-suite llms llms-benchmarking llms-planning llms-reasoning pddl planning

Last synced: 11 months ago
JSON representation

An extensible benchmark for evaluating large language models on planning

Host: GitHub
URL: https://github.com/karthikv792/LLMs-Planning
Owner: karthikv792
License: mit
Created: 2022-05-28T01:45:21.000Z (about 4 years ago)
Default Branch: main
Last Pushed: 2025-06-25T23:10:53.000Z (about 1 year ago)
Last Synced: 2025-06-25T23:27:38.394Z (about 1 year ago)
Topics: benchmark-suite, llms, llms-benchmarking, llms-planning, llms-reasoning, pddl, planning
Language: PDDL
Homepage:
Size: 52 MB
Stars: 384
Watchers: 7
Forks: 40
Open Issues: 2
Metadata Files:
- Readme: README.md
- License: LICENSE

Awesome-General-Agents-Benchmark - PlanBench - step planning evaluation | Claude 3.7 Sonnet (65%), OpenAI o1 (62%) | 85% | (Specialized Capability Benchmarks / Tool Use and Planning)
StarryDivineSky - karthikv792/LLMs-Planning - Planning是一个用于评估大型语言模型在规划任务上表现的可扩展基准。该项目旨在提供一个标准化的平台，以测试和比较不同LLM在解决规划问题方面的能力。它允许用户自定义规划环境和目标，并提供了一系列评估指标来衡量LLM的规划性能。该基准的设计重点在于灵活性和可扩展性，方便研究人员添加新的环境、任务和评估方法。项目特色在于其模块化结构，支持多种规划领域和LLM的集成。其工作原理是利用LLM生成规划方案，然后通过预定义的评估函数来验证方案的有效性和效率。该项目为LLM在规划领域的应用研究提供了一个有价值的工具，有助于推动相关技术的发展。 (A01_文本生成_文本对话 / 大语言对话模型及数据)
awesome-llm-eval - link

ecosyste.ms