https://github.com/smartyfh/LLM-Uncertainty-Bench

Last synced: 12 days ago
JSON representation

Benchmarking LLMs via Uncertainty Quantification

StarryDivineSky - smartyfh/LLM-Uncertainty-Bench - Uncertainty-Bench项目旨在通过不确定性量化来评估大型语言模型（LLM）。该项目提供了一个基准测试框架，用于测量和比较LLM在不同任务上的不确定性估计能力。项目特色在于它关注LLM的置信度评估，而非仅仅是准确率。它通过各种不确定性指标，例如预测方差、熵等，来衡量模型预测的不确定性。该项目包含多种数据集和评估指标，方便用户进行全面的不确定性分析。用户可以利用该框架来识别LLM在哪些情况下更容易产生不确定性，从而改进模型的设计和应用。该项目为LLM的可靠性和安全性评估提供了一个有价值的工具，有助于提升LLM在实际应用中的表现。它支持多种LLM，并提供易于使用的API和评估脚本，方便研究人员和开发者进行实验和分析。核心目标是推动LLM不确定性量化领域的研究，并为构建更可靠的LLM系统做出贡献。 (A01_文本生成_文本对话 / 大语言对话模型及数据)
awesome-llm-eval - LLM-Uncertainty-Bench - 01-22)| (Datasets-or-Benchmark / 通用)

ecosyste.ms