https://github.com/smartyfh/LLM-Uncertainty-Bench
Benchmarking LLMs via Uncertainty Quantification
https://github.com/smartyfh/LLM-Uncertainty-Bench
Last synced: 12 days ago
JSON representation
Benchmarking LLMs via Uncertainty Quantification
- Host: GitHub
- URL: https://github.com/smartyfh/LLM-Uncertainty-Bench
- Owner: smartyfh
- License: mit
- Created: 2024-01-21T16:45:10.000Z (over 1 year ago)
- Default Branch: main
- Last Pushed: 2024-01-30T04:50:08.000Z (over 1 year ago)
- Last Synced: 2024-11-10T03:35:38.872Z (6 months ago)
- Language: Python
- Homepage:
- Size: 96.4 MB
- Stars: 219
- Watchers: 3
- Forks: 8
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
- StarryDivineSky - smartyfh/LLM-Uncertainty-Bench - Uncertainty-Bench项目旨在通过不确定性量化来评估大型语言模型(LLM)。该项目提供了一个基准测试框架,用于测量和比较LLM在不同任务上的不确定性估计能力。项目特色在于它关注LLM的置信度评估,而非仅仅是准确率。它通过各种不确定性指标,例如预测方差、熵等,来衡量模型预测的不确定性。该项目包含多种数据集和评估指标,方便用户进行全面的不确定性分析。用户可以利用该框架来识别LLM在哪些情况下更容易产生不确定性,从而改进模型的设计和应用。该项目为LLM的可靠性和安全性评估提供了一个有价值的工具,有助于提升LLM在实际应用中的表现。它支持多种LLM,并提供易于使用的API和评估脚本,方便研究人员和开发者进行实验和分析。核心目标是推动LLM不确定性量化领域的研究,并为构建更可靠的LLM系统做出贡献。 (A01_文本生成_文本对话 / 大语言对话模型及数据)
- awesome-llm-eval - LLM-Uncertainty-Bench - 01-22)| (Datasets-or-Benchmark / 通用)