Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/yyaadet/llm-perf
LLM performance auto test. Get insight and replay evaluation with a little time.
https://github.com/yyaadet/llm-perf
Last synced: about 14 hours ago
JSON representation
LLM performance auto test. Get insight and replay evaluation with a little time.
- Host: GitHub
- URL: https://github.com/yyaadet/llm-perf
- Owner: yyaadet
- License: gpl-3.0
- Created: 2024-03-20T07:21:41.000Z (10 months ago)
- Default Branch: main
- Last Pushed: 2024-04-19T10:03:13.000Z (9 months ago)
- Last Synced: 2024-04-20T03:26:07.128Z (9 months ago)
- Language: Python
- Size: 7.3 MB
- Stars: 1
- Watchers: 1
- Forks: 0
- Open Issues: 0
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
README
# llm-perf
LLM performance auto test. Get insight and replay evaluation with a little time.本项目的目标是打造一个从用户使用的角度出发的、可复现的、自动化程度高的大模型效果评测工具。项目将会包括使用的测试数据、测试代码、测试报告。
![](./snapshots/dashboard.png)
## 数据源
- CEval的val数据集
## 支持大模型
- gpt-3.5-turbo
- Kimi
- GLM4
- 阶跃星辰
- 文心一言 3.5
- Minimax## 运行Kimi测试
需要安装有python3.11版本。
- `cd llm-perf`
- `pip install -r requirements.txt`
- 修改`test_kimi.sh`里面的token与cookie值使用Safari或Chrome登陆进网站: `https://kimi.moonshot.cn`, 随便输入一个文字,用来启动一个新会话。如下图:
![](./snapshots/kimi_help.png)
用新的token、cookie、chat_id替换脚本`test_kimi.sh`里面的值
## 运行GLM4测试
![](./snapshots/glm4-run1.png)
![](./snapshots/glm4-run2.png)
- `cd llm-perf`
- `pip install -r requirements.txt`
- 修改`test_glm4.sh`里面的
- token
- cookie
- assistant_id
- conversion_id## 运行gpt-3.5-turbo测试
不需要openai的api key。
![](./snapshots/chatgpt-run.png)
- `cd llm-perf`
- `pip install -r requirements.txt`
- `python run.py chatgpt`。第一次启动,需要手工登陆一下。命令启动成功,会打开一个浏览器,手工登陆一下poe.com网站,然后再运行一下刚才的那个命令。## 运行阶跃星辰测试
- `cd llm-perf`
- `pip install -r requirements.txt`
- 修改`test_step.sh`里面的
- token
- cookie
- chat_id
- appid
- 运行 `./test_step.sh`## 运行文心一言3.5测试
只需要用户名与密码就可以。
- `cd llm-perf`
- `pip install -r requirements.txt`
- `python run.py yiyan --username {} --password {}`。输入你自己的用户名与密码就可以开始测试了。## 查看报告
- `cd streamlit`
- `pip install -r requirements.txt`
- `streamlit run llm_perf.py`测试结果明细位于`datasets/`
## 友情赞助
![](./snapshots/zhifubao_donate.JPG)