Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/microsoft/GRIN-MoE
https://github.com/microsoft/GRIN-MoE
Last synced: 4 months ago
JSON representation
- Host: GitHub
- URL: https://github.com/microsoft/GRIN-MoE
- Owner: microsoft
- License: other
- Created: 2024-08-14T21:23:59.000Z (5 months ago)
- Default Branch: main
- Last Pushed: 2024-09-25T18:46:48.000Z (4 months ago)
- Last Synced: 2024-09-26T01:49:46.407Z (4 months ago)
- Size: 1.48 MB
- Stars: 236
- Watchers: 8
- Forks: 12
- Open Issues: 0
Awesome Lists containing this project
- StarryDivineSky - microsoft/GRIN-MoE - MoE 是一个基于梯度信息引导的混合专家模型,它在只有 6.6B 活跃参数的情况下,在各种任务(特别是编码和数学任务)中取得了优异的性能。GRIN 使用 SparseMixer-v2 来估计与专家路由相关的梯度,而传统的 MoE 训练将专家门控视为梯度估计的代理。GRIN 在训练 MoE 时无需使用专家并行或令牌丢弃,而传统的 MoE训练则需要使用这些技术。该模型适用于需要内存/计算受限环境、延迟限制场景和强大推理能力(特别是代码、数学和逻辑)的通用 AI 系统和应用程序。开发者应注意语言模型的常见限制,并在使用模型之前评估和缓解准确性、安全性以及公平性问题。 (A01_文本生成_文本对话 / 大语言对话模型及数据)