Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
https://github.com/QwenLM/Qwen-Audio
The official repo of Qwen-Audio (通义千问-Audio) chat & pretrained large audio language model proposed by Alibaba Cloud.
https://github.com/QwenLM/Qwen-Audio
Last synced: 3 months ago
JSON representation
The official repo of Qwen-Audio (通义千问-Audio) chat & pretrained large audio language model proposed by Alibaba Cloud.
- Host: GitHub
- URL: https://github.com/QwenLM/Qwen-Audio
- Owner: QwenLM
- License: other
- Created: 2023-11-07T06:31:39.000Z (about 1 year ago)
- Default Branch: main
- Last Pushed: 2024-07-05T09:17:49.000Z (4 months ago)
- Last Synced: 2024-07-22T14:51:40.675Z (4 months ago)
- Language: Python
- Size: 24.6 MB
- Stars: 1,276
- Watchers: 25
- Forks: 92
- Open Issues: 55
-
Metadata Files:
- Readme: README.md
- License: LICENSE
Awesome Lists containing this project
- StarryDivineSky - QwenLM/Qwen-Audio - Audio接受各种音频(人类语音、自然声音、音乐和歌曲)和文本作为输入,输出文本。贡献包括:`基础音频模型`:基础的多任务音频语言模型,支持各种任务、语言和音频类型,作为通用音频理解模型。在Qwen-Audio的基础上,我们通过指令微调开发Qwen-Audio-Chat,实现多轮对话,支持多样化的音频场景。`适用于所有类型音频的多任务学习框架`:为了扩大音频语言预训练的规模,我们通过提出一个多任务训练框架,实现知识共享和避免一对多干扰,解决了与不同数据集相关的文本标签变化的挑战。我们的模型包含 30 多个任务,大量实验表明该模型具有强大的性能。`强大的性能`:在各种基准测试任务中都取得了令人印象深刻的性能,而无需任何特定任务的微调,超过了同类产品。在 Aishell1、cochlscene、ClothoAQA 和 VocalSound 的测试集上取得先进的结果。`从音频和文本输入灵活多运行聊天`:支持多音频分析、声音理解和推理、音乐欣赏和工具使用。 (文本生成、文本对话 / 大语言对话模型及数据)