Ming-UniAudio

互联网 2025-10-08 03:24:41

Ming-UniAudio 是蚂蚁集团开源的音频多模态模型，统一语音理解、生成和编辑任务。核心是 MingTok-Audio，一个基于 VAE 框架和因果 Transformer 架构的连续语音分词器，能有效整合语义和声学特征。基于此，Ming-UniAudio 开发了一个端到端的语音语言模型，平衡了生成和理解能力，并通过扩散头确保高质量的语音合成。Ming-UniAudio 提供了首个指令引导的自由形式语音编辑框架，支持复杂的语义和声学修改，无需手动指定编辑区域。在多个基准测试中，Ming-UniAudio 展示了强大的性能，无论是语音分词、语音理解、语音生成还是语音编辑任务。模型支持多种语言和方言，适用于多种应用场景，如语音助手、有声读物和音频后期制作等。

*文章为作者独立观点，不代表爱思词典立场

本文由 Karlee Grey发表，转载此文章须经作者同意，并请附上出处( 爱思词典 )及本页链接。

原文链接 https://www.asapp.cn/b/hlw/11758.html

Ming-UniAudio 蚂蚁集团 Transformer