Ming-UniAudio
互联网
2025-10-08 03:24:41
Ming-UniAudio 是蚂蚁集团开源的音频多模态模型,统一语音理解、生成和编辑任务。核心是 MingTok-Audio,一个基于 VAE 框架和因果 Transformer 架构的连续语音分词器,能有效整合语义和声学特征。基于此,Ming-UniAudio 开发了一个端到端的语音语言模型,平衡了生成和理解能力,并通过扩散头确保高质量的语音合成。Ming-UniAudio 提供了首个指令引导的自由形式语音编辑框架,支持复杂的语义和声学修改,无需手动指定编辑区域。在多个基准测试中,Ming-UniAudio 展示了强大的性能,无论是语音分词、语音理解、语音生成还是语音编辑任务。模型支持多种语言和方言,适用于多种应用场景,如语音助手、有声读物和音频后期制作等。