Kimi-Audio
互联网
2025-05-10 18:49:51
Kimi-Audio 由月之暗面(Moonshot AI)开发,是一款开源音频基础模型,基于 Qwen 2.5-7B 构建,可以统一处理音频理解、生成和对话任务。
依托 1300 万小时音频数据预训练,通过混合输入(离散语义标记 + 连续声学特征)与创新架构,统一多种任务。
Kimi-Audio 支持语音识别(ASR)、音频问答(AQA)、音频字幕(AAC)、情感识别(SER)、声音分类(SEC/ASC)、文本到语音(TTS)、语音转换(VC)和端到端语音对话。






![西瓜猪酱w点赞里抽一个送全套4k原图!这套真的很顶[憧憬][憧憬]](https://imgs.knowsafe.com:8087/img/aideep/2024/10/31/7cb0c401278758141b250457aed7b0af.jpg?w=250)
