StableAvatar

互联网 2025-10-05 18:13:51

StableAvatar 是复旦大学、微软亚洲研究院等推出的创新音频驱动虚拟形象视频生成模型。模型通过端到端的视频扩散变换器，结合时间步感知音频适配器、音频原生引导机制和动态加权滑动窗口策略，能生成无限长度的高质量虚拟形象视频。模型解决了现有模型在长视频生成中出现的身份一致性、音频同步和视频平滑性问题，显著提升生成视频的自然度和连贯性，适用虚拟现实、数字人创建等场景。

*文章为作者独立观点，不代表爱思词典立场

本文由戌尻リップの发表，转载此文章须经作者同意，并请附上出处( 爱思词典 )及本页链接。

原文链接 https://www.asapp.cn/b/hlw/11586.html

StableAvatar 复旦大学微软亚洲研究院