Manzano

互联网 2025-10-05 18:02:45

Manzano是苹果公司推出的新型多模态大语言模型（LLM），能同时实现图像理解和图像生成的统一。模型通过混合视觉分词器（hybrid vision tokenizer）将图像转化为连续的嵌入向量用于理解任务，及离散的图像标记用在生成任务。Manzano的核心是自回归的LLM解码器，能预测文本和图像标记。Manzano配备一个扩散解码器（diffusion decoder），用在将生成的图像标记转化为像素级别的图像。使Manzano在理解任务和生成任务上都表现出色，同时在模型规模扩大时，性能会相应提升。

*文章为作者独立观点，不代表爱思词典立场

本文由 sexysasa发表，转载此文章须经作者同意，并请附上出处( 爱思词典 )及本页链接。

原文链接 https://www.asapp.cn/b/hlw/11581.html

Manzano LLM hybrid vision tokenizer diffusion decoder