金善雅

IndexCache

互联网 2026-03-23 04:44:59

IndexCache 是清华与智谱团队推出的稀疏注意力加速技术,针对 DeepSeek 稀疏注意力(DSA)中索引器计算开销大的问题,通过跨层复用索引来减少冗余计算。IndexCache发现相邻层选择的 top-k token 重叠率高达 70%-100%,因此将层分为”全量层”(计算并缓存索引)和”共享层”(直接复用缓存)。此方法可去除 75% 的索引器计算,在 200K 上下文场景下实现预填充 1.82 倍、解码 1.48 倍加速,且几乎不损失模型性能,已在 30B 参数模型及 744B 参数的 GLM-5 上验证有效。