FlashMLA

互联网 2025-03-10 20:39:54

FlashMLA 是针对 Hopper GPU 优化的高效 MLA 解码内核，由 DeepSeek 开源，专为处理可变长度序列而设计，目前已投入生产环境。

据介绍，FlashMLA 专门针对多层注意力机制进行了优化，能够加速 LLM 的解码过程，从而提高模型的响应速度和吞吐量。

FlashMLA 可在 H800 芯片上实现最高 3000GB/S 的带宽和 580 TFLOPS 的算力。

*文章为作者独立观点，不代表爱思词典立场

本文由 feifeibebe发表，转载此文章须经作者同意，并请附上出处( 爱思词典 )及本页链接。

原文链接 https://www.asapp.cn/b/hlw/9486.html

FlashMLA