FlashMLA
互联网
2025-03-10 20:39:54
FlashMLA 是针对 Hopper GPU 优化的高效 MLA 解码内核,由 DeepSeek 开源,专为处理可变长度序列而设计,目前已投入生产环境。
据介绍,FlashMLA 专门针对多层注意力机制进行了优化,能够加速 LLM 的解码过程,从而提高模型的响应速度和吞吐量。
FlashMLA 可在 H800 芯片上实现最高 3000GB/S 的带宽和 580 TFLOPS 的算力。




![Hanekawa翊 阿薯想洛洛了怎么办,翻出四年前的自己还能凑合一下[干饭人]](https://imgs.knowsafe.com:8087/img/aideep/2023/3/27/8bd40a9abea86903d6a3dffe9ceba18a.jpg?w=250)


