【
算力成本又挨“一刀”!DeepSeek首个开源代码库为FlashMLA 显著提升大模型推理效率】
突破H800计算上限!DeepSeek放出第一个开源库,FlashMLA再掀降本潮?2月24日周一,DeepSeek宣布启动“开源周”,首个开源的代码库为Flash MLA,目前已投入生产。据介绍,FlashMLA的灵感来自FlashAttention 2&3和cutlass项目,是针对
英伟达Hopper架构的GPU优化的高效MLA解码内核,主要在变长序列的场景进行了深度优化,能够显著提升大模型推理效率。
MLA是DeepSeek提出的创新注意力架构,是DeepSeek在系列模型中实现成本大幅降低的关键所在。分析认为,随着FlashMLA的应用,算力成本有望继续下降。性能方面,FlashMLA在
CUDA 12.6环境下,H800 SXM5内存受限配置下可实现3000 GB/s的带宽,计算受限配置下则可达580
TFLO PS的算力。有网友指出,FlashMLA的计算速度已达行业平均水准的8倍,甚至超过了H800 1681GB/s的传输峰值。
(华尔街见闻)