《孙子别裁》_不动明王

小羊铲

25-02-24 15:36

2

硅基量化永不眠，碳基游资战不休

立马弯弓射天

25-02-24 15:33

0

他们是吃不到肉眼红了
要是没有游资和量化，很难想象这个市场会变成什么样子，死水一潭

不动明王

25-02-24 15:28

4

周末声讨游资，多数都是连板票

不动明王

25-02-24 15:10

18

DS四天来分时图对照，
看不出首都在线的累计积分强势？

立马弯弓射天

25-02-24 15:06

0

机器人开始出现跌停的了，而且还包括大力这样的龙头，警惕信号
明天要是不修复就撤退了

立马弯弓射天

25-02-24 15:02

0

我语文不好，不过相信你肯定能理解，同‘死’和完犊子都是一个意思

EchoLam

25-02-24 14:57

2

FlashMLA意味着什么：

（1）使英伟达H800推理性能提高2-3倍，内存带宽提升2-3倍（3000GB/s vs 1000-1500GB/s）；
（2）推理速度提升 30%-50%；
（3）显存利用率提升20%-30%…

总结：FlashMLA是能让LLM在 H800跑得更快、更高效的优化方案，尤其适用于高性能AI任务。

对于大模型和算力的影响：

1，Flash MLA的核心是加速大语言模型的解码过程，提高模型的响应速度和吞吐量，这对于实时生成任务（如聊chatbot等）非常重要，那么对于大模型的能力和使用体验是巨大的促进，速度会明显提升。之前体验Grok3，感觉生成内容是一段一段、一片一片生成的，未来国内模型也许也可以感受到。

2，MLA (Multi-Layer Attention，多层注意力机制)是一种改进的注意力机制，可以提高Transformer模型在处理长序列时的效率和性能‌。FlashMLA的改进是：通过动态调度和内存优化，让Hopper GPU（如H800）的算力被“榨干”，相同硬件下吞吐量显著提升。这意味着企业可以用相同的GPU服务器完成几倍的任务量，大幅降低推理成本。

3，对于英伟达，DeepSeek的工作对于NV来说非常重要，是NV生态价值的重要组成。原本生态就是这样，各种优化、各种创新。之前也有团队做过H的优化，不过效果远不如DeepSeek。

4，对NV的直接竞争对手比如AMD不是好事儿，在“谁好用谁”的自由环境下，AMD即使也做优化，影响也一般。AMD和NV最主要就是输在生态上。

接下来重点聊聊对于国产算力和国内应用的影响：

5，FlashMLA弱表达的方法论要比实际代码更重要，这意味着对国产卡的性能提升也是极重要的推动。FlashMLADeepSeek可在 GitHub 上免费获取，全球的开发人员都能够访问、修改和将这项技术集成到他们的项目以及产品中。

6，具体的，虽然是针对Hopper的优化，但对于国产卡有利好甚至要更大，因为国卡原本就是在性能上弱。我们的现状不是“谁好用谁”，国产卡因为某些众所周知的原因就是一定要用（弱也要用），那么现在可以通过FlashMLA提供的优化思路和方法论，尝试让国产卡大幅提升性能。即使架构不同，但“MLA以及更深的优化走得通而且效果极好”得方法论是没问题的，后面国产卡的推理性能提升将是顺理成章的。

总结：对NV是优化，对AMD是压力，对国产卡是大利好。下一个阶段，因为制程受限的原因，昇腾、寒武纪，都可以在这个思路上搞自己的优化，大幅提升性能，这要比对NV的锦上添花更重要。

小羊铲

25-02-24 14:56

1

卒？萃？

立马弯弓射天

25-02-24 14:48

0

DeepSeek板块萃

不动明王

25-02-24 14:44

3