下载
登录/ 注册
主页
论坛
视频
热股
可转债
下载
下载

《孙子别裁》

25-01-21 14:24 1434097次浏览
不动明王
+关注
博主要求身份验证
登录用户ID:
《孙子兵法》是明王流的重要理论内核之一。
本帖以贴合市场的逻辑和角度,讲解《孙子》的战略运用。
命名为《孙子别裁》。
打开淘股吧APP
337
评论(17959)
收藏
展开
热门 最新
小羊铲

25-02-24 15:36

2
硅基量化永不眠,碳基游资战不休
立马弯弓射天

25-02-24 15:33

0
他们是吃不到肉眼红了
要是没有游资和量化,很难想象这个市场会变成什么样子,死水一潭
不动明王

25-02-24 15:28

4
周末声讨游资,多数都是连板票
不动明王

25-02-24 15:10

18




DS四天来分时图对照,
看不出首都在线的累计积分强势?
立马弯弓射天

25-02-24 15:06

0
机器人开始出现跌停的了,而且还包括大力这样的龙头,警惕信号
明天要是不修复就撤退了
 
  
立马弯弓射天

25-02-24 15:02

0
我语文不好,不过相信你肯定能理解,同‘死’和完犊子都是一个意思
EchoLam

25-02-24 14:57

2
FlashMLA意味着什么:

(1)使英伟达H800推理性能提高2-3倍,内存带宽提升2-3倍(3000GB/s vs 1000-1500GB/s);
(2)推理速度提升 30%-50%;
(3)显存利用率提升20%-30%…

总结:FlashMLA是能让LLM在 H800跑得更快、更高效的优化方案,尤其适用于高性能AI任务。

对于大模型和算力的影响:

1,Flash MLA的核心是加速大语言模型的解码过程,提高模型的响应速度和吞吐量,这对于实时生成任务(如聊chatbot等)非常重要,那么对于大模型的能力和使用体验是巨大的促进,速度会明显提升。之前体验Grok3,感觉生成内容是一段一段、一片一片生成的,未来国内模型也许也可以感受到。

2,MLA (Multi-Layer Attention,多层注意力机制)是一种改进的注意力机制,可以提高Transformer模型在处理长序列时的效率和性能‌。FlashMLA的改进是:通过动态调度和内存优化,让Hopper GPU(如H800)的算力被“榨干”,相同硬件下吞吐量显著提升。这意味着企业可以用相同的GPU服务器完成几倍的任务量,大幅降低推理成本。

3,对于英伟达,DeepSeek的工作对于NV来说非常重要,是NV生态价值的重要组成。原本生态就是这样,各种优化、各种创新。之前也有团队做过H的优化,不过效果远不如DeepSeek。

4,对NV的直接竞争对手比如AMD不是好事儿,在“谁好用谁”的自由环境下,AMD即使也做优化,影响也一般。AMD和NV最主要就是输在生态上。

接下来重点聊聊对于国产算力和国内应用的影响:

5,FlashMLA弱表达的方法论要比实际代码更重要,这意味着对国产卡的性能提升也是极重要的推动。FlashMLADeepSeek可在 GitHub 上免费获取,全球的开发人员都能够访问、修改和将这项技术集成到他们的项目以及产品中。

6,具体的,虽然是针对Hopper的优化,但对于国产卡有利好甚至要更大,因为国卡原本就是在性能上弱。我们的现状不是“谁好用谁”,国产卡因为某些众所周知的原因就是一定要用(弱也要用),那么现在可以通过FlashMLA提供的优化思路和方法论,尝试让国产卡大幅提升性能。即使架构不同,但“MLA以及更深的优化走得通而且效果极好”得方法论是没问题的,后面国产卡的推理性能提升将是顺理成章的。

总结:对NV是优化,对AMD是压力,对国产卡是大利好。下一个阶段,因为制程受限的原因,昇腾、寒武纪,都可以在这个思路上搞自己的优化,大幅提升性能,这要比对NV的锦上添花更重要。
小羊铲

25-02-24 14:56

1
卒?萃?
立马弯弓射天

25-02-24 14:48

0
DeepSeek板块萃
 
不动明王

25-02-24 14:44

3
刷新 首页 上一页 下一页 末页
提交