下载
登录/ 注册
主页
论坛
视频
热股
可转债
下载
下载

DeepSeek-V4昇腾首发:基于CANN的训推优化实践

26-04-24 18:34 988次浏览
谁说打板没前途
+关注
博主要求身份验证
登录用户ID:
以下内容基于基于华为技术有限公司官方号整理的内容总结 一、核心合作里程碑DeepSeek-V4于2026年4月24日正式发布,华为昇腾超节点全系列产品同步支持DeepSeek-V4系列模型。这是全球最大规模AI开源模型之一首次在国产芯片上完成从训练到推理的全栈部署,不依赖任何NVIDIA硬件。 二、昇腾950超节点性能突破极低时延推理:实现DeepSeek V4-Pro 20ms和DeepSeek V4-Flash 10ms低时延推理 高吞吐性能:在8K输入场景下,昇腾950超节点可实现: DeepSeek V4-Pro:TPOT约20ms时单卡Decode吞吐4700TPS DeepSeek V4-Flash:TPOT约10ms时单卡Decode吞吐1600TPS 三、底层架构三大升级原生精度加速:全面支持FP8、MXFP8、MXFP4等数据格式,内存占用降低50%+,计算能力翻倍 稀疏访存优化:针对MoE模型的离散访存特征,提升硬件级稀疏访存能力,解决专家路由带宽瓶颈 Vector与Cube共享Memory:创新存储架构设计,消除大量片上数据搬运开销 四、训练侧优化实践昇腾CANN基于A3 64卡超节点完成DeepSeek V4-Flash模型续训练的0-day适配支持,通过三大系统级优化实现开箱即优:
优化维度
具体内容
性能收益
分布式并行架构
超节点亲和的大EP + 纯FSDP极简并行策略
内存占用最优,易用性与性能均衡
原生“入图”与自动融合
TorchTitan-NPU适配torch.compile机制
整网性能提升31.8%
稀疏Attention融合算子
开发SparseAttnSharedkv、LightningIndexer等高效NPU算子
实测吞吐最高1100 tokens/p/s
五、开发范式创新PyPTO编程范式:提供完善的Python API,使算子开发周期缩短至天级 PTO ISA虚拟指令集:实现跨代芯片兼容,同一套算子代码在不同代际芯片上兼容运行 TileLang-Ascend:针对华为昇腾平台深度优化的实现,提供多层开放接口 六、工程意义与部署优势技术突破:这是CUDA生态向CANN生态切换的真实、有量级的框架迁移实验 部署简化:DeepSeek-V4-flash可完整部署于一台华为Atlas800八卡服务器,告别集群架构,硬件成本大幅下降 商用成熟度:昇腾超节点是国内唯一成熟规模商用的超节点产品,满足各行业对大模型推理的极致性能需求 七、解决的核心技术挑战视频展示了如何攻克从CUDA到CANN迁移的三大难题: 算子精准映射:确保运算精度零偏差 分布式通信优化:依托昇腾UB灵衢互联协议满足万亿参数模型高通信需求 内存架构适配:实现算力与存储最优配比 这次合作标志着中国AI技术栈在算力自主化方面取得了实质性突破,为国产大模型的规模化应用提供了坚实的底层支撑。 以下内容AI总结的: DeepSeek-V4在华为昇腾芯片上的首发,标志着中国AI产业进入了一个全新的发展阶段,其意义远超单纯的技术适配,而是涉及技术、产业、地缘政治和经济等多个维度的系统性变革。 一、技术突破:从“能用”到“好用”的质变性能里程碑:昇腾950超节点实现DeepSeek V4-Pro 20ms和V4-Flash 10ms低时延推理。在8K输入场景下,单卡Decode吞吐达4700TPS,推理速度较初期适配版本提升35倍,成本仅为GPT同等服务的十分之一。 全栈自主:这是全球最大规模AI开源模型首次在国产芯片上完成从训练到推理的全栈部署,不依赖任何Nvidia硬件。华为CANN框架已实现超95%的CUDA代码兼容,配合一键迁移工具,代码重构从“按月计”缩短到“按小时计”。 架构创新:DeepSeek-V4在设计之初就考虑了多平台兼容性,其细粒度专家并行方案已在英伟达GPU和华为昇腾NPU两个平台上完成验证。模型采用mxFP4精度,更适配华为昇腾等国产算力。 二、产业生态:构建自主可控的AI技术栈“去CUDA化”里程碑:这标志着中国AI产业在摆脱对CUDA生态依赖上迈出了实质性一步。首次实现了“国产芯片+国产模型+国产框架”的完整闭环,真正实现了算力自主、模型自主、生态自主。 生态成熟度验证:华为昇腾2025年在国产AI芯片中出货量最大,预计2026年也将成为中国市场出货量最大的国产AI芯片。昇腾950超节点是国内唯一成熟规模商用的超节点产品,满足各行业对大模型推理的极致性能需求。 开发范式创新:华为提供PyPTO编程范式,使算子开发周期缩短至天级;PTO ISA虚拟指令集实现跨代芯片兼容;TileLang-Ascend针对华为昇腾平台深度优化。 三、地缘政治:验证“硅幕”政策的逆向效应黄仁勋的警告成真:英伟达CEO黄仁勋曾警告:“如果DeepSeek先在华为平台上发布,那对我们国家来说将是灾难性的。”这一预言如今成为现实。 出口管制的逆向效应:美国的出口管制政策非但没有遏制中国AI产业,反而加速了其内部整合。当DeepSeek这样具备顶尖软件能力的公司无法获取英伟达最强芯片时,选择与华为昇腾深度耦合成为必然。 技术代差被抹平:中国在7nm节点上通过极致的软件优化实现了与美国3nm乃至更先进制程同等甚至更强的AI推理表现,美国在硬件节点上的代际优势被悉数抹平。 四、经济影响:重塑全球AI成本结构价格革命:DeepSeek官方明确表示:“受限于高端算力,目前Pro的服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro的价格会大幅下调。”这意味着Pro级别的模型可能会降至目前轻量级模型的价格区间。 成本优势:在昇腾950PR上,V4单卡推理性能达到英伟达特供版H20的2.87倍,推理成本仅为GPT同等服务的十分之一。 市场格局重塑:DeepSeek近日启动首轮融资,目标估值已从此前至少100亿美元推高至200亿美元。华为昇腾的市场份额持续攀升,行业地位不断巩固。 五、长期战略:从“安全备胎”到创新平台战略转型:国产AI芯片的角色正在从简单的“安全备胎”转向提供商业性价比,最终迈向创新平台。这标志着中国从“为安全买单”转向“提供商业性价比”的进化之路。 产业目标:成功的标志不应是简单的参数对标或替代比例,而是能否最大化降低应用创新与获取用户的边际成本。目标不是造出“中国英伟达”,而是让算力便宜到足以催生一批世界级、外国无法复制的AI原生应用。 全球供应链重构:这一事件将加速全球供应链重塑和技术标准体系分裂,中国庞大的市场规模、完整的产业体系以及持续提升的科技创新能力,使其成为全球科技企业寻求合作的重要对象。 六、未来展望:开启AI普惠时代技术普惠:随着国产算力效能的爆发,Pro级别的模型价格大幅下降,对于国内众多的SaaS公司和Agent开发者来说,无异于一场普惠的及时雨。 应用创新:更低的推理成本和更高的性能将催生更多创新应用,特别是在医疗、教育、金融等关键领域。 全球竞争:中国AI产业通过这次合作展示了从算法到硬件的全栈能力,将在全球AI竞争中占据更有利的位置。 总结:DeepSeek-V4在华为昇腾上的首发不仅是一次技术适配,更是中国AI产业自主化进程中的关键转折点。它验证了在外部压力下,中国科技产业能够通过系统创新实现突破,为全球AI发展提供了新的路径选择。这一事件的影响将深远而持久,重塑全球AI产业格局。
打开淘股吧APP
16
评论(9)
收藏
展开
热门 最新
谁说打板没前途

26-04-30 20:15

3
早就新高了,目前没发现啥中长线性价比很高的
让我挣点

26-04-30 20:02

0
板哥,有上班族可以关注的票票吗,有的话辛苦推荐一个,谢谢板哥,祝板哥5月份账户新高
谁说打板没前途

26-04-30 13:02

1
啥意思?这是华为在B站发的视频内容,只是把内容转换成文本,然后用AI模式总结的,你啥意思?
尤其拉

26-04-30 12:32

0
真说的出口,市场按照你的思考运动比国外落后半年
熊先生的熊

26-04-28 13:28

0
板哥,我套在浙文互联里面了。哎!好煎熬
络绎不绝之灵

26-04-24 20:07

1
今天排了深圳华强,希望周一有口肉
谁说打板没前途

26-04-24 20:04

5
反正看了这个视频最重点的一个就是不依赖任何英伟达硬件做出来的,感觉很屌。
谁说打板没前途

26-04-24 19:59

2
这周重仓浪潮信息就是看好这个发布,还有浪潮信息业绩非常亮眼,这几天就做做t一直没跑
一身轻

26-04-24 19:37

0
中午买了杭钢,就是奔着周末发布,没想到中午发布,好嘛,下午直接被兑现了,也是服了
刷新 首页上一页 下一页末页
提交