下载
登录/ 注册
主页
论坛
视频
热股
可转债
下载
下载

穿越人工智能的主线——算力寒武纪

23-07-17 14:23 374次浏览
浙A83K5
+关注
博主要求身份验证
登录用户ID:
算力是智能世界的基础,产业生态和投资图谱逐步清晰
算力是智能世界的基础,基础设施从云向算泛在演进

智能世界三要素:数据、算力、算法是智能世界三要素,其中算力平台是核心基础。 算力两大类:通用算力、 HPC(高性能计算,High-performance computing)算力。其中通用算力计算量小,用于常规应用。HPC算力是一个计 算机集群系统,通过各种互联技术将多个计算机系统连接在一起,利用所有被连接系统的综合计算能力来处理大型计算问题。 算力基础设施从云向算泛在演进,其位置的分布从中心向边缘和端侧泛在延伸,将出现云、边、端三级算力架构。寒武纪 $寒武纪-U(sh688256)$$沪电股份(sz002463)$$中科信息(sz300678)$

AI大模型带动算力需求超越摩尔定律增长

AI模型训练算力增长速度超越芯片摩尔定律。AI 训练任务中的算力增长(所需算力每 3.5个月翻一倍)已经超越摩尔定律(晶体管数量每 18 月翻一 倍)。 ChatGPT仅推出两个月,月活跃用户数预计已达1亿。ChatGPT在2023年1月达到1亿月活跃用户,平均每天有1,300多万访客,用2个月时间达到1亿 月活数,成为史上最快达到1亿月活跃用户的应用,TikTok、Instagram、Facebook、Twitter则分别用了9个月、2年半、4年半、5年的时间。

MR、车载等数字经济 新型应用场景带来新的算力需求

MR的推出更带来对低延时网络传输和底层算力技术升级的需求。虚拟世界需要强大的图像实时渲染能力、计算和存储海量数据 资源,头 显交互设备的出现将进一步增加对云计算边缘计算的应用需求。云计算能将终端渲染逐步迁移至云端,基于规模效应摊低运算成本, 提升服务器使用效率,提升虚拟世界的可进入性。而边缘计算则更能满足实时数据分析需求、缓解中心云的计算负载。 汽车智能化需求持续升级带来数据流量的急剧飙升。随着自动驾驶等级提升,车载信息娱乐系统、长续航电池及5G网络的引入,车辆要 面对的计算量越来越大,网络架构升级、本地实时处理能力、“大容量缓存和存储”规格将成为硬需求。

中美算力布局较为领先,中国智能算力在追赶

智能算力规模和增速亮眼。根据信通院算力白皮书,2021年全球算力增速超过40%,华为 GIV 预测2030 年人类将迎来 YB 数据时代,全球算力平 均年增速达到 65%,其中基础算力平均年增速达 27%;智能算力占大头,平均年增速超过 80%;超算算力平均年增速超过 34%。中美算力在全球属于领先地位。美国、中国、欧洲、日本在全球算力规模中的份额分别为 34%、33%、14%和 5%,其中全球基础算力美国份额达 37%,中国以 26%份额排名第二;智能算力方面,中国、美国分别占比为 45%和 28%;美国、日本、中国在超级计算综合性能指标方面份额分别为 48%、22%、18%。

02基础设备:数据中心加速升级,芯片PCB等上游部件量价齐升
AI服务器采用异构式架构,GPU数量远高于普通服务器。AI服务器和普通服务器的主要区别在于:1)架构不同,AI服务器采用 CPU+GPU/FPGA/ASIC等异构式架构,而普通服务器一般是CPU架构;2)GPU数量差别巨大,AI服务器单服务器GPU用量通 常在 4 颗以上。例如:NVIDIA DGX A100包括8个A100 GPU + 2个AMD Rome CPU,而浪潮英信服务器NF5280M6仅配置 1-2个英特尔 第三代Xeon处理器。 GPU 架构为主流加速架构,是服务器核心成本构成。GPU采用并行计算,适用于处理密集型运算,如图形渲染、机器学等场 景,AI算力需求的提升推动了GPU卡的运算速度和用量需求进一步增长。根据 IDC 数据,2022年GPU加速卡占据AI市场89% 的份额,在机器学型服务器中GPU成本占比达 72.8% 。

高速互连技术开创者,多卡互联优势显著。为实现超算模型的高速通信需求,英伟达 开创式提出NVLink和NVSwitch技术: NVLink主要用于连接多个GPU,以加速高性能计算和深度学等应用;NVSwitch用于连接多个GPU和CPU,形成高性能计算系 统,适用于更复杂和大规模的场景,用户可根据具体应用需求和系统配置来决定使用NVLink或NVSwitch。GH200超级芯片所采 用的NVLink-C2C技术,通过Chiplet工艺将CPU+GPU组合到同一封装,相比于PCIe5在能效方面提升25倍,面积效率提升90倍。CUDA生态不断演进,满足各类行业需求。英伟达依托于CUDA软件栈进行第三方应用及工具的扩展,形成了广义的CUDA生态, 并在此基础上向上扩展出CUDA-X,以对接不同的行业应用需求,分为面向AI计算的CUDA-X AI和面向HPC计算的CUDA-X HPC。

受益大模型热潮,国内AI服务器市场增量明显。 ChatGPT横空出世,引发科技企业大模型竞赛,全球算力需求呈指数级增加,带 动国内AI服务器市场快速增长,以浪潮信息 为主的国内厂家占据国内AI服务器主要市场。 头部厂商持续加单,国内AI芯片需求强劲。全球头部互联网厂商相继入局大模型赛道,以英伟达GPU为代表的算力核心产品订单 暴增,一批中国AI芯片企业立足于不同技术路径开展研发,面向云计算、汽车、智能家居 等领域,国内AI芯片市场同样前景广阔。

大力发展硬件的同时,软件也是及其重要的一环。英伟达不仅在硬件方面具有统治力,在软件平台也具有很强的竞争力,CUDA生 态已成为行业标的。对国内企业而言,兼顾软硬的发展路径至关重要,大力发展算力的同时,国产软件生态的建立刻不容缓。 共建生态开发平台,加速AI芯片落地。寒武纪不仅实现了终端、云端、边缘端产品的完整布局,还为云边端全系列智能芯片与处理 器产品提供统一的平台级基础系统软件Cambricon Neuware,使开发的应用可以在云边端互相兼容,大幅减少云边端不同平台的 开发和应用迁移成本。华为同样致力于“一平台双驱动”为核心的昇腾AI生态,已有200多家合作伙伴经过认证,围绕昇腾的开发 者超30万,其中核心开发者超2000,并在100多所高校开展了昇腾的人工智能课程。

HBM:需求暴增,产能紧缺

HBM内存技术:新型高性能存储产品的竞争与短缺。HBM(High Bandwidth Memory,高带宽内存)是一款新型的 CPU/GPU 内 存芯片,是将多个 DDR 芯片堆叠在一起后和 GPU 封装在一起,实现大容量和高位宽的 DDR 组合阵列。目前 HBM 占整个 DRAM 市场比重约 1.5%,为新型高性能存储产品,处于缺货低库存阶段。SK海力士、三星、美光等存储巨头都在HBM领域展开了升级竞 赛。

SerDes作为底层接口技术,是充分发挥AI硬件算力效能的关键。SerDes是Serializer/Deserializer的缩写,即串行器和解串器, 是目前主流的串行通信技术。通过数据在发送端并转串—串行传输—在接收端串转并,实现芯片间信号的有线传输。相比于传统 并行接口传输,SerDes具有更高的速率(Gbps级)、更低的功耗,以及显著的成本优势,能够满足AI训练&推理等场景下高带 宽、低延迟的数据传输要求,适用于电信、汽车、工业等领域。

PCB及载板:规格加速升级,单机ASP持续上升

OAM卡,是承载GPU加速卡片的PCB板,以NVIDIA DGX H100服务器为例,其可搭载8颗GPU,显著高于普通服务器,因此其PCB用量显著 高于普通服务器。AI服务器的OAM卡需要用更高层数的PCB板,价值量更大。由于AI服务器电路更加复杂,需要更大带宽和更高传输速率,因此OAM需要更高 层数PCB。NVIDIA OAM共两个版本,SXM约需要20层PCB,而Pcle版本层数相对较少; 相比传统服务器,AI服务器的PCB层数更高,单台 PCB价值量大幅提升。 AI服务器的OAM由于芯片性能的提升,对布线密度提出了更高要求。其需要4阶及以上HDI加工工艺,根据靖邦电子,HDI板增加一阶,成本 增加18%左右,因此带动OAM的ASP上升。 目前国内企业鹏鼎控股沪电股份奥士康胜宏科技 等均有领先布局。

交换机:速率需求升级,锐捷和新华三竞争力提升

数据流量快速增长和 人工智能快速发展推动数据中心网络架构转型,有望驱动交换机数量和端口速率上行,高速以太网交换机市场有望 实现强劲增长。根据IDC预测,中国25G端口交换机市场规模到2022年将达到4.4亿美元,而100G交换机市场规模将达到13.87亿美元。 国内交换机市场集中度较高, 锐捷和新华三市场份额提升。根据IDC测算,2022前三个季度新华三、华为、星网锐捷 三家市占率已经超 过80%,国产份额持续保持领先。

03网络连接:算力配套的核心,兼顾800G主线和扩散行情
800G主线:互联带宽快速提升,催化800G模块需求

网络性能是决定AI集群算力效率的核心要素。根据阿姆达尔定律,并行系统节点数越多,而其通信占比越高,对整体系统运 行效率的影响越大。因此AI芯片的互联带宽都需要非常巨大,如H100互联达到了900GB(1B=8bps) 。以Nvidia历代GPU为例,芯片互联速率显著提升,GPU互联速率提升=nvlink自身单通道的升级*link的数量。芯片互联性能持续提升,对于节点外的芯片互联,需要经过数据中心网络,带来网络架构的变革。以Nvidia的DGX H100集 群为例,单节点服务器侧(8卡)接入带宽为3.2T,交换机侧采用32*800G的交换机。

核心要点:1)在非Nvlink组网中,接入带宽是由网卡的速率*网卡的个数决定的。2)Nvidia构建的基本都是无阻塞的收敛 比为1:1的架构。3)实际上Nvidia的推荐方案中部分端口是闲置的,不能直接数交换机端口数。4)对于谷歌TPU、MI300 等,也取决于接入网络的带宽到底是多少,有一个初始值,我们既可以算出不同层数下需要的800G端口数。

数据中心底层硬件,保障高速高质量信号传输。连接器作为连接系统、实现光/电信号传输交换所必需的基础配件,广泛应用于 通信、汽车、消费电子、工业交通、航空航天、军事等领域。传输高速高频数据信号的同时须保证电路阻抗连续性好、串扰小、 时延低、信号完整性高。 数据中心连接新趋势不断涌现,对连接器&线束性能要求持续提升。随着数据中心规模不断扩大、组网模式日益复杂,研发更 快速度、更高密度和更小型化的连接器以及更高集成度的线束成为行业技术发展的趋势。

连接器顺应光模块迭代趋势实现用量增长。根据集成光纤数量的不同,常见的光模块连接器可分为LC接口和MPO/MTP接口, 100G以下光模块多使用LC接口,100G以上光模块则需要光纤集成度更高的MPO/MTP接口(常用2~48芯)。随着光模块速率 从100G/200G向400G/800G跃升,单个光模块的通道数量增加,所需使用的单个连接器的通道密度&分支端连接器数量也增加, 即需要更多的MPO/MTP连接器。

04终端:边缘算力建设加速,MR是最具潜力的Al终端
谷歌PaLM 2全面进化,“大语言模型的小型化”迎重大突破。在谷歌I/O 2023大会上,推出PaLM 2,改进了数学、代码、推理、 多语言翻译和自然语言生成能力。PaLM 2包含了4个不同参数的模型,包括壁虎(Gecko)、水獭(Otter)、野牛(Bison)和 独角兽(Unicorn。其中,PaLM 2最轻量版本Gecko小到可以在手机上运行。小型化模型将打破智能终端性能冗余窘境,终端接口的硬件性能将迎大升级。目前,以手机为代表的智能终端性能冗余,算力需 求基本满足目前应用需求场景,导致终端消费者换机动力不足。而AI大语言模型的小型化发展,将带来智能终端的再升级。在手 机、MR、机器人 等终端应用上内嵌部署AI模型,将迎来终端的核心架构的变化,终端推理计算能力要求将大升级,对应存储、传 输、执行、感知等硬件需求也将同步升级。
打开淘股吧APP
0
评论(0)
收藏
展开
热门 最新
提交