事项:
5月29日,英伟达在
COMP UTEX2023展前发布会上,正式发布了全新的GH200GraceHopper超级芯片,以及基于N
VIDI ANVLinkSwitchSystem驱动的拥有256个GH200超级芯片的NVIDIADGXGH200超级计算机,重点面向开发生成式AI语言应用、推荐系统和数据分析工作负载的下一代模型。国信通信观点:我们从硬件基础设施角度,结合英伟达GH200最新官方指导文件,得到以下几个重要结论:(1)GH200采用两层网络结构,GPU:800G光模块需求比例=1:10.5(2)GH200单卡提供算力处理能力是H100的2倍,同等算力要求下,GH200的800G光模块用量是H100架构两倍以上,800G光模块需求得到明显提升。
英伟达GH200:计算和通信性能全面提升
根据英伟达GH200发布会信息,GH200超级芯片采用了创新方案,其中使用NV
LINK C2C技术将NVVIDIAGraceCPU和NVIDIAH100TensorGPU整合在一个模块上。该技术使得连接速度比传统的PCIe总线速度提升7倍,并减少了5倍互联能耗。通过将CPU和GPU的内存共用,GH200超级芯片供应内存可以达到600GB。对于当下AI部分进展较快的大语言模型训练,对于内存和计算能力、数据之间的通信速度均有较高限制,为了摆脱传统PCIe等方式的限制,英伟达通过自定义的一系列NVLINK技术,提供给用户更高性能方案,具体包括:
1)大内存:256个超级芯片互联得到的GH200超级计算机拥有144TB的内存,可以存储更大规模的模型和数据,内存的大小决定了训练处理速度的快慢。
2)高带宽互联:在A100和H100方案中,NVLINK技术只用于服务器内部8张GPU卡之间的互联,其中A100的芯片互联带宽为600GBps,H100为900GBps。在GH200系统中,每张SuperChip可以视为一个服务器,同时芯片之间的互联变为通过NVLINKSWITCH来完成,使得系统中的每个GPU都可以用900GBps的速度访问其他GPU,带宽得到明显提升,推动通信侧速度快速提升
英伟达GH200:GPU:800G光模块需求=1:10.5
网络结构上,根据英伟达最新官方指导文件(下图3),针对256张超级芯片GPU互联,采用2层网络结构,其中两层网络均采用NVLINKSWITCH来完成搭建,关于交换用量,结合图4所示的具体配置参数可知,第一层(服务器和第一层交换机)之间使用了96台交换机,第二层(Level2)使用了36个交换机。该网络结构依然采用无收敛fat-tree拓扑结构。
NVLINKSWITCH的配置参数为:每台交换机拥有32个端口,每个端口速率为800G。考虑到Level1之间互联距离较短,一般采用铜缆连接,不需要光模块;Level2连接距离较长,需要用到800G光模块
投资建议:
以Chatgpt为代表的AI应用正在得到快速发展,并进行着快速迭代,进而有希望形成赋能多行业的多样化新型应用落地,而以英伟达为代表的GPU厂商通过不断产品迭代推动网络架构升级,GH200更是带来更多800G光模块增量需求。从产业链角度拆解,可关注:
1)光模块及光器件、光芯片环节。结合上文分析可知,以英伟达为代表的AI网络架构升级直接带来行业高速光模块,尤其是800G光模块的快速放量。在光模块环节,国内企业已经占据行业领先地位,可重点关注已经导入海外大客户供应链环节的光模块及光器件厂商中际旭创、天孚通信、新易盛、光库科技;此外光模块上游芯片及器件厂商还包括源杰科技、长光华芯、腾景科技、博
创科技、太辰光、
光迅科技等;
2)ICT设备环节:一个完整可用的网络结构包括服务器、交换机、光模块等多个环节,因此光模块的快速放量可侧面验证服务器、交换机环节增长需求,可重点关注国内ICT领先企业紫光股份、浪潮信息、锐捷网络、
中兴通讯、菲菱科思;
3)IDC环节:AI应用本质上还是通过建好的
数据中心提供服务,同时AI服务器本身功耗较高,对数据中心的温控环节等提出更高要求,带来技术上升级迭代需求,可重点关注温控企业英维克、申菱环境;IDC电源端企业科士达;第三方IDC部分可重点关注奥飞数据等;此外该环节的厂商还包括科华数据、同飞股份、佳力图等。
风险提示:
Chatgpt为代表的应用落地不及预期,参数假设存在偏差,实际行业需求和投入力度不及预期。