Q1:以阿里为例,其3800亿投资构成中,哪些部分需要组合自建且比例超过400?投3800亿后,在
云计算相关的自建、
数据中心、算力、设备更新研发等方面的构成以及租赁比例如何(今年比例更多在算力需求上)?
A1:关于阿里3800亿投资构成中哪些部分需要组合自建且比例超过400,目前没有确切信息表明。
在投3800亿后,就今年来看,在
云计算相关方面,算力需求占比更多,大概至少70%在算力本身的开发市场,不到30%在IDC这块基建上。这是因为云端推理测的算力需求快速增长,所以今年不会把大部分资金投入到数据中心建设上,毕竟数据中心生产周期短则6个月,长则18个月。而在算力投入方面,如果采买不到,可能会选择合作方式,这种合作方式也会算在70%的AI服务器投资里。
明年可能会有一定比例的自建或合建的数据中心的新带动,例如随着国产卡生态成熟,可能会有新增数据中心的自建或合建,但规模一般不会很大,可能在10万台规模,并且可能会在二线城市或环一线城市展开数据中心建设。
Q2:您刚才提到的10万台的费用大概需要多少资本开支?
A2:如果是10万台的数据中心(不算服务器),自算的话,加上服务器差不多需要90亿到100亿左右的资本开支,这里包含了成本以及一些配套的基础设施之类的。
Q3:云厂商从东南亚(如新加坡)采购H100大概是什么价格?
A3:不太清楚从东南亚(如新加坡)采购H100的具体价格,但推测可能比从国内
英伟达 供应商渠道拿卡要稍微便宜一点,因为目前英伟达渠道供应商的卡价已经被推得很高了,而且H20的订单本身也很紧张,可能是一些存量的卡。
Q4:如果有人担心没有渠道采购大量的卡(如华铁资本计划投入100亿采购卡),您怎么看?云厂商在采购芯片时是否存在订单不知如何下的问题?如果其他公司有能力拿货接订单,头部云厂商是否愿意下给他们?
A4:有人担心没有渠道采购大量的卡是正常的,云厂商在采购芯片时确实存在订单不知如何下的问题,例如今年头部云厂商在AI服务器这块投资上千亿,但在采购芯片时就存在这样的困扰。
云厂商可能会选择与近10个算力平台合作,让这些平台各自采买卡,这样可能比云厂商自己采买更方便。
并且如果其他公司有能力拿货接订单,作为头部云厂商是愿意下给他们的。
Q5:上海的竞争格局如何?是否竞争不激烈?
A5:在上海,以华铁和宏景(类似名称)为例,它们的业务模式是与同品厂商合作,提供AI训练和推理服务器(主要是H20),还会提供一些机柜给云厂商,也涉及运维。大家都会做这些业务,并且卡可能更大比例倾向于英伟达的卡,国产卡比例不高,整体竞争格局不太明确是否激烈。
Q6:华铁做业务的利润率处于什么水平?
A6:华铁做业务的利润率估计比普通计算中心通过公开租售的利润率稍低一点,大概在30-40%之间,不会更高。
因为华铁是上市公司平台,可以较低成本拿到融资,30-40%的利润率已经较好。
Q7:国内头部云服务商招标的节奏是怎样的?例如阿里今年的金额是否在1200-1500这个水平?贸易市场今年开发了什么?云服务对外发订单的总体体量以及招标时间点大概是什么情况?
A7:不太清楚国内头部云服务商招标的节奏以及招标时间点。
关于阿里今年的金额是否在1200-1500这个水平也不确定。
对于贸易市场今年开发了什么也没有确切信息。
只知道华铁预计为云厂商提供3000-4500张的GPU卡商业支持。
Q8:华铁今年为云厂商提供GPU卡的具体数量是多少?是否是4500张h20?对应的订单或投入金额大概是多少?这是今年的情况吗?h20卡是否10万块钱一张?开支是否大概需要62个亿?是否按4500张卡计算?投资是否分三年?
A8:华铁今年为云厂商提供GPU卡至少接近4500张,主要是H20,也有H100。
对应的投入金额,仅4500张H20卡加上服务器估计能超过12亿。
H20卡的价格大概在10-12万之间,如果是4500张H20芯片再配到服务器里面,开支大概需要62亿(按4年折旧分摊计算)。
这是今年的情况,华铁的总投入目标是未来三年到100亿左右,投资是分三年的,例如可能是40亿、30亿、30亿这样的投入分布。
Q9:这样的生意对华铁来说不错吧?但不知道利润率怎么算?
A9:这样的生意对华铁来说是不错的。
一张卡从成本到回本大概在1.5年到两年的样子。
如果按照4年折旧来算,在大模型火的23-24年的时候,毛利率可以一度冲到将近48%。
在计算利润率时,可以按照折旧去算成本,前两年利润率可能较高,例如能达到80%,但随着时间推移,卡的利用率可能下降,第四年、第五年之后利润率可能降为20-30%,不过华铁肯定是有净利润的,只是具体计算方式不太清楚,以上仅供参考。
Q10:除了之前提到的,头部的几家云厂商在算力方面的需求您都清楚吗?因为推理卡需求多所以推理卡量就上来了,对吗?但采买推理卡的上游渠道是否受限?
A10:除了阿里,像字节跳动,其算力保有量不是特别多,大概有三四万张,他们也在跟润泽等外部算力公司合作,租赁物理集群放置推理卡集群,而训练集群自用。
字节跳动今年开发投入较高,但在开发比例上,不像头部云厂商有70%放在AI服务器本身,可能很大一部分比例放在建设数据中心定制机房这一块,其英伟达卡的购买量相对少一点,国产卡下订单蛮高,估计至少15-20万张,英伟达卡接近10万张。
腾讯开发投入整体超过600亿,其中30%放在基建,70%在服务器一侧(这里的服务器包含CPU服务器,但CPU服务器占比10-15%,剩下基本是AI服务器,AI服务器占整个服务器投资的85-90%,在AI服务器里,训练占20-30%,推理占70-80%)。
因为推理卡需求多,所以推理卡量就上来了,但采买推理卡的上游渠道受限,国内比较成熟的如华为
寒武纪 ,还有壁仞、摩尔线程、沐曦等量产有限且在自配上可能存在问题,虽然有新的开源框架可以优化国产芯片解码,但整体还处于起步阶段。
国内依赖的芯片主要是华为寒武纪,海外主要是英伟达,云厂商也自研推理芯片,但会受限于上游代工,例如三星。
所以今年云厂商与外部算力合作是一个明显趋势。
Q11:在阿里的算力服务租赁和提供商中,绿通电子、
润建股份 、宏景等几家在阿里里面份额比较高的是哪几家,大概是什么水平?
A11:在阿里的算力服务租赁和提供商中,杭钢、宏信在份额上相对较高,杭钢在外部合作里能占到20%-30%的份额,宏信估计差不多也有20%。宏景估计能占到10%-15%的份额,华铁今年来看估计至少有20%。红线电子主要服务阿里,润泽比例相对低些,大概在百分之十几不到20%,其主要服务字节、deepshake和国内其他大模型公司。润建服务更小,主要为头部云厂商做边缘节点和小型数据中心的服务。
Q12:咱们跟华铁的合作签了几年?是否了解华铁今年的交付节奏?今年年底是否要把4500张卡交付完?后面两年是否大概率还是这种合作模式(是否考虑了政策因素)?
A12:与华铁的合作签了三年。
华铁的交付节奏是陆陆续续进行的,估计在七八月份会交付一批,承诺在年底前交付接近4500张卡以及一些机柜资源,目前已经开始陆续交付了。
关于4500张卡,华铁今年可能也就差不多投入这么多卡,其三年投资里估计总共投入不到2万张GPU卡(1.7万张或者1.5万张),且大部分由头部云厂商使用。
后面两年大概率还是这种合作模式,这里面也考虑了政策因素,例如华铁数据中心放在海水中的海底智算相关的能耗问题,以及将来跨境数据等,从目前来看这是比较长期的合作。
Q13:可以讲一下云厂商自研的芯片吗?例如
百度 的昆仑芯在训练端的使用情况,其他云厂商自研芯片的类型、代工情况、相关公司情况以及在训练和推理方面的应用等?
A13:云厂商自研芯片方面,百度的昆仑芯支持训练和推理,并且是放在百度自己的数据中心使用,与百度自己的机器学平台和Pad深度软硬件协同,不过其他云厂商较难使用昆仑芯二代、三代等产品。
其他云厂商自研芯片主要分两种,一种是arm架构CPU(这里不多阐述),另一种是推理芯片。推理芯片一般为12纳米,功耗比较低,可对标英伟达的t4,目前由三星代工。像阿里的芯片公司平头哥,除了做航空800支持云上深度适配和推理端调用外,还在做开源或者IP的软硬盒RISC-V相关事务,其玄铁910芯片将来可能做成低功耗边缘推理、低延时且适配不同场景(如
边缘计算等)的推理芯片。
整体来看,国内云厂商在训练芯片投入比较深入的是百度,字节已放弃芯片研发,腾讯芯片研发不温不火,23年发布的几款芯片内部采用率较低。而阿里云在芯片方面投入较多,不光做CPU和推理芯片,还做自己的芯片设计平台,支持RISC-V芯片二次定制,这会使芯片推理侧产业链更加多元化。另外,DS发布的FlashMLA开源框架针对英伟达架构优化解码内核,可适配国产芯片指令机,摩尔线程介入后性能飙升,这对国产芯片是个好消息。
Q14:签三年的合作,价格是一次性确定好,还是三年内不定期会调整?
A14:签三年的合作,价格框架是确定好的,但不是一次性把钱完全付完。它类似一个开口框架,每年会按照实际投入资源的使用量来付款,例如如果没有供应约定的算力,就不会付那么多钱。
Q15:云天力飞的卡可以做推理计算吗?有没有跟大厂合作?
A15:云天力飞的卡可以做推理计算。
目前有几个大厂在跟他们做验证,包括头部云厂商,与他们有比较深度的合作。
Q16:对海底数据中心怎么看?
A16:对于海底数据中心,一方面可能考虑跨境相关事务,像海南、新加坡等地都有类似情况。另一方面与能耗相关,海底数据中心的数据仓相当于小型数据中心,集成了风火水电、液冷等,对稳定性和
数据安全更有好处,在沿海可能有很大需求,其PE值更低,散热方面对环境污染小(主要是散热)。不过目前整个成本还是比较高的,华铁今年可能会推出很多这样的ID数据仓概念。
Q17:可以讲一讲寒武纪的产能吗?
A17:寒武纪的产能比较紧张。其需求侧压力很大,订单产能压力也大,很多订单去年下半年就已确定,今年新增订单能力有限。寒武纪本身的代工方面,手里虽有之前存量的加工好的晶圆,但今年很多加工交给中心,中心的量产可能也会有影响。从大厂角度看,下订单估计排到第二季度、第三季度了。(转自:纪要研报地)