Deepseek产业链交流要点(仅供更新参考):
1、定位目标:打造中国最强的开源大模型,DeepSeek-V3目前参数规模670亿,商业化不是目前激进方向;
2、投入:训练不到2个月,花费不到600万美元,完成DeepSeek-V3的训练,25年整体资本开支5-6亿;
3、同行对比:DeepSeek还是属于大语言模型,跟ChatGPT、豆包的训练本身不在一个量级。现有的豆包或者智谱、KIMI、阿里通义千问,deepseek的逻辑推理能力还是强于它们,但是推理过程中情感化较弱;
4、算力情况:2024年A100 1000张,H800 3300张,H20 2000多张,910B 1000多张,2025年继续采购910C、H800、H109和A100,整体规划5000多张(华为910C 2000张);
IDC:
润泽科技廊坊今年提供了3000多个机柜;光模块交换机锦航科技;服务器
浪潮信息,
中科曙光;除了华为外,未来推理端可能用到
寒武纪;
5、推理侧:A100大概有4000多张卡,H800大概有2300张,大概有2000张H20,3090也有一部分;
6、token收费情况:输入0.0001元/千token,输出0.016元/千token;日均调用量在30多亿;
7、产业链合作:教育:
科大讯飞;金融:
拓尔思;办公:
金山办公;其他:
海天瑞声、
卓创资讯、
博彦科技、
法本信息.
中科软;
8、模型升级:DeepSeek-R1是在DeepSeek V3基础上蒸馏推理,总共花费230万美元,未来会采用多token的预测目标MTP形式,继续提升模型效率,202504多模态能力可能突破;
9、商业化构想:(1)售卖token、售卖API接口,(2)本地化私有部署,初步按45万/套/年的定价,支持中小企业客户的私有化应用,(3)跟行业,比如金融、教育联合推出AI应用。
10、token代理:目前接触
并行科技、竟业达。
By zyy.