DeepSeek与豆包谁更强？_热点题材看技术

热点题材看技术

+关注

博主要求身份验证

登录用户ID：

1、DeepSeek属于大语言模型，而豆包属于多模态大模型。22因此在算力需求上本身不在同一数量级。2、deepseek v3算力用的少，主要是通过激活参数少、把精度降低实现的(16位变8位)，这是在不断改进基础大模型，而r1是在v3这个基础模型上，又花了大量算力去让他推理能力更强。而豆包属于基于前期大语言模型训练的同时，基于训练其他图片/音频/视频等模型能力，且训练和推理仍在持续。#相当于DeepSeek做减法、豆包做加法。除了基础的体验外，也去Github上学了他的Technical Report。不得不说，DeepSeek是颠覆式的大模型，在MMLU-Pro等大模型测试上，和全球巨头站在同一身位。
于此同时，市场也关注到了DeepSeek的一些参数（训练时间是LIama 3的1/11；价格是Claude 3.5的1/11），不少人担心训练侧大幅降本，引发算力需求下降。我们认为，DeepSeek V3的成功，并不意味着算力需求下降。实际上是DeepSeek参数有歧义，才造成了市场的误读。从训练到推理、算力需求持续增长DeepSeek V3的训练成本仅考虑单次训练，而实际大模型的训练需要：1）大量高质量数据的合成及清洗；2）充分的预训练；3）多个MoE专家模型的多次训练AI应用和AI终端的落地节奏正在加速，推理侧将带来远超训练侧的算力需求，我们测算仅字节豆包未来就需要50-100万张等效H100算力需求。公开数据增速无法匹配大模型发展需求，预训练的Scaling Law已结束，采用私域高精度数据进行垂直领域专家大模型的训练将成为Scaling Law 2.0；结论:#DeepSeek是国产大语言模型之光(重视合作方和生态)；豆包是国产多模态大模型之光(重视算力底座和端侧应用落地)。
DeepSeek建议重视:股权合作:浙江东方、华金资本生态合作:每日互动、卓创资讯豆包建议重视:云侧算力:润泽科技、东方国信端侧算力:广和通、移远通信、润欣科技算力上游:乐鑫科技、翱捷科技算力基础:中兴通讯、兆易创新。

打开淘股吧APP