下载
登录/ 注册
主页
论坛
视频
热股
可转债
下载
下载

DeepSeek与豆包谁更强?

25-01-28 08:52 2209次浏览
热点题材看技术
+关注
博主要求身份验证
登录用户ID:
1、DeepSeek属于大语言模型,而豆包属于多模态大模型。22因此在算力需求上本身不在同一数量级。2、deepseek v3算力用的少,主要是通过激活参数少、把精度降低实现的(16位变8位),这是在不断改进基础大模型,而r1是在v3这个基础模型上,又花了大量算力去让他推理能力更强。而豆包属于基于前期大语言模型训练的同时,基于训练其他图片/音频/视频等模型能力,且训练和推理仍在持续。#相当于DeepSeek做减法、豆包做加法。除了基础的体验外,也去Github上学了他的Technical Report。不得不说,DeepSeek是颠覆式的大模型,在MMLU-Pro等大模型测试上,和全球巨头站在同一身位。
于此同时,市场也关注到了DeepSeek的一些参数(训练时间是LIama 3的1/11;价格是Claude 3.5的1/11),不少人担心训练侧大幅降本,引发算力需求下降。我们认为,DeepSeek V3的成功,并不意味着算力需求下降。实际上是DeepSeek参数有歧义,才造成了市场的误读。 从训练到推理、算力需求持续增长DeepSeek V3的训练成本仅考虑单次训练,而实际大模型的训练需要:1)大量高质量数据的合成及清洗;2)充分的预训练;3)多个MoE专家模型的多次训练AI应用和AI终端的落地节奏正在加速,推理侧将带来远超训练侧的算力需求,我们测算仅字节豆包未来就需要50-100万张等效H100算力需求。公开数据增速无法匹配大模型发展需求,预训练的Scaling Law已结束,采用私域高精度数据进行垂直领域专家大模型的训练将成为Scaling Law 2.0;结论:#DeepSeek是国产大语言模型之光(重视合作方和生态);豆包是国产多模态大模型之光(重视算力底座和端侧应用落地)。
DeepSeek建议重视:股权合作:浙江东方华金资本 生态合作:每日互动卓创资讯 豆包建议重视:云侧算力:润泽科技东方国信 端侧算力:广和通移远通信润欣科技 算力上游:乐鑫科技翱捷科技 算力基础:中兴通讯兆易创新
打开淘股吧APP
7
评论(0)
收藏
展开
热门 最新
提交