下载
登录/ 注册
主页
论坛
视频
热股
可转债
下载
下载

2025 AI+

25-01-25 23:09 13576次浏览
挑灯看经
+关注
博主要求身份验证
登录用户ID:
打开淘股吧APP
8
评论(2250)
收藏
展开
热门 最新
挑灯看经

25-02-04 21:02

0
为什么中长期对算力的需求还会有大幅增长?

回答问题之前,先聊聊为何这次DeepSeek的关注度那么高,以及为何相关公司反应会那么大吧;

主要原因,一方面是确实降本了,另一方面是因为它是中国的公司,做出了出色的模型,但更重要的是它开源了;

但降本这事在美国也其实也在发生,比如近期谷歌的 Gemini Flash 2.0 Thinking模型,这个模型已经可以使用,而且比 R1也便宜,甚至通过 API 为模型提供了更大的上下文长度;所以单纯在预训练降本这点不是构成未来算力减少的必要条件;

而因为中国的公司做出了出色的模型,这导致了AI主权之争的天平出现一些反方向的些许摇摆,因为之前大家普遍认为中国人工智能模型落后在6到12个月,而从现在o1和R1发布的时间看,可能就在3到6个月左右了;

原本,美股AI相关公司由于领先幅度较大,拥有AI霸权溢价,而现在发现,嘿,后面的追的还挺紧的,所以这个AI霸权溢价率会收窄一些,所以美股科技股尤其是硬件端的一开始反馈很强烈,如NV可能也会涉及到后面会不会连H20及更多转口渠道也给禁了(这会影响部分业绩预期),而美股科技股的调整也带动国内一些前期相对高位的AI映射股跟随调整;

资本市场向来是一个群体的预期游戏,在此之前,市场的预期过于一致或线性,也因此导致了此前美股和A股相关映射股的强势,但资本市场又是一个对于市场“意外”因素或者说“边际变化”极为敏感的地方,你说真的是DeepSeek的出现一夜之间让GPU变得多余吗?肯定不是;而是这次DeepSeek这个因素的出现打破了原本过于线性和一致的预期,这才是调整的主因;
一致预期被打破后,短期情绪该宣泄就宣泄,但回过头来,市场长期的价值其实还是得看未来的需求和业绩预期;

这就又不得不聊到开源了,因为在R1 的发布之前,Meta 之外,几乎所有顶尖模型都以 API 形式封闭提供,限制了研究者与开发者的深入探究和二次利用;

DeepSeek的开源将加速国内大厂技术进展,降低中小企业进入大模型领域的成本,并且利好Agent、端侧、推理算力的产业进展,推理成本崩溃是人工智能进步的标志,事实上,成本下降本来就沿着它该前进的方向在走,Anthropic 公司首席执行官达里奥认为,算法进步的速度更快,可以提高 10倍。至于 GPT-3 质量的推理价格,成本已经下降了 1200 倍,这种现象在GPT-4中也可见,无非就是这次是DeepSeek实现了;
挑灯看经

25-02-04 20:59

0
再比如:

PTX技术:

这是一种用于信号处理和通信系统中的技术,绕过了 CUDA ,PTX直接作用于裸金属,在资源限制下,把GPU的性能发挥到极致,也算是倒逼出来的东西;

PTX 技术就像是一个聪明的厨师,他能够根据厨房的具体情况和菜品的复杂性,灵活地调整每个步骤的比例和顺序。比如,如果发现某个菜需要更多的调味,他会提前准备好调味品,或者在炒菜的过程中及时调整调味的步骤。如果某个菜需要更长的时间来炒熟,他会提前开始炒这个菜,而不是等到所有菜都切好才开始。这样,他就可以更高效地利用厨房的资源,减少浪费,提高整体的烹饪效率。

在 PTX 技术中,GPU 就像是厨房,PTX 算法就像是这位聪明的厨师。他能够根据 GPU 的硬件特性,灵活地调整每一个任务的步骤和顺序,从而更高效地利用 GPU 的资源,提高算法的性能和效率。

且其因为具备自学能力,不需要过多标准化的数据输入,数据量可以适当降低,加上其是用FP8混合精度进行训练(证明了FP8能用),这也提升了训练效率;

所以,在这些工程和算法的双向优化下,虽然没自媒体说的那么夸张,但成本确实是下降的,且R1也确实是一个优秀的模型,这也是事实;

至于大家所说的蒸馏,其实这在硅谷是一个公开的秘密,其他大模型也或多或少都有蒸馏OpenAI的,包括OpenAI 自己也曾被抓到过“偷窃”其他人的内容,所以这一点倒是也不用去过分解读;

对算力需求有影响吗?什么影响?Why?答:DeepSeek 事件,对于算力中长期的需求,必然是增长的;

短期的叙事是,市场认为:噢,原来预训练一个相当不错的大模型成本原来还是能这么继续降低啊,所以,市场按照表象去交易就是不需要这么多算力了,所以算力股跌,尤其是卖铲子的NV在事件冲击第一天一度跌了16个点;

但事实真的就如此简单吗?

显然不是
挑灯看经

25-02-04 20:56

0
作者:米格星球的小星星

2025-02-04 16:28

  ds无疑是这个春节假期最火的话题,讨论量爆棚,新闻也是铺天盖地…有真知灼见,也有为了流量蹭热度的标题党,争论非常多,但很多也是一脸懵,

  所以

  大致梳理下:吹的最夸张的一点,很多媒体声称这一切只花了六百万美元,只有两千多个GPU,相对比,GPT4o的训练成本大概在1亿美金;但实际的情况是,参考某专家的表述:600万美元成本只是正儿八经训练模型的成本,试错、数据准备等之前的沉默成本(包括V1、V2阶段)都没算进去,现在只算了V3相关的58天真正训练的成本;

  在 V3 的基础上进一步优化的R1的成本应该是要这个600万美金加上之前的V1、V2阶段的成本再加上在V3基础上的优化成本,所以很多媒体说的只要六百万美元,这个仅仅是预训练运行的 GPU 成本,只是模型总成本的一部分,但在很多自媒体标题党的传播下,可能很多人就会不自觉以为就只要这么多成本,这是一点;

但成本的降低,这个也确实也是毋庸置疑的;

而在降低成本的过程中,通过算法与工程结合,也确实做了一些创新,比如:

GRPO算法,它是PPO算法的一种变体,GRPO 的核心思想是通过群体相对奖励来优化策略,就像老师批改作业时,不再给每道题打分,而是直接比较一组作业的优劣。这样不仅省时省力,还提高了效率,节省了资源;
挑灯看经

25-02-04 20:20

1
我是瞄着ai+进去的,没想到节前蒙到了一字板
也是瞄着ai+进去的,节前冲高19cm跑路了

女流氓360和数学家我思故我在,节前最后一个交易日爪子痒,一鱼二吃害了我
挑灯看经

25-02-04 20:04

1
节前最后一个交易日

大长腿屁股翘起来的时候,我扔了

然后,一鱼二吃,再摸小短腿,踢出去

尾盘,又回了大长腿

一天,子弹飞了三圈
挑灯看经

25-02-04 19:59

1
ai

我以为你拿了女流氓360,没想到,你喜欢大长腿

深得了我的  色
挑灯看经

25-02-04 19:27

0
挑灯看经

25-02-04 19:22

1
网传

50名特警保护deepseek回家过年

科技的荣光,上一次是钱学森
挑灯看经

25-02-04 19:20

0
挑灯看经

25-02-04 19:09

0
山高我为峰

就是这么的霸气
刷新 首页 上一页 下一页 末页
提交