Deepseek的成功可以从成本和智能两个方面来分析:
成本优势源于采用MoE架构:
MoE架构其实是一个已被采用多年的架构,而Deepseek对MoE架构进行了改进,使其效率更高,智能程度也有所提升。一个典型的例子是,马斯克的模型也使用了MoE架构(但Deepseek的MoE架构更为先进)。
一个重要的点是:GPT-4被广泛认为是MoE模型,因为其参数量过于庞大,若采用传统架构,很难高效运行。
智能表现:
Deepseek令人震惊的地方在于其智能水平可以与OpenAI最好的模型相媲美,这主要归功于R1——基于强化学的思维链技术(这一部分属于微调,消耗的算力相对较少)。
也就是说,在成本方面,Deepseek并没有超出预期,但在智能方面却远超预期。
尽管如此,这对于算力产业链来说确实是一个实打实的利空。在此之前,MoE模型(低成本模型)从未能媲美OpenAI的旗舰模型。巨头们更关注数据量和算力规模,其战略几乎没有降本增效的概念,更多聚焦于如何用更大的数据和更科学的训练方式来优化同架构模型。
而现在,Deepseek在算法上的突破正在改变这一现状,这可能会暂时延缓
数据中心的建设——尤其是Meta等巨头此前完全不关心算法创新,只追求"大力出奇迹"。未来它们可能会对算法工程师们无穷无尽的算力需求采取更谨慎的态度。
补充说明:
有人用LLaMA(Meta的模型)的训练成本和GPT-o1的推理费用来对比Deepseek的训练和推理费用,这是比较滑稽的。因为LLaMA是出了名的资源消耗大户,其LLaMA 3并没有比LLaMA 2聪明多少,但算力消耗却整整多了7倍。GPT-o1之所以那么贵,是因为它是目前世界上最聪明的模型,属于垄断带来的溢价。
技术细节补充:
如下图所示,Deepseek R1的推理速度为14 token/s,但GPT-o1的推理速度却高达70 token/s。从吞吐量上看,GPT-4的推理成本可能还低于Deepseek R1。
这并不是因为OpenAI有最好的显卡所以吞吐量高——DeepInfra也拥有最好的显卡,但它部署的Deepseek R1推理速度只有3.74 token/s(因为Deepseek的模型架构复杂度较高,需要专用推理引擎优化)。
结论:
在大模型训练阶段:deepseek的出现不会导致现实中算力需求的减少,因为moe是架构其实大家都在用,甚至有人认为其发明者就是openai。但是deepseek的出现可能会导致投资人重新审视大模型对算力的需求,因为已经有一个成功案例显示meta那种大力出奇迹的方式并不是唯一的道路。
在大模型部署阶段:深度思考模式(思维链)会输出非常长的文本,大模型输出长文本其实是非常贵的(可以在下面的图中看到,output费用是input的4倍),所以一旦这种自带思维链的模型在全世界普及,其实对算力的需求只增不减。