今天A股下跌的一个导火线是特停和马斯克发布Grok 3模型,据说在多个性能超过了DeepSeek!
盘后,梁文锋携DeepSeek团队发布重磅论文,比OpenAI关注度都高。这篇新论文提出了一种新的注意力机制 ——NSA。DeepSeek称,NSA是一种可原生训练的稀疏注意力机制,它将算法创新与硬件对齐优化相结合,以实现高效的长上下文建模!
这个新机制,很可能在下一次更新中体现,让我们看到更强大的deepseek。
现在中美都把
人工智能当作国运的竞争,两国在AI大模型竞争白热化;目前大模型进化很快,所以交替领先很正常!作为国运级的产品,我们对DeepSeek要有信心。
【DeepSeek推出NSA 用于超快速的长上下文训练和推理】DeepSeek推出NSA,DeepSeek称,NSA是一种与硬件一致且本机可训练的稀疏注意力机制,用于超快速的长上下文训练和推理。通过针对现代硬件的优化设计,NSA加快了推理速度,同时降低了预训练成本,而不会影响性能。在一般基准测试、长上下文任务和基于指令的推理上,它与完全注意力模型相匹配或优于完全注意力模型。