DeepsSeek可能推出新版本NSA，效率提高十一倍_宏运长久

宏运长久

+关注

博主要求身份验证

登录用户ID：

2月18日，DeepSeek在社交平台X上发布了一篇关于NSA的纯技术论文报告。

DeepSeek称，NSA是一种与硬件高度适配并可原生训练的稀疏注意力机制，实现超高速长上下文训练与推理！
NSA的核心组件包括：动态分层稀疏策略、粗粒度的Token压缩、细粒度的Token选择。
DeepSeek称，通过针对现代硬件的优化设计，NSA在提升推理速度的同时降低预训练成本且不牺牲性能。在通用基准测试、长上下文任务以及基于指令的推理中，NSA的表现可媲美甚至超越全注意力模型。据分析效率可能提高十一倍。

因为是新东西，网上找不到相关的内容，尤其涉及的上市公司
不过还是以注意力机制为目标的，有理由认为过去做MLA的更可能参与到NSA的研发中
这样的上市公司有两家：

DeepSeek：以多头潜注意力（MLA）为核心模型，不仅显著降低了推理成本，还成功集结了150多位顶尖人才，其DeepSeek-V3模型在知识问答、代码生成和数学能力等方面表现卓越，在全球123个国家的下载量登顶。
• 飞利信：是市场上采用MLA（多头潜在注意力机制）的少数上市公司之一，在人工智能技术应用方面有一定的优势和探索。
• 南威软件：在人工智能领域基于多头注意力机制和增强特征金字塔方法，掌握了新型生物认证技术，将MLA技术应用于生物认证等相关业务中

打开淘股吧APP