2月18日,DeepSeek在社交平台X上发布了一篇关于NSA的纯技术论文报告。
DeepSeek称,NSA是一种与硬件高度适配并可原生训练的稀疏注意力机制,实现超高速长上下文训练与推理!
NSA的核心组件包括:动态分层稀疏策略、粗粒度的Token压缩、细粒度的Token选择。
DeepSeek称,通过针对现代硬件的优化设计,NSA在提升推理速度的同时降低预训练成本且不牺牲性能。在通用基准测试、长上下文任务以及基于指令的推理中,NSA的表现可媲美甚至超越全注意力模型。 据分析效率可能提高十一倍。
因为是新东西,网上找不到相关的内容,尤其涉及的上市公司
不过还是以注意力机制为目标的,有理由认为过去做MLA的更可能参与到NSA的研发中
这样的上市公司有两家:
DeepSeek:以多头潜注意力(MLA)为核心模型,不仅显著降低了推理成本,还成功集结了150多位顶尖人才,其DeepSeek-V3模型在知识问答、代码生成和数学能力等方面表现卓越,在全球123个国家的下载量登顶。
•
飞利信 :是市场上采用MLA(多头潜在注意力机制)的少数上市公司之一,在
人工智能技术应用方面有一定的优势和探索。
•
南威软件 :在人工智能领域基于多头注意力机制和增强特征金字塔方法,掌握了新型生物认证技术,将MLA技术应用于生物认证等相关业务中