下载
登录/ 注册
主页
论坛
视频
热股
可转债
下载
下载

DeepsSeek可能推出新版本NSA,效率提高十一倍

25-02-18 20:52 208次浏览
宏运长久
+关注
博主要求身份验证
登录用户ID:
2月18日,DeepSeek在社交平台X上发布了一篇关于NSA的纯技术论文报告。

DeepSeek称,NSA是一种与硬件高度适配并可原生训练的稀疏注意力机制,实现超高速长上下文训练与推理!
NSA的核心组件包括:动态分层稀疏策略、粗粒度的Token压缩、细粒度的Token选择。
DeepSeek称,通过针对现代硬件的优化设计,NSA在提升推理速度的同时降低预训练成本且不牺牲性能。在通用基准测试、长上下文任务以及基于指令的推理中,NSA的表现可媲美甚至超越全注意力模型。 据分析效率可能提高十一倍。

因为是新东西,网上找不到相关的内容,尤其涉及的上市公司
不过还是以注意力机制为目标的,有理由认为过去做MLA的更可能参与到NSA的研发中
这样的上市公司有两家:

DeepSeek:以多头潜注意力(MLA)为核心模型,不仅显著降低了推理成本,还成功集结了150多位顶尖人才,其DeepSeek-V3模型在知识问答、代码生成和数学能力等方面表现卓越,在全球123个国家的下载量登顶。
飞利信 :是市场上采用MLA(多头潜在注意力机制)的少数上市公司之一,在人工智能技术应用方面有一定的优势和探索。
南威软件 :在人工智能领域基于多头注意力机制和增强特征金字塔方法,掌握了新型生物认证技术,将MLA技术应用于生物认证等相关业务中
打开淘股吧APP
0
评论(0)
收藏
展开
热门 最新
提交