0
minimax创始人闫俊杰受邀中央政治局和国务院座谈会
0
美股存储概念股齐刷新高!
闪迪暴涨10% 投行大幅上调目标价
0
0
我国
5G用户规模超12亿户 近期已启动第二阶段6G技术试验
本川智能
0
1
0
水贝市场已禁售铜条
1
【DeepSeek新模型MODEL1曝光 代码预示新架构】
据量子位公众号消息,DeepSeek-R1发布一周年之际,新模型“MODEL1”曝光。DeepSeek在GitHub更新FlashMLA代码,横跨114个文件中有28处提到MODEL1,与V32作为不同的模型出现。已知V32是DeepSeek-V3.2,MODEL1很可能是新的架构。代码中的具体差异体现在KV缓存布局、稀疏性处理和FP8解码方面,在内存优化上有多处不同。此前有消息称DeepSeek将在2月中旬春节前后发布下一代旗舰模型。结合DeepSeek最近发布的优化残差链接“mHC”和AI记忆模块“Engram”两篇论文,或许我们将看到整合了这两项技术的新模型。
(华尔街见闻)
1
0
打造中国版Open Evidence 蚂蚁阿福PC端上线DeepSearch功能