DeepSeek发布NSA技术论文:原生稀疏注意力机制优化长文本训练与推理
2月18日,DeepSeek在海外社交平台发布了一篇纯技术论文报告,论文主要内容是关于NSA(Natively Sparse Attention,原生稀疏注意力)。
据介绍,NSA专为长文本训练与推理设计,能利用动态分层稀疏策略等方法,通过针对现代硬件的优化设计,显著优化传统AI模型在训练和推理过程中的表现,特别是提升长上下文的推理能力,在保证性能的同时提升了推理速度,并有效降低了预训练成本。

在这篇名为《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的论文署名中,DeepSeek创始人兼CEO梁文锋也作为共创在列。

其他研究人员来自DeepSeek、北大和华盛顿大学,其中第一作者Jingyang Yuan(袁景阳)是在DeepSeek实习期间完成的这项研究。
值得一提的是,今日中午12点(太平洋时间17日晚8点),马斯克旗下AI公司xAI发布了Grok 3及其精简版Grok 3 mini。发布会采用视频直播形式,观看人数超过100万人。
Grok 3是xAI对OpenAI的o3-mini和DeepSeek的R1等模型的回应,它可以分析图像和回答问题,并为X上的许多功能提供支持。此前马斯克在X上造势称,Grok 3是“地球上最聪明的人工智能”。
在此次直播中,马斯克透露,实际上,到训练进行到92天时,集群的规模已经扩大到了20万块GPU。
编辑|金冥羽 杜波
校对|陈柯名
相关文章
- 上海浦东新杨思地块华润置地迅速布局,开发商竞争白热化
- 哪吒2香港首映礼盛大举行,2月22日港澳地区正式上映
- 网红顾茜茜自曝日收入超30万,背后真相引发热议
- 历史上的今天:唐代诗圣杜甫诞辰与当涂英雄孙英清的壮烈牺牲
- 迈克・彭斯公开批评新政府,花费百万美元投放广告反对特朗普决策
- 天津大学刘爽教授研发神工-神心脑机交互系统,成功捕捉抑郁症患者脑电信号
- 哪吒之魔童闹海全球票房突破118亿元,揭秘中国电影里程碑的成功之道
- 美国新空军一号专机交付或延至2029年,供应链问题成主因
- 保康警方破获网络诈骗推广引流案,查获2万余张小卡片,6名嫌疑人落网
- 多次试管后流产,网约车事故责任谁担?上海浦东法院审理案件详解
猜你喜欢
-
成都推进‘人工智能 + 农业’试点,智慧农场潜力巨大
关键的时刻呈现,于人工智能从实验室迈向产业前沿之际,成都正迎接着智能经济以及智能社会的建设。 进行“人工智能 +”赋予千行百业能量的行动,加速发展行业垂直领域的大模...
-
人工智能能否成审美主体?中国美学思想给出新思考方向
【哲思感悟】 作者:岳友熙(山东理工大学文学与新闻传播学院教授) 人工智能能不能成为审美主体呢,这个问题在当代科技哲学跟美学的交叉前沿范围里越来越变成争论的关键点儿...
-
沙特阿美公司:人工智能和先进技术的技术价值将在 2025 年达到 3 - 50 亿美元
通过彭博社报道可知,纳赛尔在论坛的一个小组讨论会上表示,“我们期望能源行业在利用人工智能方面能够具备或变得更具智慧地去实现对资本的有效利用。” , 最终结果以...
-
TotalEnergies与Mistral AI合作,加速人工智能在能源战略中的应用
TotalEnergies正与法国企业Mistral AI建立合作关系,旨在加快人工智能工具的应用,以助力这家超级能源公司的能源战略,尤其是在低碳能源解决方案和发展...
-
教育部发布中小学人工智能通识教育指南(2025年版) 构建教育体系
教育部基础教育教学指导委员会近期正式公布了《中小学人工智能通识教育指南(2025年版)》,该指南别称《指南》。其目的是建立一套中小学人工智能通识教育的体系,该体系具...

