当前位置:首页 > Deepseek最新资讯 > 正文内容

DeepSeek发布最新技术论文,梁文锋是共创之一

7个月前 (02-18)Deepseek最新资讯393

2月18日,DeepSeek官方在海外社交平台X上发布了一篇纯技术论文报告,论文主要内容是关于NSA(Natively Sparse Attention,原生稀疏注意力),官方介绍这是一种用于超快速长文本训练与推理的、硬件对齐且可原生训练的稀疏注意力机制。

具体来说,NSA针对现代硬件进行了优化设计,能够加速推理过程,同时降低预训练成本,且不牺牲性能。它在通用基准测试、长文本任务和基于指令的推理中均能达到或超越全注意力模型的表现。稀疏注意力为提高效率同时保持模型能力提供了一个有前景的方向。

记者注意到,在这篇名为《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的论文署名中,DeepSeek创始人梁文锋也作为共创在列。

在论文中,DeepSeek团队表示,业界越来越认识到长上下文建模对于下一代大型语言模型的重要性,推动这一需求的应用包括深度推理、仓库级代码生成和多轮自主代理系统。然而,随着序列长度的增加,标准注意力机制的高复杂度成为了关键的延迟瓶颈。

论文提到,理论估计表明,在使用softmax架构(一种用于多分类问题的神经网络架构)时,注意力计算占解码64k长度上下文总延迟的70%-80%,这凸显了对更高效注意力机制的迫切需求。

记者将这一论文提供给DeepSeek,并让其评价对业界的影响与意义,DeepSeek称,这一技术的核心价值在于平衡效率与性能,既降低计算成本,又保持甚至提升模型能力。对行业而言,NSA为处理长上下文任务提供了一种高效的解决方案,有助于推动更强大、更经济的语言模型的发展,尤其是在需要处理长文本的应用场景中。

NSA通过高效的长序列处理能力,使模型能够直接处理整本书籍、代码仓库或多轮对话(如千轮客服场景),扩展了大语言模型在文档分析、代码生成、复杂推理等领域的应用边界。例如,Gemini 1.5 Pro已展示长上下文潜力,NSA可进一步降低此类模型的训练与推理成本。

此外,DeepSeek提到,NSA能够降低算力门槛与部署成本。端到端稀疏训练可以减少预训练所需的计算资源(如减少A100 GPU小时数),降低企业开发大模型的资金与技术门槛。同时,可以加速推理,使长文本生成(如代码补全、故事续写)的实时性更高,适用于边缘设备或低延迟场景。

一位X用户在DeepSeek帖子下表示,“NSA 机制改变了游戏规则。超快速长上下文训练对于扩大教育领域 AI 至关重要,这与个性化学习愿景完美契合。”还有网友对此调侃“RIP Nvidia”。

自1月20日发布DeepSeek-R1并搅动AI圈以来,DeepSeek方面一直较为低调,这是这么多天以来DeepSeek唯一发布的技术动态。

“DeepSeek team is cooking! ”(DeepSeek 团队正在积极工作!)有X网友表示。

(本文来自第一财经)


“DeepSeek发布最新技术论文,梁文锋是共创之一” 的相关文章

全国人大新闻发布会:DeepSeek等公司兴起,展现中国科技发展创新性和包容性

全国人大新闻发布会:DeepSeek等公司兴起,展现中国科技发展创新性和包容性

十四届全国人大三次会议今天(3月4日)在人民大会堂举行新闻发布会,大会发言人娄勤俭就大会议程和人大工作相关问题回答中外记者提问。在回答人工智能发展相关问题时,娄勤俭表示,DeepSeek公司取得的重大...

人工智能赋能职业教育,北京八维集团引入DeepSeek

人工智能赋能职业教育,北京八维集团引入DeepSeek

在科技飞速发展的当下,人工智能(AI)已成为推动各行业变革的核心力量,职业教育领域自然也不例外。北京八维集团作为职业教育的领军者,敏锐洞察到人工智能带来的巨大机遇,近日正式引入先进的大语言模型 Dee...

教育行业拥抱DeepSeek的浪潮还在继续 学而思×DeepSeek,首发超级学习应用“随时问”

教育行业拥抱DeepSeek的浪潮还在继续 学而思×DeepSeek,首发超级学习应用“随时问”

全教育行业拥抱DeepSeek的浪潮还在继续,在产品层面的落地和结合也开始带来惊喜。学而思今天正式发布接入DeepSeek的全新“随时问”APP。该产品深度融合DeepSeek R1智能推理,依托学而...

同程旅行宣布接入DeepSeek大模型,打造一站式智能旅行服务

同程旅行宣布接入DeepSeek大模型,打造一站式智能旅行服务

3月3日消息,同程旅行日前宣布其自主研发的旅游行业专属模型——同程程心大模型将全面接入DeepSeek,成为首家接入DeepSeek大模型的在线旅游平台(OTA)。目前,该功能已进入内测阶段,预计3月...

对话中科闻歌王磊:DeepSeek给创业者带来的震撼与启示

对话中科闻歌王磊:DeepSeek给创业者带来的震撼与启示

未来,我们可能需要构建自己的统一计算框架,一旦能够打造好,那国内的GPU芯片生态建设必将向前迈出一大步。腊月二十八那天,中科闻歌董事长王磊跟团队开会到凌晨2点,技术嗅觉敏感的他们一直在讨论DeepSe...

网友称跟DeepSeek炒股日赚千元,也有人亏损,AI投资靠谱吗?

网友称跟DeepSeek炒股日赚千元,也有人亏损,AI投资靠谱吗?

“跟着DeepSeek炒股的第五天,我的收益居然涨到了11%”“用DeepSeek投(股市)100万会怎么样”“股市小白,跟着DeepSeek学炒股”......DeepSeek的热潮还是吹到了股市投...