当前位置:首页 > Deepseek最新资讯 > 正文内容

R2模型呼之欲出!“卷王”DeepSeek继续给巨头上压力

5个月前 (02-28)Deepseek最新资讯297

DeepSeek-R1的热度尚未消散,DeepSeek-R2就要来了?

日前报道称,三位知情人士透露,原计划今年5月发布的DeepSeek-R2模型,正在加速开发,或将提前发布,新模型有望可以生成更好的代码,并且使用英语之外的语言进行推理。对此,DeepSeek母公司幻方量化回应称,以官方消息为准。

考虑到DeepSeek成立于2023年7月17日,至今不满两年时间,已开发出了涵盖编程、数学推理、大语言、多模态、对话等不同场景的多个模型。今年5月前推出R2模型,属于DeepSeek大模型的正常更新频率。从R1模型到R2模型,DeepSeek正在改变AI行业。

巨头惊慌失措,R1模型创下奇迹

2023年3月OpenAI发布GPT-4后,整个AI行业不但没有因这款大模型的到来更加活跃,反而显得有些沉寂。哪怕后续OpenAI接连推出了GPT-4o、o1、Sora等大模型,其他企业也纷纷推出了各种大语言、视频生成、多模态模型,却未能再现GPT-3到GPT-4的突破性进展。

直到DeepSeek-R1的到来,仿佛为AI行业注入了活力,让各行各业都积极拥抱AI和R1模型。R1模型的能力得到证实后,国内手机、电视、PC等行业大量企业纷纷为旗下的产品接入了R1模型。

(图源:DeepSeek)

以手机行业为例,华为、荣耀、OPPO、vivo率先官宣,为智能助手接入R1模型,小米略作犹豫后也选择跟进,为超级小爱接入了R1模型。日前著名数码博主@i冰宇宙爆料称,三星也在积极推进为国行版机型接入R1模型的工作。

不仅如此,腾讯、百度、360等互联网企业,虽已组建AI团队,开发出了自己的大模型,但依然选择为旗下的AI工具接入R1模型。可见,就连其他AI企业,也承认了R1模型在某些领域领先自己。

更关键的是,R1模型诞生之前AI工具虽以免费使用为主,可不乏收费服务的平台,例如ChatGPT和文心一言。OpenAI为了实现盈利,甚至放弃了开源模式,从OpenAI变成「CloseAI」,百度更是闭源方案的拥趸。

然而在R1模型的冲击下,这两家企业也改变了原有路线。百度宣布文心一言将从4月1日起免费为用户提供服务,并于6月30日正式开源。OpenAI则承诺,免费版ChatGPT在标准模式下可无限制使用GPT-5,其CEO山姆·奥特曼还在X平台表示,将打造开源项目,并向网友们征集意见,究竟打造仍需在GPU上运行的o3-mini模型,还是能力强大的端侧模型。

(图源:豆包AI生成)

DeepSeek还通过R1模型证明了通过知识蒸馏、混合并行策略、动态稀疏训练、即时编译、层次化稀疏注意力等技术,大幅压缩AI大模型训练成本的可能性。过去AI企业训练大模型,不但需要用到规模庞大的算力集群,还需要大量数据,OpenAI甚至招聘人员编写数据供大模型训练所用。马斯克旗下的xAI为训练Grok 3模型,不惜搭建了一个具有10万张GPU的全球最大算力集群。

长此以往,AI未必不会变成互联网巨头比拼财力的游戏,最终因数据量的不足进展缓慢。DeepSeek之所以能够给AI行业带来巨大的冲击,能力强、训练成本低、开源三大因素缺一不可。尤其是采用指令集框架PTX和CUDA、ROCm、OpenCL等底层指令都封装为统一接口的特性,让其不再依赖NVIDIA GPU,能够更加自由的部署在各种设备上。

在R1撬动了AI行业的地基后,DeepSeek并未止步不前,如今R2模型即将到来,或将接力R1模型,进一步改变AI行业。

延续低成本、高性能传统,R2模型拉满期待值

R1模型逻辑推理能力不输字节跳动、阿里巴巴、月之暗面等企业花高成本训练出的大模型,对标行业领导者OpenAI开发的o1模型。但OpenAI不只有o1模型,ChatGPT专业版会员已能够使用更强的o1 Pro和o3模型。在R1模型追上o1模型后,R2模型自然要向o3模型发起挑战。

在动态稀疏架构、量化知识蒸馏、混合专家(MoE)架构与多头潜在注意力(MLA)等技术的加持下,DeepSeek训练R2模型的成本有望进一步降低。开发训练数据与模型参数的共适应系统,则可动态调整数据与模型参数的协同关系,提升机器学习系统的效率、泛化性和适应性。

最近几天DeepSeek每天都会公开一批开源代码库,其公布的DeepGEMM采用FP8通用矩阵乘法,支持稠密和MoE模型,仅300行代码即可实现超越专家优化的内核,能够降低AI大模型的推理成本,该技术自然也要被用于R2模型。

(图源:豆包AI生成)

R1模型的论文中提到,RL(强化学习)数据的增加,不仅可以提升AI大模型面对复杂任务时的推理能力,还会自发地出现一些复杂行为能力,比如反思和探索不同方法。现阶段R1模型所拥有的RL数据较少,未来版本将会大幅增加。

综合来看,R2模型与R1模型相同,基于V3底座,对标OpenAI o3模型,以常规升级为主。在更多RL数据的支持下,R2模型有望提高推理能力和响应速度,并依靠「反思」能力,生成更准确的推理结果。

未来将诞生的V4,对标OpenAI计划在今年中期发布的GPT-4.5。基于V4底座+RL开发的R3模型,竞争对手则是OpenAI下一代模型GPT-5。

除了成本和能力方面的提升,R2模型要将把开源理念推向新高度。从o1模型开始,OpenAI强化了闭源理念,不但大模型不再开放,就连思维链也被取消,甚至警告用户使用提示词诱导模型输出完整思维链会被限制账号,GPT-4.5将成为OpenAI最后一个独立发布的基座模型。GPT-5将进入混合模型时代,让AI大模型彻底变成「黑盒」模式。

(图源:豆包AI生成)

DeepSeek坚持开源理念,允许其他企业或个人部署、使用、修改、分发R2模型,持续推动AI行业的发展。360 CEO周鸿祎曾表示,没有开源就没有 Linux、没有互联网,甚至包括我们自己借助了开源技术才能发展至今。闭源固然有机会获取更多营收,但开源才能加快行业向前迈进。

从GPT-4发布以来,AI大模型虽不断进步,却不再有划时代的改变。R1模型依靠低成本、高性能的特性,一定程度改变了AI行业。R2难以复刻R1的盛况,但推理能力方面会有大幅提升,给予其他AI企业更大压力。

DeepSeek成「卷王」,友商被卷到头疼?

DeepSeek-V1和R1模型发布时间间隔仅13个月,R1模型和R2模型之间间隔可能仅有三四个月,堪称「终极卷王」。百度、腾讯、360等企业可以像之前接入R1模型一样,再次接入R2模型,但头部互联网企业需要打造出自己的AI大模型,而不是指望着DeepSeek的开源模型去升级AI工具的能力。

就小雷的体验而言,绝大多数国产AI大模型在深度思考方面表现不如R1模型,仅有少数能够在部分场景下与R1模型平分秋色。将要到来的R2模型,给了AI企业更多压力,他们需要在R2模型上线前,强化自己大模型的能力,避免被DeepSeek甩在身后。

借助DeepSeek开源模型提高AI工具的能力只是权宜之计,百度、腾讯、360从未放弃AI大模型的开发工作,例如百度的文心4.5已在路上。

(图源:豆包AI生成)

作为用户,我们自然更倾向于AI工具能够同时接入多个模型,方便自己选择最好用的模型。尤其是头部AI企业,拥有更庞大的算力规模,接入R1模型后执行推理任务时响应更流畅,体验优于DeepSeek官网或App。

DeepSeek不仅仅带来了能力出众的R1模型,所采用的多种低成本方案,还给其他AI企业指明了方向,通过知识蒸馏和混合精度等技术,任何AI公司都可以实现低成本训练大模型,至于大模型的能力如何,则要看研发人员的实力。

以开源为基调的DeepSeek将在AI行业起到鲶鱼效应,督促每一家AI企业加快新模型的研发工作,并不断探索新方向。


“R2模型呼之欲出!“卷王”DeepSeek继续给巨头上压力” 的相关文章

杭州联通助力DeepSeek成功接入建德政务信创云,“智”启政务新篇

杭州联通助力DeepSeek成功接入建德政务信创云,“智”启政务新篇

国产人工智能大模型DeepSeek以其领先技术实力崛起,成为引领技术革新的先锋力量。该模型不仅以超凡的智能交互能力重塑人机协作的边界,更以卓越的计算性能突破传统AI的桎梏,开创了智能认知的新纪元。杭州...

还在等DeepSeek R2?刚刚,DeepSeek R1模型小版本试升级已完成!优化了这些方面

还在等DeepSeek R2?刚刚,DeepSeek R1模型小版本试升级已完成!优化了这些方面

5月28日,DeepSeek官方宣布DeepSeek R1模型已完成小版本试升级,欢迎前往官方网页、APP、小程序测试(打开深度思考),API 接口和使用方式保持不变。关于这次试升级的内容,小编询问D...

DeepSeek专题培训会助力民营企业把握AI技术革新机遇

DeepSeek专题培训会助力民营企业把握AI技术革新机遇

为深入贯彻落实党的二十届三中全会精神,促进数字经济与实体经济深度融合,助力民营企业把握人工智能技术革新机遇,近日,怀来县工商联举办以“把握AI浪潮,赋能企业创新,共启智慧未来”为主题的DeepSeek...

DeepSeek,山东国企的强项是“应用”

DeepSeek,山东国企的强项是“应用”

自从国产大模型DeepSeek(深度求索)火了之后,包括山东在内的全国各地在反思,“为什么我们这里没有出现像杭州那样的六小龙”。各地自我反省,深挖制约创新的思想、机制、人才、营商环境等不足,形成一种自...

美的空调怎么样?DeepSeek看起来是真的香!

美的空调怎么样?DeepSeek看起来是真的香!

自从我入手鲜净感空气机T6后,不少朋友都来问我:美的空调怎么样?买DeepSeek空调只是因为跟风吗?  选择美的空调并非是突然的决定,之所以毅然决然购买了美的鲜净感空气机T6,是因为作为一个妈妈,我...

新书来了 │ DeepSeek+万物=王炸,打工人效率如何翻倍?这4本书给你答案

新书来了 │ DeepSeek+万物=王炸,打工人效率如何翻倍?这4本书给你答案

2025年伊始,DeepSeek以数字笔墨掀起惊澜,也呈现了人工智能时代一个深刻的命题:当技术无限逼近人类自身能力的时候,是否会替代人类?很多话题的探讨甚至引发对社会安全稳定和伦理问题的担忧。AI看似...