当前位置：首页 > Deepseek最新资讯 > 正文内容

R2模型呼之欲出！“卷王”DeepSeek继续给巨头上压力

7个月前 (02-28)Deepseek最新资讯398

DeepSeek-R1的热度尚未消散，DeepSeek-R2就要来了？

日前报道称，三位知情人士透露，原计划今年5月发布的DeepSeek-R2模型，正在加速开发，或将提前发布，新模型有望可以生成更好的代码，并且使用英语之外的语言进行推理。对此，DeepSeek母公司幻方量化回应称，以官方消息为准。

考虑到DeepSeek成立于2023年7月17日，至今不满两年时间，已开发出了涵盖编程、数学推理、大语言、多模态、对话等不同场景的多个模型。今年5月前推出R2模型，属于DeepSeek大模型的正常更新频率。从R1模型到R2模型，DeepSeek正在改变AI行业。

巨头惊慌失措，R1模型创下奇迹

2023年3月OpenAI发布GPT-4后，整个AI行业不但没有因这款大模型的到来更加活跃，反而显得有些沉寂。哪怕后续OpenAI接连推出了GPT-4o、o1、Sora等大模型，其他企业也纷纷推出了各种大语言、视频生成、多模态模型，却未能再现GPT-3到GPT-4的突破性进展。

直到DeepSeek-R1的到来，仿佛为AI行业注入了活力，让各行各业都积极拥抱AI和R1模型。R1模型的能力得到证实后，国内手机、电视、PC等行业大量企业纷纷为旗下的产品接入了R1模型。

（图源：DeepSeek）

以手机行业为例，华为、荣耀、OPPO、vivo率先官宣，为智能助手接入R1模型，小米略作犹豫后也选择跟进，为超级小爱接入了R1模型。日前著名数码博主@i冰宇宙爆料称，三星也在积极推进为国行版机型接入R1模型的工作。

不仅如此，腾讯、百度、360等互联网企业，虽已组建AI团队，开发出了自己的大模型，但依然选择为旗下的AI工具接入R1模型。可见，就连其他AI企业，也承认了R1模型在某些领域领先自己。

更关键的是，R1模型诞生之前AI工具虽以免费使用为主，可不乏收费服务的平台，例如ChatGPT和文心一言。OpenAI为了实现盈利，甚至放弃了开源模式，从OpenAI变成「CloseAI」，百度更是闭源方案的拥趸。

然而在R1模型的冲击下，这两家企业也改变了原有路线。百度宣布文心一言将从4月1日起免费为用户提供服务，并于6月30日正式开源。OpenAI则承诺，免费版ChatGPT在标准模式下可无限制使用GPT-5，其CEO山姆·奥特曼还在X平台表示，将打造开源项目，并向网友们征集意见，究竟打造仍需在GPU上运行的o3-mini模型，还是能力强大的端侧模型。

（图源：豆包AI生成）

DeepSeek还通过R1模型证明了通过知识蒸馏、混合并行策略、动态稀疏训练、即时编译、层次化稀疏注意力等技术，大幅压缩AI大模型训练成本的可能性。过去AI企业训练大模型，不但需要用到规模庞大的算力集群，还需要大量数据，OpenAI甚至招聘人员编写数据供大模型训练所用。马斯克旗下的xAI为训练Grok 3模型，不惜搭建了一个具有10万张GPU的全球最大算力集群。

长此以往，AI未必不会变成互联网巨头比拼财力的游戏，最终因数据量的不足进展缓慢。DeepSeek之所以能够给AI行业带来巨大的冲击，能力强、训练成本低、开源三大因素缺一不可。尤其是采用指令集框架PTX和CUDA、ROCm、OpenCL等底层指令都封装为统一接口的特性，让其不再依赖NVIDIA GPU，能够更加自由的部署在各种设备上。

在R1撬动了AI行业的地基后，DeepSeek并未止步不前，如今R2模型即将到来，或将接力R1模型，进一步改变AI行业。

延续低成本、高性能传统，R2模型拉满期待值

R1模型逻辑推理能力不输字节跳动、阿里巴巴、月之暗面等企业花高成本训练出的大模型，对标行业领导者OpenAI开发的o1模型。但OpenAI不只有o1模型，ChatGPT专业版会员已能够使用更强的o1 Pro和o3模型。在R1模型追上o1模型后，R2模型自然要向o3模型发起挑战。

在动态稀疏架构、量化知识蒸馏、混合专家（MoE）架构与多头潜在注意力（MLA）等技术的加持下，DeepSeek训练R2模型的成本有望进一步降低。开发训练数据与模型参数的共适应系统，则可动态调整数据与模型参数的协同关系，提升机器学习系统的效率、泛化性和适应性。

最近几天DeepSeek每天都会公开一批开源代码库，其公布的DeepGEMM采用FP8通用矩阵乘法，支持稠密和MoE模型，仅300行代码即可实现超越专家优化的内核，能够降低AI大模型的推理成本，该技术自然也要被用于R2模型。

（图源：豆包AI生成）

R1模型的论文中提到，RL（强化学习）数据的增加，不仅可以提升AI大模型面对复杂任务时的推理能力，还会自发地出现一些复杂行为能力，比如反思和探索不同方法。现阶段R1模型所拥有的RL数据较少，未来版本将会大幅增加。

综合来看，R2模型与R1模型相同，基于V3底座，对标OpenAI o3模型，以常规升级为主。在更多RL数据的支持下，R2模型有望提高推理能力和响应速度，并依靠「反思」能力，生成更准确的推理结果。

未来将诞生的V4，对标OpenAI计划在今年中期发布的GPT-4.5。基于V4底座+RL开发的R3模型，竞争对手则是OpenAI下一代模型GPT-5。

除了成本和能力方面的提升，R2模型要将把开源理念推向新高度。从o1模型开始，OpenAI强化了闭源理念，不但大模型不再开放，就连思维链也被取消，甚至警告用户使用提示词诱导模型输出完整思维链会被限制账号，GPT-4.5将成为OpenAI最后一个独立发布的基座模型。GPT-5将进入混合模型时代，让AI大模型彻底变成「黑盒」模式。

（图源：豆包AI生成）

DeepSeek坚持开源理念，允许其他企业或个人部署、使用、修改、分发R2模型，持续推动AI行业的发展。360 CEO周鸿祎曾表示，没有开源就没有 Linux、没有互联网，甚至包括我们自己借助了开源技术才能发展至今。闭源固然有机会获取更多营收，但开源才能加快行业向前迈进。

从GPT-4发布以来，AI大模型虽不断进步，却不再有划时代的改变。R1模型依靠低成本、高性能的特性，一定程度改变了AI行业。R2难以复刻R1的盛况，但推理能力方面会有大幅提升，给予其他AI企业更大压力。

DeepSeek成「卷王」，友商被卷到头疼？

DeepSeek-V1和R1模型发布时间间隔仅13个月，R1模型和R2模型之间间隔可能仅有三四个月，堪称「终极卷王」。百度、腾讯、360等企业可以像之前接入R1模型一样，再次接入R2模型，但头部互联网企业需要打造出自己的AI大模型，而不是指望着DeepSeek的开源模型去升级AI工具的能力。

就小雷的体验而言，绝大多数国产AI大模型在深度思考方面表现不如R1模型，仅有少数能够在部分场景下与R1模型平分秋色。将要到来的R2模型，给了AI企业更多压力，他们需要在R2模型上线前，强化自己大模型的能力，避免被DeepSeek甩在身后。

借助DeepSeek开源模型提高AI工具的能力只是权宜之计，百度、腾讯、360从未放弃AI大模型的开发工作，例如百度的文心4.5已在路上。

（图源：豆包AI生成）

作为用户，我们自然更倾向于AI工具能够同时接入多个模型，方便自己选择最好用的模型。尤其是头部AI企业，拥有更庞大的算力规模，接入R1模型后执行推理任务时响应更流畅，体验优于DeepSeek官网或App。

DeepSeek不仅仅带来了能力出众的R1模型，所采用的多种低成本方案，还给其他AI企业指明了方向，通过知识蒸馏和混合精度等技术，任何AI公司都可以实现低成本训练大模型，至于大模型的能力如何，则要看研发人员的实力。

以开源为基调的DeepSeek将在AI行业起到鲶鱼效应，督促每一家AI企业加快新模型的研发工作，并不断探索新方向。

标签: DeepSeek 人工智能数据分析应用场景大数据

返回列表

上一篇：全国首个！东胜一卫生院接入DeepSeek

下一篇：不开玩笑，DeepSeek让成人玩具率先受益

“R2模型呼之欲出！“卷王”DeepSeek继续给巨头上压力” 的相关文章

R2模型呼之欲出！“卷王”DeepSeek继续给巨头上压力

“R2模型呼之欲出！“卷王”DeepSeek继续给巨头上压力” 的相关文章

小店区举办“AI赋能文明实践 DeepSeek实战培训会”

车企“抢滩”DeepSeek背后：角力智能座舱，降低投资成本

山石网科：公司内部已经部署了DeepSeek

效率狂飙！DeepSeek最强16个王炸组合，打工人必看！（强烈建议收藏）

周鸿祎委员：关注DeepSeek在推广中带来的安全问题

DeepSeek涨价四倍，到底谁在为AI付费？

温馨提示：
DeepSeek爱好者为非盈利站点，所有内容均来自网络整理，不保证内容的真实性。

Powered By Z-BlogPHP. Theme by TOYEAN.