当前位置:首页 > DeepSeek技术交流 > 正文内容

DeepSeek-R1 再进化,这次的更新好强啊

2个月前 (06-04)DeepSeek技术交流259

R2没等到,但 DeepSeek R1 小升级据说也很强?

又被 DeepSeek 偷袭了!

业内苦等的 R2 模型迟迟未到,结果 DeepSeek 却悄然出手:

DeepSeek R1 摇身一变,成了 DeepSeek-R1-0528!

依然是开源、依然赶在节前,这次的更新不改大版本号,只低调地加上日期,延续了 DeepSeek 一贯的命名套路,就像两个月前的DeepSeek-V3-0324。

别看名字没变,这波 R1 版本的升级可不简单,特别是在“复杂推理”“前端开发”“幻觉降低”等方向,带来了实打实的进化。

这次的 DeepSeek-R1-0528 还是沿用了 2024 年 12 月发布的 DeepSeek V3 Base 模型,只不过这次后台“砸”了更多算力,让它能像人一样多想一步、再多想一步。

打个比方,用“tokens”来衡量它的“思考量”:

同样是做 AIME 2025 测试,旧版 R1 平均每题只要 12K tokens 就交卷,新版 R1-0528 则要跑到 23K tokens 才满意。

也就是说,DeepSeek-R1-0528 会把题目拆得更细、更透。

思考用料足了,答案自然更准:准确率从原来的 70% 一口气飙到了 87.5%。

有网友实测,新版 R1-0528 连续思考一个复杂问题能跑上 25 分钟。

似乎为了提升模型的深度思考能力,DeepSeek-R1-0528 有意拉长了大模型的思考时长。

经典物理模拟测试中,DeepSeek-R1 新旧版本的对比

不过到底值不值,还得看你怎么用:

毕竟一个问题花上半小时,即便结果再完美,也难免等得心痒痒。

但相应地,思考更深了,编程和推理能力也就跟上来了。

在 LiveCodeBench 基准测试里,DeepSeek-R1-0528 的成绩已经能和 o3-mini(High)和 o4-mini(Medium)相媲美,甚至在某些场景下超越了 Gemini 2.5 Flash。

为了测试新版 R1-0528 在物理世界的推理能力,有网友拿同一句提示,让它们生成一个页面:R1-0528 一次性输出了 728 行代码,而 Claude 4 Sonnet 只给出了 542 行。

老狐仔细对比后发现,新版 R1-0528 在细节处理上更精致,无论是橙色球表面的光影反射,还是砖块墙被破坏后的不规则倒塌,都稳赢 Claude 4 Sonnet。

而在数学推理方面,不少网友提到,DeepSeek-R1-0528 是目前唯一一个能持续稳定地正确回答“ 9.9 - 9.11 等于多少?”的模型。

不仅如此,有网友让 DeepSeek-R1-0528 搭建一个单词评分系统,结果只用一次提示就能生成前后端文件,直接跑起来、根本不用调试。

要知道,之前只有 Open AI 的 o3 模型能做到这么稳定的输出,现在新版 R1-0528 也成功追了上来,成了第二个达到这种水平的模型。

看完这些测试,老狐对官方的说法更加信服:

DeepSeek-R1-0528 在数学、编程和通用逻辑等多个测评中,不仅稳坐国内领先的位置,还紧追国际顶尖模型 o3 和 Gemini 2.5 Pro 的表现。

对于 AI 模型来说,编程和推理能力固然是核心,但像 Chat GPT 和 Gemini 这样的国外模型,面对中文的复杂语境,有时会显得“水土不服”。

相比之下,DeepSeek 作为本土 AI,这次更新在语言对话方面下足了功夫,更贴合咱们国人用户的需求。

先说 AI 的老毛病:“幻觉”,用户苦 AI 幻觉久矣,DeepSeek-R1-0528 在这方面进步不小。

以前,旧版 R1 在改写润色、总结摘要、阅读理解时,总爱“脑补”些不靠谱的内容。

新版 R1-0528 则稳了不少,幻觉率直接降低了 45%~50%,输出内容靠谱多了,不用担心它“瞎编”了。

而在创意写作方面,DeepSeek-R1-0528 的表现也更上一层楼了。

相比旧版 R1 常见的“卡壳”现象,用新版 R1-0528 输出论文、小说、散文时,基本都能一气呵成,不仅逻辑顺畅,情节也很自然,再也不用大删大改了。

有一说一,看完 DeepSeek-R1-0528 写的小说,老狐的心情那叫一个复杂。

大模型越来越卷,这写作水平真让人瑟瑟发抖,难道连写小说的饭碗也要被抢了?

总的来说,这次更新,DeepSeek 还是一如既往地“低调内卷”。

表面看似只是个小升级,但掰开了看,每个细节都是硬活儿。

不管是和旧版 R1 比,还是和别家大模型比,DeepSeek-R1-0528 的表现都非常能打。

当然,也不是所有人都买账。也有网友吐槽这次更新“雷声大雨点小”,觉得 DeepSeek-R1-0528 还是有点“名不副实”。

不过,更多人还是抱着期待的态度。作为国产 AI 的代表,网友们更希望 DeepSeek 能越做越强,真正撑起“国产之光”的牌面!

老狐倒觉得,就算不谈技术硬核,不提民族情怀,这次 DeepSeek R1 的更新依然值得点赞。

毕竟,AI 的终极意义,不就是让每个普通人都能更轻松地触摸星辰大海吗?

本文来自微信公众号“科技狐”(ID:kejihutv),作者:老狐,36氪经授权发布。


“DeepSeek-R1 再进化,这次的更新好强啊” 的相关文章

节前彩蛋!解锁DeepSeek最新版「无限调用」秘籍

节前彩蛋!解锁DeepSeek最新版「无限调用」秘籍

【新智元导读】DeepSeek-R1 0528最新「食用」方法来了!只需两步便可定制专属智能体,免费无限用。在端午假期前一天,DeepSeek-R1更新到了0528版本!官方的说明是,0528的深度思...

“数智赋能·创见未来”郑州市第二十二届职工技术运动会DeepSeek创新应用技能竞赛开始报名了

“数智赋能·创见未来”郑州市第二十二届职工技术运动会DeepSeek创新应用技能竞赛开始报名了

即日起至8月1日,“数智赋能·创见未来”郑州市第二十二届职工技术运动会DeepSeek创新应用技能竞赛开始报名了!此次竞赛由郑州市总工会主办,郑州市电子信息科技工会和市信息协会共同承办,旨在加快培养高...

DeepSeek+HTML:3个超实用教学技巧,零代码也能上手

DeepSeek+HTML:3个超实用教学技巧,零代码也能上手

抽象知识难讲?出题批改费时间?课堂互动冷场?试试DeepSeek+HTML,不用学代码,3招就能解决——🌟技巧一:让知识“动”起来——AI帮你做可视化教具✨适合场景:数学函数、物理受力分析、地理洋流运...

黄仁勋对谈王坚:赞DeepSeek写出A+论文,称“嫉妒年轻人”

黄仁勋对谈王坚:赞DeepSeek写出A+论文,称“嫉妒年轻人”

“我甚至有点嫉妒我们的年轻一代。”黄仁勋表示,出生在这一代的年轻人会成为人工智能的原住民。7月17日上午,在链博会先进制造主题活动现场,英伟达公司创始人兼CEO黄仁勋与之江实验室主任、阿里云创始人王坚...

DeepSeek德国遭下架揭示AI出海哪些难题?

DeepSeek德国遭下架揭示AI出海哪些难题?

牌桌上,一场关于合规的博弈最近,有一条新闻值得关注。德国的数据保护专员梅克·坎普要求苹果、谷歌从其德国的应用商店中,移除DeepSeek应用程序。据环球网引用路透社的报道,此举因为所谓的“数据安全风险...

理性看待DeepSeek热潮

理性看待DeepSeek热潮

理性看待DeepSeek热潮,企业需先补数字化基础。技术突破只是起点,真正的挑战在于企业自身的数字化成熟度。对于多数中国企业,与其追逐DeepSeek的热度,不如先回答三个问题:我的数据在哪里?我的流...