当前位置:首页 > Deepseek应用场景 > 正文内容

DeepSeek-Prover-V2:AI 数学推理新王者,88.9% 通过率设新标杆

5个月前 (05-01)Deepseek应用场景374

IT之家 5 月 1 日消息,深度求索(DeepSeek)昨日(4 月 30 日)在 AI 开源社区 Hugging Face 上,发布名为 DeepSeek-Prover-V2-671B 的新模型,随后在 GitHub 等平台上公布了论文信息。

IT之家援引论文介绍,DeepSeek-Prover-V2 是一款专注于形式化数学推理的开源大型语言模型,基于 DeepSeek-V3-0324,通过递归定理证明管道生成初始数据。

Deepseek 推出了 DeepSeek-Prover-V2-671B(结合 V3 基础大模型)、DeepSeek-Prover-V2-7B(增强模型)两个模型,以及 DeepSeek-ProverBench 数据集。

DeepSeek-Prover-V2-671B 采用和 DeepSeek V3-0324 相同的架构,并非用于常规对话或者推理,而是用于形式化定理证明、专门增强数学能力的模型。

DeepSeek 团队首先引导 DeepSeek-V3 模型将复杂定理分解为一系列子目标(subgoals),整合非形式与形式化数学推理,在 Lean 4 平台上形式化证明步骤。

接着,利用一个较小的 7B 参数模型处理子目标的证明搜索,减轻计算负担。最终,结合完整的逐步证明与 DeepSeek-V3 的思维链(chain-of-thought),形成强化学习的“冷启动”数据。

在训练中,团队筛选出一批 7B 模型无法直接解决但子目标已被证明的难题。通过整合子目标证明,形成完整的形式化证明,并与 DeepSeek-V3 的推理过程对接,生成合成数据。

随后,模型微调这些数据,并通过强化学习进一步提升能力,以二元反馈(正确或错误)作为奖励机制。最终,DeepSeek-Prover-V2-671B 在神经定理证明领域创下新高,在 MiniF2F-test 数据集上通过率达 88.9%,在 PutnamBench 数据集中解决 658 个问题中的 49 个。

团队还发布了 ProverBench 基准数据集,包含 325 个形式化数学问题。其中,15 个问题源自近期 AIME 竞赛(AIME 24 和 25),涉及数论与代数,代表高中竞赛难度。

其余 310 个问题则来自精选教材和教学内容,涵盖线性代数、微积分、概率等多个领域。这一数据集旨在为高中竞赛和本科数学提供全面评估标准,推动模型在多样化场景下的测试与应用。

相关阅读:

《DeepSeek-Prover-V2-671B 新模型开源发布》


“DeepSeek-Prover-V2:AI 数学推理新王者,88.9% 通过率设新标杆” 的相关文章

当DeepSeek链接杨浦高中的创新实验室,“指数级”变化让人惊叹

当DeepSeek链接杨浦高中的创新实验室,“指数级”变化让人惊叹

“飞机飞行的原理是什么?”在同济大学第一附属中学高一年级“创意飞行器”的课堂上,学生桑田雨用Pad提出问题,立刻收到了即时的回复:“飞机飞行的原理主要基于四个力的相互作用:升力、重力、推力和阻力。这些...

从DeepSeek的成功经验看原始创新的重要性

从DeepSeek的成功经验看原始创新的重要性

在当今快速发展的科技领域,创新已成为推动进步的核心动力,企业生存和发展的关键。在众多创新类型中,原始创新因其独特性和突破性而备受关注。原始创新不仅能够带来技术上的重大突破,还能为企业创造持久的竞争优势...

DeepSeek为何引发全民心态变化?刘俏:科技革命催生出新节点产业

DeepSeek为何引发全民心态变化?刘俏:科技革命催生出新节点产业

 正值2025博鳌亚洲论坛召开期间,3月26日,新浪财经、北京大学光华管理学院在博鳌举办“2025博鳌新浪财经之夜”活动,北京大学光华管理学院院长、教授刘俏发表主题为《从国际到国内预测经济走势,中国如...

普通人如何玩转DeepSeek 别再被付费AI教程“套路”了!

普通人如何玩转DeepSeek 别再被付费AI教程“套路”了!

近日,国产大模型DeepSeek在AI界“大杀四方”,各类付费教程也不断涌现,有人甚至靠卖课进账数十万元。在这场狂欢中,普通人既看到了赚钱门道,也面临着“被套路”的风险。那么,作为普通人,要如何用好D...

为什么作家阿来不用DeepSeek

为什么作家阿来不用DeepSeek

日前,作家、四川省作家协会主席阿来亮相复旦大学,在“人是出发点,也是目的地”主题研讨会间隙接受文汇报记者专访。原标题:《为什么作家阿来不用DeepSeek》...

中文网址注册接入DeepSeek,发挥AI优势精准封堵企业知识产权保护漏洞

中文网址注册接入DeepSeek,发挥AI优势精准封堵企业知识产权保护漏洞

中文网址注册服务支持DeepSeek-R1满血版推荐功能,是AI大模型技术落地应用的又一创新典范。该技术大幅提升了中文网址注册的精准度和全面性,可以针对数字时代知识产权保护的痛点、难点为企业提供更为专...