当前位置:首页 > Deepseek应用场景 > 正文内容

DeepSeek-Prover-V2:AI 数学推理新王者,88.9% 通过率设新标杆

IT之家 5 月 1 日消息,深度求索(DeepSeek)昨日(4 月 30 日)在 AI 开源社区 Hugging Face 上,发布名为 DeepSeek-Prover-V2-671B 的新模型,随后在 GitHub 等平台上公布了论文信息。

IT之家援引论文介绍,DeepSeek-Prover-V2 是一款专注于形式化数学推理的开源大型语言模型,基于 DeepSeek-V3-0324,通过递归定理证明管道生成初始数据。

Deepseek 推出了 DeepSeek-Prover-V2-671B(结合 V3 基础大模型)、DeepSeek-Prover-V2-7B(增强模型)两个模型,以及 DeepSeek-ProverBench 数据集。

DeepSeek-Prover-V2-671B 采用和 DeepSeek V3-0324 相同的架构,并非用于常规对话或者推理,而是用于形式化定理证明、专门增强数学能力的模型。

DeepSeek 团队首先引导 DeepSeek-V3 模型将复杂定理分解为一系列子目标(subgoals),整合非形式与形式化数学推理,在 Lean 4 平台上形式化证明步骤。

接着,利用一个较小的 7B 参数模型处理子目标的证明搜索,减轻计算负担。最终,结合完整的逐步证明与 DeepSeek-V3 的思维链(chain-of-thought),形成强化学习的“冷启动”数据。

在训练中,团队筛选出一批 7B 模型无法直接解决但子目标已被证明的难题。通过整合子目标证明,形成完整的形式化证明,并与 DeepSeek-V3 的推理过程对接,生成合成数据。

随后,模型微调这些数据,并通过强化学习进一步提升能力,以二元反馈(正确或错误)作为奖励机制。最终,DeepSeek-Prover-V2-671B 在神经定理证明领域创下新高,在 MiniF2F-test 数据集上通过率达 88.9%,在 PutnamBench 数据集中解决 658 个问题中的 49 个。

团队还发布了 ProverBench 基准数据集,包含 325 个形式化数学问题。其中,15 个问题源自近期 AIME 竞赛(AIME 24 和 25),涉及数论与代数,代表高中竞赛难度。

其余 310 个问题则来自精选教材和教学内容,涵盖线性代数、微积分、概率等多个领域。这一数据集旨在为高中竞赛和本科数学提供全面评估标准,推动模型在多样化场景下的测试与应用。

相关阅读:

《DeepSeek-Prover-V2-671B 新模型开源发布》


“DeepSeek-Prover-V2:AI 数学推理新王者,88.9% 通过率设新标杆” 的相关文章

AI冲击波来了!多家险企宣布接入DeepSeek

AI冲击波来了!多家险企宣布接入DeepSeek

国产开源大模型DeepSeek一经发布,就以其训练成本、推理能力等方面的优异表现,在国内外引起强烈反响。近日,各家保险公司密集在官微宣布,已接入DeepSeek。那么,目前DeepSeek在保险领域的...

国家能源集团全面接入DeepSeek系列模型

国家能源集团全面接入DeepSeek系列模型

近日,在开普云的助力下,国家能源集团全面接入DeepSeek系列模型。这一举措标志着国家能源集团在智能化转型的道路上率先迈出了重要一步,成为首个在内容安全领域接入DeepSeek大模型的央企。(证券时...

幸福廊坊智慧城市平台正式接入DeepSeek

幸福廊坊智慧城市平台正式接入DeepSeek

河北日报客户端讯(刘英、刘杰、卢晔)2月20日,幸福廊坊App上线基于DeepSeek大模型的智能AI助手服务,可为用户提供免费顺畅的智能问答服务,有效提升便民惠企水平。同时,廊坊市市级政务云同步接入...

科研加速器:用DeepSeek一天精读80篇文献的30个实用指令

科研加速器:用DeepSeek一天精读80篇文献的30个实用指令

在科研与学习中,快速高效地阅读和理解大量文献是至关重要的能力。借助DeepSeeK这一强大的AI助手,我们可以将文献阅读效率提升至全新水平。以下是30个精心设计的指令,助您充分利用DeepSeeK高效...

DeepSeek开源周第三日 发布高性能通用矩阵乘法库

DeepSeek开源周第三日 发布高性能通用矩阵乘法库

新京报贝壳财经讯(记者罗亦丹)北京时间2月26日,DeepSeek进行了其开源周第三日的发布——DeepGEMM,一个支持密集和MoE(专家混合模型)GEMM(通用矩阵乘法)的FP8 (8位浮点数)G...

周鸿祎委员:关注DeepSeek在推广中带来的安全问题

周鸿祎委员:关注DeepSeek在推广中带来的安全问题

3月4日,周鸿祎在接受采访时表示,DeepSeek让大家过了一个很好的春节,中国人工智能渗透率会集体提升,同时要重视人工智能带来的安全问题。【全国政协委员周鸿祎:大模型渗透率提升时应用安全问题也迫在眉...