当前位置:首页 > Deepseek应用场景 > 正文内容

AI数学天花板来了?DeepSeek新模型低调开源,网友直呼:R2指日可待!

2个月前 (05-01)Deepseek应用场景163

就在所有人都在期待DeepSeek官宣R2大模型之际,公司却出其不意地在"五一"前夕投下了另一枚技术炸弹。

4月30日,DeepSeek在Hugging Face平台上悄然开源了其最新模型——DeepSeek-Prover-V2-671B,一个专注于数学定理证明的大语言模型,专门针对形式化数学证明任务进行优化。

DeepSeek-Prover-V2-671B使用了DeepSeek-V3架构,参数高达6710亿,采用MoE(混合专家)模式,具有61层Transformer层,7168维隐藏层。

模型使用了更高效的safetensors文件格式,同时支持BF16、FP8、F32等多种计算精度,这使得模型可以更快、更省资源地进行训练和部署。据OSCHINA分析,该模型分为163个分片,每个分片大小约为4.3GB,充分证明了其规模之庞大。

值得注意的是,3月发布的V3-0324版本已被业内视为未来R2的基础模型。这一版本通过6850亿参数的MoE架构升级,代码能力获得相比显著增强。

数学AI的重磅升级:DeepSeek再开源6710亿参数模型

从技术层面来看,DeepSeek-Prover-V2-671B使用了DeepSeek-V3架构,采用MoE(混合专家)模式,具有61层Transformer层,7168维隐藏层。更令人惊叹的是,其最大位置嵌入达到了16.38万,这意味着它能够处理极其复杂的数学证明问题。

DeepSeek-Prover是DeepSeek团队开发的一系列专注于数学定理证明的开源大语言模型,通过大规模合成数据训练并结合强化学习(RL)与蒙特卡洛树搜索(MCTS)等优化技术,在形式化定理证明领域取得了显著进展。

DeepSeek-Prover通过创新的训练框架与高效的推理策略,在形式化数学证明领域树立了新标杆。其结合合成数据、强化学习与树搜索的技术路径,不仅提升了模型性能,也为AI在严谨数学推理中的应用开辟了新方向。

OSCHINA分析称,新模型具有以下特点:

模型规模巨大:参数量约为 671B(6710 亿参数),这从模型分片数量(163 个)和每个分片大小(约 4.3GB)可以看出

使用了 DeepSeek-V3 的架构:采用 MoE(混合专家)模式,具有 61 层 Transformer 层,7168 维隐藏层

专为数学定理证明优化:从名称 "Prover"(证明者)可以看出,这是一个专注于数学推理和定理证明的专业模型

支持超长上下文:最大位置嵌入达 163840,使其能处理复杂的数学证明

采用 FP8 量化:通过量化技术减小模型大小,提高推理效率

DeepSeekR2 还会远吗?

DeepSeek创始人梁文锋曾表示:“中国也要逐步成为创新贡献者,而不是一直搭便车。” 他将探索通用人工智能的本质作为核心使命。

根据《中国企业家》的报道,DeepSeek创始人梁文锋带领的AI团队一直保持着与国际巨头同步的产品迭代节奏——2024年9月推出V2.5版本,12月发布V3基础架构,次年3月升级至V3-0324版本,形成每季度重大更新的开发范式。

值得注意的是,3月发布的V3-0324版本已被业内视为未来R2的基础模型。这一版本通过6850亿参数的MoE架构升级,代码能力获得显著增强。

如此稳健而高效的产品迭代节奏,不禁让人思考:传言已久的DeepSeek R2大模型还会远吗?这款新的数学模型是否只是DeepSeek即将发布更大规模通用模型的前奏?

在社交平台X上,有网友表示:

“R2 指日可待......”

“昨天 Qwen 3,今天 DeepSeek Prover V2...”

还有测评称,在实际效果上,“在高中数学题测试中,成功率从 50% 提高到了 63.5%。”

“V1.5还只是参数只有7B的小模型,这次直接升到大模型。”

“中国的 AI 初创公司永远不会让人失望!他们真的在改变整个游戏规则!”

“中国最近正在将一些功夫应用于 AI”

“这是个令人兴奋的消息!”


“AI数学天花板来了?DeepSeek新模型低调开源,网友直呼:R2指日可待!” 的相关文章

DeepSeek在政务服务智能审批中有哪些应用场景

DeepSeek在政务服务智能审批中有哪些应用场景

DeepSeek在政务服务智能审批中有多个应用场景,这些场景充分展示了其在提升政务服务效率和质量方面的潜力。以下是DeepSeek在政务服务智能审批中的主要应用场景:1. 智能咨询服务全方位智能咨询:...

生态环境部:DeepSeek在环境监测上得到初步应用

生态环境部:DeepSeek在环境监测上得到初步应用

3月26日,生态环境部召开3月例行新闻发布会。会上,生态环境部监测司司长蒋火华介绍,目前,DeepSeek已经在生态环境部中国环境监测总站和不少地方生态环境监测部门得到初步应用。蒋火华表示,生态环境监...

马蜂窝AI旅行助手上线,DeepSeek+垂直精调模型致力打破“幻觉”

马蜂窝AI旅行助手上线,DeepSeek+垂直精调模型致力打破“幻觉”

近日,马蜂窝宣布其自研的AI旅行助手“AI小蚂”正式上线。完成全面技术升级的“AI小蚂”在全量接入DeepSeek大模型的同时,还集成了马蜂窝的垂直精调模型,以十数年积累的海量真实旅行数据为基础,结合...

玉禾田:将Deepseek 671B模型接入大管家平台

玉禾田:将Deepseek 671B模型接入大管家平台

金融界4月1日消息,有投资者在互动平台向玉禾田提问:董秘你好请问贵公司是否部署Deepseek,如果有具体运用在哪方面?公司回答表示:公司已将Deepseek 671B满血模型接入大管家平台,并已在构...

怎么删除DeepSeek系统中的模型?

怎么删除DeepSeek系统中的模型?

怎么删除 DeepSeek 系统中的模型?要删除 DeepSeek 系统中的模型,可以按照以下步骤操作:1. 查看已安装的模型列表首先打开命令提示符或终端,输入以下命令来查看已安装的模型列表:olla...

DeepSeek“引爆”博鳌!AI将像水电一样人人可用

DeepSeek“引爆”博鳌!AI将像水电一样人人可用

当时间步入博鳌亚洲论坛2025年年会第二天,这场盛会迎来议程最繁忙的阶段,人工智能毫无悬念地成为中外嘉宾瞩目的“C位”。从现场令人惊叹的科技展示,到分论坛上唇枪舌剑的思想交锋,AI热度持续飙升。有嘉宾...