当前位置:首页 > 热点关注 > 正文内容

DeepSeek新数学模型刷爆记录 刷新多项高难基准测试

4个月前 (05-01)热点关注123

   DeepSeek推出了新模型DeepSeek-Prover-V2,专注于数学定理证明,并在多项高难度基准测试中刷新了记录。在普特南测试上,Prover-V2解决了49道题,远超当前第一名的10道和未针对定理证明优化的DeepSeek-R1的1道。

  

   论文中特别提到“通过强化学习发现新技能”的现象。例如,在普特南测试中,参数量较小的DeepSeek-Prover-V2-7B用非CoT生成模式成功解决了13个671B模型未能解决的问题。团队检查后发现,7B模型处理涉及有限基数的问题时,经常使用Cardinal.toNat和Cardinal.natCast_inj,而671B模型没有这些内容。这表明7B模型学会了671B模型未学会的新技能。

  

   DeepSeek-Prover系列模型已推出三款:2024年3月的DeepSeek-Prover、2024年8月的DeepSeek-Prover-V1.5以及2025年5月的DeepSeek-Prover-V2。Prover-V1主要通过大规模合成数据集微调DeepSeek-Math-7B来推进定理证明。Prover-V1.5增加了证明助手反馈的强化学习(RLPAF)和蒙特卡洛树搜索方法。Prover-V2进一步提出“子目标分解的强化学习”,基础模型从DeepSeek-Math-7B升级到DeepSeek-V3,整合了高上下文窗口和强大的自然语言推理能力,统一了形式化和非形式化数学证明。

  

   Prover-V2还继承了Prover-V1.5提出的CoT和非CoT生成两种模式。通过递归证明搜索合成冷启动推理数据,利用DeepSeek-V3将定理分解为高级证明草图并在Lean 4中形式化,从而产生一系列子目标。使用70亿参数模型处理每个子目标,减轻计算负担。一旦具有挑战性的问题的分解步骤得到解决,就将完整的逐步形式化证明与来自DeepSeek-V3的相应思维链配对,创建冷启动推理数据。

相关文章

曝女生去宿舍捉奸被推下楼 大学回应 视频非校内,后续会有官方通报!

   曝女生去宿舍捉奸被推下楼 大学回应    【曝女生去宿舍捉奸被推下楼 大学回应】近日,两段视频在网络平台引发轩...

新娘领着英国新郎回家结婚,英国女婿文质彬彬改口敬茶

新娘领着英国新郎回家结婚,英国女婿文质彬彬改口敬茶

   新娘领着英国新郎回家结婚,英国女婿文质彬彬改口敬茶。...

巴基斯坦陆军在多地举行军事演习 多兵种参与演练

   4月30日,巴基斯坦陆军在锡亚尔科特、纳罗瓦尔、扎法尔瓦尔和沙卡尔加尔等地举行了军事演习。此次演习中,坦克、火炮以及步兵部队均参与其中。...

博主为蹭五一高速免费提前半个月出发 争议与讨论不断

博主为蹭五一高速免费提前半个月出发 争议与讨论不断

   今天是四月的最后一天,即将迎来五一小长假。许多人迫不及待地想下班后立刻出发度假。为了错峰出行,不少人选择晚上直接出发,尤其是开车的人们,因为五一期间高速免费,大家自然希望省下这笔费用...

日网红炒作“中国人偷电”反成笑柄 文化差异下的偏见闹剧

日网红炒作“中国人偷电”反成笑柄 文化差异下的偏见闹剧

   日本一网红指责中国游客在多功能厕所里的公共插座充电,称其为“偷电”,并在社交平台上发布了一张照片。照片中一名游客蹲在厕所里给手机充电,该网红配文批评,并要求不守规矩的人滚回国。...

温馨!撒贝宁夫妇带儿女骑行 妻子白到发光 全家出游,和孩子们玩得很开心!

   撒贝宁夫妇带儿女骑行 妻子白到发光    【撒贝宁夫妇带儿女骑行 妻子白到发光】近日,河北三河蒋福山红叶谷的春...