当前位置:首页 > 热点关注 > 正文内容

DeepSeek新数学模型刷爆记录 刷新多项高难基准测试

6个月前 (05-01)热点关注186

   DeepSeek推出了新模型DeepSeek-Prover-V2,专注于数学定理证明,并在多项高难度基准测试中刷新了记录。在普特南测试上,Prover-V2解决了49道题,远超当前第一名的10道和未针对定理证明优化的DeepSeek-R1的1道。

  

   论文中特别提到“通过强化学习发现新技能”的现象。例如,在普特南测试中,参数量较小的DeepSeek-Prover-V2-7B用非CoT生成模式成功解决了13个671B模型未能解决的问题。团队检查后发现,7B模型处理涉及有限基数的问题时,经常使用Cardinal.toNat和Cardinal.natCast_inj,而671B模型没有这些内容。这表明7B模型学会了671B模型未学会的新技能。

  

   DeepSeek-Prover系列模型已推出三款:2024年3月的DeepSeek-Prover、2024年8月的DeepSeek-Prover-V1.5以及2025年5月的DeepSeek-Prover-V2。Prover-V1主要通过大规模合成数据集微调DeepSeek-Math-7B来推进定理证明。Prover-V1.5增加了证明助手反馈的强化学习(RLPAF)和蒙特卡洛树搜索方法。Prover-V2进一步提出“子目标分解的强化学习”,基础模型从DeepSeek-Math-7B升级到DeepSeek-V3,整合了高上下文窗口和强大的自然语言推理能力,统一了形式化和非形式化数学证明。

  

   Prover-V2还继承了Prover-V1.5提出的CoT和非CoT生成两种模式。通过递归证明搜索合成冷启动推理数据,利用DeepSeek-V3将定理分解为高级证明草图并在Lean 4中形式化,从而产生一系列子目标。使用70亿参数模型处理每个子目标,减轻计算负担。一旦具有挑战性的问题的分解步骤得到解决,就将完整的逐步形式化证明与来自DeepSeek-V3的相应思维链配对,创建冷启动推理数据。

相关文章

美发生两起小型飞机坠机事故 造成2死1伤

美发生两起小型飞机坠机事故 造成2死1伤

   佛罗里达州发生了一起坠机事故。当地时间4月29日,美国发生了两起坠机事件,导致2人死亡、1人受伤。   ...

天一热手上长的透明水泡是什么?可能是以下原因引起

天一热手上长的透明水泡是什么?可能是以下原因引起

   天一热手上长的透明水泡是什么?    天气热手上长透明小水泡,可能是以下原因引起:    太热了手上起透明小水珠样痘,考虑是由于汗疱疹、湿疹、水疱...

商务部回应美方愿与中方就关税谈判 评估美方诚意与行动

   商务部网站5月2日发布消息,商务部新闻发言人就中美经贸对话磋商情况回答了记者提问。    有记者询问关于近期美方多次表示正与中方进行经贸谈判并会达成协议的消息。发言...

侯佩岑能不能开个情商班 高情商秘籍传授

侯佩岑能不能开个情商班 高情商秘籍传授

   在娱乐圈这个名利场中,侯佩岑的情商备受众人夸赞。一次“彩虹图事件”让她的情商展现得淋漓尽致。她在社交平台晒出一张美美的彩虹图后不久,昆凌也发布了同样的图片,引发网友热议。面对尴尬局面...

美国黄石公园附近发生撞车事故致7死 旅游团遭遇不幸

美国黄石公园附近发生撞车事故致7死 旅游团遭遇不幸

   当地时间5月2日,美国爱达荷州警方报告称,5月1日晚上7点15分左右,在爱达荷州东部黄石国家公园附近发生了一起交通事故,一辆皮卡与一辆旅游面包车相撞,导致7人死亡。...

新研究实现对超快激光脉冲精确测量 助力多领域科研进展

   以色列研究人员在国际学术期刊《光:科学与应用》上发表论文,宣布成功实现对持续仅数飞秒的超快激光脉冲的精确测量。这一成果将有助于推动多个科学领域的研究进展。    超...