DeepSeek新数学模型刷爆记录 刷新多项高难基准测试

3个月前 (05-01)热点话题91

  DeepSeek推出了新模型DeepSeek-Prover-V2,专注于数学定理证明,并在多项高难度基准测试中刷新了记录。在普特南测试上,Prover-V2解决了49道题,远超当前第一名的10道和未针对定理证明优化的DeepSeek-R1的1道。

  

  论文中特别提到“通过强化学习发现新技能”的现象。例如,在普特南测试中,参数量较小的DeepSeek-Prover-V2-7B用非CoT生成模式成功解决了13个671B模型未能解决的问题。团队检查后发现,7B模型处理涉及有限基数的问题时,经常使用Cardinal.toNat和Cardinal.natCast_inj,而671B模型没有这些内容。这表明7B模型学会了671B模型未学会的新技能。

  

  DeepSeek-Prover系列模型已推出三款:2024年3月的DeepSeek-Prover、2024年8月的DeepSeek-Prover-V1.5以及2025年5月的DeepSeek-Prover-V2。Prover-V1主要通过大规模合成数据集微调DeepSeek-Math-7B来推进定理证明。Prover-V1.5增加了证明助手反馈的强化学习(RLPAF)和蒙特卡洛树搜索方法。Prover-V2进一步提出“子目标分解的强化学习”,基础模型从DeepSeek-Math-7B升级到DeepSeek-V3,整合了高上下文窗口和强大的自然语言推理能力,统一了形式化和非形式化数学证明。

  

  Prover-V2还继承了Prover-V1.5提出的CoT和非CoT生成两种模式。通过递归证明搜索合成冷启动推理数据,利用DeepSeek-V3将定理分解为高级证明草图并在Lean 4中形式化,从而产生一系列子目标。使用70亿参数模型处理每个子目标,减轻计算负担。一旦具有挑战性的问题的分解步骤得到解决,就将完整的逐步形式化证明与来自DeepSeek-V3的相应思维链配对,创建冷启动推理数据。

“DeepSeek新数学模型刷爆记录 刷新多项高难基准测试” 的相关文章

女生二次入伍上演“女兵突击” 巾帼不让须眉

女生二次入伍上演“女兵突击” 巾帼不让须眉

  看到孩子们清澈的眼神,我意识到自己是一名真正的战士了,有了要去保护的人。陈靓是北京外国语大学的学生,当她告诉母亲自己打算“二次入伍”的想法时,母亲心疼地问:“当兵的苦你已经尝过了,一个...

男子遭遇车祸妻子与车主和解 协议显失公平被撤销

男子遭遇车祸妻子与车主和解 协议显失公平被撤销

  男子遭遇车祸妻子与车主和解!上海一名男子贺某被一辆电动车撞飞,导致10级伤残。然而,他的妻子景某与肇事者杨某达成协议,只需赔偿3万元。贺某得知后非常生气,因为他的医疗费就已超过4万元,...

别怕,这真的只是一门小炮,顶多给拍拍灰

  来源:央视网 更新时间:2025年05月02日 09:40 视频简介 4A步兵战车是解放军装甲步兵连核心装备,新射手首发命...

外国游客五一组团来中国买买买 入境游热度飙升

外国游客五一组团来中国买买买 入境游热度飙升

  在各类利好政策的推动下,外国人来华旅游和购物的热情再度高涨。离境退税服务带动了入境游客数量的持续增长,“五一”期间入境游订单量同比增长173%。上海作为热门目的地,在“五一”期间进一步...

震撼!五一的桂林快忙成马六甲了 放眼过去全是竹筏大军!

   五一的桂林快忙成马六甲了   【五一的桂林快忙成马六甲了】5月2日,在广西桂林,有网友拍到漓江上密密麻麻的“竹...

马丽说可能与沈腾不再合作 呼吁尊重私生活

马丽说可能与沈腾不再合作 呼吁尊重私生活

  5月3日,演员马丽在《水饺皇后》长沙路演时落泪,她表示已经跑了很久的路演,很久没有见到孩子了,这一切都是出于真诚。她还提到,现在网上有很多声音,虽然允许别人不喜欢,但她不能接受恶意抨击...