当前位置:首页 > 热点关注 > 正文内容

DeepSeek-V3.1正式发布 新版本效率大幅提升

2个月前 (08-22)热点关注57

   DeepSeek用户期待的R2模型尚未到来,但V3.1版本已经发布。8月21日,DeepSeek官方公众号宣布最新大语言模型DeepSeek-V3.1正式上线,距离上一个版本DeepSeek-V3-0324已有五个月。

  

   新版本在三个方面进行了升级:混合推理架构、更高的思考效率以及更强的Agent能力。从命名来看热点话题,DeepSeek-V3.1似乎是前一代DeepSeek-V3的小版本迭代。该模型支持两种工作模式——思考模式和非思考模式。面对简单问题时,它以非思考模式快速作答;处理复杂问题时,则切换到思考模式,提供更具深度和逻辑的答案。用户可以通过官方App或网页端的“深度思考”按钮来切换这两种模式。

  

   与之前的DeepSeek-R1-0528相比,DeepSeek-V3.1在思考模式下的效率大幅提升,能在更短时间内给出答案,并且经过思维链压缩训练后热点话题,token消耗量减少了20%至50%,同时保持了与R1-0528相当的任务表现。此外,在非思考模式下,新模型的输出长度也得到了有效控制,能够在输出长度明显减少的情况下保持相同的性能。

   通过Post-Training优化,新模型在工具使用与编程、搜索等智能体任务中的表现大幅提升。在代码修复和命令行终端任务测试中,DeepSeek-V3.1的表现显著优于以往模型。社区第三方测试数据显示,在Aider多语言编程基准测试中,V3.1取得了71.6%的高分,超越了多个知名模型,完成一次编程任务的成本仅为1.01美元,成本效益优势显著。

   随着V3.1的发布,DeepSeek调整了API接口调用价格,并取消了夜间优惠。自北京时间2025年9月6日凌晨起,输入价格方面,缓存命中时为0.5元/百万tokens,缓存未命中时则涨至4元/百万tokens;输出价格调整为12元/百万tokens。DeepSeek还在评论区提到,DeepSeek-V3.1使用了UE8M0 FP8 Scale的参数精度,并对分词器及chat template进行了较大调整,与DeepSeek-V3存在明显差异。UE8M0 FP8是针对即将发布的下一代国产芯片设计的。DeepSeek-V3.1正式发布 新版本效率大幅提升 DeepSeek-V3.1正式发布 新版本效率大幅提升

相关文章

《探索·发现》 20250430 世纪考古大发现(19)

   本期节目主要内容:军事原料和冷热兵器,见证明末江口水战。巴蜀青铜器惊现江口,发掘现场迷雾重重。透过印章,穿越历史,考古人员与古人完成对线))...

146元一斤!浙江人都出动摘蓬蘽 野果采摘热潮再现

146元一斤!浙江人都出动摘蓬蘽 野果采摘热潮再现

   这几天,你的朋友圈是否被一种红红的野果刷屏了?据观察,山里都红了,不少人都在晒图。对许多杭州人来说,这些红果子是刻在骨子里的儿时回忆。不同镇街的人们给它起了不同的名字,余杭人叫它磨子...

旅客被困动车车厢4小时 有补偿吗?铁路部门回应无赔偿制度

旅客被困动车车厢4小时 有补偿吗?铁路部门回应无赔偿制度

   5月1日,哈尔滨铁路局D7987次列车出现晚点情况,有乘客称在停滞的车厢内封闭了4个小时以上。一位东北网友表示,他在5月1日晚乘坐D7987次列车(始发站哈尔滨,终点站七台河西),按...

苏杯石宇奇2比0奈良冈功大 直落两局胜出

苏杯石宇奇2比0奈良冈功大 直落两局胜出

   在刚刚结束的苏迪曼杯羽毛球团体赛半决赛中,中国选手石宇奇以2比0战胜了日本选手奈良冈功大,为中国队赢得了关键一分,使中国队总比分达到2比0领先。石宇奇在比赛中表现出色,两局比分分别为...

浙江女子因不想浪费丈夫基因,结婚13年生9个娃,只为凑齐12生肖 家庭与事业的双

浙江女子因不想浪费丈夫基因,结婚13年生9个娃,只为凑齐12生肖 家庭与事业的双

   李志强与张晓梅是一对充满拼搏精神的夫妻。2000年,李志强没有学历和背景,但决心改变命运,开始了奋斗之旅。张晓梅则是一位普通的乡村女孩,凭借智慧和毅力成为丈夫事业的重要支持者。...

男子举国旗夜爬石头山众人为他打光 山顶飘扬引欢呼

男子举国旗夜爬石头山众人为他打光 山顶飘扬引欢呼

   5月1日,在宁夏银川的滚钟口风景区,一名游客手持国旗夜爬石头山。周围的游客纷纷用电筒为他照亮上山路。当国旗在山顶飘扬时,现场所有人都欢呼起来。   ...