当前位置:首页 > 热点关注 > 正文内容

DeepSeek-V3.1正式发布 新版本效率大幅提升

2周前 (08-22)热点关注39

   DeepSeek用户期待的R2模型尚未到来,但V3.1版本已经发布。8月21日,DeepSeek官方公众号宣布最新大语言模型DeepSeek-V3.1正式上线,距离上一个版本DeepSeek-V3-0324已有五个月。

  

   新版本在三个方面进行了升级:混合推理架构、更高的思考效率以及更强的Agent能力。从命名来看热点话题,DeepSeek-V3.1似乎是前一代DeepSeek-V3的小版本迭代。该模型支持两种工作模式——思考模式和非思考模式。面对简单问题时,它以非思考模式快速作答;处理复杂问题时,则切换到思考模式,提供更具深度和逻辑的答案。用户可以通过官方App或网页端的“深度思考”按钮来切换这两种模式。

  

   与之前的DeepSeek-R1-0528相比,DeepSeek-V3.1在思考模式下的效率大幅提升,能在更短时间内给出答案,并且经过思维链压缩训练后热点话题,token消耗量减少了20%至50%,同时保持了与R1-0528相当的任务表现。此外,在非思考模式下,新模型的输出长度也得到了有效控制,能够在输出长度明显减少的情况下保持相同的性能。

   通过Post-Training优化,新模型在工具使用与编程、搜索等智能体任务中的表现大幅提升。在代码修复和命令行终端任务测试中,DeepSeek-V3.1的表现显著优于以往模型。社区第三方测试数据显示,在Aider多语言编程基准测试中,V3.1取得了71.6%的高分,超越了多个知名模型,完成一次编程任务的成本仅为1.01美元,成本效益优势显著。

   随着V3.1的发布,DeepSeek调整了API接口调用价格,并取消了夜间优惠。自北京时间2025年9月6日凌晨起,输入价格方面,缓存命中时为0.5元/百万tokens,缓存未命中时则涨至4元/百万tokens;输出价格调整为12元/百万tokens。DeepSeek还在评论区提到,DeepSeek-V3.1使用了UE8M0 FP8 Scale的参数精度,并对分词器及chat template进行了较大调整,与DeepSeek-V3存在明显差异。UE8M0 FP8是针对即将发布的下一代国产芯片设计的。DeepSeek-V3.1正式发布 新版本效率大幅提升 DeepSeek-V3.1正式发布 新版本效率大幅提升

相关文章

佳缘科技55岁女董事长被留置 公司运营暂由副董接管

佳缘科技55岁女董事长被留置 公司运营暂由副董接管

   4月28日晚间,佳缘科技发布公告称,公司当日收到某单位监察委员会签发的关于公司控股股东、实际控制人之一、董事长王进的《留置通知书》和《立案通知书》。目前,公司尚未收到相关机关的其他通...

美元兑日元突破144 阻力位前停滞不前

   北京时间4月27日市场休市。上一交易日,美元兑日元收盘报143.62,涨幅0.66%。尽管有所反弹,美元兑日元在144关口前停滞不前。    日元表现不佳,美元兑日...

业内回应肖某辩称离场四十分钟不实 医疗规范不容妥协

业内回应肖某辩称离场四十分钟不实 医疗规范不容妥协

   北京中日友好医院副主任医师肖飞因被举报出轨多人及在手术期间离场四十分钟,最终被医院解除聘用关系。肖飞在接受采访时回应称,“离场四十分钟”的说法不实,他只因与人争论而短暂离开手术室约一...

蔚来4月交付新车23900台 同比增53% 双品牌齐发力

   5月1日,蔚来公司公布了2025年4月的交付数据。当月,蔚来共交付新车23900台,同比增长53%,环比增长58.9%。具体来看,蔚来品牌交付了19269台新车,而乐道品牌则交付了4...

五一小长假多地疯狂“抢游客” 消费券大战开启

   前几日,“专家建议五一拿出一万亿促消费”的消息引发广泛关注。尽管该建议尚未实施,但多个地方已推出大手笔消费券吸引游客。减免门票、增加文旅节目已成为基本操作,各地消费券金额也屡创新高。...

《24小时》 20250501

   本期节目主要内容: 激情假期,活力中国·“五一”假期首日:全社会跨区域人员流动量预计超3.4亿人次;美国第一季度经济环比萎缩0.3%,三年来首次出现负增长:三年来,最差季度表现;布帕...