GPT-5基准图错误遭全网吐槽 直播小bug引发热议

2小时前热点话题5

  GPT-5基准图错误遭全网吐槽 直播小bug引发热议!等了多年的 GPT-5 终于在一个凌晨发布了。直播中,OpenAI 的几位核心人员显得非常紧张,奥特曼在直播过程中连发十几条推特介绍 GPT-5 的特点。

  

  GPT-5 是一个集成模型,用户不需要在不同模型之间切换,它会自己决定何时需要深入思考。尽管奥特曼强调基准测试不重要,但他们还是公布了一些跑分结果:数学领域 AIME 测试达到 94.6%;实际编程应用 SWE-bench Verified 达到 74.9%热点话题,Aider Polyglot 达到 88%;多模态理解 MMMU 达到 84.2%;健康领域 HealthBench Hard 达到 46.2%。通过 GPT-5 Pro 的扩展推理能力,该模型还在 GPQA 测试中创造了新的 SOTA,得分 88.4%。

  

  费用方面,GPT-5 分为免费版、Plus 和 Pro 计划。免费版也能使用带推理功能的 GPT-5 普通版,Plus 用户在使用频率上限制更少,而 Pro 用户可以使用 GPT-5 Pro。面向开发者,标准版 GPT-5 API 价格为每百万输入 Token 1.25 美元,每百万输出 Token 10 美元,GPT-5 mini 版和 Nano 版则更便宜。

  

  直播中,OpenAI 展示了 GPT-5 在教育、写作、编程、语音等多个方面的应用。例如,在教育方面,它可以生成数百行代码并解释复杂概念;在写作方面,GPT-5 的文笔比 GPT-4 更好;在编程方面,它可以在几分钟内创建一个法语学习网页;语音模式也得到了升级,更适合学外语。此外,GPT-5 还优化了“AI 看病”功能,并请了一位癌症患者分享她的经历。GPT-5基准图错误遭全网吐槽 直播小bug引发热议

“GPT-5基准图错误遭全网吐槽 直播小bug引发热议” 的相关文章

多家网红轻食餐实际高脂高钠 部分轻食碗“超重”问题突出

多家网红轻食餐实际高脂高钠 部分轻食碗“超重”问题突出

  多家网红轻食餐实际高脂高钠 部分轻食碗“超重”问题突出!近期,市场上部分轻食碗存在高脂高钠问题。在超级碗FOODBOWL、盒马鲜生、Wagas沃歌斯、油梨树AVOCADO TREE等品...

董袭莹被曝学术历程“魔幻” 跨领域指导引热议

董袭莹被曝学术历程“魔幻” 跨领域指导引热议

  近日,北京中日友好医院胸外科副主任医师肖飞被妻子举报婚内出轨多人一事引发广泛关注。肖飞的妻子在举报信中提到,肖飞与规培住院医师董袭莹有不正当关系,并利用职权违规将她留在胸外科规培,这引...

《一线》 20250430 妻子的最后呼救

  本期节目主要内容: 王力和方华(化名)经营着一家废品收购站,他俩结婚多年,育有一儿一女,尽管废品收购站的生意不错,但孩子们的学费和家庭的日常开销让夫妻俩的日子过得并不轻松,这对夫妻会经...

巴菲特反对特朗普关税 贸易不应成为武器

  在内布拉斯加州奥马哈市举行的年度股东大会上,巴菲特批评了关税和保护主义,称“贸易不应成为武器”。他虽然没有直接点名美国总统特朗普,但明确表示对其他国家加征惩罚性关税是一个重大错误。...

《一线》 20250502 一线探案 幸存者

  本期节目主要内容: 在一处居民楼里,几个工友发现老板李平(化名)遇害,他们第一时间报了警,而在工友报警前5分钟,警方也接到了一个女人的报警电话,报警人是马芳(化名)。(《一线 一线探案...

不出口美国了 上海市民疯狂“捡漏” 外贸优品热销

不出口美国了 上海市民疯狂“捡漏” 外贸优品热销

  “五一”小长假期间,上海各大商场超市人头攒动,“外贸优品”专区销售火爆。许多出口转内销的商品受到市民青睐。   ...