申志根报道编辑:桃子很困【申志根介绍】深夜,OpenAI发布了“双子座”GPT-5.4 mini和nano。实力接近纯种版,速度和成本都很优秀。无论是作为领带还是作为主菜“龙虾”,真的都很美味! OpenAI什么也没说,又扔下了一个重磅炸弹。今天GPT-5.4 mini和GPT-5.4 nano正式推出。无需热身或倒计时。只需连接即可。这两个模型想要解决的问题非常明确。如何让人工智能在现实生产环境中快速、准确且经济高效地发挥作用?继承了GPT-5.4的核心优势,提供最大速度和低成本,使其成为最佳的轻量级模型。先说最爆炸的数字: 编码(SWE-Bench Pro):GPT-5.4 mini 得分为 54.4%,而完整版 GPT-5.4 得分为 57.7%。计算机使用tadora(经OSWorld验证):GPT-5.4 mini得分为72.1%,与GPT-5.4(75%)相当。毛皮此外,对于推理和工具调用等任务,mini 的优势直接接近 GPT-5.4。此外,与上一代 GPT-5 mini 相比,GPT-5.4 mini 现在的运行速度是原来的两倍。网友坦言,mini和nano可以作为《龙虾》的主打车型! GPT-5.4 mini 拥有 400k 的大背景,入场价格为 0.75 美元/100 万个代币,退出价格为 4.5 美元/100 万个代币。 GPT-5.4 nano 的入场价格为 0.2 美元/百万代币,退出价格为 1.25 美元/百万代币。与GPT-5.4相比,mini量产的价格是1/3,而nano的价格仅为1/12。现在三个词同时成立:快、强、便宜。六个月前,这根本是不可能的。有人试了一下,惊叹道:“真香啊!”不仅快Claude还比Opus便宜4.69倍。 《代码恐怖进化》mini 等于“完全健康”,nano 比上一代更好。我们先看一下编码。 SWE-Bench Pro i目前是衡量大型模型“真实编码能力”最严格的基准之一。不需要填空问题,但它允许模型直接在 GitHub 上的真实软件中修复错误。 GPT-5.4 mini 的得分为 54.4%,与完全规格的 GPT-5.4(57.7%)仅相差 3.3%。这意味着在解决实际工程问题时,针对速度和成本进行优化的小型模型处于旗舰模型的高端。上一代的GPT-5 mini只有45.7%。从 Mini 到 Mini,一代人的时间跃升了近 9%。 Terminal-Bench Gap2.0就更夸张了。 GPT-5.4 mini 得分为 60.0%,而 GPT-5 mini 得分仅为 38.2%,这是一个显着的提升。超过57%。即使是最小的 Nano 在 SWE-Bench Pro 上也得分为 52.4%。这比上一代 mini 贵了近 7%。它是一个定位于“数据分类和提取”的超轻量模型,其编码能力为彻底超越了上一代中量级选手。这表明近几个月来蒸馏模型的发展速度有多快。对于开发者来说,这个数据集的实际意义非常简单。所有不需要旗舰机“快速思考”的编码任务,例如定向代码更改、启动页面生成、调试循环和代码库检索,都可以交给迷你版,迷你版速度快一倍,成本低得多,而且效率损失很小。博士级推理、调用复杂工具和双重淘汰编码只是其中的几个方面。推理和工具调用能力决定了模型是否能够真正“工作”。 GPQA Diamond 是一名博士。科学推理的参考。 GPT-5.4 mini 的得分达到了 88%,与 GPT-5.4 的差距仅 5%。另一个值得注意的功能是“工具调用”功能。 Toolathlon 主要测试复杂工具链中模型的性能。而不是简单地调用API 一次,在多步骤任务中适当组合、重新排序和使用多个工具。结果,GPT-5.4 mini 得分为 42.9%,完全超越 GPT-5 mini(26.9%)。此外,在专门针对电信行业的基准测试 Bank τ2 上,themini 获得了 93.4% 的极高分数,几乎等于完整版的 98.9%,并且大幅领先于 GPT-5 mini(74.1%)。在另一个调用基准的工具 MCP Atlas 上,GPT-5.4 mini 的胜率高达 57.7%,而 GPT-5 mini 的胜率仅为 47.6%。这些数字加起来就是一句话:GPT-5.4 mini不仅仅是一个“缩小版的智能模型”,而是真正的执行能力,可以在生产环境中独立完成复杂的任务链。 《龙虾》的主打小模型还可以“边看屏幕边工作”。 GPT-5.4 mini真正令人惊奇的是它在计算机使用中的表现。人们如何使用计算机?眼睛看到屏幕上的用户界面元素,大脑决定点击位置,双手操作鼠标和键盘。如果人工智能真的想成为“网络助理道德”,你还需要学习这一点。这意味着快速分析充满信息的屏幕截图,查找按钮、输入框和数据列表,并采取正确的操作。 OSWorld-Verified测试的是“视觉理解+推理+操作”三位一体的整体能力。在这份榜单中,GPT-5.4 mini 得分为 72.1%,旗舰 GPT-5.4 得分为 75.0%。差异小于 3%。相比之下,GPT-5 mini 只有 42.0%,一代电脑的使用率几乎翻了一番。不过,nano 在本次测试中只取得了 39.0% 的成绩,略低于上一代 GPT-5 mini 的 42.0%。这说明计算机密集型任务对模型视觉推理能力的门槛要求很高,无法通过简单缩小模型来维持。 (包括herPython工具),mini得分78.0%,flagship版本得分81.5%。差距也很小。该基准测试涵盖了广泛的复杂问题,需要结合使用视觉信息和数学/编码工具进行推理。这组结果对一个特定方向具有重要意义:人工智能代理。小模型能够快速分析信息密集的 UI 屏幕截图并以低延迟做出正确的操作决策,这使得它们成为创建实时、低成本、快速响应、高性能计算代理的理想引擎。在最近接受 TBPN 采访时,奥尔特曼阐明了他对下一步行动的愿景。 OpenAI 计划发布 Codex 的进化版。新版本超越了编程的范畴,演变成“控制或”的强大工具。在他们的愿景中,人们将能够完全通过手机启动和管理新任务。真正的终极体验是使用基于集成后端的个人AI。您可以访问您的所有个人数据、想法、材料和存储器,并在多设备任务子代理范例中无缝执行大规模模型决策和小规模模型执行。在这个版本中,OpenAI 投入了大量的篇幅来详细解释概念。这意味着最好的人工智能系统不会使用最大的模型来处理它。一切。他们提出的架构思想非常清晰。 GPT-5.4旗舰模型负责规划、协调和做出最终决策,并将具体任务分配给GPT-5.4迷你子代理并行执行。搜索代码库、审查大文件并处理支持文档。不需要“深入思考”但需要“快速完成”的任务将转移到迷你。 Codex 已经实现了这种架构。开发人员可以让GPT-5.4制定总体计划并自动调度迷你子代理来执行每个子任务。此外,mini 仅消耗 GPT-5.4 Codex 配额的 30%。这意味着你可以做三倍的事情相同预算下的小任务。这种“层次化编程”的思想其实是整个AI行业的共识。与其追求一个无所不能的超大型模型,不如构建一个分工明确的模型协作体系。旗舰款就像一个统帅,迷你款就像一个执行单位,纳米款就像一个处理琐事的助手。对于开发人员来说,这意味着他们必须以不同的方式思考架构设计。它曾经是:“选择最强大的模型并将所有任务奉献给它。”现在,它“根据任务的复杂性动态路由到模型的不同级别”。 Hebbia CTO Aabhas Sharma 的评价非常典型。 GPT-5.4 mini 在多个输出和参考检索任务中以低得多的成本匹配或优于竞争模型,并且还比大型模型实现了更高的端到端通过率。 “小模型更好”,声明两年前这似乎是一个幻想,现在已成为工程实践中的现实。完全实施并且也可供免费用户使用。 GPT-5.4 mini现已全面上线,API、Codex、ChatGPT同时开放。该 API 的输入价格为 0.75 美元/百万代币,输出为 4.50 美元/百万代币,具有 40 万文本上下文 window.nes、工具使用、函数调用、网络搜索、文件搜索和计算机使用。 GPT-5.4 nano 仅通过 API 提供,输入价格为 0.20 美元/百万代币,输出价格为 1.25 美元/百万代币。我们来比较一下。 GPT-5.4 nano的入门价格约为mini的1/4,退出价格不到mini的1/3。对于数据排序、挖掘、排序等高频但低复杂度的任务,nano的成本效益几乎是无与伦比的。在ChatGPT方面,GPT-5.4 mini可供免费用户和Go用户使用,并且可以从菜单中的“Think”功能中使用。对于付费用户,mini将自动用作d一旦您的 GPT-5.4 思维配额耗尽,您可以选择自己的等级替代方案。这个策略非常聪明,让免费用户体验到强大的推理能力,降低了使用门槛,扩大了用户群。对于付费用户来说,mini的存在大大减轻了他们的“极限焦虑”。 mini的缺点是上下文较长。当然,mini也并非没有弱点。在长上下文处理上,GPT-5.4 mini与旗舰版的差距比其他维度更加明显。在 OpenAI MRCR v2 测试中,在 64K 到 128K 窗口的 8-pin 搜索任务中,GPT-5.4 得分为 86.0%,而 mini 仅得分 47.7%,相差近 40 个百分点。在 128K 至 256K 范围内,这一差异进一步扩大至 79.3% 和 33.6%。 Graphwalks 的一系列测试显示了类似的趋势。在父节点跟踪任务中,GPT-5.4得分为89.8%,mini得分为71.5%。这说明在信息检索和日志准确的场景下对于超长文本的追踪,mini 的功能顶部明显小于旗舰版。对于需要处理大规模文档分析、长时间对话的记忆保留等任务的开发者来说,GPT-5.4 仍然是一个不可替代的选择。不过话虽如此,这也印证了OpenAI的产品分类逻辑:针对不同的任务使用不同的模型。迷你版不必在各方面都与旗舰版相同。您所需要的只是在您的主要关注点上具有良好的性能:速度、编码、调用工具和使用计算机。这不是结束,而是科技疯狂的起点,但人类的情感要复杂得多。今天早上,Altman 在 X 上发帖:我非常感谢那些逐字逐句编写非常复杂的软件的人。现在想起来都很难,尽管过去要花很长时间。感谢您指导我们走到今天。评论区瞬间炸开了锅。许多开发人员还理解其他含义。我们感谢您的贡献,但未来人工智能将完成这项工作。有人回复:谢谢,原来我们的报酬是失业。一些人还指出了围绕训练数据的争议。该模型本身接收了这些开发人员的代码,但现在已被这些开发人员所取代。怎么能称之为感恩呢?但一些人借此机会提出了值得考虑的问题。当AI解决语法层面时,软件工程的竞争力核心是否应该从“如何写代码”转向“如何设计系统”?争议就是争议,情绪并不能阻止潮流。如果我们回顾科技史,从大型计算机到个人电脑,再到拨号上网和移动互联网,并不是所有真正的技术革命都是通过最强大、最昂贵的产品来实现的。这场革命已经完成的一个标志是,这项技术将像水一样廉价、难以察觉且无处不在。d 电力。 GPT-5.4 mini在SWE-Bench Pro中达到旗舰版的94%,在OSWorld中达到96%,在GPQA Diamond中达到95%。速度是之前版本的两倍,而成本只是旗舰版本的一小部分。我去看看。对于普通开发者来说,这意味着以前只有大型制造商才能使用的人工智能功能现在可以以最低的价格获得。对于AI应用创业者来说,这意味着他们产品的推理成本可以再降低一个数量级。对于整个行业来说,这意味着人工智能采用的步伐将进一步加快。这是因为小型模型正在陆续摧毁阻碍人工智能发展的两大障碍:成本和延迟。大模型负责思考,小模型负责做。旗舰模型定义了智能的上限,而较小的模型则将人工智能的毛细血管扩展到任何应用程序。这不再是一个愿景,而是一个建筑今天可以执行的结构。参考文献:https://openai.com/index/introtaining-gpt-5-4-mini-and-nano/https://x.com/OpenAI/status/2033953592424731072?s=20
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。