首个OpenAI免费推理模型o3-mini发布！DeepSeek让奥特曼反思：不开源我们错了 - 2023澳门资料大全正版资料免费下载

DeepSeek 真算是给大模型圈提了个速——

就在刚刚，OpenAI 深夜紧急发布了最新推理模型，o3-mini 系列。

一共包含三个版本：low、medium 和 high。

其中 o3-mini 和 o3-mini-high 已经上线：

根据官方口径，o3 系列模型，目标是推动低成本推理的边界。

ChatGPT Plus、团队和 Pro 用户从今天起可以访问 OpenAI o3-mini，企业级访问将在一周后开放。

免费用户也可以通过选择" Search+Reason "来使用 o3-mini 来体验搜索。

或许是被 DeepSeek 逼急了，这是 OpenAI 首次向用户免费推出的推理模型。

甚至在随后的 Reddit "有问必答"活动中，CEO 奥特曼也罕见公开反思：

在开源权重 AI 模型这个问题上， ( 个人认为）我们站在了历史错误的一边。

与此同时，短短数小时内，网友们已经开始疯狂实测 ing ……

针对 STEM 推理优化，但价格相较 DeepSeek-R1 依旧贵出天际

还是先来看看技术报告都写了啥。

去年年底，OpenAI 上线了 o3-mini 预览版，再次刷新小模型能力边界。（在成本和低延迟上与 o1-mini 相当）

当时 CEO 奥特曼预告称，正式版将在今年 1 月发布。而卡在 ddl 的最后时刻，正式版 o3-mini 终于上桌。

整体而言，和前一代 o1-mini 类似，它也针对 STEM（Science、Technology、Engineering、Mathematics）进行了优化，延续了 mini 系列小而美的风格。

仅 o3-mini（medium），不但在数学编码上的表现与 o1 系列相当，而且响应更快。

人类专家测评显示，大多数情况下 o3-mini 比 o1-mini 产生更准确、更清晰的答案，获得了56%的偏好度，同时在处理复杂现实问题时的重大错误率更是降低了39%。

数学能力上，低推理强度下的 o3-mini（low）达到了与 o1-mini 相当的水平；中等推理强度下能力媲美满血版 o1；而一旦推理强度拉满（high），其表现直接超越 o1 系列一众模型。

在由 60 多位顶尖数学家准备的 FrontierMath 难题测试中，高推理强度下的 o3-mini 相较 o1 系列也有了大幅提升。

官方甚至特意注明，如果搭配 Python 工具使用，o3-mini（high）在第一次尝试时就解决了超过32%的问题，其中包括 28% 以上的 T3 级问题。

科学能力方面，在 PhD 水平的物化生问题上，低推理强度下的 o3-mini 就已经和 o1-mini 拉开了层级。

当然，在编码这项重要能力上，o3-mini 更是在各层级上领先 o1 系列。

根据它们在 LiveBench 的表现可以看出，随着推理强度升级，o3-mini 的优势还在不断扩大。

而且需要提醒，o3-mini 在取得上述领先的同时响应更快，其平均响应时间为 7.7 秒，较 o1-mini 的 10.16 秒提升了 24%。

最后在安全评估方面，o3-mini 在多项安全评估中明显超过了GPT-4o。

价格方面，相比于输入 / 输出分别为 0.14/0.55 美元的 DeepSeek-R1，o3-mini 依旧贵出天际。

根据网友辣评，DeepSeek-R1 目前还是性价比之王：更快、更好、更便宜。

BTW，OpenAI 此次照例公布了 o3-mini 背后团队。可以看出，这一次是由奥特曼本人亲自带队，研究项目主管分别为 Carpus Chang 和 Kristen Ying（名单中也有很多我们熟悉的老朋友如任鸿宇、赵盛佳等）。

网友疯狂实测中

正如我们刚才所提到的，目前网友们已经开始疯狂实测中。

不过从评价上来看，大伙儿对 o3-mini 的表现褒贬不一。

例如在用 Python 实现"球在四维体内部弹跳"的任务上，有人认为 o3-mini 是最好的 LLM：

效果是这样的：

然后有网友尝试用 DeepSeek 来做同样的任务，从效果上来看，认为 o3-mini 稍微胜出一些：

更直接的对比，让一个球在旋转的六边形内弹跳，球应受到重力和摩擦力的影响，o3-mini 和 DeepSeek R1 的效果差距就比较明显了：

包括更复杂的一些的任务，在球体内创建 100 个弹跳的黄色球，o3-mini 现在也是可以做到：

再如让 o3-mini 设计两个贪吃蛇互相竞争的游戏：

除了 DeepSeek 之外，网友也用 o1 和 o3-mini 的效果做了对比，例如生成一座庞大、惊人的史诗级漂浮城市。

还有一位网友提出了令几乎所有大模型都会出错的迷惑性题目，但让他较为震惊的是，o3-mini 竟然答对了：

不过知名播客博主 Lex Fridman 对 o3-mini 的评价却是：

OpenAI o3-mini 是一个好模型，但 DeepSeek R1 性能相似，价格更低，并揭示了其推理过程。

更好的模型将会出现（迫不及待想要 o3-pro），但" DeepSeek 时刻"是真实的。我认为五年后它仍会被记住，作为科技历史上的一个转折点。

One More Thing

就在 o3-mini 上线几小时后，奥特曼本人也携团队参与了 Reddit 的"有问必答"活动。

考虑到开源 DeepSeek 最近搅动了 AI 圈，奥特曼罕见公开反思：

在开源权重 AI 模型这个问题上， ( 个人认为）我们站在了历史错误的一边。

甚至也承认，OpenAI 的领先优势不会像以前那么大了。

DeepSeek 的确很优秀，我们也会继续研发更好的模型，但领先优势将更小。

与此同时，OpenAI 的一些未来计划也曝光了。

比如高级语音模式即将迎来更新，OpenAI 会直接称它为 GPT-5，而不是 GPT-5o，不过目前还没有具体时间表。

另外，推理模型也将支持调用更多工具。

最后，满血版 o3 也被提及，不过看起来距离还相当遥远……

参考链接：

[ 1 ] https://x.com/OpenAI/status/1885463144153195005

[ 2 ] https://x.com/stalkermustang/status/1885471704396308903

[ 3 ] https://x.com/Yuchenj_UW/status/1885416559029740007

上一篇：一到冬季就腹泻拉肚子, 多半是阳气不足, 3个方法能“搞定”腹泻

下一篇：福特领裕插混重构中大型SUV, 油耗痛点不再是难题