文 | 科技旋涡
为了应对开源竞争对手 DeepSeek-R1 的迅速崛起,OpenAI 发布了新的专有 AI 模型—— o3-mini。然而,这款新模型是否足以削弱 DeepSeek 的成功,仍然是一个疑问。
今天,OpenAI 正式发布了 o3-mini,这是其"推理者"系列中的第二款模型。该系列的模型需要更多时间进行"思考",分析自己的过程,并反思自己的"思维链",然后才能回答用户的提问。最终,这款模型能够在数学、科学、工程等多个领域提供类似博士生或学位持有者的解答。
o3-mini 现已在 ChatGPT 和 OpenAI 的 API 中提供,包括免费的用户也可以使用。而且,它的性能比之前的高端模型 o1 以及其低参数版本 o1-mini 更优,且价格更低。
尽管 o3-mini 发布的时机被认为可能是对 DeepSeek-R1 的回应,但需要指出的是,o3 和 o3-mini 早在 2024 年 12 月就已经宣布。OpenAI 的 CEO Sam Altman 曾表示,由于开发者和研究人员的反馈,o3 将在 ChatGPT 和 OpenAI API 上同时发布。
与 DeepSeek-R1 不同,o3-mini 并不会以开源形式发布——这意味着用户无法下载代码进行离线使用,也不能像 DeepSeek-R1 那样进行高度定制,这可能会在某些应用场景下限制它的吸引力。
OpenAI 没有提供关于更大版本 o3 模型的更多细节,这款模型早在 2024 年 12 月与 o3-mini 一同发布。当时,OpenAI 表示 o3 模型的测试将会有几周的延迟,第三方测试需要等待一段时间。
性能与特点
类似于 o1,o3-mini 在数学、编程和科学推理方面表现出色。
在使用中等推理难度时,o3-mini 的表现与 o1 相当,但它有以下几大优势:
· 相比 o1-mini,响应速度提高了 24% ( 例如,o1-mini 的响应时间为 12.8 秒,处理 100 个 token 的输出。而 o3-mini 的响应时间将缩短至约 10.32 秒 ) 。
· 准确性提升,外部测试者更倾向于选择 o3-mini 的回答,偏好率达到 56%。
· 复杂的现实问题中,错误率减少了 39%。
· 在编程和 STEM 任务中表现优异,尤其是在高推理难度时。
· 提供三种推理难度级别 ( 低、中、高 ) ,使得用户和开发者可以在准确性与速度之间找到最佳平衡。
o3-mini 的上下文窗口为 200,000 个 token,每次输出最多为 100,000 个 token。这一性能与 o1 相同,并且优于 DeepSeek-R1 的上下文窗口 ( 约 128,000 到 130,000 个 token ) 。但这一数字仍然远低于 Google Gemini 2.0 Flash Thinking 的新上下文窗口,后者支持高达 100 万个 token。

说明:
· GPQA Diamond: 这是一个评估模型在通用问题解答能力上的指标。
· AIME 2022-2024: 这是美国数学邀请赛 ( American Invitational Mathematics Examination ) 的一个分数段,用于评估模型在数学推理和解题能力上的表现。
· Codeforces ELO: 这是编程竞赛平台 Codeforces 上的一种评分系统,类似于国际象棋中的 Elo 评级系统,用于评估模型在编程任务上的表现。
虽然 o3-mini 专注于推理,但目前它还不具备视觉能力。如果开发者和用户需要上传图片或文件,仍然需要使用 o1。
竞争加剧
o3-mini 的发布标志着 OpenAI 首次向免费用户提供推理模型。此前,o1 系列模型仅限于 ChatGPT Plus、Pro 等付费用户使用,或者通过 OpenAI 的付费 API。
通过 2022 年 11 月推出 ChatGPT,OpenAI 开启了大语言模型 ( LLM ) 聊天机器人的新领域。而在 2024 年 9 月,OpenAI 推出 o1 系列模型,正式开创了推理模型这一新类别,采用了新的训练机制和架构。
然而,OpenAI 并没有将 o1 开源,这与其名称和最初的创立理念相悖。与之相对,DeepSeek 的 R1 模型采用了开源方式,且完全免费,允许全球用户自由使用、修改和定制。R1 模型的训练成本远低于 o1 和其他顶级实验室的模型,因此在消费市场和企业市场中获得了广泛应用,甚至 OpenAI 的投资方微软和 Anthropic 的支持者亚马逊也快速将其添加到自己的云市场中。
DeepSeek 还推出了免费的应用和网站,并允许用户对 R1 模型进行修改和定制,这使得它在消费者和企业市场迅速崛起。DeepSeek 的这种开源政策以及低成本训练,使其成为了一个强有力的竞争者。
ChatGPT 中的可用性
o3 现在在全球范围内推向 ChatGPT Free、Plus、Team 和 Pro 用户,Enterprise 和 Education 版本将在下周推出。
免费用户可以通过选择聊天栏中的" reason ( 推理 ) "按钮或重新生成回答来首次体验 o3-mini。

Plus 和 Team 用户的消息限制提高了 3 倍,从每天 50 条增加到 150 条。
Pro 用户将能够无限制使用 o3-mini 以及一个新的更高推理版本—— o3-mini-high。
此外,o3-mini 现在支持与搜索功能的集成,用户将能够获得包含相关网页链接的回答。这个功能仍处于初期阶段,OpenAI 正在不断改进推理模型中的搜索能力。

API 集成与定价
对于开发者,o3-mini 已通过 Chat Completions API、Assistants API 和 Batch API 提供。该模型支持功能调用、结构化输出和开发者消息,便于开发者将其集成到实际应用中。
o3-mini 的最大优势之一是其成本效益:它比 o1-mini 便宜 63%,比完整的 o1 模型便宜 93%,每百万 token 的进出费用分别为 1.10 美元 /4.40 美元 ( 享有 50% 的缓存折扣 ) 。
尽管如此,DeepSeek 的 R1 模型的 API 价格仍然更具优势,仅为 0.14 美元 /0.55 美元每百万 token 进出。但考虑到 DeepSeek 总部位于中国,涉及到一些国外老生常谈的"用户数据流动的安全与地缘政治问题",OpenAI 可能仍将是美国和欧洲一些注重安全的客户和企业的首选。
开发者可以根据应用需求调整推理难度 ( 低、中、高 ) ,以控制延迟和准确性之间的平衡。
安全性与隐私保护
OpenAI 表示,在 o3-mini 中采用了"深思熟虑对齐"的方法。这意味着模型会思考并理解人类编写的安全指南,理解这些指南的意图和预防的危害,并且会提出自己的方法确保这些危害得到有效避免。OpenAI 表示,这样可以使模型在讨论敏感话题时更加宽容,同时保持高安全性。
OpenAI 称,o3-mini 在处理安全性和越狱挑战时,优于 GPT-4o。该模型在发布前进行了广泛的安全性测试。
最近有一些国外的第三方报道指出,DeepSeek 的 R1 模型在 50 次越狱测试中"全部失败",这将使得一些国外媒体宣传 o3-mini 在需要高安全性的场合更具优势。
结语:未来展望
o3-mini 的发布标志着 OpenAI 进一步努力让先进的推理 AI 变得更加普及和高效,特别是在 DeepSeek R1 等竞争者的压力下。Google 也在推出其竞争性推理模型 Gemini 2 Flash Thinking,并扩展了输入上下文,支持高达 100 万个 tokens。
OpenAI 聚焦于 STEM 推理和成本效益,旨在扩大 AI 驱动的解决方案在消费者和开发者中的应用。
然而,随着 OpenAI 不断扩展雄心,最近宣布的一个由软银支持的 5000 亿美元数据中心基础设施项目 Stargate,问题仍然存在:它的战略是否足以让这些巨额投资获得回报 ? 随着开源模型不断接近 OpenAI 的性能并在成本上超越它,OpenAI 是否能凭借其安全性、强大的能力、易用的 API 和用户友好的界面维持现有客户,特别是在企业市场上 ? 我们将继续关注这些发展。