OpenAI推出o3-mini：对抗DeepSeek崛起的新利器？-钛媒体官方网站

发布日期：2025-02-04 点击次数：64

文 | 科技旋涡

为了应对开源竞争对手 DeepSeek-R1 的迅速崛起，OpenAI 发布了新的专有 AI 模型—— o3-mini。然而，这款新模型是否足以削弱 DeepSeek 的成功，仍然是一个疑问。

今天，OpenAI 正式发布了 o3-mini，这是其"推理者"系列中的第二款模型。该系列的模型需要更多时间进行"思考"，分析自己的过程，并反思自己的"思维链"，然后才能回答用户的提问。最终，这款模型能够在数学、科学、工程等多个领域提供类似博士生或学位持有者的解答。

o3-mini 现已在 ChatGPT 和 OpenAI 的 API 中提供，包括免费的用户也可以使用。而且，它的性能比之前的高端模型 o1 以及其低参数版本 o1-mini 更优，且价格更低。

尽管 o3-mini 发布的时机被认为可能是对 DeepSeek-R1 的回应，但需要指出的是，o3 和 o3-mini 早在 2024 年 12 月就已经宣布。OpenAI 的 CEO Sam Altman 曾表示，由于开发者和研究人员的反馈，o3 将在 ChatGPT 和 OpenAI API 上同时发布。

与 DeepSeek-R1 不同，o3-mini 并不会以开源形式发布——这意味着用户无法下载代码进行离线使用，也不能像 DeepSeek-R1 那样进行高度定制，这可能会在某些应用场景下限制它的吸引力。

OpenAI 没有提供关于更大版本 o3 模型的更多细节，这款模型早在 2024 年 12 月与 o3-mini 一同发布。当时，OpenAI 表示 o3 模型的测试将会有几周的延迟，第三方测试需要等待一段时间。

性能与特点

类似于 o1，o3-mini 在数学、编程和科学推理方面表现出色。

在使用中等推理难度时，o3-mini 的表现与 o1 相当，但它有以下几大优势：

· 相比 o1-mini，响应速度提高了 24% ( 例如，o1-mini 的响应时间为 12.8 秒，处理 100 个 token 的输出。而 o3-mini 的响应时间将缩短至约 10.32 秒 ) 。

· 准确性提升，外部测试者更倾向于选择 o3-mini 的回答，偏好率达到 56%。

· 复杂的现实问题中，错误率减少了 39%。

· 在编程和 STEM 任务中表现优异，尤其是在高推理难度时。

· 提供三种推理难度级别 ( 低、中、高 ) ，使得用户和开发者可以在准确性与速度之间找到最佳平衡。

o3-mini 的上下文窗口为 200,000 个 token，每次输出最多为 100,000 个 token。这一性能与 o1 相同，并且优于 DeepSeek-R1 的上下文窗口 ( 约 128,000 到 130,000 个 token ) 。但这一数字仍然远低于 Google Gemini 2.0 Flash Thinking 的新上下文窗口，后者支持高达 100 万个 token。

说明：

· GPQA Diamond: 这是一个评估模型在通用问题解答能力上的指标。

· AIME 2022-2024: 这是美国数学邀请赛 ( American Invitational Mathematics Examination ) 的一个分数段，用于评估模型在数学推理和解题能力上的表现。

· Codeforces ELO: 这是编程竞赛平台 Codeforces 上的一种评分系统，类似于国际象棋中的 Elo 评级系统，用于评估模型在编程任务上的表现。

虽然 o3-mini 专注于推理，但目前它还不具备视觉能力。如果开发者和用户需要上传图片或文件，仍然需要使用 o1。

竞争加剧

o3-mini 的发布标志着 OpenAI 首次向免费用户提供推理模型。此前，o1 系列模型仅限于 ChatGPT Plus、Pro 等付费用户使用，或者通过 OpenAI 的付费 API。

通过 2022 年 11 月推出 ChatGPT，OpenAI 开启了大语言模型 ( LLM ) 聊天机器人的新领域。而在 2024 年 9 月，OpenAI 推出 o1 系列模型，正式开创了推理模型这一新类别，采用了新的训练机制和架构。

然而，OpenAI 并没有将 o1 开源，这与其名称和最初的创立理念相悖。与之相对，DeepSeek 的 R1 模型采用了开源方式，且完全免费，允许全球用户自由使用、修改和定制。R1 模型的训练成本远低于 o1 和其他顶级实验室的模型，因此在消费市场和企业市场中获得了广泛应用，甚至 OpenAI 的投资方微软和 Anthropic 的支持者亚马逊也快速将其添加到自己的云市场中。

DeepSeek 还推出了免费的应用和网站，并允许用户对 R1 模型进行修改和定制，这使得它在消费者和企业市场迅速崛起。DeepSeek 的这种开源政策以及低成本训练，使其成为了一个强有力的竞争者。

ChatGPT 中的可用性

o3 现在在全球范围内推向 ChatGPT Free、Plus、Team 和 Pro 用户，Enterprise 和 Education 版本将在下周推出。

免费用户可以通过选择聊天栏中的" reason ( 推理 ) "按钮或重新生成回答来首次体验 o3-mini。

Plus 和 Team 用户的消息限制提高了 3 倍，从每天 50 条增加到 150 条。

Pro 用户将能够无限制使用 o3-mini 以及一个新的更高推理版本—— o3-mini-high。

此外，o3-mini 现在支持与搜索功能的集成，用户将能够获得包含相关网页链接的回答。这个功能仍处于初期阶段，OpenAI 正在不断改进推理模型中的搜索能力。

API 集成与定价

对于开发者，o3-mini 已通过 Chat Completions API、Assistants API 和 Batch API 提供。该模型支持功能调用、结构化输出和开发者消息，便于开发者将其集成到实际应用中。

o3-mini 的最大优势之一是其成本效益：它比 o1-mini 便宜 63%，比完整的 o1 模型便宜 93%，每百万 token 的进出费用分别为 1.10 美元 /4.40 美元 ( 享有 50% 的缓存折扣 ) 。

尽管如此，DeepSeek 的 R1 模型的 API 价格仍然更具优势，仅为 0.14 美元 /0.55 美元每百万 token 进出。但考虑到 DeepSeek 总部位于中国，涉及到一些国外老生常谈的"用户数据流动的安全与地缘政治问题"，OpenAI 可能仍将是美国和欧洲一些注重安全的客户和企业的首选。

开发者可以根据应用需求调整推理难度 ( 低、中、高 ) ，以控制延迟和准确性之间的平衡。

安全性与隐私保护

OpenAI 表示，在 o3-mini 中采用了"深思熟虑对齐"的方法。这意味着模型会思考并理解人类编写的安全指南，理解这些指南的意图和预防的危害，并且会提出自己的方法确保这些危害得到有效避免。OpenAI 表示，这样可以使模型在讨论敏感话题时更加宽容，同时保持高安全性。

OpenAI 称，o3-mini 在处理安全性和越狱挑战时，优于 GPT-4o。该模型在发布前进行了广泛的安全性测试。

最近有一些国外的第三方报道指出，DeepSeek 的 R1 模型在 50 次越狱测试中"全部失败"，这将使得一些国外媒体宣传 o3-mini 在需要高安全性的场合更具优势。

结语：未来展望

o3-mini 的发布标志着 OpenAI 进一步努力让先进的推理 AI 变得更加普及和高效，特别是在 DeepSeek R1 等竞争者的压力下。Google 也在推出其竞争性推理模型 Gemini 2 Flash Thinking，并扩展了输入上下文，支持高达 100 万个 tokens。

OpenAI 聚焦于 STEM 推理和成本效益，旨在扩大 AI 驱动的解决方案在消费者和开发者中的应用。

然而，随着 OpenAI 不断扩展雄心，最近宣布的一个由软银支持的 5000 亿美元数据中心基础设施项目 Stargate，问题仍然存在：它的战略是否足以让这些巨额投资获得回报 ? 随着开源模型不断接近 OpenAI 的性能并在成本上超越它，OpenAI 是否能凭借其安全性、强大的能力、易用的 API 和用户友好的界面维持现有客户，特别是在企业市场上 ? 我们将继续关注这些发展。