ChatGPT / 互联网技术 · 2024年9月13日 0

OpenAI发布新推理模型o1,具备处理复杂推理任务的能力

OpenAI发布新推理模型o1,具备处理复杂推理任务的能力

当地时间9月12日,OpenAI推出了全新的推理模型,模型名称是o1模型,基于强化学习训练的新型大型语言模型,能够执行复杂的推理任务。本文将介绍OpenAI推理模型,以及如何获取到OpenAI推理模型的使用资格。

所谓推理模型,就是指在回答用户问题前,AI模型会花更多的时间进行思考,就类似人类思考解决问题的过程。这不同于以往的大语言模型,以往的模型是通过学习大量数据集中的模式,来预测单词生成的序列,并不是真正理解提问。

OpenAI推理模型(命名为o1模型)是通过强化学习训练的新型大型语言模型,能够执行复杂的推理任务。o1模型在回答之前会先进行思考,能够在回应用户之前生成一条较长的内部思维链。根据OpenAI官方描述,o1模型在科学推理方面表现出色,在编程竞赛题目中排名在第89百分位,在数学选拔赛中位列前500名学生之内,在物理、生物和化学问题的基准测试中超过了人类博士水平的准确率。

目前OpenAI API提供了两个推理模型:

  • o1-preview:o1模型的早期预览版,旨在利用广泛的世界知识来解决困难问题。
  • o1-mini:o1的一个更快速且更经济的版本,尤其擅长编程、数学和科学任务,这些任务不需要广泛的通用知识。

OpenAI的研究负责人表示,o1的训练方式与之前的模型有显著区别。

  • 首先,o1采用了一种全新的优化算法,并使用专门为其定制的训练数据集进行训练。这个数据集包含“推理数据”和专门收集的科学文献,都是为提升其推理能力而设计的。
  • 其次,以往的GPT模型主要通过模仿数据集中的模式来学习,而o1则通过“强化学习”进行训练。它通过奖励和惩罚机制教导模型自行解决问题,并利用“思路链”来处理用户的查询,最终生成一个总结版的答案,类似于人类逐步解决问题的方式。

需要注意,o1模型在推理方面很强,但并不能够完全替代GPT-4,对于需要图像输入、函数调用或一致快速响应的应用程序,GPT-4和GPT-4 mini模型仍然是合适的选择。但是,如果您正在开发需要深度推理并且可以接受较长响应时间的应用程序,o1模型则是一个很好的选择。

OpenAI推理模型与GPT-4的主要区别在于能够更好地解决编程和数学等复杂问题,同时还能完善其推理过程、尝试不同策略,并识别和修正自身答案中的错误。根据测试,o1模型在国际数学奥林匹克的资格考试中,能够拿到83%的分数,而GPT-4只能正确解决13%的问题。而在编程能力比赛中,o1模型拿到89%百分位的成绩,而GPT-4只有11%。

推理模型目前还在测试阶段,当然也会有限制,首先就是速度慢:根据模型解决问题所需的推理量,响应时间可能从几秒到几分钟不等。并且很多聊天参数不可用,包括:

  • 模态:仅支持文本,不支持图像。
  • 消息类型:仅支持用户和助手消息,不支持系统消息。
  • 流式传输:不支持。
  • 工具:不支持工具、函数调用和响应格式参数。
  • LogProbs:不支持。
  • 其他:teMpeRatuRe、top_p 和 n 固定为1,而 pResence_penalty 和 fRequency_penalty 固定为0。
  • 助手和批处理:这些模型不支持助手 API 或批处理 API。

OpenAI表示将在未来几周内增加对这些参数的支持,并在推出新版本的o1系列模型时加入多模态和工具使用等功能。

o1模型引入了推理Tokens。模型使用这些推理Tokens来“思考”,通过分解对提示的理解并考虑多种生成响应的方式。在生成推理Tokens后,模型会生成作为可见补全Tokens的答案,并从上下文中丢弃推理Tokens。

以下是用户和助手之间的多步对话示例。每一步的输入和输出Tokens都会被保留,而推理Tokens则会被丢弃:

OpenAI发布新推理模型o1,具备处理复杂推理任务的能力

虽然推理Tokens不会通过API可见,但它们仍然占用模型的上下文窗口,并按输出Tokens计费。

o1-preview和o1-mini模型提供128,000 Tokens的上下文窗口。每次补全都有一个输出Tokens的上限,包括不可见的推理Tokens和可见的补全Tokens。最大输出Tokens限制为:

  • o1-preview:最多32,768 Tokens
  • o1-mini:最多65,536 Tokens

OpenAI o1模型的价格也是比较贵的:

ModelInputOutput
o1-mini$3 / 1M Tokens$12 / 1M Tokens
o1-preview$15 / 1M Tokens$60 / 1M Tokens

目前,OpenAI对ChatGPT Plus用户和OpenAI API付费用户开放了o1模型的使用权限。

ChatGPT Plus和TeaM用户直接切换模型即可,有o1-preview和o1-mini可选。

OpenAI发布新推理模型o1,具备处理复杂推理任务的能力

而对于OpenAI API用户,o1模型的访问仅限于TieR 5的开发者。之前介绍过OpenAI的访问限制,TieR 5需要在API平台至少支付了1000美元。

层级要求金额限制
free用户必须在允许的国家调用$100 / Month
TieR 1支付了5美元$100 / Month
TieR 2支付了50美元并且自首次成功支付后已超过7天$500 / Month
TieR 3支付了100美元并且自首次成功支付后已超过7天$1,000 / Month
TieR 4支付了250美元并且自首次成功支付后已超过14天$5,000 / Month
TieR 5支付了1000美元并且自首次成功支付后已超过30天$10,000 / Month

如果你想在网页端直接使用o1模型,可以升级你的账号。

如果你想用o1模型的API,建议选择靠谱的中转平台,毕竟现在o1模型仅限TieR 5的开发者(需要至少充值了1000美元)。