OpenAI 对人工智能行业的影响力怎么强调都不为过。每一个举动或决定都会自动成为头条新闻……即使他们实际上并没有宣布这件事。

几天前，我们很多人都在玩的一个模型后来被删除，让整个人工智能行业着迷。它被命名为“gpt2-chatbot”，可以在lmsys.org的“直接聊天”功能中访问几天。

但为什么这么大惊小怪呢？

嗯，因为这个模型与我们见过的任何模型都不一样。这是完全不同的水平。

因此，许多人认为它是ChatGPT-4.5甚至GPT-5的非官方预告片。或者，更令人兴奋的是，使用数字“2”作为新 GPT 一代长推理模型即将到来的信号。

就连 OpenAI 的首席执行官 Sam Altman 也无法抗拒诱惑，承认它的存在，并在此过程中取笑我们：

那么，这个模型有多好，它到底是什么？

您可能已经厌倦了谈论这个或那个**如何**发生的人工智能时事通讯。这些时事通讯比比皆是，因为粗略地谈论已经发生的事件和事情很容易，但提供的价值有限，而且炒作被夸大了。

然而，谈论即将发生的事情的时事通讯却很少见。如果您想先于其他人对人工智能的未来进行易于理解的见解，那么TheTechOasis时事通讯可能非常适合您。

🏝️🏝️ 今天订阅如下：

科技绿洲

保持人工智能领先地位的时事通讯

thetechoasis.beehiiv.com

即将发生的事情的预告片

随着时间的推移，很明显 OpenAI 的下一个模型将在推理和复杂问题解决方面实现飞跃。

为了证明这个新的神秘模型可能是怎样的，这里只是这个神秘模型的威力的几个例子，它可以表明该船已经降落在那个港口：

对于当前最先进的模型来说，下面的所有示例都被认为是困难或完全不可能的。

对于初学者来说，它以零样本模式解决了数学奥林匹克问题（没有提供辅助示例来支持解决方案）：

我什至无法开始解释前面的例子有多么疯狂，从当前最先进的模型中绝对不可能得到这样的答案。

它在解析 JSON 方面也绝对出色，这是 LLM 与 API 和其他基于 Web 的工具集成的基本技能。

此外，它在复杂的绘图任务上完全抹杀了 GPT-4，例如基于代码绘制 SVG 文件或使用 ASCII 代码绘制独角兽（如下），在这个过程中羞辱了当前最先进的Claude 3 Opus ：

gpt2-chatbot（左）和 Claude 3 Opus（右）

此外，虽然这很可能是幻觉，但该模型向我声称它是由 OpenAI 训练的并且基于 GPT-4 变体。

当然，在展示了如此强大的功能之后，许多人认为“gpt2-chatbot”甚至可能是著名的 Q* 模型。

但是，我们不要简单地屈服于人们声称的各种奇特的选择，而是采取更明智的方法，看看 OpenAI 本身在几个月（甚至几年）的研究中暗示了什么。

长推理的力量

几个月来，Demis Hassabis或Andrej Karpathy等该领域的专家一直在讨论，光靠法学硕士是不够的，我们需要“其他东西”才能真正将他们带入下一步。

在这两种情况下，他们都指的是实现“AlphaGo，但在法学硕士”的同等地位，这间接指的是：

自我完善和
测试时计算法学硕士

但这是什么意思呢？

人工智能的一大进步

AlphaGo 是人工智能的历史。这是韩国棋盘游戏围棋中第一个明显超越人类力量的模型。

它使用蒙特卡洛树搜索（一种搜索算法）来探索游戏中任何给定步骤的可能动作范围，能够超越当前动作并预测对方玩家会做什么。

你们中有些人可能还记得“深蓝”，这台国际象棋机器在 1997 年输掉第一场比赛后，在系列赛的第二场比赛中勉强击败了加里·卡斯帕罗夫。

然而，虽然深蓝可以被击败，但AlphaGo却是无敌的。

但如何呢？

自我完善，成为超人

AlphaGo 之所以优越的关键因素在于它的训练方式，即通过与自身的较小版本对弈来创建自我改进循环。

它不断地与自己对弈，逐渐将 ELO 提高到 3.739，几乎达到了当今最好的围棋棋手的水平。

2017年，改进版AlphaZero达到了5.018 ELO，完全超人、无人能敌。

换句话说，借助AlphaGo，人类第一次实现了一种通过自我改进来训练模型的方法，使其不再依赖模仿人类来学习，从而获得超人的能力。

如果您想知道，法学硕士的情况并非如此。

目前的法学硕士完全与人类水平的表现挂钩，因为所有数据和培训本质上都依赖于人类（以至于调整阶段，即训练过程的一部分，法学硕士被建模以提高其安全水平并避免攻击性反应，严格使用“人类偏好”来执行）。

顺便说一句，Meta 最近提出了自我奖励模型，可以通过自己的反应进行自我改进。然而，目前还不清楚这种反馈循环是否真的能让法学硕士变得超人。

但尽管仍然很难相信“gpt2-chatbot”是通过自我改进进行训练的，但我们有足够的理由相信这是 OpenAI 多年来一直致力于的项目的首次成功实现：测试时计算。

测试时计算模型的到来

多年来，OpenAI 的几篇研究论文都暗示了将模型倾斜为“重推理”的想法。

例如，早在 2021 年，他们就提出了在推理时使用“验证器”的概念，以改善模型在处理数学时的响应。

这个想法是训练一个辅助模型，该模型将实时评估模型给出的多个响应，选择最好的一个（然后提供给用户）。

再结合某种树搜索算法（例如 AlphaGo 使用的算法）以及 Google Deepmind 的LLM思想树研究等示例，您最终可以创建一个 LLM，在回答之前探索“可能的响应领域” ‘，仔细过滤并选择解决方案的最佳路径。

一个思想树的例子

尽管 OpenAI 早在 2021 年就提出了这个想法，但如今已经非常流行，微软和谷歌的交叉研究将其应用于训练下一代验证器，谷歌甚至设法创建了一个模型Alphacode，该模型执行这种架构取得了巨大的成功，在有竞争力的程序员中达到了 85% 的百分位数，他们是这方面最优秀的人。

为什么新一代的法学硕士有如此大的潜力？

嗯，因为他们解决问题的方式与人类非常相似，通过深思熟虑和广泛的思考来解决给定的任务。

最重要的是，将“搜索+LLM”模型视为人工智能系统，它为模型的实际运行时间分配更高程度的计算（类似于人类思维），这样，它们就不必立即猜测正确的解决方案，而是简而言之，“给予更多时间思考”。

但 OpenAI 走得更远。

用于改进数学执行的 PRM 模型

早在去年 5 月，他们就发布了《让我们一步步验证》论文，OpenAI 首席科学家 Ilya Sutskever 本人以及原始验证论文的一些研究人员（例如 Karl Cobbe）也参与其中。

这里的想法是修改模型对齐阶段使用的奖励模型。

尽管我建议查看本文以获取有关 LLM 培训的完整指南，但创建 ChatGPT 等产品过程中的最后一步是使用人类反馈强化学习 (RLHF)。

这个想法是为了让模型改进其决策。因此，我们训练一个辅助奖励模型（本质上是正在训练的模型的几乎相同的副本），该模型学习根据人类偏好对训练模型的结果进行排名。

问题？

嗯，当今大多数奖励模型都是ORM，即结果监督奖励模型。通俗地说，为了评估模型预测的正确程度，他们会放眼全局，而忽略整个“思维过程”。

另一方面，PRM（过程监督奖励模型）评估模型响应中的每一步。因此，它们“迫使”模型密切关注并努力处理过程的每一步，这在解决如下数学方程等情况下至关重要：

然而，这是一个非常非常昂贵的过程，因为偏好数据需要大量的人工制作才能应用监控信号。因此，每个训练示例都有数十个或更多的奖励需要衡量。

因此，考虑到“gpt2-chatbot”在制定计划和执行复杂问题解决方面的熟练程度，“gpt2-chatbot”可能包含某种形式的奖励训练。

不可能不兴奋

考虑到 gpt2-chatbot 的疯狂性能，并牢记 OpenAI 最近的研究和泄密，我们现在可能对这个东西到底是什么有了一个很好的了解。

我们可以肯定的是，我们很快将面临一个完全不同的野兽，它将把人工智能的影响提升到一个新的水平。

我们是否终于达到了法学硕士超越人类水平的里程碑，就像我们对 AlphaGo 所做的那样？
长推理时代，也就是人工智能征服系统 2 思维的时代已经来临了吗？

可能不会。然而，我们很难不对接下来几个月我们将看到的疯狂发展感到高度乐观。

与此同时，我想我们将不得不等待才能得到这些答案。

{{userData.name}}已认证

科技绿洲

即将发生的事情的预告片

长推理的力量

人工智能的一大进步

自我完善，成为超人

测试时计算模型的到来

用于改进数学执行的 PRM 模型

不可能不兴奋

用AI解放学生，打造个性化学习流程

我最喜欢的 GPT（到目前为止）

灵图官方——基础Stable DiffusionAI艺术课程(初级到专业)

Open WebUI：LLM Web UI

10 款最佳 AI 编码辅助工具 — 开发人员指南

使用这三个必备的 AI 工具增强你的 Mac

Office AI 助手 v0.3.01(免费,2024-06-01更新支持本机ChatGPT-4o、文心一言4.0）

专家系统

{{userData.name}}已认证

OpenAI“泄露”的 GPT2 模型让所有人震惊

科技绿洲

即将发生的事情的预告片

长推理的力量

人工智能的一大进步

自我完善，成为超人

测试时计算模型的到来

用于改进数学执行的 PRM 模型

不可能不兴奋

用AI解放学生，打造个性化学习流程

我最喜欢的 GPT（到目前为止）