Gemini Advanced的两张面孔

谷歌发布了Gemini Ultra。他们还将巴德重新命名为双子座。以前的 Gemini Ultra 现在是 Ultra 1.0（语言模型）。以前的 Bard Advanced 现在是 Gemini Advanced（聊天机器人）。

以下是官方信息的快速回顾，以防您错过了发布。

Gemini Advanced 的费用为 19.99 美元/月（就像 ChatGPT 和 GPT-4 一样），并且前两个月免费，这足以让您有足够的时间彻底测试它并决定是否喜欢它（在这里尝试一下）。您还可以坚持使用免费的 Gemini Pro。

Gemini 可通过 Google One 获取。订阅还包括其他好处，例如存储以及与 Google 服务（例如 Gmail、Docs、Sheets 等（以前称为 Duet AI））的无缝集成（即将推出）。谷歌的目标是将其最好的人工智能与其广泛使用的服务相结合，以超越 OpenAI。

Gemini Advanced 还可以作为Android应用程序（如果您通过 Google Assistant 选择加入，则可以通过这种方式访问聊天机器人）和iOS 版。它已在 150 个国家/地区以英语发布。

谷歌的博客文章称，Gemini Advanced 是“在我们的第三方评估者的盲目评估中”的首选，这听起来与LMSys 竞技场类似，但没有重要的部分：没有透明度。与 GPT-4 一样，Gemini Advanced 是多模式的，具有数据分析功能，并且与 Gemini Pro 相比改进了推理能力。

Gemini用户之间的奇怪对比

这是客观部分，直接摘自谷歌的公告。对于双子座行为的主观概述，你可以看看Ethan Mollick 的笔记。

Mollick 提前获得了 Gemini Advanced 的访问权限，并对其进行了六周的测试，在提示设置和任务类别方面将其与 GPT-4 进行了比较（到目前为止，他写的是 Gemini 的语言和推理技能，而不是多模态或代码）。

他的第一个结论应该让我们了解他的笔记和 Gemini 本身的预期：“Gemini Advanced 显然是 GPT-4 类模型”，副标题是：“Gemini Advanced 并没有明显击败 GPT-4在基准测试中。”

莫里克分享了许多例子来支持这一冷静的说法。在某些情况下，双子座更好。在其他方面，GPT-4 是。他认为，对它们进行比较可以深入了解 GPT-4 类模型的一般能力，同时仍然具有独特性，并且具有适用于不同任务的优势：

GPT-4 在使用代码方面更加复杂，并且可以更好地完成许多困难的口头任务 – 它编写了更好的 sestina 并通过了 Apple 测试。 Gemini 更擅长解释，并且在整合图像和搜索方面做得很好。

他强调还有改进的空间。这两个系统的故障都超出了我们的预期，并且仍然产生幻觉。有趣的是，他说他们有不同的个性，但在即时水平上仍然保持兼容。在某种程度上，他是在打个比方：GPT-4 和 Gemini Advanced 既相似又截然不同，就像两个同样聪明但性格不同的人一样。

他的结论是一个开放式结局：

Gemini 表明 Google 真正参与了 AI 竞赛，除了 OpenAI 之外的其他公司也可以构建 GPT-4 级模型。我们现在对人工智能有了一些以前不知道的了解。高级法学硕士可能会在提示和响应方面表现出一些基本相似之处，使人们可以随时轻松地从旧模型切换到最先进的人工智能。另外，GPT-4 的“火花”并不是 OpenAI 所独有的，而是随着规模的扩大而经常发生的事情。

我相信莫里克的评论。他比大多数人都更加严谨，并且他花了六周的时间来制定这些反思。虽然他并不是说 Gemini Advanced 明显优于 GPT-4（正如 Google 多次声称的那样），但他表示它们处于同一水平。

然而，现在双子座高级版向所有人开放，一幅奇怪的反差景象出现了。最终将自己的双手（和提示）放到谷歌最强大的聊天机器人上的用户似乎并没有得出同样的结论。

我浏览了一些社交媒体平台，寻找轶事证据来阐明对 Gemini Advanced 的普遍看法，我的结论与莫里克的结论一样简单，但观点相反。

人们非常失望。

ar/Singularity 用户说道：“我一直在研究它，并将其与 GPT4 进行比较，总体而言，GPT4 更加准确，似乎拥有更丰富的知识库，并且不会产生太多幻觉。”这里是来自 dotCSV 的 Carlos Santana ，展示了 Gemini Advanced 如何未能通过 ChatGPT 正确的羽毛铅重量测试（这里是带有数量的不同版本）。这是另一个 Reddit 用户展示 Gemini 如何未能通过苹果测试而ChatGPT 却成功了。 GPT-3.5 正确回答了有关镜像字母的推理测试，但 Gemini 没有正确回答。也许您想寻找一些东西？也许玩石头剪刀布？

我可以继续下去。 Reddit 和 Twitter 上充斥着这些内容，而这仅仅几个小时。这可以用两种方式来解释：“才几个小时，再给点时间！”或者“才几个小时，怎么情况就明显恶化了这么多？”

不过，莫里克并不是唯一一个对 Gemini Advanced 表示温和赞扬的人。 François Chollet（鉴于他是 Google 员工，诚然有偏见）这样说道：“我使用 Gemini Advanced 进行编码帮助已经有一段时间了，它真的很好。”忽略他的偏见是安全的，因为如果不是真实的，在公共场合说这句话就没有意义——人们现在可以自己尝试这个工具。

发生什么了？为什么 Mollick、Chollet 或 Google 告诉我们的故事与普通用户之间存在如此显着的差异？

一些可能解决这个谜题的假设

评估语言模型和聊天机器人很困难。传统的基准测试不同于盲目的排行榜竞技场，不同于六周的非正式测试，也不同于几个小时的故意棘手的提示。

从基准测试来看，Gemini 的 Ultra 版本据称在32 项任务中的 30 项上击败了 GPT-4 ，谷歌副总裁兼 Gemini 总经理 Sissie Hsiao今天在接受 LinkedIn News Tech Stack采访时重复了这一数字。 Mollick 表示，GPT-4 和 Gemini Advanced 在性能方面相似，但在个性方面不同。大多数公开表达看法的用户都对 Gemini 的低质量回复感到非常失望。（Gemini 在 LMSys 领域还没有 ELO 分数，这将是得出结论的关键数据点。）

从那堆褒贬不一的评价中，根本不可能得出任何结论！

以下是一些有助于解释这一冲突的假设。我不会对它们进行过多的阐述。一旦我有更多证据，我会回到这个话题。按其本来面目对待它们，这些假设符合迄今为止的证据，但还远未得出结论。

GPT-4 能够更好地应对棘手的测试。我今天读到的大多数用户都声称有一个“首选”问题来比较模型的能力。 GPT-4 已有 1.5 年的历史，因此如果 OpenAI 经过数月的不断微调就解决了这些常见问题也就不足为奇了。众所周知，如果人们在社交媒体上投诉，他们之前已经修复过特定问题。这并不是对 OpenAI 方式的判断。一方面，他们有自我意识。好的。另一方面，这可能会产生误导，因为他们正在解决特定的实例，而不是更深层次的原因。也许谷歌还没有这样做，这反映在 Gemini 的糟糕表现上。
双子座的推理能力较差，这就是人们所看到的。人们倾向于首先评估聊天机器人的推理任务，因为这是人类更难考虑的事情。正如 Mollick 所说，Gemini 在该特定领域比 GPT-4 更差，但在通常稍后探索的其他领域则不然。这可能是莫里克本人几个月前构想的锯齿状边界的一部分。正如他所说，它的锯齿状不仅可能出现在人类和人工智能之间，而且也可能出现在同一类别的人工智能之间，比如 GPT-4 和 Gemini。
出于反谷歌的偏见，人们只发布最糟糕的结果。人们普遍对谷歌有一种奇怪的不信任。这并不奇怪，因为它是没有根据的——谷歌试图向我们出售一个经过大量编辑的 Gemini 演示。这很奇怪，因为 OpenAI 并不一定更好。 Sam Altman故意显示令人困惑的消息，用户不断抱怨GPT-4 随着时间的推移变得越来越懒惰。我相信人们对 Google 与 OpenAI 的看法之间的区别很简单，就是 OpenAI 对用户反馈的响应速度要快得多。谷歌感觉更加不透明和不可渗透。结果是每当双子座犯错时，一种隐秘的怨恨就会重新浮现出来。
认为双子座工作得好的人就不要上网吐槽了。这也许是最简单的解释。社交媒体并不是现实世界的反映。我们通过在线检查情绪得到的图片可能与线下的现实有很大不同。也许 Gemini 对于大多数用户来说效果很好，但他们不会去 X 发布有关它的信息 – 它只是不会让他们获得扣分。剩下的就是一幅非常有偏见的画面，只反映了双子座的不令人满意的行为。

{{userData.name}}已认证

Gemini用户之间的奇怪对比

一些可能解决这个谜题的假设

揭开Stable Diffusion 3背后的魔力

“我们错了”——Sundar Pichai 谈 Gemini 的图像生成器错误

灵图官方——基础Stable DiffusionAI艺术课程(初级到专业)

Open WebUI：LLM Web UI

10 款最佳 AI 编码辅助工具 — 开发人员指南

使用这三个必备的 AI 工具增强你的 Mac

Office AI 助手 v0.3.01(免费,2024-06-01更新支持本机ChatGPT-4o、文心一言4.0）

专家系统

{{userData.name}}已认证

Google Gemini Advanced 有多好？

Gemini用户之间的奇怪对比

一些可能解决这个谜题的假设

揭开Stable Diffusion 3背后的魔力

“我们错了”——Sundar Pichai 谈 Gemini 的图像生成器错误