Google Gemini Advanced 有多好?

Gemini Advanced的两张面孔

谷歌发布了Gemini Ultra。他们还将巴德重新命名为双子座。以前的 Gemini Ultra 现在是 Ultra 1.0(语言模型)。以前的 Bard Advanced 现在是 Gemini Advanced(聊天机器人)。

以下是官方信息的快速回顾,以防您错过了发布。

Gemini Advanced 的费用为 19.99 美元/月(就像 ChatGPT 和 GPT-4 一样),并且前两个月免费,这足以让您有足够的时间彻底测试它并决定是否喜欢它(在这里尝试一下)。您还可以坚持使用免费的 Gemini Pro。

Gemini 可通过 Google One 获取。订阅还包括其他好处,例如存储以及与 Google 服务(例如 Gmail、Docs、Sheets 等(以前称为 Duet AI))的无缝集成(即将推出)。谷歌的目标是将其最好的人工智能与其广泛使用的服务相结合,以超越 OpenAI。

Gemini Advanced 还可以作为Android应用程序(如果您通过 Google Assistant 选择加入,则可以通过这种方式访问​​聊天机器人)和iOS 版。它已在 150 个国家/地区以英语发布。

谷歌的博客文章称,Gemini Advanced 是“在我们的第三方评估者的盲目评估中”的首选,这听起来与LMSys 竞技场类似,但没有重要的部分:没有透明度。与 GPT-4 一样,Gemini Advanced 是多模式的,具有数据分析功能,并且与 Gemini Pro 相比改进了推理能力。

Gemini用户之间的奇怪对比

这是客观部分,直接摘自谷歌的公告。对于双子座行为的主观概述,你可以看看Ethan Mollick 的笔记

Mollick 提前获得了 Gemini Advanced 的访问权限,并对其进行了六周的测试,在提示设置和任务类别方面将其与 GPT-4 进行了比较(到目前为止,他写的是 Gemini 的语言和推理技能,而不是多模态或代码)。

他的第一个结论应该让我们了解他的笔记和 Gemini 本身的预期:“Gemini Advanced 显然是 GPT-4 类模型”,副标题是:“Gemini Advanced 并没有明显击败 GPT-4在基准测试中。”

莫里克分享了许多例子来支持这一冷静的说法。在某些情况下,双子座更好。在其他方面,GPT-4 是。他认为,对它们进行比较可以深入了解 GPT-4 类模型的一般能力,同时仍然具有独特性,并且具有适用于不同任务的优势:

GPT-4 在使用代码方面更加复杂,并且可以更好地完成许多困难的口头任务 – 它编写了更好的 sestina 并通过了 Apple 测试。 Gemini 更擅长解释,并且在整合图像和搜索方面做得很好。

他强调还有改进的空间。这两个系统的故障都超出了我们的预期,并且仍然产生幻觉。有趣的是,他说他们有不同的个性,但在即时水平上仍然保持兼容。在某种程度上,他是在打个比方:GPT-4 和 Gemini Advanced 既相似又截然不同,就像两个同样聪明但性格不同的人一样。

他的结论是一个开放式结局:

Gemini 表明 Google 真正参与了 AI 竞赛,除了 OpenAI 之外的其他公司也可以构建 GPT-4 级模型。我们现在对人工智能有了一些以前不知道的了解。高级法学硕士可能会在提示和响应方面表现出一些基本相似之处,使人们可以随时轻松地从旧模型切换到最先进的人工智能。另外,GPT-4 的“火花”并不是 OpenAI 所独有的,而是随着规模的扩大而经常发生的事情。

我相信莫里克的评论。他比大多数人都更加严谨,并且他花了六周的时间来制定这些反思。虽然他并不是说 Gemini Advanced 明显优于 GPT-4(正如 Google 多次声称的那样),但他表示它们处于同一水平。

然而,现在双子座高级版向所有人开放,一幅奇怪的反差景象出现了。最终将自己的双手(和提示)放到谷歌最强大的聊天机器人上的用户似乎并没有得出同样的结论。

我浏览了一些社交媒体平台,寻找轶事证据来阐明对 Gemini Advanced 的普遍看法,我的结论与莫里克的结论一样简单,但观点相反。

人们非常失望。

ar/Singularity 用户说道:“我一直在研究它,并将其与 GPT4 进行比较,总体而言,GPT4 更加准确,似乎拥有更丰富的知识库,并且不会产生太多幻觉。”这里是来自 dotCSV 的 Carlos Santana ,展示了 Gemini Advanced 如何未能通过 ChatGPT 正确的羽毛铅重量测试(这里是带有数量的不同版本)。这是另一个 Reddit 用户展示 Gemini 如何未能通过苹果测试而ChatGPT 却成功了。 GPT-3.5 正确回答了有关镜像字母的推理测试,但 Gemini 没有正确回答。也许您想寻找一些东西?也许玩石头剪刀布

我可以继续下去。 Reddit 和 Twitter 上充斥着这些内容,而这仅仅几个小时。这可以用两种方式来解释:“才几个小时,再给点时间!”或者“才几个小时,怎么情况就明显恶化了这么多?”

不过,莫里克并不是唯一一个对 Gemini Advanced 表示温和赞扬的人。 François Chollet(鉴于他是 Google 员工,诚然有偏见)这样说道:“我使用 Gemini Advanced 进行编码帮助已经有一段时间了,它真的很好。”忽略他的偏见是安全的,因为如果不是真实的,在公共场合说这句话就没有意义——人们现在可以自己尝试这个工具。

发生什么了?为什么 Mollick、Chollet 或 Google 告诉我们的故事与普通用户之间存在如此显着的差异?

一些可能解决这个谜题的假设

评估语言模型和聊天机器人很困难。传统的基准测试不同于盲目的排行榜竞技场,不同于六周的非正式测试,也不同于几个小时的故意棘手的提示。

从基准测试来看,Gemini 的 Ultra 版本据称在32 项任务中的 30 项上击败了 GPT-4 ,谷歌副总裁兼 Gemini 总经理 Sissie Hsiao今天在接受 LinkedIn News Tech Stack采访时重复了这一数字。 Mollick 表示,GPT-4 和 Gemini Advanced 在性能方面相似,但在个性方面不同。大多数公开表达看法的用户都对 Gemini 的低质量回复感到非常失望。 (Gemini 在 LMSys 领域还没有 ELO 分数,这将是得出结论的关键数据点。)

从那堆褒贬不一的评价中,根本不可能得出任何结论!

以下是一些有助于解释这一冲突的假设。我不会对它们进行过多的阐述。一旦我有更多证据,我会回到这个话题。按其本来面目对待它们,这些假设符合迄今为止的证据,但还远未得出结论。

  1. GPT-4 能够更好地应对棘手的测试。我今天读到的大多数用户都声称有一个“首选”问题来比较模型的能力。 GPT-4 已有 1.5 年的历史,因此如果 OpenAI 经过数月的不断微调就解决了这些常见问题也就不足为奇了。众所周知,如果人们在社交媒体上投诉,他们之前已经修复过特定问题。这并不是对 OpenAI 方式的判断。一方面,他们有自我意识。好的。另一方面,这可能会产生误导,因为他们正在解决特定的实例,而不是更深层次的原因。也许谷歌还没有这样做,这反映在 Gemini 的糟糕表现上。
  2. 双子座的推理能力较差,这就是人们所看到的。人们倾向于首先评估聊天机器人的推理任务,因为这是人类更难考虑的事情。正如 Mollick 所说,Gemini 在该特定领域比 GPT-4 更差,但在通常稍后探索的其他领域则不然。这可能是莫里克本人几个月前构想的锯齿状边界的一部分。正如他所说,它的锯齿状不仅可能出现在人类和人工智能之间,而且也可能出现在同一类别的人工智能之间,比如 GPT-4 和 Gemini。
  3. 出于反谷歌的偏见,人们只发布最糟糕的结果。人们普遍对谷歌有一种奇怪的不信任。这并不奇怪,因为它是没有根据的——谷歌试图向我们出售一个经过大量编辑的 Gemini 演示。这很奇怪,因为 OpenAI 并不一定更好。 Sam Altman故意显示令人困惑的消息,用户不断抱怨GPT-4 随着时间的推移变得越来越懒惰。我相信人们对 Google 与 OpenAI 的看法之间的区别很简单,就是 OpenAI 对用户反馈的响应速度要快得多。谷歌感觉更加不透明和不可渗透。结果是每当双子座犯错时,一种隐秘的怨恨就会重新浮现出来。
  4. 认为双子座工作得好的人就不要上网吐槽了。这也许是最简单的解释。社交媒体并不是现实世界的反映。我们通过在线检查情绪得到的图片可能与线下的现实有很大不同。也许 Gemini 对于大多数用户来说效果很好,但他们不会去 X 发布有关它的信息 – 它只是不会让他们获得扣分。剩下的就是一幅非常有偏见的画面,只反映了双子座的不令人满意的行为。

给TA打赏
共{{data.count}}人
人已打赏
AI新闻AI科普

揭开Stable Diffusion 3背后的魔力

2024-5-19 18:24:15

AI新闻AI科普

“我们错了”——Sundar Pichai 谈 Gemini 的图像生成器错误

2024-5-19 18:27:54

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索