OpenAI 的新型 GPT-4o 可以实时唱歌和响应

OpenAI 宣布 GPT-4o

图片来自 OpenAI

乙

今天早些时候，成千上万的人工智能爱好者热切地收看OpenAI备受期待的直播活动，该公司在会上展示了其在 ChatGPT 方面的最新突破性进展。尽管人们普遍猜测革命性的搜索功能可能会挑战 Google 的主导地位，或者会发布期待已久的 GPT-5 模型，但实际的发布却略有不同，但同样令人兴奋。

OpenAI 推出了GPT-4o，这是一种更智能、更便宜、更快、更擅长编码、多模式且速度惊人的新模型。

OpenAI 的 GPT-4o 公告视频

对于 OpenAI 来说，以 1 倍速实时演示新功能而不是使用预先录制的视频（是的，我正在看着你，Google）是明智之举。

那么，GPT-4o 到底是什么？

首先，GPT-4o 中的“o”代表“omni”，代表模型对输入和输出的多模态支持。

GPT-4o可以实时处理和生成文本、音频和图像。它代表了朝着更自然的人机交互迈出的重要一步，接受文本、音频和图像输入的任意组合并生成相应的输出。

也许 GPT-4o 最显着的进步是它作为语音助手的几乎实时响应。

也许 GPT-4o 最显着的进步是它作为语音助手的几乎实时响应。它可以在平均 232 毫秒内响应音频输入，这与人类对话中的响应时间相当。

闪电般的响应时间，加上其在英语文本和代码上与 GPT-4 Turbo 的性能相匹配的能力，同时在非英语语言中显示出显着的改进，使 GPT-4o 成为对话式 AI 领域的游戏规则改变者。

最好的部分是什么？它的 API 速度明显更快，而且成本便宜 50%。

GPT-4o 有什么新功能？

以下是 GPT-4o 中的新功能列表。

1. 实时响应

当你与 GPT-4o 聊天时，感觉就像是在与真人交谈。它可以配合您的语气、讲笑话，甚至和谐地唱歌。

OpenAI 的 GPT-4o 功能示例视频

这种自然、快速的来回让聊天机器人的使用变得更加有趣和吸引人。但 OpenAI 是如何实现这一目标的呢？

在 GPT-4o 之前，ChatGPT 的语音模式依赖于三步过程：将音频转录为文本，然后由 GPT-3.5 或 GPT-4 处理，最后转换回音频。这导致响应时间变慢（GPT-3.5 为 2.8 秒，GPT-4 为 5.4 秒）以及音调和背景噪声等信息丢失。

GPT-4o 使用经过训练可以同时处理文本、图像和音频的单一 AI 模型。这种端到端处理使 GPT-4o 能够更快、更自然地做出响应，捕捉到以前模型可能忽略的细微差别。

2. 改进推理

除了令人印象深刻的速度之外，GPT-4o 在推理方面也达到了新的高度。它在测试常识的 0-shot COT MMLU 基准测试中创下了 88.7% 的记录，在传统的 5-shot no-CoT MMLU 上得分为 87.2%，又一项记录。

OpenAI GPT-4o 基准文本评估

OpenAI GPT-4o 基准测试

然而，值得注意的是，Llama3 400b 等其他 AI 模型仍在训练中，未来可能会超越 GPT-4o。

GPT-4o 还展示了数学推理和视觉理解方面的显着进步。

OpenAI GPT-4o 基准测试

M3Exam 基准评估来自不同国家/地区的标准化测试问题（通常包括图表和数字）的表现，在所有测试语言中，GPT-4o 的表现均优于 GPT-4。

在纯视觉理解方面，GPT-4o 在多个关键基准测试中取得了最先进的结果，包括MMMU、MathVista和ChartQA，所有这些都在 0-shot 设置中进行。

请访问公告博客，探索一些展示 GPT-4o 功能的示例。

图片取自 OpenAI 的 GPT-4o 公告

3. GPT-4o免费使用

GPT-4o 最令人惊讶和令人兴奋的方面之一是它将免费使用。考虑到采用 GPT-3.5 模型的 ChatGPT 免费版本带来了 1 亿用户，这是一笔巨大的交易。随着 GPT-4o 变得更加智能，它可能会吸引另外 1 亿甚至更多用户。

免费套餐的用户将默认使用 GPT-4o，并且使用 GPT-4o 可以发送的消息数量受到限制，这将根据当前的使用情况和需求而有所不同。当不可用时，免费层用户将切换回 GPT-3.5。 — 开放人工智能

老实说，OpenAI 如何在不损失大量资金的情况下免费提供这种新的改进模型，这非常有趣，特别是考虑到运行这些语言模型所需的巨大计算能力。

以下是关于他们为什么免费的一些想法：

他们可能会耗尽互联网上的训练数据，而用户人工智能训练数据是最好的来源。免费访问新模型可能会让他们获得质量更高的数据来使用。
他们与 NVIDIA 的最新合作可能使他们的计算能力得到提升，使他们能够以更低的成本更高效地运行这些模型。
他们可能试图赢回放弃 ChatGPT 并使用 Anthropic 的 Claude 等更好替代品的客户（包括我自己）。

GPT-4 Turbo 与 GPT-4o

为了更好地理解，这是 GPT-4o 与 GPT-4 Turbo 的比较。 GPT-4o 具有相同的高智能性，但比 GPT-4 Turbo 更快、更便宜，并且具有更高的速率限制：

定价： GPT-4o 比 GPT-4 Turbo 便宜 50%，输入代币为 5 美元/M，输出代币为 15 美元/M。
速率限制： GPT-4o 的速率限制比 GPT-4 Turbo 高 5 倍——每分钟最多 1000 万个代币。
速度： GPT-4o 的速度是 GPT-4 Turbo 的 2 倍。
视觉：在与视觉能力相关的评估中，GPT-4o 的视觉能力表现优于 GPT-4 Turbo。
多语言： GPT-4o 比 GPT-4 Turbo 改进了对非英语语言的支持。

GPT-4o 目前的上下文窗口为 128k，知识截止日期为 2023 年 10 月。

GPT-4o 的定价和可访问性

目前，我在免费版本的 ChatGPT 中没有看到 GPT-4o 选项。但如果你访问OpenAI Playground，现在就可以访问新模型。

GPT-4o 的定价和可访问性

根据 Sam Altman 的推文，新的语音模式将在未来几周内向 ChatGPT Plus 用户推出。

目前有两个型号 gpt-4o 和 gpt-4o-2024-05-13。两种 GPT-4o 型号的定价如下：

输入：每 100 万个代币 5.00 美元
产出：每 100 万个代币 15.00 美元

请注意，只有在成功支付 5 美元或以上（使用级别 1）后，才能通过 OpenAI API 访问 GPT-4、GPT-4 Turbo 和 GPT-4o 模型。

{{userData.name}}已认证

那么，GPT-4o 到底是什么？

GPT-4o 有什么新功能？

GPT-4 Turbo 与 GPT-4o

GPT-4o 的定价和可访问性

为什么整个AI领域都朝着AI代理的方向发展

日常生活中如何使用ChatGPT？

灵图官方——基础Stable DiffusionAI艺术课程(初级到专业)

Open WebUI：LLM Web UI

10 款最佳 AI 编码辅助工具 — 开发人员指南

使用这三个必备的 AI 工具增强你的 Mac

Office AI 助手 v0.3.01(免费,2024-06-01更新支持本机ChatGPT-4o、文心一言4.0）

专家系统