GPT-5 的完整培训运行已经上线

我预计它将在今年 11 月发布,在 ChatGPT 发布两周年之际

在类似的时间框架内,我们还将看到 Gemini 2 Ultra、LLaMA-3、Claude-3、Mistral-2 和许多其他划时代的机型。

(谷歌的Gemini已经在与 GPT-4 turbo 展开激烈竞争)

几乎可以肯定,GPT-5 将逐步发布,这些将是模型训练过程中的中间检查点

实际培训可能需要 3 个月,安全测试需要 6 个月。

透视 GPT-5

让我们先看看 GPT-4 规格:

 

GPT4 模型估算

规模: GPT-4 有大约 1.8 万亿个参数,横跨 120 层,比 GPT-3 大 10 倍以上。

 

专家混合(MoE): OpenAI 在其模型中使用了 16 个专家,每个专家都有约 111B 个 MLP 参数。

 

数据集: GPT-4 在 ~13T 标记上进行了训练,包括基于文本和基于代码的数据,以及来自 ScaleAI 和内部的一些微调数据。

 

数据集混合: 训练数据包括 CommonCrawl 和 RefinedWeb,共计 13T 标记。推测还包括 Twitter、Reddit、YouTube 和大量教科书。

 

培训成本: 考虑到所需的计算能力和训练时间,GPT-4 的训练成本约为 6300 万美元。

 

推理成本: 由于需要更大的集群和更低的利用率,GPT-4 的成本是 175B 参数 Davinci 的 3 倍。

 

推理架构: 推理在 128 个 GPU 集群上运行,使用 8 路张量并行和 16 路流水线并行。

 

视觉多模式:GPT-4 包含一个视觉编码器,用于自主代理阅读网页以及转录图像和视频。这将在此基础上增加更多参数,并通过另外约 2 万亿个令牌进行微调。

 

现在,GPT-5 的参数可能是 GPT-4 的 10 倍,这是一个巨大的数字!这意味着更大的嵌入维度、更多的层级和双倍的专家数量。

 

更大的嵌入维度意味着更多的粒度,而层数翻倍则可以让模型进行更深入的模式识别。

 

GPT-5 在推理方面会做得更好,它会在解决挑战之前制定推理步骤,并对每个推理步骤进行内部或外部检查。

 

验证推理步骤和多达 10,000 次采样的方法将大大提高代码生成和数学方面的成果。

 

 

结果监督奖励模型和过程监督奖励模型的比较,根据它们在许多测试解决方案中的搜索能力进行评估。

对模型进行数千次采样,并选取推理步骤得分最高的答案,数学成绩提高了一倍。

GPT-5 还将在数量、质量和多样性方面对更多数据进行训练。

这包括大量的文本、图像、音频和视频数据。还有多语言数据和推理数据

这意味着今年的多模态数据将更加出色,而 LLM 推理数据也将起飞

 

这将使 GPT-5 更具代理功能,就像把 LLM 用作操作系统一样

 

 

尽管 2024 年发布的 LLM 不会发生任何真正疯狂/打破现实的事情,比如 LLM 发明新科学或治愈疾病、制造戴森球或生物武器。

2024 年的模型将比现在的模型更清晰、更适用于商业用途,人们会惊讶地发现这些模型变得如此出色

没有人真正知道更新的模型会如何。

人工智能历史上最大的主题就是充满惊喜。

每当你以为你知道了什么,你把它放大 10 倍,却发现你什么都不知道。我们人类作为一个物种,正在共同探索这一点。

尽管如此,LLM 和人工智能的所有集体进步都是向 AGI 🚀 迈出的一步。

 

给TA打赏
共{{data.count}}人
人已打赏
AI新闻

灵图智能 一站式上线 工具·社区·教育·设计

2023-10-11 14:38:17

AI新闻AI科普

Stable Diffusion 3 击败 Midjourney V6 和 Dall-E3 了吗?

2024-2-27 13:05:32

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
今日签到
有新私信 私信列表
搜索