图片由 kenshinstock 在 Freepik 上提供

OpenAI 宣布发布其全新模型 GPT-4o（o 代表“Omni”）。除了计算机视觉、实时翻译或教育领域的许多先进且令人兴奋的功能外，免费用户还会特别喜欢一项公告：GPT4-o 可供免费用户使用！

这是什么意思？借助多模式，任何免费用户现在都可以轻松创建网站。即使您没有编码经验，该模型也可以帮助您以最少的努力设计、编写和启动网站。

让我们使用 GPT-4o 将笔和纸上的一些想法转化为实时网站。

什么是多模态？

多模态是一种媒介中多种读写能力的应用。多种文学或“模式”有助于观众理解作品。[1]从图像的放置到内容的组织再到交付方法的一切都创造了意义 – 维基百科

GPT-4o 提供多模态意味着它可以处理和生成各种格式的内容，例如文本、图像等，这可以显着增强您的网站创建过程，特别是如果您不是编码人员。以下是这些功能如何帮助您创建多模式网站。

文本

您可以为您想要的网站提供文字描述或说明。例如，主页布局、各部分的内容或您需要哪种类型的博客文章。
生成的内容可以针对搜索引擎进行优化，这将有助于提高可见性并为您的网站产生更多的自然流量。
您可以生成博客文章、产品描述和页面，同时确保您的内容引人入胜且信息丰富。

图片

上传您想要包含的图像，让 GPT-4 分析并将它们合并到站点布局中。这可以是您的徽标、一些产品图片、横幅等。
使用图像作为灵感：上传您喜欢的内容，帮助模型生成适合您的品味和需求的媒体
与 DALL-E 等工具集成后，GPT-4o 可以创建自定义图像和插图
它还可以帮助您编写视频脚本，确保您的内容结构良好且引人入胜。

视频

如果您有欢迎视频、教程或产品演示，您可以将它们作为视频文件或链接上传以包含在您的网站中，甚至必须建模创建一些。

以及更多。

准备好？开始吧！

正如你在我的其他故事中看到的，我喜欢用面包店作为例子。所以让我们继续下去，我现在是当地的面包师，我需要一个网站。我已经对安置、我想要什么以及在哪里有了一些想法。

我的免费OpenAI 帐户已创建并准备就绪，现在我正面对我的同伴。盯着屏幕……我该说什么？好吧，我们先来尝试一个简单的问题。

你好！为当地一家面包店设计一个网站

为了更好地掌握 GPT-4o 的强大功能，让我们看看免费的GPT-3.5 模型会做什么：

GPT-3.5 的简单提示 — 作者图片

那还不错。不太详细，但我们仍然得到了想法，并最终有了一些我们没有想到的新想法。但是，GPT-3.5 是纯文本模型，无法一睹可能的结果。

直到昨天，您还必须每月额外支付 20 美元才能访问更强大的模型GPT-4。让我们给它同样的任务：

GPT-4 的简单提示——作者截图

当要求生成潜在结果时，我们得到以下结果：

要求 GPT-4 根据其建议的部分生成网站视觉效果 — 作者的屏幕截图

仅图像生成就花费了大约一分钟。

现在介绍免费的GTP-4o：

GPT-4o 的简单提示 — 作者截图

正如您已经看到的，结果更加详细。我们有更多部分、号召性用语按钮、有关版式的提示、配色方案和后续问题（不添加自定义命令，适合阅读本文的最高级技术人员）。

我们未来网站的生成又如何呢？不到 20 秒后，我得到的是：

要求 GPT-4 根据其建议的部分生成网站视觉效果 — 作者的屏幕截图

对于免费模型来说还不错，对吧？

但您可能会说它不符合您的品味或您对颜色的选择。有些部分是不必要的，或者您需要菜单中的更多项目。这里是多式联运部分。首先，让我们拿起笔和纸。

简单草图指示

问题是，我是一个非常糟糕的抽屉。在这种情况下，这是完美的。这是我在发送下一个提示之前想出并上传的草图：

作者绘制的极简主页

当我第一次想到这个网站时，这是我想到的简单设计。请根据我在上传的图像中绘制的部分的图像和文本布局、编号和名称调整您的提案，然后重新生成提案

更新后的提案如下：

GPT-4o 更新的提案 — 作者截图

不完全是我想要的，但更好。我们稍后会深入探讨。模型已经能够完成它了吗？

请编写构建此网站所需的代码。遵循最新的性能和可访问性最佳实践。完成后，请创建一个 zip 存档供我在线上传。

这个过程花了…… 1分20秒。

我可以在不到 1 分钟 30 的时间内看到内容和样式文件、图像路径以及生成的 zip。

现在我们来分析一下。我有我的“英雄形象”（对于非技术人员来说，“英雄形象”是首页上显示的主要、最大的图像，通常带有最重要的信息和操作按钮），以及我的号召性用语标有“订单”的按钮。

我们从包含第一个提案部分的 5 页滑块区域变为包含 3 个部分的简单区域。不过，我要了两个，但我没有看到每个部分的名称。

同样，导航栏指令也没有被正确解释。在我的草图（和我的想法）中，“社交”是指持有社交图标。菜单项也比需要的多得多。

我可以（并且应该）在这里使用即时工程，为其提供更多背景和说明，更好地表达我的想法，并且比以前更精确。但这里的目标是测试模型在文档的帮助下处理简单提示的能力。

添加文本文件

我会添加更多指导

谢谢。上传的文档包含更多布局说明和我需要的主页文本。在此基础上调整您生成的图像提案。

您可以在此处下载文本文件，或在文章底部获取所有资源。

下一个迭代，带有文本指令，由 GTP-4o 生成 – 作者的屏幕截图

这样好多了。还没有，但是更好了。我要求的一切都在那里。

当然，号召性用语不居中，图像和文本对比度远不可用，并且标题图像位于浮动线上方。但该模型似乎遵循说明。

我可以要求更多吗？

使用配色方案

以下是一些更新的文本说明。它们包括一种配色方案、一些新部分以及有关现有部分的一些规范。请相应地更新您的代码和生成的图像，并向我发送一个新的 zip 文件

我现在告诉模型我想使用哪种颜色以及在哪里使用，为标题图像添加一些信息，并要求提供页脚。

（基色）：#FFFDD0

（辅助色）：#C5A880

（强调色）：#7C4D3A

（突出显示颜色）：#FADADD

（中性色）：#F5F5DC

基色：用于背景

辅助色和强调色：用于版式和结构组件

突出显示颜色：用于交互元素（按钮和链接）

中性色：用于部分背景

您可以在此处下载更新的文本。

我再次获得了所有更新的文件、生成的图像（以及 Dall-E 上使用的提示，以便在需要时重用）、文件夹结构……并且只用了不到 3 分钟的时间。

最后一次迭代，使用新指令，由 GTP-4o 生成 – 作者的屏幕截图

为了走得更远

我们只看到了模型潜力的一小部分，我们可以生成更多东西：

视频：对于一个 10 秒的视频，整个过程不到 2 分钟，其中 GPT-4o 创建故事板、生成图像并尝试将它们组合起来以获得最终结果。不幸的是，它面临“持续路径问题”并且无法渲染它，但为我提供了执行此操作的确切步骤。这是遵循其指导的最终结果
音乐：自动将音轨文件添加到生成的视频中
互动测验或表格：提出几个问题并回答，解释你的逻辑
聊天机器人集成
ETC。

为什么不稍后要求模型分析用户数据并生成量身定制的建议呢？

结论

拥有 20 多年的开发经验，我知道，我的辅助功能专家、艺术总监、UX/UI 设计师和 Fullstack 开发人员同事也知道，要成功达到经验丰富的水平，还有很多工作要做团队。

话虽这么说，我不得不承认，该模型是免费的，并且只提供了很少的技术信息，可以帮助一些专业人士构建一个简单的网站，适合他们的品味、草图、想法和迭代，同时指导他们如何把它放在网上。

可以用这种方式构建一个简约而有效的单页面吗？确实。

即使对于这种用法，是否需要比我在 10 到 15 分钟内以我的草图为基础所做的更多工作？是的当然。

我是否担心自己和同事的工作？不，至少现在还没有。网站不仅仅是其外观。人物角色、产品、质量、性能、响应式设计、堆栈选择、牵引力、SEO、安全性、DPO、分析……

但我觉得 GPT-4o 可以帮助人们更好地理解这些能力领域并引导他们走向正确的方向，同时提高网络内容的整体质量，并使更多的人能够在不需要广泛的技术知识的情况下建立在线形象。

最后，GPT-4o 免费提供的（r）进化给我留下了深刻的印象吗？说实话，是的。未来我可能会做得更多。我们只是触及了表面，但请继续关注，还有更多内容:)

您可以在此处下载生成的 zip 文件。它包含网站静态文件、“images”文件夹、上传用于指导模型的文本文件、一个 image_prompts.txt 文件（我在其中粘贴了与 DALL-E 一起使用的所有提示 GPT-4o）以及“video”文件夹，其中包含为视频生成的图像。

{{userData.name}}已认证

什么是多模态？

文本

图片

视频

准备好？开始吧！

简单草图指示

添加文本文件

使用配色方案

为了走得更远

结论

AI 代理：“我是你的（前端）朋友” — OpenUI

生成式AI的未来是代理式的：你需要知道什么

灵图官方——基础Stable DiffusionAI艺术课程(初级到专业)

10 款最佳 AI 编码辅助工具 — 开发人员指南

Open WebUI：LLM Web UI

使用这三个必备的 AI 工具增强你的 Mac

专家系统

开源实时打字翻译工具

{{userData.name}}已认证

从笔和纸到网站只需几分钟免费？——利用 GPT-4o

什么是多模态？

文本

图片

视频

准备好？开始吧！

简单草图指示

添加文本文件

使用配色方案

为了走得更远

结论

AI 代理：“我是你的（前端）朋友” — OpenUI

生成式AI的未来是代理式的：你需要知道什么