大型行动模型（LAM）的兴起：AI如何理解和执行人类意图？

使用 Microsoft Bing Image Creator 创建

人工智能 (AI) 领域的一个热门话题和发展是大型动作模型，也称为大型代理模型或简称 LAM。LAM是现在我们大多数人都熟悉的大型语言模型 (LLM) 的延伸。LLM 可以通过根据输入预测下一个单词或标记来生成文本。LAM通过增强这些 LLM 以使其成为“代理” ，将这一过程向前推进了一步。代理是能够自行运行任务的软件单元，因此它们不是简单地回答人类用户的查询，而是最终帮助实现目标。这将法学硕士的语言流畅性与自主完成任务和决策的能力结合起来，这涉及到一个实质性的变化。

大型动作模型的结构基于它们旨在模拟的应用程序和人类动作的组成。LAM可以清楚地模拟各种应用程序的组成和在其上执行的人类动作，而无需文本等瞬时演示。这得益于神经符号编程的发展。我们无法访问模型来验证这一点。

大型语言模型 (LLM) 和大型代理模型 (LAM) 都是人工智能模型的类型，但它们的用途不同，功能也不同。图 1 说明了核心区别。

图 1. LLM 和 LAM 之间的差异

从工作原理上看，LAM 通过与外部系统（如物联网设备等）集成来与现实世界互动。通过连接到这些系统，LAM 可以执行物理操作、控制设备、检索数据或操纵信息。这使得 LAM 能够机械化整个过程并智能地与世界互动、与人交谈、根据条件变化进行调整，甚至与其他 LAM 一起工作。

LAM 拥有众多功能，使其成为人工智能领域的主导工具。首先，LAM 被开发用于理解用自然语言表达的复杂人类目标，将这些意图转化为可操作的步骤并实时响应。其次，LAM 可以与世界进行智能交互，包括人、环境变化适应和其他 LAM。第三，LAM 通过与外部系统的集成与现实世界进行交互。最后，LAM 将生成式 AI 从温顺的工具转变为实时完成工作的功能性协作者。

大型行动模型的潜在用例可以应用于不同的领域。在医疗保健领域，LAM 可以通过现代诊断和量身定制的治疗策略改变患者护理。在金融领域，LAM 可以帮助进行风险衡量、欺诈发现和算法交易。在汽车领域，LAM 可以帮助生产自动驾驶汽车并改进车辆安全系统。

LAM 可用于实际产品，其中一个值得注意的例子是Rabbit r1 设备，目前零售价为 199 美元，可供预订。Rabbit r1 是一款独立设备，大小约为 iPhone 的一半，配有触摸屏和独特的 360 度旋转摄像头，可用于拍摄照片和视频。滚轮简化了设备导航，使用户能够轻松地与内置助手进行交互（远场麦克风、一键通话按钮等）。

Rabbit 是一家 AI 公司，它通过自然语言界面和专用硬件创建了定制操作系统 (OS)。Rabbit 的核心产品是Rabbit OS，它由其私有的 LAM 操作，允许 Rabbit r1 设备识别和重现各种技术界面上的人类动作，通过应用程序自然地实现导航现代化。这标志着朝着无需任何应用程序即可轻松进行在线用户交互的方向迈出了显著的一步。

大型行动模型准备在塑造人工智能的未来方面发挥重要作用。通过强化语言模型，使其成为能够自行执行任务的“代理”，将生成式人工智能打造为实时行动伙伴。像 Rabbit 这样的现实世界应用程序已经在利用 LAM 的力量。这为整个宇宙带来了新的前景，并标志着人工智能发展的重大转变。随着我们不断探索和变革，LAM 肯定会在影响人工智能前景方面发挥至关重要的作用。

航程才刚刚开始。敬请期待有关这一激动人心的 AI 技术前沿的更多更新。

{{userData.name}}已认证

探索 GPT-4o 的惊人能力：7 个不容错过的示例

10 款最佳 AI 编码辅助工具 — 开发人员指南

灵图官方——基础Stable DiffusionAI艺术课程(初级到专业)

10 款最佳 AI 编码辅助工具 — 开发人员指南

Open WebUI：LLM Web UI

使用这三个必备的 AI 工具增强你的 Mac

专家系统

开源实时打字翻译工具