从命令到对话
让我们回顾一下计算的初期,当时使用计算机意味着在命令行界面 (CLI)中输入精确的命令。想象一下记住打开文件或复制数据的确切命令的挑战,更不用说找到“作业”文件夹了。并不是每个人都适合成为程序员。为了更广泛的可用性,有必要进行转变。
ELIZA于 1964 年问世,这是自然语言处理的早期尝试,通过关键字识别和脚本化响应让用户参与基本对话。尽管具有开创性,但 ELIZA 的交互方式远非灵活或可扩展。
大约在同一时间,Xerox PARC 正在开发图形用户界面 (GUI) ,后来由Apple 于 1984 年和Microsoft推向大众。 GUI 改变了计算方式,用可通过鼠标导航的图标、菜单和窗口取代了复杂的命令。这项创新使计算机可以直观地执行日常任务,为技术在我们生活中的普遍作用奠定了基础。
不同接口的示例。 ChatGPT 的主要交互是基于文本的,它会如何演变?
看上面的示例图片。今天我们正在见证一场平行的演变。用户提示基本上是用自然语言编写的小程序,结果的质量取决于我们的提示工程技能。正如早期计算从 CLI 的复杂性过渡到 GUI 的简单性,使每个人都可以使用技术一样,我们看到生成式 AI 正在出现类似的趋势,即将复杂的输入捆绑到更简单、更用户友好的复杂界面中。在后台。
Stable Diffusion WebUI、Midjourney 和 DALL·E 3 的 UI 和潜在提示显示了以图形方式表示复杂图像扩散后端的截然不同的方法。
如上所示,图像生成器(如Stable Diffusion WebUI、Mid Journey和DALL·E 3)在提示中要求不同程度的精度才能获得结果。虽然 Mid Journey 和 DALL·E 更易于使用,但 Stable Diffusion 允许更具体的输出。然而,我们对用户了解得越多,我们就越容易提供简单的体验,同时保持他们所需的特异性。
上下文捆绑
上下文捆绑通过将相关信息组合成单个命令来简化交互,解决传达复杂指令以实现期望结果的挑战。这样可以一次性调整用户意图和机器理解,从而提高效率和输出质量,从而无需手动编写用户提示。
我们已经看到这种情况在生成式 AI 工具中出现,例如 Edge 中的示例提示、Google Chrome 的选项卡管理器以及 Stable Diffusion 中的触发词是提示中的特殊标记,可以通过文本反转、LoRa、模型或其他进行微调改进。
在上下文捆绑中,“对话式”人工智能并不总是意味着对话。这是关于用户试图超越依赖基于文本的提示而获得的结果。上下文捆绑为用户提供了获得所需输出的捷径,而无需进行冗长的对话。用户体验不再取决于一般的对话界面。差异化是由特定数据和更专业的经验驱动的。
这种特殊性的例子包括Miro Assist、Clay AI 公式生成器和SCOPUS AI。每个命令都通过将相关信息组合成特定的单个命令来简化交互。
扩展上下文捆绑的另一种方法是让用户定义这些捆绑的属性。用户可调整的偏好和个性化被捆绑到上下文中,从而在产品后期为用户提供更高效、更相关的交互。
上下文捆绑不仅仅是为了简化对话,而是为了简化对话。它是为了帮助用户直接实现他们的目标,无论是通过搜索查询、摘要还是其他一些特定任务。它将详细的说明转化为简单的用户友好交互,特别有利于简单或重复的任务。但是对于更多开放式任务(例如探索)或需要细化的目标又如何呢?这就是需要持续的用户反馈机制或反馈循环的地方。
用户管理
尽管在使人工智能交互更加直观方面取得了进步,但仍然存在一系列需求,用户必须改进输出以实现其特定目标。在研究、集思广益、创建创意内容、提炼图像甚至编辑等活动中尤其如此。不断增加的上下文窗口和多模式功能使得引导用户应对复杂性变得更加重要。
无论是否意识到,我们作为人类都在不断地策划我们对世界的体验(上图)。这种管理可能看起来像是在对话中突出显示或选择我们感兴趣的某些关键词,或者在书中手动突出显示。在观察用户使用 ChatGPT 进行头脑风暴时,我注意到这种类似的突出显示行为。当时,用户无法与亮点互动,但可以使用其中的部分内容来指导他们的下一步。这表明,虽然最初的输出可能无法完全满足用户的需求,但它可以为下一步行动提供切实的锚点。让用户更轻松地管理和完善他们的输出,使用户和机器都能获得更高质量的结果。
示例包括Clipdrop、 ChatGPT 、HeyPi、Google Circle和Github Copilot。
在上图中,修复、线程对话和突出显示交互都是新出现的示例,它们展示了用户如何管理信息的特定部分以创建更相关的上下文并获得更好的结果。
以撰写一份经过充分研究的报告为例。用户的旅程通常从广泛的研究开始,从而发现需要更深入调查的关键点。当他们收集和评估信息时,他们逐渐将其编译并综合成最终的作品。在此过程中,突出显示或选择特定内容的时刻充当关键锚点,指导人工智能提供更相关的结果和背景。这条路径需要用户保存和使用亮点的方法。
用户需要保存特定的亮点,并使用这些亮点来完善他们的体验。这需要深入了解用户结果并创建反馈机制来捕获这一点。
用户管理表明,要使生成式人工智能有效支持复杂的创意任务,它不仅必须理解而且还必须预测用户与信息交互的微妙方式。通过识别和响应这些“管理信号”,人工智能工具可以提供更有针对性的帮助,丰富整体用户体验和结果。
为足够的信任而设计
虽然生成式人工智能使用户更容易与技术交互,但信任仍然是广泛采用的重大障碍。这在过去是正确的,在今天仍然是正确的。解决信任问题是建立和鼓励采用新人工智能工具的关键。
在理解人们如何接受和使用新技术的众多框架中,有两个框架特别鼓舞人心:技术接受和使用统一理论(UTAUT)和福格行为模型(FBM)。
作为一个有用的过度简化:UTAUT 表明使用意图受到绩效预期、努力预期、社会影响和便利条件的影响。例如,某人可能决定开始使用客户管理工具,因为他们相信它将有效地帮助他们实现销售目标(绩效预期),他们发现该应用程序简单且用户友好(努力预期),他们的同事和导师也使用和推荐它(社会影响力),并且可以通过它访问他们的组织数据库(便利条件)。
并行理论 FBM 将行为简化为动机、能力和提示(或触发因素)的函数。例如,购买咖啡的行为是由对咖啡因的渴望、金钱和附近咖啡店的存在以及作为提示的咖啡店招牌驱动的。
生成式人工智能减少了实现成果所需的感知努力。有趣的是,许多用户已经通过生成人工智能克服了激活惯性。然而,确保更多用户尝试并保持参与是信任发挥关键作用的地方。
在信任设计的背景下,有许多像上面提到的那样的观点和框架。在这里,我们将进一步简化并思考信任是由以下因素塑造的:以前的经验、风险承受能力、互动一致性和社会背景。
以往经验:我们必须认识到用户有包袱。他们的经验是由以前的经验所创造的。为了影响这种信任基础,我们只需不要重新发明轮子。熟悉的界面和交互使用户能够将过去的信任转移到现在。建立这种信任基础比与之对抗要容易得多。以上下文对话人工智能为例,我们可以利用潜意识倾向来反映对话,通过使用响应来影响用户交互的方式,而不是告诉用户输入提示。
风险承受能力:了解用户希望避免负面结果。关键是了解用户不会承担哪些风险。我们必须将风险降低到用户的风险承受能力以下。影响风险承受能力的一些方法包括:增加透明度、用户控制、用户同意、合规性。创造精致的体验可以利用美观的可用性来降低风险预期。然而,针对特定产品的方法总是会更有效。举个例子,想象一个为医生提供诊断的对话式人工智能。风险承受能力非常低。误诊对于医生和患者来说都是极其严重的后果。通过参考、及时分解和相互冲突的观点确保输出透明度将有效降低风险。
交互一致性:交互既是输出,也是用户到达那里的方式。用户不必怀疑不同的词语、情况或动作是否意味着同一件事。为了提高交互一致性,请确保从布局到按钮文本保持内部和外部一致性。在对话式人工智能的背景下,交互一致性可能看起来像在整个对话中具有相似格式的响应和具有相同含义的单词。如果用户请求某个主题的摘要,则它不应在一次交互中看起来像一篇文章,而在另一个交互中看起来不应该像项目符号列表,除非用户特别要求。
社会背景:可能是最明显的层。社交环境可以包括来自可信来源(例如经理)的认可,或可信网络内的便利(例如与预先批准的企业软件连接)。社交背景可能会受到社交证明策略的影响,并在互动中创造社交证明机会。在内部数据库法学硕士的背景下,这可能意味着强调用户及其直接团队所做的工作。指出系统具有内部数据的可见性有助于进一步建立系统在这种社会背景下得到批准的信任。
在设计人工智能体验的信任时,值得考虑哪些因素应该成为当前的焦点。通过理解和设计信任的这些方面,人工智能体验可以满足用户的期望和需求,从而提高普遍采用和接受度。解决信任问题不仅有益,而且有益。这对于未来生成式人工智能工具的集成和接受是必要的。
环境生态系统
本文介绍了上下文捆绑、用户管理以及信任设计的新兴趋势。作为一个整体,生成式人工智能通过降低日常用户开始执行任务的障碍,彻底改变了生产力,这反映了 GUI 的好处和旅程。然而,现代用户体验的发展已经远远超出了窗口和指针的范围。那么生成式人工智能接下来会走向何方呢?
GUI 通过支持多个程序接口促进了更深入、更高效的用户交互。这使得用户可以在不同的任务之间无缝转换,例如在一个应用程序中进行记账,在另一个应用程序中进行演示报告。跨不同环境的管理和行动强调了通过连接不同的用户意图和应用程序来提高生产力。
如上所示,新兴示例包括 Edge、Chrome 和 Pixel Assistant,它们集成了 AI 功能,允许用户使用生成式 AI 与其软件进行交互。在这种情况下,法学硕士知道该软件,这超出了先前应用程序限制它的对话窗口。
回顾过去,我们看到 GUI 是如何创建数字画布供用户创建的。与物理世界相比,它的优点是:提高效率、可扩展性和生产力。生成式人工智能很可能会走类似的路线,人工智能成为合作者,将我们的日常生活变成共享的体验。未来可能是一个增强的生态系统,其中对话和生成人工智能工具将在一个有凝聚力的工作流程中连接专业代理。这种生态系统方法可以进一步加深用户交互,从而在各种数字和现实世界环境中提供更加集成和高效的体验。
未来的趋势不仅仅是对话或伴侣体验。与我们今天看到的类似,生成式人工智能将直接创建输出。目前,用户参与输出,但画布的创建者和所有者最终是人工智能。随着我们以人为本的人工智能产品日趋成熟,下一步将是创建人工智能和用户可以在同一画布上协作的空间。我们已经在 Grammarly 等旧工具中看到了它,也在Github Copilot 等新兴生成工具中看到了它。我们看到生成式人工智能作为贡献者进行协作,用户最终创建并拥有工作空间。随着我们的舒适度和技术不断发展,我们可能会看到生成式人工智能在管理我们日常生活(物联网)的数字和物理方面发挥着更大的作用;增强现实并重新定义我们的生活方式和生产力。
不断发展的生成式人工智能交互正在重复人机交互的历史。当我们创造更好的体验,将上下文捆绑到更简单的交互中,使用户能够管理他们的体验并增强已知的生态系统时,我们将使生成式人工智能更加值得信赖、易于访问、可用并且对每个人都有利。