作者使用 Ideogram 制作
1962 年,道格拉斯·恩格尔巴特 (Douglas Engelbart) 发表了一篇题为“增强人类智力”的文章。
在这篇论文中,道格拉斯认为数字计算机可以提供最快的方法来“提高人们处理复杂问题情况的能力,获得理解以满足他的特殊需求,并得出问题的解决方案。”
恩格尔巴特被称为图形用户界面之父,他将计算机视为增强而不是取代人类智力的工具,为图形人机交互奠定了基础。这一愿景促使 Xerox PARC 的 Alto 开发了第一个图形界面,后来又由 Apple 的 Macintosh 操作系统和 Microsoft 的 Windows 进行了改进。
从那时起,GUI 不断发展,融入了各种交互元素,如菜单驱动、触摸屏和语音驱动界面。
然而,随着生成式人工智能的出现,一种新的界面类型开始塑造人机交互。
自然语言接口
虽然自然语言接口 (NLI) 的概念自人工智能早期发展以来就已存在,但大型语言模型使它们具有难以置信的相关性和影响力。
NLI 的目的是允许用户使用日常语言(书面或口头)与计算机或系统进行交互,因此从其基本形式来看,NLI 是会话界面。
“自然语言界面标志着人机交互像两个人之间的对话一样自然的新时代的到来。”
当然,人工智能文本聊天机器人现已成为主流,因为每个支持渠道、网站、服务和/或产品似乎都包含聊天机器人。此外,每个人都在寻找使用聊天机器人来提高生产力的方法。
因此,虽然文本聊天机器人非常适合与编码、头脑风暴、网络研究和文案编辑等相关的用例,但发展轨迹正在朝着更自然的通信形式发展。
它是什么?
人工智能生成语音。
她的世界
就在几年前,这看起来还像是科幻小说,但我们正越来越接近语音人工智能助手,就像电影《她》中展示的亲密而智能的助手一样。
在这部电影中,主角西奥多与人工智能同伴建立了深厚的个人联系,展示了一定程度的互动和情感投入,这在上映时似乎有些牵强。
就我个人而言,我现在在智能手机上使用 ChatGPT 语音功能比使用文本功能更频繁,这使得它对我来说变得越来越普遍和普遍。经过几分钟的交谈,我几乎忘记了我正在与人工智能交谈。
Siri、Google Assistant 和 Alexa 等虚拟助手可能是语音 NLI 的首个版本,但它们与现在由大型语言模型驱动的 NLI 所能达到的水平还相差甚远。
ChatGPT 语音仍然需要解决的一个问题是响应时的轻微延迟,但新语音技术的突然进步正在融合,将把语音提升到一个新的水平。
人工智能语音进步
以下是使人工智能语音与人类对话难以区分的新进展。
- 更快的推理
- 语言处理单元 (LPU) 芯片将变得普遍(查看Groq),解决 AI 语音响应中的延迟问题。
- 同理心 AI
- 在同理心大语言模型 (eLLM) 方面取得的突破,例如Hume 的 EVI,可以理解和模拟语气和单词强调,从而强调更具同理心的响应。
- 语音克隆OpenAI 开发了一种名为“语音引擎”
- 的文本转语音模型,可以仅从 15 秒的音频样本中生成与说话者的声音非常相似的自然语音。
- 生成式人工智能语音
- 生成式人工智能模型的进步允许创建高度真实且可定制的合成语音,从而扩展了基于语音的体验的可能性。查看ElevenLabs和Play.ht作为该领域的创新者。
这些技术将很快塑造消费者和企业的趋势。 Opus Research 的一项调查显示,13% 的受访者认为语音体验已经被广泛采用,而 72% 的受访者预计语音体验将在未来一到五年内得到广泛采用。
来源:代码大师
AI语音作为主导界面
虽然基于文本的聊天和消息传递对于一些重要的业务和书面用例很有意义,但人工智能语音具有更深远的文化和广泛的影响。
对于一个……我们有一个孤独的问题。
孤独意味着人类会转向其他陪伴方式,就像我们在人工智能伴侣身上看到的那样。
“约会平台上 20% 的男性似乎正在转向人工智能来引发更有吸引力的对话。人工智能正在改变现代约会场景吗?对于某些人来说,虚拟合作伙伴可能是最接近现实的。”
– AIGirlfriend 统计(来源)
新年以来,“AI女友”一词的搜索量增长了200%以上,AiGirlfriendreview等AI女友应用的下载量在过去5个月内增长了500%。
但人工智能女友并不是唯一的重大转变。对于心理健康支持,人工智能治疗助理可能能够帮助解决创伤和问题,而不必担心受到评判。人工智能导师用于教育,会说话的人工智能角色用于娱乐,或者只是人工智能伴侣用于个人朋友互动。
由于人工智能语音对话比其他形式的通信更加自然,而且它们变得越来越可信,因此它们可能会几乎无处不在。在设备、汽车、手机、家庭等中……