无数代以来,人们一直保存着家人的照片、物品、视频等。但如果人工智能能让你再次听到他们说话,那会怎样?这是一种“留住他们”的好方法,还是会让人感到不安?
OpenAI最近宣布推出语音引擎——一种只需 15 秒录音即可模仿任何人声音的人工智能模型。
什么是语音引擎?
Voice Engine 是一种模型,旨在仅使用文本输入和单个 15 秒的音频样本生成听起来自然的语音,与原始说话者的声音非常相似。这项技术于 2022 年底开发,展示了即使使用小型模型和有限的样本输入也能产生富有情感和逼真的声音的能力。
它已被用于支持文本转语音 API、ChatGPT 语音和大声朗读功能中的预设语音,凸显了其从文本创建逼真语音的多功能性和有效性。
我记得 Netflix 热播剧《黑镜》第 2 季第 1 集名为“马上回来”,讲述了一个年轻女子的男朋友在车祸中丧生的故事。
黑镜“马上回来”
当她哀悼他时,她发现技术现在可以让她与模仿他的人工智能进行交流。
虽然这是一个虚构的场景,但语音引擎使类似的应用成为现实。
语音克隆的三大应用
OpenAI 在博客文章中介绍了语音引擎的几个实际示例,以下是我最喜欢的三个应用程序:
- 翻译内容:语音引擎可以翻译视频和播客等内容。这项技术允许企业和创作者将其内容翻译成多种语言,同时保留原始说话者的声音和口音。
- 支持非语言人士:语音引擎对无法说话的人有很大帮助。它为他们提供独特的声音,听起来自然,而不是机械的。
- 帮助患者恢复声音:在诺曼·普林斯神经科学研究所,语音引擎正在帮助因疾病或受伤而失去说话能力的患者。只需一段简短的音频,医生就可以重现患者的声音。
就我个人而言,我很高兴看到语音引擎被集成到我们最喜欢的应用程序和设备中。下面列出的潜在用例确实令人惊叹。
- 如果能够用其他语言来表达我的声音,以便对我的 YouTube 视频进行本地化,那么这将是非常大的帮助。
- 对于制作游戏、娱乐或广播剧,语音引擎可以让一个人令人信服地为多个角色配音,从而在预算上提供更多的创作灵活性。
- 想象一下,在观看 Netflix 的日语电影时,能够根据需要快速切换到任何语言,同时保留原始演员的声音。
要真正体会 OpenAI 语音引擎的强大功能和潜力,您真的需要亲自聆听。虽然我无法在这篇 Medium 文章中直接嵌入音频片段,但我强烈建议您查看 OpenAI网站上的示例。
声音克隆非常危险
当然,语音引擎的潜在优势很大,但仍存在重大风险需要考虑。如此先进的语音克隆技术有可能被滥用,从而对个人、组织和整个社会造成真正的伤害。
- 助长欺诈和诈骗:犯罪分子可以克隆他人的声音来欺骗他人,以牟取经济利益。例如,诈骗者可以合成冒充亲属、当局或商业联系人,诱骗受害者汇款或泄露敏感信息。
- 传播错误信息和虚假内容:这可以被用来制造虚假音频内容,让公众人物说出他们从未说过的话。合成语音音频可用于以前所未有的规模传播虚假新闻、宣传、阴谋论和恶作剧。
- 侵犯隐私和同意:只要有声音样本,就可以轻而易举地在未经他人同意或知情的情况下伪造音频内容。这为制作未经他人同意的音频色情片、虚假私人对话和其他令人不安的侵犯隐私行为打开了大门。即使没有公开分享,未经他人同意的语音克隆也是一种侵犯隐私的行为。
- 它可能取代配音演员:声音克隆可以让导演和创作者获得他们想要的角色声音。这基本上就是取代配音演员并窃取他们的相似之处。
- 这可能会使法律诉讼和新闻报道复杂化:削弱对音频证据的信任 随着语音克隆变得越来越容易获得和现实,这可能会削弱人们对音频记录作为可靠证据的信任。伪造的语音邮件、会议记录和采访可能会被用来诬告他人或制造怀疑。
如何获取访问权限?
由于担心潜在的滥用和道德影响,OpenAI 尚未广泛发布该人工智能模型。
该公司对于语音引擎的广泛发布持谨慎态度,并正在与有限数量的合作伙伴合作,这些合作伙伴已同意特定的使用条款,例如未经同意不得冒充个人,并披露生成的声音是由人工智能生成的。
该公司还致力于实施安全机制,以防止语音引擎的恶意使用,并确保该技术不会被滥用于有害目的。