什么是图灵测试?
图灵测试是人工智能中的一种调查方法(人工智能)来确定计算机是否能够像人一样思考。该测试以艾伦·图灵的名字命名,图灵测试的创始人,英国计算机科学家、密码分析学家、数学家和理论生物学家。
图灵提出,如果计算机能够在特定条件下模仿人类的反应,就可以说它拥有人工智能。最初的图灵测试需要三个终端,每个终端都与其他两个终端物理隔离。一个终端由电脑操作,另外两个由人操作。
在测试过程中,其中一个人充当提问者,而第二个人和计算机充当回答者。提问者使用特定的格式和上下文在特定的主题领域内询问回答者。在预设的时间长度或问题数量后,提问者被要求决定哪个回答者是人,哪个是计算机。
这个测试重复了很多次。如果提问者在一半或更少的测试中做出了正确的决定,则计算机被认为具有人工智能,因为提问者认为它与人类应答者“一样像人”。
图灵测试的历史
这项测试以艾伦·图灵的名字命名,他开创了机器学习在20世纪40年代和50年代。在曼彻斯特大学时,图灵在他1950年名为“计算机械和智能”的论文中介绍了这项测试。
在他的论文中,图灵提出了一个所谓“模仿游戏”的扭曲。模仿游戏不涉及人工智能的使用,而是三个人类参与者在三个独立的房间里。每个房间通过屏幕和键盘连接,一个房间有一名男性,另一个房间有一名女性,另一个房间有一名男性或女性法官。女性试图说服法官她是男性,法官试图传播哪个是哪个。
图灵改变了这个游戏的概念,加入了一个人工智能,一个人类和一个人类提问者。提问者的工作是决定哪个是人工智能,哪个是人类。自测试形成以来,很多AI都能够通过;其中一个是由约瑟夫·韦森鲍姆创建的名为伊莱扎的项目。
图灵测试的局限性
图灵测试多年来一直受到批评,特别是因为从历史上看,为了让计算机表现出类似人类的智能,提问的性质必须受到限制。许多年来,只有当提问者提出问题时,计算机才可能得分高,所以它们有“是”或“否”的答案,或者与狭窄的知识领域有关。当问题是开放式的,需要对话式的回答时,计算机程序不太可能成功地愚弄提问者。
此外,像伊莱扎这样的程序可以通过操纵它不能完全理解的符号来通过图灵测试。约翰·塞尔认为这并不能决定智力与人类相当。
对于许多研究人员来说,计算机能否通过图灵测试的问题已经变得无关紧要了。与其专注于如何让某人相信他们是在和一个人而不是一个计算机程序交谈,真正的焦点应该是如何做出一个人机交互更加直观高效。例如,通过使用对话界面。
图灵测试的变体和替代方案
为了使图灵测试更具相关性,已经对其进行了多次修改。这些例子包括:
- 反向图灵测试——人类试图让计算机相信它不是计算机。这方面的一个例子是验证码.
- 总图灵测试-提问者也可以测试感知能力以及操纵物体的能力。
- 最小智能信号测试-只给出对/错和是/否的问题。
图灵测试的替代方案后来被开发出来,因为许多人认为图灵测试是有缺陷的。这些备选方案包括以下测试:
- 马库斯测试——对一个可以“观看”电视节目的程序进行测试,问一些关于节目内容的有意义的问题。
- Lovelace Test 2.0 -这是一项通过检查人工智能创造艺术的能力来检测人工智能的测试。
- wino grad Schema Challenge——这是一个以特定格式询问多项选择问题的测试。
今天图灵测试是如何使用的?
虽然图灵测试的变体通常更适用于我们当前对人工智能的理解,但测试的原始格式仍然沿用至今。例如,自1990年以来,罗布纳奖每年都由一个评委小组投票授予最像人类的计算机程序。比赛遵循图灵测试的标准规则。批评该奖项相关性的人经常淡化它,认为它更多的是宣传,而不是真正测试机器是否能思考。
在2014年雷丁大学举办的纪念图灵逝世60周年的比赛中,一个名为Eugene Goostman的聊天机器人模拟了一个13岁的男孩,在一些人看来,它通过了图灵测试,愚弄了33%的评委。这种所谓的第一次通过遭到了许多批评,他们认为没有足够的法官,其他机器在过去的测试中表现更好,测试只持续了五分钟就无效。
2018年,谷歌双工在7000名观众面前成功地通过电话预约了一位理发师。接待员完全没有意识到他们不是在和一个真正的人交谈。一些人认为这是现代的图灵测试,尽管并不像艾伦·图灵设计的那样依赖测试的真正形式。
GPT-3由OpenAI创建的自然语言处理模型被一些人认为最有可能击败我们今天拥有的任何技术的真实形式。但是,尽管它具有先进的文本生成能力,许多人还是批评了这台机器,因为它可能会被骗去回答无意义的问题,因此会在图灵测试的条件下挣扎。
尽管今天关于图灵测试的相关性和基于它的竞争的有效性有很多争论,但该测试仍然是讨论和研究人工智能的哲学起点。随着我们继续在人工智能方面取得进展,并更好地理解和绘制人类大脑的功能,图灵测试仍然是定义智能的基础,也是关于我们应该从技术中期待什么才能被视为思维机器的辩论的基线。