俄罗斯计算机“尤金”成为历史上第一个通过图灵测试的人工智能

来源:网易科技等

2014-06-09 11:26

在“人工智能之父”阿兰·图灵(Alan Turing)逝世60周年之际,英国科学家昨天(8日)宣布,一台超级计算机首次通过了“图灵测试”,成功让人类相信它是一个13岁的男孩。也就是说,这台计算机成为有史以来第一个具有人类思考能力的人工智能设备。

人工智能“尤金·古特曼”界面(2012年资料)

机器人成功伪装13岁男孩

6月8日,英国雷丁大学在著名的伦敦皇家学会(The Royal Society of London)举办了一场“图灵测试”,一个俄罗斯团队开发的一款名为“尤金·古特曼(Eugene Goostman)”的计算机软件通过了测试。

在测试中,尤金•古特曼模仿一名来自乌克兰的13岁男孩,而它成功地让33%的测试人相信了这一点。

计算机和人工智能的先驱阿兰·图灵1950年提出了著名的“图灵测试”。在这一年的十月,他发表了另一篇题为《机器能思考吗?》的论文,第一次提出“机器思维”的概念。他从行为主义的角度对“智能”概念给出了定义,并提出假想:一个人在不接触对方的情况下,通过一种特殊的方式,和对方进行一系列的问答,如果在相当长时间内,他无法根据这些问题判断对方是人还是计算机,那么,就可以认为这个计算机具有同人相当的智力,即这台计算机是能思维的。

图灵还进一步预测称,到2000年,人类应该可以用10GB的计算机设备,制造出可以在5分钟的问答中骗过30%成年人的人工智能。

本次测试就是以图灵的这一预测为标准,要求计算机在一次时间为五分钟的文字交流中,能够让30%的测试人相信它是人类。

共有5台计算机参加了本次测试,但只有尤金•古特曼最后通过。

该软件的开发者之一弗拉基米尔·维西罗夫(Vladimir Veselov)表示:“我们的主要设计理念是,它可以声称它什么都知道,但由于受年龄限制,实际上它并不是什么都知道,这是完全合理的。我们花了很多时间开发这样一个具有人性的角色。”

在2012年的一次测试中,尤金•古特曼也曾成功骗过29.2%的评委,距离通过测试仅一步之遥。

英国雷丁大学客座教授凯文·沃维克(Kevin Warwick)指出,尤金•古特曼可以被认为是首台通过“图灵测试”的计算机。虽然此前也有一些人声称其开发的软件成功通过了“图灵测试”,但它们的测试预先设定了讨论的话题或提出的问题。

沃维克指出,这是人工智能发展的一个里程碑事件,而且由于当天是图灵去世60周年纪念日,这一成就具有了特别的意义。

但沃维克也提醒说,这项技术可用于网络犯罪。他说:“在人工智能领域,没有什么比图灵测试更具标志性和争议性的了——让一台计算机说服足够数量的测试人员,认为它不是一台机器而是一个人。如果一台计算机可以欺骗一个人,让他误以为它是某个人或其它什么东西,甚至是我们可以信赖的人,这不能不让人们警惕可能因此产生网络犯罪。”

阿兰·图灵像

通过图灵测试,就真的是“人”吗?

在现代社会,无论是GPS导航系统与Google搜索引擎,还是自动柜员机与苹果Siri,更遑论象棋大师深蓝(Deep Blue)和满腹经纶的沃森(Watson),人工智能无处不在。但它们都不被认为是真正的人工智能,因为在人们看来,它们都不具有人类的感情。

而图灵测试,就被认为是检验机器是否具有人类感情的一个标准。一个典型的例子是,如果测试者反复提出相同的问题,一台机器只会从知识库里重复提取简单的答案,而真正的人工智能需要表现出“不耐烦”等感情活动来骗过测试者。

不过,很多人对图灵测试提出了理论上的批评。

其中最著名的是“中文房间”理论。美国哲学家约翰·希尔勒提出了这样一个实验:一个只懂英语的人手中拿着一本中文对照手册,身处图灵实验中所提及的房子中。而另一人则在房间外向此房间发送中文问题。房间内的人只需按照对照手册,返回手册上的中文答案,房间外的人就会以为房间内的人是个会思维的中文专家。然而实际上房子内的人可能对象形文字一窍不通,更谈不上什么智能思维。

也就是说,只要知识库足够大,一台机器仍然可以通过简单提取答案的方式,让人们误以为它拥有感情。

大数据技术的发展对这一质疑提供了支持。如果能够把一个人所说过的、听到的、写下的、或者是读到的每一个字,每一句话,以及每一个看到的场景,每一段经历的声音片段,一并同其他成百上千、甚至成千上万的人们的相关数据,都被录制下来并可随时调用,人们最终可以制造出一个能够通过图灵测试的机器人。然而,这个机器人真的拥有了人类的感情和好奇心吗?

翻页阅读:尤金到底说了什么

 

 

 

亲历图灵测试

尤金到底说了什么,可以让人们把它当做一个真正的小男孩?雷丁大学方面尚未公布本次测试的具体问答,但在2012年的那次测试中,科普作家丹·法尔克(Dan Falk)曾经现场参加,并记录下了当时的对话。以下为法尔克撰写的介绍文章:

——“你最喜欢的科幻片有哪些?”

——“我喜欢《星球大战》和《骇客帝国》”

屏幕上显示出这样的对话。

现在的我正在努力分辨这个和我聊天的到底是一个机器人还是真正的人类。我又说:

——“如果我说《星战大战前传》很难看,你赞成吗?”

——“双手赞成!乔治-卢卡斯应该被拉去枪毙!”

这下瞬间就了然了——只有一个有血有肉的电影爱好者才能被《星战前传:威胁潜伏》给激怒。在上周于英国布莱切利公园举行的“图灵测试马拉松”中,作为18号裁判,上述的对话就是我的一个比较容易判定对方是人还是机器的方法之一。测试的目标就是让裁判们仅仅通过对话的形式判定对方是机器还是人。这个测试,就是艾伦-图灵在60多年前所设计出来的。60多年前,在同一个地方,图灵所设计的 Enigma 密码破译机正在为二战中的盟军效力。

上周六的图灵测试马拉松中和世界各地其它的图灵测试比赛一样,是为了纪念艾伦-图灵诞辰一百周年。而在布莱切利公园举办的这场,规模最大的一次图灵测试马拉松,正是在重现图灵上世纪50年代在论文中所提出的那些可能性和方法论。

那么,在图灵测试中当裁判到底是什么感觉呢?早在这个活动开始几个月前,我就报了名。实际上这个和“审间谍”的感觉差不多:你需要问足够多的问题,直到最后打消疑虑,或者是判定对方是机器。众所周知,裁判是不可能在当时知道和自己进行文字交谈的到底是真人还是机器,所以说,如果这个机器够“聪明”,能够给出类似于人思考后得出的答案,且在5分钟的交谈时间内,裁判都没有识破对方,那么这台机器就算是通过了图灵测试。

图灵测试并不是要机器人最大限度山去愚弄人类裁判,不过按照图灵的设想,在2000年以前,裁判们在图灵测试中的准确率就会下降到70%及更低。12年之后的今天,我们就拿出今天这场马拉松测试的结果来和图灵本人的预测来比较比较吧。

总之,现在坐在我对面,而我却看不见的“人”——这个《星球大战》粉丝——或者是披头士的铁粉——“有史以来最好的乐队”,当被问到在 the Rolling Stones 和 The Who 之间选一个的时候,回答是“必须是滚石”,而当我(在脑海中)不赞同他的观点时,对方又说“在80年代早期,The Who 确实在解散之前写过一些好歌”。好吧,这些回答真是太“人性化”了,应该不可能是个机器。

但是另一次谈话就有些说不清了。当我告诉对方我来自加拿大时,对方回答说他们“听说加拿大是个很好的地方”,除了“魁北克地区都说法语”之外。这看起来好像是一个能够识别语音的机器在 Google 和维基百科上迅速查找了关于我家乡的资料,然后告诉我的内容。要么这个人就是对中学时的地理老师说的话到现在都还记忆犹新,或者,这个人骨子里就比较反感法语区,或者法国人?

在图灵设计这个测试的时候,就承认,一般人们认为智力和对语言的掌握程度是相关的。确实,语言能力并不仅仅是把词语以正确的顺序组成句子这么简单,它还包含了逻辑等各种认知能力——表达自己思想,认识所处环境,和别的人类交流的能力——或许还包括猜测对方在想什么的能力。孩童在成长过程中会慢慢收获这些能力和经验。如果将这些能力都灌输给一台机器的话,可以说是个不小的挑战。当然在上次的马拉松中,那些聊天机器人所使用的软件也确实值得我们赞赏,它们的表现令人惊讶。其中,Eugeen Goostman (著名的人工智能),这个有着13岁小男孩人格的聊天软件,险些就通过了测试。

这届的图灵测试结果说明,我们现在的人工智能还没有达到图灵预计的那个阶段,机器目前想和人类真正地谈话还是比较困难的。

责任编辑:张广凯
观察者APP,更好阅读体验

中法欧领导人三方会晤结束

习近平将同马克龙和冯德莱恩举行三方会晤

“五一”近3亿人次出游,较2019年同期增长28.2%

“美国首次暂停,以色列深感担忧”

习近平抵达巴黎开始对法国进行国事访问