观察者网

“阿法零”接连打败国际象棋将棋世界冠军 “阿法狗”走向教学

2017-12-15 11:51:57

【观察者网综合报道】自2016年3月甫出茅庐震惊世人后,“阿法狗”(AlphaGo)连续击败各路围棋高手,令人谈虎色变。可怕的是其“自我更新”的能力,几经升级的“阿法狗”已经进化成“阿法零”,自我学期不到24小时,就问鼎国际象棋、将棋、围棋的人类巅峰。“无敌是寂寞”,没了对手的“阿法狗”如今选择放下身段,成为一款棋类教学程序,将“功力”传授给大家。

这一决定当然不是这个人工智能(AI)程序自己做出的。12月11日,谷歌的AI子公司深度思维(DeepMind)宣布发布“阿法狗”教学工具。而两天后,团队资深研究员、曾代AI执子的“人肉臂”黄士杰,宣布正式离开“阿法狗”,转投深度思维其他项目。

“阿法狗”不断升级

2016年,名为“阿法狗”的AI在和所有其他围棋程序的对抗中获得99.8%的胜率后,进一步学习,于当年3月挑战人类围棋世界冠军。五局鏖战,人类1∶4不敌AI,轰动一时。人们将这一成绩视为彼时人工智能的巅峰之作,没成想,这只是“阿法狗”的起步。

2016年3月,李世石不敌“阿法狗” @视觉中国

今年1月,一个神秘账号Master在知名围棋平台上先后挑战柯洁、朴廷桓和井山裕太等顶级高手,豪取胜利,随后战赢“棋圣”聂卫平,直至60盘决胜收官时自爆身份,公布自己正是“阿法狗”新版。

10月,“阿法狗”程序再次升级——“阿法元”(AlphaGo Zero)出现。从深度思维在《自然》杂志发表的论文来看,“阿法元”完全是自学成才,在自己与自己的对弈角力中突破自我。经过40个小时,棋力就超过了4000点;40天后,棋力达到5185点。其以100∶0的不败战绩,狠狠击败了曾书写历史的旧版“阿法狗”;对阵“阿法狗”大师版的战绩是89比11。

此前,打败韩国李世石的“阿法狗”版本棋力为 3739点。打得柯洁泪洒棋枰的“阿法狗”大师版棋力为 4858 点。

2017年5月,柯洁挑战“阿法狗”,在大比分3:0落后的情况下,柯洁泪洒棋枰 @视觉中国

说到柯洁这次流泪,很多记者都问过他,但是柯洁都没有回答。直到中国前国手江铸久九段最近(12月8日)在复旦演讲时,才透露一些细节。他说,私下里,有小伙伴问柯洁那次流泪的原因。柯洁说,“下不过嘛,就哭了。怎么都下不过了?你不哭吗?”对此江铸久认为,年仅20岁左右的少年柯洁“真是很可爱啊”。

直至12月6日,深度思维再出惊人之举:其研发的新一代“阿法零”,凭借强劲的计算资源,使其经过不到24小时的自我对弈强化学习,就接连击败了国际象棋、将棋、围棋三个世界冠军级的电脑程序,自此成了全能棋王。

“阿法零”独孤求败

最新出现的“阿法零”,是深度思维团队继“阿法元”问世之后带给人们的又一全新算法,并称它是“更通用版本”。

目前,“阿法零”算法可以在8个小时训练后击败去年对战李世石版本的“阿法狗”,再以4小时训练击败世界顶级的国际象棋程序Stockfish;又用2小时训练击败世界顶级将棋程序Elmo。

深度思维在《自然》杂志发表的论文

与前辈“阿法元”相比,“阿法零”有很多自己的独到之处。首先,“阿法元”是在假设结果为赢/输二元的情况下,对获胜概率进行估计和优化,而“阿法零”会将平局及其他潜在结果都考虑在内,深一步估计和优化;其次,“阿法零”并不是靠转变棋盘位置进行数据增强,它只对单一神经网络进行维护,并不断更新该神经网络;最后,“阿法零”所有对弈都重复使用相同的超参数(开始学习过程之前设置值的参数,而非通过训练得到的参数数据),因此无需额外针对特定某种棋类再进行调整。

无敌是寂寞,“阿法狗”传授功力

本月11日,深度思维拿出了一套“阿法狗”教学工具。“阿法狗”团队核心成员黄士杰在其社交媒体账号上介绍说,该教学工具总共收录了约6000个近代围棋史上主要的开局变化,从23万个人类棋谱中收集而来,而所有盘面都有“阿法狗”评估的胜率及推荐的下法。

“阿法狗”教学系统网站

这套教学使用的其实是神秘账号Master那一版的“阿法狗”。但这里所有的胜率与下法,AI都思考过将近10分钟——这意味着1000万次模拟,而每一个开局变化,“阿法狗”都固定延伸20步棋。再加上下法,整套教学工具约有2万个分支变化,37万个盘面。团队成员希望,人们能感受这套教学工具中的创新,并可从中获益。

教学系统推出两天后,黄士杰宣布正式告别“阿法狗”,投身公司的其他研究中。

其实早在今年5月,当“阿法狗”战胜柯洁后,深度思维就宣布此后该程序不会再参加到人机大战的竞技中去。团队的下一步计划,是研发出广泛算法以投入应用,包括给出疾病的治疗方案、设法将能源消耗降低,以及发明出革命性新材料等。

现在,深度思维已与谷歌数据中心共同研发管理制冷系统的新技术,并与英国全民医疗健康系统达成合作。他们,在让AI相关算法真实落地于应用中。

分享到
来源:科技日报 | 责任编辑:徐乾昂
专题 > 科技前沿
科技前沿
风闻·24小时最热
网友推荐最新闻
切换网页版
下载观察者App
tocomment gotop