阅读481 返回首页    go 机器人


绝望!人类玩了4000年的围棋,原来是瞎玩!阿尔法狗的弟弟阿尔法元来了!自学成才,三天秒杀它哥!

一年前,一只阿尔法狗横空出世,它在学习了几百万册人类棋谱后,以4-1打败了人类世界的围棋冠军李世石,震惊世界,由此引发了一系列对于人工智能的讨论。

最近,它的弟弟阿尔法元再一次刷新人们的认知,没看过一本棋谱,自学成才,3天时间,它就以100:0的成绩战胜了哥哥,刷新围棋领域的排名!

伦敦时间10月18日18:00,研究团队DeepMind再次在《自然》(Nature)杂志上发表了一篇关于AlphaGo的文章,称新一代AI程序AlphaGo Zero(阿尔法元)在没有任何人类输入的情况下,可以自学成才。

旧版AlphaGo在今年5月战胜柯洁后宣布退役,但DeepMind公司仍在继续研究AlphaGo系列产品,此次发表的论文就是为了推出迄今为止的最强版AlphaGo,代号AlphaGo Zero。

这只新的阿尔法狗不简单,它在完全没有人类帮助的情况下,自学成才。而且,从“一张白纸”到“顶级高手”,它只需要短短3天时间!

在某种意义上可以说,人类把阿尔法狗教坏了!它再也不需要人类的“教育和帮助”了。

戳视频,看看Zero到底厉害在哪里。

不使用人类的围棋数据,AlphaGo Zero是如何实现自学的呢?那就要先说说Zero与“旧狗”有哪些不同。

旧版Alpha Go需要先学习数百万份人类棋谱,还要经过几个月的密集训练,从而进行自我训练,实现超越。

新版Zero却能够“无师自通”,完全不需要任何历史棋谱的指引,也不需要人类的任何先验知识,完全靠自己的强化学习(reinforcement learning)。

研究团队事先没有给Zero学习任何人类棋谱,只告诉它围棋的规则,就让它自己在棋盘上下棋,与自己进行对弈,从一次次试验和失败中吸取经验教训,摸索规律,在实战中提高棋艺。

另外,Zero使用了单一的神经网络。此前版本的AlphaGo都是用了两种神经网络,一种用来预测下一步棋最好的走法,另一种用来计算,根据这些走法,谁更有可能获胜。

而Zero把这两种网络合二为一,只让神经网络预测获胜者,从而能够得到更高效的训练和评估,就好像让一个围棋高手来预测比赛结果一样。

(Zero强化学习下的自我对弈)

此外,Zero也不再使用快速而随机的走子方法。打个比方“旧狗”像是走一步看三步、步步为营的棋手,而Zero更像是纵观全局、成竹在胸的围棋大师。

DeepMind团队称,Zero用更新后的神经网络和搜索算法重组,随着训练加深,系统的表现不断进步。自我博弈的成绩也越来越好。同时,神经网络也变得更准确。

点击播放 GIF/1668K

Zero的学习很好地反映了人类棋手学习的过程。像初学者一样,开始只是贪婪地想要吃掉对方的棋子。但是经过3天训练,它就能掌握人类围棋高手所使用的复杂的技巧,“它重新发现了人类几千年的知识”,哈萨比斯说。

从下图可以看出,Zero的胜率一直在提升。3天后能战胜李世石,21天后能战胜AlphaGo Master,而40天后,就能超过AlphaGo此前的所有版本。

点击播放 GIF/252K

Zero更厉害的一点在于,随着训练的深入,它不仅棋艺获得极大提升,而且不再受到人类认知的局限,能够发现新知识,独立发现游戏规则,并且发展新策略,而这些具有创造性的围棋招式,模仿并完全超越了AlphaGo在与李世石和柯洁对弈时所使用的新技巧。

(AlphaGo几个版本的排名)

美国的两位棋手在《自然》杂志上对Zero的棋局做出点评:它的开局和收官与专业棋手的下法并无区别,它按照基本原则,与人类的走法基本一致,这说明人类几千年的智慧结晶,看起来并非全错。但是,Zero中盘的有些走法却比很诡异。

知社学术圈采访了美国杜克大学人工智能专家陈怡然教授,他表示:

DeepMind最新推出的AlphaGo Zero……摆脱了对人类标注样本(人类历史棋局)的依赖,让深度学习用于复杂决策更加方便可行。

陈怡然也提出了一个AI领域的科学家和实践者需要思考的问题:“在未来发展中,我们究竟应该如何看待人类经验的作用。”

谢菲尔德大学计算机神经科学教授Eleni Vasilaki在接受《卫报》采访时表示,这样的技术成就是非常了不起的。但是她也指出,在一些涉及复杂计算和精密度的游戏中,计算机可以打败人类,但在其他一些任务中,人工智能还是有较大差距的。

DeepMind团队的目标是要利用AlphaGo打造通用的、探索宇宙的终极工具。

据哈萨比斯说,无需人类输入能够自我学习的技能是打造通用人工智能的一个关键步骤,这项技术可以帮助人类解决很多科技难题,比如蛋白质折叠或新材料研发等等。

那么,你如何看待Zero的自学能力,如何预测人工智能的未来呢?

文章来源:科学哎哟喂,感谢原作者如有侵权请告知删除谢谢!

主编圈点:如果说AlphaGo打败李世石让人看到人工智能超越人类的可能性,那么AlphaGo Zero的诞生让我们确定了人类在于人工智能比拼的这个环节人类必然吃个败仗,如果Zero 都具有自学能力了,那我们人类的想象力估计就有限了。

最后更新:2017-10-20 21:53:07

  上一篇:go “重金属”机器人乐队来了,乐手会失业吗?
  下一篇:go 把柯洁虐哭的阿法狗被“新一代”Alpha Go Zero虐死,人工智能也太可怕了!