543
机器人
把柯洁虐哭的阿法狗被“新一代”Alpha Go Zero虐死,人工智能也太可怕了!
文 | 孔冰欣
曾经,有(几)只“别人家的狗狗”,纵横棋坛,打遍天下,连连击败围棋界的高手高手高高手,震惊了世界。就连我们的傲娇星人柯洁老师,在与“地球最强狗狗”对决的过程中,也被狠狠“虐”了一把,心有不甘地留下男儿泪,不得不跑到厕所调整心情,由衷感叹人工智能的强大。
AlphaGo 辉煌史一分钟速览
姓名:AlphaGo(Fan,Lee,Master,Zero)
1. 击败樊麾
2015年10月,AlphaGo击败樊麾,成为第一个无需让子即可在19路棋盘上击败围棋职业棋手的电脑围棋程序,写下了历史,相关成果在2016年1月发表于Nature。
2. 击败李世石
2016年3月,AlphaGo在一场五番棋比赛中4:1击败顶尖职业棋手李世石,成为第一个不借助让子而击败围棋职业九段棋手的电脑围棋程序,再创历史。五局赛后韩国棋院授予AlphaGo有史以来第一位名誉职业九段。
3. 排名短暂超越柯洁
2016年7月18日,AlphaGo在Go Ratings网站的排名升至世界第一。但几天之后被柯洁反超。
4. 化名“Master”横扫棋界
2016年底至2017年年初,再度强化的AlphaGo以“Master”为名,在未公开其真实身份的情况下,借非正式的网络快棋对战进行测试,挑战中韩日台的一流高手,60战全胜。
5. 战胜柯洁,成为世界第一
2017年5月23至27日乌镇围棋峰会,最新的强化版AlphaGo和世界第一棋手柯洁对局,并配合八段棋手协同作战与对决五位顶尖九段棋手等五场比赛,获取3比零全胜的战绩,团队战与组队战也全胜。这次AlphaGo的运算资源消耗仅为赢李世石版本的十分之一。在与柯洁的比赛结束后,中国围棋协会授予AlphaGo职业围棋九段的称号。
大家猜得到这开头,却想必猜不到后续的发展。一物降一物,这(几)只伟大的“狗狗”——AlphaGo(阿法狗)在踩碎了围棋爱好者的一地玻璃心之后,终于被家族的“新世代”——AlphaGoZero给收拾了。近日,《自然》(Nature)杂志发表了一篇题为Mastering the game of Go without human knowledge(不使用人类知识掌握围棋)的论文,详细介绍了阿法狗的Daddy们、即谷歌DeepMind团队最新的研究成果:AlphaGo Zero从围棋小白起步,不需要任何历史棋谱的指引,更不需要参考人类任何的知识经验,纯靠个人强化学习(reinforcementlearning)和参悟,棋艺力压家族前辈,成为“真·传说中的·百战百胜”,100-0击溃前任哥哥。
DeepMind的创始人+CEO Demis Hassabis
眼冒金星、智商不够用的小编,在啃了若干篇对该论文的解读后,斗胆尝试用“说人话”的方式,尽量深入浅出,先为亲爱的读者们梳理下AlphaGoZero的特点(如有未尽之处,请大家轻拍):
•从零开始学习,不需要任何人类的经验
•使用更少的算力得到了更好的结果
•发现了新的围棋定式
•策略网络和价值网络成为一个神经网络
•无需进行随机推演(Rollout)
……
突破“白板理论”
所谓“白板理论”(Tabula rasa),其实是哲学上的一个着名观点:婴儿生下来白板一块,通过不断训练、成长获得知识和智力。据此,AI 领域的先驱图灵曾经提出了着名的“图灵测试”,认为只要能用机器制造一个类似小孩的 AI,然后加以训练,就能得到一个近似成人智力,甚至超越人类智力的AI。
现代科学则指出,婴儿不能算纯粹的“白板”,生物亿万年的进化,导致人类幼时初初睁开眼睛,就天然具备“偏爱高热量食物、饿了就哭闹引起注意”的本能策略。而和人类婴儿相比,计算机才是实打实的“白板”,于是,一场新讨论开始了:监督学习(Supervised Learning)和无监督学习(Unsupervised Learning),哪种方式更适合让机器从零开始获得智能?顾名思义,前者强调要把人类的经验灌输给机器,后者强调让机器自己摸索万事的规律。(小编打个不是最恰当的比方,前者有点像死记硬背式的教育,后者有点像自由散漫的放养式教育……)
阿法狗超人的棋艺,是建立在计算机海量学习、参悟人类棋谱、棋艺的基础之上的,就算我们输了,至少可以聊以自慰:你小子,也别得意,再牛,祖师爷还是我们人类!可是,AlphaGoZero,乃无监督学习的产物。通过几天的训练——包括近500万局自我对弈——AlphaGoZero便上了天,分分钟“秒杀”人类不算,还打败之前所有的AlphaGo版本(包括监督学习的版本)。敲黑板划重点:据悉,达到这样惊人的水准,AlphaGoZero用的时间比前任阿法狗短得多了!一个花了几天工夫,另一个则花了几个月的工夫。更可怕的是,随着程序训练的进行,AlphaGoZero独立发现了人类用几千年的时间才总结出的围棋规则,且建立了新的战略,为古老的游戏带来全新的见解。
这说明了什么问题?说明“你好,人类”“再见,人类”,把“人类”甩了的计算机,貌似反而进步得更快。人类的智慧与经验,好像已经显得多余、“拖后腿”了。
柯洁评价:
“
对于alphago的自我进步来讲
人类太多余了
”
扎心,泪目……
算法改进,让AlphaGoZero更强
由于在硬件和算法上的进步,AlphaGo变得越来越有效率
如上图所示,由于在硬件和算法上的进步,“AlphaGo”系列变得越来越有效率。优秀的算法不仅仅能降低能耗,也能极大提高效率。另外,这也表明围棋问题的复杂度并不需要动用大规模的计算能力,那是浪费。
Deepmind博客介绍,AlphaGo Zero采用了新的强化学习方法,从一个不知道围棋游戏规则的神经网络开始(如前文所述,“白板”),然后通过将这个神经网络与强大的搜索算法结合,实现自我对弈了。在这样的训练过程中,神经网络被更新和调整,并用于预测下一步落子和最终的输赢。
这一更新后的神经网络将再度与搜索算法组合,这一过程将不断重复,创建出一个新的、更强大版本的AlphaGo Zero。在每次迭代中,系统的性能和自我对弈的质量均能够有部分提高。最终的神经网络越来越精确,AlphaGo Zero也变得更强。
感兴趣的朋友们,可自行搜索论文原文,进行深度学习。(小编怕再说下去,就误人子弟遭群殴了……)
对于人工智能的发展,我们期待能用来帮助人类攻克诸如蛋白质折叠、制造出治疗疑难杂症的药物、减少能源消耗、寻找革命性的新材料等等重大难题与挑战。有专家表示,“目前,人工智能和人甚至动物相比,所知所能依然有限……不要盲目追逐流行的东西,要审时度势,踏实做积累,看准了坑再跳”;此外,“机器经验与人类经验有很大差别,我们该如何去选择和利用呢?”
总结,现在,人类应该还不用担心被人工智能“灭”了,未来如何,则尚待定论。不过,人类的智慧也好,机器的智慧也好,我们肯定“智慧”本身,而把“智慧”用在什么地方,是比“智慧”本身更复杂的命题。希望一切的“智慧”,都可以让生活变得更美好吧——这也许是非常天真的想法,而我们情愿这么想。
然而对AI取代人类的焦虑,却也已经是全球化的了。
转载请后台联系周刊君,获得授权!
转载时,须注明作者、出处和微信号。
最后更新:2017-10-20 21:41:05