1008
机器人
史上最强人工智能出世:阿尔法狗再进化,自学3天就100:0完败李世石版旧狗
人工智能迎来了一个里程碑!
伦敦当地时间10月18日,谷歌人工智能团队DeepMind公布了阿法狗的升级版 ,代号AlphaGo Zero。
AlphaGo曾横扫围棋高手,韩国李世石、中国的柯洁等,人类的顶尖高手都是其手下败将。但AlphaGo Zero对阵AlphaGo的比赛结果是:100 : 0,压倒性优势。
世界顶尖棋手的养成,至少需要十年的训练、磨砺。但AlphaGo Zero创造了一个纪录:3天。
它的所有练习,都靠和自己下棋来完成。一开始,只是随便落子。就好像所有刚刚下围棋的小朋友一样左右互搏。不过,很快,Zero就自己发现了一些围棋的成熟定式,从业余选手转化为专业棋手的下法。
AlphaGo Zero学到的围棋知识(图片来源:DeepMind 论文)
三天的时间,AlphaGo Zero已经从零基础者,变成打败李世石的版本;40天后,它与打败柯洁版本的AlphaGo的胜率,达到90%。毋庸置疑,Zero是人类历史上,最强的围棋选手了。
之前的那两只阿尔法狗,都是通过观摩大量的人类棋手对弈棋谱,进行自我提升。而最新这只阿尔法狗,它不是通过“学习”人类棋手的经验提升自己,而是通过自我对弈数百万次,并从中学习经验,在这个过程中,AlphaGo Zero 成为自己的老师。
这种技术比上一版本的 AlphaGo 更强大,因为它不再受限于人类知识的局限。相反,它可以从一张白纸的状态开始,自学成为围棋天才。
对此,围棋世界冠军柯洁回应称:“一个纯净、纯粹自我学习的alphago是最强的…对于alphago的自我进步来讲…人类太多余了。”
不再受人类知识限制,只用4个TPU
老版的“阿法狗”依靠的是多台机器和48个TPU(谷歌专为加速深层神经网络运算能力而研发的芯片)。而AlphaGo Zero则非常“低碳”,只用到了一台机器和4个TPU,极大地节省了资源。
AlphaGo Zero采用的是新强化学习技术,由于整个对弈过程没有采用人类的数据,因此它的棋路独特,不再拘泥于人类现有的围棋理论。
美国的两位棋手对AlphaGo Zero的棋局做了点评:它的开局和收官和专业棋手的下法并无区别,显示人类几千年的智慧结晶,看起来还是有价值的,但是中盘看起来则非常诡异。
这也就是说,人类不会那么下围棋,但AlphaGo Zero独立发现了游戏规则,并走出了新策略,为围棋这项古老游戏带来了新的见解。计算机走出了自己的路。
所以,采用人类经验的“阿法狗”,实际上可能被人类“误导”。而AlphaGo Zero再次打破了人类经验的神秘感,让人脑中形成的经验也是可以被探测和学习的。并且它已经可以给人类当围棋老师,指导人类思考之前没见过的走法。
人工智能研究长期以来的目标是“创造出在没有人类输入的条件下,在最具挑战性的领域实现超越人类能力的算法。”AlphaGo Zero的成功让这个目标提前实现,标志着人类在人工智能的研究上迈出了一大步。
那么什么是强化学习技术呢?简单地说,强化学习就是让AI从中学习到能够获得最大回报的策略。AlphaGo Zero的强化学习主要包含两个部分,蒙特卡洛树搜索算法与神经网络算法。神经网络算法负责落子,蒙特卡洛树搜索算法负责优化,判断下一步怎样走胜算更好。所以,每走一步,AlphaGo Zero都在进步。
围棋只是开始,AlphaGo Zero的未来不可限量
有科学家认为,AlphaGo Zero给了我们信心:人工智能会成为人类智慧的增强器,帮助我们解决人类正在面临的一些严峻挑战 。
围棋并不是AlphaGo的终极奥义,他们的目标始终是要利用AlphaGo打造通用的、探索宇宙的终极工具。
由于AlphaGo Zero能够从一无所知实现自学成才,其天赋可以在诸多现实问题上派上用场,DeepMind看到了利用人工智能技术改变人类命运的突破可能。
AlphaGo Zero向人们展示了即使不用人类的数据,人工智能也能够取得进步。所以,大数据的重要性进一步被削弱。
因为深度学习需要大量数据,而数据的获得成本高昂且难度十分大。在很多领域,人类数据,尤其是专家数据都不是太贵就是根本无法获得。
但有了AlphaGo Zero这项技术后,数据问题的困扰将大大减轻,人类今后将有可能解决更大的挑战,给人类生活带来根本性的变化。
比如,将AlphaGo Zero技术应用到治疗像老年痴呆症这样重大的健康问题上的话,那么在几周内,就能找到治愈人类需要花费几百年时间才能找到的疗法。
DeepMind首席执行官Demis Hassabis透露,已运用这个技术解决实际生活中的许多问题。比如预测蛋白质分子的形状,有望成为药物发明的一大突破;还可以设计新材料和进行气候建模。他们目前还正在积极与英国医疗机构和电力能源部门合作,提高看病效率和能源效率。
美国密歇根大学人工智能实验室主任Satinder Singh表示:AlphaGo Zero并非任何结束的开始,因为人工智能和人甚至动物相比,所知所能依然极端有限。同时,在未来发展中,我们究竟应该如何看待人类经验的作用;而机器经验与人类经验有很大差别,我们又该如何去选择和利用,这些都是需要考虑的问题。
内容综合自:澎拜新闻、腾讯科技、财经早餐,版权归原作者所有。
入群有惊喜 天天领红包
添加海外君个人微信号【mlnleo】,带您入群看海外,每日推荐海外眼的文章,就有红包等您来!
最后更新:2017-10-22 14:38:37