749
机器人
100:0无师自通被完爆,阿尔法狗成为过去,是算法让“新狗”成为最强
围棋界曾有这么一位斗士…
刚刚出世,就以4:1的成绩战胜韩国高手李世石九段;随后一波60连胜,宣告着征服人类最为精妙的游戏。2017年5月,面对带着天才光环的现世界第一棋手柯洁九段,3:0强势碾压。Alphago这位初出茅庐的“毛头小子”,在围棋界大杀四方,短短一年时间,打败无数人类高手,5月比赛后,它宣布退役,自此再无消息。
英国时间10月18日18点(北京时间19日凌晨1点),AlphaGo 再次出现在《自然》杂志的封面,而这次100:0的数字不再是它的胜利。最新的AlphaGo Zero在对阵曾赢下韩国棋手李世石那版AlphaGo时,以100:0的压倒性战绩获得胜利,经过40天的自我训练,AlphaGo Zero又打败了AlphaGo Master版本。“Master”曾击败过世界顶尖的围棋选手,甚至包括世界排名第一的柯洁。“新王”就此诞生。
代号AlphaGo Zero 的最强版AlphaGo ,是DeepMind团队最新杰作。它的独门秘籍,是“自学成才”。而且,是从一张白纸开始,零基础学习,在短短3天内,成为顶级高手。
相较于之前的版本,AlphaGo Zero的能力有了质的提升。最大的区别在于它不再需要人类数据。也就是说,它一开始就没有接触过人类棋谱。研发团队只是让它自由随意地在棋盘上下棋,然后进行自我博弈。
功耗上也有极大的突破,前代需要多台机器和48个TPU(谷歌专为加速深层神经网络运算能力而研发的芯片)支持,经过多月训练方才战胜人类棋手,而新版的Zero只用到了一台机器和4个TPU,极大地节省了资源。
人工智能从0到1
据AlphaGo团队负责人大卫·席尔瓦(Dave Sliver)介绍,AlphaGo Zero使用新的强化学习方法,让自己变成了老师。系统一开始甚至并不知道什么是围棋,只是从单一神经网络开始。DeepMind团队在官方博客上称,Zero用更新后的神经网络和搜索算法重组,随着训练地加深,系统的表现一点一点地在进步。自我博弈的成绩也越来越好,同时,神经网络也变得更准确。
随着自我博弈的增加,神经网络逐渐调整,提升预测下一步的能力,最终赢得比赛。更为厉害的是,随着训练的深入,DeepMind团队发现,AlphaGo Zero还独立发现了游戏规则,并走出了新策略,为围棋这项古老游戏带来了新的见解。
自学3天,就打败了旧版AlphaGo
除了上述的区别之外,AlphaGo Zero还在3个方面与此前版本有明显差别。
首先,AlphaGo Zero仅用棋盘上的黑白子作为输入,而前代则包括了小部分人工设计的特征输入。
其次,AlphaGo Zero仅用了单一的神经网络。在此前的版本中,AlphaGo用到了“策略网络”来选择下一步棋的走法,以及使用“价值网络”来预测每一步棋后的赢家。而在新的版本中,这两个神经网络合二为一,从而让它能得到更高效的训练和评估。
第三,AlphaGo Zero并不使用快速、随机的走子方法。在此前的版本中,AlphaGo用的是快速走子方法,来预测哪个玩家会从当前的局面中赢得比赛。相反,新版本依靠地是其高质量的神经网络来评估下棋的局势。
算法的改变成就“新狗”
我们不难看出,以上这些不同帮助新版AlphaGo在系统上有了提升,但算法的改变让系统变得更强更有效。
算法(Algorithm)是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制。也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。不同的算法可能用不同的时间、空间或效率来完成同样的任务。
李开复博士曾经说过,算法是计算机科学领域最重要的基石之一,从AlphaGo的这次升级中,更加明确了算法的重要性。青少年学习编程需要学习算法吗?我们的答案是肯定的。
达内童程童美集合优秀师资,创新研发编程数学课程,针对1-6年级学生,用“程序案例”的创新型数学辅导课程,以图形化语言为辅助,将编程作为工具的数学培训,实现数学思维与编程思维完美结合,快速掌握学习数学的技巧,让应试教育素质化。
学习编程数学学生会在那些方面有所提升呢?
通过不同类型的程序案例实现数学的动画演示、动手实操和编程算法,帮助学生加深对数学概念和方法的理解,回归数学问题的本质,不仅仅是做题,而是通过可视化的编程揭示数学问题的本质,把握数学问题的逻辑思维。同时让学生理解程序算法并学会简单的编程技巧,而不是简单的敲代码,注重数学逻辑与专业编程算法的有机融合,扩充知识并训练思维!
最后更新:2017-10-20 00:10:39