阅读388 返回首页    go 机器人


颤抖吧!阿尔法元100-0击败阿尔法狗,3天登顶最强围棋大师!人工智能再迎突破!

导语:随着人工智能的不断发展,机器人的高智商已经开始让人类开始颤抖了。还记得那个曾经打败李世石和柯洁的机器人阿尔法狗吗?告诉你一个好消息,最近,它终于被打倒了。坏消息是,打倒它的却是它的“后辈”——AlphaGoZero!

1

零基础,不看任何棋谱,三天击败世界冠军

去年,阿尔法狗(AlphaGo)代表人工智能在围棋领域首次战胜了人类的世界冠军,但其棋艺的精进,是建立在计算机通过海量的历史棋谱学习参悟人类棋艺的。AlphaGo和master接连打败了韩国顶尖棋手李在石和世界顶级棋手柯洁,随后宣布退役。

但谷歌的DeepMind公司并没有停下研究的脚步。伦敦当地时间10月18日,DeepMind团队公布了最强版AlphaGo,代号AlphaGoZero。它的独门秘籍,是“自学成才”。和以前的机器人利用人类数据培训不同,AlphaGoZero不使用任何人类数据,而是通过自我学习。而且,是从一张白纸开始,零基础学习,在短短3天内,成为顶级高手。

它第一次让AI完全脱离人类历史棋谱,只通过围棋规则+“自我对弈”,在2900万次自我对弈后成长为世界上最强大的围棋大师。

“人们一般认为机器学习就是关于大数据和海量计算,但事实上AlphaGoZero更多的是依赖算法。”

——DeepMind团队如是说。

AlphaGoZero的水平已经超过之前所有版本的AlphaGo。在对阵曾赢下韩国棋手李世石那版AlphaGo时,AlphaGoZero取得了100:0的压倒性战绩。DeepMind团队将关于AlphaGoZero的相关研究以论文的形式,刊发在了10月18日的《自然》杂志上。

这篇论文的题目也非常耿直,《MasteringthegameofGowithouthumanknowledge》,直译是“不需要人类知识就可以成为围棋大师”,意译过来大概就是……“人类,我不需要你了”。

2

人工智能的历史性突破

人工智能的一项重要目标,是在没有任何先验知识的前提下,通过完全的自学,在极具挑战的领域,达到超人的境地。

AlphaGo此前的版本,结合了数百万人类围棋专家的棋谱,以及强化学习的监督学习进行了自我训练。

可是今天,我们发现,人类其实把阿法狗教坏了!

新一代的阿法元(AlphaGoZero),完全从零开始,不需要任何历史棋谱的指引,更不需要参考人类任何的先验知识,完全靠自己一个人强化学习(reinforcementlearning)和参悟,棋艺增长远超阿法狗,百战百胜,击溃阿法狗100-0。

达到这样一个水准,阿法元只需要在4个TPU上,花三天时间,自己左右互搏490万棋局。而它的哥哥阿法狗,需要在48个TPU上,花几个月的时间,学习三千万棋局,才打败人类。

根据deepmind团队的介绍:

1.AlphaGoZero采用了新的强化学习方法,从一个不知道围棋游戏规则的神经网络开始,然后通过将这个神经网络与强大的搜索算法结合,然后就可以实现自我对弈了。在这样的训练过程中,神经网络被更新和调整,并用于预测下一步落子和最终的输赢。

2.这一更新后的神经网络将再度与搜索算法组合,这一过程将不断重复,创建出一个新的、更强大版本的AlphaGoZero。在每次迭代中,系统的性能和自我对弈的质量均能够有部分提高。

也就是说,AlphaGoZero不仅发现了人类数千年来已有的许多围棋策略,还设计了人类玩家以前未知的的策略。

3

人工智能历史性突破对于人类的意义

通过数百万次自我对弈,AlphaGo从零开始掌握了围棋,在短短几天内就积累起了人类几千年才有的知识。但AlphaGoZero也发现了新的知识,发展出打破常规的策略和新招,与它在对战李世石和柯洁时创造的那些交相辉映,却又更胜一筹。

AlphaGoZero的提升,让人们看到了利用人工智能技术改变人类命运的突破的机会。

因为,围棋并不是AlphaGo的终极奥义,他们的目标始终是要利用AlphaGo打造通用的、探索宇宙的终极工具。

最后更新:2017-10-20 10:03:21

  上一篇:go 阿尔法狗再进化!自学三天就可赢过旧版!
  下一篇:go 新阿尔法狗出世,机器人会进化了;平安继续买买买上海家化;私募百亿俱乐部成员达169家;韩寒亭东影业融资3.1亿估值20亿