864
机器人
人工智能的时代我们如何教电脑看图像?
没有人教导孩童如何去看世界,孩童是直接从真实世界的经验中学习,到三岁左右时,孩子们已经看过了真实世界中数以百万计的照片,这样的训练范例是很大量的,因此要教导机器辨识图像或许该是如此:兼以质与量,提供训练的数据给计算机,而非一味追求更好的程序演算。
视觉始于眼睛,但真正使它有用的,却是大脑
我们的终极目标就是教导机器能够像人一样理解所见之物,像是识别物品、辨认人脸、推论物体的几何形态,进而理解其中的关联、情绪、动作及意图。
要计算机达成这个目标的第一步,就是教导计算机如何辨别物品,这是视觉的基石。简单来说,我们教导的方法是给计算机看一些特定物体的影像,以猫咪为例,猫咪由一些几何图形和颜色所组成的,我们用数学语言告知计算机演算方法,猫就是有圆圆的脸、胖胖的身体、两个尖尖的耳朵和一条长尾巴。那困难点在哪里?但如果猫咪造型改变,全身都卷起来了,这下子我们就要在原来的模型加上新的形状和不同的视野角度,又如果猫咪是躲着的呢?我们发现,即使简单如猫这样的家庭宠物,也会有相对于原型以外、数也数不清的其他形态表征, 而这只是其中一样。
不过,就在八年前,一项简单而深刻的观察,改变了我的想法,我发现没有人教导孩童如何去看世界,特别是在孩童早期发育阶段,孩童是直接从真实世界的经验中学习,到三岁左右的年纪时,孩子们已经看过了真实世界中数以百万计的照片,这样的训练范例是很大量的,因此直觉告诉我应以孩童学习经验法则,兼以质与量,提供训练的数据给计算机,而非一味追求更好的程序演算。
有了上述的观点,我们必须要搜集大量资料,普林斯顿大学的李凯教授2007年开始ImageNet项目。2009年起,ImageNet已经是个拥有涵盖了2万2千种不同类别,多达150亿幅图像的数据库,这样的规模,不论是质或量都是史无前例的。有了这些资料,我们可以教育我们的计算机,结果我们发现:ImageNet所提供的丰富信息恰巧与机器学习演算的其中一门特定领域不谋而合,我们称它为卷积神经网络──在70、80年代,辛顿和勒丘恩等学者为该领域的先驱。
视觉始于眼睛,但真正使它有用的,却是大脑
卷积神经网络就在众人的意料外开花结果了。在一般的神经网络中,我们用作训练的物品辨识模型就有2千400万个节点、1亿4千万个参数,以及150亿个连结。正如同人类的大脑是由无数个紧密连结的神经元所组成,而神经网络的基本运作单位是一个类神经元的节点。ImageNet的运作方式是从别的节点得到数据,然后再传给其他的节点,这些数不清的节点拥有层层的组织架构,就好像我们的大脑一样。现在,计算机不仅能告诉我们图中有只猫,还能告诉我们猫在哪里
有时候,如果计算机不确定自己所见到的东西时, 我们已经将它教到可以聪明地给一个安全的答案,而非莽撞地回答,就像一般人能做到的那样。更有些时候,计算机的运算竟能够精准地辨别物体品项,例如制造商、型号、车子的年份。举例来说,Google将这个演算程序广泛地运用在数百个美国城市的街景里,也因此我们从中得到了一些有趣的概念。首先,它证实了一项广为人知的说法,也就是汽车价格和家庭收入是息息相关的。然而令人惊讶的是,汽车价格也和城市中的犯罪率以及区域选举模式,有一定程度的关系。
那计算机已经赶上、甚至超越人类了吗?还早得很呢!到目前为止,我们只是教导计算机辨识物品,就像小孩子牙牙学语一样,虽然这是个傲人的进展,但它不过是第一步而已,很快地,下一波具指标性的后浪就会打上来,小孩子开始进展到用句子来沟通。因此,他已经不会用「这是猫」来描述图片,而是会听到这个小孩说:这是躺在床上的猫。
视觉始于眼睛,但真正使它有用的,却是大脑
因此,要教导计算机看到图并说出句子, 必须进一步地仰赖庞大数据群以及机器的学习演算。现在,计算机不仅要学习图片辨识,还要学习人类自然的说话方式,就如同大脑要结合视觉和语言一样,我们做出了一个模型,它可以链接不同的可视物体,就像视觉片段一样,并附上句子用的字词和词组。约四个月前,我们终于把所有的元素全部兜起来了,做出了第一个计算机版的模型,它可以在初次看到照片时说出像人类般自然的句子。
这是第一次人类的眼睛不是唯一可以用来思考和探索世界的工具,我们不仅可以利用机器的智能,更可以运用更多你想象不到的方式携手合作。这也是我想追求的目标,给予机器智能之眼, 为整个世界创造更美好的未来。
文|公子量
最后更新:2017-08-31 21:28:34