454
搜狐
李彦宏:大数据没有不可能
百度公司董事长兼首席执行官 李彦宏
人类运用数据已久,而且自工业革命以来,数据经历过一次又一次的爆发,何以近年来才出现「大数据」的概念?仅仅是它所能记录和计算的数据量更多而已吗?自然数可以无限数下去,1、2、3、4……以至于无穷,但「多」是不够的,还必须具有几大特征:
第一,大数据的「大」。毋庸置疑,这个「大」相对于人类传统数据的储存方式,不是一个量级上的大小之分,而是几何量级的差距。想想百度地图上每日720亿次的定位请求,再想想互联网上每天有多少次点击、社交媒体上每天有多少文字和图片发出……各种大数据平台一天之内收集到的数据量就可以超越人类几千年来文字、图像的总和。
第二,大数据的另一个重要特点是多维度。多维度代表着大数据可以对一个事物进行多方位的描述,从而更准确。
在电影《谍影重重》里出现过一个大数据公司,能够根据互联网数据、交通数据、历史档案等各种维度的数据帮助美国中央情报局(CIA)迅速追踪和定位疑犯。现实中美国的Plantir数据公司便是如此帮助美国政府追踪本·拉登,提供反恐信息和社会危机预警。它们更常见的业务是识破金融诈骗。
以金融征信应用为例,传统金融机构在进行征信时,一般采集20个维度左右的数据,主要包括年龄、收入、学历、职业、房产车产、借贷情况等。然后综合评分来识别客户的还款能力和还款意愿,决定信贷额度。
互联网公司采用大数据方法,所获得的维度可以让传统银行吓一跳。BAT都开设了自己的金融服务,因为拥有全面且巨大的用户数据,可以查询客户的各种线上记录,比如是否有批量申请贷款等异常行为;还可以将客户信息与互联网全局信息比对,通过欺诈行为模式的比对分析其可信度;更进一步,还可以分析客户的消费行为和习惯,结合填报收入分析还款能力如何。当然,作为用户的隐私,这些数据都不会被公开,用户所能感受到的便利是征信排队时间极大地缩短了,因为大数据可以在几秒钟内就对申请者超过1万条的原始信息进行调取和审核,迅速核对数万个指标维度。
对一个陌生人进行征信就好比「盲人摸象」,传统方法是通过20个「盲人」去评估一个客户的信用「大象」,注定是有缺陷的。而大数据的多维度就如同几万人同时「摸象」,再把这几万人的反馈汇总到一起。维度越多,结论就越准确。
第三,处理非结构化数据的能力。结构化数据中最基本的数字、符号等,可以用固定的字段、长短和逻辑结构保存在数据库中,并用数据表的形式向人类展现(想一下常见的Excel表格),处理非常方便。但是互联网时代产生了大量非结构化数据,对于图片、视频、音频等内容,它们的数据量巨大却没有清晰的结构。对于图像的数据,我们只能理解为一个二维矩阵上的无数像素点。非结构化数据增长量很快,据推测将占未来10年新生数据总量的90%。而大数据技术可以通过图像识别、语音识别、自然语言分析等技术计算,分析大量非结构化数据,大大提升了数据维度。
非结构化数据的数量远超结构化数据,蕴含巨大能量,应用前景广阔。例如,在机场等公共场合的个人身份检查,过去只能根据旅客提供的身份信息这一个主要维度去判断其身份。而人脸识别、语音识别等技术应用成熟后,大数据可以直接通过摄像快速比对审核,增加对个人身份判断的维度,进行既精确又高效的安全检查。
第四,大数据是生生不息的「流」,具有时间性。它过去就不再回来,就像人无法两次踏入同一条河流。这一方面是因为数据量太巨大,无法全部存储;另一方面是大数据和人类生生不息的行动相关,瞬息万变。百度大数据实验室因此提出一个概念叫作「时空大数据」。
地图就是时空大数据之母。百度地图有一个路段拥堵预警功能。如果前方路段畅通会显示为绿色;如果拥堵则会显示成红色,提醒用户选择其他路线。这是我们与数据互动的一个简明例子。如果我们有A和B两条路线可以选择,此时A路线拥堵而B路线畅通,那么我们都会选择B路线;当越来越多的车主选择B路线,那么B路线将会变成拥堵而A路线又会畅通。
此消彼长,变化万千。依靠智能手机的定位功能,百度地图可以实时更改当前的路况监测结果,精确地告诉每一个位置用户当前自己所面对的路面情况。通过数据可视化技术和各种评估手段,可以描绘一座城市的日常脉搏,比如上下班的人流数据变化,仿佛城市在吞吐呼吸。除了被记录下来的,更多数据只在当时有效。把数据全部存储下来是不可能的,那样需要的硬盘可能整座城市的地皮都堆不下,只能即时应用,用过就消失。
最后一点,也是最重要的,大数据的「大」表现为无尽的重复。对于语音识别来说,正因为人们重复讲述同样的语句,机器通过反复识别这些人类语音的细微差别,才能全面掌握人类语音。也正因为人们周而复始的运动,才让系统能捕捉城市运动的规律。「重复」的数学意义是「穷举」。以往人类无法通过穷举法来把握一个事情的规律,只能采用「取样」来估计,或者通过观察用简单明了的函数来代表事物规律,但大数据让穷举法这种「笨办法」变得可能了。
欢迎扫码添加“小趣”入群“大数据百人会”,参与更多讨论!
文章来源/投资人说
东湖大数据编辑整理
最后更新:2017-10-08 17:55:57
上一篇:
迪丽热巴在你眼里是什么样子的?
下一篇:
郑爽自称单身狗,坐实与胡彦斌分手传闻,删掉所有微博
汪涵介绍潘粤明,却遭沈梦辰抢话宣传新电影,汪涵直接怼她毫不留情
韩雪怒喷携程,没想到恰到好处,亲子园事件再次发酵!
周星驰成为票房冠军喜剧之王的秘诀只有两个字,却被讽刺人品差贪财
马云一出手网宿科技遭遇5年来大溃败 高管掀起减持比赛
马云越南煲鸡汤;搜狗昨晚纽交所上市;携程给家长两周带薪假
谢娜张杰深夜与友人聚会,娜姐孕期未改爱玩天性,准妈妈过渡期太过煎熬
与金马奖影后搭戏 吴昕评价他“有一颗老人的心” 如今终于火了
除了高晓松这些明星也晒早餐,吴昕爷们陈赫接地气最后一位才叫奢侈
谢娜怀孕3个月出门逛街,网友:和贾玲有的一拼!
就在刚才,马云哽咽了,今年这个双十一,估计他的梦想要破灭了,但叶县人民沸腾了