118
gooseeker集搜客
大數據的問題03:園中有金不在金——大數據的價值
上一個故事《大數據的問題02:顛簸的街道——“n=All”隻是一個幻覺?》 展現了全數據夢想及其數據偏差問題,讓我們感受到:“n=All”,夢想很豐滿,但現實很骨感!那麼,大數據背後的價值到底在哪?園中有金不在金——大數據的價值
人們在描述大數據時,通常表明其具備4個V特征,即4個以V為首字母的英文描述: 1)Volume(體量大)、 2)Variety(模態多)、 3)Velocity(速度快)及 4)Value(價值大)。 前三個V,本質上,是為第四個V服務的。試想一下,如果大數據裏沒有我們希望得到的價值,我們為何還辛辛苦苦這麼折騰前3個V?
英特爾中國研究院院長吳甘沙先生說,“鑒於大數據信息密度低,大數據是貧礦,投入產出比不見得好。”《紐約時報》著名科技記者Steve Lohr,在其采訪報道“大數據時代(The Age of Big Data)”中表明,大數據價值挖掘的風險還在於,會有很多的“誤報”發現,用斯坦福大學統計學教授Trevor Hastie的話來說,就是
“在數據的大幹草垛中,發現有意義的“針”,其困難在於“很多幹草看起來也像針(The trouble with seeking a meaningful needle in massive haystacks of data is that “many bits of straw look like needles)”
針對大數據的價值,李國傑院士借助中國傳統的寓言故事《園中有金》,從另外一個角度,說明大數據的價值,寓言故事是這樣的:
有父子二人,居山村,營果園。父病後,子不勤耕作,園漸荒蕪。一日,父病危,謂子曰:園中有金。子翻地尋金,無所得,甚悵然。是年秋,園中葡萄、蘋果之屬皆大豐收。子始悟父言之理。
人們總是期望,能從大數據中挖掘出意想不到的“大價值”。可李國傑院士認為,實際上,大數據的價值,主要體現在它的驅動效應上,大數據對經濟的貢獻,並不完全反映在大數據公司的直接收入上,應考慮對其他行業效率和質量提高的貢獻。
大數據是典型的通用技術,理解通用技術的價值,要懂得采用“蜜蜂模型”:蜜蜂的最大效益,並非是自己釀造的蜂蜜,而是蜜蜂傳粉對農林業的貢獻——你能說秋天的累累碩果,沒有蜜蜂的一份功勞?
回到前文的小故事,兒子翻地的價值,不僅在於翻到園中的金子,更是在於翻地之後,促進了秋天果園的豐收。在第一個小故事中,醉漢黑暗中尋找的鑰匙,亦非最終的價值,通過鑰匙打開的門才是。
對於大數據研究而言,一旦數據收集、存儲、分析、傳輸等能力提高了,即使沒有發現什麼普適的規律或令人完全想不到的新知識,也極大地推動了諸如計算機軟硬件、數據分析等行業的發展,大數據的價值也已逐步體現。
李國傑院士認為,我們不必天天期盼奇跡出現,多做一些“樸實無華”的事,實際的進步就會體現在紮紮實實的努力之中。一些媒體總喜歡宣傳一些抓人眼球的大數據成功案例。但從事大數據行業的人士,應保持清醒的頭腦:無華是常態,精彩是無華的質變。
如果把“大數據”比作農夫父子院後的那片土地,那麼土地的麵積越大,會不會能挖掘出的“金子”就越多呢?答案還真不是,下麵的故事我們說說大數據的大小之爭。
全文:深度|十個段子反思大數據
最後更新:2017-01-09 14:08:06