《大數據算法》一第1章 緒論
本節書摘來異步社區《大數據算法》一書中的第1章 ,第1.1節,王宏誌 編著, 更多章節內容可以訪問雲棲社區“異步社區”公眾號查看。
第1章 緒論
1.1 大數據概述
毫無疑問,大數據已經成為一個熱門的概念,然而,不同領域(例如商業、係統結構、數據管理等)對這個概念的解讀卻各不相同。本節我們對大數據的定義、特點和應用進行概述。
1.1.1 什麼是大數據
“大數據”的概念起源於2008年9月《自然》(Nature)雜誌刊登的名為“Big Data”的專題,繼而迅速得到了科學、計算機、經濟等不同領域專家的響應。由於其成因複雜,對大數據目前沒有公認的定義,不同的研究人員從不同領域對大數據進行了定義,下麵列出三個不同角度對大數據的定義。
1) Kusnetzky Dan在What is “Big Data?”一文中提出,大數據是指所涉及的數據量規模巨大,無法通過人工在合理時間內截取、管理、處理並整理成為人類所能解讀的信息。
2) 維克托·邁爾舍恩伯格、肯尼斯·庫克耶在《大數據時代》一書中把大數據看成一種方法,即不用隨機分析法(抽樣調查)這樣的捷徑,而采用所有數據的方法。
3) “大數據”研究機構Gartner的報告指出,“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
這三種定義中,第一種定義更強調處理能力,第二種定義更強調應用方法,第三種定義更側重應用價值。本書的主題是“大數據算法”,因而更加側重於第一種定義,即“規模巨大,無法通過人工來處理”。
1.1.2 無處不在的大數據
現實生活中的數據有多大呢?根據統計,在2006年,個人用戶剛剛邁進TB時代,這一年全球共產生了約180EB=180×1018字節的數據;在2011年,達到了1.8ZB=1.8×1021字節。有市場研究機構預測:到2020年,整個世界的數據總量將會增長44倍。你也許會好奇為何會產生如此龐大的數據,下麵我們舉幾個現實中的大數據例子。
社交網絡 由於數據來自所有用戶的參與,社交網絡中的數據量非常大,而且增長非常迅速。例如,新浪微博在晚高峰的時候1秒產生的數據達到100條以上。如果把臉書(Facebook)中的社交網絡看成圖,在2012年這個圖已經達到了超過8億個頂點,平均每個點的度超過130,每天增加的數據量達到500TB。
- 科學儀器 科學儀器獲取了非常巨大的數據,比如說中國遙感國家重點實驗室采集的中國大陸地表信息,每個月產生4TB數據。中國天文觀測站用LAMOST每年觀測到的數據達到3.65TB,美國NASA中心每年獲取超過125TB的數據,英國Sanger中心2002年就已經收集了20TB的數據,並且以每年4倍的速度增長。
- 移動通信 我們每天使用的手機產生了非常巨大的數據,中國移動每年產生的記錄超過300TB。
- 傳感數據 傳感器持續檢測環境信息並不斷返回結果,產生了巨大的數據。以波音787為例,其每一個飛行來回可產生TB級的數據,美國每個月收集360萬次飛行記錄;監視所有飛機中的25000個引擎,每個引擎一天產生588GB的數據。風力發電機裝有測量風速、螺距、油溫等多種傳感器,每隔幾毫秒測一次,用於檢測葉片、變速箱、變頻器等的磨損程度,一個具有500個風機的風場一年會產生2PB的數據。
- 醫療數據 美國著名醫療保健公司InSiteOne平均每年獲取2.1PB的放射影像數據,英國每年產生300TB乳腺癌數據,在美國相應的數據量達到2.6PB。哈爾濱醫科大學第一附屬醫院每年通過各類醫療儀器搜集的數據超過30TB。
- 商務數據 生活中的每次刷卡,在超市或者網絡中購買的每件商品都產生相應的數據。淘寶網站每天有超過數千萬筆交易,單日數據產生量超過50TB。為了有效使用商務大數據,沃爾瑪建立了包含PB級數據的數據倉庫,Bestbuy建立了包含TB級數據的數據倉庫。 補充知識:數據的概念相信讀者已經很熟悉,“大數據”重點是大,我們下麵看一些關於“大”的定義。
計算機的發展史一直和“大”的定義緊密相連,例如關於硬盤的存儲量就經曆了一個從KB發展到MB,再發展到TB的過程。英語對“字節”的計數法如下:
1Byte=8bit
1KB=1024Byte
1MB=1024KB=1048576Byte
1GB=1024MB=1048576KB
1TB=1024GB=1048576MB
1PB=1024TB=1048576GB
1EB=1024PB=1048576TB
1ZB=1024EB=1048576PB
1YB=1024ZB=1048576EB
1BB=1024YB=1048576ZB
1NB=1024BB=1048576YB
1DB=1024NB=1048576BB
漢語計數能力更強一點,可以達到1044,具體的值如下:
千1000
萬104
億108
兆1012
京1016
垓1020
秭1024
穰1028
溝1032
澗1036
正1040
載1044
1.1.3 大數據的特點
通常用3V或者4V來描述大數據的特點,本小節用4V描述大數據的特點。
1.規模性(Volume,耗費大量存儲、計算資源)
大數據之“大”,體現在數據的存儲和計算均需耗費海量規模的資源上:美國宇航局收集和處理的氣候觀察、模擬數據達到32PB;穀歌公司索引的網頁總數超過1萬億;FICO的信用卡欺詐檢測係統保護全世界超過18億個活躍信用卡賬戶。
2.高速性(Velocity,增長迅速、急需實時處理)
大數據的另一特點在於速度快:大型強子對撞機實驗設備中包含了15億個傳感器,平均每秒收集超過4億條實驗數據;每秒超過3萬次用戶查詢提交到穀歌,3萬條微博被新浪用戶撰寫。而在感知、傳輸、決策、控製這一閉環控製過程中的計算,對數據實時處理有著極高的要求,通過傳統數據庫查詢方式得到的“當前結果”很可能已經沒有價值,隻有最新的數據才有價值。
3.多樣性(Variety,來源廣泛、形式多樣)
在大數據背景下,數據在來源和形式上的多樣性愈加凸顯:除大量以非結構化形式存在的文本數據,也存在位置、圖片、音頻、視頻等信息。除信息形式的多元化,信息的來源也表現出多樣性:從網絡日誌、物聯網、移動設備、傳感器到基因圖譜、醫療影像、天體運行軌跡、交通物流數據等。大數據中的多樣性已經超越了數據管理中的異構數據庫,其不僅僅是模式或模型的不一樣,甚至數據本身的存在形式也完全不同,比如說存在文本、多媒體數據,也存在儀器采集來的完全是數字的數據,以及用戶產生的用戶行為的數據,這些數據有各種各樣的存在形式,這些形式導致處理技術的差異,因此需要新的處理技術。
4.價值稀疏性(Value,價值總量大、知識密度低)
大數據以其高價值吸引了廣泛關注。據全球著名谘詢公司麥肯錫報告:“如果能夠有效地利用大數據來提高效率和質量,預計美國醫療行業每年通過數據獲得的潛在價值可超過3000億美元,能夠使美國醫療衛生支出降低8%。”雖然大數據價值高,但是知識密度非常低。穀歌公司首席經濟學家Hal Varian指出“數據是廣泛可用的,所缺乏的是從中提取出知識的能力”;IBM副總裁兼CTO Dietrich表示“可以利用Twitter數據獲得用戶對某個產品的評價,但是往往上百萬條記錄中隻有很小的一部分真正討論這款產品”。
隻有經過高度分析的大數據才可以產生新的價值,需要設計能夠適應上述特征的大數據處理算法來處理數據。
1.1.4 大數據的應用
大數據在許多方麵有著廣泛的應用,甚至說達到了無處不在的程度,本小節將討論若幹大數據的典型應用。
1.預測
2013年2月19日,微軟研究院的David Rothschil博士帶領的大數據分析團隊通過分析入圍影片相關數據,預測出2013年各項奧斯卡大獎的最終歸屬,成功命中除最佳導演獎(華裔導演李安獲得)外的13項大獎。
《紐約時報》FiveThirtyEight的博客作者和統計學家Nate Silver預測:奧巴馬有超過80%的機會贏得周二的大選(後來提升到90.9%);David Rothschild帶領的分析團隊,在2012年使用一個通用的數據驅動型模型,預測了美國50個州和哥倫比亞特區共計51個選區中50個地區的選舉結果,準確率高於98%。
日本國內有一個網站,你隻要打開這個網站用自己的Twitter賬號登錄,就可以在短時間內通過數萬條Twitter找出可能感冒的人,並對過去的感冒情況和今日的感冒情況進行分析(以及統計目前發燒以及嗓子痛的患者數量)。另外該程序還會結合氣溫和濕度的變化來預測將來感冒的流行情況,並開發了一個“易感冒日曆”。通過這個服務,人們就能知道身邊有多少人有感冒的症狀,並提前做好預防。
2.推薦
商務信息推薦和我們每天的生活息息相關,用戶在淘寶、京東、卓越等電子商務網站上購物的時候,網站會為我們推薦相關的商品,這些推薦來自大數據。商家采集了大量的用戶行為信息,包括購買、瀏覽、評價等,根據這些行為信息預測當前使用這個網站的用戶下一步可能有哪些行為,再根據預測的結果來給用戶推薦他最需要的商品,從而提高用戶的購買效率。推薦是很多網站的重要盈利模式,借助推薦技術,大數據能夠為電子商務帶來價值。
3.商業情報分析
為了對營銷情況進行有效分析,沃爾瑪建立了PB級的數據倉庫,使得在線完成購物率提高了10%到15%。連鎖超市特易購(Tesco PLC)在數據倉庫中搜集了700多萬個冰箱的數據,通過對這些數據的分析,能夠全麵監控冰箱狀況,並且根據監控和預測的結果,對這些冰箱進行主動維修,從而降低能耗。還有一些案例,比如說有一家牛排店,通過分析Twitter大數據知道哪些人可能是常客,根據客戶以往的訂單,推測出其所乘的航班,然後派出一位身著燕尾服的侍者為客戶提供晚餐,通過這樣的服務吸引了越來越多的熟客。
4.科學研究
今天的科學研究已經超越了牛頓的時代。從曆史上看,第穀積攢了大量的天文數據,開普勒通過數據的分析得到了天體三大運動定律,當時計算靠手工進行,需要人工分析,缺少計算機這樣有效的計算工具,如果當年有大數據的處理方法的話,開普勒三大運動定律可能更早出來。今天大量的科學儀器產生了海量的數據,這樣的數據量已經不是人拿紙拿筆就能分析的,而是需要強大的數據處理能力。今天,由於大數據的支持,科學研究由假設驅動轉向基於探索的科學方法,過去設問“我應該設計什麼樣的實驗來驗證這個假設?”,現在設問“從這些數據中我能夠看到什麼?”和“如果把其他領域的數據融合進來,能夠發現什麼?”,數據密集型科學發現被稱為“科學研究的第四範式”。以美國能源部為例,其提出了基於大數據科學研究的支持計劃,包括生物和環境的研究計劃、大氣輻射測量氣候的研究計劃以及係統生物學的知識庫對微生物和植物環境這些功能群落的識別。
補充知識:科學研究的範式
第一範式:幾千年前,也就是亞裏士多德的時代,科學研究是基於經驗的,用於描述自然現象。
第二範式:數百年前,也就是牛頓的時代,科學研究是基於理論研究的,著眼於建立數學模型並進行推廣。
第三範式:幾十年前,開始了基於計算的科學研究,通過強大的能力,得以模擬複雜的自然現象。
第四範式:也叫作eScience,基於數據探索的科學研究,利用儀器獲取數據或者利用模擬器生成數據,再利用軟件進行處理,將知識或信息存儲在計算機中,科學家利用數據管理技術和統計方法進行科學發現。
最後更新:2017-06-21 11:31:54