閱讀982 返回首頁    go 阿裏雲 go 技術社區[雲棲]


在Facebook身上找到的大數據靈感

要想預測大數據的走勢,明確自己的關注點,Facebook是不二之選,因為它收集的數據可謂海量(100PB,也即102400TB)。而要想處理這些數據,Cassandra NoSQL數據存儲+Hive查詢語言+Hadoop分布式數據庫是最佳拍檔。此文談到了大數據初創企業應該如何從Facebook身上學習自己的突破方向。

機遇之一:Hadoop大眾化

通過Hadoop和NoSQL進行基礎設施層創新是機遇一。

Facebook幾乎把Hadoop運用到了方方麵麵,從朋友推薦到定向廣告乃至於數據中心分析,不一而足,大數據被分割成了字節大小的碎片。不過,要服務好這一切意味著需要確保其各部門的用戶都能夠以一種有意義的方式跟Hadoop交互。

定製化的工具、接口及虛擬層為這個問題的解決提供了幫助。技術門檻降低以後,Facebook的非技術用戶也能夠利用Hadoop生成報表、查看分析了。幫助創建了Hive的幾位前Facebook員工還推出了雲版的Hive —Qubole,可以通過Hive的簽名SQL接口提供對Hadoop的請求式訪問。Facebook希望創建出有助於降低Hadoop使用難度的工具,把大數據的應用效率提高上去。

機遇之二:超越Hadoop

但是有時候跳出已有的框架(如Hadoop和NoSQL存儲)也許也能夠闖出一片新天地。這一切都取決於需求。大家用Hadoop是因為它是免費的、開源的。但是,要想實現自己的需求往往需要在Hadoop上麵做大量工作。有很多大數據的問題跟Hadoop是無關的,所以另起爐灶也許不失為一種解決之道。Facebook的圖譜數據庫用的是MySQL,其開發TimeLine和Newsfeed的後台用的也是它,一切均應根據需要來選擇。

不過對於初創企業來說,在選擇應用開發平台的時候還是要有所權衡。Accel Partners的Ping Li的忠告是,夠好是偉大的敵人。要想成就偉大,也許就得突破Hadoop。

機遇之三:做大,像數據中心那麼大

Facebook今年8月推出了數據中心的一項深度存儲新戰略,打算從頭設計數據中心,以期可以處理長期較少被訪問的數據存儲,而非比較穩定的web事務流。

這種變化絕非遞進式的變化,跟過去的數據中心相比有著很大的不同。這種能源集約型的數據中心力圖將計算節省下來的每一度電都分配給對電力需求要少得多的處理上,但是這些處理還是需要把數據交付給用戶和分析引擎。這是一個巨大的挑戰,因為越來越多的企業已經意識到曆史數據的重要性。

Facebook打算通過Open Compute項目將其設計開放,其中已有部分管理工作在Apache Hadoop項目中實現,這對於初創企業來說是個好消息,他們隻需要做剩下的事情就行了。

最後更新:2017-04-02 15:15:13

  上一篇:go Windows操作係統常見故障解決方法
  下一篇:go Facebook的“大數據”到底有多大