Facebook的“大數據”到底有多大
據說這是一個“大數據”的時代,到底有多大呢?
Facebook最近在總部的一次會議中披露的一組數據可以給大家一個初步的印象,來一起看看每天Facebook上都得處理多少數據吧:
25億 Facebook上分享的內容條數
27億 “讚”的數量,
3億 上傳照片數
500+TB 新產生的數據
105TB 每半小時通過Hive掃描的數據
100+PB(1PB=1024TB) 單個HDFS(分布式文件係統)集群中的磁盤容量
FB的工程總監Parikh解釋了這些數據對於Facebook的意義:“大數據的意義在於真正對你的生意有內在的洞見。如果你不能好好利用自己收集到的數據,那你隻是空有一堆數據而已,不叫大數據。”
目前Facebook有著世界最大的分布式文件係統,單個集群中的數據存儲量就超過100PB。在Facebook內部,從一開始就沒有在不同的部門之間(比如廣告部和用戶支持部)設立障礙或者分割數據。這樣一來產品開發者就可以跨部門獲得數據,實時知曉最近的改動是否增加了用戶瀏覽時間或者促成了更多的廣告點擊。
作為普通用戶,大家也許會對如此海量的數據心存不安,擔心自己的數據被隨意瀏覽。對此Facebook表示有各種防範措施來防止此類事情的發生,比如所有的數據讀取記錄都會被存檔,哪些人看過哪些數據都是記錄在案的;如果有員工越線,會被直接開除。Parikh著重強調:“在這件事上我們的政策是零容忍。”
最後更新:2017-04-02 15:15:13