《大數據原理:複雜信息的準備、共享和分析》一一0.4 大數據最常見的目的是產生小數據
0.4 大數據最常見的目的是產生小數據
如果我知道獲得一切後是什麼樣子,我也許早前就願意接收更少的東西。
―Lily Tomlin
假設你正在使用智能手機搜索意大利餐廳,隻需幾步,你的手機就會列出在你當前位置10個街道範圍之內的意大利餐廳。在此過程中,被查詢的數據庫龐大且複雜:一個映射數據庫收集了世界上的所有餐廳,餐廳的經緯度、地址和由顧客給出的評分會持續更新,但是數據庫的輸出是小數據,例如,在街景地圖上標出來5個餐廳,以及這些餐廳的準確地址、電話號碼和評分。你要做的隻是從這5家餐廳中選擇一家,並享受佳肴。
在此案例中,你的數據選擇源自一個大型的數據集,但你最終的分析僅利用了一個小數據集(即滿足搜索條件的5家餐廳)。大數據資源是為了提供小數據集。分析工作並非基於大數據資源―大數據資源僅僅用於搜索和檢索,因此,大數據資源的真正工作是收集和組織複雜數據,以便資源能夠為你的檢索做好準備。在此過程中,數據創造者需要做很多決定,例如,酒吧是否應該列入餐廳範圍之內?外賣是如何點餐的?應當收集什麼數據?缺失數據應當如何處理?數據如何存儲?
大數據很少全部用於分析,總有一個“劇烈”的過濾過程將大數據轉換為小數據,這種方式適用於科學分析。澳大利亞平方公裏陣射電望遠鏡7、全球望遠鏡、歐洲核子研究中心的大型強子對撞機和泛星計劃望遠鏡每天產生PB級的數據(見術語表,Square Kilometer Array,Large Hadron Collider,Worldwide Telescope)。研究者從這些原始數據資源中提取出眾多用於分析的小數據集8。
這裏給出一個實例來展現如何從大數據資源中產生可用的數據子集。耀變體是罕見的超大質量黑洞,它會釋放噴流能量,並出現超光速運動現象。宇宙論者希望盡可能多地了解這些奇怪的物體。學習耀變體的第一步是找到足夠多的耀變體,之後,對所有收集到的耀變體進行多種形式的測量,並進行比較來確定它們的總體特征。耀變體有一個其他天體沒有的伽馬射線特征徑跡。廣角紅外線探測望遠鏡(WISE)收集了整個可觀測宇宙的紅外數據。研究人員從WISE的數據中提取出了所有有可能是耀變體的天體―約有300個。此後對這300個物體的研究讓研究人員相信大致有一半是耀變體9。上述是大數據如何起作用的一個典型案例―通過創建小數據集可以有效地進行分析。
最後更新:2017-08-18 11:32:18
上一篇:
《分布式係統:概念與設計》一3.4 互聯網協議
下一篇:
提高 Java 代碼性能的各種技巧
專家:中國5G技術有望領先全球進入預商用狀態
Web 安全之內容安全策略 (CSP)
雲服務器 ECS 使用OpenAPI管理ECS:使用OpenAPI彈性管理ECS實例
可以顯示九天天氣情況的天氣預報哦-LINUX下JAVA自製服務器端,申請公網IP,處理數據。。第二個項目
Android 在線視頻播放總結
Android 可拖拽的GridView效果實現, 長按可拖拽和item實時交換
Apache Commons Pool官方文檔
通過jsoup解析頁麵html獲取優酷頁麵視頻列表
同時支持mybatis,hibernate等技術的通用持久層實現思路
阿裏雲校園公益極客大賽正式啟動 公益+科技+未來,打造不一樣的校園賽事!