閱讀189 返回首頁    go 魔獸


投遞-對接數據倉庫__最佳實踐_日誌服務-阿裏雲

日誌服務LogShipper功能可以便捷地將日誌數據投遞到OSS、TableStore、MaxCompute等存儲類服務,配合E-MapReduce(Spark、Hive)、MaxCompute進行離線計算。

數倉(離線計算)

數據倉庫+離線計算是實時計算的補充,兩者針對目標不同:

模式 優勢 劣勢 使用領域
實時計算 快速 計算較為簡單 增量為主,監控、實時分析
離線計算(數據倉庫) 精準、計算能力強 較慢 全量為主,BI、數據統計、比較

目前對於數據分析類需求,同一份數據會同時做實時計算+數據倉庫(離線計算)。例如對訪問日誌:

  • 通過流計算實時顯示大盤數據:當前PV、UV、各運營商信息
  • 每天晚上對全量數據進行細節分析,比較增長量、同步/環比,Top數據等

互聯網領域有兩種經典的模式討論:

  • Lamdba Architecture: 數據進來後,既支持流式處理、同時存入數倉。但用戶發起查詢時,會根據查詢需求和複雜度從實時計算、離線計算拿結果返回
  • Kappa Architecture: kafka based Architecture。弱化離線計算部分,數據存儲都在Kafka中,實時計算解決所有問題

日誌服務提供模式比較偏向Lamdba Architecture。

LogHub/LogShipper一站式解決實時+離線場景

在創建Logstore後,可以在控製台配置LogShipper支持數據倉庫對接,當前支持如下:

dw

LogShipper提供如下功能:

  1. 準實時:分鍾級進入數據倉庫
  2. 數據量大:無需擔心並發量
  3. 自動重試:遇到故障自動重試、也可以通過API手動重試
  4. 任務API:通過API可以獲得時間段日誌投遞狀態
  5. 自動壓縮:支持數據壓縮、節省存儲帶寬

典型場景

場景1:日誌審計

小A維護了一個論壇,需要對論壇所有訪問日誌進行審計和離線分析

  • G部門需要小A配合記錄最近180天內用戶訪問情況,在有需求時,提供某個時間段的訪問日誌
  • 運營同學在每個季度需要對日誌出一份訪問報表

小A使用日誌服務(LOG)收集服務器上日誌數據,並且打開了日誌投遞(LogShipper)功能,日誌服務就會自動完成日誌收集、投遞、以及壓縮。有審查需要時,可以將該時間段日誌授權給第三方。需要離線分析時,利用E-MapReduce跑一個30分鍾離線任務,用最少的成本辦了兩件事情。

場景2:日誌實時+離線分析

小B是一個開源軟件愛好者,喜歡利用Spark進行數據分析,他的需求如下:

  • 移動端通過API收集日誌
  • 通過Spark Streaming對日誌進行實時分析,統計線上用戶訪問
  • 通過Hive進行T+1離線分析
  • 將日誌數據開放給下遊代理商,進行其他維度分析

通過今天LOG+OSS+EMR+RAM組合,可輕鬆應對這類需求。

最後更新:2016-10-08 19:35:27

  上一篇:go 索引查詢-消息服務(MNS)日誌__最佳實踐_日誌服務-阿裏雲
  下一篇:go 2015-01-20__Release-Notes_日誌服務-阿裏雲