189
魔獸
投遞-對接數據倉庫__最佳實踐_日誌服務-阿裏雲
日誌服務LogShipper功能可以便捷地將日誌數據投遞到OSS、TableStore、MaxCompute等存儲類服務,配合E-MapReduce(Spark、Hive)、MaxCompute進行離線計算。
數倉(離線計算)
數據倉庫+離線計算是實時計算的補充,兩者針對目標不同:
模式 | 優勢 | 劣勢 | 使用領域 |
---|---|---|---|
實時計算 | 快速 | 計算較為簡單 | 增量為主,監控、實時分析 |
離線計算(數據倉庫) | 精準、計算能力強 | 較慢 | 全量為主,BI、數據統計、比較 |
目前對於數據分析類需求,同一份數據會同時做實時計算+數據倉庫(離線計算)。例如對訪問日誌:
- 通過流計算實時顯示大盤數據:當前PV、UV、各運營商信息
- 每天晚上對全量數據進行細節分析,比較增長量、同步/環比,Top數據等
互聯網領域有兩種經典的模式討論:
- Lamdba Architecture: 數據進來後,既支持流式處理、同時存入數倉。但用戶發起查詢時,會根據查詢需求和複雜度從實時計算、離線計算拿結果返回
- Kappa Architecture: kafka based Architecture。弱化離線計算部分,數據存儲都在Kafka中,實時計算解決所有問題
日誌服務提供模式比較偏向Lamdba Architecture。
LogHub/LogShipper一站式解決實時+離線場景
在創建Logstore後,可以在控製台配置LogShipper支持數據倉庫對接,當前支持如下:
- OSS(大規模對象存儲):
- 說明文檔
- 操作步驟
- OSS上格式可以通過Hive處理,推薦E-MapReduce
- TableStore(NoSQL數據存儲服務):
- MaxCompute(大數據計算服務):
- 說明文檔:
LogShipper提供如下功能:
- 準實時:分鍾級進入數據倉庫
- 數據量大:無需擔心並發量
- 自動重試:遇到故障自動重試、也可以通過API手動重試
- 任務API:通過API可以獲得時間段日誌投遞狀態
- 自動壓縮:支持數據壓縮、節省存儲帶寬
典型場景
場景1:日誌審計
小A維護了一個論壇,需要對論壇所有訪問日誌進行審計和離線分析
- G部門需要小A配合記錄最近180天內用戶訪問情況,在有需求時,提供某個時間段的訪問日誌
- 運營同學在每個季度需要對日誌出一份訪問報表
小A使用日誌服務(LOG)收集服務器上日誌數據,並且打開了日誌投遞(LogShipper)功能,日誌服務就會自動完成日誌收集、投遞、以及壓縮。有審查需要時,可以將該時間段日誌授權給第三方。需要離線分析時,利用E-MapReduce跑一個30分鍾離線任務,用最少的成本辦了兩件事情。
場景2:日誌實時+離線分析
小B是一個開源軟件愛好者,喜歡利用Spark進行數據分析,他的需求如下:
- 移動端通過API收集日誌
- 通過Spark Streaming對日誌進行實時分析,統計線上用戶訪問
- 通過Hive進行T+1離線分析
- 將日誌數據開放給下遊代理商,進行其他維度分析
通過今天LOG+OSS+EMR+RAM組合,可輕鬆應對這類需求。
最後更新:2016-10-08 19:35:27
上一篇:
索引查詢-消息服務(MNS)日誌__最佳實踐_日誌服務-阿裏雲
下一篇:
2015-01-20__Release-Notes_日誌服務-阿裏雲
常見錯誤說明__附錄_大數據計算服務-阿裏雲
發送短信接口__API使用手冊_短信服務-阿裏雲
接口文檔__Android_安全組件教程_移動安全-阿裏雲
運營商錯誤碼(聯通)__常見問題_短信服務-阿裏雲
設置短信模板__使用手冊_短信服務-阿裏雲
OSS 權限問題及排查__常見錯誤及排除_最佳實踐_對象存儲 OSS-阿裏雲
消息通知__操作指南_批量計算-阿裏雲
設備端快速接入(MQTT)__快速開始_阿裏雲物聯網套件-阿裏雲
查詢API調用流量數據__API管理相關接口_API_API 網關-阿裏雲
使用STS訪問__JavaScript-SDK_SDK 參考_對象存儲 OSS-阿裏雲