閱讀541 返回首頁    go 微信


數據歸檔MaxCompute__高級特性_DataHub實時數據通道_大數據計算服務-阿裏雲

DataHub Connector是把 DataHub 中的實時數據歸檔到其他存儲係統的功能,目前隻支持將Topic中的數據歸檔到MaxCompute(ODPS)中。數據歸檔到MaxCompute支持at least once語義,在網絡服務異常等場景下可能會導致導入到MaxCompute中的數據產生重複。

如何創建

創建Connector主要需要如下前置條件:

  1. 準備對應的MaxCompute表,該表字段類型、名稱、順序必須與DataHub Topic字段完全一致,如果三個條件中的任意一個不滿足,則歸檔Connector無法創建。字段類型對應表見後表。

  2. 訪問MaxCompute賬號的設置,該賬號必須具備該MaxCompute的Project的CreateInstance權限和歸檔MaxCompute表的Desc、Alter、Update權限,建議使用一個特殊最小權限的賬號(如何配置訪問MaxCompute賬號權限?)。建議使用RAM用戶賬號(如何創建RAM用戶賬號?)。

  3. DataHub Topic的Owner/Creator賬號, 才有相應的權限操作Connector,包括創建,刪除等。

操作流程: Project列表->Project查看->Topic查看->點擊歸檔MaxCompute->填寫配置,點擊創建

  1. 進入Topic的詳情頁麵:create_odps_connector

  2. 配置Connector 並創建:create_odps_connector_detail

  3. 在Connector頁麵查看數據歸檔狀態:odps_connector_status

配置說明

名稱 是否必須 描述
MaxCompute Project yes MaxCompute Project名稱
MaxCompute Table yes MaxCompute表名稱
AccessId yes 訪問MaxCompute的阿裏雲賬號AccessID
AccessKey yes 訪問MaxCompute的阿裏雲賬號AccessKey

注意

1 支持MaxCompute分區表,例如:

MaxCompute表:

  1. table_test(f1 string, f2 string, f3 double) partitioned by (pt string)

對應Topic應為如下:

  1. topic_test(f1 string, f2 string, f3 double, pt string)

2 MaxCompute分區字段必須為STRING類型。

3 數據歸檔的頻率為每個Shard每5分鍾或者Shard中新寫入的數據量達到64MB,Connector服務會批量進行一次數據歸檔進入MaxCompute表的操作。所以數據寫入DataHub Topic後至多5分鍾後在MaxCompute可以被查詢到。

DataHub與MaxCompute字段類型對應表

MaxCompute表中的類型 DataHub Topic中的類型
STRING STRING
DOUBLE DOUBLE
BIGINT BIGINT
DATETIME TIMESTAMP
BOOLEAN BOOLEAN
DECIMAL 不支持
MAP 不支持
ARRAY 不支持

最後更新:2016-11-24 11:23:49

  上一篇:go Web控製台介紹__使用指南_DataHub實時數據通道_大數據計算服務-阿裏雲
  下一篇:go 擴容縮容Merge/Split__高級特性_DataHub實時數據通道_大數據計算服務-阿裏雲