阅读541 返回首页    go 微信


数据归档MaxCompute__高级特性_DataHub实时数据通道_大数据计算服务-阿里云

DataHub Connector是把 DataHub 中的实时数据归档到其他存储系统的功能,目前只支持将Topic中的数据归档到MaxCompute(ODPS)中。数据归档到MaxCompute支持at least once语义,在网络服务异常等场景下可能会导致导入到MaxCompute中的数据产生重复。

如何创建

创建Connector主要需要如下前置条件:

  1. 准备对应的MaxCompute表,该表字段类型、名称、顺序必须与DataHub Topic字段完全一致,如果三个条件中的任意一个不满足,则归档Connector无法创建。字段类型对应表见后表。

  2. 访问MaxCompute账号的设置,该账号必须具备该MaxCompute的Project的CreateInstance权限和归档MaxCompute表的Desc、Alter、Update权限,建议使用一个特殊最小权限的账号(如何配置访问MaxCompute账号权限?)。建议使用RAM用户账号(如何创建RAM用户账号?)。

  3. DataHub Topic的Owner/Creator账号, 才有相应的权限操作Connector,包括创建,删除等。

操作流程: Project列表->Project查看->Topic查看->点击归档MaxCompute->填写配置,点击创建

  1. 进入Topic的详情页面:create_odps_connector

  2. 配置Connector 并创建:create_odps_connector_detail

  3. 在Connector页面查看数据归档状态:odps_connector_status

配置说明

名称 是否必须 描述
MaxCompute Project yes MaxCompute Project名称
MaxCompute Table yes MaxCompute表名称
AccessId yes 访问MaxCompute的阿里云账号AccessID
AccessKey yes 访问MaxCompute的阿里云账号AccessKey

注意

1 支持MaxCompute分区表,例如:

MaxCompute表:

  1. table_test(f1 string, f2 string, f3 double) partitioned by (pt string)

对应Topic应为如下:

  1. topic_test(f1 string, f2 string, f3 double, pt string)

2 MaxCompute分区字段必须为STRING类型。

3 数据归档的频率为每个Shard每5分钟或者Shard中新写入的数据量达到64MB,Connector服务会批量进行一次数据归档进入MaxCompute表的操作。所以数据写入DataHub Topic后至多5分钟后在MaxCompute可以被查询到。

DataHub与MaxCompute字段类型对应表

MaxCompute表中的类型 DataHub Topic中的类型
STRING STRING
DOUBLE DOUBLE
BIGINT BIGINT
DATETIME TIMESTAMP
BOOLEAN BOOLEAN
DECIMAL 不支持
MAP 不支持
ARRAY 不支持

最后更新:2016-11-24 11:23:49

  上一篇:go Web控制台介绍__使用指南_DataHub实时数据通道_大数据计算服务-阿里云
  下一篇:go 扩容缩容Merge/Split__高级特性_DataHub实时数据通道_大数据计算服务-阿里云