閱讀724 返回首頁    go iPhone_iPad_Mac_apple


產品術語__產品簡介_數據集成-阿裏雲

B

  • 白名單

數據集成連接RDS(Mysql)同步數據需要使用Mysql標準協議連接。RDS默認允許所有IP連接,但如果用戶在RDS配置指定了IP白名單,則用戶需要添加數據集成執行節點到IP白名單。用戶沒有指定RDS白名單情況下,不需要給數據集成提供白名單。

C

  • 插件

分為讀插件(reader)和寫插件(writer),讀插件負責將數據從源端存儲係統抽取出來並轉化為中間格式,寫插件負責將中間格式的數據寫入到目標端存儲係統。

  • Console

數據集成提供的基於命令⾏交互⽅式的操作管理⼯具。

  • 重跑與冪等

數據集成定位在為各類數據存儲提供數據傳輸通道功能,在定期自動化運行數據同步的場景,如數倉ETL流程,要求所有的數據同步任務能夠做到多次同步和單次同步最終結果一致。例如當一次數據同步任務出現Fail,用戶可以直接重啟任務而無需到目的數據端進行線上數據清理操作。這在數倉領域屬於作業冪等性要求。數據集成作業的冪等性是通過Writer插件的前置條件來實現的,例如用戶可在ODPS配置中提供數據寫入前的清理動作,保證每次數據導入前都會先清除當前表或者分區的現有數據,這樣能夠保證數據多次寫入的結果和一次性寫入結果一致。

J

  • 結構化數據

結構化數據(即行數據,存儲在數據庫裏,可以用二維表結構來邏輯表達實現的數據)。

非結構化數據,包括所有格式的辦公文檔、文本、圖片、圖像和音頻/視頻信息等等。

所謂半結構化數據,就是介於結構化數據和非結構化數據之間的數據,HTML文檔就屬於半結構化數據。它一般是自描述的,數據的結構和內容混在一起,沒有明顯的區分。

  • JOB(作業)

JOB是同步的基本業務單元,描述了完成一次數據同步所需要的全部配置信息,包括源端配置,目的端配置,出錯限製等。

L

  • 離線同步

指數據周期性(例如每天、每周、每 等)、成批量地從源端係統傳輸到目標端係統。對於離線數據同步係統,數據以讀取Snapshot(快照)的方式從源端傳輸到目的端。

  • 流式同步

數據以實時或者準實時的時延,將變化的變更日誌從源端係統傳輸到目標端係統。對於流式數據同步係統,數據以Stream(變更流水)的方式從源端傳輸到目的端。實時同步不存在任務結束,將數據的變化日誌同步一直持續下去。數據集成暫不支持流式數據同步模型。

  • 流量控製

支持對通道流量控製,即用戶可以對單個Job分配帶寬最大限製。注意流量度量值是CDP本身的度量值,不代表實際網卡流量。

P

  • Pipeline

Pipeline是數據集成權限管理、資源隔離的基本單元,同時也是數據同步作業運行的容器。用戶進入數據集成後,須先創建一個Pipeline。係統權限隔離指不同Pipeline下的用戶相互之間是無法管控對方的Pipeline及下屬所有對象信息,包括作業配置信息、作業傳輸數據流信息。運行資源隔離指不同Pipeline下的用戶相互之間環境完全隔離,保證不同用戶不同Pipeline下的作業運行環境不再相互幹擾。

  • Pipeline Owner

指創建Pipeline的阿裏雲賬號,Owner同時也是為Pipeline承擔費用的人。一個Pipeline的擁有者目前僅支持唯一一個用戶。

T

  • 通道

指支持的數據存儲類型,如mysql、odps等。

  • 同步

一般來講,數據同步是為保證源宿兩端數據邏輯的一致性,將數據從數據源移動到數據目的端,並伴隨一定的數據轉換或者清洗的過程。

  • Task

數據集成在進行數據同步過程中,為了提升數據傳輸吞吐能力,通常對傳輸數據集進行細粒度切分(稱之為Task),並啟動多線程乃至於多進程容器運行Task進行數據傳輸服務。

Z

  • 增量同步

數據集成通過使用Where過濾條件做增量抽取,具體來講,在源表上增加 個時間戳字段,係統中更新修改表數據的時候,同時修改時間戳字段的值。當進行數據抽取時,通過在where條件中放置類似於gmt_modified > sysdate - 1 來決定增量抽取哪些數據。

  • 髒數據

數據同步通常會對接源宿兩端數據存儲,需要根據源宿兩端數據源的具體信息適配和轉換相應的數據內容。在傳輸過程中,可能存在由於兩端元數據不匹配或者本身的業務數據傳輸轉換失敗(例如OSS上一個定義為Integer的類型存放了”abc”字符串),CDP將自動識別上述異常情況,並提供自動記錄和容錯機製,最大限度保證數據傳輸的可靠性和健壯性。數據集成基於自動識別髒數據功能上,還提供數據傳輸容錯上限。例如,由於曆史遺留問題, 用戶知曉髒數據影響情況並且對於源端髒數據有一定容忍度,則可以配置單個Job最大髒數據條數閾值。

最後更新:2016-05-06 10:43:30

  上一篇:go 權限和安全__產品概念_產品簡介_數據集成-阿裏雲
  下一篇:go 創建普通Pipeline__快速開始_數據集成-阿裏雲