閱讀365 返回首頁    go 技術社區[雲棲]


阿裏巴巴下一代數據集成技術

摘要

數據集成是把不同來源、格式、特點性質的數據在邏輯上或物理上有機地集中,從而為企業提供全麵的數據共享。在企業數據集成領域,已經有了很多成熟的框架可以利用。目前通常采用聯邦式、基於中間件模型和數據倉庫等方法來構造集成的係統,這些技術在不同的著重點和應用上解決數據共享和為企業提供決策支持。

986c61c7f38883d3a0de1b05d5477f2c89dadbd1

視頻分享地址:https://v.qq.com/iframe/player.html?vid=o0547tqlw0z&width=670&height=376.875&auto=0


數據工廠

85ca00e556454d2c55ff8eafca2008b5edab5ff4


數據工廠解決了雲上從數據的采集整合,到數據加工、分析與管理,再到數據應用和消費的整個流程。


上圖中紅色標注部分是數據集成的位置。數據集成既是把數據采到數據平台部分的數據通道,也是數據出去的通道。


中間就是所有數據的清洗轉換、調度、OLAP分析以及數據挖掘的常用工具和模塊。


最底層是元數據管理,是一個至關重要的模塊。


傳統數據處理有時候會叫做數倉,數倉是偏離線的。現在普遍叫數據平台,數據平台更強調它和在線係統的融合打通。


cf9e339e5ab01eed38c95efc55a560644866741c


如上圖所示,極簡羅漢圖構建的體係就是數據工廠。大家要自己搭建一個大數據開發平台的話,這些是基礎模塊,也是必要的組件。


最上麵是調度,兩側有開發測試的環境,和整個大數據開發的運維管理。中間的“神經係統”是元數據,沒有元數據所有東西都是無效的。再往下是整個大數據的計算引擎,阿裏巴巴早就已經用完全自研的MaxCompute以及ADS等一係列的計算引擎替換了開源部分。最底下是數據集成,決定了數據怎麼進來怎麼出去。


數據集成

79393555afce5a941d73c30c933ff459f0520de0


上圖所示是數據集成的使用過程。從選擇數據源、選擇目標,到字段映射,然後進行通道流控的配置,最後就是看日誌。


625c0593d2e9938264051b797dc295f17f0d84d8


現在的數據集成已經超出了傳統數據集成的範疇,也就是說傳統數據集成的“屁股”是坐在數據倉庫上的,麵向的是業務數據庫,對於多媒體文件或整個任意文件的支持還是比較少。現在非結構化數據的比重越來越大,尤其在阿裏雲上看到這種趨勢非常明顯。所以我們做了任意二進製文件的支持和視頻文件的支持。


跨公網的數據傳輸是在雲時代下一個非常重要的能力。當數據不在同城機房的時候,要想做一個簡單的數據集成都需要跨公網把數據傳輸到統一的數據倉庫中。


數據集成agent-datax

DataX是阿裏巴巴集團內部被廣泛使用的離線數據同步工具/平台,實現包括MySQL、Oracle、HDFS、Hive、OceanBase、HBase、OTS、ODPS等各種異構數據源之間高效的數據同步功能。


DataX是一個插件式架構,可以插拔,支持讀寫插件。我們會堅持開源,現在已經有了一定的影響力。它的性能很好,功能和穩定性遠超sqoop。最近使用的客戶案例有微博、金立、鬥魚直播,效果突出。


028434d711c59e7ccf9e2f57ce6d8207878606d8


單機首先要把任務進行拆分,然後做到並發。也就是大家能看到的開源版本主要能力就在這裏。


140609c27c70f764623c7e351a1edcf4458344c4


我們服務端的模式支持水平擴展。


a57254ce18fd840f383b7ddc15e9d2397a349587


阿裏內部在大數據這一塊數據采集和傳輸的主打工具就是DataX,所以它有更多的考慮。流控這方麵操作還是有些難度的,很多開源工具不提供這種能力。


d9123e9f9ff57d4b5911f1fbd5f63ffce069155e


數據集成在處理的時候有髒數據管理並記錄,而且還有基於規則的判斷,自動把日誌打出來,做基本的質量控製。


8d5c477db0808df6d9d5265459de66b69f65a544


任意位置是指跨公網;任意存儲是數據集成一開始就堅持的一種能力;還有正交數據采集傳輸。


圖中畫的是從用戶機房到阿裏雲上的VPC。在阿裏雲上一旦引入VPC就會使網絡環境變得很複雜,當然也帶來很多好處。但是複雜性尤其是對數據集成這種工具的體驗是會產生很大影響的。


我們為了突破這些也做了很多工作,現在我們可以從任意位置打透用戶的機房以及阿裏雲上用戶自己的VPC。


數加.數據集成線上情況

每天有11萬+作業運行在DI平台之上,DI每天的同步數據量達到10.2TB。每天的同步記錄條數達到近500億,還在持續增長中。阿裏自從做數據平台以來,數據集成一直是它的主力工具。

數加.數據集成能力總結

支持的類型多。支持任意主流格式和二進製數據、音視頻、多媒體。


傳輸快。在傳輸方麵我們做了斷點續傳、分塊傳輸和網絡協議加速等工作,現在也取得了一些效果。


網絡通。能夠穿透任意複雜的網絡環境,例如從VPC到Region,還有跨公網。


一站式遷移。現在在接觸很多大客戶的時候,很多客戶不想再繼續自己維護hadoop了,希望我們能完整地一鍵把整個hadoop體係遷移到雲上,以及把DB遷移到雲上。在這種情況下我們可以做到一些一站式的服務。


還有兩個更好的能力就是支持實時采集傳輸和支持客戶端、Web端采集。


我希望能把數據集成做到極致,做得更大。


以上就是我今天的分享,謝謝大家!


231917d3ccd8c2bd659b2da51d3fffe93a879a0a點擊活動鏈接


阿裏巴巴大數據-玩家社區 https://yq.aliyun.com/teams/6/

---阿裏大數據博文,問答,社群,實踐,有朋自遠方來,不亦說乎……

bba01b493e1c5d904e882b1c380673c6ebe49a98

最後更新:2017-09-13 19:32:59

  上一篇:go  對話阿裏雲異構計算掌舵人:人工智能爆發三要素
  下一篇:go  業餘草推薦阿裏媽媽自研廣告點擊率預估核心算法MLR