300
財經資訊
標簽建模__產品與架構介紹_畫像分析-阿裏雲
概念說明
如上文所說,標簽中心的作用是在現有的數據表之上構建跨計算存儲的邏輯模型,直接讓用戶在視圖層上對數據進行管理、加工、查詢,屏蔽下層的多個大數據計算存儲資源,簡化數據的使用。當整個數據架構越複雜,越是需要多個計算存儲資源組合使用的場景下,標簽中心的價值就越為明顯。
標簽建模的方法來源於阿裏巴巴用戶畫像體係,廣泛應用於精準營銷、個性化推薦、用戶畫像、信用評分等需要基於明細數據進行計算的大數據應用當中。所謂標簽就是對用戶這一對象的一個最小描述單元,代表著所描述對象某一個具體的客觀事實的抽象表達,如屬性(性別 標簽值男、女、年齡 標簽值實際年齡),行為(成交金額、收藏次數、位置定位),或者是興趣(對於多個關鍵詞的偏好度),是一種以業務視角出發的數據建模方法,標簽既可能是數值、也可能是枚舉值,也可以是多個Key-Value組織的列,還可能是多字段組成的事實表(如對象、時間、謂語、賓語)。從概念模型上講,標簽體係就是圍繞多個實體對象,如買家賣家
商品企業
設備,以及實體之間的關係,如成交檢修
位於等等,建立標簽化描述的方法。
這種建模方式看起來可能類似於角模型(Anchor)或者是圖模型(Graph),其實並不然。傳統的建模過程是根據業務需求設計概念和邏輯模型,再根據邏輯模型對物理數據表進行加工和規整。而標簽建模是在已有的物理數據/模型之上直接建立邏輯模型,通過各個數據服務的代理解析,讓用戶可以在視圖上直接進行各類的計算,不需要預先對物理數據進行大規模的加工處理,即用即算。
但需要明確的是,總體來說,標簽仍然是建立在物化數據之上,因為在跨計算的語境之下可能會麵臨多個計算的查詢語言和性能的差異,建立在邏輯請求上的標簽很可能會無法執行,所以總體來講定義的每一個標簽還是需要對應到落地的物理表上。但在DTBoost當中,可以在相應的數據服務當中以某一個計算查詢邏輯定義為一個臨時標簽使用,但關係到跨計算之時還是需要將之物化,避免錯誤發生的可能。
標簽模型v2.0是圍繞實體(Object)、關係(Link)、標簽(Tag)三大元素對分布在不同數據庫中的數據進行網絡化的建模方式。實體用於描述某個客觀的對象,如設備人員
地址等,對應到物理數據表上一般就是屬性表,有一個主鍵來代表每一個對象,剩下的每一列就是標簽即描述對象的屬性。那麼關係是表示對象和對象之間的聯係、事件、行為,一般對應到物理數據表上一般就是事實流水表,如成交檢修
乘車等。
相比於指標-維度體係,這種建模方式更適用於對於明細數據描述和表達。明細數據很大一部分都是事實表,引入關係的概念對應到流水事實表上,把多個實體之間的關係很好的呈現表達,既有利於管理也方便分析時的表達,在對業務端呈現上也更接近於概念模型的設計一樣可被一般人理解。
在經過建模轉化之後,可以將上表中的模型邏輯關係轉化為下圖所示。成交表對應到關係結點上,金額和時間是關係上的標簽,用戶表和商品表對應到買家和商品兩個實體上,性別、年齡是買家的標簽。這種建模方式非常便於各類基於明細行為、關係數據進行分析的場景。
您可以在標簽中心頁麵下看到標簽中心的幾大功能:包括了模型管理、雲計算資源管理和模型探索
適用場景
如上文所述,標簽中心是跨計算存儲、可在物理模型之上邏輯動態建模、與數據服務結合麵向大數據應用開發的數據建模、數據管理工具,並能夠通過可視化的方法清晰的展現企業的數據模型視圖。
數據模型探索管理標簽中心提供一種業務視角的數據發現、模型探索的工具,便於業務人員、開發人員、數據管理人員透視企業的數據資產。
為數據服務提供視圖支撐為多個計算引擎上的數據提供一個統一的數據視圖,結合數據服務能夠方便的進行業務邏輯計算操作
數據權限管理可以通過邏輯層對數據訪問權限進行有效控製,比物理表的訪問管理更加安全有效
功能模塊
雲計算資源管理
雲計算資源管理就是支撐與多個計算存儲資源通信,與元信息獲取的基本功能模塊。目前DTBoost支持與以下計算存儲資源的管理:
- 阿裏雲關係型數據庫(RDS)
- 阿裏雲大數據計算(MaxCompute)
- 阿裏雲分析型數據庫(AnalyticDB)
- 阿裏雲表格存儲(TableStore)
- 阿裏雲數據中樞(DataHub)
- 阿裏雲流式計算(StreamCompute)
模型管理
實體/關係管理是標簽中心當中對邏輯模型進行配置的主要功能,能夠讀取不同來源的數據庫的元信息,整合為實體或者關係。描述同一個實體(主鍵)的多張表可以在邏輯層上聚合在一個實體下,形成一張“大寬表”。關係的建立則是可以把聯合主鍵表看作為關係,將多個實體關聯起來。其餘的描述字段則根據相應的情況定義為標簽。標簽管理模塊能夠對所有的標簽進行查看、檢索、修改。
模型探索與數據訂閱
模型探索部分可以通過關係圖的方式查看所有的實體,實體與實體之間的聯通關係及其屬性,以及實體/關係下關聯的標簽情況。通過模型探索可以對整個標簽模型進行全局的分析查看。
標簽數據訂閱是DTBoost處理跨計算數據流轉的重要功能之一。在相應的數據服務需要使用到數據的時候,標簽中心提供了將分散在多個存儲當中的數據訂閱至數據服務需要計算的位置的功能。對於同步且相應時間要求高的場景來說,需要用戶在相應的數據服務當中進行提前的手工訂閱操作,對於異步或者請求相應要求不高的同步的計算場景來說,這個訂閱過程對於用戶來說透明。
智能搬運內置了針對幾套典型的架構路徑
• 對於整合分析這類OLAP/ADHOC場景來說,提供了將Oracle, 關係型數據庫(MySQL)等業務庫中的數據同步至大數據計算(MaxCompute)中,再訂閱到所使用的分析庫當中(阿裏雲分析型數據庫(AnalyticDB),關係型數據庫(RDS)等)
• 對於規則引擎這類流式計算的場景來說,提供了將離線數據、流式數據進行歸並,將規則所需要的離線曆史數據訂閱至阿裏雲表格存儲當中,並根據規則計算結果訂閱至所需要的存儲計算資源當中(MySQL/MaxCompute/AnalyticDB等)
• 對於目前尚未以標準方式提供的訂閱路徑,可以進行相應的定製
技術架構
產品特性
對於這種數據體係的規劃上來說,往往是由業務驅動的,是累積增加的,隨著不同的業務板塊的開展會逐漸納入更多的數據源。如果按照傳統數據倉庫的做法會麵臨幾個問題:
- 其一、需要不斷地在物理層進行數據表的歸並,下層表的頻繁變化可能會造成數據使用的不穩定;
- 其二、當標簽的需求越來越多,因為不可能無限製的在物理層將數據拚在一張寬表當中,那分散的數據表也會越來越多,會造成檢索和管理的困難。
- 其三、在不同的應用當中不可能是整表使用,往往是需要多張表中的某幾列,那多個應用不斷的抽取再整合也會造成管理和檢索的困難。
- 其四、標簽可能是實時數據、也有可能是離線數據,數據存儲方式不同同樣造成管理使用的困難;
由此,標簽體係建模和傳統BI分析建模有幾大特性
業務視角管理
圍繞實體-關係-標簽這三個元素進行建模,是從業務的角度出發對數據進行組織管理,而不是從表的概念出發進行建模,便於應用層對數據運用和管理的理解、操作,以近似於概念模型的形態透出,讓人人都能看得懂。
跨計算的統一邏輯模型
傳統建模的數據來源和模型的使用一般在同一數據庫當中,而大數據環境下因為數據采集類型的多樣性,和數據計算的多樣性使得來源和使用分散在不同的計算存儲資源當中,數據產生與加工首先就可能分布在不同的數據庫當中,其次同一份數據需要進行跨流式、Adhoc類多維分析、離線算法加工等多種方式的計算,數據需要能在多個存儲和計算資源當中自由流轉。
所以標簽體係是把多個計算當中的拷貝在邏輯視圖上進行唯一映射,即一個標簽對應到多個計算當中的物理字段。
靈活拓展性
呈上,表/標簽之間的邏輯關係的建立也是在邏輯層上完成的,這就使得模型的維護是可以動態建設的,便於模型的維護和管理,而無需在物理層將數據進行歸並後再使用。每一個標簽之間可以獨立使用,這種離散的列化操作方式也使的數據的使用上更為靈活。
從另一方麵來說,計算能力的增強和數據使用場景的豐富,更多的數據計算是需要直接作用在明細的行為數據上,而非隻是對指標的多維統計。傳統數據集市建模的“指標-維度”體係就略顯狹窄。標簽的定義上涵蓋了多種數值類型,既可以是單列,也可以是維度+標簽組成的複合標簽(這種方式通常用於描述某種行為),賦予應用操作上更大的靈活度。
最後更新:2016-12-06 12:09:07
上一篇:
郡縣圖治簡介__郡縣圖治_數據可視化-阿裏雲
下一篇:
架構介紹__產品與_畫像分析-阿裏雲
常見錯誤說明__附錄_大數據計算服務-阿裏雲
發送短信接口__API使用手冊_短信服務-阿裏雲
接口文檔__Android_安全組件教程_移動安全-阿裏雲
運營商錯誤碼(聯通)__常見問題_短信服務-阿裏雲
設置短信模板__使用手冊_短信服務-阿裏雲
OSS 權限問題及排查__常見錯誤及排除_最佳實踐_對象存儲 OSS-阿裏雲
消息通知__操作指南_批量計算-阿裏雲
設備端快速接入(MQTT)__快速開始_阿裏雲物聯網套件-阿裏雲
查詢API調用流量數據__API管理相關接口_API_API 網關-阿裏雲
使用STS訪問__JavaScript-SDK_SDK 參考_對象存儲 OSS-阿裏雲