閱讀870 返回首頁    go 阿裏雲 go 技術社區[雲棲]


利用MaxCompute建立數據倉庫的超強實戰手冊

       小源科技成立於2011年,是一家專注移動互聯網領域的產品研發和運營的創業公司,我們秉承“點滴源泉,無際藍海”的公司經營理念,堅信融入用戶才能發現需求,專注一點才能做到極致,快速前進才能永葆領先,為用戶所想才能實現價值。小源科技是智能短信概念的提出者和先行者,也是國內最大的情景短信平台運營商。目前包括三星及國內大部分知名手機廠商均采用了小源科技的信析寶智能短信SDK整體解決方案。公司團隊主要成員來自金山、多玩、QUEST等國內外一流IT企業,擁有5-10年的豐富從業經驗,擅長產品策劃設計,安卓蘋果服務端的跨平台開發,互聯網運營和營銷推廣,數據挖掘和分析。

數據來源於SDK,因業務是2015年摸索的主營智能短信SDK;在2016年3月由來自阿裏巴巴的某位大神作為部門總監成立數據部門,心中留著對阿裏的滿滿滴愛,毫無保留的直接使用阿裏雲產品

話說,有些神奇的詞比如:願景,目標,戰略,規劃,方案,架構,接口,數據模型這些關鍵字會在所有公司各層次的人員之間;一個事情嘛得上級認可,下屬認同,然後開展起來就更容易水到渠成。老板經常會問我你規劃怎麼做?有什麼方案? 數據倉庫的建設單單是一門技術,更是一門管理科學;三分技術,七分業務,十二分的管理 然後就有了下麵的做事情前的規劃:
6d9aff9b7ce2e73f2cb0cb2ac8df507cd9bbf86c


f7942c6e00db8c03c783503c8333ac50ba177ff8
數據現狀:必須對數據現狀有個大致的了解,好評估每日要處理多大的量以及按正常業務正常1-3年的數據處理量達到什麼規模。
edcd42ac36ba854f30300447f4cf82bd67abe3f4
麵臨的問題:把數據和技術上的有的坑盡量找出,描述一下數據在技術上的難題;原有的數據是在hdfs上的一個文件,沒有保留結構化的中間結果 導致數據使用的難度大大增加;數據結構是json規範 每個業務的json差異比較大有數據組json以及字段之間還有相關規則
a442997d9051cf3aa192cf68e164524d37a6b581

做一件大事得有規劃,有方法論指導;因為領導指名點姓使用阿裏雲,因此完善自建平台的plan B就一字不提了
e7e7b2f16dd18e2f70e796ae26ee93f0d0aaad6c
常言道做大事要有對的人和對的方法,沒有個方法論指導數據平台的建設就是耍流氓
9c9b4be7287b7eb0ce424ec00eafb4fd167a87a7
建樓房得有規劃設計圖好對項目有全局觀,數據平台也少不了;因此做邏輯規劃
25f78fa0bfed4c756b3dd86f9a5ad7f0704ebf79

數據邏輯分層:邏輯分層便於數據管理以及針對不用終端用戶,體現在表前綴或者數據庫的用戶/數據庫的物理隔離

Ods層:Operational Data Store 帶日期或者增加stg層存儲接口數據,與業務係統一致的結構和數據格式  數據處理完成釋放,初步存放策略:接口數據不作保留拆分成功後清理

DW層: data warehouse ,以數據信息為基於 梳理企業的信息模型 保留細節數據 輕度匯總,累計去重用戶保存在此層級 dw層輕度匯總 天數據保存1個月+當前月 累計按周 按月存放(分區為周一,月初1)

DmDataMart 它和需求息息相關多維模型層次,各類報表,對外使用數據  :永久保留

Dim:永久保存

 

 

245b2f42dd0953cf7c2259fd5af6c2fdc9abdffb
odps中落地實現的最終效果:任務管理通過邏輯分層-》主題-》具體的主題任務(以表名的形態存在)
7522743be60c828b9f2dbe235bd37e1941cd3d2f

對數據的流程以及與上下遊係統之間的描述,實時數據采集實際實踐中采用阿裏雲的日誌服務結合Logtail獲取日誌文件的最新追加的內容並寫入日主服務中,由日誌服務間隔半小時投遞到ODPS的ods層的數據表
bb311bf95ec4daa1d10992088928346317a12767
采用odps的數據同步底層實際是datax,將源係統數據按原數據格式導入odps表的當天分區(默認保留7天),便於數據的核對和一致性,然後使用sql任務將ods表整合轉存到dw保存全量和清洗空置,保留曆史快照等ETL操作
4423406764860acbb14129db4a267e63d528c645
模型規劃需要有高度的概念描述公司經營業務過程中參與的主要的實體以及實體之間的關係;便於對公司業務的信息進行完整的梳理來支撐完整的數據倉庫建模以及保證跨係統之間的一致性
03c01a9c78dca3f3ffb9229a5d37aa305d68daa6
結合業務需求以及公司業務信息為基礎覆蓋所有數據和現在階段關鍵業績指標的主題域模型,
1df9d963a06e24cc1ebc93635d42745201ccf5b0
規劃是那麼的重要,數據接入往往是分階段完成的;經過前麵的幾個步驟對數據之間的關係有大體的能較清晰的了解依賴的數據源並製定相對應的係統調研計劃深入了解
某個係統數據接入的方式(增加量條件或者全量,無備庫數據的數據接入的時間)

c76a9fa478c18f2689799e2970fdffbe538d0da2
實現數據的可視化不僅讓數據變得通俗易懂,還能更加直接的傳遞所表達的信息。在生活中,常遇到的數據一般都是具有標識係統的,這種標識係統不僅僅是方向性的,還有文字性的。如街頭上的指路標誌,不僅讓你更加直觀的獲取信息,還能為了解決實際的需要。


1be75f89da1338cb19d3747cd559480249a1714c
使用BI報表中自帶的數據產品一周內建立整個美觀強大的經營分析係統,最終效果如下圖所示
ebb471e2a5bf5becc295013a58d7c1ef06179a72
大部分數據分析師常用的技能是excel的透視圖表,因此QuickBI報表的透視圖表提供了一個web端的數據分析能力,隻需要對數據集進行可視化拖拉操作即可完成數據的OLAP操作
1383552de98cd4facdac8db0862059b65c5fc0f1
 
 
 

最後更新:2017-06-14 14:02:12

  上一篇:go  交通大數據的發展現狀與應用難點解決方案分析
  下一篇:go  1歲啦!看.STORE域名成了哪些行業的奶酪?