閱讀203 返回首頁    go 技術社區[雲棲]


MaxCompute2.0助力眾安保險高速成長

摘要:2017雲棲大會阿裏雲大數據計算服務(MaxCompute)專場,眾安保險數據總監王超群帶來MaxCompute助力眾安保險方麵的演講。本文主要從MaxCompute優勢開始談起,進而談及大數據能夠為公司運營帶來的好處,最後重點分析了眾安保險的數據平台建設,包括任務調度、元數據和數據質量監控等。

 

以下是大會內容整理:

眾安保險作為國內第一家互聯網公司,我們從創立之初計算平台就使用MaxCompute。

 

為什麼會選擇MaxCompute

成立之初我們也在自建平台和MaxCompute上作出了選擇,我們主要從五方麵考慮:健壯性、與應用係統交互、擴展性、強數據安全和低成本。

健壯性:7*24的服務能力、異常恢複時長;

與應用係統交互:數據源的獲取與數據輸出效率和成本;

擴展性:當數據成倍增長時,計算能力彈性;

數據安全:數據異常攻擊防護,提供多層沙箱防護及權限體係;

成本:自建成本和MaxCompute成本對比。

4ed20d1f89ab19c282083d0cbedf3e1749987a63

首先,2013年能夠提供完整能力的計算平台並不是很多,MaxCompute孵化於阿裏金融的生產係統驗證後對外輸出,支持5000台以上的計算能力,滿足我們對彈性和擴展性的要求;其次,我們對阿裏雲專業能力的信任,可以看到阿裏雲在國內的計算份額遙遙領先;最後,MaxCompute不僅僅是一個計算平台,它還提供了分析和挖掘工具的能力支持,提供可用的IDE(DataWorks、Studio)開發工具,這會降低我們最初加工開發過程中的開發成本。

 

大數據能給公司運營帶來哪些顛覆?

da283bf47efc9449064ba7cdcc699e03b6f889bc

雲計算和大數據整體生態鏈的發展如圖,國內雲計算年增長率超60%,AWS新增功能數可觀,雲計算正日益接近生活,從hadoop誕生以來,十年間產品豐富性大大增加,生態圈越來越大。


大數據不僅僅在於它的工具、平台和生態圈,更在於它能夠賦能於人、場景,通過賦能支持生態發展,阿裏每天都有上萬人在使用MaxCompute在工作,大數據是對人賦能創造的新職業,反過來從業者也會反饋大數據,豐富大數據的場景,在十年的發展中,人和資源的投入也在反饋結果,同時還有資本的良性回報繼續投入大數據行業,形成閉環。


9d25e8748aaeeee7732053f22e9077c9dcbe0528


眾安是一家以保險為核心的公司,我們提供跨生態的連接,與各個子行業進行跨生態合作,包括電商、3C、汽車等,這些產品打通了各個生態夥伴同時也會增加我們對用戶的接觸,通過與300多個生態夥伴的合作,我們積累了大量用戶數據及信息。最終,我們希望眾安既能服務這些生態,又能通過數據積累、客戶積累、品牌積累來做大做強眾安自己的開放平台。

截至到2016年底,我們服務的用戶為4.92億,保單數72億,為中國互聯網的新生代提供了第一張保單。其中,30歲以下人群大約占比50%,說明眾安保險代表這新的生活理念方式,而且這群人群有著充足的資產生產能力,他們對保險的認可度和意識是更高的,他們是將來的消費主力。

 

眾安保險的數據平台建設

每串數字後麵都是公司全體員工努力的結果,那麼,基於MaxCompute數據平台做了哪些事情呢?怎樣支撐業務快速發展?


567a347c0bb3a2aaf1480f9caf66c6c63cdc3820


數據平台分為平台工具、數據監控和數據服務。數據本身是有多源異構數據,數據價值體現在於它的流動性和開放性,隻有把數據經過加工、質檢提供到用戶手中,才能產生價值。平台工具包括MaxCompute、數據同步、任務調度和計算存儲管理;數據監控有預警係統、元數據、血緣關係和數據質量;數據服務包括數據門戶、自助取數和服務API。


任務調度係統


125500b259a6a7a5d7e158542ebacaa5f3d7feba


任務調度本質上是要完成數據加工工作流的狀態,數據加工是一個多鏈路的過程,如何保證數據順序的正確性,我們支持日、周、月等不同周期調度,支持分組優先級,支持小時任務,支持自定義時間調度,日任務量超1W。

任務調度是一個有向圖,每一個節點都可以看到來源數據是非常多的,紅色數據代表出錯狀態,藍色代表成功,綠色代表正在運行,黃色是存在的狀態。不同任務加工來源於很多的數據源,就會給我們帶來困惑,如果信息出現錯誤,那麼到底是自身任務出錯還是上流數據源結果引來的問題呢?那麼,怎麼讓開發更快的定位問題,減輕開發成本,提供統一口徑?我們通過元數據來解決。


元數據


57dfdc03cc2df65f961985b97a10e3c4862f4c3b


數據包括打通數據和數據間關係,利於模型優化和異常定位,打通數據與人之間的關係,利於成本優化。數據關係包括數據字典信息、血緣信息、存儲和產出信息、表責任人信息和業務元數據信息,推動存儲計算優化來降低MaxCompute使用成本。

左圖為數據間的基本信息,還有數據產出信息、血緣關係;右圖展示表的來源,輸出會影響下一輪哪些表,獲取信息以後,我們會把數據和數據之間打通,人和數據之間打通。


0d5b12ce19253524b376a682ae7bfd58fa567215


未做計算優化的計算成本很穩定,存儲優化後成本下降了30%,通過存儲計算優化降低無效存儲,反饋計算效率提升。


數據質量監控

cacd21798b3db3ef5091d2f702e3880f2c7d6f51


數據質量監控通過切片方式嵌入到任務自身執行狀態中,執行任務的自處理,自己判定自己的狀態,基於規則與模板驗證數據的準確性,隻有Ok才會被下遊使用,這樣避免了數據汙染,自身暴露錯誤不依賴於下遊。它的特點是利用MaxCompute的統計項收集功能,規則是統計項規則,包含表和字段級別,模板為規則+周期+統計函數的整合,把事後監控變為事中監控,支持用戶自定義,覆蓋重點任務,覆蓋率30%。


數據服務與安全

在消費時,我們會去考慮哪些東西呢?數據是要開放和流通的,在開放和流通中我們還要小心什麼?數據泄露和安全都會導致公司的災難。

在技術上,我們基於ACL與角色管理,賦予不同等級,我們做了表和字段級別的權限等級控製,建立敏感信息掩碼、涉密信息的加密審批流程,開放與安全,基於技術控製和流程控製,各種角色需要數據,靠數據人數是無法支撐的。開放基礎是安全控製,開放關鍵在流程管理,我們在開放與安全間做平衡。

在數據平台的建設中,要保持可用、易用、適用三個階段,需要經曆多次迭代升級係統。數據即服務,要滿足用戶不同的數據需求,數據是基礎設施,每家公司都麵臨數據平台的搭建和使用。

MaxCompute生態的豐富,資源與工具的共享,對挖掘算法的深入支持都可強大到滿足我們的使用需求,我們可以有更多時間去接觸用戶,為用戶創造價值。MaxCompute成本也在逐步下降。未來,希望MaxCompute提供更多種模式支持,包括UDF\資源庫如IP庫,包括挖掘的python算法包、人工智能平台支持。


6c4b69af9fd1b465628b63fcee73224de0b62357


MaxCompute招聘信息:DT時代,與堅持夢想者同行!


阿裏巴巴大數據-玩家社區 https://yq.aliyun.com/teams/6/

---阿裏大數據博文,問答,社群,實踐,有朋自遠方來,不亦說乎……

bba01b493e1c5d904e882b1c380673c6ebe49a98

最後更新:2017-10-25 15:34:29

  上一篇:go  Linux下的遠程控製—VNC
  下一篇:go  ASP.NET Web API路由係統:路由係統的幾個核心類型