閱讀268 返回首頁    go 阿裏雲 go 技術社區[雲棲]


數加:從數據工程師到CDO的七次升職路

2017雲棲大會深圳峰會,阿裏雲高級產品專家陳鵬宇帶來題為“數加:邁向數據智能之路”的演講。本文引入一個數據工程師到首席數據官的七次升職過程,闡述了阿裏大數據的進化史,其中包括Quick BI、DataV、PAI、公眾趨勢分析、MaxCompute & Data IDE以及推薦引擎等都進行了詳細的解析,一起來了解下吧。

 

以下是精彩內容整理:

大數據實踐之路並不像新聞描繪的高大上,很多企業仍然還沒有解決看數據的問題,下麵我會結合自身的體會,以一個虛擬人物的形象來描述如何一步步把企業大數據應用水平從早期的BI看數據一直到數據化運營到後來建立數據中台運營數據、激發數據創新的過程,在此過程中,數加也完成了它的使命,即幫助開發者在大數據方麵實現升職加薪。

那麼,小D是如何實現七次升職,從數據工程師到首席數據官CDO的呢?

 

第一份工作

62f1c4a3ea133da852318ff452e67b366fb339a4

老板需要一份經營報告,看過去一年各地區的新用戶發展情況。小D熬了一個通宵將數據用腳本拖到臨時數據庫中,寫了幾十條SQL並生成一份報表交給了老板,並獲得了表揚。

30b3b46337cbece36a7209a2b667fd1124778980

而老板/業務人員的需求越來越難滿足,他們會不停地要經營報告、會員分析等,小D自己是處理不完這些事情的,所以就會請數據開發工程師幫忙提數據,工程師需要考慮搭建數據倉庫,考慮從源數據找各種數據,理解數據含義、梳理數據結構並重新加工清洗,過程中經曆幾次的傳遞,出報表時可能以及不符合老板需求,同時周期特別長,所以小D就會過著跟需求作鬥爭的苦日子,所有人都會跟他要報表。

所以小D突然醒悟:我缺一個能解放雙手的工具!

 

第一次升職

數加·Quick BI

92ec5570be554a8864ae5617a19c84934fda3faa

數加Quick BI就是專門為解決人肉提數人的痛苦而誕生的,它可以做到在30分鍾內,老板也能上手的BI。

04cc25d4d31898dc6b9fd8a3a020caa8a3ef8500

報表加工過程零SQL,直接連接到數據源庫,拖拽式,類Excel多維分析 ,告別臨時拖數據,該過程簡單好用,不用寫SQL就可以將看數據門檻降的很低。

0cf604947e5197f42cf71c86ba11bae27e39f21a

Quick BI是到阿裏雲上的,可以很方便地連接雲上的各種數據源,包括redis、ADS、HybridDB等所有的雲上數據庫,點點鼠標就出數據了。

f3808c0c98b36f32c2adf6bb2c74dc22ec8bd16f

Quick BI之所以能做到直連數據源做分析,是因為背後有很強大的OLAP引擎,提供秒級別的查詢響應,針對不同的查詢規模,提供合適的加速服務,從而獲得最快的響應速度。

3cd498195109b03087191fc63944f1ac8b58f5ea

Quick BI快捷好用,預置了很多模板,采用可視化模板,快速設計儀表板,為各部門搭建數據門戶,基本一天可以搞定。

34f4ec0b1d5adeaf8dd99e0590fb36fb3954b544

Quick BI報表可以嵌入係統自身運營係統中,可以把報表嵌入公司的Portal,方便大家集中看數據。

在Quick BI的幫助下,可以實現將需求響應速度從“1周”縮短到“1小時”。

但目前為止,小D仍然沒有得到解放,他依然在做報表,響應速度越快,需求方給的需求就越多,小D就會越累。有一天小D生病了,數據處理不過來時,可能就需要將Quick BI賬號給需求方,讓他們自己做。

c157db972c73ebd30f2b1c38b4f4029bef3b7036

需求方按照小D教的方法,真的自己把報表做出來了。

68bbd21608c3bf0287e993297f6db2f493658e57

各部門紛紛效仿,連係統工程師都開始使用 Quick BI!Quick BI for 萬網,CDN,DMS,阿裏雲企業控製台,…

從此以後,公司裏的每一個業務人員,包括大老板,都使用 Quick BI 做數據分析!

數加·Quick BI 把小D從提數工作中解放出來,伴隨著數據分析效率的提升,小D迎來了第一次升職。人閑了之後,開始長出藝術細胞,小D開始琢磨著如何更好地展現數據?

 

第二次升職

數加·DataV

171fcafcf3027990093d3af60a7dc95ae5b57bdc

dataV做出了阿裏雙十一震撼的實時業務大屏,小D想嚐試如何用更直觀、更震撼的方式呈現數據。

242dc807a2736edac83628a0763424225286132c

春節的紅包大戰給了他機會,小D的第一個可視化大屏作品誕生了。領導特別滿意,當場給我發了1萬元紅包,但小D想要更美的方式!於是…他做了各種嚐試:

實時指揮監控

04c127a886fcfd74ba707589617fd81de750fa38

業務運營大圖

b3163d9742c496abe07f05abd93c7f0a596eef33

4fa4a276c21e2805a2c829f323c200d30f799e81

直到有一次國家領帶來訪,CEO給國家領導作了一次精彩的匯報,小D深受鼓舞原來自己身上有辣麼多藝術細胞。

於是,他買了DataV開發者版,開始想著如何賺外快。比如:

企業概況

21be54d356d9bcf63c21298cba21c61220df36ad

工業物聯網

54652608545f5a57892f041e7de60e2f58bd2cfe

稅收分析

c113ef1aa9c0a5badf0e9b51e3a91ad3e1ea424e

智慧城市

74bf2c6a89b5748c2ba610e65ff0c23607b89932

DataV 幫小D賺了很多外快,心有戚戚,總想著為社會做點貢獻:

2017/01/23-22時空氣質量

4db98bd4d6e3440a8f55c763ad30a94eab1a1f43

全球象牙走私犯罪活動數據

e37cc7278c772cb4bf2424ab178242ce2c9ec955

數加·DataV 讓我看見數據之美,在提升公司格調的同時,小D也迎來了自己的第二次升職。

 

第三次升職

美好時光總是波瀾不驚…直到某個周末,突然間,負麵新聞鋪天蓋地而來。

0a56c0dc63c7578da5d58ab802706265a636ca80

一次負麵新聞被炒作擴散了,該從哪著手分析呢?這時就需要一個手段,能夠快速的幫他對負麵事件的影響和傳播情況進行預判和控製,這就需要輿情監控工具的幫助。

數加·公眾趨勢分析

4d25f347cbde7953c9fa7b8588a2cac688cd13e2

公眾趨勢分析可以時刻關注您的口碑,它可以直觀的看到事件造成的影響麵和傳播效果。

ef3ffb9cf67341af4a6177c6628ce1f2ede61922

我們可以看到是誰在傳播輿論,共計轉發次數和每層轉發次數,是否被衰減,過程中有沒有水軍參與等,都可以一目了然。

1d914285e53448ee641b728a344090abda7c141d

還會對影響麵進一步分析,擴散範圍有多大等等

2c5ffe0ead1b7b8cabf9fb2eb1ae1fb77fc07837

也會對公眾對此事件感受如何作分析,在不同階段,公眾整體對事情的認知,會有博弈、會有專家跳出來,也有公司公關部門參與,我們可以用從情感值的變化來看公司公關采取手段是否有效。

1797b18ac658d22f4f10cc2a75a695bbdd3b2f35

通過公眾趨勢分析,我們總結出來以上幾種輿情擴散模式。

公眾趨勢分析主要從四方麵為大家提供方便:

  • 監測:2分鍾更新一次大中型網站數據;涵蓋全球網絡媒體,千萬源站,20億網頁(包含境外主流新聞網站數據來源);高效、穩定的爬蟲技術及平台支撐;
  • 預警:負麵輿情自動預警;
  • 分析:輿情精準匹配;精準算法將信息自動聚類;情感正負麵分析;熱詞雲圖,專業圖表報告;
  • 跟蹤:輿情事件跟蹤。

7ad6cabf3b53faed1ea6ab7bfeb286e6291cd3f4

利用公眾趨勢分析可以做很多很多事情,比如:

  • 傳媒行業:發現事件熱點,梳理傳媒脈絡,跟蹤欄目受眾的喜好傾向,鑒別新聞炒作
  • 企業品牌:分析消費者對品牌的認知和注意力遷移,關注競品分析,塑造品牌口碑
  • 旅遊行業:傾聽遊客反饋,預判旅遊出行趨勢和熱門程度,提升旅遊服務的體驗

數加·公眾趨勢分析 賦予我千裏眼、順風耳,在挽回公司口碑的同時,小D實現了第三次升職。

 

第四次升職

此次負麵新聞使得用戶粘性下降了,老板要我出一個提升業績的方案。

53fcda176c4a777aa39a49cc89567be98d168992

小D給老板建議做內容社交,先從新聞推薦做起。本來這就是嚐試性的事情,對於創業公司投入太多精力是不劃算的,所以小D用了數加推薦引擎。

數加·推薦引擎

推薦引擎21天搭建個性化推薦係統,在新聞場景中推薦引擎提供了哪些能力?具體如下:

1.         新用戶冷啟動:通過阿裏雲提供的海量用戶人群特征提供最精準的推薦服務,為企業解決新客戶的冷啟動推薦;

2.         新聞智能分類:通過自然語言處理(NLP)、深度學習為新聞實現自動打標,並分類;

3.         用戶興趣畫像:基於新聞內容、用戶屬性、用戶行為三類數據,進行特征提取,輸出用戶興趣畫像、品類畫像、新聞畫像;

4.         新聞實時推薦:新新聞毫秒級推薦(實時修正),老用戶毫秒級推薦(在線推薦),新用戶2~3分鍾推薦(近線推薦)。

推薦引擎真的很簡單,按照開題服務——上傳數據——配置推薦場景算法——API對接——查看效果報表的流程實現。

除了新聞推薦,還做了短視頻、音樂、內容社交和群組等。我也推薦給朋友們用:

好看鎖屏

340d39b2bb03cf83e590771ac95381f1aca7be4f

大麥網

0e7c6d5981b96bac33bc062c36479101be3c02d6

以大麥網安卓客戶端為例,圖中為已有的個性化推薦。

短視頻推薦

d687144c502576bd3699d77c31813e64e34eb392

數加·推薦引擎讓我第一次感受算法的魅力,成功啟動內容社交的同時,小D獲得了第四次升職。

 

第五次升職

後來小D驚喜地發現:數加·推薦引擎 居然支持自定義算法,但小D沒有學習過算法,機器學習PAI恰巧可以解決問題。

數加·PAI

數據分析師 + 數加·PAI = 數據科學家

ca3c7a0a3facd1a8b0e973c18a84b721c9936949

不需要很深入的了解,隻需要算法的關鍵參數配置,理解應用場景,經過1天的學習,很快就可以上手了。PAI提供了數據預處理、特征工程、機器學習模型訓練和模型評估等方麵整個過程的包裝。

10aeb51a61451f311cef2d5cb46c82d797736f0e

了解後,小D開始用算法解決社交場景中的難題:

  • 利用關係挖掘算法K-CORE找出社交關係鏈中的粉絲領袖
  • 通過掌握粉絲領袖的屬性特點可以快速實現整個粉絲群體的人物畫像
  • 通過標簽傳播算法,可以分析社交鏈路中的情感傳播模式,對微博大V的正麵情緒或者是負麵情緒在整個粉絲鏈中的傳播效果進行預判
  • 通過最大聯通子圖和最短路徑算法,可以將社交鏈路中的人脈關係按照一度人脈、二度人脈準確分類

04ea5f14b07bd4bb4d314402824fd1ceaaff30a4

阿裏雲機器學習(PAI)有最全的分布式算法庫,支持流行的深度學習框架,阿裏自己也會有深度學習的算法。同時,PAI天池算法大賽已經有數萬名選手參加,這裏才是最強大腦。

3a27425c309f25832f32deb85953e7d6b50a7658

數加·機器學習PAI 讓分析師也會用算法,提升數據化運營能力的同時,小D實現了第五次升職。

 

第六次升職

公司的社交網絡越做越大,老板開始想要收入了,從流量變現開始。

9450280e4aec2dede366c9c72f88cad20a5e07d3

我們自己研發的營銷係統,很快遇到了瓶頸。比如:

  • 性能不達標:高並發訪問,整個廣告過程要求小於100毫秒
  • 營銷效果不佳:數據積累不夠,算法效果一般
  • 實時優化與海量數據的矛盾:數據量日益龐大,但廣告優化的實時性要求不減
  • 工程量及運維挑戰:開發和運維的人力投入成本較大

我們不想過多的經曆解決技術問題,隻關心流量問題,因此嚐試了數加營銷引擎。

營銷引擎

94133d77a9827d94485f2bbc46ce44e07695576b

營銷引擎將原來流量係統遷移到新版流量係統中,對接的第三方投放係統也可以自己來做,3天可以搭建高水準的DSP係統。

e3b01adcc5ece854edffc3df02761a8ff698f226

營銷引擎提供了所有基礎的能力和功能,整個過程隻需要一個人,2天半時間就可以將全新的營銷係統搭建起來。

5518661abb4693e6aae583c4b3c300a9153cf335

營銷引擎提供很多技術能力,效果得到顯著提升。

ebc7ad1044ff9dda26f98bdaf65a54794b01d225

最終給客戶形成完整的、帶數據的、自有的廣告營銷平台。

d17c1551c13ca5e1004707a5f92c42dc77c2d0cd

營銷引擎(Open Ad)為企業搭建自有DSP、ADN、DMP係統,提供穩定可靠有效的競價、投放、受眾定向、CTR預估、效果優化等核心能力。以API及源碼的形式提供。

數加·營銷引擎讓我們看到流量變現原來可以這樣玩,在幫助公司盈利時,小D又一次實現了升職。

 

第七次升職

內部數據已經形成了脆弱的生態係統,深層次問題浮出水麵,比如規模達到PB級,算不動了;存儲和計算成本越來越高;平台穩定性差;同一份數據被重複存儲和計算;幾千份代碼不好管理等。

數加·MaxCompute & Data IDE可以幫助數據官搭建底盤。

數加·MaxCompute & Data IDE

9519a9c4d424841b67506afe2adcaae39e0b3693

簡單易用的數倉開發套件 Data IDE,從找表開始,到申請權限,設計工作流,支持跨團隊合作,再到發布監控,包括數據質量的監控等。

ccf6ea1d6e2a9ac0e52af9a34621f6866b95fdd5

整個數據加工處理的過程就是傳統的數倉,數倉的建設是一個迭代的過程,快速構建基於雲的數據倉庫,可以支持機器學習PAI算法的挖掘、BI的OLAP等。

形成【數據中台】體係,支撐數據應用快速創新,需做到以下三點:

1.         統一平台,數據大集中:統一的存儲,統一的計算引擎,統一的數據開發平台

2.         資源共享,彈性分配:基於ODPS多集群技術,由數以萬計的服務器提供超級計算能力,按需彈性分配給各數據開發團隊

3.         數據隔離,分權管理:基於ODPS多租戶機製,各部門可獨立管理自身的數據,獨立做數據授權

88cd30247fd0df9cc347c54d9eccc10e9a36faa6

實現統一平台後,就可以做數據安全、數據質量、數據成本的管理,我們的算法模型、數據等都是可以共享的。中台上麵支撐的業務是一個存——通——用的過程。

7a8350a4890bdad4b83c5b295c7b120d62817d80

所有行為的背後都是有數加引擎支撐,maxcompute是數據倉庫的基石,analyticDB可以讓數據探查變得自由等。

依附數加·計算引擎大數據的百年根基,搭建數據中台,自此,小D完成了到CDO的轉變。

最後更新:2017-06-19 11:31:55

  上一篇:go  拆開阿裏小蜜的內核,看智能人機交互的實現邏輯
  下一篇:go  超全總結 | 阿裏如何應對電商故障?神秘演練細節曝光