閱讀837 返回首頁    go 微軟 go windows


淺析阿裏數據新能源技術架構(上)

如果大家對阿裏巴巴的新聞比較關注,最近可能會頻繁聽到阿裏巴巴談到“五新”這個詞,“五新”中的其中一個概念是新能源。其實新能源就是大數據本身。技術、數據和算法三個方麵結合在一起,才可以把數據真正用起來。

大家都知道,Google的數據量是很大的,但是它的數據源本身其實比較單一。以Google search,Google map等為主導,並沒有太多和商業有直接相關的數據。

再來看看,Facebook。它更多的是社交行為的數據,缺少出行數據、瀏覽器數據、或者類似優酷的視聽數據。

但是,對於阿裏來說,上述的這些數據我們都有。我們麵臨的極大挑戰是:怎麼樣有效的把這些全域數據融合在一起。

首先我們需要把數據有效地收集起來。我們有一個大數據體係“OneData”(有關OneData的內容,回複關鍵詞“OneData”即可獲得)。

把數據有效地收集、存儲起來之後,接著要做的就是怎麼通過算法把這些數據打通,並且真正有效、智能地把這些數據提煉出來。





image


是阿裏的一個生態體係圖。最底層是阿裏巴巴的阿裏雲,這是我們的一個計算存儲框架。上麵是阿裏媽媽,阿裏媽媽是負責整個阿裏巴巴計算廣告的一個部門,再上麵是菜鳥、支付寶和螞蟻金服。然後是與商業相關的,像淘寶網、天貓、聚劃算等等,或者是跟文娛相關的,優酷土豆,還有像阿裏旅行,口碑之類的業態。

阿裏巴巴數據中台要做的事情是什麼呢?

舉一個最簡單的例子,之前有一個比較火的電視劇《三生三世》。《三生三世》火熱上映的時候,與之相關的商品元素,比如飲食或者穿戴之類的商品,也會瞬間在淘寶網上火爆起來。

那麼如果我提前就知道某一類人群是《三生三世》的粉絲,我就可以在淘寶網上做非常高效的、準確的定位推廣。

阿裏數據要做的是:把數據真正打通,深度挖掘數據的價值,為業務創新應用提供數據決策基礎和依據。

在真正進入算法之前,我們一定要對數據進行非常認真、仔細地進行清洗過程。俗話說,如果你的數據不清洗,其實就是“learn trash from trash”。所以數據本身一定要做得非常幹淨。

來看一下架構圖。第一個數據層中有各種各樣的數據,比如有消費數據,有廣告數據,出行數據等等

image


這些數據層經過有效結合在一起之後,接下來得到這種特征層的提取。
在阿裏數據內部,大概有這樣幾個比較抽象的維度:像賬號設立的靜態特征,電商行為的特征,或者設備的特征等等。

在特征層之上,我們會有模型層,這裏麵有基於業務規則的模型,也有其他的例如異常檢測,有監督或者無監督的學習,然後特征的聯合校驗等模型。

因為我們的數據源非常多,因此我們也可以通過部分的數據源驗證另外一個數據源,看數據的增長或者留存是否處於一個正常範圍。

另外還有一些比較好的方法,比如基於Graph的一些算法,實時的反作弊算法等等。在算法層之上,就是評估層。在評估層內,我們可以判斷留下來的數據是否是真正有效的數據。

在上述這些數據層的上麵,會有一個應用層,也同時會抽象出一些產品來幫助內部員工或者外部商家進行使用。

所以,整個數據中台實際上是從底到上對數據進行清洗的一個架構。

當我們有了非常幹淨的數據之後,我們要做的就是把數據打通。我剛才說了,阿裏生態體係會呈現出幾百個不同的數據源,這些數據源本身的數據量非常大,收集模式也各不相同。

那麼我們是如何進行數據之間的融通的呢?





image
image

是我們關於怎麼把數據打通的一個技術架構。
大家可以看到,整個技術體係都是,先把數據接進來,再通過一些機器學習或者深度學習的辦法(像word2vec,node2vec,TFIDF,歸一化等)處理特征層,之後映射到一些比較抽象的高緯度Level(比方說像用戶的身份信息,網絡的環境相似度,文本的相似度,APP相似度等等)。

抽象完這些特征層之後,我們究竟怎樣去判斷。

這期間的方法大致可以分為四種有效的辦法:

第一、是深度學習的模型。

第二、非線性。

第三、線性。

第四、基於圖計算

此外,還有一些強召回,就是比如說用戶有相同的賬號登陸不同的地方。這些是所謂的強召回,它可以非常準確地被判斷出來。弱召回就是基於算法特征層的這些模型,有效地判斷出所有信息是否真正屬於同一個自然人。

原文鏈接

最後更新:2017-07-04 21:32:18

  上一篇:go  拒絕掛馬、灌水,從現在做起!(WAF篇)
  下一篇:go  【雲棲精選】當AI來敲門,一刊盡覽人工智能