突破流計算極限挑戰後,阿裏將發力圖計算及大規模機器學習
近日,體係結構頂級會議ASPLOS首次在中國舉辦,阿裏巴巴副總裁、阿裏雲首席科學家周靖人發表主旨演講,介紹了阿裏巴巴雲的大數據和AI計算平台,以及其中廣泛的產品和服務。同時透露阿裏接下來將在圖計算和大規模機器學習領域進一步發力。
隨著物聯網傳感器、移動應用和在線服務的普及和廣泛應用,越來越多的數據以流的形式源源不斷的產生。基於數據流的實時分析變得越來越重要,例如實時化的商業決策依賴高時效性的報表,在線服務優化需要動態捕捉用戶行為等。
這一係列應用的背後離不開大規模流計算平台的支撐。從係統架構角度,海量數據流輸入需要大規模集群,7x24不間斷地連續計算,同時滿足高吞吐和低延時。大規模集群中各種軟、硬件故障和網絡異常,以及輸入流量和數據的動態變化等,都會給流計算帶來極大的挑戰。
阿裏大數據平台在2016年雙十一支撐了每秒近1億日誌事件的計算峰值,在6小時內成功處理了100PB的數據,在這一方麵經驗頗豐。
演講中,周靖人以容錯為例介紹了阿裏係統設計中的一些關鍵技術。所謂容錯,就是當計算結點發生故障時,由於數據流的連續性,對上下遊都會產生影響,同時計算狀態也會丟失。相比離線計算,複雜的係統依賴使得如何自動恢複流計算過程中的錯誤,成為關鍵挑戰。
周靖人介紹說,業界和開源的流計算係統,往往以單一容錯策略為基礎來設計係統,如輸入重算、全局快照和mini-batch。而真實場景中的大規模流計算應用,往往由多個相互關聯但對計算吞吐和延時要求不盡相同的部分組合而成。
例如某個高吞吐的輸入流和按小時更新的數據集合之間的關聯計算。由此對不同部分的容錯需求就需要相應采用不同的策略,而如何在同一係統設計中允許組合不同的策略,是問題的關鍵。阿裏在這方麵做了很多創新的工作,例如在上下遊之間建立虛擬管道抽象,將容錯設計和正確性分析與係統實現、優化機製解耦。不但降低了係統的複雜性,還允許係統根據場景,靈活實現和組合多種策略,應對大規模集群中各種複雜情況。
據周靖人介紹,圖計算是阿裏關注的重要技術之一,可以將電商平台、用戶產品、支付寶賬戶等大量信息作為節點來建模處理,基於此可以產生很豐富的分析場景,當前圖計算已經在阿裏搜索推薦、反作弊、知識圖譜等領域大規模應用。
靖人指出,由於實體模型中,存在許多關係以及數十億的結點和邊,並且以很快的速度動態更新,實時並發更新圖數據的同時進行複雜的圖分析是留給工業界和學術界的課題。具體來說存在3個方向的挑戰。
- 挑戰1:圖可視化,即如何有效地將圖背後的特征和信息展現出來,更好地與人交互,輔助推理、分析和決策。
- 挑戰2:模式匹配,根據業務的特征,在複雜關係網絡中定義並識別核心模式,並在大規模圖中實現快速匹配。常用的場景有反欺詐、風險控製和ID映射等等。
- 挑戰3:處理快速變化的圖,也就是當圖節點和邊動態更新下的圖計算問題。
此外,如何將圖計算和機器學習結合,利用人的在線行為模式來進一步提高推薦、搜索等效果,也是阿裏技術人員正在解決的難題。
周靖人認為,阿裏機器學習的優勢來源於對億萬數據樣本和特征的高效利用,阿裏的服務器架構就是為了處理如此龐大的模型和數以億計的參數而開發的。“目前阿裏大規模機器學習平台,可以統一支持深度學習模型訓練以及模型更新,此外我們也建設了CPU、GPU、FPGA異構計算平台,可以針對不同業務特點做機器學習的計算優化”。
目前,阿裏正在和知名高校在圖計算和大規模機器學習領域搭建合作平台,希望和學界一起推動這些領域研究的快速發展。這也是阿裏此前公布的“NASA”計劃中的重要技術布局之一。
最後更新:2017-06-19 15:01:44