閱讀461 返回首頁    go 技術社區[雲棲]


漆遠:螞蟻金服 AI 技術大揭秘, 開放“模型服務平台”

7 月 22 - 23 日,在中國科學技術協會、中國科學院的指導下,由中國人工智能學會、阿裏巴巴集團 & 螞蟻金服主辦,CSDN、中國科學院自動化研究所承辦,雲棲社區作為獨家直播合作夥伴的 2017 中國人工智能大會(CCAI 2017)在杭州國際會議中心盛大召開。

image

在本次大會上,螞蟻金服副總裁兼首席數據科學家漆遠博士發表了主題為《金融智能的發展與應用》的演講。漆遠表示,螞蟻金服今年的兩個關鍵詞,一個是“開放”,一個是“AI”。

在此次演講中,漆遠從風控係統、智能助理、定損寶等產品案例出發,全麵介紹了螞蟻金服產品背後的 AI 技術。

現場,螞蟻金服的“模型服務平台”首次公開亮相,主打“模型所見即所得”。漆遠表示,數據是資產,模型本身也是資產。未來,螞蟻金服也會將這個平台作為其中一個AI能力向合作夥伴和客戶開放。

以下為漆遠博士演講實錄:

今天很高興給大家作一個分享,介紹一下AI在螞蟻金服的發展和應用。

首先我會講一講為什麼我們要做AI,為什麼呢?因為AI離不開場景和數據,為什麼要場景,因為我們要解決真正的問題,產生真正有意義的服務。在金融裏麵我們有大量的服務,從支付、保險、財富、到風控、微貸等各個領域,其中典型的場景就例如要判斷某個小企業是否具備相應的信用能夠承受貸款的風險。在所有的場景裏麵產生了海量的數據,而這些數據成為了人工智能的燃料,使得我們可以發展和應用一係列的人工智能技術。而這些場景、問題本身又為人工智能帶來了挑戰,比如說時間敏感要求一筆交易需要毫秒級完成判斷。再如海量數據,一天幾億筆的數據,這就需要非常大規模的穩定的風控的係統。還有業務多樣性,比如說怎麼用遷移學習來發現不同任務之間的共性。再比如說係統性風險, 係統可以用一個網絡來表達,那你怎樣從網絡的角度分析問題。還有強數據安全和用戶隱私保護也是金融業務本身的屬性。

麵對這些挑戰我們構建了一個金融智能的平台,從底層的圖像理解,以及使用阿裏巴巴集團的語音識別能力,在此之上發展了NLP的能力,然後這上麵進行機器學習、深度學習,分析時間序列,比如說預測餘額寶的利率變化;在最頂層,我們發展推理和決策的能力,使我們能夠幫助我們的用戶和金融合作夥伴做出明智的決策。

在這個金融智能平台中包括了一係列的人工智能技術,比如說強化學習、無監督學習、圖推理、共享學習。這些技術具備金融領域的實時對抗性、大規模以及安全加密性。

今天講幾個例子,從例子出發講講背後的技術。在這之前,我先講講螞蟻金服現在的兩個關鍵詞。螞蟻金服我們定位為Techfin,而科技公司的一個核心的是什麼?是AI。所以今年螞蟻金服兩個關鍵詞,一個是“開放”,一個是“AI”,我們希望通過AI驅動所有的業務,同時作為科技公司,我們技術成熟一個開放一個,所以下麵探討的技術也是探討如何開放給夥伴。

首先是在安全風控中,裏麵有用戶、設備、商家,他們之間通過資金流動形成互聯。傳統的風控技術中我們建立了很多的規則和模型。螞蟻金服過去十年通過使用大量的機器學習建立強大的風控係統。但是今天我們希望進一步地升級風控係統。比如說可信模型,我們想判斷有一筆交易是否存在賬號被盜。而這裏麵我們使用了一個跨界的技術,其實就廣告CTR預估的技術。 在2014年Facebook廣告算法的文章中, 講的是GBDT+邏輯回歸。使用我們開發的參數服務器技術,我們把邏輯回歸換成了大規模深度學習,使用到風控裏麵: 通過GBDT產生特征,然後DNN繼續學習。 因為在風控裏麵很多特征我們無法判斷哪些有用哪些沒有用,我們用GBDT產生海量特征然後把這些特征feed給深度學習模型。

前麵是說我們把GBDT和DNN結合起來考慮風控。深度學習往下走,我們也考慮關係,用戶、商家、賣家等的關係,下麵我舉一個例子,我們通過embedding技術,把整個關係結合起來,形成圖形網絡,然後進行監督學習、加強學習。給大家看看例子,比如說支付寶賬號的賬戶(行為),我們一個網絡有好人、壞人,有設備比如說手機、計算機,iPad等,我判斷今天這個人是否注冊一個垃圾賬號特別簡單。我們可以把整個的圖關係通過一個embedding的技術產生一個深度學習的網絡,通過機器學習產生一個隱層表達,這個表達不光涵蓋了每個節點自身複雜的特征,同時還對網絡結構做了一個encoding。在垃圾賬號的識別上,在經典的Recall-Precision曲線中,Precision越高越好,接近1就是完美。原來的規則是不具可采信的,現在我們對圖使用embedding技術後有一個質的飛躍,Recall在70%、80%的時候,Precision達到90%,而原來的算法Precision在40%幾,這基本相當於瞎猜。這個和以前的係統相比,Node2Vec也是非常先進了,我們在此基礎上又做出了明顯的提升。

將圖的關係和Feature結合起來,可以產生非常Power的模型,用在我們的模型裏麵。通過廣告的算法提升了係統,我們進一步學習,將深度學習和圖模型結合起來,可以融合網絡關係與複雜特征。

下麵講講另外一個方向,在過去的很多年,不管是中國還是美國,講起智能助理和機器人都是非常熱的話題。這裏對話很關鍵,在螞蟻金服初始的對話從客服機器人開始,如果你使用支付寶,打開客服小螞答可以問各種各樣的問題,例如你問餘額寶收益怎麼算,他就給你一個這樣一個答複,提供工具輸入金額並計算。然後還有財富的理財渠道,你問某個企業業績怎樣就會開始進行輿情分析,輿情分析在金融裏麵非常多的應用,我們可以自動分析,海量的輿情在中國國內,為月新聞、周新聞相應地打出輿情分。

下麵講兩個技術,在對話機器人裏麵,在客服裏麵,假如問了這句話我怎樣申請退錢回來,它是沒有場景的。在問答係統中要理解它,就要真正知道在問什麼,我們可以根據用戶的近期操作,這些操作本身就提供了一個背景和場景。我們通過LSTM對用戶行為軌跡做一個編碼,然後整個模型是一個深度排序模型,比較哪個更相似,通過LSTM建立模型,把怎樣申請退錢回來的用戶問題,和轉賬轉錯怎麼辦和為什麼銀行卡轉賬被退回來,這兩個進行答案匹配。我們給出正確的選擇轉賬到賬戶錯了怎麼辦。這裏有一係列的創新。這些創新今天不一一講。最後的結果,去年雙十一智能客服自助率做到97%。同時今年我們問題解決率超過了人工客服,機器人回答問題比人回答更為滿意。

這裏對輿情分析背後技術簡單介紹,首先一個特別簡單的模型,就是統計這些感情單元,同時又和深度學習的方法結合,最後產生整體的判斷,這裏麵的話使用CNN,k-max pooling可以結合起來,還有TNN,將所有的信息結合起來進行一個綜合的評價。

剛才兩個例子講到對話機器人,第一個是客服,第二個是財富號的輿情分析。再就是保險,同時支付寶本身也在進行升級,您對支付寶可以說話,比如說我要給我的同事通過語音進行轉賬,自動完成轉賬並記錄到賬單裏麵。

下麵第三個講機器學習平台,這是我們團隊在阿裏第一年開始做的工作,後來在螞蟻繼續和阿裏集團合作開發。現在它是阿裏和螞蟻金服使用最廣泛的大規模機器學習平台。2015年我們用於廣告取得非常好的效果,後來用於淘寶推薦,前年用到雙11推薦,今年又用到了螞蟻的風控裏麵,其實它的核心技術就是我們能夠通過係統和算法的結合,處理海量數據。所以在風控係統裏麵,我們可以在同樣安全覆蓋的情況下,提升召回率,每天一千多萬筆可以準確輕鬆地通過審查。這個平台前年做到了,但是今年才寫文章出來。它能支持100億特征、千億樣本、萬億參數。這是說它可以支持非常多的數據和特征,我們能從數據中提取價值做出預測。

假設非常多的數據,萬億參數非常耗能耗的,同時需要很多的機器。很多時間的applications,我們希望速度比較快比較省能源。在非常非常經典的矩陣分解中,相信很多做相關研究和做開發的同學都非常了解,如果我們把矩陣分解和哈希算法做結合,我們可以處理非常大的矩陣,比如說1億×1千萬的矩陣分解,我們2小時收斂,從工業界的角度具有非常大的價值。我們用到了口碑的場景中,點擊率的升幅超過120%。

剛才介紹的是機器學習,就是參數服務器,支持深度學習。下麵再講一個技術,我們的場景是營銷,比如說各種各樣的商家營銷,怎樣發,發給誰,這是非常有價值的商業問題。這裏麵我們開發了加強學習技術。在這個算法中,我們有State、Action和Reward的狀態,我們定義了一個空間,State是從多個業務抽取特征,刻畫用戶狀態,Action是對哪些卡片和渠道做了相關決策組合,Reward就是用戶的點擊和簽約行為。整個框架是流式強化學習框架,所以能夠實時實現Update。這上麵講了一個流程,比如說花唄準入,比如說它是否點入和簽約,整個算法可以在框架上迭代,效果就是在深度學習基礎上有更好的效果提升,比如推薦卡片點擊率171%的增長和最終簽約率149%的增長。

剛才講了加強學習,講了深度學習,下麵講另外一個例子。如果每個技術都作為一個好用的工具開放出來,您隻想用這個工具而不太深入技術本身怎麼辦?我們開發了一個模型服務平台,將整個模型訓練給您可視化,您通過簡單的點擊、拖拽數據就能產生所有的結果。比如說您是開發應用的,您可以把算法在裏麵應用以後進行一鍵部署。當然如果您是開發算法的也可以寫出新的算法,例如加強學習等,可以通過統一的平台進行服務。在螞蟻金服內部,從芝麻信用到網商銀行的借貸,到風控都正在全麵地使用我們的平台。

我們今天講到了開放與AI,這裏講到螞蟻金融雲和開放平台,希望我們的AI技術的能力開放服務於我們的客戶和合作夥伴。

這個模型服務平台簡單來說我們就是模型所見即所得,不光數據是資產,模型本身也是資產。做到可視化的,對於用戶來講,提供給開發人員非常方便的建模方式,非常容易使用,不需要知道某一行公式怎樣推導的,然後可以支持A/B測試,可以全流程地效果監控,同時跨團隊地合作,並且可以實現多人同時開發。

接下來簡單展示訓練模型時的一個視頻。這是顯示的分類結果,這是得出來的樹狀模型,然後可以進行效果評估,這裏可以比較兩個算法哪一個更好,拆分以後隨便選兩個算法自動評估,然後可以進行結果對比。我們以前在學校訓練完模型,然後手工測試幾個測試集就結束了,而在實際業界應用裏一直有新的數據跑,新的預測,必須簡潔好用。在我們說話的時候,這就產生了一個部署的API,大家如果有問題還可以看一個請求示例,示範如何使用這個API。部署完了以後我們要知道效果好不好,是不是一直穩定,比如我們要監控信用分,KS值,它是AUC的變種。我們可以看到它對每一天當時的效果實時進行監控。

剛才講了整體的從模型訓練到數據特征的產生,您可以從各種模塊,到訓練到部署產生API,到最後效果的監控,全流程地展示。

那下麵最後講一個例子,前幾周我們保險事業部和我們發布了一個產品叫“定損寶”,做什麼呢?出了一個小車禍,照張像,哪裏有問題,是撞了一個洞還是刮蹭進行判斷,這是非常複雜的事。我們不是做 OCR識別,也不是做數字識別,但是我們要做檢測,我們要檢測哪個部件比如說車門、車燈還是bumper,我們要理解這個場景,比如說有一個縫,本身計算機不知道是車上的縫還是牆上的縫,還必須知道這個問題多麼嚴重,最後是一個決策,將多個數據源結合起來,給用戶和定損員一個輔助判斷 。看這張圖像,您覺得車哪裏有問題,我當時看了很久也沒看出來,不知道大家怎樣? 這裏麵有什麼問題呢?如這裏所示,有個特別微小的變形。但是這裏我們要解決幾個問題,第一個是問題在哪裏,第二個你要把問題分幾層,到底有多嚴重的問題,比如說這是輕度變形。有的變形了你得把整個部件換掉,有的稍微一修就修好了,最後告訴您修多少錢,在您的App裏麵把北京你所在位置附近的維修店全部選出來告訴您成本,您做一個決策是否要修。 下麵舉幾個我們遇到的計算機視覺上的挑戰。比如部件識別,這裏麵有多少個部件呢?我不是很專業,不算汽車愛好者,但是可以看出來這裏有很多很多部件。所有的部件要找到,並且說有問題你都要看出來。再舉個例子,左邊一個強反光,強反光是不是有問題呢?我們要琢磨琢磨。還有,照相的時候人臉都對著框子裏照,拍車照片的角度變化大很多 。

這個項目的開始和拿到初步的結果是算法團隊和業務同學通力合作的結果。算法同學積極學習業務,從開始看不出來圖像裏車的問題,到現在都快成了專業的圖像定損員了。我們的技術有一係列的流程,從噪音去除到類別識別到目標檢測和程度判斷,到底多嚴重,是變形還是刮蹭。根據很多張圖片,最後我們要做預測結果的綜合,綜合以後我們做數據決策輔助,這要打通車的原件數據庫來分析,假如這個部件壞了多少錢。全國有4500萬案件/年, 60%的案件都是純外觀損傷的,它覆蓋了非常大的比例。每個成本平均150塊錢, 可以減少50%的作業量。

今天我介紹了一係列的技術,以前我當老師寫NSF proposals,都有兩個目標要寫,一個是intellectual merits 就是技術的原創性,另外一個是broad impact,就是對世界的影響。一般第一個目標我們都拚命寫,第二段都是那種來回貼的那種,為什麼?因為當時在學校的研究裏工業界有距離,缺乏直接的對世界產生影響的辦法。今天我覺得學校可以和工業界合作,工業界有更多的數據,更大的問題更難的挑戰,不僅應用技術還可以發展技術,今天介紹的隻是一部分的技術,我們還有沒有發布的技術。

總結一下,今天講了深度學習和圖的結合,它主要是係統性風險的監測與預測; 智能助理,我們達到了超越人滿意度的智能客服。今天智能助理完成任務基於一係列的場景,因為支付寶我們是一係列的金融生活服務平台,今天就加上智能的定語叫智能的一係列的金融生活服務平台; 今天也介紹了基於哈希的海量特征提取,完全是從工業的角度,希望算得快、便宜和省內存;另外是深度強化學習,在營銷與推薦應用。在營銷比較關鍵,如果隻是深度學習那麼總是給你想要的,但是加強學習您可以探索一個在exploitation 和exploration的平衡:給你以前推薦你看過的類似的,也可以給你沒有看到的。

下麵說些我們和其他公司可能都麵臨的挑戰,我們雖然有很多的數據,但是比起我們的業務問題複雜度還是不夠,小數據、弱標注的數據的學習就很重要。另外,比如說怎樣處理有噪音與不確定性的推理,專家係統是從邏輯推出來的,但是它不能handle真實世界裏的噪音和異常情況,今天講的Graph Emedding是一條路,但不是僅這一條還有其他的方向。 然後機器學習裏麵還有一個很重要的問題是模型的可解釋性,你要知道為什麼,那在金融場景有非常多的應用,為什麼信用分變低了你要給一個交代,就是解釋,今天的深度學習缺乏解釋性。還有如何從觀測的而不是隨機對比的數據中分析因果分析。還有長期目標與短期目標映射,怎樣把長期的目標和短期做的目標結合起來。最後,非線性動態網絡係統,網絡本身在改變 這裏和物理學一些概念很相關,同時和圖理論非常相關,這對風險、監控和交易都會很有用。

最後,再次說,螞蟻是一家做普惠金融的科技公司。我們主題的是開放與AI, 技術成熟一個開放一個。從客服到模型部署平台到其他的每一個案例,包括輿情平台,我們都非常願意賦能和服務客戶,和我們的合作夥伴、與我們的客戶共同探討和創造未來。
謝謝大家!

大會資料分享大會官網

最後更新:2017-07-24 17:32:37

  上一篇:go  ComputeColStats UDF中 近似算法的介紹
  下一篇:go  智能家居想擁有“眼耳鼻舌皮膚的五覺” 關鍵在於做好這個東西!