閱讀185 返回首頁    go 阿裏雲 go 技術社區[雲棲]


金融風控領域的工業級大數據應用: 如何跨越AI與業務經驗結合前的鴻溝?


0?wx_fmt=jpeg


機器學習、深度學習等對金融業務有何幫助?背後究竟又是怎樣去變革提升當下金融體係的?在本月舉辦的複旦科技創新論壇上,CreditX氪信創始人兼CEO朱明傑就金融風控領域的工業級大數據應用進行了闡述。

 

朱明傑表示,當下人工智能和金融的話題有些過熱,我們應該冷靜地看到,將AI技術移植到金融風控場景的道路其實麵臨著諸多磨合的困難,新業務的冷啟動、大量非結構化數據加工以及前所未有的上千維度特征融合處理,包括線上的反欺詐識別,這都是橫在AI與業務經驗逐步結合前的鴻溝。


以下為CreditX氪信創始人朱明傑博士的演講速記,在不影響原意的情況下,部分有刪節: 


新金融業務的冷啟動是什麼?


冷啟動的問題其實主要是指新金融領域缺少樣本,我們知道金融機構積累壞賬樣本的周期是比較長的,另一方麵每一個壞賬也都是血淋淋的教訓,壞樣本積累非常珍貴。


0?wx_fmt=png 

AI在這方麵的一個解決嚐試是采用互聯網搜索領域常用的半監督學習方法,通過少量專家人工標記構建訓練數據集,快速構建初始機器學習模型來對信貸主體進行風險和信用評估,後期通過不斷迭代優化模型以達到最優的效果。此外,在大型金融場景中也可以通過Domain Adaptation的技術,比如我們積累了在不同金融業務領域的經過大數據集訓練好的深度學習網絡,就可以作為相似領域相同問題但隻有小量標記樣本用於建模時的特征生成器。

 

0?wx_fmt=png
 

新金融業務麵臨的海量數據有哪些?


在這一點上,由於新金融業務客群進一步下沉,傳統征信數據缺失非常嚴重,因此為了做到更全麵可靠的金融風控,機構往往需要在申請信息之上補充大量諸如消費、運營商、社交、互聯網行為甚至影像等等,然而這些海量超高維,稀疏,低飽和,多重共線的數據,傳統的風控特征工程往往束手無策。

 

如果金融機構有大量無標簽的數據和少量有標簽的數據,其實我們已經可以通過深度學習的非監督或有監督算法,學習穩健,泛化能力好且飽含信息的特征用於分類任務。這裏重點談一下非監督的算法,包括受限玻爾茲曼機,深度置信網絡等,包括目前嚐試的是最先進的一些生成式算法譬如生成式博弈網絡,算法啟發於博弈論,由生成網絡和判別網絡兩個網絡組成,生成網絡生成數據目的是欺騙判別網絡,判別網絡為判別數據的真假而得到獎賞或者懲罰。隨著兩個網絡的不斷博弈,生成網絡可以學到很好的特征從而生成足以以假亂真的數據。

 

0?wx_fmt=png

新金融風控正麵臨維度災難


我們知道國內外目前成熟的風控係統很多都是評分卡體係,但基於之前的海量外部數據,其衍生的特征量很多時候都是上千上萬維度的,遠遠超出了評分卡體係所能處理的能力範圍,也就形成了維度災難。那麼對這些千維萬維的特征該怎麼很好地應用到新金融風控呢?

 

事實上,不同的數據類型,它的最優模型選擇也是不同的,基於這種思想,我們去針對機器學習特征和專家人工特征構建最優的規則模型、機器學習模型、深度學習模型來吸收這些全量特征,就可以很好地化解這一問題。此外,在此之上我們進一步通過模型集成技術進行風險評分的輸出,目前已經在與領先機構的風控場景中取得出人意料的效果提升。辟如在實際大型的消費金融場景中,這種集成模型無論在在穩定性或泛化能力上的表現都優於其他已知方法,最大ks值上也比傳統邏輯回歸提升近70%,從0.19能夠達到0.32甚至更高。

 

0?wx_fmt=png
 

新金融業務頻頻被瞬息萬變的互聯網群體欺詐攻擊


最後,談一下金融反欺詐。之前關心互聯網金融的朋友應該都知道,現在網上薅羊毛的現象很嚴重,尤其是新上線的互聯網金融業務,常常是第一個月就被網上羊毛黨群體輪番攻擊,這其實也就是線上反欺詐的問題,由於這些羊毛黨都有專業的申請信息填寫、個人數據偽造的經驗,傳統基於規則的風控很多時候根本無法識別。

 

基於大規模圖學習的反欺詐網絡很好地解決了這一問題,一方麵我們能通過複雜網絡來識別群體欺詐風險,另一方麵我們也可以把基於圖的半監督算法應用於預測“好”/ “壞”人的分類模型,即在有少量標簽節點的圖結構中,根據傳播算法,預測無標記節點的標簽類別。

 

0?wx_fmt=png
 

舉個簡單例子,在申請網絡中其實每一個申請人、手機號、設備、IP地址都可以是一張圖中的結點,而諸如申請人擁有設備、手機號唿叫手機號等有向聯係都可以是圖中的邊,邊的權重為關聯的緊密程度。在我們構建的圖中,那些有違約與否標記的申請人是原始種子結點,通過使用基於圖的半監督算法,把是否違約的標記傳播給無標簽的申請人,這樣我們就可以在少量有標簽的樣本上構建出極為龐大的風險網絡,並打造形成我們的違約預測模型。以下是在實際場景更為複雜的網絡中,基於圖結構的局部風險特征、欺詐Pattern的展示,尤其是基於圖挖掘算法提取的全局風險特征,目前通過FraudPageRank、community detection、SocialAffinity等風險指標已經可以實現網絡全局風險的實時識別。

 

0?wx_fmt=png
 

時下,新金融正來到轉型升級的十字路口,一方麵AI被寄予極大厚望,另一方麵將互聯網級別的AI應用於金融領域也存在很多急需突破的挑戰。相信隨著需求驅動技術的快速發展,機器學習將在金融風控的工業級應用中發揮越來越大的價值,但如何真正釋放數據的價值,我想我們的征途才剛剛開始。


CreditX氪信是一家機器學習風控解決方案服務商,CEO朱明傑為微軟亞洲研究院博士、德國馬克思普朗克研究所博士後,攜程大數據部門負責人。曾在MSRA、Yahoo Labs及eBaySearch Science擔任重要職位,擁有豐富的數據挖掘、互聯網搜索和機器學習的研究開發和產品工作經驗。 

原文發布時間為:2016-12-28


本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號

最後更新:2017-05-26 10:02:00

  上一篇:go  PLM調研第三天
  下一篇:go  2016金融科創公司哪家強?福布斯公布Fintech50強榜單