陳磊-大數據風控:拍拍信的AI視角
當前消費金融規模持續增長,風險控製的挑戰也與日俱增。
陳磊老師現場分享
請參見一個風控係統的雛形框架,涵蓋了用戶貸前和貸後的流程。
信息是為決策提供主要支撐。在信貸業務中,信息四要素是姓名、身份證、手機號、銀行卡號。
比如在信息采集上,我們會用AI的技術來提取相關信息,比如OCR,用拍照的方式來提供身份證、銀行卡號的信息。這樣做的優點顯而易見——提高用戶體驗,效率快,避免偽造的情況。
整個閉環模式中,我們會根據不同的客戶發起不同的策略,對於優質客戶會提高額度,同時我們也會避免不良資產導致壞賬而采取措施。
風險流程就是一個數據的流程,包含數據的采集,消化、回收、落地。
離開數據,風控就是無水之源。
傳統的風控數據就是征信類的數據,很顯然,這是遠遠不夠的。那麼新型時代的發展也讓我們有新的思考,有哪些數據可以為我們的風控作補充。
理想化的數據就是覆蓋率高,又和風險高度相關的。
這裏我們借用金字塔模式來介紹的可用數據:
我們在數據大爆炸的年代,什麼樣的數據都可以使用。
但是怎麼使用,確實一個挑戰。
這些挑戰來源於以下幾個維度:
在傳統銀行的風控體係中,無論是采用機器學習,還是人工標記,都需要專家來看怎麼去做,如何做才能發揮作用。
鑒於特征提取都是以人為主,這就難免會有局限性,很多高維度、寬廣度的數據衍生出來新的特征就很難用經驗進行捕捉。
下圖是google在使用的一個專家+機器的特征工程模型框架:
-
左邊是比較明顯的廣度特征,專家可以憑經驗直接提取
-
中間廣度加深度模型,一些不易解讀的數據需要加工重構才能得以解讀
-
右麵是需要深層挖掘、層層解析後才會出來的特征
下麵是一份團案信息圖譜的案例:
信息圖譜在業務上的所反映的問題,在於最原始的出發點是什麼, 什麼形式關聯,在關聯上有什麼途徑。一層關聯比較簡單,怎樣能夠發現多層關聯才更為關鍵。
從聚合數據的輸出與查詢,可以看出一步關聯與二次關聯的數據聯係。
而更深層次的特征查詢,能對關係網絡形態位置,把非結構化的關係網絡轉化為一般模型可以能吸收並消化的特征向量,從而檢測到異常客戶。
以上講了很多特征提取。下麵是闡述如何落地,從圖中模型可以看出,主要流程是對不同的數據源做不同的數據提取,抽象到幾個風險因子,進而提煉出綜合風險指數,化繁為簡。
在風控體係中,我們追求準確性,同時也強調健壯性。
準確性是指特征的抽象與提取,那麼健壯性就是指時間維度上的有效性、場景遷移的可擴展性。
最後更新:2017-10-25 12:03:57