閱讀776 返回首頁    go 阿裏雲 go 技術社區[雲棲]


使用MaxCompute進行網貸業務風控預測分析

摘要:網絡借貸指在網上實現借貸,借入者和借出者均可利用這個網絡平台,實現借貸的“在線交易”。網絡借貸分為b2c和c2c模式。一切認證、記賬、清算和交割等流程均通過網絡完成,借貸雙方足不出戶即可實現借貸目的,而且一般額度都不高,無抵押,純屬信用借貸。網絡借貸的風險不言而喻,構建一個準確率高的風控係統顯得格外重要,現在我們利用某網絡貸款網站提供的幾年來貸款風險數據(經過脫敏處理),使用機器學習的方法構造一個能準確從借款人的資料中判斷其違約的可能性(借錢不還)。

數據信息:
包括信用違約標簽(因變量,違約或者不違約)
建模所需的基礎與加工字段(自變量)
相關用戶的網絡行為原始數據
本著保護借款人隱私的目的,數據字段已經經過脫敏處理。
screenshot
Master表(每一行代表一個成功成交借款樣本,每一個樣本包含200多個各類字段)
screenshot
Log_Info(借款人的登錄信息)
screenshot
Userupdate_Info(借款⼈修改信息)

一、違約評估架構
1.​數據源:數據包括某借貸網站提供的借款人資料以及是否按時還款等情況構成的記錄,一共3萬條記錄;
2.數據同步至阿裏雲:使用DataX工具將數據導入到在ODPS建立的表中;
3.流程計算:阿裏雲構建算法分析流程
4.分析結果:對計算出的違約風險儲存於表中;
5.數據可視化展示:從數據庫中讀取數據進行可視化展示。

二、分析方法
screenshot
1.本文中的3萬記錄來之於國內某網絡借貸平台的經過脫敏處理的真實借貸風險數據。
2.獲得的數據導入阿裏雲數加平台,數據表包含有每一筆借款的借款時間、借款人籍貫、借款人學曆、借款人社交信息、借款人是否按期還款等等一些字段。
3.在數加的算法平台上建立回歸預測的算法流程如上圖。
4.采用數加組件的缺失值統計,對每一借款人資料的缺失比例進行統計,對比其在訓練集和測試集上缺失比例的分布情況,剔除那些資料缺失異常的記錄;統計每個數值型字段的標準差,剔除掉標準差幾乎為零的字段,這些字段對結果的區分度幾乎為零;
1)剔除異常值(橫坐標為每一個貸款人,縱坐標為每一個貸款人信息的缺失字段的個數;左邊為訓練集中,右邊為測試集中)
screenshot
2)剔除標準差為幾乎零的特征(以小於0.1作為剔除的閾值)
screenshot
5.從信息中構造特征
1)分開統計出貸款違約的借款人和正常還款的借款人在每天的成交數量,從中可以看出兩者的分布不一樣,故看出時間對借款人是否正常還款存在區別性,所以從成交時間中提取出月份日期信息;
2)每天的成交數量與是否履約的分布情況(count_1:貸款違約,count_0正常還款)
screenshot
3)將借款人的籍貫信息利用城市等級進行分類合並;或者將借款人所在城市信息作為每一個人借款人的特征放入xgboost中進行訓練學習,得到每一個城市的重要度排名,提取出重要度最高的前40個單獨作為一類城市,其他的城市進行合並為同一類;
4)從提供的登錄信息中提取每個借款人的登錄信息計算出其平均登錄間隔,借款後多少天才會登錄等等一些組合特征;
5)將類別型特征使用獨熱向量編碼;
6)最後將數值型的字段進行標準化,既能加快模型的訓練速度,也能將數據放入一個標準分布內,使每個特征之間的數值大小差距盡可能小。
6.將處理完畢的數據分別放入logistics regression、隨機森林,xgboost中進行分類學習,並用網格搜索各分類器達到最佳狀態。
7.可視化展示,將流程計算的結果,進行可視化展示。

三、違約評估預測結果展示
我們分別在嚐試在logistics regression、隨機森林、xgboost上進行模型訓練並進行預測
1.在logistics regression上,利用5折交叉驗證,將參數正則化懲罰項‘C’設置為0.4,正則化選擇L1正則,在驗證集上9000個樣本上進行預測,AUC的值達到了0.72993。
screenshot
2.在隨機森林上,利用5折交叉驗證,將決策樹的個數設置為100,決策樹最大深度設置為13,決策樹一個節點所需要用來分裂的最小樣本數設置為160,在驗證集上9000個樣本上進行預測,AUC的值達到了0.720267。
screenshot
3.在xgboost上,利用5折交叉驗證,將增強樹的數量設置為113顆,決策樹最大樹深設置為3,最小業主節點樣本權重和設置為5,在驗證集上9000個樣本上進行預測,AUC的值達到了0.751830。
screenshot

                                             MaxCompute最佳實踐

最後更新:2017-07-27 18:03:02

  上一篇:go  某團外賣的啟示,企業如何避免輿情損失?
  下一篇:go  網站SEO優化需要分析的數據