閱讀981 返回首頁    go 阿裏雲 go 技術社區[雲棲]


【玩轉數據係列十三】機器學習算法基於信用卡消費記錄做信用評分

機器學習算法基於信用卡消費記錄做信用評分

背景

如果你是做互聯網金融的,那麼一定聽說過評分卡。評分卡是信用風險評估領域常用的建模方法,評分卡並不簡單對應於某一種機器學習算法,而是一種通用的建模框架,將原始數據通過分箱後進行特征工程變換,繼而應用於線性模型進行建模的一種方法。

評分卡建模理論常被用於各種信用評估領域,比如信用卡風險評估、貸款發放等業務。另外,在其它領域評分卡常被用來作為分數評估,比如常見的客服質量打分、芝麻信用分打分等等。在本文中,我們將通過一個案例為大家講解如何通過PAI平台的金融板塊組件,搭建出一套評分卡建模方案。

本實驗案例可在機器學習PAI平台使用,包含整個實驗流程和數據:

數據集介紹


這是一份國外某機構開源的數據集,數據的內容包括每個用戶的一些性別、教育、婚姻、年齡等屬性,同時也包含用戶過去一段時間的信用卡消費情況和賬單情況。payment_next_month是目標隊列,表示用戶是否償還信用卡賬單,1表示償還,0表示沒有償還。

數據供30000條。
數據集下載地址:https://www.kaggle.com/uciml/default-of-credit-card-clients-dataset

實驗流程

先來看下實驗圖:

現在對一些關鍵節點進行介紹:

(1)拆分

將輸入數據集分為兩部分,一部分用來訓練模型,另一部分用來預測評估。

(2)分箱

分箱組件類似於onehot編碼,可以將數據按照分布映射成更高維度的特征。我們以age這個字段為例,分箱組件可以按照數據在不同區間的分布進行分享操作,分箱結果如圖:


最終分箱組件的輸出如圖,每個字段都被分箱到多個區間上:

(3)樣本穩定指數PSI

樣本穩定指數是衡量樣本變化所產生的偏移量的一種重要指標,通常用來衡量樣本的穩定程度,比如樣本在兩個月份之間的變化是否穩定。通常變量的PSI值在0.1以下表示變化不太顯著,在0.1到0.25之間表示有比較顯著的變化,大於0.25表示變量變化比較劇烈,需要特殊關注。

本案例中,可以綜合比較拆分前後以及分箱結果的樣本穩定程度,返回每個特征的PSI數值:

(4)評分卡訓練

評分卡訓練的結果圖如下:

評分卡的精髓是將複雜的比較難理解的一些模型權重用符合業務標準的分數表示。

  • intercepy表示的是截距
  • Unscaled是原始的權重值
  • Scaled是分數更改指標,比如對於pay_0這個特征,如果特征落在(-1,0]之間分數就減29,如果特征落在(0,1]之間分數就加上27.
  • importance表示每個特征對於結果的影響大小,數值越大表示影響越大

(5)評分卡預測

展示每個預測結果的最終評分,在本案例中表示的是每個用戶的信用評分。

結論

基於用戶的信用卡消費記錄,最終通過評分卡模型的訓練,我們在評分卡預測中可以拿到每個用戶的最終信用評分,這個評分可以應用到其它的各種貸款或者金融相關的征信領域中去。

往期文章

【玩轉數據係列十二】PAI平台深度學習Caffe框架實現圖像分類的模型訓練

【玩轉數據係列十一】機器學習PAI眼中的《人民的名義》

【玩轉數據係列十】利用阿裏雲機器學習在深度學習框架下實現智能圖片分類

【玩轉數據係列九】機器學習為您解密霧霾形成原因

【玩轉數據係列八】機器學習算法的離線調度實現-廣告CTR預測

【玩轉數據係列七】有娃的注意了,機器學習教您如何提高孩子學習成績

【玩轉數據係列六】文本分析算法實現新聞自動分類

【玩轉數據係列五】農業貸款發放預測

【玩轉數據係列四】聽說啤酒和尿布很配?本期教你用協同過濾做推薦

【玩轉數據係列三】利用圖算法實現金融行業風控

【玩轉數據係列二】機器學習應用沒那麼難,這次教你玩心髒病預測

【玩轉數據係列一】人口普查統計案例

體驗產品:阿裏雲數加機器學習平台

作者微信公眾號(與作者討論):

最後更新:2017-06-13 14:31:54

  上一篇:go  MySQL 備份和恢複
  下一篇:go  與54位全球領導品牌CEO天貓閉門會,阿裏ceo張勇“五個支柱”透露新零售路徑