589
gooseeker集搜客
探究大數據和互聯網金融風控模型
這是一篇讀書筆記,原文來自大數據文摘微信公眾號文章
1. 大數據的詞義
原文作者這樣說:
大數據一詞由維克托邁爾-舍恩伯格教授提出。有一種觀點認為大數據是指無法在可承受的時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合。
然而,各界對於大數據定義存在較大差異,比較通用的觀點是用4V特點來描述:
- Volume(大量)
- Velocity(高速)
- Variety(多樣)
- Value(價值)
然後對互聯網數據源分別作了如下評論。
2. 社交網數據對互聯網金融風控模型的貢獻
社交數據的特點:
- 非結構化
- 多維度
原文作者認為:
在互聯網金融領域現階段,分析這些數據產生個人信用的評分,和P2P公司實際業務所需要的評分模型,還有一定差距。
原文較大篇幅想說明網絡大數據的效用有限,其實就是一個費效比的問題,也就是投入產出比。那麼歸根到底還是沒有完全掌控挖掘網絡數據價值的方法,而其中焦點問題是數據拚接:就是自己業務係統中的傳統數據與網上的行為數據進行拚接。拚接難度一方麵在於處理技術難度;另一方麵是脫敏(不包含姓名等個人隱私信息)等管控造成的。
3. 傳統數據與大數據拚接的實操
原文作者認為拚接就是:
目標變量 = 基礎變量 + 大數據變量
其實原文並沒有詳細說明怎樣做拚接,但是卻引入一個大家都必須注意的問題:變量增加了,需要的樣本條數會急劇增加。而且樣本的選擇又必須滿足很多原則,所以對數據量的要求進一步增加。例如,樣本應該:
- 對於總體有代表性(representative)。
- 總體數據做隱含的規律是穩定的(stationary/stability)。
- 做模型的數據表現和要用到模型的個體數據的統計性狀是相同的。
原文最後提到數據缺失值問題,我認為這是必須要認真對待的問題,不妨google一下“缺失值填補”。
4. 擴展閱讀
- 一文看懂信用風險量化模型的搭建方法,作者:俞勇,恒豐銀行首席風險官
- 看!數據分析領域中最為人稱道的七種降維方法,英文原文7 Machine Learning techniques for Dimensionality Reduction
最後更新:2017-01-09 14:08:06