589
gooseeker集搜客
探究大数据和互联网金融风控模型
这是一篇读书笔记,原文来自大数据文摘微信公众号文章
1. 大数据的词义
原文作者这样说:
大数据一词由维克托迈尔-舍恩伯格教授提出。有一种观点认为大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
然而,各界对于大数据定义存在较大差异,比较通用的观点是用4V特点来描述:
- Volume(大量)
- Velocity(高速)
- Variety(多样)
- Value(价值)
然后对互联网数据源分别作了如下评论。
2. 社交网数据对互联网金融风控模型的贡献
社交数据的特点:
- 非结构化
- 多维度
原文作者认为:
在互联网金融领域现阶段,分析这些数据产生个人信用的评分,和P2P公司实际业务所需要的评分模型,还有一定差距。
原文较大篇幅想说明网络大数据的效用有限,其实就是一个费效比的问题,也就是投入产出比。那么归根到底还是没有完全掌控挖掘网络数据价值的方法,而其中焦点问题是数据拼接:就是自己业务系统中的传统数据与网上的行为数据进行拼接。拼接难度一方面在于处理技术难度;另一方面是脱敏(不包含姓名等个人隐私信息)等管控造成的。
3. 传统数据与大数据拼接的实操
原文作者认为拼接就是:
目标变量 = 基础变量 + 大数据变量
其实原文并没有详细说明怎样做拼接,但是却引入一个大家都必须注意的问题:变量增加了,需要的样本条数会急剧增加。而且样本的选择又必须满足很多原则,所以对数据量的要求进一步增加。例如,样本应该:
- 对于总体有代表性(representative)。
- 总体数据做隐含的规律是稳定的(stationary/stability)。
- 做模型的数据表现和要用到模型的个体数据的统计性状是相同的。
原文最后提到数据缺失值问题,我认为这是必须要认真对待的问题,不妨google一下“缺失值填补”。
4. 扩展阅读
- 一文看懂信用风险量化模型的搭建方法,作者:俞勇,恒丰银行首席风险官
- 看!数据分析领域中最为人称道的七种降维方法,英文原文7 Machine Learning techniques for Dimensionality Reduction
最后更新:2017-01-09 14:08:06