阅读600 返回首页    go 阿里云 go 技术社区[云栖]


数据科学家需要掌握的10项统计技术,快来测一测吧

https://yq.aliyun.com/cloud

f7f487a8bbc7c1fc9d5acd17b0adcdf13b42b5bb

虽然编程能力对于数据科学家而言非常重要,但是数据科学家不完全是软件工程师,应该是编程、统计和批判性思维三者的结合体。而许多软件工程师通过机器学习框架转型为数据科学家时,没有深刻地思考并理解这些框架背后的统计理论,所以统计学习理论成为了机器学习的理论框架。

为什么学习统计学习?理解不同技术背后的想法是非常重要的,只有真正理解了这些才能知道何时何地使用这些技术。首先必须理解简单的方法,以便掌握更复杂的方法。精确评估一个方法的性能,并且知道它工作情况的好坏显得非常重要。此外,这是一个令人兴奋的研究领域,在科学、工业和金融等方面具有重要的应用。最后,统计学习是培养现代数据科学家的一个基本素材。统计学习问题的例子包括以下几个部分:

  • 确定前列腺癌的风险因素;
  • 根据对数周期图分类记录的音素;
  • 根据人口统计学、饮食和临床测量预测其是否有心脏病;
  • 自定义垃圾电子邮件检测系统;
  • 识别手写邮政编码中的数字;
  • 将组织样本分类为对应的癌症;
  • 建立人口调查数据中的工资与人口变量的关系;

此外,作者对数据挖掘进行了一定的研究,推荐 Intro to Statistical Learning (Hastie, Tibshirani, Witten, James)、Doing Bayesian Data Analysis (Kruschke)和 Time Series Analysis and Applications (Shumway, Stoffer)三本书,这里面有许多有价值的内容。在进入正题之前,想区分一下机器学习和统计学习,主要有以下几点区别:

  • 机器学习是人工智能的一个分支;
  • 统计学习是统计领域的一个分支;
  • 机器学习更侧重于大规模应用和精度预测;
  • 统计学习强调模型及其解释性、精度和不确定性;
  • 但是这种区别变得越来越模糊,而且有大量相互交流;
  • 机器学习在市场营销中占优势;

下面分享10条统计技术,任何数据科学家都应该学习,使得能够更高效地处理大数据集。

1.线性回归

在统计学中,线性回归是一种通过拟合因变量和自变量之间的最佳线性关系来预测目标变量的方法。线性回归主要分为简单线性回归和多元线性回归。简单线性回归使用一个自变量,通过拟合一个最佳线性关系来预测因变量;而多元线性回归使用一个以上的自变量来预测因变量。

79f90ed071dcfad36ff29fa4ca9c93d9daa9f64a

2.分类

分类是一种数据挖掘技术,被用来将一个整体数据集分成几个类别,以为了更准确的预测和分析。分类技术中典型的代表是逻辑回归分析和判别分析。逻辑回归是一种预测分析,在用于描述数据时,解释一个二进制因变量与一个或多个序数、区间等变量之间的关系。逻辑回归可以检验的问题类型有:

  • 每增加一磅体重或一天抽一包香烟对肺癌的概率有变化吗?(是/不是)
  • 体重、卡路里与脂肪摄入量、参与者年龄对心脏病发作有影响?(是/不是)

fcc2d5869a07c1a6ee7e2321fabafd2c15caff3d

判别分析中,在每个响应类中分别对预测因子X的分布进行建模,然后利用贝叶斯定理将这些变量翻转到给定X值的响应类别的概率估计中。这样的模型可以是线性的也可以是二次型的。

  • 线性判别分析计算每个观察的判别分数来分类它所处的响应变量类别,这些分数是通过寻找独立变量的线性组合得到,预测变量的协方差在响应变量Y的所有k级上都是相同的
  • 二次判别分析提供了另一种方法,预测变量不假设Yk级上有共同的方差

3.重采样方法

84f38d16bfe21e1a1dbb73fde707106b67b24bcb

  • 拔靴法在许多情况下是一种有用的技术,如验证预测模型的性能、集成方法等。它的工作原理是通过从原始数据中重置采样,并将“未选择”的数据点作为测试用例,反复操作几次后,计算平均得分并作为模型性能的估计;
  • 交叉验证将训练数据分割成k个部分,将k-1个部分作为训练集,使用剩余部分作为测试集,重复试验k次后,计算平均分并作为模型的性能估计;

4.子集选择

e575486e92551295401fc7988ce47ea0303dac9a

  • 最佳子集选择:对P个预测变量的所有可能组合分别使用最小二乘法进行拟合,最后在所有可能模型(2P)选择一个最优模型;
  • 向前逐步选择:以一个不包含任何预测变量的零模型开始,依次向模型中添加一个变量,妹子只将能够最大限度地提升模型效果的变量加入模型中,直到所有的预测变量都包含在模型中;
  • 向后逐步选择:以半酣所有P个预测变量的模型开始,每次移除一个最有用的预测变量;
  • 混合方法:该方法遵循向前逐步选择步骤,但是在加入新变量的同时,也移除了不能提升模型拟合效果的变量;

5.特征缩减技术

1c131979554d147a19011278a658150268072b81

  • Ridge regression与最小二乘法相似,只是在平方误差的基础上增加了正则项,它损失了无偏性,来换取高的数值稳定性,从而得到较高的计算精度。
  • Ridge regression的一个缺点是无法使得预测因子完全为零,只是逼近零,这使得模型更难解释结果;而Lasso克服了这一缺点,能够迫使某些系数为零。

6.降维

7c1af4a97402aff0081aa358827cfeeda58ba73a

  • 可以将主成分回归描述为从一组大的变量中导出低纬度特征集的方法。其思想是从中选择排在前面的几个主成分,然后利用从数据中抽出的主成分进行回归,达到降维的目的。
  • 偏最小二乘法是主成分回归的有监督替代方法,也是一种降维方法。它首先识别出一组小的特征集合,然后通过对新的M个特征最小二乘拟合成线性模型。与主成分回归不同的是偏最小二乘法利用响应变量识别新特性。

7.非线性模型

2cd6b4ef68b732f4e5d34825427ab23342a1ba2d

  • 阶跃函数:如果实数域上的某个函数可以用半开区间上的指示函数的有限次线性组合来表示,那么这个函数就是阶跃函数,即阶跃函数是有限段分段常数函数的组合。
  • 分段函数:在定义域内不同部分上,有不同的解析表达式。
  • 样条函数:样条是一种特殊的函数,是由多项式分段定义。在计算机图形学中,样条通常是指分段定义的多项式参数曲线,并且其结构简单、拟合准确,并能近似曲线拟合和交互式曲线设计中复杂的形状,受到广泛应用。
  • 广义加性模型:是一种广义线性模型,其中线性预测器依赖于预测变量的未知光滑函数,专注于这些光滑函数的推理。

8.树形方法

  • Bagging是通过原始数据训练额外的数据来减少预测的方差的方法。通过增加训练集的大小,虽然不能改善模型的预测能力,但是能减少方差,将预测调整到预期结果;
  • Boosting是一种用几种不同的模型计算输出的方法,然后使用加权平均算法计算出结果的平均值,通过调节权重可以模型能为更广泛的输入数据提供良好的预测力;c8112a173718e71832c6a3b1793f384fa07520c0
  • Random forest算法类似于Bagging,区别在于还需要绘制用于训练单个树的随机子集的特征。由于随机特征选择,这使得树更加独立,从而导致更好的预测性能;

9.支持向量机

cae3e5f5d4e70e13a3a9b18e9287e4832f1fa67e

10.无监督学习

21f29ddd5b422b907e7ea9625e7918a50fded5b1

  • 主成分分析(Principal Component Analysis)是通过识别一组具有最大方差切互不相关的特征的线性组合并作为研究的特征空间,从而产生低维表示的数据集;
  • K-均值聚类(k-Mean clustering)是根据聚类中心的距离将数据划分为k个不同的簇;
  • 层次聚类(Hierarchical clustering)是通过计算不同类别数据点间的相似度来创建一颗有层次的嵌套聚类树;

91698da839b945162b5f03f8bb979fb90f411857

James Le软件工程师、数据科学家、产品经理

本文由北邮@爱可可-爱生活老师推荐,阿里云云栖社区组织翻译。

文章原标题《The 10 Statistical Techniques Data Scientists Need to Master》,作者: James Le译者:海棠,审阅:,附件为原文。

文章为简译,更为详细的内容,请查看原文

最后更新:2017-11-04 10:33:36

  上一篇:go  好东西来了!2017云栖大会300份重磅资料下载
  下一篇:go  入门篇:卷积神经网络指南(一)