阅读191 返回首页    go 阿里云 go 技术社区[云栖]


机器学习常用算法

1.文本分类
2.疾病预测
3.检测SNS社区中不真实账号
4.垃圾邮件过滤
1.金融行业用决策树做贷款风险评估
2.保险行业用决策树做推广预测
3.医疗行业用决策树生成辅助诊断处置模型
4.用户分级评估
5.分析对某种响应可能性影响最大的因素,比如判断具有什么特征的客户流失概率更高
6.为其他模型筛选变量。决策数找到的变量是对目标变量影响很大的变量。所以可以作为筛选变量的手段。
模式识别领域中的文本识别,中文分类,人脸识别等;
工程技术和信息过滤
商业:刻画不同的客户群特征;细分市场;
生物:基因分类
保险:保险单持有者分组
电子商务:相似浏览行为客户聚类
LinearRegression,Ridge Regression,RidgeCV,Lasso Regression
,lasticNet,
1.机场客流量预测
2.网约车出行流量与测
3.股价走势预测
4.中国人口增长预测
它将数据拟合到一个 1.预测某一种情况出现的概率
2.二分类
3.多分类
逻辑回归相对来说模型更简单,好理解,实现起来,特别是大规模线性分类时比较方便;
同样的线性分类情况下,如果异常点较多的话,无法剔除,首先LR,LR中每个样本都是有贡献的,最大似然后会自动压制异常的贡献
(1)可以充分逼近任意复杂的非线性关系;
(2)所有定量或定性的信息都等势分布贮存于网络内的各神经元,故有很强的鲁棒性和容错性;
(3)采用并行分布处理方法,使得快速进行大量运算成为可能;
(4)可学习和自适应不知道或不确定的系统; 
神经网络的应用非常多:
1.OCR
2.销售量的非线性预测
3.计算机智能控制
4.图像的处理
5.优化算法方面等等语音搜索
6.文本到语音
7.垃圾邮件筛选(异常情况探测)
8.欺诈探测
9.推荐系统(客户关系管理、广告技术、避免用户流失
(1)需要大量数据进行训练
(2)训练要求很高的硬件配置
(3)模型处于「黑箱状态」,难以理解内部机制
(4)元参数(Metaparameter)与网络拓扑选择困难。
1.语音识别
2.图像识别
3.人脸识别
4.行人检测
5.人体行为检测
3.推荐系统
4.自然语言处理
5.智能客服
随机森林对多元公线性不敏感,结果对缺失数据和非平衡的数据比较稳健,可以很好地预测多达几千个解释变量的作用;
a. 在数据集上表现良好,两个随机性的引入,使得随机森林不容易陷入过拟合
b. 在当前的很多数据集上,相对其他算法有着很大的优势,两个随机性的引入,使得随机森林具有很好的抗噪声能力
c. 它能够处理很高维度(feature很多)的数据,并且不用做特征选择,对数据集的适应能力强:既能处理离散型数据,也能处理连续型数据,数据集无需规范化
d. 可生成一个Proximities=(pij)矩阵,用于度量样本之间的相似性: pij=aij/N, aij表示样本i和j出现在随机森林中同一个叶子结点的次数,N随机森林中树的颗数
e. 在创建随机森林的时候,对generlization error使用的是无偏估计
f. 训练速度快,可以得到变量重要性排序(两种:基于OOB误分率的增加量和基于分裂时的GINI下降量
g. 在训练过程中,能够检测到feature间的互相影响
h. 容易做成并行化方法
i. 实现比较简单
1)用于二分类或多分类的应用场景

2)用于做分类任务的baseline--无脑化,简单,不会overfitting,不用调分类器

3)用于特征选择(feature selection)

4)Boosting框架用于对badcase的修正--只需要增加新的分类器,不需要变动原有分类器
优点:
1.简单,易于理解,易于实现,无需估计参数,无需训练;
2. 适合对稀有事件进行分类;
3.特别适合于多分类问题(multi-modal,对象具有多个类别标签), kNN比SVM的表现要好。
缺点:
1.样本不平衡时,抗造能力差
2.计算量大
1.约会网站的数据分类
2.手写数字识别

最后更新:2017-07-19 15:32:24

  上一篇:go  一份靠谱的数据分析报告都有什么套路?
  下一篇:go  为何企业无法从数据科学中真正获得价值?