机器学习常用算法
1.文本分类 2.疾病预测 3.检测SNS社区中不真实账号 4.垃圾邮件过滤 |
||||||||
1.金融行业用决策树做贷款风险评估 2.保险行业用决策树做推广预测 3.医疗行业用决策树生成辅助诊断处置模型 4.用户分级评估 5.分析对某种响应可能性影响最大的因素,比如判断具有什么特征的客户流失概率更高 6.为其他模型筛选变量。决策数找到的变量是对目标变量影响很大的变量。所以可以作为筛选变量的手段。 |
||||||||
模式识别领域中的文本识别,中文分类,人脸识别等; 工程技术和信息过滤 |
||||||||
商业:刻画不同的客户群特征;细分市场; 生物:基因分类 保险:保险单持有者分组 电子商务:相似浏览行为客户聚类 |
||||||||
LinearRegression,Ridge
Regression,RidgeCV,Lasso Regression ,lasticNet, |
1.机场客流量预测 2.网约车出行流量与测 3.股价走势预测 4.中国人口增长预测 |
|||||||
它将数据拟合到一个 | 1.预测某一种情况出现的概率 2.二分类 3.多分类 |
逻辑回归相对来说模型更简单,好理解,实现起来,特别是大规模线性分类时比较方便; 同样的线性分类情况下,如果异常点较多的话,无法剔除,首先LR,LR中每个样本都是有贡献的,最大似然后会自动压制异常的贡献 |
||||||
(1)可以充分逼近任意复杂的非线性关系; (2)所有定量或定性的信息都等势分布贮存于网络内的各神经元,故有很强的鲁棒性和容错性; (3)采用并行分布处理方法,使得快速进行大量运算成为可能; (4)可学习和自适应不知道或不确定的系统; |
神经网络的应用非常多: 1.OCR 2.销售量的非线性预测 3.计算机智能控制 4.图像的处理 5.优化算法方面等等语音搜索 6.文本到语音 7.垃圾邮件筛选(异常情况探测) 8.欺诈探测 9.推荐系统(客户关系管理、广告技术、避免用户流失 |
|||||||
(1)需要大量数据进行训练 (2)训练要求很高的硬件配置 (3)模型处于「黑箱状态」,难以理解内部机制 (4)元参数(Metaparameter)与网络拓扑选择困难。 |
1.语音识别 2.图像识别 3.人脸识别 4.行人检测 5.人体行为检测 3.推荐系统 4.自然语言处理 5.智能客服 |
|||||||
随机森林对多元公线性不敏感,结果对缺失数据和非平衡的数据比较稳健,可以很好地预测多达几千个解释变量的作用; a. 在数据集上表现良好,两个随机性的引入,使得随机森林不容易陷入过拟合 b. 在当前的很多数据集上,相对其他算法有着很大的优势,两个随机性的引入,使得随机森林具有很好的抗噪声能力 c. 它能够处理很高维度(feature很多)的数据,并且不用做特征选择,对数据集的适应能力强:既能处理离散型数据,也能处理连续型数据,数据集无需规范化 d. 可生成一个Proximities=(pij)矩阵,用于度量样本之间的相似性: pij=aij/N, aij表示样本i和j出现在随机森林中同一个叶子结点的次数,N随机森林中树的颗数 e. 在创建随机森林的时候,对generlization error使用的是无偏估计 f. 训练速度快,可以得到变量重要性排序(两种:基于OOB误分率的增加量和基于分裂时的GINI下降量 g. 在训练过程中,能够检测到feature间的互相影响 h. 容易做成并行化方法 i. 实现比较简单 |
||||||||
1)用于二分类或多分类的应用场景 2)用于做分类任务的baseline--无脑化,简单,不会overfitting,不用调分类器 3)用于特征选择(feature selection) 4)Boosting框架用于对badcase的修正--只需要增加新的分类器,不需要变动原有分类器 |
||||||||
优点: 1.简单,易于理解,易于实现,无需估计参数,无需训练; 2. 适合对稀有事件进行分类; 3.特别适合于多分类问题(multi-modal,对象具有多个类别标签), kNN比SVM的表现要好。 缺点: 1.样本不平衡时,抗造能力差 2.计算量大 |
1.约会网站的数据分类 2.手写数字识别 |
最后更新:2017-07-19 15:32:24