閱讀191 返回首頁    go 技術社區[雲棲]


機器學習常用算法

1.文本分類
2.疾病預測
3.檢測SNS社區中不真實賬號
4.垃圾郵件過濾
1.金融行業用決策樹做貸款風險評估
2.保險行業用決策樹做推廣預測
3.醫療行業用決策樹生成輔助診斷處置模型
4.用戶分級評估
5.分析對某種響應可能性影響最大的因素,比如判斷具有什麼特征的客戶流失概率更高
6.為其他模型篩選變量。決策數找到的變量是對目標變量影響很大的變量。所以可以作為篩選變量的手段。
模式識別領域中的文本識別,中文分類,人臉識別等;
工程技術和信息過濾
商業:刻畫不同的客戶群特征;細分市場;
生物:基因分類
保險:保險單持有者分組
電子商務:相似瀏覽行為客戶聚類
LinearRegression,Ridge Regression,RidgeCV,Lasso Regression
,lasticNet,
1.機場客流量預測
2.網約車出行流量與測
3.股價走勢預測
4.中國人口增長預測
它將數據擬合到一個 1.預測某一種情況出現的概率
2.二分類
3.多分類
邏輯回歸相對來說模型更簡單,好理解,實現起來,特別是大規模線性分類時比較方便;
同樣的線性分類情況下,如果異常點較多的話,無法剔除,首先LR,LR中每個樣本都是有貢獻的,最大似然後會自動壓製異常的貢獻
(1)可以充分逼近任意複雜的非線性關係;
(2)所有定量或定性的信息都等勢分布貯存於網絡內的各神經元,故有很強的魯棒性和容錯性;
(3)采用並行分布處理方法,使得快速進行大量運算成為可能;
(4)可學習和自適應不知道或不確定的係統; 
神經網絡的應用非常多:
1.OCR
2.銷售量的非線性預測
3.計算機智能控製
4.圖像的處理
5.優化算法方麵等等語音搜索
6.文本到語音
7.垃圾郵件篩選(異常情況探測)
8.欺詐探測
9.推薦係統(客戶關係管理、廣告技術、避免用戶流失
(1)需要大量數據進行訓練
(2)訓練要求很高的硬件配置
(3)模型處於「黑箱狀態」,難以理解內部機製
(4)元參數(Metaparameter)與網絡拓撲選擇困難。
1.語音識別
2.圖像識別
3.人臉識別
4.行人檢測
5.人體行為檢測
3.推薦係統
4.自然語言處理
5.智能客服
隨機森林對多元公線性不敏感,結果對缺失數據和非平衡的數據比較穩健,可以很好地預測多達幾千個解釋變量的作用;
a. 在數據集上表現良好,兩個隨機性的引入,使得隨機森林不容易陷入過擬合
b. 在當前的很多數據集上,相對其他算法有著很大的優勢,兩個隨機性的引入,使得隨機森林具有很好的抗噪聲能力
c. 它能夠處理很高維度(feature很多)的數據,並且不用做特征選擇,對數據集的適應能力強:既能處理離散型數據,也能處理連續型數據,數據集無需規範化
d. 可生成一個Proximities=(pij)矩陣,用於度量樣本之間的相似性: pij=aij/N, aij表示樣本i和j出現在隨機森林中同一個葉子結點的次數,N隨機森林中樹的顆數
e. 在創建隨機森林的時候,對generlization error使用的是無偏估計
f. 訓練速度快,可以得到變量重要性排序(兩種:基於OOB誤分率的增加量和基於分裂時的GINI下降量
g. 在訓練過程中,能夠檢測到feature間的互相影響
h. 容易做成並行化方法
i. 實現比較簡單
1)用於二分類或多分類的應用場景

2)用於做分類任務的baseline--無腦化,簡單,不會overfitting,不用調分類器

3)用於特征選擇(feature selection)

4)Boosting框架用於對badcase的修正--隻需要增加新的分類器,不需要變動原有分類器
優點:
1.簡單,易於理解,易於實現,無需估計參數,無需訓練;
2. 適合對稀有事件進行分類;
3.特別適合於多分類問題(multi-modal,對象具有多個類別標簽), kNN比SVM的表現要好。
缺點:
1.樣本不平衡時,抗造能力差
2.計算量大
1.約會網站的數據分類
2.手寫數字識別

最後更新:2017-07-19 15:32:24

  上一篇:go  一份靠譜的數據分析報告都有什麼套路?
  下一篇:go  為何企業無法從數據科學中真正獲得價值?