191
技術社區[雲棲]
機器學習常用算法
1.文本分類 2.疾病預測 3.檢測SNS社區中不真實賬號 4.垃圾郵件過濾 |
||||||||
1.金融行業用決策樹做貸款風險評估 2.保險行業用決策樹做推廣預測 3.醫療行業用決策樹生成輔助診斷處置模型 4.用戶分級評估 5.分析對某種響應可能性影響最大的因素,比如判斷具有什麼特征的客戶流失概率更高 6.為其他模型篩選變量。決策數找到的變量是對目標變量影響很大的變量。所以可以作為篩選變量的手段。 |
||||||||
模式識別領域中的文本識別,中文分類,人臉識別等; 工程技術和信息過濾 |
||||||||
商業:刻畫不同的客戶群特征;細分市場; 生物:基因分類 保險:保險單持有者分組 電子商務:相似瀏覽行為客戶聚類 |
||||||||
LinearRegression,Ridge
Regression,RidgeCV,Lasso Regression ,lasticNet, |
1.機場客流量預測 2.網約車出行流量與測 3.股價走勢預測 4.中國人口增長預測 |
|||||||
它將數據擬合到一個 | 1.預測某一種情況出現的概率 2.二分類 3.多分類 |
邏輯回歸相對來說模型更簡單,好理解,實現起來,特別是大規模線性分類時比較方便; 同樣的線性分類情況下,如果異常點較多的話,無法剔除,首先LR,LR中每個樣本都是有貢獻的,最大似然後會自動壓製異常的貢獻 |
||||||
(1)可以充分逼近任意複雜的非線性關係; (2)所有定量或定性的信息都等勢分布貯存於網絡內的各神經元,故有很強的魯棒性和容錯性; (3)采用並行分布處理方法,使得快速進行大量運算成為可能; (4)可學習和自適應不知道或不確定的係統; |
神經網絡的應用非常多: 1.OCR 2.銷售量的非線性預測 3.計算機智能控製 4.圖像的處理 5.優化算法方麵等等語音搜索 6.文本到語音 7.垃圾郵件篩選(異常情況探測) 8.欺詐探測 9.推薦係統(客戶關係管理、廣告技術、避免用戶流失 |
|||||||
(1)需要大量數據進行訓練 (2)訓練要求很高的硬件配置 (3)模型處於「黑箱狀態」,難以理解內部機製 (4)元參數(Metaparameter)與網絡拓撲選擇困難。 |
1.語音識別 2.圖像識別 3.人臉識別 4.行人檢測 5.人體行為檢測 3.推薦係統 4.自然語言處理 5.智能客服 |
|||||||
隨機森林對多元公線性不敏感,結果對缺失數據和非平衡的數據比較穩健,可以很好地預測多達幾千個解釋變量的作用; a. 在數據集上表現良好,兩個隨機性的引入,使得隨機森林不容易陷入過擬合 b. 在當前的很多數據集上,相對其他算法有著很大的優勢,兩個隨機性的引入,使得隨機森林具有很好的抗噪聲能力 c. 它能夠處理很高維度(feature很多)的數據,並且不用做特征選擇,對數據集的適應能力強:既能處理離散型數據,也能處理連續型數據,數據集無需規範化 d. 可生成一個Proximities=(pij)矩陣,用於度量樣本之間的相似性: pij=aij/N, aij表示樣本i和j出現在隨機森林中同一個葉子結點的次數,N隨機森林中樹的顆數 e. 在創建隨機森林的時候,對generlization error使用的是無偏估計 f. 訓練速度快,可以得到變量重要性排序(兩種:基於OOB誤分率的增加量和基於分裂時的GINI下降量 g. 在訓練過程中,能夠檢測到feature間的互相影響 h. 容易做成並行化方法 i. 實現比較簡單 |
||||||||
1)用於二分類或多分類的應用場景 2)用於做分類任務的baseline--無腦化,簡單,不會overfitting,不用調分類器 3)用於特征選擇(feature selection) 4)Boosting框架用於對badcase的修正--隻需要增加新的分類器,不需要變動原有分類器 |
||||||||
優點: 1.簡單,易於理解,易於實現,無需估計參數,無需訓練; 2. 適合對稀有事件進行分類; 3.特別適合於多分類問題(multi-modal,對象具有多個類別標簽), kNN比SVM的表現要好。 缺點: 1.樣本不平衡時,抗造能力差 2.計算量大 |
1.約會網站的數據分類 2.手寫數字識別 |
最後更新:2017-07-19 15:32:24