機器學習_adaboost 算法
關於Adaboost算法的兩篇論文
The Boosting Approach to Machine Learning
A Short Introduction to Boosting
論文內容基本相同,推薦完完整整看完其中一篇之後,在掃一下第二篇。
擔心這兩篇論文原始地址變了,上傳一份csdn的資源,作為備份。
The Boosting Approach to Machine Learning An Overview
A Short Introduction to Boosting
我獲益最大的內容:
1.二分類問題下adaboost的算法步驟:
步驟中各參數及其意義:
Zt起到歸一化Dt的概率分布的作用,使所有Dt(i)的總和為1,因此Zt為:
2.為什麼Adaboost多個弱分類器可以提高整體分類效果:
2.1.Adaboost在訓練樣本上的誤差上界為:
2.2.證明通過添加一個分類誤差大於>0.5的弱分類器,可以減小誤差上界
3.Adaboost迭代次數的確定:
機器學習的許多算法中,訓練樣本上的過度學習,會導致過擬合問題,這篇論文在<4 Generalization error>一節中
指出,adaboost在測試集合上的誤差,與迭代次數無關,因此可以放心迭代降低分類器在訓練樣本上的誤差,並且同時指出,
減少訓練樣本誤差,有助於減少測試樣本的誤差。
在這裏辨析兩個概念:
分類(classfication)&回歸(regression)
分類在數據集上學習規則,對輸入的特征,輸出其對應的類別(離散值),其中類別由先驗知識確定
回歸在數據集上擬合函數,對輸入的特征,輸出其對應的值(實數值),例如函數曲線擬合
可參考 Difference Between Classification and Regression
最後更新:2017-04-03 14:53:53