隨機森林 VS 梯度提升機——模型融合之我見
更多深度文章,請關注:https://yq.aliyun.com/cloud
博主信息:Xavier Amatriain, 前機器學習領域研究員,如今就職於Quora。
隨機森林相比於梯度提升決策樹,主要有以下兩個優點:
- 隨機森林比梯度提升機更容易訓練
- 隨機森林比梯度提升機更難過擬合
對於第一點來說,隨機森林通常隻需要設置一個超參數即可:每個節點上隨機選取的特征數量。在大多數情況下,將該參數設置為特征總數的平方根,模型足以取得不錯的效果。而梯度提升機的超參數則包括提升樹的數量和深度、學習率等等。
對於第二點,盡管我們稱隨機森林不會過擬合是不準確的,但是,隨機森林的抗幹擾性強,更不容易出現過擬合的情況。
在某種意義上講,隨機森林是一棵比梯度提升機更加靈活的集成樹。但在一般情況下,經過良好訓練的梯度提升機的性能往往優於隨機森林。
此外,正如陳天奇(第二位博主)所提到的,隨機森林往往更容易並行化。但是考慮到借助於一些高效方法,梯度提升機同樣也能實現並行化訓練,這算不上是隨機森林的一個優勢。
參考資料:
《Influence of Hyperparameters on Random Forest Accuracy》
隨機森林——分類描述
博主信息:Tianqi Chen, 大規模機器學習領域博士
實際上,如果你一定要在兩種方法中做出選擇,參數經過精心調整的提升樹的效果通常優於隨機森林。主要原因在於訓練目標的不同,提升樹通過引入新的決策樹來完善當前模型。我們往往可以使用較少的決策樹就能夠取得較高的準確率。
話雖如此,隨機森林中二次取樣和Bagging的思路同樣也很重要。我們可以把這些思想納入提升樹的訓練階段,這有助於模型性能的進一步提升。
之前提到隨機森林時,人們都會說隨機森林更容易並行化,但是並行化的實現方法對提升樹同樣適用。提升樹完全可以以分布式的形式高效地實現。我們在dmlc/xgboost中做到了這一點,XGBoost的性能非常優秀。
提升樹的另一個優勢在於模型本身,由於提升樹是在最優化目標函數的過程中導出的,從本質上講,它可以用於解決幾乎所有能夠求導的優化目標。這包括排名、泊鬆回歸等等,在這一方麵,隨機森林則很難實現。我們有一個教程討論了這一觀點:提升樹導論
博主信息:Waleed Kadous,機器學習與人工智能博士
不同的機器學習場景具有各自不同的特點。Boosting算法對噪聲異常敏感,從偏差與方差間的權衡來看,如果數據是嘈雜的,Boosting算法可能會呈現出較高的模型方差。然而在其他情況下,Boosting算法往往能夠取得較好的效果。
在另一方麵,考慮到隨機森林采用的模型融合方法與GBM不同,並不基於模型殘差來構建集成模型,隨機森林往往能夠取得非常低的模型方差。
簡而言之,你對兩類算法的選擇取決於你的應用場景,當你希望降低模型方差時,隨機森林會是不錯的選擇;當你希望降低模型偏差時,GBM是不二之選。
博主信息:Eren Golge,AI研究員
二者的區別主要在於兩個方麵:算法上的區別以及實際應用時的效果差異。
在算法層麵,隨機森林通過對數據集進行隨機采樣來構建訓練樣本(在有些場景下,甚至還會對數據特征進行隨機選擇,僅使用部分特征進行訓練),其認為隨機化有利於模型在測試集上取得更好的泛化性能。
對於梯度提升樹來說,假設最終模型是單棵決策樹預測值的加權和,梯度提升樹算法還會根據訓練數據尋找所有決策樹最優的線性組合。這種額外的調整或許可以理解為兩類算法的差異。但需要注意的是,這些算法都有許多變種算法,在具體設計上可能存在一些相似的地方。
在應用層麵,考慮到梯度提升樹會根據觀測值,對預測結果進行調整,其更容易受到噪聲點的影響,進而導致梯度提升樹更可能出現過擬合的情況。與此相反,隨機森林對過擬合現象則具有更強的抗性。
因此,對這兩類算法的選擇取決於你當前的應用場景。
博主信息:Tong Zh,統計學博士
這兩類算法間存在一個本質的區別,可能會迫使你放棄GBM,轉而選擇隨機森林:由於各棵決策樹的訓練互不影響,隨機森林能夠輕鬆地部署在分布式環境中,而梯度提升樹隻能以序列化的方式訓練。 因此,如果實驗資源受數據規模或實驗次數的限製,你可能不得不使用隨機森林。
如果實驗資源不受限,我個人更傾向使用GBM。我的觀點和增強學習的思想不謀而合,這就好比你準備考試,完成一門測試之後,你肯定會花一些時間檢查自己犯下的錯誤,而不是匆忙地準備下一場考試。
話雖如此,在真實環境下,我們還是經常會受到數據規模的限製,同樣是訓練2000棵決策樹,隨機森林要比GBM容易訓練得多。
本文由北郵@愛可可-愛生活老師推薦,@阿裏雲雲棲社區組織翻譯。
文章原標題《When would one use Random Forests over Gradient Boosted Machines (GBMs)?》,譯者:6816816151,審閱:
文章為簡譯,更為詳細的內容,請查看原文,附件為原文完整截圖
最後更新:2017-09-25 16:33:39