8種最差的預測建模技術,你認同嗎?
以下技術大多數已經發展了較長時間(在過去10年中),其中大部分缺點已經得到彌補,因此更新後的技術已經遠不同於其原始版本,性能也大為提高。但通常情況下,這些有弊端的技術仍然被廣泛使用。
1.線性回歸
依靠一般標準、異方差性和其他假設,不能捕獲高度非線性的混沌模式。它傾向於過度擬合、參數難以解讀,並且在獨立變量高度相關時非常不穩定。修正方法包括減少變量、進行變量變換,以及使用約束回歸(例如,嶺回歸或Lasso回歸)。
2.傳統決策樹
大而不穩定,無法解讀,而且容易過度擬合。修正方法包括使用多個小決策樹,而不是使用一個大決策樹。
3.線性判別分析法
用於監督聚類。這是一個很差的技術,因為它假定簇沒有重疊並且被超平麵完全分開。在實踐中從來沒有這樣的情況。應改用密度估計技術。
4.K-均值聚類
傾向於產生環形簇,不容易處理不符合高斯混合分布的數據點。
5.神經網絡
不容易解讀,不穩定,容易過度擬合。
6.最大似然估計
要求你的數據符合預先規定的概率分布。 它不是數據驅動的,很多時候預先指定的高斯分布和你的數據很不適合。
7.高維密度估計
常受到維度的影響。修正方法之一是使用非參數核密度估計與自適應的帶寬。
8.樸素貝葉斯
用於如欺詐檢測、垃圾郵件檢測和評分。它們假定變量是獨立的,但如果不是,就會慘遭失敗。在進行欺詐檢測和垃圾郵件檢測時,變量(有時被稱為規則)是高度相關的。修正方法之一是將變量分為獨立的變量簇,每個簇包含高度相關的變量。然後將樸素貝葉斯應用於簇,或者使用數據減少技術。不好的文本挖掘技術(例如,垃圾郵件檢測中的基本“單詞”規則)和樸素貝葉斯結合會產生非常可怕的結果,帶來很多誤報和漏報。
這些不好的模型仍然被廣泛使用的原因如下。
- 很多大學課程使用過時的教材,因此很多學生沒有接觸過更好的數據科學技術。
人們使用黑箱統計軟件,不知道其局限性和缺點,或者不會正確調整參數和優化各種節點,或者不了解該軟件實際生成什麼結果。
- 政府強製監管行業(製藥業和銀行業——見銀行的Basel III規定)為統計合規而使用30年前的SAS程序。例如,雖然SAS有更好的評分方法可用於信用評分,卻被當局武斷地拒絕使用。提交給FDA的臨床試驗分析也是一樣,SAS是強製使用的合規軟件,使FDA可以從製藥公司複製分析和結果。
- 現代數據集比當初開發這些技術時使用的數據集複雜得多,也極不相同。簡而言之,這些技術不是為現代數據集開發的。
- 沒有完美的適用於所有數據集的統計技術,但有很多差的技術。
- 此外,由於不良的交叉驗證高估了未來數據的預期提升值、實際的準確度,或訓練集之外的真實投資回報率,從而使差的模型也能達標通過。良好的交叉驗證包括以下方麵。
- 將訓練集拆分成多個子集(測試和控製子集)。
- 在控製集中放入不同類型的客戶和比測試集更新的數據。
- 檢查控製集中預測值的質量。
- 計算個別錯誤(錯誤定義為,比如真實值減去預測值)的置信區間,以確保錯誤足夠小而且波動不大(在所有控製集上有小方差)。
本文選自《數據天才:數據科學家修煉之道》,點此鏈接可在博文視點官網查看此書。
想及時獲得更多精彩文章,可在微信中搜索“博文視點”或者掃描下方二維碼並關注。
最後更新:2017-06-14 10:02:27