249 阿裏雲技術社區[雲棲]

8種最差的預測建模技術，你認同嗎？

　　以下技術大多數已經發展了較長時間（在過去10年中），其中大部分缺點已經得到彌補，因此更新後的技術已經遠不同於其原始版本，性能也大為提高。但通常情況下，這些有弊端的技術仍然被廣泛使用。

1．線性回歸

　　依靠一般標準、異方差性和其他假設，不能捕獲高度非線性的混沌模式。它傾向於過度擬合、參數難以解讀，並且在獨立變量高度相關時非常不穩定。修正方法包括減少變量、進行變量變換，以及使用約束回歸（例如，嶺回歸或Lasso回歸）。

2．傳統決策樹

　　大而不穩定，無法解讀，而且容易過度擬合。修正方法包括使用多個小決策樹，而不是使用一個大決策樹。

3．線性判別分析法

　　用於監督聚類。這是一個很差的技術，因為它假定簇沒有重疊並且被超平麵完全分開。在實踐中從來沒有這樣的情況。應改用密度估計技術。

4．K-均值聚類

　　傾向於產生環形簇，不容易處理不符合高斯混合分布的數據點。

5．神經網絡

　　不容易解讀，不穩定，容易過度擬合。

6．最大似然估計

　　要求你的數據符合預先規定的概率分布。它不是數據驅動的，很多時候預先指定的高斯分布和你的數據很不適合。

7．高維密度估計

　　常受到維度的影響。修正方法之一是使用非參數核密度估計與自適應的帶寬。

8．樸素貝葉斯

　　用於如欺詐檢測、垃圾郵件檢測和評分。它們假定變量是獨立的，但如果不是，就會慘遭失敗。在進行欺詐檢測和垃圾郵件檢測時，變量（有時被稱為規則）是高度相關的。修正方法之一是將變量分為獨立的變量簇，每個簇包含高度相關的變量。然後將樸素貝葉斯應用於簇，或者使用數據減少技術。不好的文本挖掘技術（例如，垃圾郵件檢測中的基本“單詞”規則）和樸素貝葉斯結合會產生非常可怕的結果，帶來很多誤報和漏報。

　　這些不好的模型仍然被廣泛使用的原因如下。

很多大學課程使用過時的教材，因此很多學生沒有接觸過更好的數據科學技術。

人們使用黑箱統計軟件，不知道其局限性和缺點，或者不會正確調整參數和優化各種節點，或者不了解該軟件實際生成什麼結果。

政府強製監管行業（製藥業和銀行業——見銀行的Basel III規定）為統計合規而使用30年前的SAS程序。例如，雖然SAS有更好的評分方法可用於信用評分，卻被當局武斷地拒絕使用。提交給FDA的臨床試驗分析也是一樣，SAS是強製使用的合規軟件，使FDA可以從製藥公司複製分析和結果。
現代數據集比當初開發這些技術時使用的數據集複雜得多，也極不相同。簡而言之，這些技術不是為現代數據集開發的。
沒有完美的適用於所有數據集的統計技術，但有很多差的技術。
此外，由於不良的交叉驗證高估了未來數據的預期提升值、實際的準確度，或訓練集之外的真實投資回報率，從而使差的模型也能達標通過。良好的交叉驗證包括以下方麵。
將訓練集拆分成多個子集（測試和控製子集）。
在控製集中放入不同類型的客戶和比測試集更新的數據。
檢查控製集中預測值的質量。
計算個別錯誤（錯誤定義為，比如真實值減去預測值）的置信區間，以確保錯誤足夠小而且波動不大（在所有控製集上有小方差）。

本文選自《數據天才：數據科學家修煉之道》，點此鏈接可在博文視點官網查看此書。
　　　　　　　　　　　　　　　　　　　　　　
　　想及時獲得更多精彩文章，可在微信中搜索“博文視點”或者掃描下方二維碼並關注。
　　　　　　　　　　　　　　　　　　　　　　　　　

最後更新：2017-06-14 10:02:27

8種最差的預測建模技術，你認同嗎？

1．線性回歸

2．傳統決策樹

3．線性判別分析法

4．K-均值聚類

5．神經網絡

6．最大似然估計

7．高維密度估計

8．樸素貝葉斯

上一篇：菜鳥超級進口大倉618首度亮相！跨境商品也能當日次日達

下一篇：小微商家大調查：三成是夫妻店，八成受假鈔困擾

相關內容

熱門內容

最新內容

8種最差的預測建模技術，你認同嗎？

1．線性回歸

2．傳統決策樹

3．線性判別分析法

4．K-均值聚類

5．神經網絡

6．最大似然估計

7．高維密度估計

8．樸素貝葉斯

上一篇： 菜鳥超級進口大倉618首度亮相！跨境商品也能當日次日達

下一篇： 小微商家大調查：三成是夫妻店，八成受假鈔困擾

相關內容

熱門內容

最新內容

上一篇：菜鳥超級進口大倉618首度亮相！跨境商品也能當日次日達

下一篇：小微商家大調查：三成是夫妻店，八成受假鈔困擾