閱讀249 返回首頁    go 阿裏雲 go 技術社區[雲棲]


8種最差的預測建模技術,你認同嗎?

  以下技術大多數已經發展了較長時間(在過去10年中),其中大部分缺點已經得到彌補,因此更新後的技術已經遠不同於其原始版本,性能也大為提高。但通常情況下,這些有弊端的技術仍然被廣泛使用。

1.線性回歸

  依靠一般標準、異方差性和其他假設,不能捕獲高度非線性的混沌模式。它傾向於過度擬合、參數難以解讀,並且在獨立變量高度相關時非常不穩定。修正方法包括減少變量、進行變量變換,以及使用約束回歸(例如,嶺回歸或Lasso回歸)。

2.傳統決策樹

  大而不穩定,無法解讀,而且容易過度擬合。修正方法包括使用多個小決策樹,而不是使用一個大決策樹。

3.線性判別分析法

  用於監督聚類。這是一個很差的技術,因為它假定簇沒有重疊並且被超平麵完全分開。在實踐中從來沒有這樣的情況。應改用密度估計技術。

4.K-均值聚類

  傾向於產生環形簇,不容易處理不符合高斯混合分布的數據點。

5.神經網絡

  不容易解讀,不穩定,容易過度擬合。

6.最大似然估計

  要求你的數據符合預先規定的概率分布。 它不是數據驅動的,很多時候預先指定的高斯分布和你的數據很不適合。

7.高維密度估計

  常受到維度的影響。修正方法之一是使用非參數核密度估計與自適應的帶寬。

8.樸素貝葉斯

  用於如欺詐檢測、垃圾郵件檢測和評分。它們假定變量是獨立的,但如果不是,就會慘遭失敗。在進行欺詐檢測和垃圾郵件檢測時,變量(有時被稱為規則)是高度相關的。修正方法之一是將變量分為獨立的變量簇,每個簇包含高度相關的變量。然後將樸素貝葉斯應用於簇,或者使用數據減少技術。不好的文本挖掘技術(例如,垃圾郵件檢測中的基本“單詞”規則)和樸素貝葉斯結合會產生非常可怕的結果,帶來很多誤報和漏報。

  這些不好的模型仍然被廣泛使用的原因如下。

  • 很多大學課程使用過時的教材,因此很多學生沒有接觸過更好的數據科學技術。

人們使用黑箱統計軟件,不知道其局限性和缺點,或者不會正確調整參數和優化各種節點,或者不了解該軟件實際生成什麼結果。

  • 政府強製監管行業(製藥業和銀行業——見銀行的Basel III規定)為統計合規而使用30年前的SAS程序。例如,雖然SAS有更好的評分方法可用於信用評分,卻被當局武斷地拒絕使用。提交給FDA的臨床試驗分析也是一樣,SAS是強製使用的合規軟件,使FDA可以從製藥公司複製分析和結果。
  • 現代數據集比當初開發這些技術時使用的數據集複雜得多,也極不相同。簡而言之,這些技術不是為現代數據集開發的。
  • 沒有完美的適用於所有數據集的統計技術,但有很多差的技術。
  • 此外,由於不良的交叉驗證高估了未來數據的預期提升值、實際的準確度,或訓練集之外的真實投資回報率,從而使差的模型也能達標通過。良好的交叉驗證包括以下方麵。
  • 將訓練集拆分成多個子集(測試和控製子集)。
  • 在控製集中放入不同類型的客戶和比測試集更新的數據。
  • 檢查控製集中預測值的質量。
  • 計算個別錯誤(錯誤定義為,比如真實值減去預測值)的置信區間,以確保錯誤足夠小而且波動不大(在所有控製集上有小方差)。

本文選自《數據天才:數據科學家修煉之道》,點此鏈接可在博文視點官網查看此書。
                      圖片描述
  想及時獲得更多精彩文章,可在微信中搜索“博文視點”或者掃描下方二維碼並關注。
                         圖片描述

最後更新:2017-06-14 10:02:27

  上一篇:go  菜鳥超級進口大倉618首度亮相!跨境商品也能當日次日達
  下一篇:go  小微商家大調查:三成是夫妻店,八成受假鈔困擾