數據科學家需要掌握的10項統計技術,快來測一測吧
雖然編程能力對於數據科學家而言非常重要,但是數據科學家不完全是軟件工程師,他應該是編程、統計和批判性思維三者的結合體。而許多軟件工程師通過機器學習框架轉型為數據科學家時,沒有深刻地思考並理解這些框架背後的統計理論,所以統計學習理論成為了機器學習的理論框架。
為什麼學習統計學習?理解不同技術背後的想法是非常重要的,隻有真正理解了這些才能知道何時何地使用這些技術。首先必須理解簡單的方法,以便掌握更複雜的方法。精確評估一個方法的性能,並且知道它工作情況的好壞顯得非常重要。此外,這是一個令人興奮的研究領域,在科學、工業和金融等方麵具有重要的應用。最後,統計學習是培養現代數據科學家的一個基本素材。統計學習問題的例子包括以下幾個部分:
- 確定前列腺癌的風險因素;
- 根據對數周期圖分類記錄的音素;
- 根據人口統計學、飲食和臨床測量預測其是否有心髒病;
- 自定義垃圾電子郵件檢測係統;
- 識別手寫郵政編碼中的數字;
- 將組織樣本分類為對應的癌症;
- 建立人口調查數據中的工資與人口變量的關係;
此外,作者對數據挖掘進行了一定的研究,推薦 Intro to Statistical Learning (Hastie, Tibshirani, Witten, James)、Doing Bayesian Data Analysis (Kruschke)和 Time Series Analysis and Applications (Shumway, Stoffer)三本書,這裏麵有許多有價值的內容。在進入正題之前,想區分一下機器學習和統計學習,主要有以下幾點區別:
- 機器學習是人工智能的一個分支;
- 統計學習是統計領域的一個分支;
- 機器學習更側重於大規模應用和精度預測;
- 統計學習強調模型及其解釋性、精度和不確定性;
- 但是這種區別變得越來越模煳,而且有大量相互交流;
- 機器學習在市場營銷中占優勢;
下麵分享10條統計技術,任何數據科學家都應該學習,使得能夠更高效地處理大數據集。
1.線性回歸
在統計學中,線性回歸是一種通過擬合因變量和自變量之間的最佳線性關係來預測目標變量的方法。線性回歸主要分為簡單線性回歸和多元線性回歸。簡單線性回歸使用一個自變量,通過擬合一個最佳線性關係來預測因變量;而多元線性回歸使用一個以上的自變量來預測因變量。
2.分類
分類是一種數據挖掘技術,被用來將一個整體數據集分成幾個類別,以為了更準確的預測和分析。分類技術中典型的代表是邏輯回歸分析和判別分析。邏輯回歸是一種預測分析,在用於描述數據時,解釋一個二進製因變量與一個或多個序數、區間等變量之間的關係。邏輯回歸可以檢驗的問題類型有:
- 每增加一磅體重或一天抽一包香煙對肺癌的概率有變化嗎?(是/不是)
- 體重、卡路裏與脂肪攝入量、參與者年齡對心髒病發作有影響?(是/不是)
在判別分析中,在每個響應類中分別對預測因子X的分布進行建模,然後利用貝葉斯定理將這些變量翻轉到給定X值的響應類別的概率估計中。這樣的模型可以是線性的也可以是二次型的。
-
線性判別分析計算每個觀察的判別分數來分類它所處的響應變量類別,這些分數是通過尋找獨立變量的線性組合得到,預測變量的協方差在響應變量Y的所有k級上都是相同的。
-
二次判別分析提供了另一種方法,預測變量不假設Y的k級上有共同的方差。
3.重采樣方法
-
拔靴法在許多情況下是一種有用的技術,如驗證預測模型的性能、集成方法等。它的工作原理是通過從原始數據中重置采樣,並將“未選擇”的數據點作為測試用例,反複操作幾次後,計算平均得分並作為模型性能的估計;
-
交叉驗證將訓練數據分割成k個部分,將k-1個部分作為訓練集,使用剩餘部分作為測試集,重複試驗k次後,計算平均分並作為模型的性能估計;
4.子集選擇
-
最佳子集選擇:對P個預測變量的所有可能組合分別使用最小二乘法進行擬合,最後在所有可能模型(2P)選擇一個最優模型;
-
向前逐步選擇:以一個不包含任何預測變量的零模型開始,依次向模型中添加一個變量,妹子隻將能夠最大限度地提升模型效果的變量加入模型中,直到所有的預測變量都包含在模型中;
-
向後逐步選擇:以半酣所有P個預測變量的模型開始,每次移除一個最有用的預測變量;
-
混合方法:該方法遵循向前逐步選擇步驟,但是在加入新變量的同時,也移除了不能提升模型擬合效果的變量;
5.特征縮減技術
-
Ridge regression與最小二乘法相似,隻是在平方誤差的基礎上增加了正則項,它損失了無偏性,來換取高的數值穩定性,從而得到較高的計算精度。
-
Ridge regression的一個缺點是無法使得預測因子完全為零,隻是逼近零,這使得模型更難解釋結果;而Lasso克服了這一缺點,能夠迫使某些係數為零。
6.降維
- 可以將主成分回歸描述為從一組大的變量中導出低緯度特征集的方法。其思想是從中選擇排在前麵的幾個主成分,然後利用從數據中抽出的主成分進行回歸,達到降維的目的。
-
,偏最小二乘法是主成分回歸的有監督替代方法,也是一種降維方法。它首先識別出一組小的特征集合,然後通過對新的M個特征最小二乘擬合成線性模型。與主成分回歸不同的是偏最小二乘法利用響應變量識別新特性。
7.非線性模型
-
階躍函數:如果實數域上的某個函數可以用半開區間上的指示函數的有限次線性組合來表示,那麼這個函數就是階躍函數,即階躍函數是有限段分段常數函數的組合。
- 分段函數:在定義域內不同部分上,有不同的解析表達式。
-
樣條函數:樣條是一種特殊的函數,是由多項式分段定義。在計算機圖形學中,樣條通常是指分段定義的多項式參數曲線,並且其結構簡單、擬合準確,並能近似曲線擬合和交互式曲線設計中複雜的形狀,受到廣泛應用。
- 廣義加性模型:是一種廣義線性模型,其中線性預測器依賴於預測變量的未知光滑函數,專注於這些光滑函數的推理。
8.樹形方法
-
Bagging是通過原始數據訓練額外的數據來減少預測的方差的方法。通過增加訓練集的大小,雖然不能改善模型的預測能力,但是能減少方差,將預測調整到預期結果;
-
Boosting是一種用幾種不同的模型計算輸出的方法,然後使用加權平均算法計算出結果的平均值,通過調節權重可以模型能為更廣泛的輸入數據提供良好的預測力;
- Random forest算法類似於Bagging,區別在於還需要繪製用於訓練單個樹的隨機子集的特征。由於隨機特征選擇,這使得樹更加獨立,從而導致更好的預測性能;
9.支持向量機
10.無監督學習
- 主成分分析(Principal Component Analysis)是通過識別一組具有最大方差切互不相關的特征的線性組合並作為研究的特征空間,從而產生低維表示的數據集;
- K-均值聚類(k-Mean clustering)是根據聚類中心的距離將數據劃分為k個不同的簇;
- 層次聚類(Hierarchical clustering)是通過計算不同類別數據點間的相似度來創建一顆有層次的嵌套聚類樹;
James Le,軟件工程師、數據科學家、產品經理。
本文由北郵@愛可可-愛生活老師推薦,阿裏雲雲棲社區組織翻譯。
文章原標題《The 10 Statistical Techniques Data Scientists Need to Master》,作者: James Le,譯者:海棠,審閱:,附件為原文。
文章為簡譯,更為詳細的內容,請查看原文
最後更新:2017-11-04 10:33:36