479
京東網上商城
機器學習和統計學的“愛恨情仇”可以結束了
更多深度文章,請關注:https://yq.aliyun.com/cloud
圖片來自知乎
機器學習,是人工智能的一個子領域,主要關注於開發一些讓計算機可以自動“學習”的技術。更具體說,機器學習是一種用於創建數據集分析程序的方法。機器學習跟統計學有著重要的關係,因為這兩個領域都是研究數據分析,但是機器學習又不像統計學,機器學習關注的是計算實現的算法複雜度。
統計學,是在統計實踐的基礎上,自17世紀中葉產生並逐步發展起來的一門社會學科。它是研究如何測定、收集、整理、歸納和分析反映客觀現象總體數量的數據,以便給出正確認識的方法論科學,被廣泛的應用在各門學科之上,從自然科學和社會科學到人文科學,甚至被用來工商業及政府的情報決策之上。
隨著機器學習的不斷興起,處理數據的鼻祖統計學認為:模式識別和機器學習裏麵全都是統計理論。但是機器學習者認為ML更強調algorithm-oriented(麵向算法),而統計學的話更偏重於model-oriented(麵向模型)。換言之,機器學習更加強調算法的結果要好,所以機器學習很關注損失函數(差不多就是描述預測與實際之間的偏差,跟殘差的概念有一點點像)。而統計學要先扔出來一大堆模型假設,然後站在模型上麵通過嚴格的數學推導做出結果。
在整個曆史上,機器學習(ML)與統計學的關係一直是很僵硬的,就像一個男的不小心出現在前女友的婚禮招待會上,既不知如何對話,又痛苦地意識到潛在的尷尬。這是因為機器學習采用了許多統計方法,但從來沒有意圖取代統計學,甚至是維持原本統計學的基礎。然而,統計學家和ML從業者往往最終在一起工作或者從事類似的任務,並且想知道每一個問題。問題是“ 機器學習與統計學到底有哪些不同?“這個問題現在已經問了幾十年了。
機器學習是一個混合領域,從各種領域獲取靈感和技術,這也是ML更加讓人難以理解的原因吧。由於統計學能被更好地理解為一個領域,而ML似乎又與之重疊,兩者之間的關係問題頻繁出現。已經給出了許多答案,從中立或不屑一顧:
· “機器學習本質上是一種應用統計的形式”
· “機器學習是被美化的統計學”
· “機器學習本質就是將統計數據擴大為大數據”
· “簡短的答案是沒有區別”
可疑或貶損的答案:
· “機器學習是不能通過統計課程的計算機科學專業的人瞎搞出來的”。
· “機器學習是統計學減去模型和假設的應用,是不科學的。
· “我不知道機器學習在十年內會是什麼樣子,但無論如何,我相信統計學家們會嗚咽。”
關於機器學習和統計學,上麵的答案有些口水仗的意思。更糟糕的是,哪些領域“擁有”什麼技術問題?邏輯回歸是統計學還是機器學習?如果在Spark中實現又如何實現?回歸分析真的是機器學習嗎?我們已經看到許多答案,我們認為是誤導,不相幹,混亂,甚至是錯誤的。
我們(湯姆,機器學習從業人員,德魯,統計學家)已經合作了好幾年,相互觀察數據密集型項目的分析和解決問題的方法。我們花了幾個小時嚐試了解不同學科的思考過程並討論差異。
正如我們所看到的,差異不僅僅是算法和經驗,而是目標和策略。這兩個領域都不是其他領域的一個子集,他們就像兩對老人坐在公園裏玩兩個不同的棋盤遊戲。這兩款遊戲都使用相同類型的棋盤和同一組棋子,但是每個棋子都以不同的規則落子,並且具有不同的目標,因為遊戲根本不同。
這個博文的目的就是幫助您解開統計學和機器學習的“愛恨情仇”。
統計:
統計學和機器學習都從數據創建模型,但是是為了不同的目的。統計學家主要關注使用一種稱為特殊類型的統計量的度量。這些度量最常見的是平均值和標準偏差。統計學家將這些統計數據用於幾個不同的目的,劃分領域的一種常見方式是描述性和推論性統計領域。
描述性統計數據涉及描述原始數據的結構,這些描述性統計數據提供了一個更簡單的方式來了解什麼是非常複雜的數據。
推理統計數據處理關於數據的陳述。該領域真正來自卡爾·皮爾遜(Karl Pearson),費雪(RA Fisher)等人的開創性工作。推理統計試圖解決如下問題:
· 龍卷風庇護所的人的生存率要高於躲在橋下的人嗎?
· 通過考慮區域人口的樣本,總人口的估計數量是多少?
· 在未來的某一年,本市有多少人需要接受治療?
· 您的銀行賬戶應該有多少錢,才能夠支撐你每月的消費?
· 明天有多少人會在當地的雜貨店出現?
這些問題就是估計和預測,如果我們有完整的信息,可能會準確計算這些值。但在現實世界中,總是有不確定性,這意味著你所做的任何預測都有錯誤的機會。
盡管有不確定性,但仍然需要做出決定,統計提供了製定更好決策的框架。為此,統計學家需要評估與各種結果相關的概率。為了做到這一點,統計人員開始使用模型。在統計中,建模的目標是接近數據,然後理解數據的過程,最後通過理解數據的結果來回答你真正關心的問題。
在實踐中,統計學家經常進行簡單的分析,有些分析結果並不是真相。但基本思想是健全的,因為在分析中做出的每一個選擇都必須是可辯護的。
總之,統計學家主要關注模型的有效性、模型參數的準確估計和模型的推論。然而,對於未知的數據的預測,這不是統計學家的關注點。
機器學習:
機器學習的發展非常曲折,原來它是AI的一部分,關注所有人類智慧行為。在過去的幾十年中,它已經轉向工程/性能的關注。在機器學習中,主要任務是預測:為了預測而建立模型。我們暫時擱置機器學習的其他問題,因為預測分析是主要的子領域,並且這個領域經常被拿來與統計學比較。
在ML的預測分析中,每個示例都有一個標簽,根據問題類型,它可以是類的名稱(分類)或數值(回歸)。它創建一個模型,其目的是預測。具體來說,學習算法分析數據示例,並創建一個程序,給定一個新的未知的示例,這個示例可以準確預測。然後利用數據的另外一部分,驗證模型。或者,可以采用諸如引導或交叉驗證的方法以原則方式重用數據。
具有良好性能特征的模型可以預測哪些客戶是有價值的,哪些交易是欺詐性的,哪些客戶是良好的貸款風險,患者是否患有癌症等等。這一切都假定未來將與過去相似,這是假設一定程度的因果關係,當然,這種因果假設必須得到驗證。
請注意,與統計相反,這裏的目標是產生最佳的預測。ML開發者通常進行一些探索性數據分析,但隻能讓數據指導功能選擇和模型選擇,其目的是純粹的功能。沒有ML從業者準備證明模型的“有效性”,這在機器學習中沒有任何意義,因為該模型真的隻是對功能性能的輔助。機器學習的格言也可以是:模型的證明在測試集中。
這種方法對ML與統計數有一些重要的影響。
1.ML從業人員不用擔心模型假設或診斷。如果模型假設造成不良預測,則隻是一個問題。當然,從業者經常執行標準的探索性數據分析(EDA)來指導模型類型的選擇。但是,由於測試設置的性能是模型質量的最終仲裁者。
2. 也許更重要的是,ML從業人員不用擔心假設被違反的情況,因為模型很可能依然有用。這種情況並不罕見。例如,樸素貝葉斯分類器背後的理論假設屬性—獨立性,但實際上它在包含依賴屬性。
3.通常,預測分析的目標是最終部署預測方法,以便決策自動化。因此,數據科學家必須牢記務實的計算問題:如何實現?它有多快?模型在哪裏獲取數據?最終決定是做什麼的?這樣的計算問題對於統計學家通常是不必要的。
對統計學家來說,機器學習可能看起來像一個工程學科。實質上,所有的ML技術都采用單一的診斷測試:在一個保留數據集上的預測性能。而且由於機器學習經常涉及大型數據集,所以ML從業者可以選擇非參數模型,這通常需要比參數模型更多的數據。
一個典型的例子,隨機森林和推動決策樹。這些例子的理論都是非參數化技術,需要相對較大數量的數據來訓練。診斷測試也不是假設何時可以使用或不能使用,因為兩者都是“黑盒子”模型,產生的都是幾乎難以理解的分類器。由於這些原因,統計學家不願選擇它們。然而,令人驚訝的是,它們在預測問題上幾乎驚人地成功了,他們在Kaggle比賽中獲得了高分。
總結:
總而言之,統計與機器學習領域有很大的區別,如聚類,關聯規則,特征選擇,評價方法等。統計學和機器學習對數據科學都有很大的貢獻,但它們有不同的目標。雖然方法和推理可能重疊,但目的卻很少一樣。調用機器學習“應用統計”是誤導性的,對這兩個領域都是不利的。
機器學習通常被教授為計算機科學課程的一部分,統計學由專門數學係的一部分教授。在許多情況下,當提及完全相同的事情時,兩個領域都使用不同的術語。將兩組合在一起成為一個數據科學團隊或許可以創造一個非常有趣的團隊氛圍。
從根本上說,ML和統計數都靠數據解決問題。機器學習可能強調預測,統計可能更多地關注估計和推論。重要的是,兩者的對話可以帶來兩個方麵的改善。例如,諸如正則化和重采樣等主題與兩種類型的問題都是相關的。
本文由北郵@愛可可-愛生活老師推薦,阿裏雲雲棲社區組織翻譯。
作者:Tom Fawcett
譯者:袁虎 審閱:主題曲
文章為簡譯,更為詳細的內容,請查看原文
最後更新:2017-09-24 16:03:53