閱讀73 返回首頁    go 阿裏雲 go 技術社區[雲棲]


【機器學習調查】髒數據最棘手,邏輯回歸最常用

數據科學社區Kaggle的最新調查顯示,機器學習和數據科學研究者在被問到工作中麵臨的最大障礙時,最常見的回答是“髒數據”,其次是缺乏該領域的人才。此外,他們最常用的方法是“邏輯回歸”,而神經網絡隻排在第4位。

想象一下機器學習研究者的生活,你可能會覺得很令人向往。你會給自動駕駛汽車編程,在科技界的巨頭公司工作,而你編寫的軟件甚至可能導致人類的滅亡。太酷了!但是,正如最近一項針對數據科學家和機器學習研究者的調查所顯示的,這些期待需要調整,因為這些職業麵臨的最大的挑戰是一些相當平常的事情:清洗髒數據。

這是來自數據科學社區Kaggle(今年早些時候被穀歌收購)的一項調查。該網站130萬會員中,約有16700人回答了問卷調查,當被問及工作中麵臨的最大障礙時,最常見的回答是“髒數據”(dirty data),其次是缺乏該領域的人才。

3f5a688ca40c386a2a801fff537c913fd309b36f

但是究竟什麼是髒數據,為什麼會出現這樣的問題呢?

數據是數字經濟的新石油,這是不言而喻的,但在機器學習之類的領域尤其如此。現代的人工智能係統一般都是通過示例來學習的,也就是說如果你展示給AI係統一大堆“貓”的圖片,隨著時間的推移,它會開始識別構成“貓”的特征。這就是為什麼像穀歌和亞馬遜這樣的公司能夠建立起如此有效的圖像和語音識別平台的原因:它們擁有大量來自用戶的數據。

但AI係統仍然隻是計算機程序,這意味著如果你在錯誤的時間按下錯誤的按鈕,它們很容易出現故障。這種不靈活性包括他們要學習的數據。這些程序就像那些挑食的嬰兒,除非香蕉攪碎了,否則他們不吃。AI領域的研究員雖然不用處理香蕉,但是要梳理數以萬計條目的數據集,追蹤丟失的值,刪除任何的格式錯誤。

“有一個笑話是,數據科學中80%的工作是數據清洗,另外20%是抱怨數據清洗。”Kaggle的創始人兼首席執行官 Anthony Goldbloom 在 The Verge 的郵件采訪中說道。“在現實中,不同情況數據清洗的工作量有所不同。但是數據清洗在數據科學工作中的比例要高於外界的想象。實際上,訓練模型通常隻占機器學習研究者或數據科學家工作的一小部分(不到10%)。”

Kaggle 這個網站最著名的是競賽,任何公司都可以在上麵發布一個特定的數據相關的挑戰賽,然後付錢給提出最佳解決方案的人。(錢雖然不多,但這是贏得雇主注意的一種很好的方式。)這意味著Kaggle本身也成為了一個有趣的數據集的庫,用戶可以用它們做研究。數據集的範圍很廣,從22000份高中論文,到肺癌的CT掃描,再到大量的魚類圖片(美國一家環保NGO發布的,希望能吸引到更好的識別魚類的AI)。

3ddce98e89330d2f9a780ea915995388a66c6b44

Kaggle的調查也不僅與數據有關,還包括其他有趣的信息。例如,被調查者中受教育程度最普遍的是碩士學位(其次是學士學位,然後是博士學位)。Python是最常用的編程語言,也是他們向想要進入該領域的人推薦的語言的第一名。同樣值得注意的是,盡管人們將注意力集中在像神經網絡這樣的新數據工具上,但大多數從業者更多依賴那些較老的、不那麼吸引人的統計學方法。

e76b9b5f4658f223623222c2b4999d7bc2aec9d7

例如,在“工作中使用什麼數據科學方法”這個問題中,“邏輯回歸”的回答最多(63.5%),而神經網絡隻排在第4位(37.6%)。作為一種數學工具,邏輯回歸方法已經存在幾個世紀了,它被用來發現任何給定數據集的某個點屬於某個特定類別的概率。Goldbloom認為,它之所以受歡迎的原因之一是,它是大學課程的基礎知識,並且在各種各樣的領域都可使用。

他說:“每一個本科有統計學相關課程的學生都會學到線性回歸和邏輯回歸,包括機器學習,計量經濟學,心理學,生物信息學,等等。”Goldbloom說,作為一種數學工具,它可能“不是非常強大”,但學術和行業的慣性意味著它不會很快消失。正如Kaggle的一位排名高的“grandmaster”在調查回答中說:“30萬年後,地球上仍將存在石頭、蟑螂和邏輯回歸。”

與此同時,最受關注的是神經網絡,因為這類方法特別適合於涉及圖像、視頻和音頻數據的任務。(這些正是現在AI變得很酷的方向。)不過,對於文本和數字信息,較老的方法更合適。因此,如果你打算盡快入門機器學習或數據科學,準備好開始清洗數據吧!


原文發布時間為:2017-11-5

本文作者:馬文

本文來自雲棲社區合作夥伴新智元,了解相關信息可以關注“AI_era”微信公眾號

原文鏈接:【機器學習調查】髒數據最棘手,邏輯回歸最常用

最後更新:2017-11-06 10:34:06

  上一篇:go  mysql server_id重複導致的錯誤
  下一篇:go  MaxCompute 2.0: Evolution of Alibaba's Big Data Service