116
技術社區[雲棲]
想成為數據科學家?你得先讀讀這篇文章
市場營銷學者Kevin Gray對肯納索州立大學研究生院副院長、統計學及數據科學教授Jennifer Priestley做了一個采訪,請教數據科學究竟是什麼、一個好數據科學家應具備哪些品質以及如何成為一個好的數據科學家,訪談全文如下。
Q:您能否用簡單、外行人也能聽得懂的話向我們解釋數據科學?
A:我認為Slack的數據工程總監Josh Wills給出的定義非常恰當——“(數據科學家是)擅長統計學的軟件工程師與擅長軟件工程的統計學家的混合體。”,我還想在這裏加上我本人的“Priestly推論”:“(數據科學家是)擅長對數據分析結果進行商業解釋的科學家與擅長數據分析的MBA的混合體”。
Q:統計學家和數據科學家之間的區別是什麼?
A:這是個好問題。我也經常被問到計算機科學家和數據科學家之間的區別是什麼。事實上這兩個學科也都在探索隱藏在數據中的新內涵。雖然二者都對數據科學這一新生領域作出了令人矚目的貢獻,他們並非完全獨立的。
數據的增長不僅體現在其規模上,還體現在我們對數據這個詞定義的延伸上。舉個例子,文本和圖像已成為日益常見的數據形式並被納入分類及風險建模等分析範疇中。對數據定義的延伸迫使統計學和計算機科學從各自的傳統核心領域進入邊緣領域——在這樣的邊緣領域裏,新的思路開始萌發——兩個學科在邊緣領域的融合成為了數據科學的基礎。
統計學的多數傳統核心內容還未做好處理以十億為單位的記錄及非結構化數據的準備。同樣,計算機科學的核心領域雖然擅長高效獲取並存儲大量結構化和非結構化數據,但在通過建模、分類和可視化等形式將數據轉換成信息的能力上存在短板。
我同意統計學家在數據科學界容易處於弱勢的說法。我認為這很不幸。幾年前,“簡單統計學”(SimplyStatistics)博客發布了一篇名為《為什麼大數據陷入了麻煩:他們忘了運用統計學》的文章。這篇文章指出了人們興衝衝地倒騰機器學習、文本挖掘、神經網絡卻忽視與數據行為(behavior of date)密切相關的變量、置信度、分布等基本統計學概念,導致了糟糕的決定。雖然數據科學不是統計學,但統計學為這門學科貢獻了基礎方法。
Q:我們中絕大多數人直到最近幾年才聽說過數據科學。您能否向我們簡要介紹它的曆史?
A:這個詞最早是計算機科學家Peter Naur在1960年提出的觀點,但“數據科學”在統計學中也留下了進化的種子。1962年,John W. Tukey(我們那個年代最為人所熟知和尊敬的統計學家之一)寫到:“在很長一段時間裏,我認為我是一個統計學家,致力於通過特定樣本推斷總體的麵貌。但自從我看到了數理統計的進化,我發現我真正感興趣的領域是數據分析……數據分析本質上是一門經驗科學。”
1996年,國際分類學聯合會(IFCS)在第五次大會中首次使用了“數據科學”一詞。大會標題為“數據科學,分類及相關方法”。 1997年,吳建福教授(目前在佐治亞理工學院)在密歇根大學統計係就任H. C. Carver講席教授的公開演講中唿籲將統計學更名為數據科學,統計學家更名為數據科學家。
2002年發生了一件數據科學的關鍵裏程碑事件,第一本學術同行評論期刊《數據科學學報》(Data ScienceJournal)正式創刊。此後又出現了其他幾個期刊,專門促進和傳播這一領域的學術研究成果。
專門的學術期刊的出現對於學術界來說尤為重要——這些期刊促成了新的博士課程(比如我們的)和學術部門,為相關研究、獎學金和發表提供了平台。現在數據科學教師和博士生可以在自己的圈子裏——而不是計算機科學、數學、商學的圈子裏——開展研究和分享。
Q:2011年麥肯錫作出了一項廣為人知的研究預測,在2018年“僅美國一國就會麵臨14萬到19萬具備深度分析能力人才的缺口,與此同時存在至少150萬名懂得如何運用大數據做出有效決定的管理人員和分析師的缺口。”這個預測有多準確?我們現在有其他替代方案嗎?
A:我被問到這個問題很多次了——具體來說,許多公司高管問過我諸如“數據科學這事是否隻是一時的風潮?”的問題。我想我們應該重新給這個議題劃個框架。
我的觀點是,我們不需要具有深刻的分析能力的“19萬人”或“150萬管理者”。我認為每個人都需要有一定程度的分析技能。我認為基礎分析素養應該像閱讀、數學一樣成為我們的教育體係的基礎部分。如今看到越來越多小學裏也開始教授基礎的編程技巧讓我備受鼓舞。在大學的層麵,我認為數據科學應成為基礎課的一部分。(我現在可以聽到我們的教務辦公室的人在大喘氣了)。
所以,雖然目前的人才缺口是實實在在的,但這是與市場需求不符的教育製度的造成的。各級教育正在轉向,並很可能在可預見的將來繼續下去。我預計在一代人中,對這些技能的需求不會減少,但供給方麵會與之匹配得更密切。
Priestley推論:“數據科學家擅長對數據分析結果進行商業解釋的科學家與擅長數據分析的MBA的混合體”。
Q:許多人,包括那些考慮到職業生涯中期轉型的人,已經把目光投向了數據科學。但恐怕並非所有人都適合走這條路。請問數據科學工作中需要哪些能力和技能?成為數據科學家的最佳途徑有哪些?
A:這是個絕佳的問題。我們需要做些什麼來讓我們的下一代準備好,但實際情況是,從20多歲到40多歲的人裏很多人正在尋找機會轉行進入數據科學領域工作。
我在辦公室看到很多這樣的人。我已經有不止一次遇上“我剛剛為了拿一張數據科學的文憑向XX大學付了一萬美元......而我還是找不到工作”之類的對話。雖說這些“文憑”中的一些很有含金量,但悲劇的是,大部分都是垃圾。
首先,你不能指望通過參加一個5天結業拿文憑的課程就從詩人變成數據科學家。指望線上的遠程課程就更不靠譜了。
第二點,我認為人們需要對他們完成自己的職業目標要付出的努力抱有正確的期望。這些技能之所以被如此熱切的需要並能給你帶來高薪是因為它們很難——你最最起碼也得主動學習和精進。
第三點,我認為人們需要清楚他們目前的技能有哪些,他們的目標是什麼。這個問題的答案將決定你如何實現目標。那些受到了簡單的在線證書課程誘惑並深陷其中的人應該想想愛麗絲夢遊仙境裏的那隻Cheshire貓 - “如果你不知道要去哪裏,走哪條路都沒用”。
我對向詢問這一領域相關問題的人給出以下建議:
- 如果你是個想轉行做數據科學的詩人——我是說正兒八經地的投入它並以一種深刻而有意義的方法將它作為你的事業——你需要放下你的羽毛筆,拿出你的牛仔褲和背包,上全日製的學校課程。大多數數據科學研究生課程時間不超過兩年,其中多數會提供各種形式的研究生助學金。你應該爭取參與包括編程,統計,建模的項目。而且還有充足的機會與當地公司,非營利組織,地方政府等等一起進行真正接地氣的項目。
我覺得怎麼強調實際操作、自己動手,實際經驗對一切數據科學項目的重要性都不為過。這就是為什麼在線/短期證書課程對於想在這一領域從頭開始的人來說不起作用。直接上手做項目會幫助你們了解數據科學的更多潛在方麵 - 如講故事的作用,創造力(很遺憾地被忽視了)和項目管理。
- 如果你是個計算機科學家/程序員,就去找找帶有分析課程或者經常使用統計學的商學院課程。你的編程和數學技能多半是他們需要的——你則可能需要上些統計/建模/分析的課程——以及(又一次被)培訓如何講述故事,並學習如何在和你有不同想法的人組成的團隊中工作。
- 我會鼓勵所有人去學習Tableau之類的基本的數據可視化工具。我同時鼓勵所有人定期參加線上/異步編程課程。這些課程都很便宜(有的還不要錢)並能讓你保持犀利的技術。
我的觀點是,並不是每個人都想成為一名計算機程序員——我就不是特別喜歡編程。我是為了獲得我的研究問題的答案而不得不去學編程。如果我能用我信賴的HP-12C計算器和自動鉛筆就找到答案的話那我早那麼做了。在21世紀裏,你必須對基礎數學有所了解,你必須能夠閱讀、寫作並勝任基本編程的工作。
Q:數據科學家常談到在許多組織裏,管理層並不真正知道如何將分析手段運用於決策製定。決策製定仍然多數取決於直覺並且很大程度上受到公司政治的影響。您是否有相同經曆?
A:我經常對公司事務發表評論,隻要問題發生,不管它多不引人注意我都會發表意見。我劃分了談話框架——組織可以大致分為原生數據組織和非原生數據組織兩類。
“原生數據公司”是那些現在占據頭條以及股票市場的公司,如亞馬遜、穀歌、臉書。這些公司在30年前不可能存在。不僅僅因為作為他們存在和運營模式基礎的數據在當時並不存在,還因為即使他們做了,當時也不能獲取足夠的計算能力或執行與人工智能、機器學習、深度學習等方式相關的深度分析方法讓這些公司從事他們現在正在做的業務。
然而,這些公司的另一個維度往往被忽視:由於它們是原生於數據本身,也因此在企業文化上受到了巨大的影響。它們是從組織圖的頂部到底部都由數據驅動的公司。數據貫穿於他們整個公司的DNA。大多數進入這些公司的人都有以數據為中心的方向——並且可能會研究一個計算學科——越來越側重於數據科學。臉書、穀歌的員工年齡中位數是29歲,亞馬遜則為30歲(不包括倉庫員工)。
“非原生數據公司”是在我們聽到諸如“數據科學”和“大數據”這樣的術語很久以前就取得成功的公司。例子包括沃爾瑪和Arby’s。它們都是非常成功的公司,成立之初並沒有數據貫穿於其DNA。
雖然這些公司現在已經大力側重將數據用於公司決策及提供產品和服務,但與建立在計算文化上的組織架構有巨大的不同。這些公司的管理層非常有前瞻性,他們把自己的公司轉變為以事實為基礎、用數據做驅動的組織,從而在市場上獲得了領先者地位。他們各自市場上的對手們(希爾斯百貨,梅西百貨 ... 麥當勞,溫蒂快餐)則沒有。
Q:最後一個問題,您認為人工智能和自動化在未來10-15年裏對數據科學造成怎樣的影響?
A:我並非這一領域的專家,但我認為做出任何預測統計學、計算機科學或數據科學會因自動化而消亡的預言都為時過早。計算器隻是讓數學計算“自動化”……但是如今的數學比以前的計算要更廣闊也更複雜。我期待在數據科學的領域中也是一樣。
原文發布時間為:2017-11-13
本文作者:文摘菌
本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“大數據文摘”微信公眾號
最後更新:2017-11-13 17:04:22