閱讀104 返回首頁    go 阿裏雲 go 技術社區[雲棲]


福利 | 分析554條數據科學麵試問題,給你靠譜求職攻略


0?wx_fmt=jpeg

◆ ◆ 

導言


全世界頂尖的數據科學團隊正在做著令人難以置信的工作,分析世上最有意思的數據集。


相比20世紀的研究者,穀歌(Google)擁有更多與人類利益相關的數據,而優步(Uber)每天無縫地協調著超過一百萬人的行程、價格。借助機器學習和人工智能,頂尖的數據科學團隊正在改變我們攝取和處理數據的方式,而且他們提出的眾多確實可行的見解,影響了數百萬人的生活。初出校門的你們、或者準備跳槽的你們,是不是激情澎湃地想要加入這史詩般的工作?


假若這些頂級數據科學團隊的麵試都有類似的模式,可以讓求職者掌控麵試過程,將會怎樣?


假若不同團隊之間的詳細差異以及他們具體的麵試操作可被列舉出來,使得與一個頂尖數據科學團隊麵晤更接近於一次科學經曆而不是一場行為藝術,將會怎樣?


在跳板(Springboard)這個網站上,我們教授數據科學技能,很多學生來選修我們的課,因為他們有誌於開啟數據科學職業生涯。鑒於此,我們編寫了數據科學職位指南和求職麵試指南,以幫助我們的學生走好通向該領域的理想工作的下一步。我們一直被這些頂尖數據科學團隊所做的工作深深吸引,我們也試圖幫助我們的畢業生清楚如何才能打入這些團隊內部。


以往從未有人搜集來自這些公司的不同麵試案例,讓你可以獲得這些你所需的數據,以使你能在數據科學麵試過程中斬獲王牌。而我們卻力圖改變這一現狀。


我們從一個名叫玻璃門(Glassdoor)的網站尋找來自於不同數據科學公司不同麵試問題的源數據,這些公司的數據科學團隊被廣泛認為是世界一流的。


接下來你將看到頂尖的數據科學團隊的麵試是什麼樣子,以及如何才能加入這些團隊。我們對Google、Airbnb、Facebook、Uber和其他頂尖公司的數據科學職位麵試過程分析所得到的結果總結如下。


◆ ◆ 

分析報告


我們進行這項分析是想知道頂尖的數據科學團隊是如何麵試的,作為求職者的你又該如何準備。我們將分析結果總結為以下可行的6點——


  1. 研究!研究!研究!重要的事情說三遍。花時間去了解該數據科學團隊正在做些什麼。你將會被問到很多與公司當下情形以及正在做的產品有關的問題,無論是關於某個領英(Linkedin)上你認識的人,或者判斷優步(Uber)司機應當如何和乘客適配。有備無患,這樣會使你在麵試過程中表現得更優異,也將能更好地與同事共事。

  2. 準備四類數據科學問題:統計與概率問題,編程問題,商業思維問題,和文化/角色契合問題。

  3. 練習統計建模/歸因,描述機器學習的概念,並在時間約束下,從基礎到高階將其與SQL、R和Python結合進行練習。數據科學的麵試過程是一個非常標準的、跨公司的流程:電話篩選、測試,然後再進行現場麵試。你若想確保麵試和限時作業完成順利,那就多訓練自己在限定的時間內使用SQL、R和Python。很多帶回家的作業試圖就這個問題抓住你,在極其有限的時間內測試你對該程序語言的熟悉程度。展示你能用Hadoop這類的框架進行快速思維,能起到加深雇主印象的作用。但也不要忘記基礎知識!有些公司會問一些基礎的統計知識,以確認你是能力最出色的那個。

  4. 找個有力的推薦者。我們調查過9家公司,其中4家有內部推薦麵試(Google, Uber, Facebook, Airbnb)。總的來說,內部推薦是麵試機會的第二大來源。你最好認識公司裏的一些人,請他們推薦,而不僅僅是網上申請。

  5. 準備你的故事。你會被要求詳細複述過去的工作。在回顧你所做過的工作時,從所用的工具、到為何你做出不同的決斷,要準備好盡可能多的具體細節,言之有物,而非泛泛而談。必須準備好如何連貫的述說你的故事,在故事中你是如何成就了出色的業績、提高了業務成效。

  6. 做好打持久戰的準備。數據科學職位的麵試要經過好幾輪,可能要持續幾個月。確保你已做好等待的準備。


最重要的是,我們認識到數據科學麵試過程猶如一頭複雜的野獸,必須用精準熟練的行動才能捕獲它。


數據科學麵試問題的分類


從Glassdoor受訪者提供的554條真實的麵試問題中,我們找到了一個數據寶藏,其中涵蓋了數據科學團隊在麵試中測試到的所有技能。我們將這些問題歸結為以下幾類:


第一類: 統計和概率問題


0?wx_fmt=png 

上麵這張圖來源於臉書(Facebook),發表於2013 年9月12日。問題是這樣的:你計劃乘飛機去西雅圖,想知道是否應該帶傘。你隨機選了住在當地的3個朋友,分別給他們打電話,詢問是否在下雨。每個朋友都有2/3的幾率告訴你真實情況、有1/3幾率用假消息幹擾你。所有的3個人都回答你“是的”在下雨。那麼西雅圖真正下雨的概率是多少?

該問題共有26 條回答。其中一條用貝葉斯統計答道:你應該取得任何一天西雅圖下雨的幾率作為先驗概率。如果麵試中你提到這點或者詢問這點,麵試者告訴你用25%,然後直接這樣解答:


0?wx_fmt=png


於是你得到答案:是的,我應該帶傘。(是的,是的,除非你朋友一直都是用假消息在幹擾你)

統計和概率的問題常常是數據科學工作的重要組成部分。這類麵試問題是測試求職者的思維,以及如何就不確定性作出合理解釋,是數據科學家要掌握的一種基本技能。


幫助你準備統計和概率麵試問題的文章請點擊:How Bayes Theorem, Probability, Logic and Data Intersect

(https://www.springboard.com/blog/probability-bayes-theorem-data-science/)


幫助你準備統計和概率問題的書請點擊:Think Stats, Probability and Statistics for Programmers

(https://greenteapress.com/thinkstats/)


幫助你準備統計和概率問題的互動課程請點擊:Probability and statistics with KhanAcademy

(https://www.khanacademy.org/math/probability)


第二類:編程問題


0?wx_fmt=png


2013年5月26日發表於臉書的這條麵試問題是:寫出這樣一個函數,輸出兩個整理好的數據列的合集。

8條答案中的一條是:f(a,b){return sort(unique(a,b))}

如果說統計和概率問題相對於數據科學工作,就像肉相對於一道土豆燉肉,那麼編程就是其中必備的土豆。數據科學要求批量式處理數據,也就是需要編寫程序來實現海量工作的自動化。


幫助你準備程序麵試問題的文章請點擊:Data science sexiness: Your guide to Python and R, and which one is best

(https://thenextweb.com/dd/2016/04/08/start-using-python-andor-r-data-science-one-best/)


幫助你準備程序麵試問題的書請點擊:Cracking the Programming Interview

(https://www.amazon.com/Cracking-Coding-Interview-Programming-Questions/dp/0984782850)


幫助你準備程序麵試問題的DataCamp動課程請點擊:Intro to Python for Data Science

(https://www.datacamp.com/courses/intro-to-python-for-data-science)


第三類:商業思維和案例研究


0?wx_fmt=png


2013年4月5 日發在臉書上的這則問題是:你正在為用戶編譯一份每月上傳的內容的報告,並注意到10月份的上傳激增。具體來說,是上傳的圖片激增。你覺得可能是什麼原因導致這個現象?如何測試?


下麵唯一的一條答案是:假設這些圖片是萬聖節的,對比檢查那些不過萬聖節的國家的圖片上傳趨勢,以此作為某種反事實分析來測試。


數據科學的第三板是把你的發現,用驅動業務的行動和成果的方式進行解釋。這類麵試問題測試的是你對導致所觀察到的行為發生的可能因素的思考能力。


幫助你準備商業思維和案例研究問題的文章請點擊:Tips for Data Scientists: Think Like a Business Executive

(https://www.kdnuggets.com/2016/05/tips-data-scientist-think-like-executive.html)


幫助你準備商業思維和案例研究問題的書請點擊:Data Science for Business

(https://www.amazon.com/Data-Science-Business-Data-Analytic-Thinking/dp/1449361323)


幫助你準備商業思維和案例研究問題的互動課程請點擊:Data Analytics for Business

(https://www.springboard.com/workshops/analytics)


第四類:文化/角色契合問題


0?wx_fmt=png 

2010年4月6日發在華盛頓大學網站的一則問題是這樣的:該大學的研究型科學家、三級工程師、數據管理者被問到,若自己隻是一個程序員,你會覺得平和嗎?


回答:如果這樣的定位是正確的,會。


第四類問題是詢問你與該職位和雇主公司文化的契合程度。這類問題可被當作行為麵試,應當如實麵對自己的期望。


◆ ◆ 

頂級數據科學團隊麵試是如何操作的?


考察了被問到的500多個數據科學麵試問題的類別之後,我們決定更深入地觀察幾個我們熟知的業內備受推崇的數據科學團隊——從穀歌(Google)到領英(LinkedIn)。這些大公司有能力在數據科學人才上花費,並有著大量關於他們麵試的回顧和評論,使得我們能夠深入探索他們的麵試過程。

0?wx_fmt=png 

在所選定的公司的麵試過程中,平均看來,穀歌的麵試是最難的,而摩根大通(JPMorgen)最容易。根據Glassdoor的受訪者反饋,穀歌麵試的挑戰不僅僅在於麵試問題的數量,也在於被指派的執行麵試者的人數。

 0?wx_fmt=png

在Glassdoor通過整合公司資料、核對的113例受訪者中,有44%是通過網上申請獲得他們的麵試機會,大約33%是通過內部推薦得到麵試。考慮到大多數人是網上申請,而謀求一個內部推薦的門檻的壁壘之高,這些數字也成為內部推薦有多重要的指征。

  0?wx_fmt=png

上圖顯示,獲得最多正麵評論的公司是穀歌,有接近60%的受訪者有積極的麵試體驗。坐標的另一端,Yelp和摩根大通的正麵評價為零,但應當指出的是,這個結果受樣本數量限製,有這兩家公司麵試經曆的受訪者一共僅有9人。


我們發現我們以往的學生通過內部推介獲得麵試比網上投簡曆獲得麵試的機會要高8倍。


Facebook數據科學家麵試(55條評論) 


0?wx_fmt=png

在Facebook上的大部分數據科學麵試經驗表現較為樂觀,其中,有49%的麵試者被雇傭,而23%的麵試者最終沒有通過麵試。大多數的候選人都是通過在職員工或招聘人員獲得麵試機會。麵試過程被評為略高於平均水平難度,在1到5的分值區間內得分為3.4,其中5表示最難。


麵試的標準流程是通過手機屏幕進行,候選者把數據挑戰帶回家,然後通過屏幕共享SQL數據挑戰,而後在現場階段,需要和團隊中的每個人進行多重1:1麵試。麵試過程的開始階段主要是關於SQL,後麵部分更著重於機器學習並構建一種廣告模式(Facebook的焦點所在)。也會有關於如何設計一個特定的Facebook功能等的一些開放式場景問題,這是產品管理和數據科學特別關注的方麵。


該麵試過程被描述為時間長,平均等待期可達3個月以上,所以如果需要等待一段時間,也無需驚訝。


Facebook的數據科學團隊正在做什麼:研究團隊在Facebook上分享他們正在做的工作,內容包括如何推動新聞周期和盲人如何與社交網站互動的深入分析。


Uber數據科學家麵試(18條評論)


0?wx_fmt=png 

Uber的數據科學家的麵試有些消極,61%的人表示他們沒有很好的體驗。獲得麵試機會的人群中有較高比例是通過網上申請,通過員工推薦獲得麵試機會的比率也與它相同,均為35%。麵試過程評級為平均難度3.1分。


標準的麵試過程是這樣的,通過一塊電話屏幕,要求一項作業限定在兩小時內完成(分為SQL分析和帶有樣本數據集的開放性問題),然後是混合了技術和行為問題的現場係列麵試。


Uber的數據科學麵試中技術問題是Uber麵臨的特定難題:麵試者會被要求解決泊鬆分布、時間序列分析以及應該如何從算法上讓司機接受預約的相關問題。Uber的數據科學團隊注重於快速最優化、時間敏感性的交互作用,這些都與他們的麵試相對應。


在Uber的數據科學團隊是這樣工作的:本段探討當前在Uber工作的數據科學家Emi Wang的日常工作,他指出工作範圍包括書寫產品代碼、進行業務分析以及為新項目建立模型,包括為Geosurge調節供需,即Uber內部的峰值定價工程。


LinkedIn的數據科學家麵試(17條評論)


0?wx_fmt=png 

LinkedIn的麵試評價基本上是積極的,其比例是負麵評價的兩倍。大多數候選者都是通過網上申請獲得麵試機會的,所以可以在那裏試試運氣!麵試過程難度被評為略低於平均難度的2.8分。


LinkedIn招聘人員將這麵試過程描述為:首先由一個招聘人員進行電話麵試,第二個電話麵試是團隊領導,然後是一個在線麵試。許多候選人會接收一個可打包帶回家的數據科學任務,在三、四個小時內的任意地方完成均可。


LinkedIn數據科學家麵試的問題主要圍繞在LinkedIn感興趣的領域,如預測員工的工資或已經形成的工作特征(例如:你可能認識的人)。了解Python和機器學習在某種意義上是LinkedIn團隊最看重的,雖然這些在稍後階段會測試的更多。早期階段會通過SQL和數據挖掘問題淘汰掉較弱的候選人。


LinkedIn的數據科學團隊是這樣工作的:前LinkedIn產品總監丹尼爾·頓克朗(Daniel Tunkelang)對LinkedIn產品數據科學團隊的每個人及其在2012年的工作情況給出了一個簡短的描述,他們的工作內容包括更新網絡流,以便它能與用戶更相關,並更好地代表職位。


Twitter數據科學家麵試(11條評論)


0?wx_fmt=png 

Twitter的數據科學麵試評論大多保持中立態度,具體表現為45%的中立、27%的正麵和27%的負麵評價,大多數申請人來自網上申請。在Twitter的麵試難度被評為比平均水平更難的3.5分。盡情地準備迎接挑戰吧!


網友評論表示,盡管麵試過程被描述為要經曆相當長的一段時間,但是回複速度卻相當快。首先是一次在線編程測試,然後是兩次電話麵試,其中一次是關於編程,另外一次是關於統計推理。最後是兩次是通過Skype通話的現場麵試,其中一次的重點是數據科學,另一次的重點是編碼。


編碼方麵的問題對於軟件工程麵試而言是相當常規的,但是Twitter的數據科學麵試問題是開放式的,重點是關於Twitter當前的業務問題。候選者會被測試到他們對A/B測試的認識程度,並使用collabedit.com挑戰遙控編碼。一位候選者寫到,他們收到了大量的關於機器學習理論和算法設計的白板問題。


Twitter數據科學團隊是這樣工作的:文章分享了一個數據科學家的經驗,他有在Twitter做數據科學的兩年工作經驗。他的工作內容包括記錄為什麼某些國家有更高比例的多個帳戶和可能影響這種因果關係的因素,以及有多少用戶可以使用不同的通知類型。


Airbnb數據科學麵試(13條評論)


0?wx_fmt=png 

許多人在Airbnb獲得了積極的體驗,其中36%得麵試經曆被評為積極的而27%為消極的。大多數參與者來源於在職員工推薦:Airbnb似乎強烈地看重自己的內部推薦係統。麵試難度被評為比平均水平更難的3.5分。


麵試過程實際上是少數已廣泛公開的麵試方式之一,最著名的來自Airbnb數據分析主管。他將此過程描述為,首先通過電話屏幕做一個基本的數據挑戰,篩選出解決了數據問題的人員,然後是分析一個內部數據案例,接下來是四次麵試,集中於文化適應和與業務合作夥伴的溝通能力方麵。


Glassdoor的評論確認這是固定的流程,可帶回家的數據挑戰主要在於A/B測試和對特定結果的意義分析,而內部數據挑戰在於統計建模。熟悉Python和R對於挑戰而言是很基本的,但時限很短,所以你得在有限時間內做到最好。Airbnb的數據科學團隊區別於其他團隊就在於他們的分析,他們深切關注用戶對Airbnb產品的想法,如果你已經是它的使用用戶,那麼準備好使用Airbnb應用程序中存在的問題以及你對此的想法。


在Airbnb的數據科學團隊工作是這樣的:本文介紹了在Airbnb團隊中數據團隊是如何驅動民主化的數據文化的。


Yelp數據科學麵試(6條評論)


0?wx_fmt=png 

大多數申請人是通過在線方式獲得在Yelp的麵試機會。麵試過程難度被評為略高於平均水平的3.3分。


麵試過程如下:一次限時的在線挑戰,一場電話麵試,然後一場與4個人麵對麵的現場麵試。


Yelp擁有相當開放的企業文化,以分享他們使用的不同工具,類似於穀歌。Yelp的數據科學麵試問題是相當標準的。


Yelp的數據科學團隊是這樣工作的:本文介紹了一個示例項目,深度學習被用於分類餐廳圖片,決定它們是否是食物的圖片,或是餐廳的內部/外部圖片。


Google的數據科學麵試(6條評論)


0?wx_fmt=png 

穀歌的麵試評論大多數是正麵的,60%的體驗者提交了積極的評論報告。員工推薦是獲得麵試比例最高的方式,有50%的受訪者聲稱這是他們的求職路徑。麵試過程被評為是難度最高的,達到3.7分。


麵試過程最初是電話屏幕,一場重點在技術上的電話麵試,然後是緊張的現場麵試周期,與好幾個穀歌員工每人進行長達一小時的麵試。電話麵試混合了基本計算機科學和統計的問題,重點是用R和SQL分析數據。穀歌的數據科學麵試問題主要是看你可以將數據切片和切塊得有多好。


穀歌的數據科學團隊是這樣工作的:“非官方”穀歌數據科學博客分享了團隊正在研究項目的財富,包括如何作為數據科學家邁入穀歌的大門。


JPMorgan數據科學麵試(3條評論)


0?wx_fmt=png 

摩根大通(JPMorgan)的候選人來自校園招聘、網上申請和員工推薦的機會幾乎是均等的。麵試過程難度被評為低於平均水平的2.7分。


該過程開始是30分鍾的電話麵試,然後是招聘經理和比經理級別更低的一個員工通過視頻進行麵試,再與幾個人進行麵談。摩根大通最感興趣的是測試財務知識以及機器學習知識。他們還重視與業務團隊的溝通能力,在這點上,會要求候選人講如何給非技術團隊成員解釋線性回歸。


在摩根大通的數據科學團隊是這樣工作的:摩根大通使用Hadoop獲得大量的客戶和交易數據,並將其與社會媒體提及的信息合並,以獲得他們所服務客戶的完整視圖。

原文發布時間為:2016-10-08


本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號

最後更新:2017-06-02 19:34:10

  上一篇:go  帝國理工創新領袖:數據驅動創新的五種模式
  下一篇:go  穀歌R語言格式指南