閱讀747 返回首頁    go 阿裏雲 go 技術社區[雲棲]


4類數據科學工作和8個讓你被錄用的技能


0?wx_fmt=png

想找一份數據科學家的工作?這是個正確的決定!


哈佛商業評論最近刊登了一篇由Thomas Davenport 和 D.J. Patil 共同撰寫的文章,稱數據科學家是二十一世紀最性感的工作。


但是你要怎麼進入這個行業呢?


許多資源也許會讓你以為,成為一個數據科學家需要全方麵掌握一些領域,例如軟件開發,數據修改,數據庫,統計學,機器學習和數據可視化。


不必擔心。以我作為一個數據科學家的經驗,事實並非如此。你不需要盡可能快地學習值得一生知道與數據相關的信息和技能。相反,要學會仔細閱讀數據科學類工作的描述。這將使你能夠申請你已經擁有必要技能的工作,或者去掌握你想要匹配的工作的特定數據技能。


◆ 

4種數據類型工作


數據科學家是經常被用做描述那些截然不同的工作的一個總稱。這裏有四種類型的數據科學工作:


一、數據科學家是住在舊金山的數據分析師


除了開玩笑之外,實際上在有一些公司擔當數據科學家就等同於擔當一個數據分析師。你的工作可能包括從MySQL數據庫中提取數據,成為一個Excel數據透視表的大師,並且生成基礎的數據可視化(例如,線狀和柱狀圖)。你有時分析A/B測試的結果或者主要負責你們公司的Google分析賬戶。像這樣的公司對有抱負的數據科學家是一個摸到竅門的好地方。一旦你對你日常職責有所了解,一個像這樣的公司會是一個嚐試新事物和提升技能的好環境。


二、請查看我們的數據!


似乎有許多公司達到了擁有大量流量(越來越多的大量數據)的地步,並且他們尋求某人來建立公司需要向前邁進的大量數據基礎設施。他們也在尋找某人提供分析。你會看到招聘公告在“數據科學家”和“數據工程師”下列出。由於你是最初的數據招聘(的一員),這裏可能有許多短期內絕佳的機會,使你是一個統計學或者機器學習專家變得次要。


一個有軟件工程背景的數據科學家可能在這樣的公司表現突出,更重要的是數據科學家對生產代碼做出了有意義的數據貢獻並提供了基本的見解和分析。初級數據科學家的指導機會可能在這樣的公司不太豐富。因此,你會有很大的機會去閃耀和成長通過火的考驗,但會有更少的指導,你可能會麵臨更大的下滑或停滯的風險。


三、我們是數據,數據是我們


有許多公司,數據(或者數據分析平台)就是他們的產品。在這種情況下,數據分析或機器學習將是相當激烈的。這可能是一個有正式的數學、統計、或物理背景的人的理想情況,並希望能繼續走一個更學術的道路。相比於他們回答公司的經營問題,這種類型的數據科學家可能更側重於生產大數據驅動的產品。屬於這一群體的公司可能是麵向消費者的公司,這些公司擁有大量的數據或是提供基於數據的服務。

 

四、數據驅動的大規模的非數據公司


很多公司都屬於這個類型。在這種類型的公司裏,你會加入一個由其它數據科學家組成的已有的團隊。你麵試的公司關心數據,但可能不是一個數據公司。同樣重要的是你可以進行分析,觸碰產品代碼,可視化數據,等等。一般來說,這些公司要麼找通才,要麼他們正在填補一個特定的他們覺得自己的團隊缺乏的職位,如數據可視化或機器學習。當在這些公司的麵試時,一些更重要的技能是熟悉對 “大數據”的工具設計(例如,Hive 或者 Pig)和處理雜亂的、“現實生活”的數據集的經驗。


希望這能給你對於 “數據科學家”這個職位有多寬泛有一個認識。四種上述公司的“人格”是尋求不同的技能、知識和經驗水平。盡管如此,這些招聘職位都很可能會說是“數據科學家”,所以仔細觀察一下你的工作描述,對於你會加入什麼樣的團隊有一個認識,並了解需要發展什麼技能。


0?wx_fmt=png

◆ 

你應該培養的8大數據科學核心技能


1、基本工具(Basic Tools):無論你麵試的是什麼類型的公司,你都會被期望知道如何使用該行業的工具。這意味著你應該知道一種統計編程語言(如R或Python)和一種數據庫查詢語言(如SQL)。


2、基本統計(Basic Statistics):至少對統計數據有基本了解對成為數據科學家至關重要。一個麵試官曾經告訴我,他麵試的許多人甚至不能說出P值(p-value)的正確定義。


你應該熟悉統計檢驗、分布、最大似然估計等。請回想一下你的基礎統計課程!不僅機器學習的情況是如此,一個更重要的關於你統計知識的方麵是理解不同的技術在什麼時候是(或不是)一個有效的方法。統計對所有的公司類型都很重要,特別是數據驅動的公司,這些公司的產品不是以數據為中心的,但產品利益相關者將依靠你的幫助做出決策和設計/評估實驗。


3、機器學習(Machine Learning)如果你在一家擁有大量數據的大型公司,或者在一家其產品本身是數據驅動的公司工作,那麼你可能會想要熟悉機器學習方法。這意味的是像k-最近鄰、隨機森林、集成方法的所有流行的機器學習方法。很多這些技術都可以使用RPython庫實現 - 因為這一點是真實的,所以即使你不是知道這些算法如何工作的世界首席專家,你也不一定是一個交易破壞者。更重要的是理解其大致框架,並且真正了解在什麼時候適當地使用不同的技術。


4、多變量微積分和線性代數(Multivariable Calculus and LinearAlgebra)事實上,你可能會在麵試中被要求獲得一些你在其他一些地方使用的機器學習或統計結果。即使你沒被要求,你的麵試官可能會問你一些基本的多變量微積分或線性代數問題,因為它們構成了很多這些技術的基礎。你可能想知道即使在sklearn或者R中有一堆開箱即用的實現工具,為什麼數據科學家需要理解這個東西。答案是,在某一特定情況下,一個數據科學團隊需要在公司內部自己實現時,它就變得值得了。了解這些概念對於那些產品由數據定義的公司來說是最重要的,同時預測性能的小改進或算法的優化可以為公司帶來巨大的成功。


“數據科學家”經常被一攬子的用來描述那些截然不同的工作。


5、數據清理(Data Munging)通常,你正在分析的數據會是混亂並且難以使用的。正因為如此,知道如何處理數據中的缺陷非常重要。數據缺陷的一些例子包括缺失值、字符串格式不一致(例如,“New York”與 “new york”與“ny”)和日期格式(“2014-01-01”與“01/01/2014”,unix時間與時間戳timestamps等)。這對於在早期數據租用的小公司或者產品不是數據相關的數據驅動型公司(特別是後者,因為其通常快速成長而不太注意數據清潔度)是最重要的,但這個技能對每個人都很重要。


6、數據可視化和溝通(DataVisualization & Communication)可視化和交流數據是非常重要的,特別是在首次進行數據驅動決策的年輕公司,或者在數據科學家被視為幫助他人做出數據驅動決策的公司。當談到溝通時,這意味著你要向觀眾描述你的發現或技術工作的方式(包括技術和非技術上的)。可視化方麵,熟悉數據可視化工具(如ggplotd3.js)是非常有用的。重要的是不僅要熟悉可視化數據所需的工具,而且要了解可視化編碼數據和交流信息背後的原則。


7、軟件工程(SoftwareEngineering)如果你麵試的是一家較小的公司,而且應聘的是首批數據科學人員之一,有一個強大的軟件工程背景會很重要。你將負責處理大量的數據記錄,以及潛在的數據驅動產品的開發。


8、像數據科學家一樣思考(Thinking Like AData Scientist)公司希望看到你是一個(數據驅動)問題的解決者。也就是說,在麵試過程中的某個時候,您可能會被問及一些高層次的問題 - 例如,公司可能想要運行的一個測試或公司可能想要開發的一種數據驅動產品。重要的是要考慮什麼是重要的,什麼是不重要的。作為數據科學家,你應該如何與工程師和產品經理互動?你應該使用什麼方法?近似方法在什麼時候有意義?


數據科學仍然是一個新興和不明確的領域。獲得一份工作既是尋找一個與你的技能相匹配的公司,又是發展這些技能。這篇文章是基於我自己的親身經曆 - 我很樂意聽到你在自己應聘的過程中是否有類似(或相反)的經曆。

原文發布時間為:2016-11-10

本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號

最後更新:2017-05-31 12:02:26

  上一篇:go  Django 博客開發教程 5 - Django 博客首頁視圖
  下一篇:go  《Spring Data實戰》——1.4 示例代碼