躋身數據科學領域的五條職業規劃道路

預備閱讀
在我們繼續深入之前,讀一讀這些文章。我是說真的,讀,這些,文章。
-
解析數據科學謎題
(https://www.kdnuggets.com/2016/03/data-science-puzzle-explained.html)
-
再析數據科學謎題
(https://www.kdnuggets.com/2017/01/data-science-puzzle-revisited.html)
-
解析數據科學和大數據
(https://www.kdnuggets.com/2016/11/big-data-data-science-explained.html)
-
預測性科學 VS 數據科學
(https://www.kdnuggets.com/2016/11/predictive-science-vs-data-science.html)
第一篇文章概覽數據科學中一些最主要的概念,而第二篇文章則是今年早些時候對這些概念的更新。第三篇文章更深入地解析了數據科學和大數據之中的概念。最後一篇文章對比了一些其他術語,對“數據科學”這個術語的複雜性和微妙性進行了簡短的探討。
我將眾多的職業可能性拆分成五條能夠輕鬆掌控的道路。雖然可能有很多人強烈反對這種角色劃分並且因此感到恐慌,但它確實對技能和職業責任進行了高度的分類。因此,我相信接下來的內容能有效地幫助新來者在這個專業領域中所存在的令人混淆和迷惑的無數機會之中確認方向。
分析性職業的粗略分析(點擊圖片放大)
數據管理專員
這本質上是一個IT職業,類似於數據庫管理員。數據管理專員被認為和管理數據以及支持數據管理的設施有關。這個職位和數據分析隻有很少關聯,也類似Python和R語言的使用也不是很必要。可能會用到SQL語言,以及和Hadoop相關的查詢語言,比如Hive和Pig。
關鍵技術以及需要關注的技能:
-
Apache Hadoop和它的生態係統
-
Apache Spark和它的生態係統
-
SQL以及關係數據庫
-
NoSQL數據庫
延伸閱讀:
-
解析大數據關鍵術語
(https://www.kdnuggets.com/2016/08/big-data-key-terms-explained.html)
-
解析數據庫關鍵術
(https://www.kdnuggets.com/2016/07/database-key-terms-explained.html)
-
解析Hadoop關鍵術語
(https://www.kdnuggets.com/2016/05/hadoop-key-terms-explained.html)
-
解析Apache Spark關鍵術語
(https://www.kdnuggets.com/2016/06/spark-key-terms-explained.html)
-
解析雲計算關鍵術語
(https://www.kdnuggets.com/2016/06/cloud-computing-key-terms-explained.html)
-
七步理解NoSQL數據庫(https://www.kdnuggets.com/2016/07/seven-steps-understanding-nosql-databases.html)
-
七步掌握數據科學所需的SQL
(https://www.kdnuggets.com/2016/06/seven-steps-mastering-sql-data-science.html)
數據工程師
這是一條非分析大數據職業道路。記得在剛剛的職業道路之中提到的數據設施嗎?是的,它們需要被設計和執行,數據工程師就承擔了這部分工作。如果說數據管理專員是汽車修理師,那麼數據工程師就是汽車工程師。不過不要搞錯了,這兩個角色都對你的汽車的行駛和持續工作至關重要,對你從A點駕駛到B點同樣重要。
說句實話,數據工程師和數據管理專員所需要的技術和技能是相似的,然而,他們各自在不同的層次理解和使用同樣的概念。我不會重複之前一種職業中所提到的那些信息(所有這些信息對數據工程師都很重要),但我會專門給數據工程師補充延伸閱讀的清單。
延伸閱讀:
-
頂級NoSQL數據庫引擎
(https://www.kdnuggets.com/2016/06/top-nosql-database-engines.html)
-
頂級大數據處理框架
(https://www.kdnuggets.com/2016/03/top-big-data-processing-frameworks.html)
-
頂級Spark係統環境項
(https://www.kdnuggets.com/2016/03/top-spark-ecosystem-projects.html)
-
Hadoop和大數據:對於前六大問題的回答
(https://www.kdnuggets.com/2016/01/hadoop-and-big-data-questions.html)
-
為什麼數據科學家和數據工程師需要理解雲中的虛擬化
(https://www.kdnuggets.com/2017/01/data-scientist-engineer-understand-virtualization-cloud.html)
商業分析師
在本文裏,商業分析師指的是與數據分析和數據呈現緊密相關的角色。包括報告,儀表板和任何被稱為“商業智能”的東西。 這種角色通常要求與關係數據庫和非關係數據庫以及大數據框架的交互(或查詢)。
雖然前兩種角色與設計基礎設施來管理數據以及實際管理數據有關,但商業分析師主要關注從那些或多或少存在的數據中提取信息。 這與以下兩個角色(機器學習研究者/從業者和以數據為導向的專業人員)形成對比,兩者都側重於從數據或數據以外已知的一些表麵信息中獲得洞察力。 因此,商業分析師需要在所呈現的這些角色中具有獨特的技能。
關鍵技術以及需要關注的技能:
-
SQL和關係型數據庫
-
NoSQL數據庫
-
經常會用到商業報告和儀表盤封裝技術
-
報告從本質來講是沒有固定模式的,快速掌握工具的使用是關鍵
-
數據倉庫
延伸閱讀:
-
2016年人工智能的10大趨勢
(https://www.kdnuggets.com/2015/12/10-business-intelligence-trends-2016.html)
-
嵌入式分析:人工智能的未來
(https://www.kdnuggets.com/2016/09/embedded-analytics-future-business-intelligence.html)
-
自建還是購買–分析表盤(可視化分析)
(https://www.kdnuggets.com/2016/07/build-buy-analytics-dashboards.html)
機器學習研究員/從業者
機器學習研究人員和從業者指的是那些製作和使用預測和相關工具進行數據利用的人。 機器學習算法允許以較高的速度應用統計分析,並且那些操作這些算法的人不滿足於讓數據以其當前形式呈現出來。 數據詢問是機器學習愛好者的工作方式,但是具有足夠的統計理解才能知道何時推進的足夠遠,以及什麼時候提供的答案不可信。
統計和編程是機器學習研究者和實踐者最大的財富。
關鍵技術以及需要關注的技能:
-
統計學!
-
代數與演算(從業者的中級水平,研究員的高級水平)
-
編程技能:Python,C ++或其他一些通用語言
-
學習理論(從業者的中級,研究員的高級水平)
-
理解機器學習算法的內部工作原理(算法越多越好,理解越深越好!)
-
原文發布時間為:2017-03-13
本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號
最後更新:2017-05-23 16:03:59