閱讀928 返回首頁    go 技術社區[雲棲]


2017數據科學職位報告:R超過SAS,但仍不如Python

Bob_Muenchen
Bob Muenchen

《R for SAS and SPSS Users》的作者,r4stats.com(分析數據科學軟件趨勢、幫助人們學習R語言的一家網站)的創辦者;同時也是ASA官方認證的專業統計學家(30年從業經驗),現任田納西大學OIT Research Computing Support的管理員。

前言

招聘廣告的數量能一定程度上反應每一種軟件的流行程度,並從中預測出哪一種在將來會更加流行。本文作者以美國最大的招聘網站Indeed.com為統計平台,通過對某一天數據科學職位的招聘數量進行統計分析,得出數據科學軟件的變化趨勢。

為了公平,本文采用了一種專門的方法,用來在數據科學職位範圍內統計每種軟件的招聘數量(詳見How to Search for Data Science Jobs),文中所有的圖片也都是在這個前提下取得的,統計日期為2017年2月24日。

正文

各種軟件招聘量見下圖。其中最多的是SQL,將近18000,然後分別是Python和JAVA(13000左右),Hadoop(10000左右),R,C係列和SAS(這是R首次在在數據科學職位報告中超過SAS),Apache Spark(詳細分析見Spark is the Future of Analytics),Tableau(5000左右,限數據科學職位),Apache Hive(3900左右),Scala,SAP,MATLAB,SPSS。其中Scala,SAP,MATLAB,SPSS均為2500左右。
Fig_1a_IndeedJobs_2017_1_

招聘量小於250的軟件列在了下圖中,分別是:Alteryx(240),Microsoft(Azure Machine Learning and Microsoft Cognitive Toolkit,157),Julia,FORTRAN,Apache Flink(125),H2O(100)。以操作容易為賣點的SAS Enterprise Miner、RapidMiner和KNIME招聘量都是90左右,大概是因為各公司認為沒有必要聘請專家?SPSS模塊也是同樣類型的接口,但卻隻有50個職位。開源的MXNet深度學習框架有34個職位,而Tensorflow是它的12倍,但是兩者都很年輕,有足夠大的潛力在未來快速發展。
Fig_1b_IndeedJobs_2017_3_

下麵我們先來看一下R是如何超過SAS的。從下圖可以看出,在2012年到2017年2月28日這個時間段,SAS的職位需求一直都很穩定,而R則穩定增長並最終在2016年早期超過了SAS。另外根據blog post所述,R於2015年就已經在學術出版物中超過SAS。
Fig_1c_R_v_SAS_2017_02_18_1_

再來看一下Python和R。Python和R誰更流行的爭論是由來已久,但是從來都沒有多少數據支持。但是單從招聘職位上來看,Python於2013年就已經超過了R(如下圖)。當然我們要清楚,R隻是單純用來進行數據分析,而Python在數據科學領域用途更廣泛。

Fig_1d_R_v_Python_2017_2_28_2_

文章原標題《Data Science Job Report 2017: R Passes SAS, But Python Leaves Them Both Behind》,作者:Bob Muenchun,譯者:壯如山的漢子。
文章為簡譯,更為詳細的內容,請查看原文

最後更新:2017-04-01 17:13:52

  上一篇:go StreamingPro 可以暴露出原生API給大家使用
  下一篇:go Spark與HBase的整合