閱讀525 返回首頁    go 京東網上商城


KDnuggets調查|數據科學家最常用的10種算法


0?wx_fmt=jpeg
最新的KDnuggets調查統計了數據科學家們實際工作中最常使用的算法,在大多數學術和產業界,都有驚人發現哦!


根據Gregory Piatetsky, KDnuggets,最新的調查問題是:在最近的12個月中,你在實際數據科學相關應用中用到了那些模型/算法?

於是就有了以下基於844份答卷的結果。

◆ ◆ 

排名前十的算法和它們在投票者中所占比例



0?wx_fmt=png

圖1:數據科學家最常用的10大算法,所有算法見文末表格

 

每個受訪者平均用到了8.1種算法,這相比於 2011 的相似調查顯示的結果有了巨大的增長。

 

相比2011年對數據分析算法的調查,我們注意到最常用的方法仍然是回歸,聚類,決策樹/規則以及可視化。比例增幅最大的是(增幅=%2016/%2011 -1):

 

  • Boosting算法,提升了40%。由2011年的23.5%提升倒2016年的40%

  • 文本挖掘(Text Mining),提升了30%。從27.7%提升到35.9%

  • 可視化(Visualization),提升了27%。從38.3%提升到48.7%

  •  時間序列/序列分析(Time series/Sequence analysis),提升了25%。從29.6%提升到37.0%

  • 異常檢測(Anomaly/Deviation detection),提升了19%,從16.4%提升到19.5%

  • 組合方法(Ensemble methods),提升了19%,從28.3%提升到33.6%

  • 支持向量機(SVM),提升了18%,從28.6%提升到33.6%

  • 回歸(Regression),提升了16%,從57.9%提升到67.1%


◆ ◆ 

2016年新秀中最為流行的是


  • K-最近鄰法(K-nearestneighbors), 46%

  • 主成分分析(PCA), 43%

  • 隨機森林(Random Forests), 38%

  • 優化(Optimization), 24%

  • 神經網絡-深度學習(Neural networks - Deep Learning), 19%

  • 奇異值分解(Singular ValueDecomposition), 16%

 

◆ ◆ 

降幅最大的是


  • 關聯規則(Associationrules),下降了47%,從28.6%降為15.3%

  • Uplift modeling,下降了36%,從4.8% 降為3.1%(出人意料的低,因為有很多相關文獻發表)

  • 因子分析(Factor Analysis),下降了24%,從18.6%降為14.2%

  • 存活分析(SurvivalAnalysis),下降了15%,從9.3%將為7.9%

 

下麵的表格顯示了不同的算法類型的使用場所:監督算法,無監督算法,元算法和其它算法。應用類型未知(NA,4.5%)或者其它職業類型(3%)的不包括在內。


表1:不同職業類型的算法使用

0?wx_fmt=png


我們注意到,幾乎所有的人都在使用監督學習算法。政府和產業界的數據科學家們使用的算法類型比學生和科學界要多。產業數據科學家們更傾向於使用元算法。

◆ ◆ 

不同職業類型最常用的10大算法+深度學習情況


接下來,我們分析了不同職業類型最常用的10大算法+深度學習情況

 

表2: 不同職業類型的10大算法+深度學習

0?wx_fmt=png


為了更清楚地展示這些差異,我們用一個公式來計算不同職業類型的算法使用率偏倚:

偏倚=某種職業類型的算法使用率/所有職業類型的算法使用率-1

0?wx_fmt=png

圖2:不同場所的算法使用率偏倚

 

我們注意到,產業數據科學家們更傾向於用回歸,可視化,統計,隨機森林和時間序列。政府/非盈利組織則更傾向於使用可視化,主成分分析和時間序列。學術界的研究人員們更多的用到主成分分析和深度學習。學生們普遍使用的算法較少,但多用到文本挖掘和深度學習。

接下來,我們看看某一具體地域的參與度,表示整體的KDnuggets用戶。

 

參與調查人員的地區分布:

  • 美國/加拿大, 40%

  • 歐洲, 32%

  • 亞洲, 18%

  • 拉丁美洲, 5.0%

  • 非洲/中東, 3.4%

  • 澳大利亞/新西蘭, 2.2%

 

在2011年的調查中,我們把產業和政府兩個行業的被調查者合為一組,把學術研究者和學生合為一組,然後計算行業政府組的算法使用親切度:


(行業政府組的算法使用率/學術學生組的算法使用率)/(行業政府組的人數/學術學生組的人數)-1


因此,親切度為0的算法表示它在產業/政府組和學術學生組使用率相同。越高IG親切度說明該算法越偏向於產業,結果越小則算法越偏向於學術。


最偏向於“產業算法”是:

  • uplifting modelling, 2.01

  • 異常檢測, 1.61

  • 存活分析, 1.39

  • 因子分析, 0.83

  • 時間序列/序列分析, 0.69

  • 關聯規則, 0.5


盡管uplift modeling再次成為最偏向於“行業算法”,令人吃驚的卻是它使用率極低,隻有3.1%,是整個調查中比例最低的。

 

最偏向於“學術算法”是:

  • 神經網絡, -0.35

  • 樸素貝葉斯, -0.35

  • 支持向量機, -0.24

  • 深度學習, -0.19

  • 最大期望, -0.17

 

下圖顯示了所有算法及其產業/學術親切度。


0?wx_fmt=png

圖3:KDnuggets調研:數據科學家使用最多的算法:產業與學術領域對比

下表是所有算法調研結果的細節,分別是2016年受訪人群使用比例,2011年使用比例,變化(2016年比例/2011年比例-1)以及上文提及的產業親切度。

 

表3:KDnuggets2016調研:數據科學家使用的算法

下方的表格是所有算法的調研結果細節,不同列依次代表的是:

  • 排名: 根據使用比例的排名

  • 算法:算法名稱

  • 類型: S – 有監督, U – 無監督, M – 元(meta), Z – 其他方法,

  • 在2016年調查中使用該算法的人數比例

  • 在2016年調查中使用該算法的人數比例

  • 變化:(%2016 / %2011 -1),

  • 產業親切度見上文的解釋.


表4:KDnuggets 2016 調研:數據科學家使用的算法0?wx_fmt=jpeg

 原文發布時間為:2016-09-18

本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號

最後更新:2017-06-05 16:02:30

  上一篇:go  科學家說「時間晶體」或真的存在
  下一篇:go  關於Fintech的九個預言