525 京東網上商城

KDnuggets調查|數據科學家最常用的10種算法

最新的KDnuggets調查統計了數據科學家們實際工作中最常使用的算法，在大多數學術和產業界，都有驚人發現哦！

根據Gregory Piatetsky, KDnuggets，最新的調查問題是：在最近的12個月中，你在實際數據科學相關應用中用到了那些模型/算法？

於是就有了以下基於844份答卷的結果。

◆ ◆ ◆

排名前十的算法和它們在投票者中所占比例

0?wx_fmt=png

圖1：數據科學家最常用的10大算法，所有算法見文末表格

每個受訪者平均用到了8.1種算法，這相比於 2011 的相似調查顯示的結果有了巨大的增長。

相比2011年對數據分析算法的調查，我們注意到最常用的方法仍然是回歸，聚類，決策樹/規則以及可視化。比例增幅最大的是（增幅=%2016/%2011 -1）：

Boosting算法，提升了40%。由2011年的23.5%提升倒2016年的40%
文本挖掘（Text Mining），提升了30%。從27.7%提升到35.9%
可視化（Visualization），提升了27%。從38.3%提升到48.7%
時間序列/序列分析（Time series/Sequence analysis），提升了25%。從29.6%提升到37.0%
異常檢測（Anomaly/Deviation detection），提升了19%，從16.4%提升到19.5%
組合方法（Ensemble methods），提升了19%，從28.3%提升到33.6%
支持向量機（SVM），提升了18%，從28.6%提升到33.6%
回歸（Regression），提升了16%，從57.9%提升到67.1%

◆ ◆ ◆

2016年新秀中最為流行的是

K-最近鄰法（K-nearestneighbors）, 46%
主成分分析（PCA）, 43%
隨機森林（Random Forests）, 38%
優化（Optimization）, 24%
神經網絡-深度學習（Neural networks - Deep Learning）, 19%
奇異值分解（Singular ValueDecomposition）, 16%

◆ ◆ ◆

降幅最大的是

關聯規則（Associationrules）,下降了47%，從28.6%降為15.3%
Uplift modeling,下降了36%，從4.8% 降為3.1%(出人意料的低，因為有很多相關文獻發表)
因子分析（Factor Analysis）,下降了24%，從18.6%降為14.2%
存活分析（SurvivalAnalysis）,下降了15%，從9.3%將為7.9%

下麵的表格顯示了不同的算法類型的使用場所：監督算法，無監督算法，元算法和其它算法。應用類型未知（NA，4.5%）或者其它職業類型（3%）的不包括在內。

表1：不同職業類型的算法使用

0?wx_fmt=png

我們注意到，幾乎所有的人都在使用監督學習算法。政府和產業界的數據科學家們使用的算法類型比學生和科學界要多。產業數據科學家們更傾向於使用元算法。

◆ ◆ ◆

不同職業類型最常用的10大算法+深度學習情況

接下來，我們分析了不同職業類型最常用的10大算法+深度學習情況

表2: 不同職業類型的10大算法+深度學習

0?wx_fmt=png

為了更清楚地展示這些差異，我們用一個公式來計算不同職業類型的算法使用率偏倚：

偏倚=某種職業類型的算法使用率/所有職業類型的算法使用率-1

0?wx_fmt=png

圖2：不同場所的算法使用率偏倚

我們注意到，產業數據科學家們更傾向於用回歸，可視化，統計，隨機森林和時間序列。政府/非盈利組織則更傾向於使用可視化，主成分分析和時間序列。學術界的研究人員們更多的用到主成分分析和深度學習。學生們普遍使用的算法較少，但多用到文本挖掘和深度學習。

接下來，我們看看某一具體地域的參與度，表示整體的KDnuggets用戶。

參與調查人員的地區分布：

美國/加拿大, 40%
歐洲, 32%
亞洲, 18%
拉丁美洲, 5.0%
非洲/中東, 3.4%
澳大利亞/新西蘭, 2.2%

在2011年的調查中，我們把產業和政府兩個行業的被調查者合為一組，把學術研究者和學生合為一組，然後計算行業政府組的算法使用親切度：

（行業政府組的算法使用率/學術學生組的算法使用率）/（行業政府組的人數/學術學生組的人數）-1

因此，親切度為0的算法表示它在產業/政府組和學術學生組使用率相同。越高IG親切度說明該算法越偏向於產業，結果越小則算法越偏向於學術。

最偏向於“產業算法”是：

uplifting modelling, 2.01
異常檢測, 1.61
存活分析, 1.39
因子分析, 0.83
時間序列/序列分析, 0.69
關聯規則, 0.5

盡管uplift modeling再次成為最偏向於“行業算法”，令人吃驚的卻是它使用率極低，隻有3.1%，是整個調查中比例最低的。

最偏向於“學術算法”是：

神經網絡, -0.35
樸素貝葉斯, -0.35
支持向量機, -0.24
深度學習, -0.19
最大期望, -0.17

下圖顯示了所有算法及其產業/學術親切度。

0?wx_fmt=png

圖3：KDnuggets調研：數據科學家使用最多的算法：產業與學術領域對比

下表是所有算法調研結果的細節，分別是2016年受訪人群使用比例，2011年使用比例，變化（2016年比例/2011年比例-1）以及上文提及的產業親切度。

表3：KDnuggets2016調研：數據科學家使用的算法

下方的表格是所有算法的調研結果細節，不同列依次代表的是：

排名: 根據使用比例的排名
算法：算法名稱
類型: S – 有監督, U – 無監督, M – 元(meta), Z – 其他方法,
在2016年調查中使用該算法的人數比例
在2016年調查中使用該算法的人數比例
變化：(%2016 / %2011 -1),
產業親切度見上文的解釋.

表4：KDnuggets 2016 調研：數據科學家使用的算法 0?wx_fmt=jpeg

原文發布時間為：2016-09-18

本文來自雲棲社區合作夥伴“大數據文摘”，了解相關信息可以關注“BigDataDigest”微信公眾號

最後更新：2017-06-05 16:02:30

KDnuggets調查|數據科學家最常用的10種算法

◆ ◆ ◆

◆ ◆ ◆

◆ ◆ ◆

◆ ◆ ◆

上一篇：科學家說「時間晶體」或真的存在

下一篇：關於Fintech的九個預言

相關內容

熱門內容

最新內容

KDnuggets調查|數據科學家最常用的10種算法

◆ ◆ ◆

◆ ◆ ◆

◆ ◆ ◆

◆ ◆ ◆

上一篇： 科學家說「時間晶體」或真的存在

下一篇： 關於Fintech的九個預言

相關內容

熱門內容

最新內容

上一篇：科學家說「時間晶體」或真的存在

下一篇：關於Fintech的九個預言