每個機器學習工程師都應該知道的基本算法
機器學習作為一門多領域交叉學科,已經存在很長時間了,但近些年才開始火熱起來。本文中列出了你需要知道的機器學習領域的算法,了解這些你就可以解決在機器學習中所遇到的任何問題。但這隻是個覆蓋大部分基礎算法的清單,並不是全部。
回歸算法
回歸算法對變量之間的關係建模。最初是一種統計技術,它現在已經成為每個機器學習工程師必須掌握的重要工具。
常見的回歸算法:
最小二乘回歸(Least Squares Regression)
線性回歸(Linear Regression)
Logistic回歸(Logistic Regression)
回歸介紹視頻:https://www.coursera.org/learn/regression-models/lecture/Kz1eV/introduction-to-regression
聚類算法
聚類算法可以將數據點分到具有相似屬性的組中。他們通過查找數據中的固有結構來將數據劃分到不同的組中。一個組中的事物屬性的關聯比其他組中的關聯的更密切。
聚類算法有硬聚類和軟聚類兩種類型。硬聚類是指數據點明確的完全屬於一個組或完全不屬於一個組。軟聚類是指一個數據點可以不同程度地屬於許多不同的組。
常見的聚類算法:
K均值(K-means)
層次聚類(Hierarchical Clustering)
降維算法
當特征的數量與數據點的數量要大很多時。降維算法可以幫你將特征的數量減少到目前問題所需要的數量。他們可以刪除多餘的特征,幫助你獲得更好的結果。
降維算法有兩種工作方法。第一種方法是通過特征選擇,算法選取可用特征的子集。第二種方法是特征提取,將高維空間中的數據壓到低維度。
常見的降維算法:
主成分分析(PCA)
低方差濾波(Low Variance Filter)
高相關濾波(High Correlation Filter)
隨機森林(Random Forests)
反向特征消除/前向特征構造(Backward Feature Elimination / Forward Feature construction)
更多的內容可以查看:https://www.kdnuggets.com/2015/05/7-methods-data-dimensionality-reduction.html
決策樹算法
決策樹創建一個根據數據做出決策的模型。在樹狀結構中製作一個分叉,直到每個數據點都有對應的預測。與其他深度學習的算法不同,它們的結果很容易理解,並且它們很容易在許多不同的數據類型中使用。
常見的決策樹算法:
分類和回歸樹(classification and regression tree)
C4.5和C5.0
隨機森林(Random Forests)
卡方自動交互檢測(CHAID)
深度學習
機器學習和人工智能的概念是深度學習炒火的。他們是人造神經網絡的現代版本,利用廉價的計算來訓練更大的神經網絡。它們證明了它們具有解決一些最難問題的能力。如AlphaGo。
常見深度學習:
棧式自編碼器(Stacked Auto-encoders)
卷積神經網絡(CNN)
遞歸神經網絡(RNN)
膠囊網絡(Capsule Networks,https://hackernoon.com/what-is-a-capsnet-or-capsule-network-2bfbe48769cc)
推薦教程:https://www.safaribooksonline.com/library/view/deep-learning/9781491924570/ch04.html
最後更新:2017-11-17 15:35:53