纯干货 | 机器学习中梯度下降法的分类及对比分析（附源码）

f5e6e0bcd0a1d12d75f80446b773999e5b1750dd

ee0ae16bbac1db584fbdf744e5f517cca85c3b7e

我们使用梯度下降法最小化目标函数J(θ)。在使用梯度下降法时，首先初始化参数值，然后一直改变这些值，直到得到全局最小值。其中，我们计算在每次迭代时计算代价函数的导数，然后使用如下公式同时更新参数值：

a5b40dac8c48a93c6e0b9c0725bf8c81fe10ba8d

线性回归

cc57b6c6b85dce36eb7cd93d6db9bcfb50b4d7ee

其中， fb4b7ce517e248004c59fb559578e54a4a9482f4 是参数， a65bfc1e47ff7322dfe5ce55cf7f8bb891259a01 是输入特征。为了求解线性回归模型，需要找到合适的参数使拟合函数能够更好地适合模型，然后使用梯度下降最小化代价函数J(θ)。

代价函数：

b2cbb904e3bc0a7044c0a5fa0f8bc2ecdcf622ca

4429e2f2d132d5207f67f09e94b22819c90dc1fa

1e5064d9ee7749bab10f650a8d3b00db8979c28e

下面的伪代码能够解释其详细原理：

1. 初始化参数值

2. 迭代更新这些参数使目标函数J(θ)不断变小。

使用数据量的大小时间复杂度算法的准确率

批量梯度下降法（

随机梯度下降法

小批量梯度下降法

使用整个数据集（）去计算代价函数的梯度批量梯度下降法会很慢

e73e9a24fa64e4fb81246d312e0a1e6af5742cb9

3. 然后重复上面每一步；

4. 这意味着需要较长的时间才能收敛；

2cce4e74db8b0834f57cbaab8abe4ab7249305f3

批量梯度下降法不适合大数据集。下面的Python代码实现了批量梯度下降法：

1.	import numpy as np  
2.	import random  
3.	def gradient_descent(alpha, x, y, ep=0.0001, max_iter=10000):  
4.	    converged = False  
5.	    iter = 0  
6.	    m = x.shape[0] # number of samples  
7.	  
8.	    # initial theta  
9.	    t0 = np.random.random(x.shape[1])  
10.	    t1 = np.random.random(x.shape[1])  
11.	  
12.	    # total error, J(theta)  
13.	    J = sum([(t0 + t1*x[i] - y[i])**2 for i in range(m)])  
14.	  
15.	    # Iterate Loop  
16.	    while not converged:  
17.	        # for each training sample, compute the gradient (d/d_theta j(theta))  
18.	        grad0 = 1.0/m * sum([(t0 + t1*x[i] - y[i]) for i in range(m)])   
19.	        grad1 = 1.0/m * sum([(t0 + t1*x[i] - y[i])*x[i] for i in range(m)])  
20.	        # update the theta_temp  
21.	        temp0 = t0 - alpha * grad0  
22.	        temp1 = t1 - alpha * grad1  
23.	      
24.	        # update theta  
25.	        t0 = temp0  
26.	        t1 = temp1  
27.	  
28.	        # mean squared error  
29.	        e = sum( [ (t0 + t1*x[i] - y[i])**2 for i in range(m)] )   
30.	  
31.	        if abs(J-e) <= ep:  
32.	            print 'Converged, iterations: ', iter, '!!!'  
33.	            converged = True  
34.	      
35.	        J = e   # update error   
36.	        iter += 1  # update iter  
37.	      
38.	        if iter == max_iter:  
39.	            print 'Max interactions exceeded!'  
40.	            converged = True  
41.	  
42.	    return t0,t1

批量梯度下降法被证明是一个较慢的算法，所以，我们可以选择随机梯度下降法达到更快的计算。随机梯度下降法的第一步是随机化整个数据集。在每次迭代仅选择一个训练样本去计算代价函数的梯度，然后更新参数。即使是大规模数据集，随机梯度下降法也会很快收敛。随机梯度下降法得到结果的准确性可能不会是最好的，但是计算结果的速度很快。在随机化初始参数之后，使用如下方法计算代价函数的梯度：