阅读655 返回首页    go 京东网上商城


简单自学机器学习理论——正则化和偏置方差的权衡 (Part III )

首发地址:https://yq.aliyun.com/articles/67170

本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译。

以下为译文

-Part3 

第一部分探讨了统计模型潜在的机器学习问题,并用它获得最小泛化误差这一问题;在第二部分通过建立关于难懂的泛化误差的理论去得到实际能够估计得到的经验误差,最后的结果是:

 c6b37d9561005280f372134b1c5f1c5d2515aa15

aad541f36fc563e21dcb2d2e0f28e148db0a4f4f

本节基于该简化理论结果,开始针对解决机器学习问题的过程总结一些概念。

,并使用一维目标函数80732c05d15ffa17627a69ec3aa7965a4ba289882的高斯分布噪声后为e2c36d422a54b2fd8390a2b0db680258a6cf2eeay

200

7fb710a0dd82f76d621a3d22a62e3ea3bed839b6

 ecd00ce35df3f2031218461265bb9e8815daa42f

572d9a875c2bca9fd2b1e09c0b4726b5331dbdc5 

线性模型的高偏置能够通过线性假设函数6cba886fae2cf7a04c2138d279207c5352595043x分量为1fa80dbe82dba8aa0d4fa970c99b8d7e39a985c0,同样地三次模型的低偏置能够通过三次假设函数257939afc1c95aacc3544810e339eaa976e29939

 很容易看到,假设与目标的平均值越接近,从目标值得到的平均损失也越小。这意味着低偏置的假设结果有着低的经验风险。

 56be77fbe469dc3978e2a3e83b8f9dcdb63d59c5

 

c0b540773785305a82e8967cdf247b2acc421a13 

由于55a323f93ad6342b967acba2cf011397b7e18ae6D55a323f93ad6342b967acba2cf011397b7e18ae6为精确假设的随机变量。利用第一部分中的类似技巧,将随机变量分解成两个分量:代表其均值的确定性分量和代表其方差的随机分量;

9011012757fcab232b3c0e56e7d58790a5aaf6fe

 

其中d2b0a9d57d19918646ace86c75dd36f12ca514ec

 08c916d77ddce257695d23ca34581f51c36b63ef

因此851b77507dcdfbd5b7c867e2dd870e4f6b997c132ed398467dd3569f287abf9b660d7ae6703e12b5

x

8437e803a770ea7f63f0b9bd65a40482e181ef34 

D55a323f93ad6342b967acba2cf011397b7e18ae6的分解值可以得到:

 2ea763879421a2c95051017a66cd64505e2c55d1

D

 a6d1fc1dead1e1cd66b38eb3fa82a42009545025

d2b0a9d57d19918646ace86c75dd36f12ca514ec0

 70e0d55c473eccccd10a5ddcce1c2422b12445be

 9e370e862db7fcf3896c3c07b14ec42a38b1a31c

D

 9adc59573113630c4710769b795f02da2a1fef6a

-

851b77507dcdfbd5b7c867e2dd870e4f6b997c13

 1. 

 2. ad99d8b57d6831b9c27070e0db0d63a056d18b2b-5.4d196074bfbcf2318589f54778b5403b27dcb43b5

 3. 7d0d2d676cdb3967cf60bb36538904025e62088222.7e87e05d574047beaae7f1235a19d9b928b67a619

 4. 8c5ef834c3b4e798f015486c12fe52f667c78756-53.1fd97d98343e838016f860524977ada1397260496

 5. cc8221202918ba06caf723cd74a960b960f055f233.0ebdfbfa55698baca9a8e2b879ca1ae2c7eb3379b

w

0f4ca57ee091e2a91c4ea315b03374635c20df56

 m

7efc7088c6ce1a7876e06cd870655946424dbb9f 

N

3e3f8b3fe2fe160428b523a0be3da3534ff1c0c3 

f068fe19e8eb1356f7b1579d1c6a2620b3b669ea 

λ

 93466de14b45005bf26292f5be4921e032d087bf

L2L2-

9ed229f483b7767586de9d9e58ceb4ee333bfeab 

L2

L27bafbfa0b6e6a891edc74153785d1d1a9dcaf980 4c71eabfd8dbd4cdf6c92c23ed4c5b33a368f0ef

2

7c2ea5c7a45b0fc3f6e2dd0c27612b17781b8237 

等价于泛化界限c182245d05af73fb15ab2e85d990d4e2401c00a1L

参考文献:

  Christopher M. Bishop. 2006. Pattern Recognition and Machine Learning (Information Science and Statistics). Springer-Verlag New York, Inc., Secaucus, NJ, USA.

      Abu-Mostafa, Y. S., Magdon-Ismail, M., & Lin, H. (2012). Learning from data: ashort course.

文章原标题《Machine Learning Theory - Part III》,作者:Mostafa Samir,译者:海棠 

 文章为简译,更为详细的内容,请查看原文

最后更新:2017-07-12 22:09:15

  上一篇:go  能帮你更好理解分析深度卷积神经网络,今天要解读的是一款新型可视化工具——CNNVis,看完就能用!
  下一篇:go  简单自学机器学习理论—— 泛化界限 (Part II )