閱讀655 返回首頁    go 阿裏雲 go 技術社區[雲棲]


簡單自學機器學習理論——正則化和偏置方差的權衡 (Part III )

首發地址:https://yq.aliyun.com/articles/67170

本文由北郵@愛可可-愛生活 老師推薦,阿裏雲雲棲社區組織翻譯。

以下為譯文

-Part3 

第一部分探討了統計模型潛在的機器學習問題,並用它獲得最小泛化誤差這一問題;在第二部分通過建立關於難懂的泛化誤差的理論去得到實際能夠估計得到的經驗誤差,最後的結果是:

 c6b37d9561005280f372134b1c5f1c5d2515aa15

aad541f36fc563e21dcb2d2e0f28e148db0a4f4f

本節基於該簡化理論結果,開始針對解決機器學習問題的過程總結一些概念。

,並使用一維目標函數80732c05d15ffa17627a69ec3aa7965a4ba289882的高斯分布噪聲後為e2c36d422a54b2fd8390a2b0db680258a6cf2eeay

200

7fb710a0dd82f76d621a3d22a62e3ea3bed839b6

 ecd00ce35df3f2031218461265bb9e8815daa42f

572d9a875c2bca9fd2b1e09c0b4726b5331dbdc5 

線性模型的高偏置能夠通過線性假設函數6cba886fae2cf7a04c2138d279207c5352595043x分量為1fa80dbe82dba8aa0d4fa970c99b8d7e39a985c0,同樣地三次模型的低偏置能夠通過三次假設函數257939afc1c95aacc3544810e339eaa976e29939

 很容易看到,假設與目標的平均值越接近,從目標值得到的平均損失也越小。這意味著低偏置的假設結果有著低的經驗風險。

 56be77fbe469dc3978e2a3e83b8f9dcdb63d59c5

 

c0b540773785305a82e8967cdf247b2acc421a13 

由於55a323f93ad6342b967acba2cf011397b7e18ae6D55a323f93ad6342b967acba2cf011397b7e18ae6為精確假設的隨機變量。利用第一部分中的類似技巧,將隨機變量分解成兩個分量:代表其均值的確定性分量和代表其方差的隨機分量;

9011012757fcab232b3c0e56e7d58790a5aaf6fe

 

其中d2b0a9d57d19918646ace86c75dd36f12ca514ec

 08c916d77ddce257695d23ca34581f51c36b63ef

因此851b77507dcdfbd5b7c867e2dd870e4f6b997c132ed398467dd3569f287abf9b660d7ae6703e12b5

x

8437e803a770ea7f63f0b9bd65a40482e181ef34 

D55a323f93ad6342b967acba2cf011397b7e18ae6的分解值可以得到:

 2ea763879421a2c95051017a66cd64505e2c55d1

D

 a6d1fc1dead1e1cd66b38eb3fa82a42009545025

d2b0a9d57d19918646ace86c75dd36f12ca514ec0

 70e0d55c473eccccd10a5ddcce1c2422b12445be

 9e370e862db7fcf3896c3c07b14ec42a38b1a31c

D

 9adc59573113630c4710769b795f02da2a1fef6a

-

851b77507dcdfbd5b7c867e2dd870e4f6b997c13

 1. 

 2. ad99d8b57d6831b9c27070e0db0d63a056d18b2b-5.4d196074bfbcf2318589f54778b5403b27dcb43b5

 3. 7d0d2d676cdb3967cf60bb36538904025e62088222.7e87e05d574047beaae7f1235a19d9b928b67a619

 4. 8c5ef834c3b4e798f015486c12fe52f667c78756-53.1fd97d98343e838016f860524977ada1397260496

 5. cc8221202918ba06caf723cd74a960b960f055f233.0ebdfbfa55698baca9a8e2b879ca1ae2c7eb3379b

w

0f4ca57ee091e2a91c4ea315b03374635c20df56

 m

7efc7088c6ce1a7876e06cd870655946424dbb9f 

N

3e3f8b3fe2fe160428b523a0be3da3534ff1c0c3 

f068fe19e8eb1356f7b1579d1c6a2620b3b669ea 

λ

 93466de14b45005bf26292f5be4921e032d087bf

L2L2-

9ed229f483b7767586de9d9e58ceb4ee333bfeab 

L2

L27bafbfa0b6e6a891edc74153785d1d1a9dcaf980 4c71eabfd8dbd4cdf6c92c23ed4c5b33a368f0ef

2

7c2ea5c7a45b0fc3f6e2dd0c27612b17781b8237 

等價於泛化界限c182245d05af73fb15ab2e85d990d4e2401c00a1L

參考文獻:

  Christopher M. Bishop. 2006. Pattern Recognition and Machine Learning (Information Science and Statistics). Springer-Verlag New York, Inc., Secaucus, NJ, USA.

      Abu-Mostafa, Y. S., Magdon-Ismail, M., & Lin, H. (2012). Learning from data: ashort course.

文章原標題《Machine Learning Theory - Part III》,作者:Mostafa Samir,譯者:海棠 

 文章為簡譯,更為詳細的內容,請查看原文

最後更新:2017-07-12 22:09:15

  上一篇:go  能幫你更好理解分析深度卷積神經網絡,今天要解讀的是一款新型可視化工具——CNNVis,看完就能用!
  下一篇:go  簡單自學機器學習理論—— 泛化界限 (Part II )