≪統計學習精要(The Elements of Statistical Learning)≫課堂筆記(一)
前兩天微博上轉出來的,複旦計算機學院的吳立德吳老師在開?統計學習精要(The Elements of Statistical Learning)?這門課,還在張江...大牛的課怎能錯過,果斷請假去蹭課...為了減輕心理壓力,還拉了一幫同事一起去聽,eBay浩浩蕩蕩的十幾人殺過去好不壯觀!總感覺我們的人有超過複旦本身學生的陣勢,五六十人的教室坐的滿滿當當,壯觀啊。
這本書正好前陣子一直在看,所以才會屁顛屁顛的跑過去聽。確實是一本深入淺出講data mining models的好書。作者網站上提供免費的電子版下載,爽!https://www-stat.stanford.edu/~tibs/ElemStatLearn/
從這周開始,如無意外我會每周更新課堂筆記。另一方麵,也會加上自己的一些理解和實際工作中的感悟。此外,對於data mining感興趣的,也可以去coursera聽課~貌似這學期開的machine learning評價不錯。我隻在coursera上從眾選了一門 「Model Thinking」,相對來說比較簡單,但是相當的優雅!若有時間會再寫寫這門課的上課感受。筆記我會盡量用全部中文,但隻是盡量...
------------課堂筆記開始--------
第一次上課,主要是導論,介紹這個領域的關注興趣以及後續課程安排。對應本書的第一章。
1. 統計學習是?從數據中學習知識。簡單地說,我們有一個想預測的結果(outcome),記為Y,可能是離散的也可能是連續的。同時,還有一些觀察到的特征(feature),記為X,X既可能是一維的也可能是多維的。對於每一個觀測個體,我們都會得到一個行向量(x1,...,xp),對應它的p個特征的觀測值,以及一個觀測到的結果值y。如果總共有N個個體,那麼我們對於每個個體都會得到這些值,則有(y1,...,yn)T為觀測結果的列向量以及X (n*p)矩陣。這樣的數據稱之為訓練數據集(training set)。這裏更多是約定一些notation。
2. 統計學習分類?一般說來,我們有個觀測到的結果Y,然後找到一個適合的模型根據X預測Y,這樣的稱之為有監督的學習(supervised learning)。而有些時候,Y是無法觀測到的,那麼隻是通過X來學習,稱之為無監督的學習(unsupervised learning)。這本書主要側重有監督的學習。
3. 回歸和分類器。這個主要和Y有關。如果Y為離散,比如紅黃藍不同顏色,則稱之為分類器(學習模型);反之,若Y為連續,比如身高,則稱之為回歸(學習模型)。這裏更多隻是稱謂上的區別。
4. 統計學習的任務?預測。通過什麼來預測?學習模型(learning models)。按照什麼來學習?需要一定的準則,比如最小均方誤差MSE,適用於分類器的0-1準則等。基於這些準則、優化過的實現方法稱之為算法。
5. 統計學習舉例?
分類器:依據郵件發信人、內容、標題等判斷是否為垃圾郵件;
回歸:前列腺特異抗原(PSA)水平與癌症等因素的關係;
圖形識別:手寫字母的識別;
聚類:根據DNA序列判斷樣本的相似性,如親子鑒定。
6. 課程安排順序?
第二章,是對於有監督的學習模型的概覽。
第三章和第四章將討論線性回歸模型和線性分類器。
第五章將討論廣義線性模型(GLM)。
第六章涉及kernel方法和局部回歸。
第七章是模型評價與選擇。
第八章是測側重算法,比如最大似然估計,bootstrap等。本學期預計講到這裏。所以後麵的我就暫時不列出了。
目測第二節開始將變得越來越難,前陣子自學第二章痛苦不已啊...一個LASSO就折磨了我好久。當時的讀書筆記見:降維模型若幹感悟
--------10.15補充---------
上周寫的時候隻是憑著記憶,筆記沒在身邊。今天重新翻了翻當時記下的課堂筆記,再補充一些吧。
第九章是可加模型,即f(x1,...,xp)=f(x1)+...+f(xp)
第十章是boosting模型
第十一章討論神經網絡
第十二章討論支持向量機 (Support Vector Machine)
第十三章設計原型方法(Prototype)
第十四章從有監督的學習轉到無監督的學習(即有X有Y->有X無Y)
第十五章討論隨機森林模型(Random Forest)
第十六章是集群學習
第十七章結構圖模型
第十八章高維問題(我最近一直念叨的curse of dimensionality...今年搞笑諾貝爾獎也多少與此有關,見https://www.guokr.com/article/344117/,還有一篇相關的paper)
ps. 吳老師對於隨機森林等等模型的評論也挺有意思的,大致是,大家都沒搞清隨機森林為什麼效果這麼好...而且這一類模型都是computatoinal intensive的,即有一個非常簡單的idea然後借助大量的計算來實現。此外,這類方法更多有“猜”的感覺,無法知道來龍去脈,在現實中顯得不那麼intuitive...(不像econometrics那般致力於causality呢)。
最後更新:2017-04-03 05:46:49