751
機器人
一位90後統計學碩士的深悟與真思:統計其實有門道!人工智能還能這樣學!
嘉賓介紹
素質版主
經管之家論壇ID:我的素質低。是經管之家十分資深且極具人氣的超級版主,統計學碩士,也是一枚才華橫溢、靈氣四射、思維開闊的90後,擁有與其論壇ID“我的素質低”完全相反的“素質”。他曾獲得全國大學生統計建模大賽一等獎,癡迷於計量統計,熱愛數據分析,矢誌成為數據大俠,對於計量統計專業有著紮實的專業基礎和長期的持續跟蹤。同時,亦對思考的技術、互聯網與大數據、代碼編寫、人工智能、算法等領域有著很強的領悟力。他的第一份工作是目前最火熱的AI算法工程師,由此也積累了從經濟人轉向AI算法工程師的寶貴經驗和曆程。
他喜歡喬布斯,自我描述“Stay foolish,stay hungry!”。除對統計專業有濃厚而深切的愛戀外,閑來沒事還會舞文弄墨,文字技巧嫻熟,文章獨具一幟,個化化標簽十足。常在論壇遊走,以“素質出品”、“ONLY ONE”係列為名,麵世了很多數據匯總、統計理論、計量學習、資源梳整等方麵的優秀學習專題。總的來說一句話:有才、有趣、有意思!
問1:歡迎素質來到《經管人》專訪欄目!作為一名長期活躍並駐紮在論壇的資深版主,您曾為大家分享了包括計量經濟學、統計學、數據搜集與整理、機器學習在內的許多優質的資源,在這些領域也有著長期的跟蹤和積累。從本科到碩士階段,您都在統計專業浸泡著。首先能否為大家分享下作為新手,計量統計學科如何入門呢?能否為大家推薦一些比較好的計量與統計領域的經典圖書、教材和文獻材料,並幫助大家做一個簡要的點評和梳理?在本領域您都跟蹤了哪些大牛呢,能否也為大家介紹一下?以及學習統計學方麵,您認為有哪些優秀的網絡資源也是值得關注的呢?
答:感謝您的提問。首先,我認為無論計量還是統計都是幫助學習、科研的工具學科,需要在不同的使用場景中加以運用才能逐漸融會貫通。我的計量統計學習路徑可能跟很多科班出身的不太一樣,相比於將書本中的工具套用在實際場景中,個人比較傾向於先了解這個方法會出現在哪些應用場景裏,再結合課本上的理論知識,進一步研究如何應對新場景的要求,判斷理論上是否可行。也就是:工具書找方法的場景 + 理論書學方法的本質。具體來說,1)在學多元回歸分析,我會先去搜集用SPSS軟件實現的相關書籍,選擇了張文彤老師的書籍《張文彤SPSS初中級教程》、《張文彤SPSS高級教程》等。
2)在學時間序列分析的時候,會去找EVIEWS軟件的書籍,張曉峒老師的《計量經濟學軟件EViews使用指南》。
3)在學麵板數據分析的時候,EVIEWS和STATA的相關書籍,陳強老師的《高級計量經濟學及STATA應用》。
4)在學機器學習相關的內容的時候,會去找R語言軟件的書籍,吳喜之老師《複雜數據統計方法——基於R的應用》等等。
工具類書籍有一個好處,就是提供給我們諸多的案例與算法示例,跟著工具書走一遍,就相當於一道證明題跟著書籍證明了一遍,在流程中掌握更多細節。
另外,網絡學習資源豐富,這裏可以給大家推薦一些,經管之家是一個學習統計計量的好去處,很多人會在其中交流自己的心得以及疑問,很多壇友也都見解獨到,讓人耳目一新,有利於拓展思路。還有一些網站也比較有特色,小木蟲、經濟學家、科學網等,預測者網有比較多的股市數據(日、周、月、年交易數據)給出的指標還是挺全麵的。中文互聯網數據資訊中心有比較多的當下熱門的網絡資訊信息與報告,還有一些大城市除了統計局還有自己的數據服務網,譬如上海市政府數據服務網。
問2:對於許多做實證研究的人來說,計量與統計軟件的掌握能力至關重要,能否結合學術期刊的投稿與寫作,以及科研工作本身,為大家分享一下如何在論文寫作中快速提高計量統計水平呢?如果一個人的計量統計是零基礎,那麼在準備CSSCI等期刊的投稿時,應該如何入手並規劃學習路徑呢?
答:曾經,在經管之家有三個帖子刷新了我的計量觀,了解到光明學術下計量實證的“潛規則”。所以,在這介紹的是“黑科技”,”正義凜然”的看客請繞行。
這裏我隻摘錄個別亮點,帖子發於7年前,其中的一些方法難免有點過時,但是內容絕對震撼:
案例背景
當初一個舍友來自西部地區,從沒學過計量(OLS都沒學過)。但畢業論文老板要求用數據說話,發愁。我於心不忍,告訴她:我每天晚上自習回來,睡覺前花10分鍾給你講解一下STATA的操作和出來的各項結果意義。第一天,我講了OLS。畫了一張散點圖和一根直線,用了1分鍾就讓她完全理解了OLS的精髓,這是用來幹啥的。後麵9分鍾講解了STATA的操作和OLS的各種變種。結果隻一個星期,講完五種方法(下麵會介紹),她信心大增。後來一下子發了好幾篇CSSCI,計量做的天花亂墜,讓人誤以為是一個大師。畢業論文也順利通過。
簡單回歸:
有人會問:簡單回歸會不會太簡單?我隻能說你真逗。STATA裏麵那麼多選項,你加就是了。什麼異方差、什麼序列相關,一大堆盡管加。如果你實在無法確定是否有異方差和序列相關,那就把選項都加上。反正如果沒有異方差,結果是一樣的。有異方差,軟件就自動給你糾正了。這不很爽嘛。如果樣本太少,你還能加一個選項:bootstrap來估計方差。你看爽不爽!bootstrap就是自己把腳抬起來扛在肩上走路,就這麼牛。
GMM:
GMM其實是一個沒有用的忽悠,例如估計動態麵板的diffGMM,其關鍵思想是當你找不到工具變量時,用滯後項來做工具變量。結果你會發現令人崩潰的情況:不同滯後變量的階數,嚴重影響你的結果,更令人崩潰的是,一些判斷估計結果優劣的指標會失靈。
一些口訣:
1.一定得選最複雜的計量方法,用別人無法獲得的數據,寫出能讓人明白但看不懂的論文。
2.控製變量直接放你所能想到的,起碼也得五六個。
3.什麼序列相關呀,異方差呀,bootstrap呀,能加上的全給他加上。
4.論文開頭有複雜新奇的關鍵詞,致謝裏都是學界名人。
5.字裏行間都帶腳注,引用全是英文文獻,特專業的那種,
6.讀者讀到這裏,甭管他有沒有看懂,都得跟人家說一聲“我的方法來自ECONOMETRICA”,一口專業的計量術語,倍兒有麵子。
參考鏈接:
計量論文寫作和發表的黑客教程1:讓初學者瞬間開竅 — PDF版本(https://bbs.pinggu.org/thread-988937-1-1.html)
所以,也不必覺得計量很神秘、很困難,上手試一試,也許就有驚喜。
問3:市麵上的計量和統計軟件可謂十分多,能否結合您的學習旅途和習得的經驗,為大家做一個係統的梳理呢?包括各類軟件的適用性、優缺點等等?
答:計量統計的軟件很多,不同軟件都有自己的側重點和所長,我們可以根據實際情況靈活使用:
(1)問卷、多元回歸分析-----SPSS大家都知道是市場調查專用,這裏簡單介紹一下最新版本的spss25.0,新加了高級統計模塊中貝葉斯統計執行新的貝葉斯統計函數,包括回歸、方差分析和t檢驗。 新圖表模板,可實現word等微軟家族中編輯,這個新功能,通俗的說,就是SPSS輸出的圖表,你可以不用在原始的輸出界麵進行編輯修改,可以直接保存到word等裏麵,再進行修改。將高級統計分析擴展到混合、genlin混合、GLM和UNIANOVA, 變得更加精致。
(2)結構方程與路徑分析------AMOS,主要是用於對結構方程模型(SEM)的建立和檢驗,不過也有使用liserl和mplus做SEM的,從使用來看,繼承了IBM的一貫流程化風格,比較容易上手,一些流程都是拖拽式的,潛變量與結構變量之間的連接比較規範,驗證性分析必備。
(3)金融方向的挖掘與分析------SAS,銀行、券商的最愛,因為比較安全,有商業保障,比較主流;
(4)時間序列與麵板------eviews和stata,eviews特別是新版本有很多高端的時序模型,分位數回歸、門限回歸、麵板協整、馬爾科夫轉換回歸、結構突變點檢驗、指數平滑狀態空間模型、Heckman選擇模型,且x12、x11等季節調整模型也很多,總之時序eviews能做的很多,而且每年都在更新新的模組,比較適合經濟學者入門,關於以上新版本的更新可以看帖子:[Eviews]〖素質筆記〗Eviews 8新功能之四——Heckman選擇模型(https://bbs.pinggu.org/thread-3880845-1-1.html)
stata在高級的麵板模型上走的很多,麵板向量自回歸等,還可以做Logit、多元Logit、雙邊隨機邊界分析 (two-tier StochasticFrontier Analysis)、異質性隨機邊界分析、麵板VAR模型、GMM、傾向得分匹配分析、非線性最小二乘法(NLOLS)等,主要是需要編寫代碼,所以可以自己組合一些方式方法出來,比較靈活,適合高階晉級的經濟學者。
(5)數據挖掘萬靈藥------界麵化的spss modeler、matlab、R、python,R+python 在機器學習、人工智能到來之際,已經火的一塌塗地了,spss modeler相對來說,就不顯得那麼有光芒了。但是,對於機器學習入門來說,spss modeler絕對很好掌握,跟spss一樣流程式,下麵是一些流程組件,可以任意拚接,比較符合數據分析的流程:數據預處理-建模-展示。
(6)數據可視化/拖拽式界麵------tableau、JMP(SAS旗下),都是比較適合數據可視化的軟件,tableau可謂大名鼎鼎,炫技術的神器,經常有tableau比賽,而且社區經常有聚會以及巡回演講,可以目睹可視化屆的黑科技,線上做的圖可以移動端查看:
JMP也有類似的功能,JMP是SAS推出的一種交互式可視化統計發現軟件係列, 這本書《JMP 統計分析教程 楊重法(著)》裏麵有比較詳細地介紹,拖拽式的界麵比較容易理解與讓分析師進行任意數據的組合、交叉。
(7)還有一些數值運算小眾的------gauss矩陣語言軟件包, 它可以十分方便地編製矩陣計算程序、winbugs(貝葉斯分析)
問4:作為一名統計學科班出身的經管人,您畢業後的第一份工作是AI算法工程師-----AI目前是整個時代的風口,您的成長路徑也可以說是“非典型”的,能否為大家分享一下經濟人轉行做AI的一些曆程與走來的想法?從文本挖掘、圖像目標識別到深度學習、算法等方麵,您都有哪些心得和感受呢?
答:對我來說,研三是一個轉折期,因為不打算繼續讀博,計量統計的知識出來做數據分析工作還差了一點,所以不得不補一些機器學習、文本挖掘方麵的知識。補著補著發現,深度學習這陣風刮來了,趕緊抱緊大腿又惡補了很久,差不多惡補了一年,總算在畢業的時候留任在實習的公司,正式從經濟學人成功轉型碼農(/掩臉)。畢竟碼農好就業,這點...(/歎氣)
深度學習外來入侵了很多領域,打破了很多領域的研究上限,讓大家看到了無限可能性,對於我們經濟學來說,時間序列預測較多模型都是以線性為主,非線性的、針對金融的模型複雜度都較高,理論較為繁雜。而深度學習用一個黑箱子把這些複雜都藏起來,讓本來就複雜的現象交給複雜的係統去處理。壞處是,可解釋性很差(不像回歸還有係數T檢驗、R方、F值檢驗),好處是逼近真實,預測準確率極高。本著知己知彼的心態,不自己了解一下入侵者,肯定不知道如何應對。
人工智能、機器學習、深度學習三者的關係就如圖所示這樣,人工智能範圍很大,囊括的內容也很多,把人工智能比作一個人,深度學習則是這人的大腦。
深度學習模型的一些基本架構相對國人來說,絕對沒的說,很好理解,學過高數的基本都能夠理解反向傳播的機製,也就知道模型是在幹什麼,困擾實踐的更多會是如何通過軟件來實現,近幾年屬於深度學習爆發的階段,之前比較麻煩的一點就是,算法更新迭代速度快到超乎想象,剛剛掌握的新技術,說不定幾周內就更新了一個版本,算法裏麵調用的函數連名字都換掉了,各類教程剛剛寫出來馬上又過時,所以入門難。但經過了前期的爆發式增長,現在很多編程算法函數已經趨於穩定,也就非常適合入門。
當然, 一般來說,經管專業對深度學習的理論理解絕對沒問題,網上教學資源豐富,聽著老師的講解以及一些教材絕對能聽懂,但是呢,動手寫代碼對經管人來說就比較困難了,而且一般經管都是用R,python用的倒不多。編碼能力這點,就跟學語言一樣,一定要多加練習才能學會,網上能夠找到一些教程,用jupyter notebook或R markdown寫的內容,可讀性都比較強,一段代碼一段顯示,讓你了解每個函數的輸入、輸出、參數設置等,所以勤加練習編碼這關還是可以順利通過的。
深度學習一些框架對新手來說比較麻煩,這邊推薦可以看看騰訊開發者實驗室以及IBM的公益項目:supervessel,裏麵已經裝好了環境可以直接測試。
問5:隨著大數據、雲計算等技術的日趨成熟,人工智能的發展也在不斷突破,生態也逐步形成------我們注意到在美股市場上,以英偉達、穀歌、FACEBOOK為代表的一批企業都在加速在AI領域的布局,其股價也屢屢創出新高。技術的進步與融合,讓各個學科的發展都滾滾向前,新的概念頻出,新的趨勢也不斷確立。
您如何看待經濟學與人工智能的關係?之前與您的交流中,您提及“計量統計的未來或許會涉及到如何接地氣、非結構化數據的整合“,能否就這個見解進一步分享和展開呢?
答:深度學習會像計量一樣,作為一種強有力的工具來幫助經濟人了解經濟現象,未來的實證可能會有更多的深度學習方式來進行說理。對於經濟學的影響,我認為主要來自於兩個方麵: 非結構化數據的解讀能力+解讀複雜現象的模型 。
非結構化數據的解讀能力。深度學習拓寬了可分析的領域,常規來看,之前經濟期刊實證發文,較多就是宏觀經濟數據、微觀調查數據,而深度學習作為可以解讀非結構化數據的方式,可以更好地全麵了解現象的發生。
譬如圖像、文本、聲音、視頻等一些非結構化的數據經過提取都可以成為一些變量加入到整個模型之中。其中輿情方麵的研究都較為有趣,比如twitter中的輿情預測股價、預測總統選舉、預測用戶情緒等。
舉一個現在流行的模型——卷積神經網絡,CNN目前用來看圖,確切來說,用來解讀數字矩陣,因為一張圖片一般解讀成RGB的三維數組矩陣,把非結構的大小變成數字,而且還是矩陣,那就有的數學家玩兒了~矩陣數值可以理解為像素點,數值 1 是白色,256 是最深的綠色。在算法眼裏圖像張下麵這樣:
卷積層就有點像是統計裏綜合評價中的各個指標加權得到得分,隻不過現在是在一個3*3的小區域裏麵算權重得分,如下:
具體的解讀比較淺顯的解讀素質推薦一篇用excel來解讀卷積的長文:《機器視角:長文揭秘圖像處理和卷積神經網絡架構》。
提供了解讀複雜現象的模型,物理學家,諾獎得主Philip Anderson的一句普世名言:more is different!線性模型在宏觀趨勢上的解讀能力很強,但是預測微觀現象的能力要遜色很多,而深度學習在高維數據中抽絲剝繭,降維關鍵信息,憑借強大的計算資源,可以擁有成千上萬個參數,學術界試圖模仿人腦的“神經網絡“建立一個類似的學習策略,也取名為”神經網絡“,由於到目前,還無法知道人腦工作的複雜性,所以這兩個神經網絡也隻能是形似而已。但這在常規經濟學模型來看,已經很可怕,就像大腦中神經傳輸、觸發一樣。
總的來說,深度學習可以很好地控製預測成本,可以提供給經濟學人更多非結構化數據的解讀,以及強有力的應付複雜現象的模型。
一些算法的學習與實踐,素質還是跟之前學習計量一樣,從工具入手再去回顧理論,那麼深度學習一般工具的載體就是python或R,python的入門紙質書很多,網上資源可以看廖雪峰python教程,一些packages入門可以直接看packages的介紹文檔:TensorFlow 官方文檔中文版、keras官方文檔中文版、Mxnet文檔等。
AI社區同樣非常活躍,很多高質量的論文都會在一些社群裏麵討論,微信群有:PaperWeekly微信群、將門微信群;公眾號有:機器之心、智能立方、Paperweekly、哈工大scir、將門創投、煉丹實驗室、機器學習研究會、AI科技評論、全球人工智能、深度學習大講堂;知乎專欄有:煉丹實驗室、機器之心、超智能體、PaperWeekly、深度學習:從入門到放棄、智能單元、深度學習大講堂等。當然了,統計之都也有非常多的接地氣的文獻:
Editor: 從統計學角度來看深度學習(1):遞歸廣義線性模型
https://cosx.org/2015/05/a-statistical-view-of-deep-learning-i-recursive-glms
Editor: 從統計學角度來看深度學習(2):自動編碼器和自由能
https://cosx.org/2015/05/a-statistical-view-of-deep-learning-ii-auto-encoders-and-free-energy
Editor: 從統計學角度來看深度學習(3):記憶和核方法
https://cosx.org/2015/06/a-statistical-view-of-deep-learning-iii-memory-and-kernels
問6:近年來,經管領域的計量、統計已經快速與AI融合起來,您覺得AI所涉及的知識結構和知識全景是怎樣的呢?或者說,AI大圈子背後全專業領域的匯合是一幅怎樣的全貌呢?AI如何做預測與計量預測?AI做原因分析與傳統統計做原因分析有哪些異同呢?
答:深度學習與AI現在國內非常熱,從各大頂級期刊來看華人稿子很多,仰賴全民從小數理化,基本數理知識紮實,入門學習比較容易。而且,受線上教育的紅利,有非常多的頂級、免費的公開課可以供大家學習,讓名校的知識教育流傳開來,比如吳恩達的deeplearning.ai,這個在網易雲課堂有中文字幕版的(https://mooc.study.163.com/smartSpec/detail/1001319001.htm )。經典的cs231n,官網鏈接(https://cs231n.stanford.edu/ ),cs231n是有筆記的(https://cs231n.github.io/ ),當然,知乎上的一些大神對這個筆記進行了翻譯---鏈接(https://zhuanlan.zhihu.com/p/21930884 )。李飛飛老師的網易雲課堂的公開課。
對於深度學習與AI整體框架來說,網上盜圖一張,供大家參考:
上圖比較籠統(來源文獻:《人工智能產品經理的新起點》),能掌握一部分已然很不錯,一些基本的知識點有:
基本模型結構卷積層、激活函數、池化層、歸一化層、softmax,參數初始化gaussian/xavier/bilinear,激活函數:sigmoid、tanh、relu、selu等,損失函數:log loss/hinge loss/zero-one loss等,優化方式:sgd/adagred/adam等,各種訓練技巧:dropout/batch normalization /正則/attention等,一些理論知識點:梯度爆炸、梯度彌散、調參、微調等,一看這麼多專業名詞瞬間蒙X了,別著急,其實... 這也隻是剛剛入門...。
深度學習做預測與計量做預測模式有很多相似之處,首先需要喂給模型一些數據,然後模型學習到這些數據的模式,再進行相關預測。不同之處在於處理非線性的能力,以RNN(循環神經網絡)為例:
RNN中,x是輸入,y是輸出,h可以對序列形的數據提取特征,接著再轉換為輸出。
外來入侵的深度學習解釋性不強代表著其理論根基還不透徹,特別是統計學中變量有兩類連續變量和離散變量,連續時間變量的理論基礎是其服從某些分布,從而可以開展相關的分析,但RNN給出了連續時間變量不一樣的解讀方式,即可以看成一個在時間上傳遞的神經網絡,它的深度是時間的長度,這種對時間的解讀與常規線性回歸解讀方式差異很大,極有意思。
問7:從一位經管人到AI工程師,其實我們相信底層的知識的遷移,以及對工作崗位的快速學習和適應,都十分重要。在這個過程中,能否和我們分享一下,您從AI入門到開始AI項目的曆程呢?您覺得作為一個職業新人,應該如何去快速適應自己的新工作呢?工作以來,最大的感受是什麼?
答:來看一張AI界大牛整理的一張AI產品:
也就是現在AI並不是一個算法、一個模型、一個專利技術、一個人能解決的,AI需要整體解決方案,所以需要很多專業內容匯聚在一起來共同解決同一問題。新的行業的誕生,必然也會有非常多新的崗位添加進來,湧現出一些比較有意思的崗位:機器人暴力評估師、訓機師(雇傭詩人、喜劇演員幫助機器人設計對話)等,從上圖所調用的資源與能夠達到的效果,AI產品可以很快地打破垂直領域一些產品,以一個“顛覆者”的姿態,譬如翻譯員、司機(雖然無人駕駛還很遙遠...)、客服等。當然,這裏也可以開個腦洞,解放生產力之後,讓大家有更多閑置時間,那麼娛樂、遊戲等一些偏休閑的方向也會迅速崛起。
深度學習、AI是一個嶄新的方向,做AI項目需要調動的資源比想象中要多得多,AI產品需要有很多高質量的標注數據,硬件資源也尤其重要,比如計算機一定需要質量比較高的GPU,而高質量GPU通常價格不菲。工程師是AI產品的靈魂,AI就像學舌鸚鵡,你教她說什麼,她隻會說你教的,而且你一下子教她很多,她有很大概率一句都學不會,所以是一個互相適應、互相學習的過程。還有,模型需要大量的訓練數據,才能展現出神奇的效果,但現實生活中往往會遇到小樣本問題,此時深度學習方法無法入手;有些領域,采用傳統的簡單的機器學習方法,可以很好地解決了,沒必要非得用複雜的深度學習方法,千萬不要掉進模型怪圈。
作為一枚初入職場的小白,特別還是AI方向的,需要花更多時間去讓自己充電,AI所需的知識是方方麵麵,她把很多領域的知識融合進來,所以為了了解她,需要去不斷學習、理解、磨合、適應,其發展也是指數級,可能每周都有新的方式方法超越,成為state-of-the-art,要有“Stay foolish,stay hungry”的精神!
問8:在剛才的采訪中,我們提了許多問題,最後一個問題,我們希望是開放式的,也希望您能盡情發揮。在訪談的最後,能否就您擅長的領域或感興趣的領域,為我們分享一段精彩的評論或觀點或寄語呢?
答:之前了解過量化大師西蒙斯的團隊結構,他從來不雇傭經濟學家及華爾街專業人士,而卻將計算機科學家、物理學家以及天文學家都納入團隊,甚至雇用了一些語音學家。他認為股票市場就是一個數學難題,與實體經濟的構造組成沒有關係。他曾說:“我們不雇用數理邏輯不好的學生。”
受他這種天馬行空的研究模式啟發,我認為經濟現象也並非隻能從調查、年鑒、數據庫中去探索蛛絲馬跡,還可以從很多非結構化的內容入手研究。而深度學習對非結構化數據的解讀可以極大幫助經濟學人去理解經濟現象,擁抱更多元、全領域、多模態的分析模式。
最後,打一波廣告,素質常年駐紮在CSDN博客,歡迎大家拖家帶口趕來瞅瞅,要是覺得不錯,請關注、收藏、投幣(並沒有的功能),有空常交流哈~最近的口號如下:
最後更新:2017-11-02 12:33:19