CCAI 2017 | 鄧小鐵:金融博弈下的價值學習
上海交通大學計算機係鄧小鐵教授
7 月 22 - 23 日,在中國科學技術協會、中國科學院的指導下,由中國人工智能學會、阿裏巴巴集團 & 螞蟻金服主辦,CSDN、中國科學院自動化研究所承辦,雲棲社區作為獨家直播合作夥伴的 2017 中國人工智能大會(CCAI 2017)在杭州國際會議中心盛大召開。
在大會的智能金融論壇上,鄧小鐵教授發表了題為《金融博弈下的價值學習》的分享。
鄧小鐵現任上海交通大學計算機係致遠講席教授,曾獲得清華大學工學學士學位、中國科學院碩士學位以及斯坦福大學博士,曾在英國利物浦大學、香港城市大學和加拿大約克大學任教。
在此之前, 他是西門弗雷澤大學的加拿大自然科學與工程技術研究理事會國際博士後研究員。因為對算法和博弈理論交互研究的貢獻,於2008年獲選ACM會士。2013年入選國家千人計劃。
目前的重點研究算法博弈理論包括均衡分析和機製設計, 並應用於互聯網經濟學金融學。近期對機器學習方法論和博弈論方法論的交互應用極為關注,特別是競爭環境下的利益攸關個體之間基於數據的相互學習,以及在金融數據獲取策略分析、最優動態對策和均衡分析的應用。
以下是鄧小鐵教授的演講實錄,AI科技大本營做了不改變原意的整理:
謝謝大家,很高興有機會來到這裏。
我們考慮的是多代理環境下的博弈與學習。對於通常情況下的機器學習,我們有很多的知識了解,那麼在我們不知道的環境下該怎麼處理?這種情況下我們考慮的是對抗性學習和博弈學習。這樣的應用目前已經越來越多,特別是在金融和經濟學裏麵。
關於對抗性學習,前麵的報告提到GAN的網絡,在這方麵我們也可以考慮到反垃圾郵件的時候,filter要經常轉變。
博弈學習是另外一種情況,博弈學習的時候,並不是完全對抗的,可能還會合作。在這種情況下我們對學習有什麼樣的理解。
這裏最重要的一點是我們有時候並不知道價值究竟是什麼樣的。這種情況下,每個人的價值就是他自己的一種私有信息。在市場上,每個人有自己的追求和市場選擇。在這裏,我們可以討論的問題一個是市場的均衡;還有一個比較流行的是在拍賣理論裏麵有誠實機製的分析。在這種程度上,我們有一定的知識和能力。
為什麼要考慮這樣的情況呢?因為這種情況在互聯網競技中非常常見。比如說,通常我們看到的搜索廣告。一開始的時候大家並不知道在網上放一個廣告能值多少錢。廣告主投放廣告以後,他們會得到越來越多的知識。這種情況下,就有一個相互學習的過程,使得我們知道它的價值究竟有多大。另外一個是我們可以經常看到的折扣設計,誰也不知道買家需要多少折扣才願意買東西。
我們對這個問題的另外一個考慮是現在的數據科學。統計學通常包含兩個部分,一個是學習,一個是統計推斷。在學習的部分收集數據,收集數據後有一個方案是對數據進行建模。一種最簡單的建模方式是均勻分布。另外一種經常用到的,特別是物理學、化學等自然科學用到的一種分布是高斯分布,還有經濟學最常用的冪次率。對於這些不同的分布,我們逐步的知道它們越來越多的情況,可以說我們有一個知其然的過程,正態分布我們知道有大數定律在裏麵,所以我們也知道一些,但是對於冪次率我們並不是非常清楚地知道。
建模以後還有一個統計推斷的過程,我們這裏做決策分析。回想一下機器學習很重要的幾個階段,也可以在這裏體現出來:第一,我們有了數據,然後建模,把數據分成兩部分——訓練數據和測試數據,通過這兩個階段做決策分析。
整個的框架我們也許問過為什麼,但是需要比較嚴格的清清楚楚地將它仔細地分析一下。這裏我用一個貝葉斯優化的方案來探討一個例子,目標是在金融和經濟學裏麵見到的很多的,是將我們的期望收益最大化。
這是一個著名的Myerson最優拍賣的例子。第一步,Myerson的建議是,我們知道它的分布,怎麼知道沒有說,我們把他加進來,因為我們是學習這個價值分布。
大多數的情況,在互聯網的環境下,這個事情都是我們自己做的。在這裏我們有一個報價,然後運用一個機製設計來決定賣給你什麼,收多少錢。這裏,虛擬報價是根據真實報價算出來的一個值。
這樣的話,在Myerson拍賣裏麵它確定贏家在虛擬報價最高的一列,那計算費用就等價於第二虛擬報價的贏家報價,這是一個非常簡明扼要的方案。但是在互聯網中,賣給你很多次以後,我知道你有一個底價,即虛擬報價等於0的那個就是底價。在貝葉斯最優拍賣裏麵也有這樣一個值。
我們看看Myerson拍賣的時候怎麼賣。
它的分布函數空間為:[0,a] 1>a>0
我們回去參考一下,或者是你相信我的話,虛擬報價是2x-a,當2x-a=0即x=a/2 當隻有一個人的時候,你的報價大於a/2就贏得報價,你的付費就是a/2。
這樣我們可以算出來你的付費是多少,你的期望收益是多少。你的期望收益在這裏算出來的是一個常數減去a/4。你的最優策略是什麼?你把a設為0,最優策略的收益是3/8。但是你誠實報價的時候a=1,你的誠實收益是1/8,這樣的話,拍賣者就被你欺騙了。
在一般的情況下,我們有這麼兩個階段。第一個階段呢,在經濟學理論分析中,它強調邏輯原則,也就是剛才我們講的Myerson拍賣,它是假設知道你的分布。但是今天我們看到,數據範式裏麵非常強調數據,那麼我們把這兩個銜接起來就能發現以前的理論的弱點在哪裏。
我們在這樣一個均衡的情況下,剛才隻講了一個人的情況,如果是多個買家的情況,我們也可以得到一個最佳欺騙的分布。n趨向於無窮大的時候,a=1。也就是說,參與買賣東西的人很多的時候,我們會收斂到Myerson拍賣,賣家收入是得到真實報價的最優收入。這裏有一點,賣家是對的,賣家要學習,學習以後能夠得到最優拍賣,而買家要做strategy,結果得到自己2倍的真實報價最優收益。
今天我想講的是最後一段,賣家要反複學習,買家要做strategy。謝謝大家!
作者:CSDN焦燕
來源:CSDN
最後更新:2017-08-13 22:49:34