CCAI 2017 演講實錄 | 周登勇:眾包中的統計推斷與激勵機製
美國微軟雷德蒙研究院首席研究員周登勇
7 月 22 - 23 日,在中國科學技術協會、中國科學院的指導下,由中國人工智能學會、阿裏巴巴集團 & 螞蟻金服主辦,CSDN、中國科學院自動化研究所承辦,雲棲社區作為獨家直播合作夥伴的 2017 中國人工智能大會(CCAI 2017)在杭州國際會議中心盛大召開。
大會第二天上午,美國微軟雷德蒙研究院首席研究員周登勇(Denny Zhou)發表了《眾包中的統計推斷與激勵機製》主題報告,從“為什麼眾包”、“眾包的挑戰”、“統計推斷”、“激勵機製”著手,結合多個生動形象的案例,具體總結了微軟雷德蒙研究院過去幾年在眾包研究與工程上的進展。周登勇博士表示,在可以預見的將來,機器智能完全代替人的智能幾乎沒有任何可能,我們應該是讓人與機器各施所長互相補充。數據標注是一個比較簡單的人機係統,但這裏麵包含的技術已經相當有挑戰性。如果我們要建立更複雜的人機智能係統解決更大的問題,會有更多的新的困難需要克服。
以下為演講實錄,在不違背原意的情況下進行了刪減和調整。
大家好,我今天要講的是眾包。具體來說,我將討論如何通過眾包獲取高質量的數據標簽。為開發一個機器學習的智能係統,我們第一步要做的事情就是獲得高質量的帶標簽的數據。
通過眾包我們很容易拿到大量的帶有標簽的數據。眾包有兩個優點:
- 速度快。一個商業眾包平台或許有上百萬甚至幾百萬的數據標記人員。
- 便宜。在亞馬遜眾包平台標注一個圖像數據通常都不到1美分。
所以,通過眾包很可以以很少的花費在短時間內獲得大量的帶標簽的數據。在機器學習裏大家經常會說的一句話:更多的數據會打敗一個聰明的算法。
眾包存在的問題
可是,通過眾包獲取的數據標簽質量或許不高。 隻要原因如下:
1. 專業技能。因為眾包人員可能沒有標記你的數據所需的技能。
2. 動機。眾包人員沒有動力好好的把這個數據標記好。
如果使用低質量的數據去訓練一個機器學習模型,不管使用什麼高級的算法,都可能無濟於事。
眾包中的統計推斷
在一定程度上,統計推斷可以幫助我們從低質量的通過眾包獲得的數據標簽中提煉出正確的標簽。
讓我們先看一個假想的例子。比如這個橙子與橘子的分類問題。每幅圖像同時有幾個人標注,不同的人或給出不同的答案。但是,當把不同的答案設法結合起來,我們或許能知道正確的答案是什麼。這也通常叫做群體智慧。
怎麼結合不同人的答案呢?最簡單的辦法就是采用投票的方式。也就是說,哪一類標簽拿到的投票數是最多的,我們就認為這個圖像屬於這一類。
我們在做一個問題的時候,總應該想一想,我們的做法合理嗎? 還有改進的空間嗎? 在我們的這個問題上, 投票意味著什麼呢?投票意味者所有人的水平都是一樣的。也就是說, 大家都一樣好。
顯然這在現實上不太可能。更可能的是大家水平參差不齊。但是,因為沒有正確的答案,我們不能立即知道誰的水平更高。而且,即使我們知道正確的標簽,也很難比較兩個人的水平的高低,因為不同的問題難度會很不一樣。一個答對了10道容易問題的人與答對10道難題的人水平或很不一樣。所以,為了推斷出正確的數據標簽,我們需要把以上討論的關於人的水平與問題難度的直觀想法轉化成一個數學模型。
接下來講我們的方案。在這之前,讓我先引進一些數學符號。讓我們把收集來的眾包數據表示成一個矩陣。這個矩陣的每一行對應一個數據標記員,每一列對應著我們需要標記的對象。數據
表示第
個人對第
個數據做出的標記。真實的標簽
是不知道的。我們需要解決的問題就是如何從
推斷出
。
極小極大熵原理
我們的解決方案叫極小極大熵原理,可以分成兩塊來解讀:
- 優化的對象;
- 優化的約束條件。
我們先看約束條件。第一個約束條件是針對每個數據標記員工,第二個約束條件是針對每個需要標記的對象。下麵我將解釋這兩個約束。我們會看到第一個約束條件對應著人的水平,第二個約束條件對應著問題的難度。
剛才說過,每一個數據標記人員所標記的數據對應著矩陣的一行。我們的約束做這麼一件簡單的事情:計數。我們數一下有多少類別為c的對象被誤標為l。約束方程的右邊是觀察到的誤標總數,左側則是對應的期望值。一個人誤標越多,水平就越低。
構造這個約束方程的原理可以理解如下。
假設我們有一枚硬幣,我們希望知道這個硬幣是正麵的概率是多大。假設我們把這個硬幣不斷的丟10次,有6次是正麵。那麼正麵的概率是多少呢?一般我們會說正麵的概率是60%。為什麼呢?我們可以這樣想。假設正麵的概率是p,我們會認定10 * p = 6,右邊是觀察到的正麵數,左邊是期望值。解這個方程,我們就可以得到p = 0.6。
類似的,我們對需要標記的每一個對象也有這樣的計數。當我們知道真實的類別的話,我們會知道有多少人標錯了。標錯的人越多,這個問題就越難。我們方程的右側統計一下到底有多少人標錯了,左邊則是它的期望值。
約束條件已經講完了,現在回到為什麼采用這樣一種目標函數。首先我們把極小化放在一邊,先看極大化。也就是極大熵。我們用一個數學模型解釋觀察到的數據的時候,盡量用一個光滑的模型去擬合數據。類似地,當我們用一個概率分布解釋觀察到的數據的時候,會讓分布盡可能平坦。這就是極大熵原理的直觀解釋。為進一步推斷真實的標簽,我們極小化最大的熵。熵在直覺的意義上意味著不確定性。極小化最大的熵意味著極小化不確定性,也就是我們認為數據標記員都在盡力做好他們的工作。如果他們隻是提供隨機的標簽,那麼就沒有任何辦法去恢複真實的標簽。
解決極小極大的優化問題的時候,我們需要把它變成一個對偶問題,叫拉格朗日對偶。拉格朗日乘子σ_i與τ_j可以分別解釋成人的水平與問題的難度。我們初步設想是把每個人的能力與問題的難度給刻畫出來,但是並沒有假設這個模型是什麼樣的。當我們同時引進約束條件和極大極小化熵,這個模型就自動推出來了。要注意到這裏的拉格朗日乘子是矩陣,
最後更新:2017-08-13 22:50:29