剛剛,微軟刷新了SQuAD記錄……你猜啥時候會被刷下來?
就在幾小時前,斯坦福大學NLP組發推稱,微軟在昨天提交了一次SQuAD的測試成績,重新奪回了該數據集測試榜單第一的位置。
在今年7月份,科大訊飛與哈工大聯合實驗室(HFL)提交的係統模型奪得第一,這也是中國本土研究機構首次取得該比賽的冠軍。當時科大訊飛北京研究院院長王士進博士告訴雷鋒網,SQuAD的成績刷新得很快,基本兩周或者一個月就會被刷新一次(參見雷鋒網文章:《專訪科大訊飛:成為世界第一,隻是閱讀理解係統萬裏長征的第一步》)。
SQuAD(Stanford Question Answering Dataset)是行業內公認的機器閱讀理解領域的頂級水平測試,被譽為機器閱讀理解領域的ImageNet。SQuAD與ImageNet具有諸多共同點:都是各自領域的頂尖測試集,負責人都是斯坦福的新銳青年學者,都得到了工業界和學術界的青睞。
在ImageNet負責人李飛飛在今年IJCAI大會上的《ImageNet:Where we have been,Where we are going》演講中,李飛飛曾提到這樣一個細節:ImageNet團隊試圖在 2014 年結束競賽的一個子項目,但卻遭到了來自Google、Facebook 等公司的阻力,因為“產業界非常喜歡這個基準”,同樣,SQuAD也很討產業界的喜歡,參賽者包括來自微軟總部及微軟亞洲研究院、Salesforce、科大訊飛、穀歌以及卡內基·梅隆大學、複旦大學等知名企業研究機構和高校,目前在排行榜上,前三名均來自產業界。
SQuAD數據集剛剛進入第二個年頭,目前精確匹配(Exact Match)和模煳匹配(F1-Score)的結果在80%左右,從正確率看大致相當於ImageNet在2012年到2013年的水平,但從難度看,SQuAD要略高於ImageNet:人類在ImageNet測試的錯誤率在4%左右,而SQuAD人類的精確匹配和模煳匹配錯誤率分別在18%和9%左右。此外CNN 對模式分類非常適合,其最初就是為識別二維形狀而特殊設計的,而在閱讀理解領域,雖然大家都在使用深度學習,但始終缺乏像2012年在ImageNet上橫空出世的AlexNet這樣的突破。
科大訊飛北京研究院院長王士進博士告訴雷鋒網,目前成績較好的隊伍基本都采用的是模型融合(ensemble)的方式,即對於問題提出不同的模型,然後對這些模型進行一個融合,而在融合的過程中,對模型的選型,即如何選擇更優秀、魯棒性更好的模型至關重要。
但雷鋒網也注意到,使用好的單一模型取得的成績與模型融合相差不大,微軟AI研究院在這個月提交的一個單模型測試結果就得到了第五名的成績。由於模型融合會增大對應的計算量,最終工業界是否會對正確率和消耗的資源進行平衡,開發一款“經濟實用型”的產品還未為可知。
但工業界會永遠為每一個零點零幾的提升而努力。“我們技術上最近有一些升級,預計近期會更新一次結果。”王士進告訴雷鋒網。
最後更新:2017-10-08 05:14:57
上一篇:
馬雲:我從不認為我是首富,我沒有時間花錢;微軟宣布Office 2007今年10月10日停止服務……
下一篇:
微軟在國際和平日邀請索尼共進晚餐,慘遭拒絕
獲取insider preview版本出錯 錯誤代碼:0x800bfa07
hhukapi.dll,程序丟失怎麼辦
原來的【文本和其他項目大小調整的高級選項】界麵咋沒了?
無法獲取Insider Preview 內部版本 錯誤代碼 0x800bfa07
Windows 10,Windows Defender\Scans文件夾占用空間過大
windows10 *64 16215更新時下載過程中失敗,代碼 0x80240034
安裝16226.1000更新時出現一些問題,但我們稍後會重試。
注冊表值hklm\software\3fd8f8eac是什麼
defender服務無法自動啟動
Microsoft AntimalwareMicrosoft 反惡意軟件 試圖更新簽名時遇到錯誤。
熱門內容
Android Studio 3.0發布,支持 Kotlin;微軟開源深度學習庫MMLSpark;敏捷開發?真的假的?
微軟Surface Note概念手機,三星Note 8的殺手?
微軟2018財年Q1財報:遊戲業務收入僅增長1%
微軟高管解讀財報:雲計算業務發展良好 為客戶創造巨大價值
聚焦場所體驗與本土文化表達,微軟Microsoft馬其頓辦公設計
微軟也來搞折疊屏手機,有望明年推出,打開秒變平板電腦!
微軟槍車球中“車”的代表,《極限競速7》視頻評測
微軟的Kinect停產了,但它為今天的VR/AR做了很多貢獻
微軟一季度財報:遊戲業務盈利增長顯著
微軟買斷未來15年GE風力電廠能源:供應數據中心