1007 技術社區[雲棲]

近期熱門領域新鮮數據集匯總！

今天想跟大家分享一些近期看到的比較新穎的數據集。隨著很多基礎設置下的簡單問題被解決，想要去檢驗一個模型是否具有更強的能力，就需要更好的更複雜的數據集做支持。由此，許多研究者通過各種方法爬取、構造了一些高質量且有新意的數據集。今天想分享的涵蓋了許多熱門領域：閱讀理解、對話係統、新聞摘要等。

Johannes Welbl, Pontus Stenetorp, Sebastian Riedel. "Constructing Datasets for Multi-hop Reading Comprehension Across Documents". arXiv preprint 2017.
Mandar Joshi, Eunsol Choi, Daniel Weld, Luke Zettlemoyer. "TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension". ACL 2017.
Yanran Li, Hui Su, Xiaoyu Shen, Wenjie Li, Ziqiang Cao, and Shuzi Niu. "DailyDialog: A Manually Labelled Multi-turn Dialogue Dataset". IJCNLP 2017.
Layla El Asri, Hannes Schulz, Shikhar Sharma, Jeremie Zumer, Justin Harris, Emery Fine, Rahul Mehrotra, Kaheer Suleman. "Frames: A Corpus for Adding Memory to Goal-Oriented Dialogue Systems". SIGDIAL 2017.
Hannes Schulz, Jeremie Zumer, Layla El Asri, Shikhar Sharma. "A Frame Tracking Model for Memory-Enhanced Dialogue Systems". arXiv preprint 2017.
Shereen Oraby, Vrindavan Harrison, Lena Reed, Ernesto Hernandez, Ellen Riloff, Marilyn Walker. "Creating and Characterizing a Diverse Corpus of Sarcasm in Dialogue". SIGDIAL 2016.
Piji Li, Lidong Bing, Wai Lam. "Reader-Aware Multi-Document Summarization: An Enhanced Model and The First Dataset". Proceedings of the EMNLP 2017 Workshop on New Frontiers in Summarization (EMNLP-NewSum'17).

一

第一個要分享的是一篇多輪/級推理閱讀理解數據集的論文（Multi-hop Reading Comprehension）[1]。這個項目名叫 QAngaroo，並且在論文中通過同樣的方法構造了兩個多輪推理閱讀理解數據集，一個叫 WikiHop 一個叫 MedHop。

以 WikiHop 為例。現有的大部分 RC 數據集經常隻需要利用局部信息匹配（問題中的詞和原始文檔中的詞）就可以找到準確答案。這樣的數據集其實對於模型的推理能力要求很低。為了測試推理能力（multi-step inference），以 Wikipedia 文章為例，很多時候為了回答一個問題，可能需要綜合多篇文檔中的信息（evidence piece）來得到一個最終答案。看論文中給出的例子：

f04edd5cde328654b0f2215e7ce9948a88f31baa

這篇論文不僅給出了基於二部圖的構造數據的方法，還在構造了最初的原始數據後，進行了重采樣，從而減緩數據集的偏見（bias）。他們還將現有的一些比較常用的 RC 模型在自己新製作的數據集上進行了評測，發現哪怕是基於神經網絡的 RC 模型也隻能達到 42.9% 的正確率，而人類則可以達到 74%。也因此，他們認為現有的模型還有很大提升空間。

二

另一份多輪推理的閱讀理解數據集來自 ACL 2017 的工作[2]。這篇工作中提出的數據集叫做 TriviaQA，它主要有以下三大特點：

數據集中的文本的句法比較複雜，需要很多複合信息
數據集中的文本的語法和用詞也比較複雜，簡單的文本匹配方法可能會失效
數據集中的信息常常跨過多句，為了得到答案需要多級推理（cross sentences）

也因此，它和上文的 WikiHop 的區別還是比較明顯的。一個是跨文檔推理，一個是跨句推理。一個是簡單的問題（query），一個是複雜的句法。來看一個 TriviaQA 的例子：

afaac31cacc17f96413e61aa411512a51e940c96

在這篇論文中，他們還給出了一個橫向對比幾大 RC 數據集的表格。由此可見，他們非常在意能否有比較強的 Evidence Excerpt。

59e26a8810779afcd27a650095168223a12d3e51

最後，和 WikiHop 一樣。現有的 RC 模型在 TriviaQA 上表現並不佳，大概也是 40% 和 80%（人類表現）的差距，還有很大提升空間。

三

分享完兩篇閱讀理解的數據集，來看看同樣很火的聊天對話的數據集。這篇論文[3] 中給出了一個針對日常聊天場景的多輪對話數據集 DailyDialog。作者指出，現在已有的對話數據集很多並非源自真正的對話，比如主流的有來自微博和 Twitter 這種社交網絡的 post-reply pair，也有來自電影台詞的。前者往往會摻雜很多非正式的縮寫與網絡用語，而且也會有信息殘缺的問題；後者中的台詞往往過短，台詞輪數過多，導致模型訓練不夠好。

為了挖掘更好的能服務於日常溝通的對話模型，作者通過爬取英語口語對話網站構造了 DailyDialog 這個數據集。因為是日常生活中的對話，所以對話涵蓋了很多情感信息，也有很多比較自然的對話模式。可以看一個作者給出的例子：

4b1a16a82948edc78c1745b4d6d2f6916a7655eb

在上麵的例子中，紫色加下劃線的詞有比較明顯的情感傾向。可以看到對話中，A 先是比較苦惱，後在 B 的寬慰和開導下有了一些轉變。從 B 的話語中也可以看到，B 能主動詢問 A 為什麼苦惱，以及給 A 提供一些建議（斜體字）。而這些建議往往涵蓋著新的信息，也是我們日常對話中能增進互動的一種表達方式。

為了讓模型能更好地學習這些日常對話中的特征，作者將爬取的語料進行了人工標注。每一個對話中的每一輪對話（utterance turn）都標注有 dialog act 和 emotion 兩種信息。這也可以說是比較少見的在對話語料中同時含有這兩類信息的數據了。以下就是這份數據的一些簡單統計：

d3db5ff18db99e66fa5bfea8b1f0afe6aa6cc6ec

四

繼續說對話的數據集。剛才的 DailyDialog[3] 主要針對的還是比較偏閑聊（chit-chat）的對話語料（其中也有一些 task-oriented 的，但比較少且不典型）。下麵要介紹的這份語料 Frame，來自 Maluuba 團隊[4][5] 則主要是針對 task-oriented 也就是任務導向型對話的新語料和新任務。

Frame 這個數據集之所以叫這個名字，主要是其論文中[4]提出了一種新任務，叫 Frame Tracking。區別於傳統任務導向型對話中的 Dialogue State Tracking（DST）是以每個對話輪（turn）為粒度，Frame 相當於將對話切割成了更大更粗粒度的一個個小目標。以一個例子來說明，比如我們在定製一次旅行計劃的時候，往往會很向對比很多個目標（酒店、機票、城市組合等），這些橫向對比的小目標可能是在幾個對話輪中都提到的，又可能在對話進行到後麵的時候重新被提起（比如做橫向比較的時候），那麼這些時候就會涉及到 frame refering 的問題。

69c1ad13429ca80434491120604d7068c7a9db0b

上圖是一個對話案例。可以看到整個對話中，共構成了兩個 frame，基本可以認為是兩種不同的旅行計劃。而對話的任務請對話係統幫忙判斷哪個旅行計劃更優。那麼這個更優就和傳統的任務導向型對話很相關，因為也涉及了很多用戶約束（比如哪天出行，比如價格範圍等）。所以說 frame tracking 這個任務中的 frame 幾乎 DST 任務中的 semantic frame 的一個超集（有一點點例外，詳細請看論文）。

五

在論文[4] 中，Frame tracking 這個任務是這樣定義的：已知用戶說的每句話，並且每句話有 dialogue acts，slot typles，slot values 這些標簽，請將每個 dialogue act 相應的話進行分類，對應到其正在討論的 frame。如果對於這個任務還是不好理解，則可以看論文[5] 中對這個任務的數據進行的一些分析，裏麵給出了一些 frame 變化的場景和案例。

90c03c603795b1bf123c73990937d0d2e27681b1

六

下麵要分享的這個語料有一點特別，雖然也是對話語料，但是是針對對話中的諷刺語現象的[6]。

在這份語料中，作者給出了主要四種數據：一般形式的諷刺語（general）、比喻型的諷刺（rhetorical questions）、誇張型的諷刺（hyperbole），和非諷刺語（負樣本）。

ac908f1fefe2fe3a83abf2174023d1bfade19bf0

為了表示自己的標注質量很高，作者也給出了一些特征和有監督的訓練模型來檢驗。並根據這些特征給出了一些諷刺語的語言現象分析。對於這方麵感興趣的同學還是很值得看一下這份語料的。比如說，以下這些詞就是很強烈的諷刺語提示詞：

d6362d9b31704ad01bcb4f5490aafacef1ae5aba

七

最後要分享的數據集也給出了一個新任務，叫做 Reader-Aware Multi-Document Summarization（RA-MDS）[7]。文章指出，在做新聞摘要的時候，讀者在新聞評論中的一些關注點，對摘要係統也有很大幫助。比如說，有些原始新聞報道都持有對 AI 技術非常樂觀的態度，而有些讀者則可能在新聞下方的評論裏表達對於 AI 技術可能帶來的社會問題的憂慮等等。這些信息也會為摘要係統增加新的視角。於是便有了這樣第一份 RA-MDS 的數據集。

這個數據集裏的一些信息主要是延續了 TAC 的數據規範：topic、document、category、aspect、aspect facet 和 comment。其中 aspect facet 和 comment 是 RA-MDS 獨有的。Aspect facet 是 aspect 的具體內容，comment 就不用說了。比如，以“Malaysia Airlines Disappearance”為例, 針對“WHAT”這個方麵（aspect），其 aspect facet 就包含了“missing Malaysia Airlines Flight 370”, “two passengers used passports stolen in Thailand from an Austrian and an Italian.”等等。

同時，論文也給出了自己的一個模型來解決這樣一個任務。可以看看最後生成出的一些摘要：

206e77c1a6cddedd82e10228f655deb5ce5c5805

原文發布時間為：2017-11-9

本文來自雲棲社區合作夥伴“數據派THU”，了解相關信息可以關注“數據派THU”微信公眾號

最後更新：2017-11-10 14:34:53

近期熱門領域新鮮數據集匯總！

上一篇：阿裏雲服務器安裝Redis及基本配置

下一篇： Keras詞級自然語言模型

相關內容

熱門內容

最新內容

近期熱門領域新鮮數據集匯總！

上一篇： 阿裏雲服務器安裝Redis及基本配置

下一篇： Keras詞級自然語言模型

相關內容

熱門內容

最新內容

上一篇：阿裏雲服務器安裝Redis及基本配置