376
魔獸
用於自然語言處理的數據集集錦
在開始研究自然語言處理深度學習的時候,你需要有數據集來練習編程。
最好使用小的數據集,因為下載速度比較快,並且不用花太長的時間來適應模型。此外,使用容易理解並且廣泛使用的標準數據集也是有幫助的,這能讓你對結果進行比較,看看自己是否取得了進展。
本文介紹了一套用於自然語言處理任務的標準數據集,在你研究深度學習的時候可以使用。
概述
本文分為7個部分,包括:
- 文本分類
- 語言建模
- 圖像字幕
- 機器翻譯
- 問題回答
- 語音識別
- 文檔摘要
我提供了不少的數據集,它們在學術論文中的使用非常廣泛。幾乎所有的數據集都可以免費下載。
1. 文本分類
文本分類是指對語句或者文檔打標簽,例如電子郵件分類和情感分析。
下麵是一些不錯的的初級文本分類數據集。
- 路透社Newswire主題分類(路透社21578)。 1987年在路透社出現的一係列新聞文檔,按類別排列。 另見RCV1、RCV2和TRC2。
- IMDB電影評論情感分類(斯坦福德)。從imdb.com網站收集的電影評論及其積極或消極的情緒。
- 新聞組電影評論情感分類(cornell)。
要獲取有關更多信息,請參閱文章:
2. 語言建模
語言建模涉及到開發一個統計模型,該模型用於預測語句中的下一個單詞,或者單詞中的下一個字母。它是語音識別和機器翻譯的前置任務。
下麵是一些不錯的的初級語言建模數據集。
- Gutenberg項目,一大批免費的書籍,可以用各種語言進行檢索。
還有更多正式的語料庫可以用來研究,例如:
- 布朗大學現代美國英語標準語料庫。一大堆英文單詞。
- 穀歌的10億單詞語料庫。
3. 圖像字幕
圖像字幕是為給定圖像生成一段文本描述。
下麵是一些不錯的初級圖像字幕數據集。
- 上下文中的常用對象(COCO)。收集了超過12萬張圖片及其描述
- Flickr 8K。從flickr.com拍攝的8000張添加了描述信息的圖像集合。
- Flickr 30K。從flickr.com拍攝的3萬張添加了描述信息的圖像集合。
要獲取更多信息請閱讀這篇文章:
- 探索圖像字幕數據集, 2016
4. 機器翻譯
機器翻譯是將文本從一種語言翻譯成另一種語言。
下麵是一些不錯的初級機器翻譯數據集。
- 第36屆加拿大國會記事錄。成對的英文和法文句子。
- 歐洲議會會議平行語料庫1996-2011。歐洲語種的語句集。
還有大量用於年度機器翻譯挑戰賽的標準數據集:
5. 問題回答
問題回答是從問題中提供一個句子或文本樣例,並回答這個問題。
下麵是一些不錯的初級問題回答數據集。
- 斯坦福問答集(SQuAD)。關於維基百科文章的問答。。
- DeepMind問答語料庫。對來自於每日郵報的文章的問答。
- 亞馬遜問答數據。有關亞馬遜產品的問答。
要獲取更多信息請閱讀這篇文章:
6. 語音識別
語音識別是將口語音頻轉換為人類可讀的文本。
下麵是一些不錯的初級語音識別數據集。
- TIMIT連續語音語料庫。不免費,收錄在這裏是因為它的使用實在是太廣泛了。美國英語口語和相關的翻譯。
- VoxForge。一個建立語音識別開源數據庫的項目。
- LibriSpeech ASR語料庫。從LibriVox獲取到的大量英文有聲讀物。
7. 文檔摘要
文檔摘要是為文檔創建一個簡短而有意義的描述。
下麵是一些不錯的初級文檔摘要數據集。
- 法律案件報告數據集。收集了4000個法律案件及其總結。
- TIPSTER文摘評估會議語料庫。收集了近200份文件及其摘要。
- 英文新聞AQUAINT語料庫。不免費,但使用很廣泛。新聞文章語料庫。
欲了解更多信息,請參看:
進一步閱讀
如果你打算進一步學習,這裏還提供了其他一些數據集。
- 維基百科研究使用的文本數據集
- 數據集:計算語言學家和自然語言處理研究人員使用的主要文本語料庫是什麼?
- 斯坦福統計自然語言處理語料庫
- 按字母順序排列的NLP數據集
- NLTK語料庫
- DL4J深度學習開放數據
小結
本文介紹了一組標準的數據集,在開始研究深度學習的時候,你可以使用這些標準數據集進行自然語言處理。
文章原標題《Datasets for Natural Language Processing》,作者:Jason Brownlee,譯者:夏天,審校:主題曲。
文章為簡譯,更為詳細的內容,請查看原文
最後更新:2017-10-05 10:33:13