閱讀376 返回首頁    go 魔獸


用於自然語言處理的數據集集錦

在開始研究自然語言處理深度學習的時候,你需要有數據集來練習編程。

最好使用小的數據集,因為下載速度比較快,並且不用花太長的時間來適應模型。此外,使用容易理解並且廣泛使用的標準數據集也是有幫助的,這能讓你對結果進行比較,看看自己是否取得了進展。

本文介紹了一套用於自然語言處理任務的標準數據集,在你研究深度學習的時候可以使用。

概述

本文分為7個部分,包括:

  1. 文本分類
  2. 語言建模
  3. 圖像字幕
  4. 機器翻譯
  5. 問題回答
  6. 語音識別
  7. 文檔摘要

我提供了不少的數據集,它們在學術論文中的使用非常廣泛。幾乎所有的數據集都可以免費下載。

讓我們開始吧。
Datasets for Natural Language Processing
用於自然語言處理的數據集

1. 文本分類

文本分類是指對語句或者文檔打標簽,例如電子郵件分類和情感分析。

下麵是一些不錯的的初級文本分類數據集。

要獲取有關更多信息,請參閱文章:

2. 語言建模

語言建模涉及到開發一個統計模型,該模型用於預測語句中的下一個單詞,或者單詞中的下一個字母。它是語音識別和機器翻譯的前置任務。

下麵是一些不錯的的初級語言建模數據集。

  • Gutenberg項目,一大批免費的書籍,可以用各種語言進行檢索。

還有更多正式的語料庫可以用來研究,例如:

3. 圖像字幕

圖像字幕是為給定圖像生成一段文本描述。

下麵是一些不錯的初級圖像字幕數據集。

要獲取更多信息請閱讀這篇文章:

4. 機器翻譯

機器翻譯是將文本從一種語言翻譯成另一種語言。

下麵是一些不錯的初級機器翻譯數據集。

還有大量用於年度機器翻譯挑戰賽的標準數據集:

5. 問題回答

問題回答是從問題中提供一個句子或文本樣例,並回答這個問題。

下麵是一些不錯的初級問題回答數據集。

要獲取更多信息請閱讀這篇文章:

6. 語音識別

語音識別是將口語音頻轉換為人類可讀的文本。

下麵是一些不錯的初級語音識別數據集。

7. 文檔摘要

文檔摘要是為文檔創建一個簡短而有意義的描述。

下麵是一些不錯的初級文檔摘要數據集。

欲了解更多信息,請參看:

進一步閱讀

如果你打算進一步學習,這裏還提供了其他一些數據集。

小結

本文介紹了一組標準的數據集,在開始研究深度學習的時候,你可以使用這些標準數據集進行自然語言處理。

文章原標題《Datasets for Natural Language Processing》,作者:Jason Brownlee,譯者:夏天,審校:主題曲。

文章為簡譯,更為詳細的內容,請查看原文

最後更新:2017-10-05 10:33:13

  上一篇:go  深度學習軟件安裝指南
  下一篇:go  “供應商服務指數-電商操作能力分”(以下簡稱能力分)是阿裏巴巴國際站對於