閱讀134 返回首頁    go 阿裏雲 go 技術社區[雲棲]


綜述 | 一文讀懂自然語言處理NLP(附學習資料)


8cf508065972ac1a952252003b032c37c2a8a20a

前言

自然語言處理是文本挖掘的研究領域之一,是人工智能和語言學領域的分支學科。在此領域中探討如何處理及運用自然語言。

對於自然語言處理的發展曆程,可以從哲學中的經驗主義理性主義說起。基於統計的自然語言處理是哲學中的經驗主義,基於規則的自然語言處理是哲學中的理性主義。在哲學領域中經驗主義理性主義的鬥爭一直是此消彼長,這種矛盾與鬥爭也反映在具體科學上,如自然語言處理。

早期的自然語言處理具有鮮明的經驗主義色彩。如 1913 年馬爾科夫提出馬爾科夫隨機過程與馬爾科夫模型的基礎就是“手工查頻”,具體說就是統計了《歐根·奧涅金》長詩中元音與輔音出現的頻度;1948 年香農把離散馬爾科夫的概率模型應用於語言的自動機,同時采用手工方法統計英語字母的頻率。

然而這種經驗主義到了喬姆斯基時出現了轉變。

1956 年喬姆斯基借鑒香農的工作,把有限狀態機用作刻畫語法的工具,建立了自然語言的有限狀態模型,具體來說就是用“代數”和“集合”將語言轉化為符號序列,建立了一大堆有關語法的數學模型。這些工作非常偉大,為自然語言和形式語言找到了一種統一的數學描述理論,一個叫做“形式語言理論”的新領域誕生了。這個時代,“經驗主義”被全盤否定,“理性主義”算是完勝。

然而在 20 世紀 50 年代末到 60 年代中期,經驗主義東山再起了。多數學者普遍認為隻有詳盡的曆史語料才能帶來靠譜的結論。於是一些比較著名的理論與算法就誕生了,如貝葉斯方法(Bayesian Method)、隱馬爾可夫、最大熵、Viterbi 算法、支持向量機之類。世界上第一個聯機語料庫也是在那個時候的 Brown University 誕生的。

但是總的來說,這個時代依然是基於規則的理性主義的天下,經驗主義雖然取得了不俗的成就,卻依然沒有受到太大的重視。但是金子總會發光的。

90 年代以來,基於統計的自然語言處理就開始大放異彩了。首先是在機器翻譯領域取得了突破,因為引入了許多基於語料庫的方法(哈欽斯,英國著名學者)。1990 年在芬蘭赫爾辛基舉辦的第 13 屆國際計算語言學會議確定的主題是“處理大規模真實文本的理論、方法與工具”,大家的重心開始轉向大規模真實文本了,傳統的僅僅基於規則的自然語言處理顯然力不從心了。學者們認為,大規模語料至少是對基於規則方法有效的補充。

到了 1994~1999 年,經驗主義就開始空前繁榮了。如句法剖析、詞類標注、參照消解、話語處理的算法幾乎把“概率”與“數據”作為標準方法,成為了自然語言處理的主流。

總之,理性主義在自然語言處理的發展史上是有重要地位的,也輝煌了幾十年,曆史事物常常是此消彼長的,至於誰好誰壞,不是固定的,取決於不同時代的不同曆史任務。總的來說,基於規則的理性主義在這個時代被提及得比較少,用的也比較少,主要是由於以下幾個缺陷:

  • 魯棒性差,過於嚴格的規則導致對非本質錯誤的零容忍(這一點在最近的一些新的剖析技術上有所改善);
  • 研究強度大,泛化能力差。一個研究要語言學家、語音學家和各種領域的專家配合,在當前大規模文本處理的時間、資源要求下太不劃算。且機器學習的方法很難應用,難以普及;
  • 實踐性差。基於統計的經驗主義方法可以根據數據集不斷對參數進行優化,而基於規則的方法就不可以,這在當前數據量巨大的情況下,影響是致命的,因為前者常常可以通過增大訓練集來獲得更好的效果,後者則死板許多,結果往往不盡人意。

但理性主義還是有很多優點的,同樣經驗主義也有很多缺陷,算是各有所長、各有所短。不同學科有不同學科的研究角度,隻能說某些角度在某個特定的曆史時期對提高生產力“更有用”,所以重視的人更多。但“有用”不代表勝利,暫時的“無用”更不能說是科學層麵上的“失敗”。尤其是在當前中文自然語言處理發展還不甚成熟的時期,私以為基於統計的方法在很多方麵並不完美,“理性主義”的作用空間還很大,需要更多的人去關注、助力。

——《統計自然語言處理》宗成慶

自然語言處理涉及的範疇如下(維基百科):

  • 中文自動分詞(Chinese word segmentation)
  • 詞性標注(Part-of-speech tagging)
  • 句法分析(Parsing)
  • 自然語言生成(Natural language generation)
  • 文本分類(Text categorization)
  • 信息檢索(Information retrieval)
  • 信息抽取(Information extraction)
  • 文字校對(Text-proofing)
  • 問答係統(Question answering)
  • 機器翻譯(Machine translation)
  • 自動摘要(Automatic summarization)

本文針對其中幾個主要領域的研究現狀和進展,通過論文、博客等資料,結合自身的學習和實踐經曆進行淺顯地介紹。由於個人實踐經驗不足,除中文分詞、自動文摘、文本分類、情感分析和話題模型方麵進行過實際業務的實踐,其他方麵經驗欠缺,若有不當之處,歡迎童鞋們批評指正!

目錄

8f27402349913aa08069b127ebcffb237bdb3e36

一. 中文分詞

中文分詞主要包括詞的歧義切分和未登錄詞識別,主要可以分為基於詞典和基於統計的方法,最新的方法是多種方法的混合。從目前漢語分詞研究的總體水平看,F1 值已經達到 95% 左右,主要分詞錯誤是由新詞造成的,尤其對領域的適應性較差。下麵主要介紹一下中文分詞存在的主要問題和分詞方法。

1. 問題

1.1 歧義切分

切分歧義處理包括兩部分內容:

  • 切分歧義的檢測;
  • 切分歧義的消解。

這兩部分在邏輯關係上可分成兩個相對獨立的步驟。

  • 切分歧義的檢測。“最大匹配法”(精確的說法應該叫“最長詞優先匹配法”) 是最早出現、同時也是最基本的漢語自動分詞方法。依掃描句子的方向,又分正向最大匹配 MM(從左向右)和逆向最大匹配 RMM(從右向左)兩種。

最大匹配法實際上將切分歧義檢測與消解這兩個過程合二為一,對輸入句子給出唯一的切分可能性,並以之為解。從最大匹配法出發導出了“雙向最大匹配法”,即 MM+ RMM。雙向最大匹配法存在著切分歧義檢測盲區。

針對切分歧義檢測,另外兩個有價值的工作是“最少分詞法”,這種方法歧義檢測能力較雙向最大匹配法要強些,產生的可能切分個數僅略有增加;和“全切分法”,這種方法窮舉所有可能的切分,實現了無盲區的切分歧義檢測,但代價是導致大量的切分“垃圾”。

  • 切分歧義的消解。典型的方法包括句法統計和基於記憶的模型。句法統計將自動分詞和基於 Markov 鏈的詞性自動標注技術結合起來,利用從人工標注語料庫中提取出的詞性二元統計規律來消解切分歧義,基於記憶的模型對偽歧義型高頻交集型歧義切分,可以把它們的正確(唯一)切分形式預先記錄在一張表中,其歧義消解通過直接查表即可實現。

1.2 未登錄詞識別

未登錄詞大致包含兩大類:

  • 新湧現的通用詞或專業術語等;
  • 專有名詞。如中國人名、外國譯名、地名、機構名(泛指機關、團體和其它企事業單位)等。

前一種未登錄詞理論上是可預期的,能夠人工預先添加到詞表中(但這也隻是理想狀態,在真實環境下並不易做到);後一種未登錄詞則完全不可預期,無論詞表多麼龐大,也無法囊括。

真實文本中(即便是大眾通用領域),未登錄詞對分詞精度的影響超過了歧義切分。未登錄詞處理在實用型分詞係統中占的份量舉足輕重。

  • 新湧現的通用詞或專業術語。對這類未登錄詞的處理,一般是在大規模語料庫的支持下,先由機器根據某種算法自動生成一張候選詞表(無監督的機器學習策略),再人工篩選出其中的新詞並補充到詞表中。

鑒於經過精加工的千萬字、甚至億字級的漢語分詞語料庫目前還是水月鏡花,所以這個方向上現有的研究無一不以從極大規模生語料庫中提煉出的 n 元漢字串之分布(n≥2)為基礎。其中漢字之間的結合力通過全局統計量包括互信息、t- 測試差、卡方統計量、字串頻等來表示。

  • 專有名詞。對專有名詞的未登錄詞的處理,首先依據從各類專有名詞庫中總結出的統計知識 (如姓氏用字及其頻度)和人工歸納出的專有名詞的某些結構規則,在輸入句子中猜測可能成為專有名詞的漢字串並給出其置信度,之後利用對該類專有名詞有標識意義的緊鄰上下文信息(如稱謂),以及全局統計量和局部統計量(局部統計量是相對全局統計量而言的,是指從當前文章得到且其有效範圍一般僅限於該文章的統計量,通常為字串頻),進行進一步的鑒定。

已有的工作涉及了四種常見的專有名詞:中國人名的識別、外國譯名的識別、中國地名的識別及機構名的識別。

從各家報告的實驗結果來看,外國譯名的識別效果最好,中國人名次之,中國地名再次之,機構名最差。而任務本身的難度實質上也是遵循這個順序由小增大。 沈達陽、孫茂鬆等(1997b)特別強調了局部統計量在未登錄詞處理中的價值。

2. 方法

2.1 基於詞典的方法

在基於詞典的方法中,對於給定的詞,隻有詞典中存在的詞語能夠被識別,其中最受歡迎的方法是最大匹配法(MM),這種方法的效果取決於詞典的覆蓋度,因此隨著新詞不斷出現,這種方法存在明顯的缺點。

2.2 基於統計的方法

基於統計的方法由於使用了概率或評分機製而非詞典對文本進行分詞而被廣泛應用。這種方法主要有三個缺點:

一是這種方法隻能識別 OOV(out-of-vocabulary)詞而不能識別詞的類型,比如隻能識別為一串字符串而不能識別出是人名;二是統計方法很難將語言知識融入分詞係統,因此對於不符合語言規範的結果需要額外的人工解析;三是在許多現在分詞係統中,OOV 詞識別通常獨立於分詞過程。

二. 詞性標注

詞性標注是指為給定句子中的每個詞賦予正確的詞法標記,給定一個切好詞的句子,詞性標注的目的是為每一個詞賦予一個類別,這個類別稱為詞性標記(part-of-speech tag),比如,名詞(noun)、動詞(verb)、形容詞(adjective)等。

它是自然語言處理中重要的和基礎的研究課題之一,也是其他許多智能信息處理技術的基礎,已被廣泛的應用於機器翻譯、文字識別、語音識別和信息檢索等領域。

詞性標注對於後續的自然語言處理工作是一個非常有用的預處理過程,它的準確程度將直接影響到後續的一係列分析處理任務的效果。

長期以來,兼類詞的詞性歧義消解和未知詞的詞性識別一直是詞性標注領域需要解決的熱點問題。當兼類詞的詞性歧義消解變得困難時,詞性的標注就出現了不確定性的問題。而對那些超出了詞典收錄範圍的詞語或者新湧現的詞語的詞性推測,也是一個完整的標注係統所應具備的能力。

1. 詞性標注方法

詞性標注是一個非常典型的序列標注問題。最初采用的方法是隱馬爾科夫生成式模型, 然後是判別式的最大熵模型、支持向量機模型,目前學術界通常采用結構感知器模型和條件隨機場模型。

近年來,隨著深度學習技術的發展,研究者們也提出了很多有效的基於深層神經網絡的詞性標注方法。

迄今為止,詞性標注主要分為基於規則的和基於統計的方法。

  • 規則方法能準確地描述詞性搭配之間的確定現象,但是規則的語言覆蓋麵有限,龐大的規則庫的編寫和維護工作則顯得過於繁重,並且規則之間的優先級和衝突問題也不容易得到滿意的解決。
  • 統計方法從宏觀上考慮了詞性之間的依存關係,可以覆蓋大部分的語言現象,整體上具有較高的正確率和穩定性,不過其對詞性搭配確定現象的描述精度卻不如規則方法。

針對這樣的情況,如何更好地結合利用統計方法和規則處理手段,使詞性標注任務既能夠有效地利用語言學家總結的語言規則,又可以充分地發揮統計處理的優勢成為了詞性標注研究的焦點。

2. 詞性標注研究進展

  • 詞性標注和句法分析聯合建模:研究者們發現,由於詞性標注和句法分析緊密相關,詞性標注和句法分析聯合建模可以同時顯著提高兩個任務準確率。
  • 異構數據融合:漢語數據目前存在多個人工標注數據,然而不同數據遵守不同的標注規範,因此稱為多源異構數據。近年來,學者們就如何利用多源異構數據提高模型準確率,提出了很多有效的方法,如基於指導特征的方法、基於雙序列標注的方法、以及基於神經網絡共享表示的方法。
  • 基於深度學習的方法:傳統詞性標注方法的特征抽取過程主要是將固定上下文窗口的詞進行人工組合,而深度學習方法能夠自動利用非線性激活函數完成這一目標。進一步,如果結合循環神經網絡如雙向 LSTM,則抽取到的信息不再受到固定窗口的約束,而是考慮整個句子。

除此之外,深度學習的另一個優勢是初始詞向量輸入本身已經刻畫了詞語之間的相似度信息,這對詞性標注非常重要。

三. 句法分析

語言語法的研究有非常悠久的曆史,可以追溯到公元前語言學家的研究。不同類型的句法分析體現在句法結構的表示形式不同,實現過程的複雜程度也有所不同。因此,科研人員采用不同的方法構建符合各個語法特點的句法分析係統。其主要分類如下圖所示:

a4587c3ec505fb3834948c4f6df9bf5c2505f480

下文主要對句法分析技術方法和研究現狀進行總結分析:

1. 依存句法分析

依存語法存在一個共同的基本假設:句法結構本質上包含詞和詞之間的依存(修飾)關係。一個依存關係連接兩個詞,分別是核心詞(head)和依存詞(dependent)。依存關係可以細分為不同的類型,表示兩個詞之間的具體句法關係。

目前研究主要集中在數據驅動的依存句法分析方法,即在訓練實例集合上學習得到依存句法分析器,而不涉及依存語法理論的研究。數據驅動的方法的主要優勢在於給定較大規模的訓練數據,不需要過多的人工幹預,就可以得到比較好的模型。因此,這類方法很容易應用到新領域和新語言環境。

數據驅動的依存句法分析方法主要有兩種主流方法:基於圖( graph-based)的分析方法基於轉移( transition-based)的分析方法。

2.1 基於圖的依存句法分析方法

基於圖的方法將依存句法分析問題看成從完全有向圖中尋找最大生成樹的問題。一棵依存樹的分值由構成依存樹的幾種子樹的分值累加得到。

根據依存樹分值中包含的子樹的複雜度,基於圖的依存分析模型可以簡單區分為一階和高階模型。高階模型可以使用更加複雜的子樹特征,因此分析準確率更高,但是解碼算法的效率也會下降。

基於圖的方法通常采用基於動態規劃的解碼算法,也有一些學者采用柱搜索(beam search)來提高效率。學習特征權重時,通常采用在線訓練算法,如平均感知器(averaged perceptron)。

2.2 基於轉移的依存句法分析方法

基於轉移的方法將依存樹的構成過程建模為一個動作序列,將依存分析問題轉化為尋找最優動作序列的問題。早期,研究者們使用局部分類器(如支持向量機等)決定下一個動作。近年來,研究者們采用全局線性模型來決定下一個動作,一個依存樹的分值由其對應的動作序列中每一個動作的分值累加得到。

特征表示方麵,基於轉移的方法可以充分利用已形成的子樹信息,從而形成豐富的特征,以指導模型決策下一個動作。模型通過貪心搜索或者柱搜索等解碼算法找到近似最優的依存樹。和基於圖的方法類似,基於轉移的方法通常也采用在線訓練算法學習特征權重。

2.3 多模型融合的依存句法分析方法

基於圖和基於轉移的方法從不同的角度解決問題,各有優勢。基於圖的模型進行全局搜索但隻能利用有限的子樹特征,而基於轉移的模型搜索空間有限但可以充分利用已構成的子樹信息構成豐富的特征。詳細比較發現,這兩種方法存在不同的錯誤分布。

因此,研究者們使用不同的方法融合兩種模型的優勢,常見的方法有:stacked learning;對多個模型的結果加權後重新解碼(re-parsing);從訓練語料中多次抽樣訓練多個模型(bagging)。

2. 短語結構句法分析

分詞,詞性標注技術一般隻需對句子的局部範圍進行分析處理,目前已經基本成熟,其標誌就是它們已經被成功地用於文本檢索、文本分類、信息抽取等應用之中,而句法分析、語義分析技術需要對句子進行全局分析,目前,深層的語言分析技術還沒有達到完全實用的程度。

短語結構句法分析的研究基於上下文無關文法(Context Free Grammar,CFG)。上下文無關文法可以定義為四元組,其中 T 表示終結符的集合(即詞的集合),N 表示非終結符的集合(即文法標注和詞性標記的集合),S 表示充當句法樹根節點的特殊非終結符,而 R 表示文法規則的集合,其中每條文法規則可以表示為 Ni®g ,這裏的 g 表示由非終結符與終結符組成的一個序列(允許為空)。

根據文法規則的來源不同,句法分析器的構建方法總體來說可以分為兩大類:

  • 人工書寫規則
  • 從數據中自動學習規則

人工書寫規則受限於規則集合的規模:隨著書寫的規則數量的增多,規則與規則之間的衝突加劇,從而導致繼續添加規則變得困難。

與人工書寫規模相比,自動學習規則的方法由於開發周期短和係統健壯性強等特點,加上大規模人工標注數據,比如賓州大學的多語種樹庫的推動作用,已經成為句法分析中的主流方法。

而數據驅動的方法又推動了統計方法在句法分析領域中的大量應用。為了在句法分析中引入統計信息,需要將上下文無關文法擴展成為概率上下文無關文法(Probabilistic Context Free Grammar,PCFG),即為每條文法規則指定概率值。

概率上下文無關文法與非概率化的上下文無關文法相同,仍然表示為四元組,區別在於概率上下文無關文法中的文法規則必須帶有概率值。

獲得概率上下文無關文法的最簡單的方法是直接從樹庫中讀取規則,利用最大似然估計(Maximum Likelihood Estimation,MLE)計算得到每條規則的概率值。使用該方法得到的文法可以稱為簡單概率上下文無關文法。在解碼階段,CKY 10 等解碼算法就可以利用學習得到的概率上下文無關文法搜索最優句法樹。

雖然基於簡單概率上下文無關文法的句法分析器的實現比較簡單,但是這類分析器的性能並不能讓人滿意。

性能不佳的主要原因在於上下文無關文法采取的獨立性假設過強:一條文法規則的選擇隻與該規則左側的非終結符有關,而與任何其它上下文信息無關。文法中缺乏其它信息用於規則選擇的消歧。因此後繼研究工作的出發點大都基於如何弱化上下文無關文法中的隱含獨立性假設。

3. 總結

分詞,詞性標注技術一般隻需對句子的局部範圍進行分析處理,目前已經基本成熟,其標誌就是它們已經被成功地用於文本檢索、文本分類、信息抽取等應用之中,而句法分析、語義分析技術需要對句子進行全局分析,目前,深層的語言分析技術還沒有達到完全實用的程度。

四. 文本分類

文本分類是文本挖掘的核心任務,一直以來倍受學術界和工業界的關注。文本分類(Text Classification)的任務是根據給定文檔的內容或主題,自動分配預先定義的類別標簽。

對文檔進行分類,一般需要經過兩個步驟:

  • 文本表示
  • 學習分類

文本表示是指將無結構化的文本內容轉化成結構化的特征向量形式,作為分類模型的輸入。在得到文本對應的特征向量後,就可以采用各種分類或聚類模型,根據特征向量訓練分類器或進行聚類。因此,文本分類或聚類的主要研究任務和相應關鍵科學問題如下:

1. 任務

1.1 構建文本特征向量

構建文本特征向量的目的是將計算機無法處理的無結構文本內容轉換為計算機能夠處理的特征向量形式。文本內容特征向量構建是決定文本分類和聚類性能的重要環節。

為了根據文本內容生成特征向量,需要首先建立特征空間。其中典型代表是文本詞袋(Bag of Words)模型,每個文檔被表示為一個特征向量,其特征向量每一維代表一個詞項。所有詞項構成的向量長度一般可以達到幾萬甚至幾百萬的量級。

這樣高維的特征向量表示如果包含大量冗餘噪音,會影響後續分類聚類模型的計算效率和效果。

因此,我們往往需要進行特征選擇(Feature Selection)與特征提取(Feature Extraction),選取最具有區分性和表達能力的特征建立特征空間,實現特征空間降維;或者,進行特征轉換(Feature Transformation),將高維特征向量映射到低維向量空間。特征選擇、提取或轉換是構建有效文本特征向量的關鍵問題。

1.2 建立分類或聚類模型

在得到文本特征向量後,我們需要構建分類或聚類模型,根據文本特征向量進行分類聚類

其中,分類模型旨在學習特征向量與分類標簽之間的關聯關係,獲得最佳的分類效果; 而聚類模型旨在根據特征向量計算文本之間語義相似度,將文本集合劃分為若幹子集。 分類和聚類是機器學習領域的經典研究問題。

我們一般可以直接使用經典的模型或算法解決文本分類或聚類問題。例如,對於文本分類,我們可以選用樸素貝葉斯、決策樹、k-NN、邏輯回歸(Logistic Regression)、支持向量機(Support Vector Machine, SVM)等分類模型。

對於文本聚類,我們可以選用 k-means、層次聚類或譜聚類(spectral clustering)等聚類算法。 這些模型算法適用於不同類型的數據而不僅限於文本數據。

但是,文本分類或聚類會麵臨許多獨特的問題,例如,如何充分利用大量無標注的文本數據,如何實現麵向文本的在線分類或聚類模型,如何應對短文本帶來的表示稀疏問題,如何實現大規模帶層次分類體係的分類功能,如何充分利用文本的序列信息和句法語義信息,如何充分利用外部語言知識庫信息,等等。這些問題都是構建文本分類和聚類模型所麵臨的關鍵問題。

2. 模型

2.1 文本分類模型

近年來,文本分類模型研究層出不窮,特別是隨著深度學習的發展,深度神經網絡模型 也在文本分類任務上取得了巨大進展。我們將文本分類模型劃分為以下三類:

  • 基於規則的分類模型

基於規則的分類模型旨在建立一個規則集合來對數據類別進行判斷。這些規則可以從訓練樣本裏自動產生,也可以人工定義。給定一個測試樣例,我們可以通過判斷它是否滿足某 些規則的條件,來決定其是否屬於該條規則對應的類別。

典型的基於規則的分類模型包括決策樹(Decision Tree)、隨機森林(Random Forest)、 RIPPER 算法等。

  • 基於機器學習的分類模型

典型的機器學習分類模型包括貝葉斯分類器(Naïve Bayes)、線性分類器(邏輯回歸)、 支持向量機(Support Vector Machine, SVM)、最大熵分類器等。

SVM 是這些分類模型中比較有效、使用較為廣泛的分類模型。它能夠有效克服樣本分布不均勻、特征冗餘以及過擬合等問題,被廣泛應用於不同的分類任務與場景。通過引入核函數,SVM 還能夠解決原始特征空間線性不可分的問題。

除了上述單分類模型,以 Boosting 為代表的分類模型組合方法能夠有效地綜合多個弱分類模型的分類能力。在給定訓練數據集合上同時訓練這些弱分類模型,然後通過投票等機製綜合多個分類器的預測結果,能夠為測試樣例預測更準確的類別標簽。

  • 基於神經網絡的方法

以人工神經網絡為代表的深度學習技術已經在計算機視覺、語音識別等領域取得了巨大成功,在自然語言處理領域,利用神經網絡對自然語言文本信息進行特征學習和文本分類,也成為文本分類的前沿技術。

前向神經網絡:多層感知機(Multilayer Perceptron, MLP)是一種典型的前向神經網絡。它能夠自動學習多層神經網絡,將輸入特征向量映射到對應的類別標簽上。

通過引入非線性激活層,該模型能夠實現非線性的分類判別式。包括多層感知機在內的文本分類模型均使用了詞袋模型假設,忽略了文本中詞序和結構化信息。對於多層感知機模型來說,高質量的初始特征表示是實現有效分類模型的必要條件。

為了更加充分地考慮文本詞序信息,利用神經網絡自動特征學習的特點,研究者後續提出了卷積神經網絡(Convolutional Neural Network, CNN)和循環神經網絡(Recurrent Neural Network, RNN)進行文本分類

基於 CNN 和 RNN 的文本分類模型輸入均為原始的詞序列,輸出為該文本在所有類別上的概率分布。這裏,詞序列中的每個詞項均以詞向量的形式作為輸入。

卷積神經網絡(CNN):卷積神經網絡文本分類模型的主要思想是,對詞向量形式的文本輸入進行卷積操作。CNN 最初被用於處理圖像數據。與圖像處理中選取二維域進行卷積操作不同,麵向文本的卷積操作是針對固定滑動窗口內的詞項進行的。

經過卷積層、 池化層和非線性轉換層後,CNN 可以得到文本特征向量用於分類學習。CNN 的優勢在於在計算文本特征向量過程中有效保留有用的詞序信息。

針對 CNN 文本分類模型還有許多改進工作, 如基於字符級 CNN 的文本分類模型、將詞位置信息加入到詞向量。

循環神經網絡(RNN):循環神經網絡將文本作為字符或詞語序列{x0 , … , xN},對於第 t時刻輸入的字符或詞語 xt,都會對應產生新的低維特征向量 st如圖 3 所示,st 的取值會受到 xt 和上個時刻特征向量 st-1 的共同影響,st 包含了文本序列從 x0xt 的語義信息。因此,我們可以利用 sN 作為該文本序列的特征向量,進行文本分類學習。

與 CNN 相比,RNN 能夠更自然地考慮文本的詞序信息,是近年來進行文本表示最流行的方案之一。

為了提升 RNN 對文本序列的語義表示能力,研究者提出很多擴展模型。

例如,長短時記憶網絡(LSTM)提出記憶單元結構,能夠更好地處理文本序列中的長程依賴,克服循環神經網絡梯度消失問題。如圖 4 是 LSTM 單元示意圖,其中引入了三個門(input gate, output gate, forget gate)來控製是否輸入輸出以及記憶單元更新。

提升 RNN 對文本序列的語義表示能力的另外一種重要方案是引入選擇注意力機製 (Selective Attention),可以讓模型根據具體任務需求對文本序列中的詞語給予不同的關注度。

3. 應用

文本分類技術在智能信息處理服務中有著廣泛的應用。例如,大部分在線新聞門戶網站(如新浪、搜狐、騰訊等)每天都會產生大量新聞文章,如果對這些新聞進行人工整理非常耗時耗力,而自動對這些新聞進行分類,將為新聞歸類以及後續的個性化推薦等都提供巨大幫助。

互聯網還有大量網頁、論文、專利和電子圖書等文本數據,對其中文本內容進行分類,是實現對這些內容快速瀏覽與檢索的重要基礎。此外,許多自然語言分析任務如觀點挖掘、垃圾郵件檢測等,也都可以看作文本分類或聚類技術的具體應用。

對文檔進行分類,一般需要經過兩個步驟:(1)文本表示,以及(2)學習。文本表示是指將無結構化的文本內容轉化成結構化的特征向量形式,作為分類模型的輸入。在得到文本對應的特征向量後,就可以采用各種分類或聚類模型,根據特征向量訓練分類器

五. 信息檢索

信息檢索(Information Retrieval, IR)是指將信息按一定的方式加以組織,並通過信息查找滿足用戶的信息需求的過程和技術。

1951 年,Calvin Mooers 首次提出了“信息檢索”的概念,並給出了信息檢索的主要任務:協助信息的潛在用戶將信息需求轉換為一張文獻來源列表,而這些文獻包含有對其有用的信息。

信息檢索學科真正取得長足發展是在計算機誕生並得到廣泛應用之後,文獻數字化使得信息的大規模共享及保存成為現實,而檢索就成為了信息管理與應用中必不可少的環節。

互聯網的出現和計算機硬件水平的提高使得人們存儲和處理信息的能力得到巨大的提高,從而加速了信息檢索研究的進步,並使其研究對象從圖書資料和商用數據擴展到人們生活的方方麵麵。

伴隨著互聯網及網絡信息環境的迅速發展,以網絡信息資源為主要組織對象的信息檢索係統:搜索引擎應運而生,成為了信息化社會重要的基礎設施。

2016 年初,中文搜索引擎用戶數達到 5.66 億人,這充分說明搜索引擎在應用層次取得的巨大成功,也使得信息檢索,尤其是網絡搜索技術的研究具有了重要的政治、經濟和社會價值。

1. 內容結構

檢索用戶、信息資源和檢索係統三個主要環節組成了信息檢索應用環境下知識獲取與信息傳遞的完整結構,而當前影響信息獲取效率的因素也主要體現在這幾個環節,即:

  • 檢索用戶的意圖表達
  • 信息資源(尤其是網絡信息資源)的質量度量
  • 需求與資源的合理匹配

具體而言,用戶有限的認知能力導致其知識結構相對大數據時代的信息環境而言往往存在缺陷,進而影響信息需求的合理組織和清晰表述;數據資源的規模繁雜而缺乏管理,在互聯網“注意力經濟”盛行的環境下,不可避免地存在欺詐作弊行為,導致檢索係統難以準確感知其質量;用戶與資源提供者的知識結構與背景不同,對於相同或者相似事物的描述往往存在較大差異,使得檢索係統傳統的內容匹配技術難以很好應對,無法準確度量資源與需求的匹配程度。

上述技術挑戰互相交織,本質上反映了用戶個體有限的認知能力與包含近乎無限信息的數據資源空間之間的不匹配問題。

概括地講,當前信息檢索的研究包括如下四個方麵的研究內容及相應的關鍵科學問題:

1.1 信息需求理解

麵對複雜的泛在網絡空間,用戶有可能無法準確表達搜索意圖;即使能夠準確表達,搜索引擎也可能難以正確理解;即使能夠正確理解,也難以與恰當的網絡資源進行匹配。這使得信息需求理解成為了影響檢索性能提高的製約因素,也構成了檢索技術發展麵臨的第一個關鍵問題。

1.2 資源質量度量

資源質量管理與度量在傳統信息檢索研究中並非處於首要的位置,但隨著互聯網信息資源逐漸成為檢索係統的主要查找對象,網絡資源特有的缺乏編審過程、內容重複度高、質量參差不齊等問題成為了影響檢索質量的重要因素。

目前,搜索引擎仍舊麵臨著如何進行有效的資源質量度量的挑戰,這構成了當前信息檢索技術發展麵臨的第二個關鍵問題。

1.3 結果匹配排序

近年來,隨著網絡技術的進步,信息檢索係統(尤其是搜索引擎)涉及的數據對象相應 的變得多樣化、異質化,這也造成了傳統的以文本內容匹配為主要手段的結果排序方法麵臨著巨大的挑戰。

高度動態繁雜的泛在網絡內容使得文本相似度計算方法無法適用;整合複雜異構網絡資源作為結果使得基於同質性假設構建的用戶行為模型難以應對;多模態的交互方式則使得傳統的基於單一維度的結果分布規律的用戶行為假設大量失效。

因此,在大數據時代信息進一步多樣化、異質化的背景下,迫切需要構建適應現代信息資源環境的檢索結果匹配排序方法,這是當前信息檢索技術發展麵臨的第三個關鍵問題。

1.4 信息檢索評價

信息檢索評價是信息檢索和信息獲取領域研究的核心問題之一。信息檢索和信息獲取係統核心的目標是幫助用戶獲取到滿足他們需求的信息,而評價係統的作用是幫助和監督研究開發人員向這一核心目標前進,以逐步開發出更好的係統,進而縮小係統反饋和用戶需求之間的差距,提高用戶滿意度。

因此,如何設計合理的評價框架、評價手段、評價指標,是當前信息檢索技術發展麵臨的第四個關鍵問題。

2. 個性化搜索

現有的主要個性化搜索算法可分為基於內容分析的算法基於鏈接分析的方法基於協作過濾的算法

  • 基於內容的個性化搜索算法通過比較用戶興趣愛好和結果文檔的內容相似性來對文檔的用戶相關性進行判斷進而對搜索結果進行重排。

用戶模型一般表述為關鍵詞或主題向量或層次的形式。個性化算法通過比較用戶模型和文檔的相似性,判斷真實的搜索意圖,並估計文檔對用戶需求的匹配程度。

  • 基於鏈接分析的方法主要是利用互聯網上網頁之間的鏈接關係,並假設用戶點擊和訪問過的網頁為用戶感興趣的網頁,通過鏈接分析算法進行迭代最終計算出用戶對每個網頁的喜好度。
  • 基於協作過濾的個性化搜索算法主要借鑒了基於協作過濾的推薦係統的思想,這種方法考慮到能夠收集到的用戶的個人信息有限,因此它不僅僅利用用戶個人的信息,還利用與用戶相似的其它用戶或群組的信息,並基於用戶群組和相似用戶的興趣偏好來個性化當前用戶的搜索結果。用戶之間的相似性可以通過用戶的興趣愛好、曆史查詢、點擊過的網頁等內容計算得出。

3. 語義搜索技術

隨著互聯網信息的爆炸式增長,傳統的以關鍵字匹配為基礎的搜索引擎,已越來越難以滿足用戶快速查找信息的需求。同時由於沒有知識引導及對網頁內容的深入整理,傳統網頁搜索返回的網頁結果也不能精準給出所需信息。

針對這些問題,以知識圖譜為代表的語義搜索(Semantic Search)將語義 Web 技術和傳統的搜索引擎技術結合,是一個很有研究價值 但還處於初期階段的課題。

在未來的一段時間,結合互聯網應用需求的實際和技術、產品運營能力的實際發展水平,語義搜索技術的發展重點將有可能集中在以各種情境的垂直搜索資源為基礎,知識化推理為檢索運行方式,自然語言多媒體交互為手段的智能化搜索與推薦技術。

首先將包括各類垂直搜索資源在內的深度萬維網數據源整合成為提供搜索服務的資源池;隨後利用廣泛分布在公眾終端計算設備上的瀏覽器作為客戶端載體,通過構建的複雜情境知識庫來開發多層次查詢技術,並以此管理、調度、整合搜索雲端的搜索服務資源,滿足用戶的多樣化、多模態查詢需求;最後基於麵向情境體驗的用戶行為模型構建,以多模態信息推薦的形式實現對用戶信息需求的主動滿足。

六. 信息抽取

信息抽取(Information Extraction)是指從非結構化/半結構化文本(如網頁、新聞、 論文文獻、微博等)中提取指定類型的信息(如實體、屬性、關係、事件、商品記錄等), 並通過信息歸並、冗餘消除和衝突消解等手段將非結構化文本轉換為結構化信息的一項綜合技術。例如:

  • 從相關新聞報道中抽取出恐怖事件信息:時間、地點、襲擊者、受害人、襲擊 目標、後果等;
  • 從體育新聞中抽取體育賽事信息:主隊、客隊、賽場、比分等;
  • 從論文和醫療文獻中抽取疾病信息:病因、病原、症狀、藥物等

被抽取出來的信息通常以結構化的形式描述,可以為計算機直接處理,從而實現對海量非結構化數據的分析、組織、管理、計算、 查詢和推理,並進一步為更高層麵的應用和任務(如自然語言理解、知識庫構建、智能問答係統、輿情分析係統)提供支撐。

目前信息抽取已被廣泛應用於輿情監控、網絡搜索、智能問答等多個重要領域。與此同時,信息抽取技術是中文信息處理和人工智能的核心技術,具有重要的科學意義。

一直以來,人工智能的關鍵核心部件之一是構建可支撐類人推理和自然語言理解的大規模常識知識庫。然而,由於人類知識的複雜性、開放性、多樣性和巨大的規模,目前仍然無法構建滿足上述需求的大規模知識庫。

信息抽取技術通過結構化自然語言表述的語義知識,並整合來自海量文本中的不同語義知識,是構建大規模知識庫最有效的技術之一。

每一段文本內所包含的寓意可以描述為其中的一組實體以及這些實體相互之間的關聯和交互,因此抽取文本中的實體和它們之間的語義關係也就成為了理解文本意義的基礎。

信息抽取可以通過抽取實體和實體之間的語義關係,表示這些語義關係承載的信息,並基於這些信息進行計算和推理來有效的理解一段文本所承載的語義。

1. 命名實體識別

命名實體識別的目的是識別文本中指定類別的實體,主要包括人名、地名、機構名、專有名詞等的任務。

命名實體識別係統通常包含兩個部分:實體邊界識別實體分類

其中實體邊界識別判斷一個字符串是否是一個實體,而實體分類將識別出的實體劃分到預先給定的不同類別中去。

命名實體識別是一項極具實用價值的技術,目前中英文上通用命名實體識別(人名、地名、機構名)的 F1 值都能達到 90% 以上。命名實體識別的主要難點在於表達不規律、且缺乏訓練語料的開放域命名實體類別(如電影、歌曲名)等。

2. 關係抽取

關係抽取指的是檢測和識別文本中實體之間的語義關係,並將表示同一語義關係的提及(mention)鏈接起來的任務。關係抽取的輸出通常是一個三元組(實體 1,關係類別,實體 2),表示實體 1 和實體 2 之間存在特定類別的語義關係。

例如,句子“北京是中國的首都、政治中心和文化中心”中表述的關係可以表示為(中國,首都,北京),(中國,政治中心,北京)和(中國,文化中心,北京)。語義關係類別可以預先給定(如 ACE 評測中的七大類關係),也可以按需自動發現(開放域信息抽取)。

關係抽取通常包含兩個核心模塊:關係檢測關係分類

其中關係檢測判斷兩個實體之間是否存在語義關係,而關係分類將存在語義關係的實體對劃分到預先指定的類別中。

在某些場景和任務下,關係抽取係統也可能包含關係發現模塊,其主要目的是發現實體和實體之間存在的語義關係類別。例如,發現人物和公司之間存在雇員、CEO、CTO、創始人、董事長等關係類別。

3. 事件抽取

事件抽取指的是從非結構化文本中抽取事件信息,並將其以結構化形式呈現出來的任務。

例如,從“毛澤東 1893 年出生於湖南湘潭”這句話中抽取事件{類型:出生, 人物:毛澤東,時間:1893 年,出生地:湖南湘潭}。

事件抽取任務通常包含事件類型識別事件元素填充兩個子任務。

事件類型識別判斷一句話是否表達了特定類型的事件。事件類型決定了事件表示的模板,不同類型的事件具有不同的模板。

例如出生事件的模板是{人物, 時間,出生地},而恐怖襲擊事件的模板是{地點,時間,襲擊者,受害者,受傷人數,…}。 事件元素指組成事件的關鍵元素,事件元素識別指的是根據所屬的事件模板,抽取相應的元素,並為其標上正確元素標簽的任務。

4. 信息集成

實體、關係和事件分別表示了單篇文本中不同粒度的信息。在很多應用中,需要將來自不同數據源、不同文本的信息綜合起來進行決策,這就需要研究信息集成技術。

目前,信息抽取研究中的信息集成技術主要包括共指消解技術實體鏈接技術。

共指消解指的是檢測同一實體/關係/事件的不同提及,並將其鏈接在一起的任務,例如,識別“喬布斯是蘋果的創始人之一,他經曆了蘋果公司幾十年的起落與興衰”這句話中的“喬布斯”和“他”指的是同一實體。

實體鏈接的目的是確定實體名所指向的真實世界實體。例如識別上一句話中的“蘋果”和“喬布斯”分別指向真實世界中的蘋果公司和其 CEO 史蒂夫·喬布斯。

七. 問答係統

自動問答(Question Answering, QA)是指利用計算機自動回答用戶所提出的問題以滿足用戶知識需求的任務。不同於現有搜索引擎,問答係統是信息服務的一種高級形式,係統返回用戶的不再是基於關鍵詞匹配排序的文檔列表,而是精準的自然語言答案。

近年來,隨著人工智能的飛速發展,自動問答已經成為倍受關注且發展前景廣泛的研究方向。自動問答的研究曆史可以溯源到人工智能的原點。

1950 年,人工智能之父阿蘭圖靈(Alan M. Turing)在《Mind》上發表文章《Computing Machinery and Intelligence》,文章開篇提出通過讓機器參與一個模仿遊戲(Imitation Game)來驗證“機器”能否“思考”,進而提出了經典的圖靈測試(Turing Test),用以檢驗機器是否具備智能。

同樣,在自然語言處理研究領域,問答係統被認為是驗證機器是否具備自然語言理解能力的四個任務之一(其它三個是機器翻譯、複述和文本摘要)。

自動問答研究既有利於推動人工智能相關學科的發展,也具有非常重要的學術意義。從應用上講,現有基於關鍵詞匹配和淺層語義分析的信息服務技術已經難以滿足用戶日益增長的精準化和智能化信息需求,已有的信息服務範式急需一場變革。

2011 年,華盛頓大學圖靈中心主任 Etzioni 在 Nature 上發表的《Search Needs a Shake-Up》中明確指出:在萬維網誕生 20 周年之際,互聯網搜索正處於從簡單關鍵詞搜索走向深度問答的深刻變革的風口浪尖上。以直接而準確的方式回答用戶自然語言提問的自動問答係統將構成下一代搜索引擎的基本形態。

同一年,以深度問答技術為核心的 IBM Watson 自動問答機器人在美國智力競賽節目 Jeopardy 中戰勝人類選手,引起了業內的巨大轟動。Watson 自動問答係統讓人們看到已有信息服務模式被顛覆的可能性,成為了問答係統發展的一個裏程碑。

此外,隨著移動互聯網崛起與發展,以蘋果公司 Siri、Google Now、微軟 Cortana 等為代表的移動生活助手爆發式湧現,上述係統都把以自然語言為基本輸入方式的問答係統看作是下一代信息服務的新形態和突破口,並均加大人員、資金的投入,試圖在這一次人工智能浪潮中取得領先。

1. 關鍵問題

自動問答係統在回答用戶問題時,需要正確理解用戶所提的自然語言問題,抽取其中的關鍵語義信息,然後在已有語料庫、知識庫或問答庫中通過檢索、匹配、推理的手段獲取答案並返回給用戶。

上述過程涉及詞法分析、句法分析、語義分析、信息檢索、邏輯推理、知識工程、語言生成等多項關鍵技術。傳統自動問答多集中在限定領域,針對限定類型的問題進行回答。伴隨著互聯網和大數據的飛速發展,現有研究趨向於開放域、麵向開放類型問題的自動問答。概括地講,自動問答的主要研究任務和相應關鍵科學問題如下。

1.1 問句理解

給定用戶問題,自動問答首先需要理解用戶所提問題。用戶問句的語義理解包含詞法分析、句法分析、語義分析等多項關鍵技術,需要從文本的多個維度理解其中包含的語義內容。

在詞語層麵,需要在開放域環境下,研究命名實體識別(Named Entity Recognition)、術語識別(Term Extraction)、詞匯化答案類型詞識別(Lexical Answer Type Recognition)、 實體消歧(Entity Disambiguation)、關鍵詞權重計算(Keyword Weight Estimation)、答案集中詞識別(Focused Word Detection)等關鍵問題。

在句法層麵,需要解析句子中詞與詞之間、短語與短語之間的句法關係,分析句子句法結構。在語義層麵,需要根據詞語層麵、句法層麵的分析結果,將自然語言問句解析成可計算、結構化的邏輯表達形式(如一階謂詞邏輯表達式)。

1.2 文本信息抽取

給定問句語義分析結果,自動問答係統需要在已有語料庫、知識庫或問答庫中匹配相關的信息,並抽取出相應的答案。

傳統答案抽取構建在淺層語義分析基礎之上,采用關鍵詞匹配策略,往往隻能處理限定類型的答案,係統的準確率和效率都難以滿足實際應用需求。為保證信息匹配以及答案抽取的準確度,需要分析語義單元之間的語義關係,抽取文本中的結構化知識。

早期基於規則模板的知識抽取方法難以突破領域和問題類型的限製,遠遠不能滿足開放領域自動問答的知識需求。為了適應互聯網實際應用的需求,越來越多的研究者和開發者開始關注開放域知識抽取技術,其特點在於:

  • 文本領域開放:處理的文本是不限定領域的網絡文本
  • 內容單元類型開放:不限定所抽取的內容單元類型,而是自動地從網絡中挖掘內容單元的類型,例如實體類型、事件類型和關係類型等。

1.3 知識推理

自動問答中,由於語料庫、知識庫和問答庫本身的覆蓋度有限,並不是所有問題都能直 接找到答案。這就需要在已有的知識體係中,通過知識推理的手段獲取這些隱含的答案。

例如,知識庫中可能包括了一個人的“出生地”信息,但是沒包括這個人的“國籍”信息,因此無法直接回答諸如“某某人是哪國人?”這樣的問題。但是一般情況下,一個人的“出生地”所屬的國家就是他(她)的“國籍”。

在自動問答中,就需要通過推理的方式學習到這樣的模式。傳統推理方法采用基於符號的知識表示形式,通過人工構建的推理規則得到答案。

但是麵對大規模、開放域的問答場景,如何自動進行規則學習,如何解決規則衝突仍然是亟待解決的難點問題。目前,基於分布式表示的知識表示學習方法能夠將實體、概念以及它們之間的語義關係表示為低維空間中的對象(向量、矩陣等),並通過低維空間中的數值計算完成知識推理任務。

雖然這類推理的效果離實用還有距離,但是我們認為這是值得探尋的方法,特別是如何將已有的基於符號表示的邏輯推理與基於分布式表示的數值推理相結合,研究融合符號邏輯和表示學習的知識推理技術,是知識推理任務中的關鍵科學問題。

2. 技術方法

根據目標數據源的不同,已有自動問答技術大致可以分為三類:

  • 檢索式問答;
  • 社區問答;
  • 知識庫問答。

以下分別就這幾個方麵對研究現狀進行簡要闡述。

2.1 檢索式問答

檢索式問答研究伴隨搜索引擎的發展不斷推進。1999 年,隨著 TREC QA 任務的發起, 檢索式問答係統迎來了真正的研究進展。TREC QA 的任務是給定特定 WEB 數據集,從中找到能夠回答問題的答案。這類方法是以檢索和答案抽取為基本過程的問答係統,具體過程包括問題分析、篇章檢索和答案抽取。

根據抽取方法的不同,已有檢索式問答可以分為基於模式匹配的問答方法基於統計文本信息抽取的問答方法

  • 基於模式匹配的方法往往先離線地獲得各類提問答案的模式。在運行階段,係統首先判斷當前提問屬於哪一類,然後使用這類提問的模式來對抽取的候選答案進行驗證。同時為了提高問答係統的性能,人們也引入自然語言處理技術。由於自然語言處理的技術還未成熟,現有大多數係統都基於淺層句子分析。
  • 基於統計文本信息抽取的問答係統的典型代表是美國 Language Computer Corporation 公司的 LCC 係統。該係統使用詞匯鏈和邏輯形式轉換技術,把提問句和答案句轉化成統一的邏輯形式(Logic Form),通過詞匯鏈,實現答案的推理驗證。

LCC 係統在 TREC QA Track 2001 ~ 2004 連續三年的評測中以較大領先優勢獲得第一名的成績。 2011 年,IBM 研發的問答機器人 Watson 在美國智力競賽節目《危險邊緣 Jeopardy!》中戰勝人類選手,成為問答係統發展的一個裏程碑。

Watson 的技術優勢大致可以分為以下三個方麵:

  • 強大的硬件平台:包括 90 台 IBM 服務器,分布式計算環境;
  • 強大的知識資源:存儲了大約 2 億頁的圖書、新聞、電影劇本、辭海、文選和《世界圖書百科全書》等資料;
  • 深層問答技術(DeepQA):涉及統計機器學習、句法分析、主題分析、信息抽取、 知識庫集成和知識推理等深層技術。

然而,Watson 並沒有突破傳統問答式檢索係統的局限性,使用的技術主要還是檢索和匹配,回答的問題類型大多是簡單的實體或詞語類問題,而推理能力不強。

2.2 社區問答

隨著 Web2.0 的興起,基於用戶生成內容(User-Generated Content, UGC)的互聯網服務越來越流行,社區問答係統應運而生,例如 Yahoo! Answers、百度知道等。

問答社區的出現為問答技術的發展帶來了新的機遇。據統計 2010 年 Yahoo! Answers 上已解決的問題量達到 10 億,2011 年“百度知道”已解決的問題量達到 3 億,這些社區問答數據覆蓋了方方麵麵的用戶知識和信息需求。

此外,社區問答與傳統自動問答的另一個顯著區別是:社區問答係統有大量的用戶參與,存在豐富的用戶行為信息,例如用戶投票信息、用戶評價信息、回答者的問題采納率、用戶推薦次數、頁麵點擊次數以及用戶、問題、答案之間的相互關聯信息等等,這些用戶行為信息對於社區中問題和答案的文本內容分析具有重要的價值。

一般來講,社區問答的核心問題是從大規模曆史問答對數據中找出與用戶提問問題語義相似的曆史問題並將其答案返回提問用戶。

假設用戶查詢問題為 q0,用於檢索的問答對數據為 SQ,A = {(q1 , a1 ), (q2 , a2 )}, … , (qn, an)}},相似問答對檢索的目標是從 SQ,A 中檢索出能夠解答問題 q0 的問答對 (qi , ai)。 針對這一問題,傳統的信息檢索模型,如向量空間模型、語言模型等,都可以得到應用。

但是,相對於傳統的文檔檢索,社區問答的特點在於:用戶問題和已有問句相對來說都非常短,用戶問題和已有問句之間存在“詞匯鴻溝”問題,基於關鍵詞匹配的檢索模型很難達到較好的問答準確度。

目前,很多研究工作在已有檢索框架中針對這一問題引入單語言翻譯概率模型,通過 IBM 翻譯模型,從海量單語問答語料中獲得同種語言中兩個不同詞語之間的語義轉換概率,從而在一定程度上解決詞匯語義鴻溝問題。

例如和“減肥”對應的概率高的相關詞有“瘦身”、“跑步”、“飲食”、“健康”、“遠動”等等。 除此之外,也有許多關於問句檢索中詞重要性的研究和基於句法結構的問題匹配研究。

2.3 知識庫問答

檢索式問答和社區問答盡管在某些特定領域或者商業領域有所應用,但是其核心還是關鍵詞匹配和淺層語義分析技術,難以實現知識的深層邏輯推理,無法達到人工智能的高級目標。

因此,近些年來,無論是學術界或工業界,研究者們逐步把注意力投向知識圖譜或知識庫(Knowledge Graph)。其目標是把互聯網文本內容組織成為以實體為基本語義單元(節點)的圖結構,其中圖上的邊表示實體之間語義關係。

目前互聯網中已有的大規模知識庫包括 DBpedia、Freebase、YAGO 等。這些知識庫多是以“實體-關係-實體”三元組為基本單元所組成的圖結構。

基於這樣的結構化知識,問答係統的任務就是要根據用戶問題的語義直接在知識庫上查找、推理出相匹配的答案,這一任務稱為麵向知識庫的問答係統或知識庫問答。要完成在結構化數據上的查詢、匹配、推理等操作,最有效的方式是利用結構化的查詢語句,例如:SQL、SPARQL 等。

然而,這些語句通常是由專家編寫,普通用戶很難掌握並正確運

最後更新:2017-11-15 14:34:51

  上一篇:go  為什麼SDN和NFV將顛覆通信服務提供商和雲市場?
  下一篇:go  Verizon《市場狀況:物聯網2017》報告的十大摘要