閱讀680 返回首頁    go 阿裏雲 go 技術社區[雲棲]


大規模中文概念圖譜CN-Probase正式發布

曆時多年的研發,複旦大學知識工場實驗室正式推出大規模中文概念圖譜——CN-Probase,用於幫助機器更好的理解人類語言。概念圖譜中包含實體(比如“劉德華”)、概念(比如“演員”),實體與概念之間的類屬關係(又稱isA關係,比如 “劉德華 isA 演員”),概念與概念之間的 subclass of 關係(比如 “電影演員”是“演員”的子類)。通常後麵兩類關係,又統稱為 isA 關係。如果 A isA B,通常稱A為B的下位詞(hyponym),或者B為A的上位詞(hypernym)。

概念的形成是人類認知從具體進入抽象的第一步。人類通過概念認知世界,概念是人類認知世界的基石。概念是人腦對客觀事物本質的反映,是思維活動的結果和產物,是思維活動借以開展的基本單元。比如“恐龍”這一概念讓我們能夠認知形形色色的恐龍,把握其共性本質,而無需糾纏於不同特定恐龍的細微差別。建立概念分類體係,並為數以千萬計的實體建立概念圖譜,是我們在讓機器具備認知能力的征程中所邁出的至關重要的一步。

人類通過分類結構(Taxonomy)來組織和表示概念。最早可以追溯到亞裏士多德時代。隨後的幾千年來,人類一直在不斷完善概念的分類體係,並於近些年湧現了很多分類體係,如Cyc,WordNet等,這些概念分類體係大都由專家手工構建,質量精良,但是構建代價高昂,規模有限。

f932aec59015755d4229cac867194d70b613a698

現在知識工場采用自動的方法,基於CN-DBpedia以及海量中文網頁語料等多個數據源,構建了大型中文概念知識圖譜——CN-Probase。針對中文語言的特性,采用了全新的抽取策略,達到質和量的全麵升級。

CN-Probase是由複旦大學知識工場實驗室研發並維護的大規模中文概念圖譜,是目前規模最大的開放領域中文概念圖譜和概念分類體係,isA關係的準確率在95%以上。相比較於其他概念圖譜,CN-Probase具有兩個顯著優點:

一、規模巨大,基本涵蓋常見實體和概念。包含約1700萬實體、27萬概念和3300萬isA關係。

二、嚴格按照實體進行組織,有利於精準理解實體的概念。例如,“劉德華”這個名字,可能對應很多叫“劉德華”的人,在CN-Probase裏搜索“劉德華”,會出現按照典型性排序的很多實體,排在第一個的是大家提及名字都會聯想到的歌手“劉德華”。

bc8c92630b347ca363223abf12906c1717b50cbc

有了CN-Probase,計算機就能像人類一樣具有常識。例如,計算機可以知道鯉魚和鯊魚都是魚,但鯉魚是一種淡水魚,而鯊魚是一種海水魚。

與此同時,CN-Probase還可以廣泛應用於各種場景:

例一:搜索意圖理解

用戶搜索“西遊記”,我們通過它的概念“中國古代四大名著”、“小說”可以理解用戶是在搜索小說類名著。對於用戶搜索意圖的精準理解可以進一步幫助改進檢索、排序與推薦。

f5bf5a389ef983746fa0c361233519a1e343fea5

例二:實體相似性判斷


當用戶需要判斷“複旦大學”和“上海交大”是否相似時,僅僅根據字麵相似性,很難知道它們是相似實體。但是通過CN-Probase,我們可以看到它們的概念是差不多的(如下圖),從而可以判斷它們在語義上是相似的。

8ec5d09d3a1dcea22727fbfa63dbc240f129aaae

e9b40392a5c6632ae97371dc9397f0f05f1c9369

f8691c01281e0618377793941276128ae054a764




例三:可解釋實體推薦

當用戶先後搜索“複旦大學”、“上海交通大學”,“上海理工大學”時,我們人類可以自然地推斷用戶是在搜索上海高校。如今,機器通過檢索CN-Probase,發現這三個實體共享“上海高校”這個概念,從而也可以準確識別用戶的搜索意圖,進一步推薦“上海外國語大學”,“同濟大學”等實體,並給出用戶是在搜索上海高校這一解釋。

ee6c10552b20ae354ced58f3bf11333511d8f76e

a1f2c3b628867425111fd2d2e00055e5a8cc8cea

目前,知識工場提供兩種方式訪問CN-Probase:

  1. 頁麵直接訪問。進入https://kw.fudan.edu.cn/cnprobase即可訪問CN-Probase頁麵。
  2. API接口訪問。我們提供了全套數據訪問API,大家可以訪問https://kw.fudan.edu.cn/apis/cnprobase/ 查看具體訪問方法。

值此發布之際,特向大規模概念圖譜的“前輩們”,包括德國馬普研究所的Yago、微軟亞洲研究院的Probase、微軟的概念圖譜以及哈爾濱工業大學的大詞林,表示崇高的敬意。


原文發布時間為:2017-11-13

本文作者:知識工場

本文來自雲棲社區合作夥伴“PaperWeekly”,了解相關信息可以關注“PaperWeekly”微信公眾號

最後更新:2017-11-13 16:04:16

  上一篇:go  ICCV2017 論文解讀:基於圖像檢索的行人重識別 | PaperDaily #13
  下一篇:go  服務器上使用 git 更新 wordpress 內核方案