閱讀366 返回首頁    go 技術社區[雲棲]


東南大學漆桂林:知識圖譜的應用

1. 語義搜索

知識圖譜這個概念是穀歌提出的,穀歌做知識圖譜自然是跟搜索引擎相關,即提供語義搜索。這裏語義搜索跟傳統搜索引擎的區別在於搜索的結果不是展示網頁,而是展示結構化知識,如下圖(圖 1)所示:


image
圖1:語義搜索示例

在圖 1 中,當用戶輸入“jackie chan”,搜索引擎可以識別出 jackie chan 其實就是成龍,而且,會給出成龍的各種屬性信息,比如說出生日期、國籍、配偶等。這些都是以前基於關鍵詞的檢索做不到的,有了知識圖譜以後,就可以即問即答了。點擊成龍的配偶“林鳳嬌”,可以直接進入她的知識卡片,見圖 2:


image
圖2:語義導航示例

然後還可以繼續點擊房祖名看他的信息。這裏我們可以把成龍、林鳳嬌、房祖名看出圖的節點,成龍跟林鳳嬌之間有一個關係,即夫妻關係,林鳳嬌跟房祖名之間有一個關係,即母子關係,這就是成龍家庭的一個小的關係圖譜。

2. 股票投研情報分析

通過知識圖譜相關技術從招股書、年報、公司公告、券商研究報告、新聞等半結構化表格和非結構化文本數據中批量自動抽取公司的股東、子公司、供應商、客戶、合作夥伴、競爭對手等信息,構建出公司的知識圖譜。

在某個宏觀經濟事件或者企業相關事件發生的時候,券商分析師、交易員、基金公司基金經理等投資研究人員可以通過此圖譜做更深層次的分析和更好的投資決策,比如在美國限製向中興通訊出口的消息發布之後,如果我們有中興通訊的客戶供應商、合作夥伴以及競爭對手的關係圖譜,就能在中興通訊停牌的情況下快速地篩選出受影響的國際國內上市公司從而挖掘投資機會或者進行投資組合風險控製(圖 3)。


image
圖3:股票投研情報分析

3. 公安情報分析

通過融合企業和個人銀行資金交易明細、通話、出行、住宿、工商、稅務等信息構建初步的“資金賬戶-人-公司”關聯知識圖譜。同時從案件描述、筆錄等非結構化文本中抽取人(受害人、嫌疑人、報案人)、事、物、組織、卡號、時間、地點等信息,鏈接並補充到原有的知識圖譜中形成一個完整的證據鏈。

輔助公安刑偵、經偵、銀行進行案件線索偵查和挖掘同夥。比如銀行和公安經偵監控資金賬戶,當有一段時間內有大量資金流動並集中到某個賬戶的時候很可能是非法集資,係統觸發預警(圖 4)。


image
圖4:公安情報分析

4. 反欺詐情報分析

通過融合來自不同數據源的信息構成知識圖譜,同時引入領域專家建立業務專家規則。我們通過數據不一致性檢測,利用繪製出的知識圖譜可以識別潛在的欺詐風險。比如借款人張 xx 和借款人吳 x 填寫信息為同事,但是兩個人填寫的公司名卻不一樣, 以及同一個電話號碼屬於兩個借款人,這些不一致性很可能有欺詐行為 (圖 5)。

image
圖5:反欺詐情報分析

5. 麵向多源異構關係數據的自然語言問答

現在很多企業都有自己的數據庫,而且這些數據庫因為不是同一批人構建的,所以維護數據庫的成本很高,訪問數據庫也很不方便,而且數據庫之間的關聯也很難發現。

通過構建一個本體(該本體可以是從數據庫的 schema 抽取後,然後通過人工來修改得到),然後構建本體和數據庫的 schema 的映射以及數據之間的匹配,就可以方便的實現數據的集成和數據的語義關聯,並且可以利用構建的本體和通過本體集成得到的知識圖譜來對自然語言做解析,從而將自然語言查詢直接轉化為 SQL 去查數據庫,並且給出答案,答案可以是用圖表的方式來給出。下麵給出一個例子(圖 6):


image
圖6:數據庫集成和問答係統示例

如用戶提問“龍蟠路高鐵南站出口 2013 年 8 月 1 日經過的本田車輛有哪些”,係統直接給出結果。

6. 麵向知識圖譜的智能問答

最近幾年,問答(Question answering)重新受到廣泛的關注,主要原因還是因為有 IBM Watson 的出現(見The AI Behind Watson - The Technical Article [1])。Watson雖然號稱可以做很多領域,比如說法律有ROSS(ROSS and Watson tackle the law - Watson [2]),但是事實上,Watson 最早提出的時候隻是為智力競賽節目 Jeopardy(Jeopardy! Official Site | Jeopardy.com [3],類似開心辭典和一站到底)定製的,類似下麵這種:

Category: General Science

Clue: When hit by electrons, a phosphor gives off electromagnetic energy in this form.

Answer: Light (or Photons)

也就是說,問題會有一些分類,然後出題的人會給出一些暗示(Clue),做題的人或者機器根據這些暗示給出答案。

Watson 的問答係統采用了 wikipedia 和 DBpedia、Yago 等半結構化數據以及圖譜數據,但是更多的還是從文本中提取各種證據(evidence)來回答。IBM Watson 係統架構見下圖(圖 7)。


image
圖7:IBM Watson 係統架構

IBM Watson 係統被神化成可以在任何領域適用,導致隻要做問答相關項目,都容易被挑戰跟 Watson 有什麼差異。事實上,Watson 係統和很多人工智能係統一樣,是高度定製化的,當然,相關技術確實是可以用到多個領域,但是需要有一定的變化。

東南大學認知智能研究所借鑒了 Watson 技術,啟動了一個佛學考試機器人項目,旨在回答佛學相關問題。為了做這個係統,需要先構建一個佛學知識圖譜,通過圖譜和佛學相關的網頁,利用問答技術解題。考試題目例子如下:

1.僧伽是①涅槃義②和合眾③殺賊義。

2.「諸行無常、諸法無我、涅盤寂靜」稱為①三種無常②三法印③三乘道。

3.人生最大的錯誤是①殺生②妄語③邪見。

下麵是係統的截屏:

image


7. 輔助判案

知識圖譜技術可以幫助我們快速構建一個法律知識圖譜,目前還缺乏法律知識圖譜的理論工作。跟其他領域的知識圖譜相比,法律知識圖譜需要考慮法律的邏輯,下麵就是一個法律知識圖譜的片段:


image


從上麵這個例子可以看出,每一個犯罪行為都有主體、客體、主觀要件和客觀要件,我們就需要從文本中去抽取這些信息,從而形成一個關於犯罪行為的圖譜,而通過對海量判決書的挖掘,可以建立犯罪行為之間的關聯,比如說,防衛過當和故意傷害之間有一個關聯,即誤判為的關係。通過這個圖譜,給定一個判決書,可以輔助法官判的一個案件是否有誤判,是否需要補充信息。

[1] The AI Behind Watson - The Technical Article:
https://www.aaai.org/Magazine/Watson/watson.php
[2] ROSS and Watson tackle the law - Watson:
https://www.ibm.com/blogs/watson/2016/01/ross-and-watson-tackle-the-law/
[3] Jeopardy! Official Site:
https://www.jeopardy.com/

原文發布時間為:2017-09-01
本文作者:漆桂林
本文來自雲棲社區合作夥伴“PaperWeekly”,了解相關信息可以關注“PaperWeekly”微信公眾號

最後更新:2017-09-01 15:02:29

  上一篇:go  萬能的Python背後:這6大原因讓它爆火
  下一篇:go  【開篇】自我介紹和博客未來規劃