閱讀517 返回首頁    go 機器人


人工智能如何幫我們認識曆史

曾記得有一次聊天,有個朋友描述他對人工智能的印象,總結成三個詞:西方的、商業的、未來的。事實上,人工智能作為一種很早就發展起來的通用技術,絕不是西方的專利,也絕不僅僅能夠創造商業價值。甚至在某些機緣巧合下,人工智能能夠成為我們用以認識曆史、認識自身民族、認識祖先與過去的利器。

梁啟超說“學術乃天下之公器”,不僅是說學術天下人共有,同時也是說學術天下共致。作為一種基礎工具的人工智能,往往能夠在意想不到地方發生效用。比如說今天為大家介紹的借助人工智能技術,自動識別西夏文——一個純粹中國的人文社科領域。

我們都知道,西夏是與北宋、遼、金先後對峙的黨項族國家,曾經統治河西地區超過二百年。與大眾認知中不同,西夏不是個茹毛飲血的野蠻文明。他們曾經創立過驚人的文化、藝術與宗教文明,但隨著1227年蒙古滅西夏,蒙元不為西夏立史,關於這個政權的記錄快速消亡,李元昊立國時創立的西夏文也隨之湮滅。

直到1804年,武威大雲寺發現了著名的《重修涼州護國寺感通塔碑》,西夏文才在埋藏了數百年後重現人世。從此識讀西夏文開始成為了學界的重要工作。在各國學者努力下,西夏文的基礎文字識別已經完成,現階段的工作重點是依據文字列表,去識讀大量西夏文文獻的具體內容,揭開西夏以及當時中原、西域各國的曆史迷霧。

但在這個過程裏,研究人員認讀西夏文必須通過手工翻閱查找,耗費時間異常辛苦不說,由於西夏文是一種相似度極高的文字,人工識別還可能存在很大的錯誤率。所以就有學者提出,利用計算機來自動識別西夏文。這種設想很好,但在具體操作中還是有巨大問題。比如西夏文結構複雜、組成字符各部分要素高度相似,並且平均筆畫達到25畫,計算機識別難以入手。

此外,西夏時期雖然已有印刷術,但出土文獻還是以手抄本和刻版文字為主,同一個字的在不同文獻上的位置不固定、整體布局會發生偏移,都給機器識別帶來巨大困難。於是有意思的事出現了,寧夏大學相關研究機構為代表的學術力量,選擇了以人工智能技術解決西夏文的自動識別。並且這個工作很早就已經開始,不斷有成果湧現。從時間上看,絕不是趕這波AI熱的產物。

其實,用計算機技術處理西夏文很早就已經開始。早在1996年,日本國立亞非語言文化研究所就製作了西夏文字庫和排版係統。1997年中國學者李範文和日本學者中島幹起利用該排版係統合作出版了《電腦處理西夏文〈雜字〉研究》。俄羅斯應該也都有西夏文數據化和計算機處理的項目與研究成果。而使用彈性網絡、神經網絡、AI算法以及深度學習來識別西夏文,則是中國領先完成的一個創舉。

AI識別西夏文,主要依托的是計算機字符識別( optical character recognition,OCR)技術,這種技術上世紀60年代就成為了人工智能研究的主要領域之一。它的核心技術主張是基於人工智能運算來識別文字符號的數字影像,並將其轉換為對應的數字文本,達到可識別、可編輯、可轉化的目的。

OCR技術目前在很多領域已經相當成熟,比如我們經常用到的印刷文件文字提取。在OCR識別領域,更多的應用是手寫體內容的精準識別,而利用OCR識別考古文獻中的非廣泛使用文字卻基本處於空白。

通過西夏文識別的例子,不難發現在文獻與考古這些社科領域當中,人工智能至少可以發揮以下幾種功效:

1、考古圖像的識別與歸檔,比如基於算法的文物識別、文物數據化、考古現場數據化。

2、文獻文本的識別與轉碼,比如原始文獻的文字識別讀取、文獻聚類、文獻數據化。

3、文獻數據庫的知識圖譜化與機器學習應用。比如學科文獻圖譜化、時代文獻圖譜化、科研項目數據圖譜化,以及基於知識圖譜訓練的人文社科領域智能體。這一點尤其重要,想象力也最為充沛。就像金融、翻譯等領域很可能被AI替代一樣,文獻學與曆史研究領域大部分依賴考證、校勘、資料爬梳的工作,也完全可以被AI取代。

想獲取音頻或者更多資訊,

您還可以下載我們的APP(墨子學堂),

或者關注我們微博和微信(墨子學堂訂閱號)

投稿、轉載聯係:tougao@poinetech.com

商務合作事宜聯係:bd@poinetech.com

最後更新:2017-10-08 08:31:30

  上一篇:go 人工智能 物聯網第一股,淨利增6050%,國慶節後全倉目標10連板!
  下一篇:go 《信聞聊齋》第537期:機器人有那麼可怕嗎?