阅读517 返回首页    go 机器人


人工智能如何帮我们认识历史

曾记得有一次聊天,有个朋友描述他对人工智能的印象,总结成三个词:西方的、商业的、未来的。事实上,人工智能作为一种很早就发展起来的通用技术,绝不是西方的专利,也绝不仅仅能够创造商业价值。甚至在某些机缘巧合下,人工智能能够成为我们用以认识历史、认识自身民族、认识祖先与过去的利器。

梁启超说“学术乃天下之公器”,不仅是说学术天下人共有,同时也是说学术天下共致。作为一种基础工具的人工智能,往往能够在意想不到地方发生效用。比如说今天为大家介绍的借助人工智能技术,自动识别西夏文——一个纯粹中国的人文社科领域。

我们都知道,西夏是与北宋、辽、金先后对峙的党项族国家,曾经统治河西地区超过二百年。与大众认知中不同,西夏不是个茹毛饮血的野蛮文明。他们曾经创立过惊人的文化、艺术与宗教文明,但随着1227年蒙古灭西夏,蒙元不为西夏立史,关于这个政权的记录快速消亡,李元昊立国时创立的西夏文也随之湮灭。

直到1804年,武威大云寺发现了着名的《重修凉州护国寺感通塔碑》,西夏文才在埋藏了数百年后重现人世。从此识读西夏文开始成为了学界的重要工作。在各国学者努力下,西夏文的基础文字识别已经完成,现阶段的工作重点是依据文字列表,去识读大量西夏文文献的具体内容,揭开西夏以及当时中原、西域各国的历史迷雾。

但在这个过程里,研究人员认读西夏文必须通过手工翻阅查找,耗费时间异常辛苦不说,由于西夏文是一种相似度极高的文字,人工识别还可能存在很大的错误率。所以就有学者提出,利用计算机来自动识别西夏文。这种设想很好,但在具体操作中还是有巨大问题。比如西夏文结构复杂、组成字符各部分要素高度相似,并且平均笔画达到25画,计算机识别难以入手。

此外,西夏时期虽然已有印刷术,但出土文献还是以手抄本和刻版文字为主,同一个字的在不同文献上的位置不固定、整体布局会发生偏移,都给机器识别带来巨大困难。于是有意思的事出现了,宁夏大学相关研究机构为代表的学术力量,选择了以人工智能技术解决西夏文的自动识别。并且这个工作很早就已经开始,不断有成果涌现。从时间上看,绝不是赶这波AI热的产物。

其实,用计算机技术处理西夏文很早就已经开始。早在1996年,日本国立亚非语言文化研究所就制作了西夏文字库和排版系统。1997年中国学者李范文和日本学者中岛干起利用该排版系统合作出版了《电脑处理西夏文〈杂字〉研究》。俄罗斯应该也都有西夏文数据化和计算机处理的项目与研究成果。而使用弹性网络、神经网络、AI算法以及深度学习来识别西夏文,则是中国领先完成的一个创举。

AI识别西夏文,主要依托的是计算机字符识别( optical character recognition,OCR)技术,这种技术上世纪60年代就成为了人工智能研究的主要领域之一。它的核心技术主张是基于人工智能运算来识别文字符号的数字影像,并将其转换为对应的数字文本,达到可识别、可编辑、可转化的目的。

OCR技术目前在很多领域已经相当成熟,比如我们经常用到的印刷文件文字提取。在OCR识别领域,更多的应用是手写体内容的精准识别,而利用OCR识别考古文献中的非广泛使用文字却基本处于空白。

通过西夏文识别的例子,不难发现在文献与考古这些社科领域当中,人工智能至少可以发挥以下几种功效:

1、考古图像的识别与归档,比如基于算法的文物识别、文物数据化、考古现场数据化。

2、文献文本的识别与转码,比如原始文献的文字识别读取、文献聚类、文献数据化。

3、文献数据库的知识图谱化与机器学习应用。比如学科文献图谱化、时代文献图谱化、科研项目数据图谱化,以及基于知识图谱训练的人文社科领域智能体。这一点尤其重要,想象力也最为充沛。就像金融、翻译等领域很可能被AI替代一样,文献学与历史研究领域大部分依赖考证、校勘、资料爬梳的工作,也完全可以被AI取代。

想获取音频或者更多资讯,

您还可以下载我们的APP(墨子学堂),

或者关注我们微博和微信(墨子学堂订阅号)

投稿、转载联系:tougao@poinetech.com

商务合作事宜联系:bd@poinetech.com

最后更新:2017-10-08 08:31:30

  上一篇:go 人工智能 物联网第一股,净利增6050%,国庆节后全仓目标10连板!
  下一篇:go 《信闻聊斋》第537期:机器人有那么可怕吗?