【转载】文献与考古领域的人工智能应用 | 人工智能完成 “死亡文字” 西夏文的自动识别

【转载】文献与考古领域的人工智能应用 | 人工智能完成 “死亡文字” 西夏文的自动识别_第1张图片

前言:

写了这么久博客,还没有转载过文章呢。正好最近看了篇关于人工智能智能识别的文章,把这篇文章分享给大家!


汉字是世界上最古老的文字之一,由汉字这个源头产生了西夏文、契丹文、日本假名、韩文等很多种表意文字,在几千年的历史中有的消失,有的仍在沿用。而西夏文虽仿汉字而造,但是弃简从繁,不到二十笔简直就不好意思自称为西夏文。

【转载】文献与考古领域的人工智能应用 | 人工智能完成 “死亡文字” 西夏文的自动识别_第2张图片

人工智能完成西夏文自动识别

其实,用计算机技术处理西夏文很早就已经开始。

早在1996年,日本国立亚非语言文化研究所就制作了西夏文字库和排版系统。1997 年中国学者李范文和日本学者中岛干起利用该排版系统合作出版了《电脑处理西夏文〈杂字〉研究》。俄罗斯应该也都有西夏文数据化和计算机处理的项目与研究成果。

而使用弹性网络、神经网络、AI算法以及深度学习来识别西夏文,则是中国领先完成的一个创举。

【转载】文献与考古领域的人工智能应用 | 人工智能完成 “死亡文字” 西夏文的自动识别_第3张图片

(纪录片《神秘的西夏》创立文字片段)

用AI识别西夏文,主要依托的是计算机字符识别( optical character recognition,OCR) 技术,这种技术上世纪60年代就成为了人工智能研究的主要领域之一。

它的核心技术主张是基于人工智能运算来识别文字符号的数字影像,并将其转换为对应的数字文本,达到可识别、可编辑、可转化的目的。

OCR技术目前在很多领域已经相当成熟,比如我们经常用到的印刷文件文字提取。在OCR识别领域,更多的应用是手写体内容的精准识别,而利用OCR识别考古文献中的非广泛使用文字却基本处于空白。

这里可以结合论文简单介绍两种AI识别西夏文的案例。

比如在《基于弹性网络的西夏文识别》当中,研究人员利用弹性网络技术,将西夏文中的笔画特征进行网格化提取。再统计像素点在每个网格内的概率分布,形成一种可读取的特征模型。最后使用文档主题模型方法对提取的特征降维处理,结合数据库对文献进行识别。

根据论文这种方法现实,这种方法平均识别率可达87.99 %。

再比如《基于Mean Shift算法的西夏文字笔形识别》,Mean Shift算法,即偏移均值向量,是机器学习领域的一种基本算法。其基础理论是利用信息密度来完成聚类、图像分割、跟踪任务,可应对相似但界限模糊的图像处理应用。利用这种算法,研究人员将原始资料生成概率统计直方图,通过相似度来判断归类具体的西夏文笔形。

【转载】文献与考古领域的人工智能应用 | 人工智能完成 “死亡文字” 西夏文的自动识别_第4张图片

(西夏文智能识别算法流程)

这里仅仅是两个具体应用案例,利用深度学习等前沿人工智能技术识别西夏文的应用还在不断发展。

文献与考古领域的人工智能应用

可能识别西夏文距离我们的日常生活还相对较远,但推广当整个人文社科领域,AI的应用可能就会从另一个角度无限贴近我们的生活。

从近处来说,AI推动学术效率,可能会影响我们的学科配置、学术训练甚至高等教育体系,从远处来看,AI推动的进一步识别历史与文献的能力,是我们窥探自身过去,了解“中国”为何是“中国”的全新工具。

在我们沉浸于未来带来的快感时,人工智能却可能在历史领域快速发挥它的价值。通过西夏文识别的例子,不难发现在文献与考古这些社科领域当中,人工智能至少可以发挥以下几种功效:

1、考古图像的识别与归档,比如基于算法的文物识别、文物数据化、考古现场数据化。

2、文献文本的识别与转码,比如原始文献的文字识别读取、文献聚类、文献数据化。

3、文献数据库的知识图谱化与机器学习应用。比如学科文献图谱化、时代文献图谱化、科研项目数据图谱化,以及基于知识图谱训练的人文社科领域智能体。

这一点尤其重要,想象力也最为充沛。就像金融、翻译等领域很可能被AI替代一样,文献学与历史研究领域大部分依赖考证、校勘、资料爬梳的工作,也完全可以被AI取代。

类似的人文领域与AI跨界还有很多,有些甚至涉及哲学与伦理层面的技术与人文互搏,以后我们会陆续介绍。

也许AI就像风,当它是一场风暴的时候,家家户户都会门窗紧锁小心防护。但当它是清风徐来穿屋而过的时候,在我们不知觉间,AI就已经无孔不入了。




http://www.52qixiang.com/info/17651.html

你可能感兴趣的:(转载文章,人工智能,深度学习,机器学习)