中国人工智能学会通讯——面向知识图谱的自适应中文分词技术

引言

知识图谱用于描述真实世界中存在的各种实体和概念，知识图谱技术提供了一种从海量文本和图像中抽取结构化知识的手段[1]。知识图谱的构建可分为信息抽取、知识融合和知识计算三部分，其中信息抽取是知识图谱构建的基础，主要面向各种非结构化数据、半结构化数据和自由文本数据。这里，自由文本数据作为一种非结构化数据，是构建知识图谱的主要数据来源。因此，从中文自由文本中获取知识需要利用自然语言处理技术进行信息抽取，诸如实体识别、关系抽取等。在实体识别过程中，中文分词系统的性能对实体识别的准确率起着至关重要的作用。中文实体识别，首先要通过分词系统进行词语识别；准确的中文分词可给出明确的实体边界，错误的中文分词对实体识别带来不可逆转的影响。

知识图谱的构建是面向领域的构建，知识图谱中代表性实体也均带有领域特征。通用中文分词系统在知识图谱构建中，由于缺乏领域先验知识，分词系统的性能会骤然下降。为了得到较好的分词结果，面向知识图谱的中文分词系统需要具有较强的领域自适性。自适应的中文分词系统可以对不同领域的非结构化数据依据数据自身的分布情况进行高精度切分，为特定领域的知识图谱的构建提供坚实的基础。本文将围绕自适应中文分词系统进行相关工作的介绍。

中文分词任务是众多中文自然语言处理任务的基石。对于知识图谱构建来说，高精度的词语切分有助于命名实体或概念的识别。随着自然语言处理技术的不断发展，人们已不局限于新闻等标准语料的分析与挖掘，医疗、金融、生物、科技等专业领域的数据也开始采用自然语言处理技术进行文本自动处理。但由于大多数专业领域缺乏相应的分词标注数据，且不同领域的文本用词方法及行文表达方式不同，采用通用分词工具进行专业领域文本标注时，分词性能较差。因此，建立具有良好领域适应性的中文分词系统是知识图谱构建技术的主要研究问题之一。这里，具有良好领域适应性是指，当需要进行标注的文本类型与分词系统的训练语料不同时，分词系统仍然保持良好的分词效果。本文所指的文本类型不同，包括文本所涉及的话题领域不同、文本的行文表达方式不同等。

分词系统现存挑战

从语言学角度，词是最小的能够独立运用的语言单位。计算机对文本的理解过程同样也以词为最小的语义单位。中文自然语言文本中，并不存在空格等显式标志指示词的边界。因此，在计算机进行自然语言理解的基础性工作就是对文本进行自动分词的处理，即计算机自动在汉语文本中在词与词之间添加边界标记。例如，“三峡工程引进第一笔外资。”经过计算机自动分词后，句子中词与词之间被添加了边界标记并显示为“三峡工程引进第一笔外资。”

中文分词系统性能主要受两类关键问题的影响 [2]。一是歧义切分，这主要是因为字不能作为独立的语言单位，字的多义使得词语在切分过程中需要依据上下文信息给出适当的切分方案。例如，“门把手坏了。”和 “门把手夹坏了。”，第一句中“把手”是词，第二句中“把”和“手”单独成词。二是未登录词，该类词并未在分词系统的训练语料和所使用的词表中出现过。未登录词主要由专有名词和新产生的中文词构成。专有名词主要涉及人名、地名、组织机构名、专业术语、商品名等。新产生的中文词主要来自于网络新词，例如“喜大普奔”等。在建立面向专业领域的分词系统过程中，未登录词对系统性能的影响极为明显。

中文分词常用方法及相关工作

现有常用的中文分词语料库主要有 Chinese TreeBank[3]、 Sinica Balanced Corpus [4]、北京大学人民日报语料库 [5] 和 LIVAC[6]。国际中文自动分词评测（简称 SIGHAN Bakeoff）1 对中文分词工作的发展产生了巨大的推动作用。该评测针对特定任务，提供包含训练语料、测试语料和标准答案在内的分词数据集。近年来，中文分词工作不再局限于标准的新闻语料，针对特定领域的中文分词语料逐渐丰富，诸如小说语料 [7]、中文专利语料 [8]、微博语料 [9]。

当前大部分分词工作将分词任务转化为基于字的序列标注任务，即通过字在词语中所占位置进行标注，例如，B、I、E、S 分别表示字为词组中的首字、中间字、尾字、单字词；本文所举例句可被标注为“三 B 峡 E 工 _B 程 _E 引 _B 进 _E 第 _B 一 _E 笔 _S 外 _B 资 _E 。_S”。大部分中文分词工作主要是针对新闻语料。常规分词标注系统常采用如下分类器：最大熵马尔科夫模型 [10]、条件随机场 [11]、结构化感知器 [12] 等。

随着深度学习算法的广泛应用，很多中文分词研究工作也引入了深度学习算法，带来了一定的效果提升。Cai 等人 [13] 并没有采用序列标注的分词方式，而是直接评估对句子的不同切分的似然度，搜索句子的不同切分得到一个似然度得分最高的切分作为分词结果。Zhang 等人 [14] 将原本使用离散特征的基于词的模型改进为神经网络模型，用字向量和词向量替代原有的离散字和词的特征，用神经网络代替线性模型；并对离散特征的模型和神经网络模型进行了组合，得到了一个组合模型。Xu 等人 [15] 提出了使用双向长短期记忆神经网络 (Long ShortTerm Memory，LSTM) 得到各个字符周围的局部特征，再使用门控递归神经网络 (Gated Recursive Neural Network,GRNN) 结合长距离依赖性 (long range dependencies)。

目前，中文分词系统已经在新闻文本领域获得了很高的正确率，一些分词系统的 F1 值已经超过 98%[16]。越来越多的研究注意力开始转向其他缺乏标注语料的文本领域。标注语料的缺乏，使得这些新的领域的分词问题具有更大的挑战性。已有的一些研究工作开始关注文学文本，诸如网络小说 [7]；还有一些针对微博这类非正式语言的文本分词研究工作 [9]。虽然文学文本工作和微博文本工作都存在各自领域问题带来的挑战，但这些文本中所使用的词汇及语言表述方式仍属于日常生活用语范围，一般情况下对于一个母语是中文的人来说，不需要进行任何的专业培训即可以很好地理解文本。

科技文本诸如专利文本与上述文本有很大的不同。专利文本中包含了大量的科技用语和专业词汇，这使得即使使用母语的一般读者在阅读理解专利文本的时候也会感到很困难；通常需要经过一定的专业培训，读者才可能较清晰地理解文本所表达的意思。从文本自动分词角度来讲，专利文本中常用的科技用语和专业词汇很难从拥有大量标注数据结果的日常用语类文本中找到。这类词汇通常被认定为“未登录词”。中文分词系统一个永恒的研究难点就是如何能够有效切分出这些“未登录词”。美国情报高级研究计划署 (Intelligence Advanced Research Projects Activity，IARPA) 下属科研项目 FUSE2 （Foresight and Understanding from Scientific Exposition）即通过对大量专利等科技文献进行分析研究，预测新兴技术的潜在方向和发展趋势。该项目中包括了对中文专利文本的分析，并建立了针对中文专利文本的分词和词性标注系统作为后续分析工作的基础。到目前为止，只有为数不多的针对中文专利文本的分词研究工作 [17]。目前常用的分词系统在专利分词任务上表现不佳。

领域自适应常用方法及相关工作

领域自适应方法，可有效解决缺乏领域内标注语料而产生的标注系统性能低下的问题。跨领域标注中，训练集数据和测试集数据并不是从同一个分布中抽样得到的。领域自适应算法描述了如何处理不同来源的训练集数据和测试集数据，导致的标注系统性能下降的问题。领域自适应的目标是让一个分类器在训练集上训练，同时能够在测试集上有较好的表现。由于部分文本专业性较强，人工标注难度大，在这种情况下，采用领域自适应系统是一个不错的选择。一般的，训练集数据的分布称为始源域，把测试集数据的分布称为目标域。

领域自适应方法可分为全监督领域自适应和半监督领域自适应 [18]。这两种具体的领域自适应方法的主要区别在于是否能够得到目标领域的标注数据。全监督领域自适应算法中，包含大量始源域的标注数据和少量目标领域的标注数据；而半监督领域自适应算法中，仅能得到始源域的标注数据，但目标域没有任何已人工标注的信息。显而易见，一般情况下全监督领域自适应的效果会高于半监督领域自适应。实际的应用中，在初始研究阶段，只能拿到大量未标注的目标领域的数据，可选用半监督领域自适应方法；待可获得小部分人工标注后，可采用全监督领域自适应方法提升系统性能。领域自适应的目标是，当数据领域发生变化时，系统仅需做出较少的调整，即可在新领域数据中得到较好的序列标注结果。

在全监督领域自适应方法中，Daumé III[18] 放大了始源域和目标域数据的特征空间，然后使用合并的特征空间训练交叉域模型。全监督方法的弊端在于仍需要花费大量的人力进行目标领域数据的标注。Kim等人[19] 借鉴了文献 [18] 的思想，实现了基于神经网络的领域自适应方法。Zhang 等人 [20] 设计了一种基于门控机制的自适应神经网络可进行跨领域学习。通常情况下，在已标注数据中，始源域数据量远超目标域数据量，如果将始源域数据和目标域数据直接简单合并在一起作为训练语料，很容易将目标域中特有信息掩盖。为了有效融合已标注目标域和始源域数据中的有效信息，基于门控循环单元（Gated Recurrent Unit，GRU）的领域自适应神经网络模型，将始源域信息有序添加至目标域输入中。GRU由更新门和控制门组成，表述如下：

近年来，已经有一些学者开始关注跨领域自动分词的研究 [7,17]。领域词典的使用可有效提高跨领域字词系统的性能 [7]。目前，基于神经网络自适应的中文分词系统的研究还不是很成熟。Li 等人 [17] 在研究过程中发现，常用领域自适应方法是存在一定适用范围的，当目标域标注数据达到一定数量级后，领域自适应方法所产生的效果微乎其微。

结束语

知识图谱用于描述真实世界中存在的各种实体和概念，如何从海量非结构化数据中识别实体是知识图谱构建的关键问题之一。中文知识图谱构建过程中，分词系统对词语的准确切分，可直接实现多数实体和概念的边界划分；可以说，分词系统的性能对知识图谱的构建起着关键性影响。中文分词系统在标准数据集（诸如新闻语料）上的表现接近完美，但在其他缺乏标注的特定领域数据上的表现差强人意，特别是某些专业性较强的领域，由于存在大量未登录词，使得分词系统面临巨大挑战；这就需要面向知识图谱的中文分词系统具有较强的领域自适性。因此，建立具有领域自适应性的分词系统将会是中文分词研究的热点问题之一，也是建立高精度的面向知识图谱中文分词系统的有效途径之一。

中国人工智能学会通讯——面向知识图谱的自适应中文分词技术

引言

分词系统现存挑战

中文分词常用方法及相关工作

领域自适应常用方法及相关工作

结束语

你可能感兴趣的:(中国人工智能学会通讯——面向知识图谱的自适应中文分词技术)