来源:IEEE 2016 Eleventh International Conference on Digital Information Management (ICDIM)(国际数字信息管理会议)
题目:基于crf的参考字串书目抽取有效特征检验
摘要:诸如文档的书目信息之类的元数据对于有效使用数字图书馆是必不可少的。 特别是,学术论文的参考领域包含许多书目信息,如作者姓名和文件标题。 因此,我们正在开发一种使用条件随机场(CRF)从参考字符串中自动提取目录信息的方法。 CRF使用的功能决定了此方法的准确性。 我们通过实验改变所使用的特征来检查有效特征以进行准确提取。 实验表明,词法特征在准确提取方面非常有效,并且适当地增加词典可以导致准确性的进一步提高。
一,导言
信息提取是数字图书馆和档案馆的一项重要功能,可为其内容提供多种有效的访问途径。 从存储的文档中提取的元数据可以用于各种目的,例如不同资源中的记录链接和分面检索。 特别是,通常在学术论文末尾列出的参考字符串包含许多有用的书目信息,例如作者的姓名和文档标题。 因此,准确有效地提取这样的书目信息是一个关键问题。
已经提出了许多使用机器学习技术的方法,例如条件随机场(CRF)[1],用于书目提取。例如,彭等人。从英语学术论文的标题页和参考文献中提出了基于CRF的书目提取方法[2]。 Councill等人。提出了一种基于CRF的书目提取机,ParsCit [3]。最近,Do等人[4]引入了一个信息提取系统Enlil,它以PDF格式发现学术论文中的作者关系关系。 Enlil首先使用CRF提取作者和附属关系,然后使用支持连接它们矢量机[5]。它不仅使用诸如令牌长度和字符n-gram前缀/后缀之类的内容特征,而且还使用诸如子/上标和字体格式/大小之类的布局特征,用于从标记化文本行提取基于CRF的提取。 Cuong等人[6]证明了使用高阶半马尔可夫CRF来提高学术文献提取任务(包括参考字符串解析)的性能的可行性。
在本研究中,我们使用Kawakami等人提出的基于CRF的方法从参考字符串中提取书目信息[7] 检查该方法使用的功能的有效性。 此外,我们还对词汇特征进行了全面检查,这些词汇特征在准确的书目提取中起着关键作用。
此篇文章的结构如下。 我们首先在第二节中简要解释我们基于CRF的参考书目提取。 然后,我们描述了用于评估该方法在第III部分中使用的特征的实验,并总结了第IV部分中的论文。
二、基于CRF的参考字符串书目提取
A.问题定义
我们研究了一个研究论文的参考字符串解析器,它将从参考字符串中提取所有主要的书目元素,如标题和作者。 图1描绘了一个参考字符串及其解析和标记结果的示例。 如图所示,从参考字符串中提取书目信息的结果是一系列标记,标记为书目元素,如“作者”和“标题”,或者作为分隔符,如DC(逗号+空格)和DS( 双引号)。
我们用于引用字符串的基于CRF的解析器是双层的:首先,它将每个引用字符串分段为一系列标记x = x1,...,xn;然后它从一组类标签L = {l1,l2,...,lm}中分配适当标签的标记,代表书目元素或分隔符。在解析引用字符串时,我们首先使用预定义的分隔符和CRF对它们进行标记,如图1中的步骤(a)所示。接下来,我们创建另一个CRF,用于标记从引用字符串生成的标记序列中的标记,作为书目元素或者作为分隔符,如图1中的步骤(b)所示。我们使用手动标记化的参考字符串作为实验的输入,因为我们专注于检查本文中的标记标记精度。我们还使用一组书目元素,包括“作者”,“编辑”,“译者”,“其他作者”,“标题”,“书名”,“期刊”,“会议”,“卷”,“数字” “,”“页面”,“发布者”,“日”,“月”,“年”,“位置”,“网址”和“其他”。
B.条件随机场
在本研究中,我们应用标准线性链CRF来标记构成参考字符串的标记。 我们定义标签序列的条件概率,y = y1,...,yn,给定输入标记序列,x = x1,...,xn,as。其中Z(x)是分区常数。 特征函数fk(yi.1,yi,x)在连续标记yi.1和yi以及输入序列x上定义。 特征函数fk还与其学习的权重相关联.k。
CRF将标签序列y分配给给定序列x,使序列E最大化。(1):
输入标记序列x是通过用分隔符分割参考字符串而获得的标记序列,而标记序列y是书目元素或分隔符的名称序列。
C.特征模板
我们使用CRF++ 0.58 package1标记标记序列,它是CRFs的一个开源实现。表I总结了我们使用的特性模板。这些模板与[7]中提出的模板是一样的,除了feature 22,在本研究中重新安排feature 22进行feature evaluation。该特征由56个一元特征和一个二元特征组成。我们用8个词汇来表示英语中的人名、月份名、地名、出版商名、期刊名、会议名、日语中的日本姓以及其他实体,如委员会名称。在表I中,“Feature”列中的最后一个数字表示Feature模板的数量。例如,包含四个特性模板。此外,括号中的数字(如0和i)表示提取特征的令牌的相对位置,其中0是要标记的当前令牌的位置
我们还通过排除这两类特征来评估这两类特征的有效性。准确地说,我们在每次实验运行中都排除了词典特征和其他类别的特征,因为我们发现词典特征是最有效的,如图2所示。也就是说,当我们使用词典功能时,我们检查哪一类功能是最有效的。图3显示了实验结果。注意,图3中的ALL和Lexicon分别显示了与图2相同的结果。这里显示的是比较。从图3中可以看出,String和Keyword与这三种期刊的其他特征类别相比都有较大的下降,说明Lexicon和String的组合,Lexicon和keywords的组合在准确提取方面是非常有效的。
我们还在排除三个类别“Lexicon”,“String”和“Keyword”中的特征时测量了提取精度。 得到的精度为0.9077(IEICE-J),0.8937(IEICE-E)和0.8704(IPSJ),所有这些都远低于排除图3中所示的任何特征类别组合的那些。因此,我们发现这三个特征 类别在准确提取中非常重要。
C.词汇特征的评价
1)词汇特征的比较:我们在这里评估词汇的有效性,因为第三部分- b的实验表明,无论何种期刊,“词汇”特征都是准确提取书目最有效的方法。我们有八个词汇表,如表三所示。我们通过每次排除一个词汇来考察八个词汇中哪些词汇是有效的。图4显示了实验结果。将图4中的“ALL”和“Publisher”、“Journal”、“Conference”三种词汇剔除后的结果进行比较,结果显示,尽管“Publisher”、“Journal”和“Conference”在不同的期刊中效果有所不同,但“Publisher”、“Journal”和“Conference”是特别有效的词汇。
2) 将词法项匹配到标记的两种方法:我们比较两种将词汇条目与标记匹配的方法。一个是二进制:“匹配”或“不匹配”。另一个是五类比例:“完全匹配”,“前缀匹配”,“后缀匹配”,“部分匹配”和“不匹配”。我们将前者称为“2match”,将后者称为“5match”。我们还有一个词法特征,它指示与标记匹配的词汇。因此,我们总共有17个词法特征模板:8个(词典)×2个(匹配方式)+ 1个(匹配词典指示符)= 17.我们从这些中排除了一个或多个特征模板用于评估。图5显示了实验结果。例如,“Name(E)”的“2match”和“5match”分别仅对“Name(E)”词典使用“2match”和“5match”,尽管测试同时使用“2match”和“5match”其他词典。 “ALL 2 / 5match”分别表示仅对所有词典使用“2match”或“5match”时的结果,这些词汇用于比较。作为基线给出的“ALL”使用表I中的所有特征,即表III中所有八个词典的两个匹配。另请注意,匹配的词典指示器功能仅由“ALL”使用。图5显示了在提取参考书目的期刊中不同的每个词典的更好匹配方法。例如,对于“Name(E)”词典,“5match”如图5(b)所示是有效的,而“2match”在图5(c)中是有效的。
3)词汇覆盖率和参考书目提取准确度:我们准备了虚拟理想词典,包括从实验数据集中收集的所有书目标记,以评估词汇覆盖率和书目提取准确性之间的关系。我们创造了九个理想的词典,即“AUTHOR”(19,391),“TITLE”(12,835),“JOURNAL”(5004),“VOLUME”(3441),“PUBLISHER”(842),“DAY”(67),根据为第III-A部分评估确定的书目类别,“月”(58),“年”(78)和“其他”(1107)。括号中的数字表示每个词典中的条目数。图6显示了改变这些理想词典的覆盖范围时的提取精度。我们在实验中的每个词典中均匀地改变了覆盖范围。如此处所示,使用完整的理想词典(覆盖率= 100%)将准确度提高到大约0.99,而没有词典的准确度大约为0.95(覆盖率)在每个数据集中= 0%)。图6还显示使用全部特征“ALL”的解析器获得的等效性与词汇覆盖率为60%至70%的解析器相当,并且通过增加实际词典可以提高约2个百分点的准确度。
我们研究了从参考字符串中提取基于crf的书目的有效特性。实验结果表明,词汇特征在准确提取中是非常有效的,因此我们对词汇特征进行了全面的评价。我们发现这是相当有效的除了词法特征外,还可以精确提取令牌字符串和预定义关键字的特征。我们还发现“发布者”、“Journal”和“Conference”是有效的词汇,并且我们获得了一些词汇条目与标记匹配的方法。此外,我们还通过创建包含从实验数据集中收集的所有条目的虚拟理想词典,评估了词汇覆盖率和提取精度之间的关系。实验表明,使用这种理想的词典可以将提取精度提高到0.99左右,而基于crf的实际词典解析器可以达到0.97左右。我们计划研究如何在实践中维护实际的词典,考虑到各个方面,如词汇覆盖。