这篇文章是iswc(International Semantic Web Conference)2015年的论文。
里面好多NLP方面的基础知识。
要做笔记,就写在这里吧,方便以后查看。
暂时先写这么多吧(2016/4/13)
读了TRank,以及BLANC里面的metric。(2016/4/14)
本体&实体&提及
本体就是一个比较虚的东西,来自哲学概念,主要指的描述概念及概念之间关系的概念模型, 通过概念之间的关系来描述概念的语义。
实体就是mention指向的东西,具有实际的意义。
提及就是在文中提到的短语什么的。
总的来说就是一个文本中会有很多mention;这些mention可能指向同一个实体,或者不同的实体;然后这些实体可能都属于一个本体类别下(比如都属于语言学等等)。
实体连接:就是把mention连接到具体指的什么时实体上面去。最简单的,可以做一个字符串匹配,达到某一个阈值,就认为属于这个entity。
分为三步:mention detection, link generation, and disambiguation
涉及技术
<待补充>
是一个给实体类型排序的系统。具体详情
论文:TRank: Ranking Entity Types Using the Web of Data
文章出现三次对论文TRank的引用:
1)In the context of this paper, both NER and Entity Linking are prerequisites for coreference resolution as we take advantage of external knowledge to improve
the resolution of coreferences and hence must first identify and link as many entity mentions as possible to their counterparts in the knowledge base. Since,
however, those two tasks are not the focus of this work, we decided to use in this paper the TRank pipeline because of its simplicity and its good performance inpractice on our dataset (前言部分entity linking)
2)TRank is a system for ranking entity types given the textual context in which they appear(前言部分 entity types)
3)For the mentions linked in the previous step, we employ the mappings between DBPedia and YAGO ontologies provided by TRank Hierarchy to map DBPedia types to YAGO ones.(semantic annotation部分,semantic typing)
文章的4部分 Approaches to Entity Type Ranking
主体结构为:输入网页->利用NER选取出entity->得到entityURI->得到URI的所有types URI->排序type
First,given a Web page (e.g., a news article), we identify entities mentioned in the textual content of the document using state-of-the-art NER focusing on persons,locations, and organizations.
Next, we use an inverted index constructed over DBpedia literals attached to its URIs and use the extracted entity as a query to the index to select the best-matching URI for that entity.
Then,given an entity URI, we retrieve (for example, thanks to a SPARQL query to a knowledge base) all the types attached to the entity.
Finally, our system produces a ranking of the resulting types based on the textual context where the entity has been mentioned
排序的方法:
The proposed approaches for entity type ranking can be grouped in entity-centric, context-aware, and hierarchy-based
主要方法介绍:
Entity-Centric Ranking Approaches
PREQ:根据类型在背景知识库下面的频率(frequency),
WIKILINK:利用给定的实体和背景知识库的拓展实体的关系。对相邻实体进行计数,可以利用SPARQL来做。
LABEL:舍弃文本相似的方法,计算标签e与背景知识库中其他的标签的TF-IDF相似度来找到关联实体,使用最相关的实体来给e的类型排序。挑选出top-10个与e有最相似的标签的实体,基于frequency对实体排序。
Context-Aware Ranking Approaches
SAMETYPE:当相同的URI类型被e和e'使用的时候,或者e和e'有共同的标签的时候,是一个匹配。
PATH:利用类型层次和e出现的上下文。根据从root到t的路径的相似度来排序。
Hierarchy-Based Ranking Approaches
使用类型层次评估实体类型ti关联到实体e的深度来评价关联性。
ANCESTORS:how many ancestors of ti ∈ Te are also a type of e. That is, if Ancestors(ti) is the set of ancestors of ti in the integrated type hierarchy, then
we define the score of ti as the size of the set {tj|tj ∈ Ancestors(ti) ∧ tj ∈ Te}.
For example, in Figure 3c we rank first the type ‘Actor’ because ‘Person’ is its ancestor and it is also a type of e. On the other hand, the type ‘Humanitarian Foundation’ has a bigger depth but no ancestor which is also a type of e.
ANC_DEPTH:considers not just the number of such ancestors of ti but also their depth
使用训练集找到最好的方法来联合不同的技术,使用决策树和线性回归模型来联合排序的方法。决策树使用M5。
TF词频(Term Frequency),表示词条在文档d中出现的频率
IDF逆向文件频率(Inverse Document Frequency)。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,n也大,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。但是实际上,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。这就是IDF的不足之处
词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数(term count)的归一化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词数,而不管该词语重要与否。)对于在某一特定文件里的词语来说,它的重要性可表示为:
式子中分子是该词在文件中的出现次数,而分母则是在文件中所有字词的出现次数之和。
逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到
|D|:语料库中的文件总数
:包含词语的文件数目(即的文件数目)如果该词语不在语料库中,就会导致分母为零,因此一般情况下使用作为分母
TF-IDF
某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语
共指消解与指代消解
共指就是两个mention指向的同一个entity;e.g:iphone 和苹果手机(虽然貌似需要语言一样==)
指代就是后面的mention需要前面的mention来解析,存在一定的关系;e.g:(小明迟到了,这真是奇怪。”这“需要”小明“来解析,但是属于不同的entity,一个指的是一件事,一个指的是一个人)
两者的结合就是,后面的mention需要前面的mention来解析,并且两个mention指的是同一个entity。e.g:(还是前面的例子,小明迟到了,他不经常迟到的。”他“需要前面的”小明“来解析,而且两个都是指小明这个人)。
这篇文章介绍了很多metric
BLANC: Implementing the Rand Index for Coreference Evaluation
<待补充>
在一个大规模数据集合中检索文档时,可把集合中的所有文档分成四类:
相关的 不相关的
检索到的 A B
未检索到的 C D