实体对齐之bert度量虚拟文档的相似度

基于Bert度量实体之间的相似度
基本思想:将实体的对齐问题转换成文本之间的相似度度量问题
准备工作:Bert的预训练模型(google提供了中文的预训练模型),实体相似度的标记文本
A. Bert的预训练模型
实体对齐之bert度量虚拟文档的相似度_第1张图片
模型的输入(每个单词有三个embedding,把单词对应的三个embedding叠加)
实体对齐之bert度量虚拟文档的相似度_第2张图片
(1)token embeddings表示的是词向量,第一个单词是CLS,可以用于之后的分类任务
(2)segment embeddings用来区别两种句子,因为预训练不光做LM还要做以两个句子为输入的分类任务
(3)position embeddings表示位置信息
预训练的原理:Masked LM(遮住部分单词让编码器根据上下文学习)和下一句预测(挖掘出句子之间的关系)
(使用google提供的预训练模型)
B. 实体相似度的标记文本

  1. 使用自定义的标记算法对两个知识库的部分实体文本对的关系进行标记,标记为1表示相似实体,标记为0表示不相似实体;
    标记方法详情如下:
    a.人为的将实体的相似度分为属性值之间的相似度Sim_attr和实体名称的相似度两部分Sim_name。属性值的相似度又分为数值类型属性值的相似度Sim_number和文本类型属性值的相似度Sim_text,实体1和实体2的相似度定义为Sim_entity(1,2)=αSim_name+β(γSim_number+νSim_text)。其中,文本类型属性值的相似度使用词袋模型进行度量,数值类型属性值的相似度使用集合的相似度来度量,实体名称直接采用词语之间的相似度进行度量。
  2. 领域专家对标记的实体对进行调整筛选,得到比较准确的实体相似度的标记文本。需要注意相同的实体之间的相似度能尽量接近1最好,通过这个限制条件控制并调整第一步的各个阈值。

备注:标记文本格式为“虚拟文档1,虚拟文档2,0/1”,其中虚拟文档1和虚拟文档2分别由知识库A和知识库B的实体构建

你可能感兴趣的:(知识融合)