二. 实体链接-《实体链接:从文本到概念》-韩先培-读书笔记


文章目录

    • 实体链接:概念理解
      • 一. 研究背景
      • 二. 应用场景示例
        • 一. 以实体为中心的精准信息聚合
            • 1. 跨社交网络的信息集成
        • 二. 构建知识库
      • 三. 关键技术
        • 一. 引用表构建
        • 二. 实体知识构建
          • 1. 实体知名度
          • 2. 实体上下文
          • 3. 实体语义关联度
          • 4. 文章主题
        • 三. 链接推理算法
          • (一)局部推理
          • (二)全局推理
      • 四. 总结


实体链接:概念理解

一. 研究背景

  1. 信息过载:大数据时代,信息爆炸,直接导致信息过载;
信息过载缺点 信息过载优点 信息过载主要原因
1. 在找到有用的信息之前,我们需要处理更多的无用信息
2. 找到多少有用的信息取决于我们从沙子里淘金的本领
只要找,总是能够找到 1. 自然语言表达的多样性
2. 自然语言表达的歧义性
  • 自然语言表达的多样性
    1 同一意义可以以多种不同表达 -->> 找全信息很难
    2 自然语言表达的弹性 -->> 科比今天发挥的不错&& 科比今天终于吃了顿饺子 这两句话其实表示同一个意思
    3 人不人之间表达的差异性和选择性
科密 科黑
科比,小飞侠
黑曼巴
科神
科比, 科铁
  • 自然语言表达的歧义性
    1 同一个词语、词组、句子在丌同的上下文中有多种不同的意义
    如下,同样都是苹果,但是根据上下文可知表达的不是同一个意思:
    中关村的苹果丌错 -> 苹果电脑
    新发地的苹果丌错 -> 水果苹果

    2 找到准确的信息很难, 特别是长尾的信息
    如下示例:
    想到网上搜索张华,可以搜到很多叫张华的人,
    二. 实体链接-《实体链接:从文本到概念》-韩先培-读书笔记_第1张图片
    二. 实体链接-《实体链接:从文本到概念》-韩先培-读书笔记_第2张图片
    针对自然语言表达的多样性歧义性问题,实体链接提供了如下的解决方案: 通过将自然语言中的文本不知识库中的条目迚行链接
    举例如下:
    二. 实体链接-《实体链接:从文本到概念》-韩先培-读书笔记_第3张图片

二. 应用场景示例

二. 实体链接-《实体链接:从文本到概念》-韩先培-读书笔记_第4张图片

一. 以实体为中心的精准信息聚合

1. 跨社交网络的信息集成

将所有不特定实体相关的信息与进行链接, 如新浪微博、 Twitter、新闻、水木、等等
二. 实体链接-《实体链接:从文本到概念》-韩先培-读书笔记_第5张图片

二. 构建知识库

将文本中的实体与知识库中的实体链接,并将知识库中没有的知识补全到知识库中
二. 实体链接-《实体链接:从文本到概念》-韩先培-读书笔记_第6张图片

三. 关键技术

一. 引用表构建

构建引用表原因:引用表存储一个名字所有可能指向的实体, 如: 名字 -> 实体的映射关系
== 构建方法==:锚文本数据挖掘
如下:IBM分别指向三个不同的实体
二. 实体链接-《实体链接:从文本到概念》-韩先培-读书笔记_第7张图片

二. 实体知识构建

1. 实体知名度

定义:表示一个实体被人们知道了解的程度, 高知名度的实体更有可能在文章中被提起
如:水果苹果比电影苹果更常被人提起二. 实体链接-《实体链接:从文本到概念》-韩先培-读书笔记_第8张图片

2. 实体上下文

定义:特定实体的上下文规律性
如:苹果上下文出现iPad,酷,视网膜屏的苹果更可能是苹果公司
上下文出现好吃、甜、一斤的苹果更可能是水果苹果
二. 实体链接-《实体链接:从文本到概念》-韩先培-读书笔记_第9张图片

3. 实体语义关联度

(1)定义
1)捕捉实体和实体之间的语义关系
2)相关实体更容易同时出现在一篇文章中
如:二. 实体链接-《实体链接:从文本到概念》-韩先培-读书笔记_第10张图片
== 如何衡量两个实体之间的相关度==
1)在知识网络中的距离:两个实体在知识网络中的距离越小,说明相关度越大,反之,关联度越小
2)在文章中共现的次数:在文章中,两个实体共现的次数很多,说明这两个实体的相关度很大

4. 文章主题

定义 :一篇文章中的实体应弼不其主题相关
如:
苹果公司更容易出现在IT相关主题的文档中
水果苹果更容易出现在吃或农业相关的文档中
电影《苹果》 倾向于出现在娱乐相关的新闻中
二. 实体链接-《实体链接:从文本到概念》-韩先培-读书笔记_第11张图片

三. 链接推理算法

定义:链接推理算法就是综合实体知识迚行决策的
过程
中关村的苹果不错 --> 水果苹果?苹果电脑?
水果苹果和苹果电脑的上下文
相关度(中关村,水果苹果) = 0.1
相关度(中关村,苹果电脑) = 0.7
说明上文中提及的苹果更有可能是苹果电脑

链接推理又分为局部推理全局推理

(一)局部推理

定义:考虑单个实体的上下文,不考虑文章中其它实体对该实体的影响
二. 实体链接-《实体链接:从文本到概念》-韩先培-读书笔记_第12张图片
二. 实体链接-《实体链接:从文本到概念》-韩先培-读书笔记_第13张图片

(二)全局推理

二. 实体链接-《实体链接:从文本到概念》-韩先培-读书笔记_第14张图片
二. 实体链接-《实体链接:从文本到概念》-韩先培-读书笔记_第15张图片
二. 实体链接-《实体链接:从文本到概念》-韩先培-读书笔记_第16张图片
二. 实体链接-《实体链接:从文本到概念》-韩先培-读书笔记_第17张图片

四. 总结

  1. 实体链接是一项解决自然语言歧义和多样性的有效技术,性能在一定程度上达到实用水平
  2. 加强对长尾(long tail)实体的处理
    现有的消歧系统通常只对知名实体迚行消歧
    将Web文本中实体不长尾上的实体,如sina微博、Facebook上的用户相连,可创造广阔的应用前景
  3. From Extraction to Discovery
    蝙蝠侠—三部曲之终章  这是新出来的电影,还是老电影、漫画、戒其他?
    可以不知识库构建相互补充,从而滚劢式的构建大规模知识图谱

韩先培-《实体链接:从文本到概念》

你可能感兴趣的:(NLP,自然语言处理)