《知识图谱的入门到实践》01 深入知识图谱

书山有路勤为径,学海无涯苦作舟

1、知识图谱

  • 知识图谱,不光包含视觉,听觉、文本,而是尽可能将掌握的知识,全部融合在一起,构建出一个图模型。
  • 人与人之间存在关系,创建一个技术把人情世故和关系抖关联在一起。
  • 知识图谱会涉及NLP中的技术,但是我们所涉及的数据远远不至于文本,所以知识图谱并不是只属于NLP领域的技术,而是一个综合的学科。达到建立一个图的模型,建立好实体之间的逻辑关系。
  • 只要有了图模型,可以做推荐,搜索,推理等。
    《知识图谱的入门到实践》01 深入知识图谱_第1张图片
  • 我们在使用搜索引擎的时候,可能搜索的问题不是一个直接的含义,而是一个间接的问题。比如搜索王菲与李亚鹏的女儿,知识图谱会去找王菲和李亚鹏两个节点,再找到这两个节点的女儿关系下的实体,最终输出结果。
  • 知识图谱可以存储关系、属性。
  • 在搜索引擎中有很多应用。搜索引擎是去搜索知识图谱中的实体的关系、属性,快速的找到答案。
  • 知识图谱不是一个任务,其包含了庞大的学科交叉。
  • 问题1:搜索引擎会搜索圣诞节节点,和今天节点做运算
  • 问题2:先找zippo实体,找到实体后,知识图谱可能还没办法认识它,在语料库中没有zippo的属性。图谱根据规定会找到禁止携带的物品,可以通过找zippo的品牌,通过zippo其归属于打火机的实体,推理出zippo为打火机。
    《知识图谱的入门到实践》01 深入知识图谱_第2张图片

2 知识图谱的应用

2.1知识图谱在医疗领域应用

  • 去医院可能遇到人多,排队麻烦,看医生排队排半天,两句话就结束了,没有详细问诊,怀疑医生是否专业和认真。

  • 在看病的时候,希望有一个智能问答助手,可以根据我的病症,耐心的给出回答,基于历史数据给出档案。
    看病,想要排队,医生看症状根据症状去做检查,再给出治疗方案。机械式的流程,医生是根据数据给出的治疗方案,机器人可以学习历史数据,根据患者给的症状,判断检查方式,再根据检查结果判断病情和治疗方案。可以完成医生代替看病。

  • 通过机器人,代替看病。当手里有一个医院的病例就诊数据,包含病名、病的解释、看的科室、预防、处理方式、 注意事项、症状、药物治疗、治疗时间、花费、检查事项,宜吃、不宜吃,等如下图所示。

  • 只要有数据就能创造如下的图谱,只要有病人来了,就能描述其症状,通过症状找到与什么疾病有关系,应该看哪个科室,做什么检查,应该吃什么药。
    《知识图谱的入门到实践》01 深入知识图谱_第3张图片
    构建出来图谱,再构造一个问答助手,帮助回答患者的问题。
    《知识图谱的入门到实践》01 深入知识图谱_第4张图片>《知识图谱的入门到实践》01 深入知识图谱_第5张图片根据收益最大,损失最小,可以找到最优决策。知识图谱是用历史数据构建的,既包含了关系,也包含了数据之间的规律。
    根据历史数据可以查到很多先验的知识。 可以辅助决策

2.2 知识图谱在金融领域应用-风控模型

如果大量的用户借钱不还,金融公司就倒闭了。
假如A,B,C,三个人有关系,C进入黑名单,那么AB两人可能也借了不还。
借不借一个人钱,不光是个人属性的基本信息,还应该考虑其综合的行为和关系网络。
《知识图谱的入门到实践》01 深入知识图谱_第6张图片
《知识图谱的入门到实践》01 深入知识图谱_第7张图片

推荐系统
分析喜好的电影实体的关系,基于关系找到其他实体,推荐可能喜欢的给用户
《知识图谱的入门到实践》01 深入知识图谱_第8张图片

3.数据的获取

  • 知识图谱利用的数据最多都是文本数据,也可以建非结构化的数据转为文本的结构化数据。
  • 数据太庞大,一般都需要自然语言处理的技术进行文本的实体抽取。
  • 命名实体识别,就是要从文本中抽取出来所关注的信息,例如:时间、地点、事件、场景、人物等等
    《知识图谱的入门到实践》01 深入知识图谱_第9张图片
    公开的数据集,数据库。
    《知识图谱的入门到实践》01 深入知识图谱_第10张图片图片,文本,音频,视频数据。《知识图谱的入门到实践》01 深入知识图谱_第11张图片

4、知识图谱涉及的技术分析

实体抽取,关系抽取
《知识图谱的入门到实践》01 深入知识图谱_第12张图片
涉及的NLP技术:分句分词、词性标注(名词、形容词)、句法分析(主谓关系、动宾关系)、角色标注(找到事件的主角,动作,结果)。

  • 构建一个模型,在文本中提取出来想要的信息。就可以构建知识图谱了。
  • 命名实体识别实现在文本中找到我所关注的信息,简单的命名实体识别就是人、时间、地点、事件。而在医疗领域不仅仅关注这些,而是药物、症状、检查,需要重新训练模型,识别每个词属于那个标签。
    《知识图谱的入门到实践》01 深入知识图谱_第13张图片

回答下图中的问题的时候,需要命名实体识别,识别这个药是什么。通过规则匹配,返回对应的结果。通过识别实体,得到关系。
现成工具包虽然可以完成一定的任务,但是应用场景的不同,还是需要自己去做。《知识图谱的入门到实践》01 深入知识图谱_第14张图片

NER(命名实体识别)
创建一个实体,需要给实体打上标签,可以知道实体的类别。
通过NER对文本中的实体进行识别,打上标签,创建实体。
《知识图谱的入门到实践》01 深入知识图谱_第15张图片

抽取关系(非常困难)

  • 有实体之后,实体之间是有关系的,通过关系创建实体之间的联系。
  • 根据业务,把需要的关系提取出来,就需将设计规则,匹配出关系。
    《知识图谱的入门到实践》01 深入知识图谱_第16张图片

实体的统一,指代消解
不同的实体的名字可能是不一样的,但是是同一个实体。
《知识图谱的入门到实践》01 深入知识图谱_第17张图片

5.Graph-embedding

实现推理任务

  • 可以根据实体之间的关系进行推理,实现一些综合的任务。
  • graph embedding 图编码,将图谱实体进行向量编码,可以完成机器学习,神经网络中的预测和分类任务。
  • 可以将每一个节点都编码为一个向量,将每个节点的属性作为其特征,需要考虑节点自身的信息,还需要考虑和其他节点之间的关联的信息。
  • embeddin就是将图中的每个节点都找到一个合适的编码向量,关系近的向量就近一点,关系远的向量就远一点。
    《知识图谱的入门到实践》01 深入知识图谱_第18张图片

5.1 金融领域图编码实例

只要用到图模型,肯定需要graph_embedding.基于图去做特征

  • S1-S9之间有交互,将S1编码为一个向量,一开始可以做一个随机的初始化的向量。
  • 图节点中的编码和一句话的编码类似,和说一句话类似都有顺序,句子当中一个词的编码需要考虑其上下文再进行编码,节点的编码就需要考虑其上下文的节点顺序进行编码。
    《知识图谱的入门到实践》01 深入知识图谱_第19张图片《知识图谱的入门到实践》01 深入知识图谱_第20张图片
    《知识图谱的入门到实践》01 深入知识图谱_第21张图片

5.2 视觉领域图编码实例

图卷积模型

  • 不基于整个人提取特征,而是基于局部特征提取特征,将局部特征和整体特征的融合。
  • 人是由于关节点组成,提取出来所有的关节点的特征提取出来了,将不同节点连接在一块形成图模型。
  • 形成图模型以后,构建某一个节点的特征,不能光考虑其单一一个节点的特征,应该考虑与其相互连接节点的特征。
    图匹配,当某些部位被挡住了,不能做一对一节点的匹配,可以转换为一对多的匹配。
    《知识图谱的入门到实践》01 深入知识图谱_第22张图片

《知识图谱的入门到实践》01 深入知识图谱_第23张图片

5.3知识融合

在图谱中希望有大量的信息,可以将大量的非结构化(图片,视频)的数据,都作为数据,转化为图谱的节点。

知识融合:将所有类型的数据都做成向量,融入到图谱中。
《知识图谱的入门到实践》01 深入知识图谱_第24张图片
在知识图谱中可能更偏重于业务。熟悉业务才能设计实用的知识图谱。
《知识图谱的入门到实践》01 深入知识图谱_第25张图片
《知识图谱的入门到实践》01 深入知识图谱_第26张图片
《知识图谱的入门到实践》01 深入知识图谱_第27张图片

你可能感兴趣的:(知识图谱,知识图谱,人工智能,机器学习)