知识图谱的搭建一般流程

  • 数据获取
    一般在数据获取之前会先做个知识建模,建立知识图谱的数据模式,可以采用两种方法:一种是自顶向下的方法,借助开源的结构化数据,专家手工编辑形成数据模式;另一种是自底向上的方法,基于行业现有的标准进行转换或者从现有的高质量行业数据源中进行映射。数据建模都过程很重要,因为标准化的 schema 能有效降低领域数据之间对接的成本。
    数据类型:1.结构化数据,如关系型数据库;2.非结构化数据,如图片,音频,视频;3.半结构化数据,如XML,JSON,百科
    数据的来源:CN-DBpedia(百科数据)+爬虫(可以用分布式爬虫scrapy+redis)
    信息抽取:分词,词过滤,词向量,实体命名,关系抽取,实体消歧,
  • 数据存储
    • 知识图谱(同数据库)的设计:要考虑公司业务将来的发展 ---->存放图形数据库
      • 需要确定的实体,关系,属性
      • 哪些属性可以作为实体?哪些实体可以作为属性?
      • 哪些信息不需要放在知识图谱
      • 业务原则:例如根据打电话的用户关联与用户在银行相关的所有信息,进行对客户办理业务的风控等
      • 分析原则:知识图谱中的任何一个实体都是为关系分析而服务,如果实体对分析网络无帮助,可以设置成属性或者不放在知识图谱中
      • 冗余原则:知识图谱中会存在一些节点(超级节点)跟大部分节点存在链接关系,意义不大的可以不要,会影响查询效率。例如:性别–>男,所有男性用户都会与这个节点有链接,可以把“男”放到用户属性里面。
      • 效率原则:知识图谱只存关键信息,剩下的存到传统数据库。把经常需要收到的信息放到知识图谱,不常用的信息放到传统数据库
    • 通过RDF(资源描述框架)这样的规范存储格式来进行存储
    • 公司业务表+SPO(三元组表)
  • 知识图谱的架构
    • 架构类型:逻辑架构
      • 逻辑架构分为两个层次:数据层和模式层
      • 模式层:数据层之上,知识图谱核心,存储体联的知识,通过库进行管理
      • 数据层:存储真实的数据
      • 例子:模式层:实体-关系-实体,实体-属性-性值
        数据层:比尔盖茨-妻子-梅琳达·盖茨,比尔盖茨-总裁-微软
    • 架构类型:技术架构

      • 首先数据可能是结构化,非结构化,半结构化----->用这些数据构建知识图谱(通过一系列自动化半自动化技术手段提取知识)----->将得到的实体与关系存入知识库的模式层和数据层
      • 知识图谱的迭代更新
        • 信息抽取:从各种类型的数据源中提取实体,属性,关系。从而形成本体化的知识表达
          1. 实体抽取,即命名实体识别(NER)。从文本数据集中自动识别出命名实体。
          2. 关系抽取,将抽取到的离散命名实体,为了得到语义信息,还需要从相关语料中提取实体之间的关联关系,通过关系将实体联系起来,形成网状知识结构。相关学习内容:
            • 人工构造语法和语义规则(模式匹配);
            • 统计机器学习方法;
            • 基于特征向量或核函数的有监督学习方法;
            • 研究重点转向半监督和无监督;
            • 开始研究面向开放域的信息抽取方法;
            • 将面向开放域的信息抽取方法和面向封闭领域的传统方法结合
          3. 属性抽取:从不同信息源中采集特定实体的属性信息,如某明星,可以从网络公开信息中得到昵称,生日,国籍,教育等信息。相关学习:
            • 将实体的属性视作实体与属性值之间的一种名词性关系,将属性抽取任务转化为关系抽取任务
            • 基于规则和启发式算法,抽取结构化数据
            • 基于百科类网站的半结构化数据,通过自动抽取生成训练语料,用于训练实体属性标注模型,然后将其应用于对非结构化数据的实体属性抽取
            • 采用数据挖掘的方法直接从文本中挖掘实体属性和属性值之间的关系模式,据此实现对属性名和属性值在文本中的定位
        • 知识融合:在获得新知识后,需要进行整合,消除矛盾和歧义,比如某些实体可能有多种表达。主要工作:实体链接,知识合并
          1. 信息之间的关系是扁平化的,缺乏层次性和逻辑性。知识中还存在大量冗杂和错误的信息。
          2. 实体链接:将文本中抽取到的实体对象链接到知识库中对应的正确实体对象的操作。基本思想是根据给定的实体指称项,从知识库中选出一组候选实体对象,然后通过相似度计算将指称项链接到正确的实体对象。相关知识:
            • 既要将从文本中抽取道德实体链接到知识库中,也要考虑同一文档的实体间存在的语义联系
            • 关注利用实体的共现关系,同时将多个实体链接到知识库中,即集成实体链接(collective entity linking)。实体链接流程:
              • 从文本中通过实体抽取得到实体指称项;
              • 进行实体消歧和共指消解,判断知识库中同名实体与之是否代表不同含义,以及知识库中是否存在其他命名实体与之表示相同的含义
              • 在确认知识库中对应的正确实体对象之后,将该实体指称项链接到知识库中对应实体
              • 实体消歧是专门用于解决同名实体产生歧义问题的技术,通过实体消歧,就可以根据当前的语境,准确确立实体链接,实体消歧技术主要采用聚类法。其实也可以看做基于上下文分类问题,类似于词性消歧和词义消歧。
              • 共指消解技术主要是用于解决多个指标对应实体对象的问题。在一次会话中,多个指称可能指向的是同一实体对象。利用共指消解技术,可以将这些指称项关联(合并)到正确的实体对象,该问题在信息检索和自然语言处理等领域具有特殊的重要性。共指消解还有一些其他的名字:对象对齐,实体匹配和实体同义
          3. 知识合并:前面介绍的实体链接是从半结构化和非结构化数据那里通过信息抽取的数据,还有个数据来源-----结构化数据(比如外部知识库和关系型数据库)。知识合并有两种:
            • 合并外部知识库,主要处理数据层和模式层的冲突
            • 合并关系型数据库,有RDB2,RDF等方法
        • 知识加工:对于经过融合的新知识,需要经过质量评估之后(部分需要人工),才能将合格的部分加入到知识库中。知识加工主要包含三个内容:本体构建,知识推理和质量评估
          1. 本体构建

            • 本体是指工人的概念集合,概念框架,如“人”,“事”,“物”等。
            • 本体可以采用人工编辑的方式手动构建(借助本体编辑软件),也可以以数据驱动的自动化方式构建本体。因为人工方式工作量巨大,且很难找到符合要求的专家,因此当前主流的全局本体库产品,都是从一些面向特定领域的现有本体库出发,采用自动构建技术逐步扩展得到的。
            • 自动化本体构建过程包含三个阶段:1,实体并列关系相似度计算;2,实体上下位关系抽取;3,本体生成。
              举例说明:第一步作用:当知识图谱刚得到“阿里巴巴”、“腾讯”、“手机”这三个实体的时候,可能会认为它们三个之间并没有什么差别,但当它去计算三个实体之间的相似度后,就会发现,阿里巴巴和腾讯之间可能更相似,和手机差别更大一些。第二步作用:知识图谱实际上还是没有一个上下层的概念,它还是不知道,阿里巴巴和手机,根本就不隶属于一个类型,无法比较。因此我们在实体上下位关系抽取这一步,就需要去完成这样的工作。从而就生成了第三步的实体。
          2. 知识推理

            • 本体构建只是搭建了知识图谱的雏形,但知识图谱之间大多数关系都是残缺的,缺失值非常严重,这时就要使用知识推理技术。
            • 注意:知识推理的对象也并不局限于实体间的关系,也可以是实体的属性值,本体的概念层次关系等。
              举例说明:
              推理属性值:已知某实体的生日属性,可以通过推理得到该实体的年龄属性;
              推理概念:已知(老虎,科,猫科)和(猫科,目,食肉目)可以推出(老虎,目,食肉目)
            • 算法主要分类:基于逻辑的推理,基于图的推理和基于深度学习的推理
          3. 质量评估

            • 质量评估也是知识库构建技术的重要组成部分,这一部分存在的意义在于:可以对知识的可信度进行量化,通过舍弃置信度较低的知识来保障知识库的质量。
        • 知识更新
          • 知识库的更新包括概念层的更新和数据层的更新
            概念层的更新是指新增数据后获得了新的概念,需要自动将新的概念添加到知识库的概念层中。
            数据层的更新主要是新增或更新实体、关系、属性值,对数据层进行更新需要考虑数据源的可靠性、数据的一致性(是否存在矛盾或冗杂等问题)等可靠数据源,并选择在各数据源中出现频率高的事实和属性加入知识库
          • 知识图谱的内容更新有两种方式:
            全面更新:指以更新后的全部数据为输入,从零开始构建知识图谱。这种方法比较简单,但资源消耗大,而且需要耗费大量人力资源进行系统维护;
            增量更新:以当前新增数据为输入,向现有知识图谱中添加新增知识。这种方式资源消耗小,但目前仍需要大量人工干预(定义规则等),因此实施起来十分困难。
  • 知识图谱的应用
    • 图挖掘的算法分析
    • 从复杂网络中推导各种现象/应用场景
      • 智能搜索——也是知识图谱最成熟的一个场景,自动给出搜索结果和相关人物
        构建人物关系图,查看更多维度的数据
      • 反欺诈:这主要有两部分原因,一个是反欺诈的数据来源多样,结构化和非结构化,二是不少欺诈案件会涉及到复杂的关系网络
      • 不一致性验证(类似交叉验证)——关系推理
      • 异常分析(运算量大,一般离线)
        • 静态分析:给定一个图形结构和某个时间点,从中去发现一些异常点(比如有异常的子图)。
        • 动态分析:分析其结构随时间变化的趋势。(假设短时间内知识图谱结构的变化不会太大,如果它的变化很大,就说明可能存在异常,需要进一步的关注。会涉及到时序分析技术和图相似性计算技术。)
      • 失联客户管理挖掘出更多的新联系人,提高催收的成功率。
        知识图谱的搭建一般流程_第1张图片
        知识图谱的搭建一般流程_第2张图片

你可能感兴趣的:(先人工再智能,自然语言处理,数据库)