I. 知识图谱 --- 知识图谱的应用案例

I. 知识图谱的应用案例

电商知识图谱的构建与应用

  • 业务背景
    • 复杂购物场景:新零售、多语言、线上线下相结合
    • 电商交易逐渐转变为集B2C、B2B、跨境为一体,覆盖“实物+虚拟”商品,结合跨领域搜索发现、导购、交互多功能的新型电商交易
  • 与通用知识图谱的区别
    • 首先,电商知识图谱的核心是商品。整个商业活动中由品牌商、平台运营、消费者、国家机构、物流商等多角色参与。相对于网页来说,数据的产生、加工、使用、反馈控制得更加严格,约束性更强。
    • 其次,电商数据的结构化程度相对于通用领域来说做的更好。
    • 再次,面向不同的消费者和细分市场,不同角色、不同市场、不同平台对商品描述的侧重都不同,使得对同一个实体描述时会有不同的定义。知识融合就变得非常重要。
    • 最后,与通用知识图谱相比较而言,电商知识图谱有大量的大量的国家标准、行业规则、法律法规对商品描述进行着约束。存在大量的人的经验来描述商品做大跟消费者需求的匹配,知识推理显得更为重要。
  • 案例 — 阿里巴巴
    • 思路:以商品为核心,以人、货、场为主要框架
      • 目前共涉及9大类一级本体和27大类二级本体
        • 一级本体:人、货、场、百科知识、行业竞争对手、品质、类目、资质和舆情
        • 人、货、场构成了商品信息流通的闭环,其他本体主要给予商品更丰富的信息描述
        • 目前有百亿级的节点和百亿级的关系边
    • 数据来源
      • 主要是知识众包,其中关键就是知识图谱本体设计。
        • 在设计上要考虑商品本身,又要考虑消费者需求和便于平台运营管理
        • 另一个核心工作是要开发面向电商各种角色的数据采集工具,例如面向卖家的商品发布端
      • 另一个来源是文本数据,例如商品标题、图片、详情、评价、舆情中的品牌、型号、卖点、场景等信息。这就要求命名识别系统具有跨越大规模实体类型的识别能力,能够支持电商域数据、人机语言交互自然语言问题以及更广泛的微博、新闻等舆情域数据的识别,并且把识别出的实体与知识图谱链接,特别是商品属性和属性值涉及上千类别的实体类型。主要包括:
        • 商品域:类目、产品词、品牌、商品属性、属性值、标准产品。
        • LBS域:小区、超市、商场、写字楼、公司。
        • 通用域:任务、数字、时间。
      • 对知识图谱实体描述,除了基础的属性和属性值,很多是通过实体标签来实现的。相对来说,标签变化快,易扩展。很大一部分这类知识是通过推理获得的。例如,在食品标签生成中,知识推理通过食品的配料表数据和国家行业标准,如:
        • 无糖;
        • 无盐

图情知识图谱的构建与应用

  • 业务背景
    • 聚焦某一个特定细分行业,以整合行业内屠屏资源为目标的知识图谱
    • 提供知识搜索、指示标引、决策支持等形态的知识应用,服务于行业内的从业人员、科研机构及行业决策者
  • 思路
    • 一般采用自顶向下的方式进行知识建模,通常从资源型数据入手,整理出资源的发表者、发表机构、关键词、发表载体等类型的实体及各自之间的关系,同时通过人物、机构的主页进行实体属性的扩充。
  • 数据源主要包括:
    • 第一类:知网、专利局等文献类网站
    • 第二类:开放通用数据,包括百科类网站以及DBpedia等开发链接数据集
    • 第三类:行业垂直的新闻门户
    • 第四类:行业内企业和科研机构积累的既有数据

生活娱乐知识图谱的构建与应用:以美团为例

  • 业务背景
    • 知识图谱能够打破不同场景下的数据隔离
    • 美团点评作为在线本体生活服务平台,覆盖了餐饮娱乐领域的众多生活场景,连接了数亿个用户和数千万家商店,积累了宝贵的业务数据,蕴含着丰富的日常生活相关的知识。
  • 数据来源
    • 原始数据
      • 美团点评积累了40亿的公开评价数据、3450万全球上家数据、1.4亿店菜数据以及10万个性化标签
    • 数据处理
      • 以商户、商品、用户等为主要实体,其基本信息作为属性,商户与商品、与用户的关联为边,将多领域的信息关联起来,同时利用评论数据、互联网数据等,结合知识获取方法,填充图谱信息,从而提供更加多元化的知识。
      • 采用统计语言模型、主题生成模型以及深度学习模型等各种模型,对商家标签、菜品标签、情感分析进行挖掘。
      • 其次对评论标签聚合,主要采用知识图谱推理技术与标签相结合的方式
      • 接下来,为了更精确地匹配菜品,丰富商户信息,需要对菜品标签进行挖掘。
      • 最后对评论进行情感挖掘,对每一个用户的评论进行分析,分析出用户的一些情感的倾向。
  • 主要业务应用有
    • 智能搜索
    • ToB商户赋能
    • 金融风险管理和反欺诈

企业商业知识图谱的构建与应用

  • 业务背景
    • 中国企业数量十分庞大,数据多源,需要构建统一的企业商业知识图谱
    • 企业商业知识图谱包括企业、任务、专利等实体类型,以及任职、股权、专利所属权等关系类型,以完善企业及个人画像,助理企业潜在客户获取、客户背景调查、多层次研究报告、风险管控;辅助发现不良资产、企业风险、非法集资等
  • 数据来源
    • 半结构化的网页数据:包括全国企业信用信息公示系统、中国裁判文书网、中国执行信息公开网、国家知识产权局、商标局、版权局等
    • 文本数据:如投招标信息公告、法律文书、新闻、企业年报等

创投知识图谱的构建与应用

  • 业务背景
    • 聚焦于工商知识图谱的一部分数据内容,旨在展示企业、投融资时间、投资机构之间的关系
  • 思路
    • 核心是投资,主要描述创业企业与投资机构之间以投资为主线的多种关系。
    • 创投领域Schema中设计的概念主要包括初创公司、投资机构、投资人、公司高管、行业以及投融资事件等。
    • 融资事件是创投的核心,不同于实体节点,融资事件描述的是一个事实,具有抽象性。
  • 数据来源
    • 主要来源于虎嗅、IT桔子、36Kr等科技型媒体
  • 典型问题
    • 数值属性表示不一致,例如金额的阿拉伯数字与中文写法的区别
    • 实体同义,例如企业的全称与简称
    • 不同数据源中的数据冲突
  • 信息存储方式
    • 在传统三元组的基础上加入其它描述字段,存储时间、轮次等信息
    • 通过匿名节点存储事件,把时间、地点等相关信息作为事件节点的属性

中医临床领域知识图谱的构建与应用

金融证券行业知识图谱应用实践

  • 业务背景
    • 传统金融数据服务商历时数十年,已收集整理了大量高质量的结构化数据,并分门别类地展示给用户。
    • 如何有效地使用这些数据,需要用户具备专业的金融经济知识,深刻理解某个数据的变动可能引发的关联、传导效应,从而帮助用户做出各种投资决策。
  • 图谱建设步骤
    • 从海量异构非结构化数据中辨别金融实体
    • 定义并挖掘金融实体之间的各种关系,从而生成知识图谱
    • 定义并表达业务逻辑,在知识图谱上实现各种具体任务,如推理等

你可能感兴趣的:(人工智能)