知识图谱的本质是揭示实体之间关系的语义网络。利用实体和关系来表达客观世界的对象以及不同对象之间存在的关系,提供了组织、管理和理解海量非结构化信息的能力,且对信息的刻画方式更接近于人类认知世界的形式。例如,实体“《静夜思》”和实体“李白”之间存在关系“创作者”,其结点代表实体(Entity)或者概念(Concept),边代表实体或概念之间的各种语义关系。
由于互联网数据存在着多元异构性和高度动态性,并且内容丰富涉及范围广,不同的数据之间存在复杂的关联性。因此传统的数据存储、管理和查询模式已经无法满足当今人们对知识的需求。开发者希望能够从海量互联网数据中获取并管理有效的信息,同时让计算机自动理解并分析网络数据中的内容,从而准确、高效的挖掘数据资源中所蕴含的价值信息。知识图谱技术的提出为更好地组织、管理和理解互联网中的海量信息提供了一种行之有效的解决方案,其知识表达的方法也更接近人类认知世界的形式。
现有的视频目标信息挖掘主要还是人工操作,大部分摄像头所录制的视频只有经过人眼查看才能发现视频中的有效监控信息,面对海量的视频,有限的人力很难避免遗漏视频中的一些重要信息,且耗费了大量的人力,没有展现出很好的智能性。如何基于海量的视频,构建一套自动化方法,对视频进行信息提取,挖掘视频中潜在的有效信息,是当今智能化时代的趋势。
基于视频知识库的构建是一个创新性的方法,能够对大量的视频自动化地提取有效信息,知识图谱是基于文本的知识库的构建,视频图谱在监控视频上构建语义信息。视频图谱有很高的实际应用价值,比如在公安领域,通过构建视频图谱,能够挖掘出频繁同行的犯罪团伙;在住宅小区或者工厂等小型区域,可以区别常驻人员和外来人员。视频图谱的构建和挖掘研究大大降低了人力成本,系统性地构建了监控视频中的行人、车辆、物品等关系模型,可用于快速信息检索等方面。因此,研究一种基于监控视频的视频图谱构建和挖掘方法具有很高的价值。
在知识图谱发展的早期阶段,知识的来源主要依赖于各种百科全书、网络词典文集和百科网站等结构化数据,并且通过人工协作的方式构建完成,期间具有代表性的工作包括YAGO,DBpedia和Freebase等知识库。由于知识图谱技术的快速普及与应用,少量的结构化数据已无法满足人们的需求,因此现阶段知识图谱中的数据来源主要是互联网海量纯文本等非结构化信息,并采用开放域信息抽取技术自动构建,代表性成果包括谷歌公司的KnowledgeVault和卡耐基梅隆大学的NELL(Never-EndingLanguageLearning)项目等,相关成果如下图
国外在知识图谱的构建方面获得的重要进展主要为谷歌公司所开发的Knowledgevault,将维基百科作为基础的Freebase以及DBpedia,其中Freebase将维基百科作为数据来源,并从中抽提结构化数据,借助人工编制的形式完成了2000余万条实体的构造,逐渐成为了Google知识图谱重要构成内容。DBpedia则是由莱比锡大学与曼海姆大学共同开发的跨语言知识库,同样将维基百科作为基本数据来源,使用固定模式将结构化信息抽提出来,采用关联的形式发布信息。DBpedia具备了4000余万条实体和5亿件事实信息。国内当前所发布知识图谱产品包含了百度知心、搜狗知立方以及清华大学所开发的XLore、上海交大开发的Zhishi.me等。
以上这些知识库都是基于网页中的文本数据构建而成的,只能够回答关于文本中的一些相关问题。一些学者也尝试为图像构建知识库,如斯坦福大学李菲菲团队构建的VisualGenome知识库,其使用“众包”方式对108249个图像进行解析,提取了420万个区域描述、170万个可视问答、210万个对象实例、180万个属性和180万个关系。基于该知识库,构建一系列的智能检索和分析应用,如基于场景图(SceneGraph)的图像检索、可视自动问答。和图像标题自动生成等。
现有的知识库主要面向文本数据,面向图像的只有VisualGenome,而面向监控视频数据的知识库仍然空缺。知识库是对原始数据进行语义理解和分析之后的中间结果,相对来说,面向文本的知识库构建更为容易,而图像和视频数据的知识库构建难度更大。鉴于监控视频大数据的数据量之大,很难像VisualGenome一样用“众包”方式构建,因而需要用自动化方式对监控视频进行解析。此外,知识库是为上层智能分析和查询服务,因此面向监控视频大数据的知识库需要紧扣监控视频分析应用需求。
目前知识图谱的构建技术研究基本还是针对文本信息,自然语言的研究。
在进行文本处理之前,需要进行命名实体识别,此时要用到命名实体识别技术,这是自然语言处理的前置任务。伴随着大数据技术以及人工智能技术的持续发展,研究者对于命名实体识别任务所开展的研究工作日益增多,相关技术获得了持续发展,并取得了突出成绩。在应用不断深入的背景下,命名实体识别慢慢成为情感分析、语义检索、自动问答以及机器翻译等研究工作的前提和基础。比如如何从大量非结构化语料文本中自主、精确的将命名实体抽提出来,已经成为了国内外学术界关注的焦点。国外在很早之前就开始了对命名实体识别的研究,并不断深入。目前,国外学者所开展的研究工作更加倾向于采用监督、半监督机械学习方法识别用英文语料文本,针对规则、方法所开展的研究工作已经非常少见。在英文语料文本的识别中经常采用的模型、方法包括了最大熵模型、隐马尔可夫模型、决策树、条件随机等。不同于英文语料文本,中文识别难度较大,国内学者从国外研究成果中抽提出了有效的方法,结合中文的实际情况,对其展开了有效地探索。经常使用的方法通常是人工从语料当中抽提出特征,结合数学模型对其命名实体识别。从研究成果上看,俞鸿魁等人创造性的给出层叠隐马尔可夫模型,把多种实体类型识别融入到了具体的数学模型中,最终结果表明其能够更加容易的发现未登录实体,同时对于复合实体的识别也有一定的促进作用。周俊生将中文实体前后缀作为特征,将条件随机场方法作为基础,对人民日报语料展开了分析,并获得了良好的结果。随着研究的不断深入,更多实验结果表明,条件随机场也能够用于识别中文命名实体,把条件随机场作为前提与基础的命名实体识别技术开始受到了学术界的普遍肯定。
在上世纪九十年代,MUC-7率先公布了实体关系抽提相关研究任务,其被看做是信息抽取子任务。伴随着MUC停办,ACE会议完全接替了MUC内容,继续研究以预料文本作为基本内容的自动抽取方法。ACE工作核心为信息抽取,在实际工作的开展进程中需要不断地拓展工作牵涉到的各个领域及不同的语言。这两个会议对于自然语言处理任务中信息抽提的进一步发展有着积极的推动作用。在人工智能、大数据等相关技术的发展背景下,人们将更多的关注点集中在信息抽提技术层面,并且将其看做是信息抽取工作的前置任务,关系抽取也开始得到了诸多学者的广泛关注,他们为了完善与健全关系抽取理论而源源不断地投入精力,共同推动抽提技术的有序发展,在实际应用中广泛应用关系抽取研究成果。关系抽取的对象为非结构化语料文本,目前研究方法包含了基于模型匹配、机器语言以及语义网络等诸多内容。ChinatsuAone等人借助模式匹配思想构建了关系抽提系统,通过人工编写关系抽取规则,保证了文本和抽取规则之间的匹配度,得到了实体关系实例。该系统采用了相对灵活的架构模块,利用规则、模块不断地修改、完善该系统。RomanY构造了Proteus系统,其是一种基于样本泛化的关系抽取模式,用户可以对存在特定类型关系demo展开分析,总结关系特征,并且把关系特征抽象为特定的模型,该系统可以获得良好实验效果。
调研基于知识图谱的视觉目标关系建模的应用
关键词:挖掘视觉目标潜在语义关联,建立多元化的目标关系图谱,基于知识图谱实现对目标的更高效理解与表达。
先将监控视频中识别到的罪犯主体的信息标注为词汇,将监控图像中的罪犯信息细分为人名、机构名、地名、时间、日期、货币、交通工具和武器等实体。实体识别分人工识别和自动识别。人工识别相对准确,但效率低,仅适用少量样本的处理。自动识别分为两大类:基于规则的实体识别和基于机器学习的实体识别,机器学习识别又分为基于特征和基于神经网络。基于规则的方法适用于英文环境,国外早期系统均采用此法。基于词典方法依靠匹配规则简单有效,对中文支持较好,但构建词典耗时耗力。机器学习方法则利用已标注的语料库训练模型,使用特定字或词命名实体整体或部分。其后,基于LSTMCRF的深度学习被用于实体识别。由于任务和需求不同,实体识别的粒度也不同。实体识别粒度越小则难度和开销越大,但指导意义更大。当前,困扰实体识别的要素包括实体命名形式多变、语言环境复杂和实体存在歧义等。
由于形式和语义复杂,实体识别后需进行一致性校验,即实体消歧。其原因在于:同一实体可能有不同的称谓,同一名称可能表示不同的实体。消歧的一般方法为有监督的机器学习。分类方法通过构建正负实例、指称-实体对等形式通过有监督方式进行学习,获取二元分类模型以实现实体消歧。机器学习排序方法分三类,PointWise使用近似回归模型计算候选匹配实体的得分并排序,得分越高则越倾向为同一实体;PairWise将候选项匹配成对,利用项与项间的相对位置关系构建训练样本,采用分类方法训练排序感知机实现消歧;ListWise则将査询结果排序列表视为训练实例,利用ListNet算法训练排序模型进行消歧。基于图的方法将情报中的实体指称及其候选实体构成图结构,利用两者的关联完成协同消歧。混合模型综合运用多种模型获得各自消歧结果,最后通过比较得到最优结果,效果好于单模型。实体消歧过程要避免实体的遗漏和流失,以免数据失真。
实体关联是构建犯罪知识图谱的核心环节,将监控信息从画面和文字层面上升到内容层面。在犯罪情报方面,实体关系主要体现人(组织)、物或事为中心的两方或多方关联,需要时还可加入时间或地点。其难点在于同一关系表述不同、关系涉及实体多、同一词汇标注表达不同关系和存在隐性关联等。基于模板的方法是关系抽取的传统方法,根据实体指称的画面上下文关系参照模板提取关系。基于机器学习的方法分为有监督学习和弱监督学习两类。有监督学习方法通过分类算法学习人工标注的实体指称关联样本进行模型训练,形成语义关系分类器用于关系提取。基于弱监督学习方法以距离监督为假设,对人工标注的部分图谱三元组样本进行学习以形成分类器,进而自动完成其他内容的关系抽取。Hasegawa等提出基于无监督技术的关系抽取,按实体特征进行全连通聚类,通过关系相似性确定实体关系的类型。视频、图片、语言等类型的情报信息直接进行关系抽取将是今后的发展方向。
基于图谱的犯罪信息搜索传统的信息检索通过关键字匹配方式完成查找,未考虑关键字的语义和上下文关系,检索质量不高。基于知识图谱的实体检索同时考虑语义相似性和结构相似性,计算每个实体相关的三元组与用户查询之间的相关度,排序后得到候选实体。此外,知识图谱作为一种存在逻辑结构的有向连通图,可通过图模型进行建模检索,用检索对象的特征建立子图并构建图谱的图索引,通过子图筛选技术实现犯罪信息检索。当检索目标较复杂时可综合多个图谱进行搜索,基于图谱的问答技术用于提高搜索效果。基于词典-文法的语义解析方法通过分析问句,构建由节点、边和操作符组成的语义图,视其为图谱子图并映射到图谱中,通过图匹配完成检索。目前,基于知识图谱的简单问题检索基本成熟,但深层挖掘问题、大规模搜索和长尾问题等仍待研究。
基于图谱的案件推理知识图谱的结构化形式是其强于数据库的最大优势,支持信息推理,可用于情报的补齐、质检和挖掘,辅助研判。知识图谱推理着眼实体和关系,进行演绎推理和基于归纳的推理,由已有信息推断未知信息。归纳推理用于推理具体事实,利用逻辑规则获得某个事件的过程;演绎推理则着重提取知识图谱中的逻辑规则。演绎推理包括基于谓词逻辑的关系推理、基于概率逻辑的规则提取和基于随机游走的规则挖掘等。归纳推理包括基于置信规则推理的关系预测,基于路径的关系推理等。知识图谱推理技术可辅助事件规律挖掘、人员画像构建、特定群体发现、人物关系梳理等犯罪情报分析。
知识图谱构建过程包含信息抽取、知识融合、知识加工。信息抽取从非结构化和半结构化数据中抽取实体、关系、实体属性,知识融合和知识加工对已有的信息进行语义消歧和知识推理等。视频图谱的构建与知识图谱类似,也是一个迭代的过程,采用自底向上的构建方式,为了实现摄像头下的行人人脸特征的快速提取,采用深度卷积神经网络,对提取后的特征进行聚类,就能得到每个行人唯一的身份。为了存储自动提取的信息,需要设计一个结合图数据库的存储方式,采用图数据库Neo4j进行实体、属性和关系数据的存储。节点作为实体,表示行人或者摄像头,边作为关系,表示行人之间、行人与摄像头之间的关系,属性作为实体的属性信息。
视频图谱包含三个基本要素:节点、边和属性,其中节点可以表示对象(如视频文档、视频中的人、车和物品),边表示对象间的关系,节点和边均可以有多个属性。以行人为例,行人可以经过多个摄像头,对行人出现的时间、行人的特征信息进行记录,可以挖掘行人之间的共现关系。视频图谱整体框架如下图所示。
视频图谱由多个视频对象组成,也可以用摄像头表示,表示一段监控视频或者一个摄像头。视频中出现的行人、车辆等信息通过自动化提取方法提取出来,并且极记录行人、车辆的相关信息,例如行人编号信息、出现的时间信息,作为行人的属性信息表示在图谱中。通过共现关系分析,找到图谱中具有共现关系的行人,也可以进而通过关系的连接,找出对应的团伙。
基于监控视频的视频图谱的构建总体流程如下图所示。总共分为以下几个模块:人脸检测及特征提取、人脸聚类、实体关系存储、共现关系发现、图谱展示。
(1)人脸检测及特征提取模块包括:使用深度学习的方法检测摄像头视频流中的行人,提取行人的人脸特征等;
(2)人脸聚类模块包括:使用基于密度的DBSCAN算法将检测到的人脸聚成不同的类别,分配不同的cluster_id等;
(3)数据存储模块包括:使用图数据库Neo4j存储监控视频中出现行人实体的信息,以及和摄像头之间的出现关系等;
(4)共现关系发现模块包括:计算给定摄像头范围、给定时间阈值条件下的行人之间的共现关系等;
(5)图谱展示模块包括:使用前端展示框架展示视频图谱的样貌,提供交互式检索框等。
视频图谱的自动化构建的基础是行人人脸检测和人脸特征提取,对于海量监控视频,将视频中出现的行人自动检测并提取出来,作为视频图谱的行人实体。如下图所示,从监控摄像头中读取视频流并提取视频的关键帧,只关注关键帧是为了避免不必要的检测,能够视频中减少人脸检测的次数,提高系统的运行效率,间隔几帧进行人脸检测即可。人脸检测和对齐使用MTCNN网络,网络的输入是视频帧,输出为包含人脸框和人脸关键点的图像。使用MTCNN网络检测人脸包括图像金字塔、P网络、R网络、O网络四个步骤。图像金字塔的作用是得到不同尺寸的输入图像,剩下的三个网络依次串联,上一个网络的输出作为下一个网络的输入。对于检测后的人脸使用残差网络模型提取人脸的深度特征,残差网络的输入为上一步得到的对齐后人脸图像,输出为高维人脸特征。最后对特征进行聚类,将同一个人的不同人脸样本聚到相同的类,聚类方法采用基于密度的DBSCAN方法,类内部的距离较为紧密,类之间距离较远,同一个类中的人脸表示同一个身份的行人的不同时间被抓拍到的快照,不同类表示不同身份的行人,对每一个聚类进行编号,用来表示监控视频中行人的身份。
节点储存,图数据库中节点表示实体,在视频图谱中,实体有行人、摄像头等。所以节点分为:行人节点和摄像头节点。基于Neo4j的标签规则,指定行人节点的标签为Person,摄像头节点的标签为Camera。标签是Neo4j数据库的分类信息,通过标签可以方便快速进行匹配。
关系存储,图数据库中关系表示联系,视频图谱中,实体之间的联系是关键信息。关系建立在两个已知节点的基础上,关系分为单向关系和双向关系。在视频图谱中,有多种关系,例如行人和摄像头的关系,为出现关系,可以指定为单向关系,开始节点为摄像头节点,结束节点为行人节点;摄像头之间的关系为连通关系,指定为双向关系。
属性存储,图数据库中不仅实体包含属性,关系也有属性信息。属性既存在于节点中,也存在于关系中。Person节点中可以存储行人出现的时间、行人的快照、行人的人脸特征等信息,Camera节点中可以存储摄像头的一些静态信息,例如摄像头的编号、位置描述、经纬度等信息;对于关系,以行人和摄像头之间的关系为例,一个关系对应于行人出现在摄像头下的一次情况,存储时间、快照等信息。
在文献计量研究领域中,共同出现的特征项之间存在着某种关联,关联程度可以使用共现频次来评估。例如,通过分析一篇文章,要找到文章中两个人物之间的关系,一般认为,在同一篇文章中出现的两个人物的名字有一定的关联,统计全文出现的关联次数,可以构造任何两个人物之间的共现关系。视频图谱中,共现关系与上述描述类似,场景和实体有所不同,在多个实际场景中,一定范围的时间跨度内,不同行人被摄像头一起抓拍到,则认为他们之间有一定的联系。如下图所示,两人行人分别在时间上被相同的摄像头拍摄到,那么认为他们之间存在共现关系。
关联规则分析的目的是找出数据集之间各项之间的联系,常被称为购物篮分析。在监控视频图谱的场景中,如果根据大量的历史数据,分析出某个犯罪嫌疑人出现的情况下,其他犯罪同伙出现的概率,那么将发挥出视频图谱更深层次的作用,基于共现关系发现算法,进一步采用关联规则算法预测某一个行人出现的条件下,与之有关联的人出现的概率。关联规则分析的结果是规则的预测,规则是“如果…那么…”的形式,“如果”是条件,“那么”是结果。
关联规则分析首先被提出就是为了解决购物篮的问题,旨在找出大量商品购物之间的关联,后来被广泛应用与信息领域,而在如今的使用情境下,根据监控视频图谱的环境,使用关联规则的核心思路,找出适用于此环境的关联规则分析结果。Apriori算法作为关联规则分析的经典算法被广泛讨论,也是最早使用的关联规则算法;FP-Growth算法基于Apriori做了优化处理,通过构建一个FP-Tree来生成频繁项集,减少了磁盘的IO次数,提升算法的性能;当数据不断增长时,使用单机处理容易达到瓶颈,使用基于分布式的FP-Growth算法是理所当然的选择。
智能交通系统是一种先进的应用程序,指将各种先进的技术如大数据,信息通信技术,电子控制技术等各种集成到整个运输管理系统中,旨在提供与不同交通方式和交通管理相关的创新服务。随着电子器件、大数据和人工智能的发展,通过智能化技术来缓解交通拥堵情况已经是交通管理的趋势,同时传感器技术的进步产生了更高精度且可实时获取的交通数据,为交通状况的分析与预测提供了海量的数据支持。因此,如何针对多源异构的交通大数据,探索更加先进的方法对研究城市交通拥堵预测具有重要意义。
Ryo提出了一种基于信息科学中的频繁模式挖掘算法,从交通传感器数据中列举交通拥堵模式的方法,来了解城市当前的交通拥堵情况。该方法改进了频繁模式挖掘算法从而有效地挖掘时空相关的拥堵模式并预测拥堵。
Li提出了一种自适应数据驱动的实时拥堵预测方法。该方法包括基于自适应K均值聚类的交通模式识别算法,二维速度预测模型和自适应阈值校准方法。在主成分分析之后,进行自适应K均值聚类算法以获得不同的流量模式。利用自适应阈值校准方法实现拥堵识别,然后根据不同的流量模式提出拥堵预测。OnievaTM提出了一个实验研究,将机器学习方法应用于预测道路的拥堵程度。该研究旨在找出相关结论以及产生包含一组规则的模型,同时考虑清晰和模糊变体。所使用的方法显示出良好的性能,模型能够准确指示出拥堵的程度。
Wan设计了一种基于深度学习理论的拥堵预测模型来预测交通拥堵,分析了不同迭代次数和学习率对模型预测精度的影响。文章在现有研究的基础上,提取了交通拥堵的影响因素,如交通流量,天气和光线,并构建状态矩阵来表示交通流的状态,提出了基于CNN预测的交通拥堵模型,使用状态矩阵作为输入变量。
在国内研究方面,姚智胜和邵春福运用状态空间模型将拥堵问题转化为多点时间序列预测,构建多维自回归模型,模型参数使用EM算法估计,将道路多点的交通状态作为研究对象,并利用卡尔曼滤波进一步预测系统状态,在快速路上6个采样点的真实数据进行验证,自回归模型预测效果比卡尔曼滤波单点预测方法更好。
如今,城市交通方面的应用通常依赖于手动特征工程,这可能导致一些隐特征被忽视。例如,通常需要为城市计算中的机器学习任务构建和组合一些复杂的特征。然而,城市交通应用的复杂性和交通数据的多源异构形式使得特征构建任务极具挑战性。此外,大多数基于学习(机器学习、深度学习)的方法不能对提供预测结果的解释。从城市中的传感器和社交媒体中获得的数据里包含数百种能够被人类理解的概念。大城市中的每个区域都包含一些隐藏和固有的知识(例如,人口统计,兴趣点等)。
当仅仅只提供与区域有关的少数城市知识时,人类就可以对该区域进行评估并得到令人满意的结果。与此相反的是,基于学习的方法例如机器学习或者深度学习通常需要数干个具有复杂特征工程的标记实例才能达到类似的效果。所以组合城市知识和基于深度学习的方法来共同解决某些城市应用问题例如城市交通拥堵预测问题。
知识图谱这种结构化知识表示方法已经在搜索引擎中发挥了重要作用,并逐渐延伸到电商和医疗领域,电商知识图谱用于提升个性化推荐效果,医疗知识图谱用于辅助医疗和智能问诊。浙江大学的马晓蕾等人首次将知识图谱应用于商铺选址和交通事故推理问题中。从历史经验、地理知识和常识中得到的城市知识图谱在实际应用中起着意想不到的作用。
主要有两种方法构建知识图谱:一个是自上而下的,另一个是自底而上的。自顶而下的方法意味着需要定义本体和模式,并将知识实例添加到知识库中。这种方法强调明确定义的领域本体来表示知识图谱中的实际实例,从其他知识资源中抽取知识实例。自底而上的知识图谱构造是一个迭代的过程,包括知识获取,知识融合,知识存储和提取等,往往是从互联网多源数据中获取并于已有的结构化数据相融合并提取有用的知识。
近年随着“人工智能”概念的再度活跃,除了“深度学习”这个炙手可热的名词以外,“知识图谱”无疑也是研究者、工业界心目中的又一颗“银弹”。简单地说,“知识图谱”就是以图形的方式来展现“实体”、实体“属性”,以及实体之间的“关系”。知识图谱的主要目标是用来描述真实世界中存在的各种实体和概念,以及它们之间的关联关系。
通过对海量数据的感知、认知,搭建完整的知识体系,在此基础上,阐述知识图谱进行关系预测的基本原理和基本方法,开展基于关系的知识推理和预测分析。以模拟真实世界的人活动关键要素为依据的,构建信息资源模型,将参与的自然人、人通过各种方式社交构成的社交关系及相关联的事件等关键要素,结合相应的算法模型,进行显性关系和隐藏关系的挖掘和预测,并对人员实体关系分析预测进行可视化展示。
搭建知识图谱需从多种信息源获取实体或概念,以及他们之间的关联关系。知识图谱构建是否完备关键在于知识抽取引擎的构建,知识抽取细分为实体、属性、关系、事实、事件、分类等识别与抽取。知识图谱的数据源是多源异构的数据体系,包括公安内部
数据、其他部委数据、互联网数据等。知识抽取引擎首先需要融合汇聚来自多个来源的异构数据,其中包括数据准备层,实现非结构化数据的结构化标注和数据格式转换,完成多源异构数据的语义融合,汇聚管理异构数据,优化上层访问效率。
在数据平台层,知识抽取引擎主要进行数据采集和数据整合工作。数据采集工作主要内容包括以下几个方面:
结构化数据智能抽取:智能化数据抽取是数据深度应用的前提,基于机器学习技术通过大规模自动化智能化对多源数据进行的采集、清洗、归类,并关联所有数据,形成统一数据视图给后续的智能化应用服务。针对RDB、Streaming、Crawler、CSV/Excel/TXT等数据源,支持传统数据转换和机器学习数据转换。
非结构化特征提取,使用机器学习等手段提取非结构化数据的特征作为标注;
数据格式转换,将不符合预定格式的数据转化为预定格式下的数据。
数据整合工作主要内容包括以下几个方面:
模式对应:实现在关系数据库模式层次和非结构化数据在概念层次的匹配对应;
实体链接:利用相似性计算、聚类划分等技术,实现在异构数据在实例层次对应;
冲突检测:在完成实例对应后,检测是否存在相同实体的相同属性值冲突;
冲突消除:利用机器学习、异常点判定、人工干预等手段消除检测到的冲突;
数据融汇:汇聚异构数据,优化上层访问效率。
经知识抽取引擎进行数据采集和数据整合工作后,形成数据资源库,包括基础资源库、专题数据库、关联库和全文检索库。为关系预测综合研判提供所需的数据支撑。
在关系抽取层,针对图谱增强的知识化实体理解技术,开展开源辅助信息关联,支撑面向图谱的高效匹配和关联检索应用。实体关系抽取主要关注:实体对之间的关系的预测,实体对特定关系的挖掘,开放式实体关系的抽取。
在知识图谱构建层,包括知识构建、知识更新、知识融合。知识构建主要是基于以上流程将知识收集;知识更新主要解决知识的动态感知和更新问题,用以体现知识的变化对知识图谱中所存储知识的影响;知识融合主要是进行实体识别,即给定不同数据源中的实体,判断其是否指向同一个真实世界实体。知识融合过程中,要准确识别待合并知识与知识库中已有知识相重复或相矛盾的部分,并对冗余知识和矛盾知识采取适当的措施进行处理,以保证知识库中的知识是一致性,无冗余、无矛盾。
知识图谱关系预测根据是否和业务相关,主要分为基于规则的预测和基于算法的预测。
基于规则的预测:主要是通过业务本体框架中的相关约束来做相关的推理预测,比如类别预测、属性预测等,通过关系的定义域和值域来推理预测。关系的定义域和值域是固定的,实例具有这种关系,则实例就是定义域或值域规定的类别。
基于算法的预测:基于算法的预测可以分为很多种,基于路径的建模、分布式表示学习、基于神经网络、混合推理等,但推理算法获得的结果具有不确定性,不一定等获得完全正确的关系,只是一种预测可能性。比如:通过观察到知识图谱中包含这样的一条路径“梅琳达·盖茨-配偶-比尔·盖茨-主席-微软-总部-西雅图”,推测出梅林达可能居住在西雅图。
基于知识图谱的关系预测的核心是建立符合业务的信息资源模型和算法。信息资源模型的设计是以模拟真实世界的人活动关键要素为依据的。参与的自然人(核心和边缘份子)通过各种社交构成的社交关系,人员个体在相关关键事件(如违法案件、应急突发事件)过程中,在长时空范围的系列活动、重点区域(如案件多发区、重点场所)等都是活动关系构成的几个关键要素,需要在构建模型时重点关注和研究,在业务模型的构建后采用一些图算法来开展关系分析和研判,从而能发现潜在的关系。
首先,在进行研判的过程中,通过对各类数据按照不同业务类别进行数据分析研判,形成不同主题域组织形式的数据模型库。随着研判的不断深入,公安知识库所产生的主题模型也将不断的扩展,在系统建设过程中,实现搭建自然人中心主题模型、社交为中心的主题模型、关键事件为中心的主题模型以及重点区域为中心的主题模型。
第二,基于综合图谱模式的匹配技术:在重要行为记录的事件、组织记录的模式检索中,借助基于关联子结构、子模式的匹配技术,可以构建频繁结构索引,剪枝-确认迭代操作等进行高效的综合匹配检索,以实现突破传统关键字技术的检索模式,支持基于复杂时间,行为轨迹,兴趣聚簇的检索任务,支撑多种上层分析研判应用的开展。
面向医学知识图谱的推理和预测模型是利用知识实现智能化医疗行为的两种重要技术手段,推理是通过演绎、归纳和类比等方式,对患者状态和情况得出认知结论,预测则是根据患者历史性数据作出合理化估计。它们的关联在于,预测是一种基于时间维度上的演化推理,二者本质上均是运用知识产生合乎逻辑的判定过程。在疾病诊断任务中,分类作为人类推理能力的重要体现,是衡量医疗智能化程度的关键所在。结合用户个性化信息,其研究意义分别体现在面向医护人员的辅助诊断、检查推荐、病历质检等应用场景,以及面向患者的健康信息推荐、过度检查筛查等医疗健康服务。
基于医学文本的知识图谱构建是解决医疗决策支持问题的物质基础。目前,知识图谱无论在学术界还是产业界都备受关注,已经在智能搜索、自动问答、决策支持等各个相关任务上得到了广泛应用,其优势主要归结于以下几点:
医学文本通指用于描述医学知识、存储健康数据和信息的结构化或非结构化文本,其中蕴含了医生在理论学习和医疗实践中丰富的常识性医学知识和经验性医学知识。
电子病历和医学书籍是两类最常见的医学文本,通常被作为医学知识的主要数据来源,针对这些半结构化或非结构化的文本数据,研究者们采用自动化抽取与人工编辑相结合的方式从中挖掘知识。鉴于知识之间的高度关联性和复杂性等特点,Google于2012年提出了一种基于网络结构的知识表示形式——知识图谱,其设计初衷是根据统一的表示框架描述现实世界中存在的实体以及实体之间的关系。相比于传统的关系型知识库,知识图谱具备较强的逻辑性、表示能力以及高效的存储和更新方式。随着人工智能技术在医疗领域的快速发展,以医疗本体Ontology)为基础原型衍生出许多具有代表性的医疗知识图谱,例如统一医学语言系统UMLS、本体医疗知识SNOMED-CT、IBM Watson Health等。此外,i2b2、N2C2、SemEval一些评测机构近年来也发布了多个与医学知识图谱构建相关的任务,包括实体识别、关系抽取、概念标准化等等,这些评测任务不仅为医学知识图谱构建指明了研究思路,而且提供了丰富的数据资源。
根据临床指南和电子病历中蕴含的知识形式,我们按照概念和关系的分类体系进行人工标注医学知识三元组。人工标注流程共分为三个阶段,首先是结合知识图谱的分类体系构建面向医学文本或特定医学知识库的标注规范初稿,在医师的指导下对现有的概念和关系进行合理性论证,对相似或歧义项给出明确的医学界定,同时提供相应的标注提示。之后进入训练标注人员并更新标注规范阶段,由于标注人员对于规范的理解不尽相同,即使是专业医生也会存在医学认知的差异。因此,我们每轮随机选取一定数量的未标注数据集同时分发给多名参与标注的人员,当标注完成后由所有标注人员一同讨论产生不一致的情况并最终达成统一。按照此种培训方式,经过多轮学习标注规范和标注人员对于医学知识的认识已经趋于成熟,当标注一致性连续三次处于较高水平后,我们认为可以进行医学知识的正式标注。最后,为达到较高的标注一致性,我们分配两组人员具有一定重复的医学文本进行正式标注,并阶段性随机抽样检查,出现冲突情况随时讨论,直至完成全部医学文本的标注工作。
经上述人工标注过程,我们初步构建了以三元组关系为结构单元的医学知识图谱,该图谱将常识知识和经验知识相结合,可以有效支持基于知识的推理模型的相关研究。
分类模型在过去一段时间被广泛应用于医疗领域的多项任务中,其中最为常见的是以症状作为模型的特征输入,对预设疾病进行诊断分类。决策树模拟人在诊断疾病中的判定逻辑,基于信息熵构造特征变量的树状结构,将整体分类过程分解为多个子任务逐步实现疾病诊断。然而该算法的不足在于对不一致性数据过度敏感,当训练数据集中存在矛盾时无法得到令人满意的拟合效果。支持向量机模型是另一类具有较强理论基础的分类模型,通过核函数将分类维度提升进而找到高维度下的最大支持向量面。虽然在多种医学任务中其预测准确
率要优于决策树,但该模型过于依赖有效特征的选取。贝叶斯网络是以贝叶斯理论为基础的概率图模型,以图的形式描述变量之间的依赖关系,在早期的临床决策系统中发挥了重要作用。近年来,随着大数据时代的到来,深度学习技术得到了快速发展,又涌现出以神经网络、模糊逻辑、遗传算法为代表的一大批诊疗推理模型。
人类产生智能的根本原因是知识的不断学习,当知识量到达一定程度会自然地涌现出较高的认知水平。面向分类任务的深度学习相比于面向知识的概率逻辑推理模型,前者是将符号化知识抽象为低维空间向量后,采取反向传播机制训练神经元表示和网络权重,以达到分类和推理的任务目标。而前者更多依赖于符号化知识,在已知相关先验和当前条件下,运用统计学原理可以近似计算特定事件的发生概率。更重要的是,不同于深度学习中知识向量的高度抽象化,概率逻辑模型的推理方式更贴近人类认知,有如贝叶斯理论和马尔科夫理论的推理过程具有显著的可解释性。其中,早期的代表性研究包括基于人类总结性规则的专家系统、基于一阶逻辑知识的马尔科夫网、概率软逻辑等等,不过上述模型在适用范围上均存在着局限性,例如基于逻辑知识的推理模型仅能处理二元变量。而在医疗领域,大多数医疗检查、症状描述均表示为多元数值形式。为解决上述问题,马尔科夫逻辑网的衍生算法——混合马尔科夫逻辑网通过变量近似和抽样评估的统计策略将布尔类型和数值型变量融入概率逻辑框架。
传统的马尔科夫网无法应对多元变量的推理问题,针对医疗领域的数据特点,充分结合了医学知识图谱的网络结构与概率图模型的推理能力,提出了面向知识图谱的精确推理和参数学习统一框架。在该推理框架中引入波尔茨曼机能量函数对马尔科夫网团势能函数进行重定义,使标准化的数值型变量直接参与到推理计算中,解决了传统概率图模型无法处理多元变量的问题。实验结果表明,在基于“疾病-症状”知识网络和“疾病-检查”知识网络的多疾病诊断任务中,该推理框架不仅可以应对以不同程度症状为证据的多元离散型变量,而且可以处理以数值型检查结果为代表的连续型变量,并取得了最佳的疾病诊断效果。
级联失效是描述复杂网络动态演变过程的一种理论,由初始网络中少数节点失效而引发的蝴蝶效应,最终导致相当一部分节点甚至整个网络的崩溃。级联行为常见于各类复杂系统中,例如电力网络、金融市场、交通网络,其潜在的巨大风险推动着研究者们投入大量精力探究其本质,进而提出规避风险的预防措施以及降低灾难性后果的新举措。
网络医学作为结合系统生物学和网络科学的一类新型学科,旨在提出可以用来剖析人类所有疾病成因的研究思路与策略,对于理解异常体征和疾病之间的关系至关重要。其主要观点认为人体本身是一个高度复杂化的生理系统,生理状态之间存在相互影响、制约、促进、激发等一系列作用关系,例如由糖尿病诱发的众多并发症、由癌症引发的器官衰竭以及由艾滋病病毒导致的免疫系统崩溃。因此,探索基于人体功能性系统的动态演变行为是洞悉疾病发展规律、挖掘异常体征与疾病关联性、预测患病风险的根本性研究,为早发现、早预防、早治疗的良性就医方式提供坚实的理论基础。
结合上述级联失效的动态演绎过程和体征之间的客观作用机制,设想通过医学知识网络来刻画人体系统,一旦某些生理节点出现异常,其负面影响必将通过节点之间的诱发关系传递到邻居节点,并使更多节点出现异常甚至失效(所谓失效是指体征指标超出正常值范围或表现出某种疾病),经有限次扩散该影响可能会波及整个网络,进而导致大面积节点的失效。受此启发,研究以疾病和体征组建的医学知识网络为结构,采用实验手段探索发生在该医学网络中的级联行为。通过量化局部节点的客观作用关系,在传播动力学的驱使下,试图模拟网络结构及节点状态自主更迭的动态演变过程,最终在给定患者初始体征的情况下有效预测其未来可能出现的异常体征或疾病。同时,对级联过程起到关键推动力的医学节点进行挖掘,可以有针对性的提供保护策略和治疗手段为疾病预防和疾病早期发现提供重要的理论依据。