《一夜飘零》

医学知识图谱构建技术与研究进展

摘要：医学知识图谱是实现智慧医疗的基石，有望带来更高效精准的医疗服务。然而，现有知识图谱构建技术在医学领域中普遍存在效率低，限制多，拓展性差等问题。针对医疗数据跨语种，专业性强，结构复杂等特点，对构建医学知识图谱的关键技术进行了自底向上的全面解析，涵盖了医学知识表示、抽取、融合和推理以及质量评估五部分内容。此外，还介绍了医学知识图谱在信息检索、知识问答、智能诊断等医疗服务中的应用现状。最后，结合当前医学知识图谱构建技术面临的重大挑战和关键问题，对其发展前景进行了展望。

关键词：知识图谱；知识获取；知识融合；知识推理；自然语言处理

引言

自 1998 年万维网之父 Tim Berners-Lee 提出语义网，人们不断在网络等电子载体上表达和修正对客观世界的理解，形成了一个概念标准化的过程，同时随着链接开放数据 (Linked Open Data)的规模激增，互联网上散落了越来越多的知识元数据。

知识图谱就是在这样的大数据背景下产生的一种知识表示和管理的方式，强调语义检索能力。近年来，在人工智能的蓬勃发展下，知识图谱涉及到的知识抽取、表示、融合、推理、问答等关键问题得到一定程度的解决和突破，知识图谱成为知识服务领域的一个新热点，受到国内外学者和工业界广泛关注。

知识图谱的前身是语义网，它吸收了语义网、本体在知识组织和表达方面的理念，使得知识更易于在计算机之间和计算机与人之间交换、流通和加工。具体来说，一个知识图谱由模式图、数据图及两者之间的关系组成：模式图对人类知识领域的概念层面进行描述，强调概念及概念关系的形式化表达，模式图中节点是概念实体，边是概念间的语义关系，如 part-of；数据图对物理世界层面进行描述，强调一系列客观事实。数据图中的节点有两类，一是模式图中的概念实体，二是描述性字符串，数据图中的边是具体事实的语义描述；模式图和数据图之间的关系指数据图的实例与模式图的概念之间的对应，或者说模式图是数据图的模具。

著名的通用知识图谱中有，谷歌“Knowledge Graph”、搜狗“知立方”、YAGO、DBpedia等，它们具有规模大、领域宽，包含大量常识等特点。目前，医学是知识图谱应用最广的垂直领域之一，如上海曙光医院构建的中医药知识图谱、本体医疗知识库 SNOMED-CT，IBM Watson Health等应用近两年也开始进入人们视线。

知识图谱是智能大数据的前沿研究问题，它以独有的技术优势顺应了信息化时代的发展，比如渐增式的数据模式设计；良好的数据集成；现有 RDF、OWL等标准支持；语义搜索和知识推理能力等。在医学领域，随着区域卫生信息化及医疗信息系统的发展，积累了海量的医学数据。如何从这些数据中提炼信息，并加以管理、共享及应用，是推进医学智能化的关键问题，是医学知识检索、临床诊断、医疗质量管理、电子病历及健康档案智能化处理的基础。

本文首先介绍了医学知识图谱的构建技术，主要涉及到医学知识表示；医学知识抽取，包括实体、关系、属性的抽取；医学知识融合；医学知识推理和质量评估五个部分。然后介绍了基于医学知识图谱的包括检索、问答、决策等的应用现状。最后对医学知识图谱的研究、应用重点，面临的挑战以及未来的发展趋势进行了展望。

1 医学知识图谱构建

本文将医学知识图谱构建技术归纳为五部分，即医学知识的表示、抽取、融合、推理以及质量评估。通过从大量的结构化或非结构化的医学数据中提取出实体、关系、属性等知识图谱的组成元素，选择合理高效的方式存入知识库。医学知识融合对医学知识库内容进行消歧和链接，增强知识库内部的逻辑性和表达能力，并通过人工或自动的方式为医学知识图谱更新旧知识或补充新知识。借助知识推理，推出缺失事实，自动完成疾病诊断与治疗。质量评估则是保障数据的重要手段，提高医学知识图谱的可信度和准确度。

1.1 医学知识表示

知识表示是为描述世界所做的一组约定，是知识符号化、形式化、模式化的过程，主要研究计算机存储知识的方法，其表示方式影响系统的知识获取、存储及运用的效率。然而医学数据种类繁杂，存储方式不一，电子病历格式和标准不同，经常涉及交叉领域等特点，导致医学领域与其他领域在知识表示方面有所差异，同时也给医学领域的知识表示带来极大的挑战。

早期医疗知识库运用的知识表示方法有：谓词逻辑表示法，产生式表示法，框架表示法，语义网表示法等等。比如， SNOMED-CT，早期的 MYCIN 系统，大肠杆菌数据库 EcoCyc等。随着知识图谱中知识增长、关系复杂化，这些方法由于表示能力有限且缺乏灵活性，不再作为主要的知识表示方法，更多是作为医学知识表示的辅助或补充。

本体表示法以网络的形式表示知识，即以（实体 1，关系，实体 2）三元组来表示相关联的两个节点（实体），在知识图谱提出之后逐渐得到认可。它借鉴了语义网表示法但又有所区别：本体关注的是实体固有特征，比后者更聚焦，更深入，因而也具有更大的发展潜力。而本体的描述语言也多种多样：主要有RDF和RDF-S、DAML、OWL等。使用本体表示医学术语可以提升数据整合能力：建立强大、可互操作的医疗信息系统；满足重用共享传输医疗数据的需求；提供基于不同语义标准的统计聚合。医学领域本体的构建，需要深入分析医学术语的结构和概念，才能将晦涩甚至是跨语言的医学知识有效地表达出来。目前的医学知识本体库有：医学概念知识库LinkBase，TAMBIS本体库(TaO)等等。

知识图谱的节点个数影响着网络的结构复杂度及推理的效率和难度。知识表示学习借助机器学习，将研究对象的语义信息表示为稠密低维向量，有效解决数据稀疏问题，从而提升知识融合和推理性能[。低维向量表示是一种分布式表示（distributed representation），它模仿人脑中使用多个神经元存储对象的工作机制，使用多维度向量表示对象的语义信息。知识表示学习中的代表模型有：结构化表示法（Structure Embedding，SE），单层神经网络模型（single layer model，SLM），隐变量模型（latent factor model，LFM），基于TransE的翻译模型等等。这些模型考虑实体间的协同性和计算开销，用向量表示实体，再对表示实体的向量或关系进行相应的矩阵变换，提出评价函数来衡量实体间的相关性，并为之后的知识补全和推理提供重要参考。Kleyko 等人证明了分布式表示方法表示医学图像进行分类精度能够与最佳经典方法相同；Henriksson 等人对比使用多种知识表示方法表示 EHR 中 4 类记录：诊断记录，药物使用记录，治疗方法和病程记录。显然，知识表示学习无疑为医学知识图谱的知识表示开辟了新思路。

1.2 医学知识抽取

医学知识图谱的构建主要是从非结构化数据中人工或自动地提取实体、关系和属性。人工提取是通过专家依据一定规则收集并整理相关信息，提取知识。目前通过人工构建的医学知识库包括临床医学知识库、SNOMED-CT、ICD-10 等。自动提取则是利用机器学习、人工智能、数据挖掘等信息抽取技术，从数据源中自动提取出知识图谱的基本组成元素。自动构建医学知识库的典型例子有一体化医学语言系统 UMLS。人工提取的代价太大，知识的自动提取是目前重点的研究方向，也是将来构建知识图谱的趋势。本节主要介绍如何自动从数据源中抽取知识和信息，包括实体、关系和属性抽取。

1.2.1 实体抽取

识别文本中的生物医学实体，其目的在于通过识别关键概念进一步提取关系和其他信息，并将识别的概念以标准化的形式表示出来。医学领域的实体抽取是从医学数据源中提取出特定类型的命名实体。本节将医学实体的抽取方法归纳为三类：基于医学词典及规则的方法、基于医学数据源的统计学和机器学习方法以及深度学习方法。

1）基于医学词典及规则的方法

该方法通过人工定义规则和模式匹配生成词典或使用现有医学词典从语料中抽取医学实体，该方法是具有挑战性的。首先，目前没有完整的字典囊括所有类型的生物命名实体，所以简单的文本匹配算法是不足以应对实体识别的。其次，相同的单词或短语其意义可根据上下文的改变而指代不同的物体（如，
铁蛋白可以是生物物质或实验室测试方法）。再次，许多生物或药物实体同时拥有多个名称（如 PTEN 和 MMAC指代相同的基因）。因此，基于医学词典及规则只在最早期被广泛使用。 Friedman等通过自定义语义模式和语法来识别电子病历中的医学信息。Wu等人使用了 CHV和 SNOMED-CT两个医学词典得到了不错的实验结果。虽然该方法能达到很高的准确度，但无法彻底解决上述问题，也过分依赖专家编写的词典和规则，无法适应医学领域词汇不断涌现的现实情况。

2）基于医学数据源和数学模型的机器学习方法

该方法通过使用统计学和机器学习方法，结合医学数据源的特点训练模型，进行实体识别。在英文医学实体抽取方面，最具代表性的标注语料是 I2B2 2010发布的英文电子病历标注语料。另外，还有 SemEval、NTCIR等评测，以及 NCBI语料库等，都提供了英文医学实体标注数据。

目前常用方法有隐马尔可夫模型（HMM），条件随机场模型（CRF），支持向量机模型（SVM）等。Kazama 等人使用 SVM模型进行生物医学命名实体识别，引入了 POS，词缓存，无监督训练得到的 HMM状态等特征。该方法在 GENIA 语料库中准确率高于最大熵标记方法，并能较高效地应用于大规模语料集。Zhou等人通过一系列特征训练 HMM 模型，包括词的构成特征，形态特征，POS，语义触发，文献内名称别名等。其识别准确率达66.5%，在 GENIA语料库中的召回率达66.6％。综合以上方法，Chen 和 Friedman利用MEDLEE系统来识别与生物医学文本中与表型信息相对应的短语。该系统使用自然语言技术来识别期刊文章摘要中存在的表型短语。生物医学的实体识别常常可使用较小的表型相关术语的知识库。Chen 和 Friedman自动导入与语义类别相关的数千个 UMLS 术语，如细胞体功能和细胞功能障碍，以及哺乳动物本体中的几百个术语；并手动添加了几百个术语。实验结果表明，其实体识别准确率达 64.0％，召回率达 77.1％。虽然结果不高，但为之后的研究人员提供了一条可行的思路。

在医学领域，命名实体识别的痛点在于数据质量的良莠不齐以及人工标注的专业性要求高。目前有专门研究如何降低对于数据标注依赖的研究，其原理主要是利用海量未标注数据持续提升模型性能，从小样本中进行学习，自我探索逐步学习新知识，形成一个交互学习过程。

3）深度学习方法

深度学习近年来开始被广泛应用于命名实体识别，最具代表性的模型是2011年Collobert提出的一个深层神经网络模型，其效果和性能超过了传统算法。Sahu等人所提出的 CNN 与 RNN 级联的方法生成词嵌入特征，其结果优于目前最好的算法且不需要过多的特征工程。在医学领域，We 等人基于CRF和双向RNN生成特征，再使用SVM 进行疾病命名实体识别。目前医学信息命名实体识别任务中最主流的深度学习模型是 BiLSTM-CRF 模型，Jagannatha等人对比了 CRF，BiLSTM，BiLSTM-CRF 三种模型，以及一些它们的改进模型，在英文电子病历命名实体识别的效果，实验结果表明所有基于 LSTM 的模型都比 CRF效果更好，并且 BiLSTM 结合 CRF 模型能够进一步提高评测结果 2%-5%的准确率。

1.2.2 实体抽取

本文将医学实体关系抽取归结为两类： a）同类型医学实体层级关系抽取，如疾病的“肠胃病-慢性胃炎”等；b）不同类型关系抽取，如“疾病-症状”等。

1）同类型医学实体层级关系抽取

同类型医学实体层级关系相对较为单一，主要是 is-a 和 part-of关系。由于医学有其严谨的学科体系和行业规范，因此此类关系往往在医学词典、百科、信息标准中进行。 ICD-10、SNOMED等医疗词典或医疗数据库重点关注医学专业术语、受限词汇的分类和概念标准化工作，权威且涵盖范围广，在数量和质量上都有所保障，被医疗行业广泛认可，是抽取层级间实体关系的首选来源。针对具体的医疗词典、知识库提供的数据格式和开放 API 接口，可通过爬虫、正则表达式、D2R映射等技术从中抽取分层结构，抽取三元组来匹配、添加上下位关系。

2）不同类型医学实体关系抽取

不同类型医学实体间的语义关系识别大致基于两大不同数据源而实现。一是百科或其他结构化数据源，如 Medline，UMLS 等；二是半结构化的电子病历。

医学实体类型相对有限（主要是疾病、症状、治疗、药品等），目前通常在两个实体间预定义好要抽取的关系类型，再将抽取任务转换为分类问题来处理。如何预定义实体关系目前尚未有统一的标准，这取决于医学知识图谱构建过程中模式图的设置、实体识别情况、语料来源、构建目的及应用场景等，如在 I2B2 2010 评测中，将电子病历中的实体关系分成了医疗问题与医疗问题、医疗问题与治疗、医疗问题与检查三类。

近几年，Uzuner 团队在句子层面抽取了六类医疗实体关系，使用实体顺序和距离、链接语法和词汇特征来训练 6 个 SVM 分类器，通过对比实验，指出词汇特征在实体关系识别中的重要作用。在此基础上，基于Medline 摘要，Frunza 等抽取了疾病、治疗间的三种关系，并引入 UMLS 生物和医疗实体特征，取得了不错的实验结果。而 Abacha 等在同样的任务中使用人工模板和 SVM 的混合模型，取得了 94.07%的平均 F值。该研究指出，在样本数较少时，模板匹配方法起主要作用，而面向海量样本时则 SVM 起主要作用。

此外，在关系识别的分类方法对比研究中，Bruijn 等人在 I2B2 2010 评测中对比研究了有监督分类和基于 Self-training 的半监督分类的表现，表明了UMLS、依存句法分析结果和未标记数据对关系识别有着显著影响。除了预定义关系然后转换为分类任务来处理的方法，还有少量研究采用了模板匹配、统计共现等方法来抽取关系。如在 Medline 摘要中通过统计基因名的共现来提取关系，并根据共现矩阵生成了关系图，或在 Medline 摘要中通过语法依赖树进行图的模式匹配，进而抽取因果关系。

1.2.3 属性抽取

属性抽取是指对属性和属性值对（attribute-value pair， AVP）的抽取，其中属性的抽取是指为医学实体构造属性列表，如药品的属性包括适应症、禁忌症等。属性值的抽取是指为各实体附加具体的属性值，如阿莫西林是青霉素过敏者禁用。常见的抽取方法包括从开放链接数据提取、从结构化数据库提取、从百科类站点提取、从垂直网站进行包装器归纳、以及利用模式匹配从查询日志中提取等。对于医学知识图谱来说，主要通过上文提及的医学词典和主流医学站点来进行。值得一提的是，前者关于属性和属性值对的描述相对比较稀疏（特别对于中文领域），因此需从主流医学站点进一步抽取整合。

对于 AVP 结构化程度比较高的网站，如维基百科、A+医学百科6等，有规整的信息框（InfoBox），可以方便地爬取识别InfoBox 部分，直接提取该实体对应的属性名和属性值，置信度高，但规模较小。而对于更多形式各异、半结构化的医药站点和垂直文本来说，通常是构建面向站点的包装器，从待抽取站点采样并标注几个典型的详细页面(Detailed Pages)，利用这些页面通过模式学习自动构建出一个或多个类 Xpath 表示的模式，然后将其应用在该站点的其他详细页面中从而实现自动化的 AVP 抽取。

1.3 医学知识融合

知识融合是高层次的知识组织，使不同来源的知识在同一框架规范下进行数据整合、消歧、加工、推理验证、更新等步骤7，目的是解决知识复用的问题，增强知识库内部的逻辑性和表达能力。针对知识图谱中不同粒度的知识对象，知识融合可细分为实体对齐、知识库的融合等。

1.3.1 实体对齐

医疗知识图谱中知识来源的多样性导致了知识重复、知识质量良莠不齐、知识间关联不够明确等问题。医学实体在不同的数据源中存在严重的多元指代问题，例如阿奇霉素在百度百科中被称为希舒美，在 A+医学百科中别名有阿齐霉素、阿奇红霉素、叠氮红霉素等，商品名有泰力特、希舒美、舒美特等。因此实体对齐是医学知识融合中非常重要的一步。实体对齐是判断多源异构数据中的实体是否指向真实世界同一对象的过程。

现有的对齐算法有成对实体对齐与集体实体对齐两类。成对实体对齐方法只考虑实例及其属性相似度，包括基于传统概率模型的实体对齐方法和基于机器学习的实体对齐方法。前者以Fellegi等人将基于属性相似性评分的实体对齐问题转换为分类问题的工作为基础，至今仍应用于很多实体对齐工作中；后者常用的对齐方法有分类回归树算法、ID3 决策树算法、SVM 分类方法、集成学习框架等基于有监督学习的方法和无监督学习下的层次图模型等基于无监督学习的方法。

集体实体对齐在成对实体对齐的基础上在计算实体相似度时加入了实体间的相互关系，分为局部集体实体对齐与全局集体实体对齐。前者典型算法是使用向量空间模型和余弦相似度计算实体相似性，准确率不高，但召回率和运行速度比较可观。后者通过不同匹配决策之间的相互影响来调整实体间的相似度，又分为基于相似性传播和基于概率模型的集体实体对齐方法。基于相似性传播的方法通过初始匹配以“bootstrapping” 方式迭代地产生新的匹配[。Lacoste-Julien 等人在此基础上提出的 SiGMa 算法更适合大规模知识库，但需要一定的人工干预。基于概率模型的方法通过为实体匹配关系和决策建立复杂的概率模型，包括关系贝叶斯网络模型、LDA 分配模型、CRF 模型和 Markov逻辑网模型等，可以提高匹配效果，但效率还有待提高。

当来自不同知识源的数据出现数据冲突时，需要考虑知识源的可靠性以及不同信息在各知识源中出现的频度等因素。阮彤等人]在构建中医药知识图谱时对数据源的可信度进行评分，结合数据在不同来源中出现的次数，对数据项进行排序，并补充到相应的属性值字段中。

随着知识库规模扩大和实体数量的增加，知识库中的实体对齐越来越受到重视，如何准确高效地实体对齐是未来知识融合的研究重点之一。

1.3.2 知识库融合

构建知识库时需求和设计理念不同会导致知识库中数据的多样性和异构性。对于庞杂的医疗知识来说，当前多数知识库都是针对某个科室或者某类疾病或药物来构建的，比如脾胃病知识库[60]、中医药知识图谱等，若要得到更完善的医疗知识图谱，需要对不同的医疗知识库进行融合以及将尚未涵盖的知识和不断产生的新知识融合到已有的知识图谱中。医疗知识图谱的构建是一个不断迭代更新的过程。

知识库融合的研究工作始于“本体匹配”，初期针对本体类别的语义相似性进行匹配。随着知识库规模扩大和结构复杂化，类别、属性以及实体和它们之间的相互关系等也成为考虑的因素。Suchanek 等人提出的基于概率的知识融合算法PAIRS以两个知识库作为输入，能够高效地跨本体同时对齐类别、实例、属性和关系。但 PARIS 需要一定的人工参与。由于人类的精力和认知有限，自动地从 Web 中获取知识并进行融合十分必要。Dong 等人提出了将以消除歧义的三元组的形式从整个网络中提取事实与使用 PRA 和神经网络模型两种方法从 Freebase 图得到的先验知识融合在一起的知识融合方法，可达到自动构建 Web 规模的概率知识库的水准，提升了效率。

在医疗领域，Dieng-Kuntz 等人将医疗数据库转换为医疗本体，然后对其他文本语料使用半自动的语言工具进行语义提取，在人工控制下对本体进行扩展和补全，并用启发式规则自动建立知识的概念层次。Baorto 等人将数据源添加到临床信息系统时先确定数据的控制术语是否已经存在，然后将新术语添加到 MED( Medical Entities Dictionary)，同时建立审计流程以保证引入数据的一致性。

目前医疗领域知识图谱的融合技术虽有一些有意义的尝试，但仍需要大量人工干预，高效的知识融合算法有待进一步研究。医疗领域的知识图谱也可以考虑采用众包的方式进行知识融合。

1.4 医学知识推理

推理是从已有知识中挖掘出隐含信息，而知识推理更注重知识与方法的选择与运用，尽量减少人工参与，推出缺失事实，完成问题求解。在医学知识图谱中，知识推理帮助医生完成病患数据搜集、疾病诊断与治疗，控制医疗差错率。然而，即使对于相同的疾病，医生也会根据病人状况作出不同的诊断，即
医学知识图谱必须处理大量重复矛盾的信息，这就增加了构建医学推理模型的复杂性。传统的知识推理方法有基于描述逻辑（Description Logic， DL）推理，基于规则推理（Rule-based Reasoning，CBR）与基于案例推理（Case-based Reasoning，CBR）等等。Bousquet C 等人使用基于 DAML+OIL 描述逻辑执行术语推理来改进药物警戒系统中信号检测；Chen R 等人采用 RBR 方法开发出糖尿病诊断系统以提供用药建议；CARE-PARNER 系统则是基于CBR给出诊断结果与治疗方案等等。

传统的知识推理方法虽在一定程度推动医疗诊断自动化进程，但是也存在学习能力不足，数据利用率不高，准确率待提升等明显缺陷，远未达到实际应用的要求。面对日益增长的医疗数据，诊断时不可避免地会出现信息遗漏，诊断时间延长等问题。而人工智能，尤其是人工神经网络（Artificial Neural Networks，ANNs）拥有从海量数据挖掘有用信息的天然优势。 ART-KNN（ART-Kohonen neural network）与 CBR 相结合可以提高后者在推理故障情况的效率和准确度。神经张量网络模型（neural tensor networks）在 FreeBase 等开放本体库上对未知关系推理的准确率可达 90.0%。Karegowda A G 等人在 Pima 印第安人糖尿病知识库（PIDD）中使用了遗传算法（Genetic Algorithm，GA）和反向传播网络（Back Propatation Network，BPN）的混合模型，诊断准确率提高 7%左右。

与深度学习将知识图谱作为数据源不同，基于图的推理则将知识图谱视为图，以实体为节点，以关系或属性为边，利用关系路径来找到节点间的多步路径，Path Ranking 算法，PTransE就是利用这样的原理来推断实体间的语义关系。图数据库使知识图谱能以图的数据结构进行存储，与传统数据库相比，前者在高维度关联查询的效率明显提高。然而图数据库尚未成熟，暂无法完成太复杂的知识推理。较为流行的图数据库有 Neo4j，Titan，OrientDB和 ArangoDB等。王昊奋等人在医疗质量与患者安全辅助监控系统中，就将医疗本体的数据存放在 AllegroGraph 图数据库中。

与通用知识图谱相类似，医学知识图谱也还有对跨知识库知识推理、基于模糊本体的知识推理等问题的研究。

1.5 质量评估

数据的质量直接影响数据的运用，质量评估是保障数据的重要手段，可以量化数据质量，筛选出置信度高的数据。医学诊断对数据和医学知识图谱的可信度和准确度提出了更高的要求。质量评估并不是构建医疗知识图谱的最后一步，而是贯穿在知识图谱的整个生命周期：早在 2013 年本体峰会（Ontology Summit2013）就对本体的生命周期的各个阶段所要进行的评估工作做了相关的说明。

目前，知识图谱/本体的评估方法可分为四大类：基于黄金标准的方法，基于本体任务/应用的方法，数据驱动的方法，和基于指标的方法。表 1 对比了这几种本体评估方法。

具体到医学领域，本体评估方法因应用场景而异：Clarke 等人使用基于任务评估方法来分析基因本体的从 2004 至 2012 年的性能；Bright 等使用本体设计原则和领域专家审查意见作为指标来评估本体在抗生素决策支持系统中的效果；Gordon 等通过将电子病历，诊断案例和临床实践等来构造“黄金标准”来评估，改进传染疾病本体 BCIDO等。为方便用户进行本体评估和加快本体评估自动化进程，本体评估工具封装了评估方法。不同的工具从不同的视角对本体的不同指标进行评估。针对评估的侧重点，选择合适的工具才能对本体作出符合应用要求的评估。

比较常用的本体评估工具有：ODEval，OOPS，OntoManager，Core等。除了医学本体，医学知识图谱还涵盖其他复杂多样的信息，因此，质量评估还包括对数据质量，专家信息，知识库等方面进行评估。

相比通用领域的知识图谱，医学领域的知识图谱评估存在以下特殊性：a）鉴于医学的严谨性，评估往往综合多种方法进行多角度的评估，如 Bright 等利用本体设计原则和领域专家审查来进行等级评估； b）往往需设置等级较高的警告（alerts），如与处方相关的警报包括抗生素-微生物不匹配警报、用药过敏警报、非推荐的经验性抗生素治疗警报、治疗方案-症状间不匹配警报等；c）除了从形式方面评价知识图谱以外，也注重于检验知识差距，因为知识的全面性和准确性将直接影响临床决策支持的置信度。此外，医学知识图谱是融合计算机科学等众多学科的交叉学科，评价指标不能简单地照搬某个的学科的指标，而是应该综合考虑众多因素。知识图谱/本体评估方法如下表所示：

因此，除了借鉴通用知识图谱质量评估方法，Ammenwerth E 等人结合医学本身的特点，就评价医学知识图谱时面临的评价对象的复杂度，评价指标与利益相关者的关系，评价动机三大问题出发，分别提出解决方案。

不难看出，医学知识图谱质量评估的研究主要集中在方法，工具以及数据的研究这三方面。然而，现有的质量评估缺乏系统化，鲜有从医学领域特性的角度对知识图谱进行综合评估，多是借鉴通用的质量评估方法从微观上去评估某一项指标，具有分散性，片面性。

2 医学知识图谱应用

随着人们对健康问题的愈发重视，医疗保健费用、需求的增长与优质医疗资源不足之间的矛盾亟待解决。对此，由于近几年人工智能的飞速发展以及精准医疗、智慧医疗的提出，医学知识图谱应用正受到国内外企业、学界的广泛关注，有望带来更廉价、高效、精准的医疗建议和诊断。本文可以从已有的医学知识图谱的应用中一窥其巨大潜力。

2.1 医疗信息搜索引擎

传统的医疗搜索引擎需要对百亿计的医疗相关网页进行检索、存储、处理，但难以理解用户的语义查询。而基于医学知识图谱的搜索，不仅提供用户网页间超链接的文档关系，还包括不同类型实体间丰富的语义关系。

知识图谱对于传统信息搜索的优化主要体现在查询扩展，从知识图谱中抽取与查询相关的若干实体及实体关系和属性进行扩展查询，以更好的理解用户的查询需求。Aronso 等人较早将信息检索技术结合 UMLS 进行查询扩展，并应用于医学文献检索。 Díazgaliano 等人在生物医学信息搜索中加入了医学本体 MeSH来进行查询扩展，包含同义、近似同义和密切相关概念的实体和关系，改进了信息检索的效果。Huang 等人在医学本体的基础上，使用 LSA 自动挖掘实体间的语义关系，如药物诱导疾病关系、药物间相互作用关系等，对实体关系、实体-实体的查询进行了扩展。中国中医科学院的贾李蓉等于 2002 年开始研制中医药学语言系统，构建了包含12万多个概念、60余万术语以及127余万语义关系的中医药知识图谱。它通过在检索系统中嵌入“知识卡片”以及一个“知识地图”展示系统，将中医领域概念可视化，用户可以选择其中的概念开始构造查询或搜索。

目前，国外典型的医疗专用搜索引擎有 WebMd8、 OmniMedicalSearch 9 、 Healthline10等。其中 WebMd 和 OmniMedicalSearch 分别属于全文索引和目录索引类型的传统搜索引擎，Healthline 是一个基于知识库的医学信息搜索引擎，其知识库涵盖超 850，000 项医疗元数据和 50,000 条相互关联的概念。Google 率先提出将知识图谱应用于搜索，在医疗搜索应用上，当用户搜索疾病或症状时，Google 提供超过 400 种健康状况的数据，通过一张信息卡片，给出典型症状以及如是否严重、是否具有传染性、影响哪些年龄段的人等细节信息。而国内主流医疗搜索引擎有搜狗名医、360良医，这两者都是结合了元搜索索引方式和知识库的搜索引擎，聚合权威的知识、医疗、学术网站，为用户提供包括维基百科、知乎问答、国际前沿学术论文等权威、真实内容。

基于知识图谱的搜索引擎已成为现今搜索引擎的主要形式，其技术框架也在不断改进和完善。目前的医疗搜索引擎主要受限于医学知识图谱的知识数量和质量，构建完备的医学知识图谱是其关键。

2.2 医疗问答系统

问答系统也是知识图谱的典型应用场景。目前在基于知识图谱的问答系统中采用的方法主要包括：基于信息提取的方法，利用问句信息结合知识库资源获取候选答案；基于语义解析的方法，将自然语言问句解析成一种逻辑表达形式，通过这种结构化表达从知识库中寻找答案；基于向量空间建模的方法，使用向量空间描述自然语言问句以及知识图谱中的实体和关系，通过机器学习、深度学习等方法生成问答模型进行回答。

早期的医疗问答系统的研究主要集中于信息检索、提取和摘要技术。知识图谱概念的提出，致使问答系统研究热点转移到基于知识图谱的问答系统研究。Terol等人使用了 UMLS 以及 WordNet 两种知识库，设置了 10 类医学问题类型，利用自然语言处理技术的应用来生成和处理问题的逻辑形式，从知识库中提取答案。Abacha 等人对比了基于医学本体的医疗问答系统，结合医学本体、领域知识，NLP 相关技术和语义关系，实现了一个医疗自动问答系统。华东理工大学阮彤、王昊奋等人与上海曙光医院合作构建了包括疾病库、证库、
症状库、中草药库和方剂库的中医药知识图谱，并基于该知识图谱进行中医药问答和辅助开药。该系统通过基于知识图谱的分词、模板匹配、模板的翻译执行来回答概念、实体、属性、属性值的模板组合问题，并将图谱中存储的数据自动转换成推理引擎适用的推理规则，再结合医生工作站传来的病人事实数据，辅助医生开方。

在医疗垂直领域的问答系统研究中，受限于现有医学知识图谱的推理能力，以及医学知识表示的复杂性，尚未出现重大的突破。而反观开放领域，对特定领域专业知识要求不高的情况下，IBM 的 Watson 系统、微软的小冰都是融合传统问答系统和知识图谱的成功案例。

2.3 医疗决策支持系统

借助医疗知识图谱，医疗决策支持系统可以根据患者症状描述及化验数据，给出智能诊断、治疗方案推荐及转诊指南，还可以针对医生的诊疗方案进行分析、查漏补缺，减少甚至避免误诊。

Ángel 等人设计了一个本体驱动的，基于逻辑推理和概率统计优化的医学鉴别诊断系统 ODDIN，系统的知识库框架包含一个逻辑规则知识库和一个医学本体知识库，在逻辑规则知识库中，定义了四种逻辑规则，而医学本体知识库则是综合了多个医学本体资源，支持多种本体表示形式，包括 RDF、RDFS、 OWL 和 SPARQL，诊断方法的核心是基于贝叶斯理论进行改进。Martnez-Romero 等人[106]设计的 iOSC3 系统是一个基于本体针对急性心脏病进行智能监控和诊断的系统，该系统分析患者的状况并提供最佳治疗方案的建议，其知识库由 OWL 本体和表示专家知识的一组 SWRL 规则所构成。王昊奋、张金康等人通过搜集中文开放链接数据中的医疗信息（ICD9、ICD10 等）和主流医学站点中的医疗知识（39 健康网、寻医问药等）构建了医疗知识图谱，并将其应用于上海林康医疗信息技术有限公司的医疗质量与患者安全辅助监控系统和处方审核智能系统中，前者基于知识图谱来进行抗生素不合理使用的监控、危
急值预测，后者快速判断处方为合理、疑似不合理和不规范处方，从而促进用药的合理性。

将知识图谱应用于医疗决策是目前的研究热点。但是，在实际应用中，主要存在着两方面的问题：一是缺少完备的全科医学知识图谱，二是医疗决策的可靠性。对于前者，目前基于知识图谱实际应用的医疗决策系统，主要还是针对于特定疾病类型的决策，无法广泛应用，如 IBM 的 Watson Health 主要面向肿瘤和癌症的决策支持，基于巨大的知识库和强大的认知计算能力，为临床医师提供快速的、个性化的循证肿瘤治疗方案。对于后者，医疗决策是直接关系到使用者的身体健康问题，依靠人工智能进行医疗决策对结果的准确性和可靠性有更高的要求。现阶段，基于知识图谱的医疗决策只是扮演着支持和辅助的角色。

3 挑战及研究展望

知识图谱是语义网与知识库的融合与升华。知识图谱的优势是具备强大的语义处理与开放互联能力。对医学领域而言，由于其专业性、规范性、术语有限性等特点，可以从医学词典、医学标准、电子病历等来源获取到高质量数据；另外在科教行业中，存在着知识管理、语义检索、商业分析、决策支持等需
求，医学知识图谱的研究能推进海量数据的智能处理，催生上层智能医学的应用。医学知识图谱是大数据与医学的结合，将成为知识图谱和大数据智能的前沿问题。

1）人工智能

人工智能，尤其是深度学习已经在计算机视觉、语音识别、机器翻译等领域超越了传统算法，而其在医学领域中的知识融合与推理等方面的研究潜力还有待挖掘。拥有强大学习能力的深度学习与有着丰富数据储备的知识库相结合，将逐步扩展认知能力，为大规模知识图谱找到更宽广的应用场景。

2）复杂多样的数据源（跨语言，开放域）

互联网和电子病例带来了医疗数据的爆炸性增长，然而这些数据在语种、主题、存储等方面都存在较大差异。现有的研究成果多集中在特定数据集上，普遍存在算法准确率低、限制条件多、扩展性差等问题，同时知识复用、实体消歧等问题也有待进一步研究。跨语言医学知识图谱成为当前的研究热点，我国的研究者更应发挥自身在中文信息处理方面的优势。

3）众包技术

众包反馈机制不仅可以有效提高数据质量，还能作为质量评估的重要补充。众包平台与知识库的有机结合，能够修正机器无法识别的错误，提高知识图谱的质量与性能。39 健康网，寻医问药网的问答区都有专业人士在线解答问题；A+医百科中的药物信息由医学研究者共同编辑完成。而另一方面，如何评估和保障提交结果的质量，也开始受到国内外学者的关注。

4）可视化

知识图谱可视化的真正意义在于让人直观地了解推理的过程与结果。而医学知识图谱可视化站在医生或病人的立场，寻求最佳的知识展示方案：病人能够理解诊断结果，医生能够利用知识图谱的动态推理过程作出合理诊断。

4 结束语

随着医疗信息化的发展，医学电子数据有了一定的积累。构建医疗领域的知识图谱，可以从海量数据中提炼出医疗知识，并合理高效地对其进行管理、共享及应用，对当今的医疗行业有着重要意义，也是很多企业和研究机构的研究热点。本文从医疗知识图谱的构建与应用角度，综述了医疗知识图谱的相关
背景、现有技术和应用，总结了目前医疗知识图谱面临的主要挑战，并对其未来的研究方向进行了展望。

医学知识图谱将知识图谱与医学知识进行结合，定会推进医学数据的自动化与智能化处理，为医疗行业带来新的发展契机。虽然目前对于医疗知识图谱的研究工作有了很多很有意义的尝试，但总的来说还不够完善和深入，需要更进一步的研究。希望本文能够为医疗知识图谱在国内的研究提供一些帮助与启发。

你可能感兴趣的:(知识图谱,知识图谱)

音视频知识图谱 2022.04 关键帧Keyframe
前些时间，我在知识星球上创建了一个音视频技术社群：关键帧的音视频开发圈，在这里群友们会一起做一些打卡任务。比如：周期性地整理音视频相关的面试题，汇集一份音视频面试题集锦，你可以看看《音视频面试题集锦2022.04》。再比如：循序渐进地归纳总结音视频技术知识，绘制一幅音视频知识图谱。下面是2022.04月知识图谱新增的内容节选：1）图谱路径：**采集/音频采集/声音三要素/响度******主观计量响
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【笔记】自然语言处理NLP---概论 xhanZ NLP相关
（from人文学院开设课程）目录1.自然语言处理概论1.1自然语言处理研究的意义、历史与现状1.1.1自然语言的特点1.1.2自然语言处理研究的意义1.1.3国外研究现状1.2NLP的方法、特点和规律1.2.1理性主义与经验主义1.2.2语料库语言学：经验主义研究方法1.2.3汉语语言处理的方法1.2.4基于知识图谱的深度学习1.自然语言处理概论1.1自然语言处理研究的意义、历史与现状1.1.1自
GraphRAG入门:基本概念、应用场景及学习方法学习中的程序媛~ 学习方法
一、GraphRAG的用途是什么GraphRAG用于复杂信息分析,适合处理跨文档、有噪音或主题抽象的数据.二、GraphRAG能做什么GraphRAG能连接大量信息,回答普通难搜索难以解答的问题.她可以回答跨文档的问题,也能总结数据集的主要主题.三、GraphRAG的特点1.知识图谱提取:使用llm自动从输入文本文档中创建知识图谱,表示数据中的实体、关系和关键声明2.层次聚类使用leiden技术对
【Java那些年系列-启航篇 01】史上最强JavaSE学习路线图 & 知识图谱夏之以寒 Java那些年专栏 Java JavaSE Java学习路线 Java知识图谱
【Java那些年系列-启航篇01】史上最强JavaSE学习路线图&知识图谱作者名称：纸飞机-暖阳作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：Java那些年专栏专栏介绍：本专栏涵盖了JavaSE从基础语法到面向对象编程，从异常处理到集合框架，从I/O流到多线程并发，再到网络编程和虚拟机内部机制等一系列编程要素个人感慨：市面上关于JavaSE的学习路线或知
【Java那些年系列-启航篇 04】Java程序架构：深入理解类与对象的设计原则夏之以寒 Java那些年专栏 java 架构类对象数据结构
作者名称：纸飞机-暖阳作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：Java那些年专栏专栏介绍：本专栏涵盖了JavaSE从基础语法到面向对象编程，从异常处理到集合框架，从I/O流到多线程并发，再到网络编程和虚拟机内部机制等一系列编程要素个人感慨：市面上关于JavaSE的学习路线或知识图谱很繁杂，学习起来比较费劲，Java知识体系非常庞大，刚接触阶段只需要
计算机毕业设计hadoop+spark知识图谱房源推荐系统房价预测系统房源数据分析房源可视化房源大数据大屏大数据毕业设计机器学习计算机毕业设计大全
创新点：1.支付宝沙箱支付2.支付邮箱通知(JavaMail)3.短信验证码修改密码4.知识图谱5.四种推荐算法(协同过滤基于用户、物品、SVD混合神经网络、MLP深度学习模型)6.线性回归算法预测房价7.Python爬虫采集链家数据8.AI短信识别9.百度地图API10.lstm情感分析11.spark大屏可视化开发技术：springbootvue.jspythonechartssparkmys
WeKnow-RAG：智能自适应的检索增强生成方法步子哥人工智能
在当今快速发展的人工智能领域，检索增强生成（Retrieval-AugmentedGeneration，RAG）方法逐渐成为一种新兴的解决方案。CobusGreyling在他最新的文章中深入探讨了WeKnow-RAG，这一方法通过结合知识图谱和网络搜索技术，极大地提升了大型语言模型（LLMs）在复杂查询中的表现。知识图谱的力量知识图谱（KnowledgeGraphs,KGs）作为信息检索的重要工具
大数据毕业设计hadoop+spark+hive微博舆情情感分析知识图谱微博推荐系统 qq_79856539 javaweb 大数据 hadoop 课程设计
（一）Selenium自动化Python爬虫工具采集新浪微博评论、热搜、文章等约10万条存入.csv文件作为数据集；（二）使用pandas+numpy或MapReduce对数据进行数据清洗，生成最终的.csv文件并上传到hdfs；（三）使用hive数仓技术建表建库，导入.csv数据集；（四）离线分析采用hive_sql完成，实时分析利用Spark之Scala完成;（五）统计指标使用sqoop导入m
大数据毕业设计天hadoop+spark+hive游戏推荐系统游戏数据分析可视化大屏 steam游戏爬虫游戏大数据机器学习知识图谱计算机毕业设计机器学习深度学习人工智能知识图谱 2401_84159688 程序员大数据 hadoop 人工智能
|—||一、选题的目的和意义用户往往因为不能及时查看游戏信息而造成许多烦恼。另一方面，游戏商城平台没能进行系统的管理与维护使游戏信息没能及时的更新。而传统的游戏信息管理，采用的还是手工备案、人工查询的方式。但是随之游戏信息的增多这种管理方式的工作量不断加大，这种做法就存在费时费力、缺乏时效性、不利于调动人员的积极性等缺点。一旦网站建立好之后，一方面，用户可以在第一时间在系统里查询所需的信息，另一方
graphRAG原理解析——基于微软graphRAG+Neo4j llm-graph-builder 赖皮猫 neo4j
知识图谱生成llm-graph-builder（以下简称LGB）也使用了最新的graph+RAG的思路，使用知识图谱来加持RAG，提供更加准确和丰富的知识问答。知识图谱的生成上，利用大模型的泛化能力来自动生成和构建知识图谱，包括实体、关系和属性等。其相较于微软开源的GraphRAG（以下简称MS-GRAG）有很多相似和同源之处，但也有很多的不同。模块能力llm-graph-builderGraph
在neo4j中导入csv文件并构建知识图谱芹菜还是菜知识图谱 neo4j 知识图谱
本文csv文件数据来源于openKG中达观的开源知识图谱数据。从开源社区中下载下来的数据文件还是json，先用python把json文件转为csv文件。import csvimport jsonwith open('entities.json','r',encoding='utf-8')as fp: data=json.load(fp,strict=False)csv_file=open('en
深入理解PyTorch中的MessagePassing 小桥流水---人工智能深度学习机器学习算法人工智能 pytorch 人工智能 python
深入理解PyTorch中的MessagePassing图神经网络（GraphNeuralNetworks，简称GNNs）在近年来已成为处理图形数据的一种强大工具，广泛应用于社交网络分析、蛋白质结构预测、知识图谱增强等多个领域。PyTorchGeometric（PyG）是基于PyTorch的一个库，专为图神经网络的研究和实现而设计。在PyG中，MessagePassing类是实现图神经网络层的核心组
ecchart关系图展示（知识图谱） P-ShineBeam 知识基础 echarts 前端 javascript
ECharts关系图#box{display:none;background-color:lightgoldenrodyellow;width:200px;height:260px;position:absolute;right:10px;top:150px;}#box-type{display:block;}#box-name{display:block;}/*#box-index{*//*di
计算机毕业设计Hadoop+Spark知识图谱体育赛事推荐系统体育赛事热度预测系统体育赛事数据分析体育赛事可视化体育赛事大数据机器学习大数据毕业设计大数据毕设机器学习人工智能计算机毕业设计大全
开发技术前端：vue.js、element-ui、echarts后端：springboot、mybatis大数据：spark、hadoop数据库：mysql关系型数据库、neo4j图数据库算法：协同过滤推荐算法、MLP深度学习模型、SVD神经网络混合推荐算法、lstm模型、KNN、CNN、Sklearn、K-Means第三方平台：百度AI、阿里云短信、支付宝沙箱支付爬虫：Pythonchrome-
React+Vis.js（06）：vis.js修改选中节点的样式和边的样式叁拾舞 Vis.js javascript react.js 前端 vis.js
文章目录初始化知识图谱选中节点修改节点背景颜色选中节点修改节点文字颜色未选中节点恢复节点背景颜色和文字颜色修改当前选中节点的边的颜色初始化知识图谱创建network.js组件，来初始化原始知识图谱：importReact,{useRef,useEffect}from"react";importvisfrom"vis";constnodes=newvis.DataSet([
图神经网络GNN的前世今生小桥流水---人工智能 Python程序代码深度学习人工智能神经网络人工智能深度学习
GNN图神经网络（GraphNeuralNetwork，简称GNN）已经成为处理图形结构数据的一种强大工具，广泛应用于社交网络分析、知识图谱、推荐系统等领域。在本文中，我们将深入探讨图神经网络的历史背景、关键的发展阶段以及未来可能的发展方向。一、背景介绍图（Graph）是一种数据结构，由节点（Node）和连接节点的边（Edge）组成。在许多现实世界的应用中，数据自然地呈现出图形结构，如社交网络中的
A Survey of Large Language Models on Generative Graph Analytics: Query, Learning, and Applications UnknownBody LLM Daily Survey Paper LLM for Graph 语言模型人工智能自然语言处理
本文是LLM系列文章，针对《ASurveyofLargeLanguageModelsonGenerativeGraphAnalytics:Query,Learning,andApplications》的翻译。生成图分析的大型语言模型综述：查询、学习和应用摘要1引言2前言3图结构理解任务4图学习任务5图形推理6图表示7基于知识图谱的增强检索8基于图LLM的应用9基准数据集和评估10未来的方向11结论
计算机毕业设计hadoop+spark知识图谱美食推荐系统美食价格预测美团推荐系统美团爬虫大众点评爬虫美食数据分析美食可视化大屏大数据毕设计算机毕业设计大全
创新点：1.支付宝沙箱支付2.支付邮箱通知(JavaMail)3.短信验证码修改密码4.知识图谱5.四种推荐算法(协同过滤基于用户、物品、SVD混合神经网络、MLP深度学习模型)6.线性回归算法预测房价7.Python爬虫采集大众点评美食数据8.AI短信识别9.百度地图API10.lstm情感分析11.spark大屏可视化开发技术：springbootvue.jspythonechartsspar
计算机毕业设计hadoop+spark知识图谱高考分数预测系统高考志愿推荐系统高考可视化大屏高考大数据高考数据分析高考爬虫大数据毕业设计计算机毕业设计大全
开发技术hadoopsparkspringbootvue.jsPython爬虫、机器学习、深度学习mybatis-plusneo4j知识图谱图数据库mysql协同过滤算法(基于物品、基于用户模式)MLP模型SVD神经网络CNN、KNN、GNN卷积神经网络预测算法阿里云平台百度AI平台阿里大于短信平台lstm模型创新点4种机器学习推荐算法进行高考志愿学校推荐1种深度学习模型进行高考分数线预测hado
多模态大模型Internvl-1.5-26B微调后部署及测试实录（附代码）写代码的中青年大模型 prompt python 大模型 swift 微调 lora
大模型相关目录大模型，包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容从0起步，扬帆起航。基于Dify的智能分类方案：大模型结合KNN算法（附代码）OpenCompass：大模型测评工具一文读懂多模态大模型基础架构大模型管理平台：one-api使用指南大模型RAG、ROG、RCG概念科普RAGOnMedicalKG：大模型
百度Ernie大模型是什么？会飞的岛格酱 AIGC AIGC 百度人工智能
百度的Ernie模型（EnhancedRepresentationthroughkNowledgeIntegration）是一个基于Transformer架构的预训练语言模型。它由百度研发，旨在通过整合大规模语料和知识图谱来增强模型的语言理解和生成能力。它通过整合大规模语料和知识图谱，采用多任务学习和分层预训练策略，在多个自然语言处理任务上取得了显著的性能提升。Ernie模型的不断发展和优化，使其
3.Python数据分析—数据分析入门知识图谱&索引(知识体系中篇) 以山河作礼。 Python数据分析项目数据分析知识图谱数据挖掘 python 开发语言
3.Python数据分析—数据分析入门知识图谱&索引-知识体系中篇一·个人简介二·数据获取和处理2.1数据来源：2.2数据清洗：2.2.1缺失值处理：2.2.2异常值处理：2.3数据转换：2.3.1数据类型转换：2.3.2数据编码：2.4数据合并与重塑：2.4.1数据合并：2.4.2数据拼接：2.4.3数据重塑：三·数据探索与分析3.1描述性统计分析3.2数据可视化原则和技巧3.3探索性数据分析（
智合同如何助力建筑行业合同智能化管理智合同（小智）合同智能应用 AI技术降本增效提质人工智能自然语言处理知识图谱深度学习大数据
#建筑行业#人工智能#AI#合同智能应用#深度学习#自然语言处理技术#知识图谱智合同-采用深度学习、自然语言处理技术、知识图谱等人工智能技术，为企业提供专业的合同相关的智能服务。其主要服务包含：合同智能审查、合同要素智能提取、合同版本对比、合同智能起草、ICR智能识别、合同履约追踪、文本一致性对比、广告审查、合同范本库等服务。智合同在助力建筑行业合同智能化管理方面具有显著的优势。首先，智合同利用A
【大咖力荐新手必备】软件开发入门，这300篇文章就够了！高校俱乐部软件开发新手必备数据编码 IP
小编在这里根据知识图谱整理了CSDN站内的优质文章300篇，帮助见习工程提升技术能力、实现系统化学习！基础IT技术文章300篇大合集包含：【信息/编码】进制转换25篇、数据编码25篇；【IP/组网】网关与网段25篇、IP协议26篇、主机与DNS23篇、访问控制37篇；【程序逻辑】JavaScript29篇、常用算法37篇；【Web基础】HTML31篇、CSS32篇、DOM与BOM23篇扫码添加小助
知识图谱最新权威综述论文解读：实体发现 ngl567
上期我们介绍了2020年知识图谱最新权威综述论文《ASurveyonKnowledgeGraphs:Representation,AcquisitionandApplications》的知识图谱补全部分，本期我们将一起学习这篇论文的实体发现部分。论文地址：https://arxiv.org/pdf/2002.00388.pdfarxiv.org1实体发现本节将基于实体的知识获取区分为若干细分任务，
视频回放- Neo4j “图,无处不在 ”关联系列线上研讨会 : 知识图谱助力企业提升数据应用价值 Jennifer726 音视频知识图谱 big data 数据库开发数据仓库
感谢您注册参加1月12日Neo4j“图,无处不在”关联系列线上研讨会-知识图谱助力企业提升数据应用价值。以下是相关内容视频回放。欢迎推荐给更多的同事和朋友观看。图的影响力-回顾2021，展望2022(Dr.JimWebber,Neo4j首席科学家）https://www.bilibili.com/video/BV1V44y1L7kX/从数据分析到数据智能-Neo4j知识图谱介绍(金昕，Neo4j高
构建生物医学知识图谱from zero to hero （4）：通过Neo4j构建知识图谱 ASKCOS AIDD CADD 化学生物知识图谱 neo4j 人工智能
图数据库是一种专门用于存储图形数据的NoSQL数据库。与传统的关系型数据库和其他NoSQL数据库不同，图数据库利用图形数据模型来存储和管理数据。图形数据模型由节点和边组成，节点代表实体，边代表实体之间的关系。例如，在社交网络中，用户可以表示为节点，朋友关系可以表示为边。图数据库具有以下特点：灵活的数据模型：图数据库采用图形数据模型，可以灵活地存储和表示各种类型的数据，例如社交网络、地图、知识图谱等
【了解机器学习的定义与发展历程】 AK@ 人工智能人工智能机器学习
曾梦想执剑走天涯，我是程序猿【AK】目录简述概要知识图谱简述概要了解机器学习的定义与发展历程知识图谱机器学习（MachineLearning，ML）是一门跨学科的学科，它使用计算机模拟或实现人类学习行为，通过不断地获取新的知识和技能，重新组织已有的知识结构，从而提高自身的性能。简单来说，机器学习就是让计算机从数据中学习规律，并根据这些规律对未来数据进行预测。机器学习的发展历程可以追溯到上世纪50年
【人工智能学习思维脉络导图】 AK@ 人工智能人工智能学习
曾梦想执剑走天涯，我是程序猿【AK】目录知识图谱1.基础知识2.人工智能核心概念3.实践与应用4.持续学习与进展5.挑战与自我提升6.人脉网络知识图谱人工智能学习思维脉络导图1.基础知识计算机科学基础数学基础（线性代数、微积分、概率论和统计学）编程语言（Python、R等）2.人工智能核心概念机器学习监督学习无监督学习强化学习深度学习神经网络卷积神经网络（CNN）循环神经网络（RNN）自然语言处理
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key