打怪的蚂蚁

CCKS-2017行业知识图谱构建与应用-上篇

本次Tutorial主要包括以下三方面内容：

行业知识图谱概述，包括行业图谱简介，行业知识图谱的应用及挑战，以及行业知识图谱生命周期管理。
行业知识图谱关键技术，包括行业知识图谱生命周期中各过程的相关技术、现有可用的工具，以及各过程中的最佳实践及相关组件。
行业知识图谱应用实战，以金融证券行业应用为例，演示知识图谱从知识建模、知识抽取到行业应用的全过程。

目标听众与我们公众号的粉丝群体一致：

知识图谱学习者，对知识图谱在行业应用感兴趣的技术人员。
各行业应用中想引入知识图谱相关技术的知识及数据管理人员，尤其是有行业知识库构建及上层问答搜索等需求的。
希望了解知识图谱如何在行业中应用的管理决策者。

这篇文章通读完大致需要60分钟时间，不过这些时间都是值得的，因为你将可以：

了解行业知识图谱相关概念及其在行业中的现有应用，理解其给行业应用带来的价值。
理解知识图谱在行业中应用的相关挑战与生命周期，理解生命周期各过程的基本目标及相关组件。
对行业知识图谱应用相关的技术进行熟悉，了解有哪些现有的工具可以使用和相关注意事项、以及一些行业应用的最佳实践。

我们假定阅读本Tutorial的听众具备如下基础知识：

RDF：资源描述框架

OWL： RDF Schema 的扩展

SPARQL：RDF查询语言

第一节行业知识图谱简介

“Things not strings”

众所周知，知识图谱是Google于2012年提出，用来优化搜索结果。

经过多年的发展，知识图谱在人工智能的许多行业都拥有了成熟落地的应用。

按照知识图谱的覆盖面来看，主要分为通用知识图谱与行业知识图谱。

1.1 通用知识图谱

Google所提出的知识图谱即为通用知识图谱，他是面向全领域的。通用知识图谱主要应用于面向互联网的搜索、推荐、问答等业务场景。由于它强调的是广度，因而更多的是强调实体，很难生成完整的全局性本体层的统一管理。

通用知识图谱一些常见的项目如下：

1.2 行业知识图谱

号称“硅谷最神秘科技公司”的Palantir是行业知识图谱领域的典型代表，其软件允许客户对大量的敏感数据进行语义关联分析，以防止欺诈，确保数据安全等。

行业知识图谱相对通用知识图谱拥有如下特性：

面向特定领域的知识图谱。
用户目标对象需要考虑行业中各种级别的人员，不同人员对应的操作和业务场景不同，因而需要一定的深度与完备性。
行业知识图谱对准确度要求非常高，通常用于辅助各种复杂的分析应用或决策支持。
有严格与丰富的数据模式，行业知识图谱中的实体通常属性比较多且具有行业意义。

行业数据的特点包括：

数据来源多：内部数据、互联网数据、第三方数据。
数据类型多：包含结构化、半结构化、非结构化数据，且后两者越来越多。
数据模式无法预先确定：模式在数据出现之后才能确定；数据模式随数据增长不断演变。
数据量大：在大数据背景下，行业应用的数据的数量通常都以亿级别计算，存在通常在TB、PB级别甚至更多。

行业知识图谱已经在以下很多领域有了很好的应用，在后面我们会以金融证券领域为例，详细展开介绍。

下面这张图是部分知名的行业知识图谱项目

通过上面的介绍我们已经大致了解通用知识图谱和行业知识图谱的区别，这里简单总结一下：

当然通用知识图谱与行业知识图谱并不是相互对立，而是相互补充的一个关系，利用通用知识图谱的广度结合行业知识图谱的深度，可以形成更加完善的知识图谱。

通用知识图谱中的知识，可以作为行业知识图谱构建的基础；而构建的行业知识图谱，再融合到通用知识图谱中。

因此两者是相辅相成，结合使用的。

第二节行业知识图谱应用

介绍完行业知识图谱的基本知识后，我们来看下行业知识图谱都有哪些应用。

首先看金融领域，目前金融证券领域应用主要侧重于两个方面，一个是企业知识图谱，另一个是金融交易知识图谱。

2.1 企业知识图谱

企业数据包括：企业基础数据、投资关系、任职关系、企业专利数据、企业招投标数据、企业招聘数据、企业诉讼数据、企业失信数据、企业新闻数据。

利用知识图谱融合以上企业数据，我们做了企业知识图谱，并在企业知识图谱之上利用图谱的特性，针对金融业务场景研发了一系列的图谱应用。

以下6大功能为我们当前已投入使用的企业知识图谱应用。

2.1.1 企业风险评估

基于企业的基础信息、投资关系、诉讼、失信等多维度关联数据，利用图计算等方法构建科学、严谨的企业风险评估体系，有效规避潜在的经营风险与资金风险。

2.1.2 企业社交图谱查询

基于投资、任职、专利、招投标、涉诉关系以目标企业为核心向外层层扩散，形成一个网络关系图，直观立体展现企业关联。

2.1.3 企业最终控制人查询

基于股权投资关系寻找持股比例最大的股东，最终追溯至自然人或国有资产管理部门。

2.1.4 企业之间路径发现

在基于股权、任职、专利、招投标、涉诉等关系形成的网络关系中，查询企业之间的最短关系路径，衡量企业之间的联系密切度。

2.1.5 初创企业融资发展历程

基于企业知识图谱中的投融资事件发生的时间顺序，记录企业的融资发展历程。

2.1.6 上市企业智能问答

用户可以通过输入自然语言问题，系统直接给出用户想要的答案。

2.2 金融交易知识图谱

金融交易知识图谱在企业知识图谱之上，增加交易客户数据、客户之间的关系数据以及交易行为数据等，利用图挖掘技术，包括很多业务相关的规则，来分析实体与实体之间的关联关系，最终形成金融领域的交易知识图谱。

有了这样一个交易知识图谱之后，可以支持如下的应用（这块普惠金融的李文哲之前有篇文章有过相似介绍）。

2.2.1 辅助信贷审核

基于知识图谱数据的统一查询，全面掌握客户信息；避免由于系统、数据等孤立造成的信息不一致造成信用重复使用、信息不完整等问题。

2.2.2 反欺诈（1）

不一致性验证可以用来判断一个借款人的欺诈风险，类似交叉验证。比如借款人A和借款人B填写的是同一个公司电话，但借款人A填写的公司和借款人B填写的公司完全不一样，这就成了一个风险点，需要审核人员格外的注意。

2.2.3 反欺诈（2）

组团进行欺诈的成员会用虚假的身份去申请贷款，但部分信息是共享的。如下图可以看出贷款人A、B和C之间没有直接的关系，但通过知识图谱可以很容易的看出这三者之间都共享着某一部分信息，存在一定的组团骗贷风险。

2.2.4 其它应用场景

异常分析（异常交易、异常客户）

失联客户管理

精准营销

智能投研

智能公告

……

2.3 医疗知识图谱

知识图谱与医疗数据的结合形成医疗知识图谱，医疗数据包括：医疗专业知识、医疗文献、医疗常识、电子病历大数据、医案、现有医疗资源、疾病库、指南与规范。

行业内比较知名的应用和项目如下

2.3.1 中医药知识平台

中医药知识平台（http://www.tcmkb.cn）是一个针对中医药知识体系系统梳理、建模和展示的平台，它以图形可视化方式展示核心概念之间的关系，辅助中医专家厘清学术发展脉络，浏览中医知识，发现知识点之间的联系。

其优势在于与阅读文献等手段相比，可大幅度节约知识检索获取时间。

2.3.2 Watson辅助诊断与治疗

IBM 的 Watson 机器人已经在医院里辅助医生对病人进行医疗诊断。安德森癌症中心联合IBM Watson开展终结癌症的任务，其底层核心就是用了知识图谱相关技术。

2.3.3 Open PHACTS 新药物发现

在欧盟，Open PHACTS重大联合攻关项目，这一面向药物研发的开放数据访问平台开发，其核心技术就是采用语义技术为有关研究人员提供高效的数据访问技术环境的支持。

2.4 图情资源知识图谱

通过行业知识图谱结合图书情报资源，包括图书馆分类学体系、特定方向的知识体系、图书、期刊、论文、专利、报刊、百科数据、行业网站等数据，构建图情资源知识图谱，可以帮助图情领域在文献信息检索和文献信息资源管理推荐等方面，提供新的思路。

以下为我们在图情资源知识图谱之上的一些应用案例。

2.4.1 知识导航与资源展示

使用知识图谱中的知识体系进行知识导航，引导用户学习知识体系，以及通过实体链接所关联的资源。

2.4.2 知识点推荐与搜索

2.4.3 图情资源统计

2.5 其他行业应用

知识图谱在许多其他行业也有应用，这里篇幅有限，我们仅列出方向及应用点。

农业
识别作物危害
政府行业
政府大数据管理
客服系统
基于知识图谱的智能客服系统
……

第三节知识图谱应用挑战

从数据库时代发展到大数据时代，企业希望融合使用全量数据，在融合使用的过程中会遇到非常多的挑战，首先我们看下从DB（DataBase）到BD（BigData）到底会有哪些不一样的地方？

这个图在我们公众号前几期分享中有介绍过，无论是从数据规模、数据类型、数据模式还是处理方法，数据库时代与大数据时代均存在非常大的差异性，大数据时代，没有一种通用的处理方法可以解决所有问题。因此我们结合PlantData平台在许多行业应用中的实战经验，总结了以下5点企业全量数据应用中会面临到的挑战。

一）多源异构数据难以融合

企业包括不仅内部的数据，还有从第三方接入的数据以及互联网公开数据，甚至是采购的数据，这些数据很多，可能描述同一个事物有很多的数据源，它们分散在不同的地方，怎么去把它们融合起来？这是我们面临的第一个挑战。

二）数据模式动态变迁困难

大数据时代，数据模式是在不断变化的场景下，因此迫切需要一种可自由扩展的数据模式，而传统的数据库定义好数据库表结构和业务逻辑之后，修改起来成本非常高。第二个挑战在于如何简便的进行数据模式的动态变迁。

三）非结构化数据计算机难以理解

非结构化的数据最重要的部分就是文本数据，对于文本数据如何处理，传统的方式主要是基于字符串的检索，对文本中丰富信息的使用率非常低，因此第三个挑战在于怎么对非结构化的数据去进行有效的应用？

四）数据使用专业程度过高

传统数据在使用的时候需要专业的程序员去编写程序去进行查询使用，普通的应用分析人员很难对数据去进行探索，第四个挑战在于需要有一种快速的方式去对数据进行探索和使用。

五）分散的数据难以统一消费利用

在传统的数据库时代，构建的不同系统使用方式不一样，数据集成的时候会非常混乱，我们更多的期待把这些分散的数据融合起来，形成一个统一的消费利用的入口，工作人员可以从统一的入口进行数据的消费。

针对以上五个挑战，我们的解决方案是：基于行业知识图谱进行数据融合使用。

首先从最底层开始，针对挑战1，使用知识图谱（本体）对各种类型的数据进行抽象建模，基于可动态变化的“概念—实体—属性—关系”数据模型，实现各类数据的统一建模。

针对挑战2，使用可支持数据模式动态变化的知识图谱的数据存储，实现对大数据及数据模式动态变化的支持。

针对挑战3：利用信息抽取、实体链接相关的技术，对非结构化及半结构化数据进行抽取和转换，形成知识图谱形式的知识，以及和知识图谱里面的结构化的知识进行链接。

最后针对挑战4、5：在知识融合的基础上，基于语义检索、智能问答、图计算、推理、可视化等技术，提供统一的数据检索、分析和利用平台。

第四节行业知识图谱生命周期

从行业知识图谱的全生命周期来看，可以分为知识建模，知识获取，知识融合，知识融合，知识存储，知识计算和知识应用6个部分。

4.1 知识建模

知识建模即建立知识图谱的数据模式，行业知识图谱的数据模式对整个知识图谱的结构进行定义，因此需要保证可靠性。

通常采用两种方法：一种是自顶向下的方法，专家手工编辑形成数据模式；另一种是自底向上的方法，基于行业现有的标准进行转换或者从现有的高质量行业数据源（如业务系统数据库表）中进行映射。

其中的关键技术与难点包括：

如何保证多人在线协同编辑，并且实时更新；
能够支持导入集成使用现有的（结构化）知识；
支持大数据量；
能够支撑时间、时序等复杂知识表达；
可以与自动算法进行结合，避免全人工操作

建模完成后，需要往里面填充相应的知识，这就需要用到知识获取。

4.2 知识获取

从不同来源、不同结构的数据中进行知识提取，形成知识存入到知识图谱，这一过程我们称为知识获取。

上图中的三类数据基本涵盖了我们目前所需要处理的所有数据类型，针对不同种类的数据，我们利用不同的技术进行提取。

从结构化数据库中获取知识：D2R
- 难点：复杂表数据的处理
从链接数据中获取知识：图映射
- 难点：数据对齐
从半结构化（网站）数据中获取知识：使用包装器
- 难点：方便的包装器定义方法，包装器自动生成、更新与维护
从文本中获取知识：信息抽取
- 难点：结果的准确率与覆盖率

4.3 知识融合

已经从不同的数据源把不同结构的数据提取知识之后，接下来要做的是把它们融合成一个统一的知识图谱，这时候需要用到知识融合的技术。

知识融合主要分为数据模式层融合和数据层融合，分别用的技术如下：

a) 数据模式层融合

概念合并
概念上下位关系合并
概念的属性定义合并

b) 数据层融合

实体合并
实体属性融合
冲突检测与解决

由于行业知识图谱的数据模式通常采用自顶向下和自底向上结合的方式，在模式层基本都经过人工的校验，保证了可靠性，因此，知识融合的关键任务在数据层的融合。

举几个知识融合工具的例子：一体化医学语言系统（Unified Medical Language System，UMLS），它提供了一种位于生物医学领域词表之间的映射结构，方便不同术语系统之间能够彼此转换。

另一个例子是Dbpedia知识图谱，依托于维基百科，通过实体链接实现不同语言实体间的映射。

还有zhishi.me，它主要利用识别sameAs关系，将分散在中文三大百科网站（中文维基百科、互动百科和百度百科）中的知识进行融合。

Google在收购了大型知识库Freebase后，对于其众包形式的信息扩展速度仍不满意，因此创建了名为Knowledge Vault的全球最大知识库，通过特定算法自动搜集整编互联网信息，再将其融入整体数据库中。

截至2014年，Knowledge Vault的入库信息已达16亿条，其中2.71亿条内容为“事实”（真实性在90%以上）。

Knowledge Vault能够建立历史和社会的模型。

以上简单介绍了目前国内外在知识融合方面的一些项目的基本情况，总结一下知识融合中的关键技术与难点，包括四点：

实现不同来源、不同形态数据的融合
海量数据的高效融合
新增知识的实时融合
多语言的融合

4.4 知识存储

接下来要介绍的是知识存储，图谱的数据存储既需要完成基本的数据存储，同时也要能支持上层的知识推理、知识快速查询、图实时计算等应用，因此需要存储以下信息：

三元组知识的存储
事件信息的存储
时态信息的存储
使用知识图谱组织的数据的存储

其关键技术和难点就在于：

大规模三元组数据的存储
知识图谱组织的大数据的存储
事件与时态信息的存储
快速推理与图计算的支持

4.5 知识计算

知识计算主要是在知识图谱中知识和数据的基础上，通过各种算法，发现其中显式的或隐含的知识、模式或规则等，知识计算的范畴非常大，这里主要讲三个方面：

图挖掘计算：基于图论的相关算法，实现对图谱的探索和挖掘。
本体推理：使用本体推理进行新知识发现或冲突检测。
基于规则的推理：使用规则引擎，编写相应的业务规则，通过推理辅助业务决策。

知识计算涉及到的技术非常多，每一项都需要专门去研究，而且已经有很多研究成果，此处我们先列出关键技术和难点，在下一篇文章中详细介绍：

图挖掘计算
- 大规模图算法的效率
本体推理与规则推理
- 大数据量下的快速推理
- 对于增量知识和规则的快速加载

4.6 知识应用

基于知识图谱融合的海量知识和数据，结合上一步的知识计算相关技术，知识图谱可以产生大量的智能应用，比如我们之前提到的企业画像，反欺诈不一致性检测，用户通过自然语言进行搜索等。知识图谱目前的应用很多，这里主要讲三类常见的应用：

语义搜索：基于知识图谱中的知识，解决传统搜索中遇到的关键字语义多样性及语义消歧的难题；通过实体链接实现知识与文档的混合检索。
智能问答：针对用户输入的自然语言进行理解，从知识图谱中或目标数据中给出用户问题的答案。
可视化决策支持：通过提供统一的图形接口，结合可视化、推理、检索等，为用户提供信息获取的入口。

这三类的关键技术与难点分别为：

语义检索：

自然语言的表达多样性问题
自然语言的的歧义问题

智能问答：

准确的语义解析
正确理解用户的真实意图
答案确定与排序

可视化决策支持

通过可视化方式辅助用户模式快速发现
高效地缩放和导航
大图环境下底层算法（图挖掘算法）的效率

通过上述分析，我们列举一下行业知识图谱全生命周期中相关的9大关键技术，这些技术保证了行业知识图谱更加规范的数据表示，更强的数据关联，以及能够体现更深邃的数据价值。

4.7 LOD2

当然在行业内，知识图谱的全生命周期管理方面已经有部分现成的套装工具，比如欧盟的LOD2项目，它主要目标是构建结构化链接数据的企业级管理工具和方法学，提供一个搜索、浏览和生成链接数据的平台。

不过LOD2 侧重于链接数据的生命周期管理，其它类型的数据需要首先转换成链接数据，并且LOD2 没有对中文处理的支持。

4.8 Stardog

另一个代表性工具是Stardog，它是一个企业级知识图谱平台，通过把数据转换成知识，使用知识图谱进行组织，对外提供查询、检索、分析服务。其主要特点为：

把关系数据库映射成虚拟图
支持OWL2的推理
支持Gremlin

但 Stardog 的不足之处在于仅包含对结构化数据（RDBMS、Excel等）的处理，没有针对非结构化数据的知识抽取，也没有包含知识融合功能。

总结一下，我们首先从根源介绍了知识图谱的前身及其基础技术规范，其次对生命周期中每个环节进行了简单的概述，以及关键技术和难点总结，最后介绍了两个目前较为主流的知识图谱平台。

根据难易程度，对于如何在行业应用中使用知识图谱，大致有如下几种方式：

使用现有的套装工具（如 LOD2、Stardog）
在现有套装工具的基础上进行扩充：
使用各生命周期过程的相应工具并进行组合使用
针对性开发或扩展生命周期中特定工具
完全从零开始构建

那么究竟使用哪种方式呢？这需要根据不同的数据，以及不同的业务需求进行相应的取舍。

在下一篇文章中，我们会结合自身在PlantData平台里对图谱全生命周期管理的一些探索，深度介绍行业知识图谱全生命周期的关键技术。

你可能感兴趣的:(知识图谱)

音视频知识图谱 2022.04 关键帧Keyframe
前些时间，我在知识星球上创建了一个音视频技术社群：关键帧的音视频开发圈，在这里群友们会一起做一些打卡任务。比如：周期性地整理音视频相关的面试题，汇集一份音视频面试题集锦，你可以看看《音视频面试题集锦2022.04》。再比如：循序渐进地归纳总结音视频技术知识，绘制一幅音视频知识图谱。下面是2022.04月知识图谱新增的内容节选：1）图谱路径：**采集/音频采集/声音三要素/响度******主观计量响
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【笔记】自然语言处理NLP---概论 xhanZ NLP相关
（from人文学院开设课程）目录1.自然语言处理概论1.1自然语言处理研究的意义、历史与现状1.1.1自然语言的特点1.1.2自然语言处理研究的意义1.1.3国外研究现状1.2NLP的方法、特点和规律1.2.1理性主义与经验主义1.2.2语料库语言学：经验主义研究方法1.2.3汉语语言处理的方法1.2.4基于知识图谱的深度学习1.自然语言处理概论1.1自然语言处理研究的意义、历史与现状1.1.1自
GraphRAG入门:基本概念、应用场景及学习方法学习中的程序媛~ 学习方法
一、GraphRAG的用途是什么GraphRAG用于复杂信息分析,适合处理跨文档、有噪音或主题抽象的数据.二、GraphRAG能做什么GraphRAG能连接大量信息,回答普通难搜索难以解答的问题.她可以回答跨文档的问题,也能总结数据集的主要主题.三、GraphRAG的特点1.知识图谱提取:使用llm自动从输入文本文档中创建知识图谱,表示数据中的实体、关系和关键声明2.层次聚类使用leiden技术对
【Java那些年系列-启航篇 01】史上最强JavaSE学习路线图 & 知识图谱夏之以寒 Java那些年专栏 Java JavaSE Java学习路线 Java知识图谱
【Java那些年系列-启航篇01】史上最强JavaSE学习路线图&知识图谱作者名称：纸飞机-暖阳作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：Java那些年专栏专栏介绍：本专栏涵盖了JavaSE从基础语法到面向对象编程，从异常处理到集合框架，从I/O流到多线程并发，再到网络编程和虚拟机内部机制等一系列编程要素个人感慨：市面上关于JavaSE的学习路线或知
【Java那些年系列-启航篇 04】Java程序架构：深入理解类与对象的设计原则夏之以寒 Java那些年专栏 java 架构类对象数据结构
作者名称：纸飞机-暖阳作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：Java那些年专栏专栏介绍：本专栏涵盖了JavaSE从基础语法到面向对象编程，从异常处理到集合框架，从I/O流到多线程并发，再到网络编程和虚拟机内部机制等一系列编程要素个人感慨：市面上关于JavaSE的学习路线或知识图谱很繁杂，学习起来比较费劲，Java知识体系非常庞大，刚接触阶段只需要
计算机毕业设计hadoop+spark知识图谱房源推荐系统房价预测系统房源数据分析房源可视化房源大数据大屏大数据毕业设计机器学习计算机毕业设计大全
创新点：1.支付宝沙箱支付2.支付邮箱通知(JavaMail)3.短信验证码修改密码4.知识图谱5.四种推荐算法(协同过滤基于用户、物品、SVD混合神经网络、MLP深度学习模型)6.线性回归算法预测房价7.Python爬虫采集链家数据8.AI短信识别9.百度地图API10.lstm情感分析11.spark大屏可视化开发技术：springbootvue.jspythonechartssparkmys
WeKnow-RAG：智能自适应的检索增强生成方法步子哥人工智能
在当今快速发展的人工智能领域，检索增强生成（Retrieval-AugmentedGeneration，RAG）方法逐渐成为一种新兴的解决方案。CobusGreyling在他最新的文章中深入探讨了WeKnow-RAG，这一方法通过结合知识图谱和网络搜索技术，极大地提升了大型语言模型（LLMs）在复杂查询中的表现。知识图谱的力量知识图谱（KnowledgeGraphs,KGs）作为信息检索的重要工具
大数据毕业设计hadoop+spark+hive微博舆情情感分析知识图谱微博推荐系统 qq_79856539 javaweb 大数据 hadoop 课程设计
（一）Selenium自动化Python爬虫工具采集新浪微博评论、热搜、文章等约10万条存入.csv文件作为数据集；（二）使用pandas+numpy或MapReduce对数据进行数据清洗，生成最终的.csv文件并上传到hdfs；（三）使用hive数仓技术建表建库，导入.csv数据集；（四）离线分析采用hive_sql完成，实时分析利用Spark之Scala完成;（五）统计指标使用sqoop导入m
大数据毕业设计天hadoop+spark+hive游戏推荐系统游戏数据分析可视化大屏 steam游戏爬虫游戏大数据机器学习知识图谱计算机毕业设计机器学习深度学习人工智能知识图谱 2401_84159688 程序员大数据 hadoop 人工智能
|—||一、选题的目的和意义用户往往因为不能及时查看游戏信息而造成许多烦恼。另一方面，游戏商城平台没能进行系统的管理与维护使游戏信息没能及时的更新。而传统的游戏信息管理，采用的还是手工备案、人工查询的方式。但是随之游戏信息的增多这种管理方式的工作量不断加大，这种做法就存在费时费力、缺乏时效性、不利于调动人员的积极性等缺点。一旦网站建立好之后，一方面，用户可以在第一时间在系统里查询所需的信息，另一方
graphRAG原理解析——基于微软graphRAG+Neo4j llm-graph-builder 赖皮猫 neo4j
知识图谱生成llm-graph-builder（以下简称LGB）也使用了最新的graph+RAG的思路，使用知识图谱来加持RAG，提供更加准确和丰富的知识问答。知识图谱的生成上，利用大模型的泛化能力来自动生成和构建知识图谱，包括实体、关系和属性等。其相较于微软开源的GraphRAG（以下简称MS-GRAG）有很多相似和同源之处，但也有很多的不同。模块能力llm-graph-builderGraph
在neo4j中导入csv文件并构建知识图谱芹菜还是菜知识图谱 neo4j 知识图谱
本文csv文件数据来源于openKG中达观的开源知识图谱数据。从开源社区中下载下来的数据文件还是json，先用python把json文件转为csv文件。import csvimport jsonwith open('entities.json','r',encoding='utf-8')as fp: data=json.load(fp,strict=False)csv_file=open('en
深入理解PyTorch中的MessagePassing 小桥流水---人工智能深度学习机器学习算法人工智能 pytorch 人工智能 python
深入理解PyTorch中的MessagePassing图神经网络（GraphNeuralNetworks，简称GNNs）在近年来已成为处理图形数据的一种强大工具，广泛应用于社交网络分析、蛋白质结构预测、知识图谱增强等多个领域。PyTorchGeometric（PyG）是基于PyTorch的一个库，专为图神经网络的研究和实现而设计。在PyG中，MessagePassing类是实现图神经网络层的核心组
ecchart关系图展示（知识图谱） P-ShineBeam 知识基础 echarts 前端 javascript
ECharts关系图#box{display:none;background-color:lightgoldenrodyellow;width:200px;height:260px;position:absolute;right:10px;top:150px;}#box-type{display:block;}#box-name{display:block;}/*#box-index{*//*di
计算机毕业设计Hadoop+Spark知识图谱体育赛事推荐系统体育赛事热度预测系统体育赛事数据分析体育赛事可视化体育赛事大数据机器学习大数据毕业设计大数据毕设机器学习人工智能计算机毕业设计大全
开发技术前端：vue.js、element-ui、echarts后端：springboot、mybatis大数据：spark、hadoop数据库：mysql关系型数据库、neo4j图数据库算法：协同过滤推荐算法、MLP深度学习模型、SVD神经网络混合推荐算法、lstm模型、KNN、CNN、Sklearn、K-Means第三方平台：百度AI、阿里云短信、支付宝沙箱支付爬虫：Pythonchrome-
React+Vis.js（06）：vis.js修改选中节点的样式和边的样式叁拾舞 Vis.js javascript react.js 前端 vis.js
文章目录初始化知识图谱选中节点修改节点背景颜色选中节点修改节点文字颜色未选中节点恢复节点背景颜色和文字颜色修改当前选中节点的边的颜色初始化知识图谱创建network.js组件，来初始化原始知识图谱：importReact,{useRef,useEffect}from"react";importvisfrom"vis";constnodes=newvis.DataSet([
图神经网络GNN的前世今生小桥流水---人工智能 Python程序代码深度学习人工智能神经网络人工智能深度学习
GNN图神经网络（GraphNeuralNetwork，简称GNN）已经成为处理图形结构数据的一种强大工具，广泛应用于社交网络分析、知识图谱、推荐系统等领域。在本文中，我们将深入探讨图神经网络的历史背景、关键的发展阶段以及未来可能的发展方向。一、背景介绍图（Graph）是一种数据结构，由节点（Node）和连接节点的边（Edge）组成。在许多现实世界的应用中，数据自然地呈现出图形结构，如社交网络中的
A Survey of Large Language Models on Generative Graph Analytics: Query, Learning, and Applications UnknownBody LLM Daily Survey Paper LLM for Graph 语言模型人工智能自然语言处理
本文是LLM系列文章，针对《ASurveyofLargeLanguageModelsonGenerativeGraphAnalytics:Query,Learning,andApplications》的翻译。生成图分析的大型语言模型综述：查询、学习和应用摘要1引言2前言3图结构理解任务4图学习任务5图形推理6图表示7基于知识图谱的增强检索8基于图LLM的应用9基准数据集和评估10未来的方向11结论
计算机毕业设计hadoop+spark知识图谱美食推荐系统美食价格预测美团推荐系统美团爬虫大众点评爬虫美食数据分析美食可视化大屏大数据毕设计算机毕业设计大全
创新点：1.支付宝沙箱支付2.支付邮箱通知(JavaMail)3.短信验证码修改密码4.知识图谱5.四种推荐算法(协同过滤基于用户、物品、SVD混合神经网络、MLP深度学习模型)6.线性回归算法预测房价7.Python爬虫采集大众点评美食数据8.AI短信识别9.百度地图API10.lstm情感分析11.spark大屏可视化开发技术：springbootvue.jspythonechartsspar
计算机毕业设计hadoop+spark知识图谱高考分数预测系统高考志愿推荐系统高考可视化大屏高考大数据高考数据分析高考爬虫大数据毕业设计计算机毕业设计大全
开发技术hadoopsparkspringbootvue.jsPython爬虫、机器学习、深度学习mybatis-plusneo4j知识图谱图数据库mysql协同过滤算法(基于物品、基于用户模式)MLP模型SVD神经网络CNN、KNN、GNN卷积神经网络预测算法阿里云平台百度AI平台阿里大于短信平台lstm模型创新点4种机器学习推荐算法进行高考志愿学校推荐1种深度学习模型进行高考分数线预测hado
多模态大模型Internvl-1.5-26B微调后部署及测试实录（附代码）写代码的中青年大模型 prompt python 大模型 swift 微调 lora
大模型相关目录大模型，包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容从0起步，扬帆起航。基于Dify的智能分类方案：大模型结合KNN算法（附代码）OpenCompass：大模型测评工具一文读懂多模态大模型基础架构大模型管理平台：one-api使用指南大模型RAG、ROG、RCG概念科普RAGOnMedicalKG：大模型
百度Ernie大模型是什么？会飞的岛格酱 AIGC AIGC 百度人工智能
百度的Ernie模型（EnhancedRepresentationthroughkNowledgeIntegration）是一个基于Transformer架构的预训练语言模型。它由百度研发，旨在通过整合大规模语料和知识图谱来增强模型的语言理解和生成能力。它通过整合大规模语料和知识图谱，采用多任务学习和分层预训练策略，在多个自然语言处理任务上取得了显著的性能提升。Ernie模型的不断发展和优化，使其
3.Python数据分析—数据分析入门知识图谱&索引(知识体系中篇) 以山河作礼。 Python数据分析项目数据分析知识图谱数据挖掘 python 开发语言
3.Python数据分析—数据分析入门知识图谱&索引-知识体系中篇一·个人简介二·数据获取和处理2.1数据来源：2.2数据清洗：2.2.1缺失值处理：2.2.2异常值处理：2.3数据转换：2.3.1数据类型转换：2.3.2数据编码：2.4数据合并与重塑：2.4.1数据合并：2.4.2数据拼接：2.4.3数据重塑：三·数据探索与分析3.1描述性统计分析3.2数据可视化原则和技巧3.3探索性数据分析（
智合同如何助力建筑行业合同智能化管理智合同（小智）合同智能应用 AI技术降本增效提质人工智能自然语言处理知识图谱深度学习大数据
#建筑行业#人工智能#AI#合同智能应用#深度学习#自然语言处理技术#知识图谱智合同-采用深度学习、自然语言处理技术、知识图谱等人工智能技术，为企业提供专业的合同相关的智能服务。其主要服务包含：合同智能审查、合同要素智能提取、合同版本对比、合同智能起草、ICR智能识别、合同履约追踪、文本一致性对比、广告审查、合同范本库等服务。智合同在助力建筑行业合同智能化管理方面具有显著的优势。首先，智合同利用A
【大咖力荐新手必备】软件开发入门，这300篇文章就够了！高校俱乐部软件开发新手必备数据编码 IP
小编在这里根据知识图谱整理了CSDN站内的优质文章300篇，帮助见习工程提升技术能力、实现系统化学习！基础IT技术文章300篇大合集包含：【信息/编码】进制转换25篇、数据编码25篇；【IP/组网】网关与网段25篇、IP协议26篇、主机与DNS23篇、访问控制37篇；【程序逻辑】JavaScript29篇、常用算法37篇；【Web基础】HTML31篇、CSS32篇、DOM与BOM23篇扫码添加小助
知识图谱最新权威综述论文解读：实体发现 ngl567
上期我们介绍了2020年知识图谱最新权威综述论文《ASurveyonKnowledgeGraphs:Representation,AcquisitionandApplications》的知识图谱补全部分，本期我们将一起学习这篇论文的实体发现部分。论文地址：https://arxiv.org/pdf/2002.00388.pdfarxiv.org1实体发现本节将基于实体的知识获取区分为若干细分任务，
视频回放- Neo4j “图,无处不在 ”关联系列线上研讨会 : 知识图谱助力企业提升数据应用价值 Jennifer726 音视频知识图谱 big data 数据库开发数据仓库
感谢您注册参加1月12日Neo4j“图,无处不在”关联系列线上研讨会-知识图谱助力企业提升数据应用价值。以下是相关内容视频回放。欢迎推荐给更多的同事和朋友观看。图的影响力-回顾2021，展望2022(Dr.JimWebber,Neo4j首席科学家）https://www.bilibili.com/video/BV1V44y1L7kX/从数据分析到数据智能-Neo4j知识图谱介绍(金昕，Neo4j高
构建生物医学知识图谱from zero to hero （4）：通过Neo4j构建知识图谱 ASKCOS AIDD CADD 化学生物知识图谱 neo4j 人工智能
图数据库是一种专门用于存储图形数据的NoSQL数据库。与传统的关系型数据库和其他NoSQL数据库不同，图数据库利用图形数据模型来存储和管理数据。图形数据模型由节点和边组成，节点代表实体，边代表实体之间的关系。例如，在社交网络中，用户可以表示为节点，朋友关系可以表示为边。图数据库具有以下特点：灵活的数据模型：图数据库采用图形数据模型，可以灵活地存储和表示各种类型的数据，例如社交网络、地图、知识图谱等
【了解机器学习的定义与发展历程】 AK@ 人工智能人工智能机器学习
曾梦想执剑走天涯，我是程序猿【AK】目录简述概要知识图谱简述概要了解机器学习的定义与发展历程知识图谱机器学习（MachineLearning，ML）是一门跨学科的学科，它使用计算机模拟或实现人类学习行为，通过不断地获取新的知识和技能，重新组织已有的知识结构，从而提高自身的性能。简单来说，机器学习就是让计算机从数据中学习规律，并根据这些规律对未来数据进行预测。机器学习的发展历程可以追溯到上世纪50年
【人工智能学习思维脉络导图】 AK@ 人工智能人工智能学习
曾梦想执剑走天涯，我是程序猿【AK】目录知识图谱1.基础知识2.人工智能核心概念3.实践与应用4.持续学习与进展5.挑战与自我提升6.人脉网络知识图谱人工智能学习思维脉络导图1.基础知识计算机科学基础数学基础（线性代数、微积分、概率论和统计学）编程语言（Python、R等）2.人工智能核心概念机器学习监督学习无监督学习强化学习深度学习神经网络卷积神经网络（CNN）循环神经网络（RNN）自然语言处理
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，