远洋之帆

知识抽取（一）

这部分知识涉及到知识图谱重要环节，知识抽取和知识链接，会涉及到很多算法和抽取pipline。需要较强的背景知识，本文仅把思路和算法做了概括并没详细展开讲解，需要了解相关算法细节可以谷歌。

 知识抽取任务定义和相关比赛

知识抽取技术

• 实体抽取

序列标注方法（HMM、CRF、LSTM+CRF）

• 关系抽取

 基于模板的方法

优点

 监督学习方法

 机器学习方法

轻量级特征

中等量级特征

重量级特征

 深度学习方法

深度学习方法特征设计

 Pipeline

 Joint Model

 弱监督学习方法

 远程监督方法

 Bootstrapping

• 事件抽取

事件抽取任务最基础的部分包括:

事件抽取的pipeline方法

Joint Modeling with Structured Prediction

基于深度学习的事件抽取方法

扩充语料的方法

从网络获取事件信息

 命名实体识别

 术语抽取

 关系抽取

 事件抽取

 共指消解

比赛

Knowledge Base Population (KBP)

Semantic Evaluation(SemEval)

 面向结构化数据的知识抽取

标准与工具

 面向半结构化数据的知识抽取

百科类知识抽取

DBpedia

Zhishi.me

WEB网页数据抽取:包装器生成

手工法

自动抽取

WEB TABLE抽取简介

 实践展示:基于百科数据的知识抽取

抽取框架

Knowledge Collection (BuddhistFigures)

Knowledge Fusion (Buddhist Figures)

Knowledge Completion (Buddhist Figures)

从不同来源、不同结构的数据中进行知识提取,形成知识存入到知识图谱。20世纪70年代后期出现在NLP领域，自动化地从文本中发现和抽取相关信息。从多个文本碎片中合并信息，通常应用在特定领域，将非结构化转化为结构化数据。

 Schemas

 Relations

 Knowledge base

 RDF triples

从结构化数据库中获取知识:D2R

 难点:复杂表数据的处理

从链接数据中获取知识:图映射

 难点:数据对齐

从半结构化(网站)数据中获取知识:使用包装器

 难点:方便的包装器定义方法,包装器自动生成、更新与维护

从文本中获取知识:信息抽取

 难点:结果的准确率与覆盖率

 知识抽取任务定义和相关比赛

知识抽取技术

知识抽取的一个例子，如上图：

• 实体抽取

序列标注方法（HMM、CRF、LSTM+CRF）

人工特征

 词本身的特征

-边界特征:边界词概率

-词性

-依存关系

互联网新技术在线教育领航者

 前后缀特征

-姓氏:李XX、王X

-地名:XX省、XX市

 字本身的特征

-是否是数字

-是否是字符

• 关系抽取

 信息抽取 (Information Extraction)研究领域的任务之一

 从文本中抽取出两个或者多个实体之间的语义关系

举例:

王健林谈儿子王思聪:我期望他稳重一点。

父子 (王健林, 王思聪)

 基于模板的方法

 基于触发词的Pattern

 基于依存句法分析的Pattern

优点

 在小规模数据集上容易实现

 构建简单

缺点

 特定领域的模板需要专家构建

 难以维护

 可移植性差

 规则集合小的时候,召回率很低

 监督学习方法

确定实体对的情况下,根据句子上下文对实体关系进行预测,构建一个监督学习应该怎么做?

 机器学习方法

 预先定义好关系的类别

 人工标注一些数据

 设计特征表示

 选择一个分类方法 (SVM、NN、Naive Bayes)

 评估结果

轻量级特征

 实体前后的词

 实体的类型

 实体之间的距离

中等量级特征

 Chunk序列

重量级特征

 实体间的依存关系路径

 实体间树结构的距离

 特定的结构信息

 深度学习方法

深度学习方法特征设计

• Position embeddings

• Word embeddings

• Knowledge embeddings

 Pipeline

• 识别实体和关系分类是完全分离的两个过程,不会相互影响,关系的识别依赖于实体识别的效果

 Joint Model

• 实体识别和关系分类的过程是共同优化的

优点

 准确率高,标注数据越多越准确

缺点

 标注数据成本太高

 不能扩展新的关系

 弱监督学习方法

 没有足够多标注数据的情况下,怎么办?

 数据量特别大的情况下,如何抽取实体间关系?

 远程监督方法

知识库与非结构化文本对齐来自动构建大量训练数据,减少模型对人工标注数据的依赖,增强模型跨领域适应能力

 Bootstrapping

通过在文本中匹配实体对和表达关系短语模式,寻找和发现新的潜在关系三元组

 远程监督方法

两个实体如果在知识库中存在某种关系,则包含该两个实体的非结构化句子均能表示出这种关系。

在某知识库中存在: 创始人 (乔布斯, 苹果公司)则可构建训练正例:乔布斯是苹果公司的联合创始人和CEO

具体步骤

1. 从知识库中抽取存在关系的实体对

2. 从非结构化文本中抽取含有实体对的句子作为训练样例

优点

 可以利用丰富的知识库信息,减少一定的人工标注

缺点

 假设过于肯定,引入大量噪声,存在语义漂移现象

 很难发现新的关系

 Bootstrapping

给定种子集合,如:<姚明, 叶莉>

1. 从文档中抽取出包含种子实体的新闻,如

姚明老婆叶莉简历身高曝光

X 老婆 Y 简历身高曝光

姚明与妻子叶莉外出赴约

X 与妻子 Y 外出赴约

姚明携爱妻叶莉外出赴约

X 携爱妻 Y 外出赴约

2. 将抽取出的Pattern去文档集中匹配

•

小猪与妻子伊万外出赴约

3. 根据Pattern抽取出的新文档如种子库,迭代多轮直到不符合条件

 优点

 构建成本低,适合大规模构建

 可以发现新的关系 (隐含的)

 缺点

 对初始给定的种子集敏感

 存在语义漂移问题

 结果准确率较低

 缺乏对每一个结果的臵信度的计算

• 事件抽取

事件是指发生的事情,通常具有时间、地点、参与者等属性,事件的发生可能因为一个动作的产生或者系统状态的改变。

事件抽取的定义

从自然语言中抽取出用户感兴趣的事件信息,并以结构化的形式呈现出来,例如事件发生的时间、地点、发生原因、参与着等。

事件抽取的相关术语

 事件描述 (Event Mention):描述事件的词组或句子

 事件触发 (Event Trigger):表明事件出现的主要词汇

 事件元素 (Event Argument):事件的重要信息

 元素角色 (Argument Role):元素在句子中的语义角色

事件抽取任务最基础的部分包括:

 识别事件触发词及事件类型

 抽取事件元素同时判断其角色

 抽出描述事件的词组或句子

此外,事件抽取任务还包括:

 事件属性标注

 事件共指消解

事件抽取的pipeline方法

有监督的事件抽取方法的标准流程一种pipeline的方法,将事件抽取任务转化为多阶段的分类问题,需要的分类器包括:

事件识别

 事件触发次分类器 (Trigger Classifier)

• 用于判断词汇是否是是事件触发词,以及事件的类别

 元素分类器 (Argument Classifier)

• 判别词组是否是事件的元素

元素抽取

 元素角色分类器 (Role Classifier)

• 判定元素的角色类别

 属性分类器 (attribute classifier)

属性分类

• 判定事件的属性

 可报告性分类器 (Reportable-Event Classifier)

可报告性判别

• 判定是否存在值得报告的事件实例

分类器模型可以是机器学习方法中的各种分类器模型,比如MaxEnt、SVM等。

Joint Modeling with Structured Prediction

 使用一个模型同时抽取出所有的信息的联合。

 将问题建模成结构预测问题,使用搜索方法

进行求解。

 避免了误差传播导致的性能下降。

 全局特征可以从整体的结构中学习得到,从

而使用全局的信息来提升局部的预测。

基于深度学习的事件抽取方法

 传统方法的缺陷:

 需要借助外部的NLP工具

• 导致了误差的累积、传播

• 有些语言或者领域缺少NLP工具

 需要人工设计特征

 深度学习方法的优势:

 减少了对外部NLP工具的依赖,甚至不依赖NLP工具,建模成端对端的系统。

 使用词向量作为输入,词向量蕴含了丰富的语言特征。

 神经网络具有自动提取句子特征的能力,避免了人工设计特征的繁琐工作。

扩充语料的方法

使用FrameNet扩展语料 Shulin Liu, ACL 2016

FrameNet

• 语言学家定义及标注的语义框架资源

• 层级的组织结构

• 1000+ 框架、10000+ 词法单元、150000+ 标注例句

运用结构化的知识库自动生成语料 Yubo Chen, ACL 2017

• 利用世界知识和语言知识

• 自动生成大规模事件语料

从网络获取事件信息

• 从网络获取同一事件的不同报道

• 使用强化学习方法,做信息融合的决策

子任务

 命名实体识别

 检测: 库克非常兴奋。 [库克]:实体

 分类: 库克非常兴奋。 [库克]:人物

 术语抽取

从语料中发现多个单词组成的相关术语。

 关系抽取

王思聪是万达集团董事长王健林的独子。

互联网新技术在线教育领航者

[王健林] <父子关系> [王思聪]

 事件抽取

据路透社消息,英国当地时间9月15日早8时15分,位于伦敦西南地铁线

District Line的Parsons Green地铁站发生爆炸,目前已确定有多人受伤,具体

伤亡人数尚不明确。目前,英国警方已将此次爆炸与起火定性为恐怖袭击。

• 恐怖袭击事件

触发词: 发生爆炸

时间: 当地时间9月15日早8时15分

地点: Parsons Green地铁站

攻击者: -

伤亡人数: -

 共指消解

[美国总统特朗普]否决了一家有中资背景的私募基金对美国莱迪思半导体公司

的收购案,[他]在多个专家小组的建议下做出该决定。

比赛

Knowledge Base Population (KBP)

KBP对ACE定义的任务进一步修订,适合现代知识抽取的需求

主要分为四个独立任务和一个整合任务 https://tac.nist.gov/2017/KBP/

 实体发现与链接 (Entity Discovery and Linking, EDL)

• person (PER), organization (ORG), geopolitical entity (GPE), location

(LOC), and facility (FAC) entities mentioned in the documents, and to

link each mention to its KB node



槽填充 (Slot Filling, SF)

• to fill in values for specific attributes ("slots") for specific entities

• 姚明,1980年9月12日出生于上海市徐汇区,祖籍江苏省苏州市吴江

区震泽镇

 事件抽取 (Event)

• Event Nugget (EN) to detect event nuggets (i.e., mentions of events in text),

and Event Argument (EAL) to extract event arguments and link arguments

that belong to the same event.

 信念和情感 (Belief and Sentiment, BeSt)

• detects belief and sentiment of an entity toward another entity, relation, or

event

• 联合国安理会谴责埃及恐怖袭击事件

 谴责(发起方:联合国安理会承受方:埃及恐怖袭击事件)

 端到端冷启动知识构建

• build a KB from scratch, using a predefined KB schema and a collection of

unstructured text

Semantic Evaluation(SemEval)

由ACL-SIGLEX组织的国际权威的词义消歧评测,目标是增进人们对词

义与多义现象的理解

https://en.wikipedia.org/wiki/SemEval

 面向结构化数据的知识抽取

标准与工具

Mapping languages

 Standards by RDB2RDF working group (W3C)

 Direct Mapping

 R2RML

 Proprietary

Tools

Free: D2R, Virtuoso, Morph, r2rml4net,

db2triples, ultrawrap, Quest

 Commercial: Virtuoso, ultrawrap, Oracle SW

 面向半结构化数据的知识抽取

百科类知识抽取

DBpedia

 大规模多语言百科知识图谱,维基百科的结构化版本,linked data核心数据集

 覆盖127种语言,两千八百万个实体,数亿三元组,支持数据集的完全下载

 固定模式对实体信息进行抽取,包括abstract, infobox,category, page link等

Generic Infobox Extraction

同义属性名不做映射,保持Wikipedia中原有内容,如:birthdate与dateOfBirth.

Mapping-based Infobox Extraction

定义dbpedia ontology,将属性做好对齐(二次处理, 人工定义规则),目前共有2795 properties.

Zhishi.me

1) 第一份中文大规模开放链接数据 (Chinese Linking Open Data);

2) 1000万实体,2亿三元组,提供关键字查询服务,API调用,SPARQL Endpoint

WEB网页数据抽取:包装器生成

互联网中的网页含有丰富的数据。例如电商网站中的商品数据,黄页网站中的公司数据等等。我们获取网页中的数据经过加工后便可以丰富我们的知识图谱。

手工法

手工方法需要查看网页结构和代码,通过人工分析,手工写出适合这个网站的表达式,这个表达式的形式可以是XPath表达式,也可以是CSS选择器的表达式等。

何为XPath?

XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位臵的语言。借助它可以获取网页中元素的位臵,从而获取需要的信息。分析上页搜索结果页面,价格信息的XPath为:

//*[@id="J_goodsList"]/ul/*/div/div[3]/strong

• 何为CSS选择器表达式?

通过CSS元素实现对网页中元素的定位,获取元素的信息。分析上页搜索结果页面,价格信息的CSS选择器表达式为:

#J_goodsList > ul > li:nth-child(1) > div > div.p-price > strong

包装器定义:

包装器是一个能够将数据从HTML网页中抽取出来,并且将它们还原为结构化的数据的软件程序。

包装器归纳是基于有监督学习的,他从标注好的训练样例集合中学习数据抽取规则,用于从其他用相同标记或相同网页模板抽取目标数据。

• 网页清洗

有些网页结构不规范,例如前后标签不对成,没有结束标签符。不规范的网页结构容易在抽取的过程中产生噪声。清洗可以用Tidy来完成。

• 网页标注

网页标注是在网页上标注你需要抽取数据的过程。标注的过程可以是给网页中的某个位臵打上特殊的标签表明这是需要抽取的数据。

例如我们要抽取上面举例的“华为P10”搜索页面的商品信息和价格信息,就可以在通过在他们所在的标签里打上一个特殊的标记作为标注。

• 包装器空间的生成

对标注的数据生成XPath集合空间,对生成的集合进行归纳,形成若干个子集。归纳的规则是在子集中的XPath能够覆盖多个标注的数据项,具有一定的泛化能力。

• 包装器评估

评估规则一:准确率。将筛选出来的包装器对原先训练的网页进行标注,统计与人工标注的相同项的数量,除以当前标注的总数量。准确率越高评分越高。

评估规则二:召回率。将筛选出来的包装器对原先训练的网页进行标注,统计与人工标注的相同项的数量,除以人工标注的总数量。召回率越高评分越高。

• 包装器归纳结果

经过前面一系列的工作之后,“华为P10”搜索结果页面最后价格信息的XPath的路径为:

//*[@id="J_goodsList"]/ul/*/div/div[3]/strong

自动抽取

• 有监督学习包装器有缺陷

1. 由于需要手工标注的工作,它不适合对大量站点的抽取。

2. 包装器维护的开销会很大。例如网站改变了其已有的模板,之前生成的包装器将会无效。

• 自动抽取是可行的

网站中的数据通常是用很少的一些模板来编码的,通过挖掘多个数据记录中的重复模式来寻找这些模板是可能的。

• 包装器训练

自动抽取网页中的信息不需要任何的先验知识和人工数据的标注。将一组网页通过聚类将相似的网页分成若干个组,每组相似的网页将获得不同的包装器。

• 包装器应用

将需要抽取的网页与之前生成包装器的网页进行比较,在某个分类下则使用该分类下的包装器来获取网页中的信息。

WEB TABLE抽取简介

为了解释Web table中隐含的语义,一些工作将其中的内容标注为RDF三元组。这种标注的第一步就是实体链接 (entity linking ), 即将表格中各单元格的字符串映射到给定知识库的实体上。

1) 候选生成.

针对表格单元格中的每个字符串,从给定的知识库中识别候选实体。

( token 匹配 ( 字符串匹配 , 同义词匹配 ,...…)

2) 实体消岐.

从给定字符串所对应的实体集中选择唯一的一个实体作为链接实体。

位于相同行或者列的字符串可能相关，换句话说,出现在同一表格中的任意两个字符串都存在某种潜在的

关联。使用图算法对给定表格中的所有字符串进行联合消岐。

对每张给定的表格建立一个实体消岐图

每个图由如下的元素构成:

字符串节点, 实体节点

字符串-实体边: 字符串与候选实体间的无向边,

实体-实体边: 实体间的无向边

两类实体链接影响因子:

1) 每个字符串的初始重要性(importance of each mention);

2) 不同节点间的语义相关度(semantic relatedness between different nodes).

实体消岐算法—PageRank.

PageRank算法 (Iterative probability propagation) 用来整合不同的实体

链接影响因子从而做出最终的实体链接决定.

 实践展示:基于百科数据的知识抽取

在线百科知识抽取技术应用—佛学知识图谱构建。

抽取框架

Knowledge Collection (BuddhistFigures)

Category方法

– 人工观察百科中与佛教人物相关的分类

– 抽取佛教人物分类下所有文章对应的实体

•

命名规则方法

例: ―.+菩萨‖

―.+禅师‖

– 维基百科―佛教头衔‖分类下的所有实体

– 已抽取出的实体名中高频的公共字符串

Knowledge Fusion (Buddhist Figures)

 主语融合

 实体的―别名‖属性和重定向作为实体的别名集合

 不同来源的实体存在一个完全匹配的别名则认为是相同实体

 人工检查相同实体数多于三个的映射

 主语融合 (寺庙知识图谱中的应用)

问题

–同名不同实体

: {龙泉寺、北京龙泉寺}

: {龙泉寺、南京龙泉寺}

: {龙泉寺、北京龙泉寺}

–同实体不同名

: {龙泉禅寺、北京凤凰岭龙泉寺}

:互联网新技术在线教育领航者

{龙泉寺_(海淀区)、海淀区龙泉寺}

• 谓语融合

– Infobox属性

保留选定的15个佛学人物子属性与9个佛学寺庙子属性,人工总结每个属性在现有知识图谱中存在的谓语形式

– 其它属性

直接替换谓语的命名空间

 宾语融合

 单值属性

精确性原则:日期、地点等类型的属性值出现冲突时选择最精确的一个。

大多数原则:不同来源的属性值出现冲突时,选择出现次数最多的值。

 多值属性

直接合并去重

Knowledge Completion (Buddhist Figures)

 对infobox属性进行补全

 人工编写规则从非结构化文本中抽取属性值

 依照知识融合方法将属性值对转换为三元组

你可能感兴趣的:(知识图谱)

音视频知识图谱 2022.04 关键帧Keyframe
前些时间，我在知识星球上创建了一个音视频技术社群：关键帧的音视频开发圈，在这里群友们会一起做一些打卡任务。比如：周期性地整理音视频相关的面试题，汇集一份音视频面试题集锦，你可以看看《音视频面试题集锦2022.04》。再比如：循序渐进地归纳总结音视频技术知识，绘制一幅音视频知识图谱。下面是2022.04月知识图谱新增的内容节选：1）图谱路径：**采集/音频采集/声音三要素/响度******主观计量响
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【笔记】自然语言处理NLP---概论 xhanZ NLP相关
（from人文学院开设课程）目录1.自然语言处理概论1.1自然语言处理研究的意义、历史与现状1.1.1自然语言的特点1.1.2自然语言处理研究的意义1.1.3国外研究现状1.2NLP的方法、特点和规律1.2.1理性主义与经验主义1.2.2语料库语言学：经验主义研究方法1.2.3汉语语言处理的方法1.2.4基于知识图谱的深度学习1.自然语言处理概论1.1自然语言处理研究的意义、历史与现状1.1.1自
GraphRAG入门:基本概念、应用场景及学习方法学习中的程序媛~ 学习方法
一、GraphRAG的用途是什么GraphRAG用于复杂信息分析,适合处理跨文档、有噪音或主题抽象的数据.二、GraphRAG能做什么GraphRAG能连接大量信息,回答普通难搜索难以解答的问题.她可以回答跨文档的问题,也能总结数据集的主要主题.三、GraphRAG的特点1.知识图谱提取:使用llm自动从输入文本文档中创建知识图谱,表示数据中的实体、关系和关键声明2.层次聚类使用leiden技术对
【Java那些年系列-启航篇 01】史上最强JavaSE学习路线图 & 知识图谱夏之以寒 Java那些年专栏 Java JavaSE Java学习路线 Java知识图谱
【Java那些年系列-启航篇01】史上最强JavaSE学习路线图&知识图谱作者名称：纸飞机-暖阳作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：Java那些年专栏专栏介绍：本专栏涵盖了JavaSE从基础语法到面向对象编程，从异常处理到集合框架，从I/O流到多线程并发，再到网络编程和虚拟机内部机制等一系列编程要素个人感慨：市面上关于JavaSE的学习路线或知
【Java那些年系列-启航篇 04】Java程序架构：深入理解类与对象的设计原则夏之以寒 Java那些年专栏 java 架构类对象数据结构
作者名称：纸飞机-暖阳作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：Java那些年专栏专栏介绍：本专栏涵盖了JavaSE从基础语法到面向对象编程，从异常处理到集合框架，从I/O流到多线程并发，再到网络编程和虚拟机内部机制等一系列编程要素个人感慨：市面上关于JavaSE的学习路线或知识图谱很繁杂，学习起来比较费劲，Java知识体系非常庞大，刚接触阶段只需要
计算机毕业设计hadoop+spark知识图谱房源推荐系统房价预测系统房源数据分析房源可视化房源大数据大屏大数据毕业设计机器学习计算机毕业设计大全
创新点：1.支付宝沙箱支付2.支付邮箱通知(JavaMail)3.短信验证码修改密码4.知识图谱5.四种推荐算法(协同过滤基于用户、物品、SVD混合神经网络、MLP深度学习模型)6.线性回归算法预测房价7.Python爬虫采集链家数据8.AI短信识别9.百度地图API10.lstm情感分析11.spark大屏可视化开发技术：springbootvue.jspythonechartssparkmys
WeKnow-RAG：智能自适应的检索增强生成方法步子哥人工智能
在当今快速发展的人工智能领域，检索增强生成（Retrieval-AugmentedGeneration，RAG）方法逐渐成为一种新兴的解决方案。CobusGreyling在他最新的文章中深入探讨了WeKnow-RAG，这一方法通过结合知识图谱和网络搜索技术，极大地提升了大型语言模型（LLMs）在复杂查询中的表现。知识图谱的力量知识图谱（KnowledgeGraphs,KGs）作为信息检索的重要工具
大数据毕业设计hadoop+spark+hive微博舆情情感分析知识图谱微博推荐系统 qq_79856539 javaweb 大数据 hadoop 课程设计
（一）Selenium自动化Python爬虫工具采集新浪微博评论、热搜、文章等约10万条存入.csv文件作为数据集；（二）使用pandas+numpy或MapReduce对数据进行数据清洗，生成最终的.csv文件并上传到hdfs；（三）使用hive数仓技术建表建库，导入.csv数据集；（四）离线分析采用hive_sql完成，实时分析利用Spark之Scala完成;（五）统计指标使用sqoop导入m
大数据毕业设计天hadoop+spark+hive游戏推荐系统游戏数据分析可视化大屏 steam游戏爬虫游戏大数据机器学习知识图谱计算机毕业设计机器学习深度学习人工智能知识图谱 2401_84159688 程序员大数据 hadoop 人工智能
|—||一、选题的目的和意义用户往往因为不能及时查看游戏信息而造成许多烦恼。另一方面，游戏商城平台没能进行系统的管理与维护使游戏信息没能及时的更新。而传统的游戏信息管理，采用的还是手工备案、人工查询的方式。但是随之游戏信息的增多这种管理方式的工作量不断加大，这种做法就存在费时费力、缺乏时效性、不利于调动人员的积极性等缺点。一旦网站建立好之后，一方面，用户可以在第一时间在系统里查询所需的信息，另一方
graphRAG原理解析——基于微软graphRAG+Neo4j llm-graph-builder 赖皮猫 neo4j
知识图谱生成llm-graph-builder（以下简称LGB）也使用了最新的graph+RAG的思路，使用知识图谱来加持RAG，提供更加准确和丰富的知识问答。知识图谱的生成上，利用大模型的泛化能力来自动生成和构建知识图谱，包括实体、关系和属性等。其相较于微软开源的GraphRAG（以下简称MS-GRAG）有很多相似和同源之处，但也有很多的不同。模块能力llm-graph-builderGraph
在neo4j中导入csv文件并构建知识图谱芹菜还是菜知识图谱 neo4j 知识图谱
本文csv文件数据来源于openKG中达观的开源知识图谱数据。从开源社区中下载下来的数据文件还是json，先用python把json文件转为csv文件。import csvimport jsonwith open('entities.json','r',encoding='utf-8')as fp: data=json.load(fp,strict=False)csv_file=open('en
深入理解PyTorch中的MessagePassing 小桥流水---人工智能深度学习机器学习算法人工智能 pytorch 人工智能 python
深入理解PyTorch中的MessagePassing图神经网络（GraphNeuralNetworks，简称GNNs）在近年来已成为处理图形数据的一种强大工具，广泛应用于社交网络分析、蛋白质结构预测、知识图谱增强等多个领域。PyTorchGeometric（PyG）是基于PyTorch的一个库，专为图神经网络的研究和实现而设计。在PyG中，MessagePassing类是实现图神经网络层的核心组
ecchart关系图展示（知识图谱） P-ShineBeam 知识基础 echarts 前端 javascript
ECharts关系图#box{display:none;background-color:lightgoldenrodyellow;width:200px;height:260px;position:absolute;right:10px;top:150px;}#box-type{display:block;}#box-name{display:block;}/*#box-index{*//*di
计算机毕业设计Hadoop+Spark知识图谱体育赛事推荐系统体育赛事热度预测系统体育赛事数据分析体育赛事可视化体育赛事大数据机器学习大数据毕业设计大数据毕设机器学习人工智能计算机毕业设计大全
开发技术前端：vue.js、element-ui、echarts后端：springboot、mybatis大数据：spark、hadoop数据库：mysql关系型数据库、neo4j图数据库算法：协同过滤推荐算法、MLP深度学习模型、SVD神经网络混合推荐算法、lstm模型、KNN、CNN、Sklearn、K-Means第三方平台：百度AI、阿里云短信、支付宝沙箱支付爬虫：Pythonchrome-
React+Vis.js（06）：vis.js修改选中节点的样式和边的样式叁拾舞 Vis.js javascript react.js 前端 vis.js
文章目录初始化知识图谱选中节点修改节点背景颜色选中节点修改节点文字颜色未选中节点恢复节点背景颜色和文字颜色修改当前选中节点的边的颜色初始化知识图谱创建network.js组件，来初始化原始知识图谱：importReact,{useRef,useEffect}from"react";importvisfrom"vis";constnodes=newvis.DataSet([
图神经网络GNN的前世今生小桥流水---人工智能 Python程序代码深度学习人工智能神经网络人工智能深度学习
GNN图神经网络（GraphNeuralNetwork，简称GNN）已经成为处理图形结构数据的一种强大工具，广泛应用于社交网络分析、知识图谱、推荐系统等领域。在本文中，我们将深入探讨图神经网络的历史背景、关键的发展阶段以及未来可能的发展方向。一、背景介绍图（Graph）是一种数据结构，由节点（Node）和连接节点的边（Edge）组成。在许多现实世界的应用中，数据自然地呈现出图形结构，如社交网络中的
A Survey of Large Language Models on Generative Graph Analytics: Query, Learning, and Applications UnknownBody LLM Daily Survey Paper LLM for Graph 语言模型人工智能自然语言处理
本文是LLM系列文章，针对《ASurveyofLargeLanguageModelsonGenerativeGraphAnalytics:Query,Learning,andApplications》的翻译。生成图分析的大型语言模型综述：查询、学习和应用摘要1引言2前言3图结构理解任务4图学习任务5图形推理6图表示7基于知识图谱的增强检索8基于图LLM的应用9基准数据集和评估10未来的方向11结论
计算机毕业设计hadoop+spark知识图谱美食推荐系统美食价格预测美团推荐系统美团爬虫大众点评爬虫美食数据分析美食可视化大屏大数据毕设计算机毕业设计大全
创新点：1.支付宝沙箱支付2.支付邮箱通知(JavaMail)3.短信验证码修改密码4.知识图谱5.四种推荐算法(协同过滤基于用户、物品、SVD混合神经网络、MLP深度学习模型)6.线性回归算法预测房价7.Python爬虫采集大众点评美食数据8.AI短信识别9.百度地图API10.lstm情感分析11.spark大屏可视化开发技术：springbootvue.jspythonechartsspar
计算机毕业设计hadoop+spark知识图谱高考分数预测系统高考志愿推荐系统高考可视化大屏高考大数据高考数据分析高考爬虫大数据毕业设计计算机毕业设计大全
开发技术hadoopsparkspringbootvue.jsPython爬虫、机器学习、深度学习mybatis-plusneo4j知识图谱图数据库mysql协同过滤算法(基于物品、基于用户模式)MLP模型SVD神经网络CNN、KNN、GNN卷积神经网络预测算法阿里云平台百度AI平台阿里大于短信平台lstm模型创新点4种机器学习推荐算法进行高考志愿学校推荐1种深度学习模型进行高考分数线预测hado
多模态大模型Internvl-1.5-26B微调后部署及测试实录（附代码）写代码的中青年大模型 prompt python 大模型 swift 微调 lora
大模型相关目录大模型，包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容从0起步，扬帆起航。基于Dify的智能分类方案：大模型结合KNN算法（附代码）OpenCompass：大模型测评工具一文读懂多模态大模型基础架构大模型管理平台：one-api使用指南大模型RAG、ROG、RCG概念科普RAGOnMedicalKG：大模型
百度Ernie大模型是什么？会飞的岛格酱 AIGC AIGC 百度人工智能
百度的Ernie模型（EnhancedRepresentationthroughkNowledgeIntegration）是一个基于Transformer架构的预训练语言模型。它由百度研发，旨在通过整合大规模语料和知识图谱来增强模型的语言理解和生成能力。它通过整合大规模语料和知识图谱，采用多任务学习和分层预训练策略，在多个自然语言处理任务上取得了显著的性能提升。Ernie模型的不断发展和优化，使其
3.Python数据分析—数据分析入门知识图谱&索引(知识体系中篇) 以山河作礼。 Python数据分析项目数据分析知识图谱数据挖掘 python 开发语言
3.Python数据分析—数据分析入门知识图谱&索引-知识体系中篇一·个人简介二·数据获取和处理2.1数据来源：2.2数据清洗：2.2.1缺失值处理：2.2.2异常值处理：2.3数据转换：2.3.1数据类型转换：2.3.2数据编码：2.4数据合并与重塑：2.4.1数据合并：2.4.2数据拼接：2.4.3数据重塑：三·数据探索与分析3.1描述性统计分析3.2数据可视化原则和技巧3.3探索性数据分析（
智合同如何助力建筑行业合同智能化管理智合同（小智）合同智能应用 AI技术降本增效提质人工智能自然语言处理知识图谱深度学习大数据
#建筑行业#人工智能#AI#合同智能应用#深度学习#自然语言处理技术#知识图谱智合同-采用深度学习、自然语言处理技术、知识图谱等人工智能技术，为企业提供专业的合同相关的智能服务。其主要服务包含：合同智能审查、合同要素智能提取、合同版本对比、合同智能起草、ICR智能识别、合同履约追踪、文本一致性对比、广告审查、合同范本库等服务。智合同在助力建筑行业合同智能化管理方面具有显著的优势。首先，智合同利用A
【大咖力荐新手必备】软件开发入门，这300篇文章就够了！高校俱乐部软件开发新手必备数据编码 IP
小编在这里根据知识图谱整理了CSDN站内的优质文章300篇，帮助见习工程提升技术能力、实现系统化学习！基础IT技术文章300篇大合集包含：【信息/编码】进制转换25篇、数据编码25篇；【IP/组网】网关与网段25篇、IP协议26篇、主机与DNS23篇、访问控制37篇；【程序逻辑】JavaScript29篇、常用算法37篇；【Web基础】HTML31篇、CSS32篇、DOM与BOM23篇扫码添加小助
知识图谱最新权威综述论文解读：实体发现 ngl567
上期我们介绍了2020年知识图谱最新权威综述论文《ASurveyonKnowledgeGraphs:Representation,AcquisitionandApplications》的知识图谱补全部分，本期我们将一起学习这篇论文的实体发现部分。论文地址：https://arxiv.org/pdf/2002.00388.pdfarxiv.org1实体发现本节将基于实体的知识获取区分为若干细分任务，
视频回放- Neo4j “图,无处不在 ”关联系列线上研讨会 : 知识图谱助力企业提升数据应用价值 Jennifer726 音视频知识图谱 big data 数据库开发数据仓库
感谢您注册参加1月12日Neo4j“图,无处不在”关联系列线上研讨会-知识图谱助力企业提升数据应用价值。以下是相关内容视频回放。欢迎推荐给更多的同事和朋友观看。图的影响力-回顾2021，展望2022(Dr.JimWebber,Neo4j首席科学家）https://www.bilibili.com/video/BV1V44y1L7kX/从数据分析到数据智能-Neo4j知识图谱介绍(金昕，Neo4j高
构建生物医学知识图谱from zero to hero （4）：通过Neo4j构建知识图谱 ASKCOS AIDD CADD 化学生物知识图谱 neo4j 人工智能
图数据库是一种专门用于存储图形数据的NoSQL数据库。与传统的关系型数据库和其他NoSQL数据库不同，图数据库利用图形数据模型来存储和管理数据。图形数据模型由节点和边组成，节点代表实体，边代表实体之间的关系。例如，在社交网络中，用户可以表示为节点，朋友关系可以表示为边。图数据库具有以下特点：灵活的数据模型：图数据库采用图形数据模型，可以灵活地存储和表示各种类型的数据，例如社交网络、地图、知识图谱等
【了解机器学习的定义与发展历程】 AK@ 人工智能人工智能机器学习
曾梦想执剑走天涯，我是程序猿【AK】目录简述概要知识图谱简述概要了解机器学习的定义与发展历程知识图谱机器学习（MachineLearning，ML）是一门跨学科的学科，它使用计算机模拟或实现人类学习行为，通过不断地获取新的知识和技能，重新组织已有的知识结构，从而提高自身的性能。简单来说，机器学习就是让计算机从数据中学习规律，并根据这些规律对未来数据进行预测。机器学习的发展历程可以追溯到上世纪50年
【人工智能学习思维脉络导图】 AK@ 人工智能人工智能学习
曾梦想执剑走天涯，我是程序猿【AK】目录知识图谱1.基础知识2.人工智能核心概念3.实践与应用4.持续学习与进展5.挑战与自我提升6.人脉网络知识图谱人工智能学习思维脉络导图1.基础知识计算机科学基础数学基础（线性代数、微积分、概率论和统计学）编程语言（Python、R等）2.人工智能核心概念机器学习监督学习无监督学习强化学习深度学习神经网络卷积神经网络（CNN）循环神经网络（RNN）自然语言处理
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi