远洋之帆

使用elasticsearch搭建实体搜索引擎

文章摘致：http://openkg.cn/tool/elasticsearch-kbqa

本文档简述基于elasticsearch搭建一个简易实体搜索引擎的流程。该搜索引擎可以按照名称检索实体,实体

属性,多跳检索,以及检索符合多对属性要求的实体。在功能逻辑完成后,可搭建网站将其可视化,一个演示

的demo在此. 实现的代码在此

1. demo功能介绍

1.1 实体检索

实体检索即输入实体名称,返回该实体的所有属性和属性值。

语法规则

输入: 实体名称

示例输入

姚明

佟大为

2.实体的属性检索

输入实体名称和一个属性名称,如果该实体存在该属性值,则返回该属性值。

语法规则

输入: 实体名称:属性名称

示例输入

姚明:出生地

佟大为:身高

3. 多跳查询

多跳查询即形如"姚明的女儿的身高"的查询,即"姚明:女儿"查询得到的是实体"姚明"的一个属性,但同时这

个属性值也作为一个实体存在于数据集中,那么就可以接着对该实体继续查询其属性。

语法规则

输入: 实体:属性1:属性2(:属性3...)

示例输入

姚明:女儿:母亲

姚明:女儿:母亲:身高

4. 根据属性值查询实体

输入多对 [属性名 opearotr 属性值], 它们之间的关系可以是AND, OR,NOT,同时属性值可以是等于,

大于,小于一个输入值,返回满足这些属性限制的实体(由于显示原因返回10个)。

语法规则

输入: [(NOT) 属性名 op 属性值] [AND | OR] [(NOT) 属性名 op 属性值] ...

操作符operator:

: 等于

< 小于

> 大于

<= 小于等于

>= 大于等于

示例输入

职业:足球运动员 AND 国籍:中国

职业:足球运动员 AND not 国籍:中国

职业:足球运动员 OR 职业:篮球运动员 ANd 国籍:中国

职业:足球运动员 and 身高>200

职业:篮球运动员 and 身高>200 and 国籍:中国

2. 环境准备

2.1 elasticsearch安装

去官网找到elasticsearch的安装包,下载.

运行安装包目录下的/bin/elasticsearch.sh(在windows上运行/bin/elasticsearch.bat,本实

验在ubuntu上完成,后续步骤涉及到一些linux 指令)

注意:该命令已经运行了elasticsearch. 可能提示不能在root账户下运行,此时请切换到非root账

户下运行。如果想让elasticsearch在后台一直运行,在上述命令最后加-d参数即可。

至此,安装完成。可以通过访问本地9200端口来访问elasticsearch:

curl 'http://localhost:9200'

注:可通过修改配置文件使elasticsearch可以远程访问

3. 数据准备

实验所使用的数据集为一个基于cnschema标准的人物属性数据集。该数据集由三元组组成,每个三元组描述

一个人物实体的某个属性。在将此数据集导入elasticsearch之前,需要考虑其在elasticsearch中存储的

方式。最简单的方式就是将每个三元组视作一个文档,其中包含3个字段, 分别为三元组的(subject,

predicate, object). 但本实验采取的是另一种方式,即:一个实体的所有属性和属性值为一个文档。具

体细节及原因见下述。

3.1 知识库格式转换 (preprocess.py)

实验所使用的数据集的格式如下:

A.J.万德 affiliation 篮球

A.J.万德 description A.J.万德(A.J. Wynder),1964年出生,前美国篮球运动员。

A.J.万德 nationality 美国

A.J.万德 weight 82公斤

A.J.库克 birthDate 1978年7月22日

A.J.库克 birthPlace #加拿大安大略省奥沙瓦

A.J.库克 description A.J.库克(A.J. Cook),1978年7月22日在加拿大安大略省奥沙瓦出

生,演员。|||1997年出道在电视电影《父亲大人》饰演了配

角Lisa 。1999年在电影处女作《处女之死》中饰演五女儿之一的Mary Lisbon 。2003年在电影

《死神来了2》中出演主角。2005年开始在CBS美剧《犯罪

心理》饰演常驻角色Jennifer Jareau;2010年短暂离开《犯罪心理》剧组,2011年重新回归再次

成为常驻角色。2011年还在电视电影《带艾瑟莉回家》

中饰演主角Libba并凭借此片提名棱镜奖迷你剧或电视电影最佳表演奖。

A.J.库克 height 1.69m

A.J.库克 nationality 加拿大

A.J.库克代表作品《死神来了2》

A.J.库克职业演员

A.J.英格利什 birthDate 1967年7月11日

A.J.英格利什 description A·J·英格利什(英语全名:Albert Jay English,1967年7月11日

-),为美国NBA联盟的前职业篮球运动员。他在1990年的N

BA选秀中第2轮第10顺位被华盛顿子弹选中。

A.J.英格利什 nationality 美国

elasticsearch要求文档的输入格式为json。将实验数据集转化为json格式后,每个实体对应一个json的

object,也即elasticsearch中的一个文档:

{

"subj":"A.J.万德",

"weight":"82公斤",

"height":None,

"po":[{"pred":"affiliation","obj":"篮球"},

{"pred":"description","obj":"A.J.万德(A.J. Wynder),1964年出生,前美

国篮球运动员。"},

{"pred":"nationality","obj":"美国"},

]

}

{

...

}

如上所示,数据集中"A.J.万德"的所有属性及属性值汇总在一起,存储在一个json对象中作为一篇文档导入

elasticsearch, 其它的每个实体类似。

其中,所有属性除了"height"及"weight"两个属性之外,都存在一个名为"po"的list对象中,每个

属性及其属性值作为一个小的object,分别用键"pred"和"obj"来标识属性名和属性值。

之所以要将"height"和"weight"单独考虑,而不是和其它属性一样也存储在list中,是因为这两个属

性要支持范围搜索,即"height>200"这样的搜索,因此要求它们在存储时的数据类型为integer,而

list中的所有属性的属性值的存储类型都为keyword(不分词的string,只支持全文匹配)。

之所以每一对(属性名,属性值)存储为一个object,并放入一个list中,是因为这是elasticsearch

定义的一种nested object的数据类型,这种数据类型能存储大量拥有相同的key的对象,并且可以对

之进行有效的检索。这样,不论数据集中有多少种种类不同的属性,都可以以相同的格式存储。

之所以不是每一个三元组存储为一篇文档,而是一个实体相关的所有属性及属性值存储为一篇文档,是

因为要支持通过多对(属性,属性值)联合检索满足要求的实体,以这种格式存储,能提高检索效率,具

体原因见后面对应部分。

另外,实验数据集中某些属性的属性值不是很规范,例如height,weight的属性值存在单位不同,包含无关

字符等问题,其它属性的属性值也存在多个值以空格等字符连接作为一个值(例如,"职业:运动员足球运动

员", 这个为了检索时匹配方便,应该将其拆成两个)的问题,因此在格式转换的同时也要对属性值做一些清

理。

3.2 属性同义词扩展(可选) (attr_mapping.txt)

因为实验的数据集较小,包含的属性种类不多,因此可以人工增加一些同义的属性词。下面的文件中每一行的

第一个词为数据中存在的属性,后面的为后来添加的同义的属性词。在解析查询语句的时候,如遇到同义的属

性词,可将其映射到数据集中存在的属性上。

weight 重量多重体重

relatedTo 相关有关

telephone 电话号码电话号电话号码手机手机号手机号码

birthDate 出生日期出生时间生日时候出生年出生

height 高度海拔多高身高

sibling 兄弟哥哥姐姐弟弟妹妹姐妹

workLocation 工作地点在哪工作在哪上班上班地点

children 子女孩子女儿儿子

年龄几岁多大

代表作品代表作著作成就作品

homeLocation 家庭住址住哪住在哪住在什么

职业工作做什么干什么

colleague 大学高校毕业于

birthPlace 出生地在哪出生出生在

description 简介是什么描述什么是概述

parent 父母双亲

jobTitle 工作职业

award 奖项奖励

address 地址在哪位置在什么地方

nationality 国籍哪国人

spouse 配偶丈夫妻子老婆老公

deathData 去世日期逝世日期时候死

affiliation 从属

gender 性别是男是女

民族

deathPlace 去世地点在哪死在哪去世

memberOf 成员

alumniOf 校友毕业于毕业

4. 导入elasticsearch

4.1 elastcisearch的index和type简介

elasticsearch用index和type管理导入的文档。其中index可以类比为一个单独的数据库,其中存放的是结

构相似的文档。type是index的一个子结构,可以存放不同部分的数据,可以类比为一张表,而每一篇文档都

存储在一个type中,类似于一条记录存储在一张表中。

4.2 在elasticsearch中新建index和type

为实验数据集新建index('demo')和type('person')。elasticsearch使用Restful API可以方便的交

互,通过elasticsearch的mapping文件可以创建index和type,并指定每个字段在elasticsearch中存储

的类型。

下述示例用curl命令在命令行中与elasticsearch交互。其中, height, weight存储为integer数据类

型,而实体名subj和其他属性存储为keyword类型。所有其他属性存储在一个nested object对象中。打开

命令行,运行:

curl -XPUT 'localhost:9200/demo?pretty' -H 'Content-Type: application/json' -

{

"mappings": {

"person": {

"properties": {

"subj": {"type": "keyword"},

"height": {"type": "integer"},

"weight": {"type": "integer"},

"po":{

"type": "nested",

"properties":{

"pred":{"type":"keyword"},

"obj":{"type":"keyword"}

}

注:如果没有curl命令,可以安装一下, sudo apt-get install curl

4.3 导入数据 (insert.py)

往新建的type中导入实验数据集,导入同样使用Restful API,可以使用elasticsearch提供的insert方

法。一个示例的python导入脚本如下:

#coding:utf-8

'''

将一个知识图谱中的数据导入elastic search

'''

try:

import simplejson as json

except:

import json

import sys

import requests

def bulk_insert(base_url, data):

response = requests.post(base_url, headers={"Content-Type":"application/x-

ndjson"}, data=data)

def begin_insert_job(index_name, type_name, json_filepath, bulk_size=1000):

'''

index_name: 要导入的index的名称

type_name, 要导入的type的名称

json_filepath: 要导入的json文件的路径

bulk_size: 批导入时一次导入的文档数目

'''

base_url = "http://localhost:9200/" + index_name + "/" + type_name +

"/_bulk"

f = open(json_filepath)

cnt, es_id = 0, 1

data = ""

for line in f:

action_meta = '{"index": {"_id":"' + str(es_id) + '"}}'

data = data + action_meta + "\n" + line

es_id += 1

cnt += 1

if cnt >= bulk_size:

bulk_insert(base_url, data)

cnt, data = 0, ""

if not (es_id % bulk_size):

print es_id

if cnt:

bulk_insert(base_url, data)

if __name__ == '__main__':

begin_insert_job("demo", "person", "./data/person.json")

运行此脚本就可以将已经转换好格式的数据文件导入刚才新建的index和type中。

注意更改其中文件的路径。

此时已经可以检索该知识库了,例如,按照实体名称检索:

curl -XGET 'localhost:9200/demo/person/_search?&pretty' -H 'Content-

Type:application/json' -d'

{

"query":{

"bool":{

"must":{

"term":{"subj":"姚明"}

}

注:elasticsearch的查询除了常见的get方式,即将参数和参数值作为链接的一部分提交,也支持如

上所示将查询参数写入一个json结构体,用该请求体查询的方式。这种方式由于表达方式更加灵活,因

此可以表达较为复杂的查询。具体细节可以参考elasticsearch文档。

5 功能实现 (views.py)

5.1 按名称检索实体

按名称检索实体,并返回该实体的所有属性和属性值。这种检索的查询在第3步其实已经实现,只需要将查询

的结果解析一下,写入一个python dict对象返回即可

def _search_single_subj(entity_name):

query = json.dumps({"query": { "bool":{"filter":{"term" :{"subj" :

entity_name}}}}}) #组装query

response = requests.get("http://localhost:9200/demo/person/_search", data

= query) #查询

res = json.loads(response.content)

if res['hits']['total'] == 0:

return None, 'none'

else:

card = dict() #解析查询结果,将结果写入dict对象,该实体的知识卡片返回

card['subj'] = entity_name

s = res['hits']['hits'][0]['_source']

if 'height' in s:

card['height'] = s['height']

if 'weight' in s:

card['weight'] = s['weight']

for po in s['po']:

if po['pred'] in card:

card[po['pred']] += ' ' + po['obj']

else:

card[po['pred']] = po['obj']

return card, 'done'

5.2 检索实体的属性,以及多跳查询

检索一个实体的某个属性的值,也是先检索该实体,然后判断返回的结果中是否包含所检索的属性,如果包

含,则返回对应的值,因此,这种检索的查询语句同上。如果是多跳查询,则在检索出一个属性对应的属性

值后,需要再判断知识库中是否存在以该属性值为名称的实体,如果存在,则以该属性值为实体名称检索对应

的实体,再判断结果是否包含检索的第2个属性,如此循环,直到得到最终结果。

def _search_multihop_SP(parts):

has_done = parts[0]

v = parts[0]

for i in range(1, len(parts)):

en = _entity_linking(v) #判断知识库中是否存在名称为v的实体

if not len(en):

return '执行到: ' + has_done, '==> 对应的结果为:' + v + ', 知识库中没

有该实体: ' + v

card, msg = _search_single_subj(en[-1]) # 同上,检索实体v

p = _map_predicate(parts[i]) #判断知识库中是否存在以part[i]为名称的属性

if not len(p):

return '执行到: ' + has_done, '==> 知识库中没有该属性: ' + parts[i]

p = p[0]

if p not in card:

#判断该实体是否存在以part[i]为名称的属性

return '执行到: ' + has_done, '==> 实体 ' + card['subj'] + ' 没有属性

' + p

v = str(card[p])

has_done += ":" + parts[i]

return v, 'done'

5.3 根据多对(属性名,属性值)检索实体

这里要支持根据多对(属性名,属性值)检索实体,而且不同的属性值对之间可以有and或or关系,并且可以对

单个属性值对取not操作。而且,部分属性,例如height,weight支持范围搜索。

5.3.1 查询构建

这里涉及到的elasticsearch查询要稍微复杂一些。假设已经解析好了查询语句的组成部分,即:每对属性值

对,它们之间的and或or关系,not操作,以及每个属性值对的操作是等于还是范围检索,那么可以构造出一

个查询直接返回满足这些要求的实体。

例子

查询重量>=50 AND 国籍:中国 AND 职业:篮球运动员,其对应的查询语句如下:

curl -XGET 'localhost:9200/demo/person/_search?&pretty' -H 'Content-

Type:application/json' -d'

{

"query": {

"bool":{

"must":[

# must关键字: 其内的查询条件是AND关系

{

# 查询条件1: 重量>= 50

"range":{ #weight

"weight":{

"gte":50

}

{

# 查询条件2: 国籍:中国

"nested":{

# 查询nested object

"path":"po", # 制定nested obect位置

"query":{

"bool":{

"must":[

{"bool":{"must_not":{"term":{"po.obj":"中

国"}}}},

{"term":{"po.pred":"nationality"}}

]

}

{

# 查询条件3: 职业:篮球运动员

"nested":{

"path":"po",

"query":{

"bool":{

"must": [

{"term":{"po.obj":"篮球运动员"}},

{"term":{"po.pred":"职业"}}

]

}

]

}

因此,实现该功能的第一步是解析查询语句,构造出对应的查询语句。这样就能通过执行该查询语句一次查询

得出结果,如果存储方式为一个三元组一篇文档,那么为了实现多个属性值对检索实体,必须对每个属性值对

检索一次,最后再将结果合并起来,需要查询多次。

注: 如果关系是OR,那么对应elasticsearch的should关键字;如果在属性值对前加了否定NOT,那

么,对应的elasticsearch关键字是must_not

上述语句中的注释会影响执行,如需执行,将注释删掉

解析查询语句及构造elasticsearch查询的过程如下:

def _search_multi_PO(exps, bool_ops): #处理多对属性值检索实体的查询

'''

exps: 按照 'AND','OR'对查询分割后的每对(属性名 op 属性值)

bool_ops: 查询中的'AND','OR'连接符,保持在原句中的顺序

'''

ans_list = []

po_list = []

cmp_dir = {

"<":"lt",

"<=":"lte",

">":"gt",

">=":"gte"

}

for e in exps:

#解析每一对属性值

if e == "":

return "", 'AND 或 OR 后不能为空'

begin_with_NOT = False #是否有NOT操作符

if e[0:3] == 'NOT':

begin_with_NOT = True

e = e[3:]

elif 'NOT' in e:

return e, 'NOT请放在PO对前面'

op = re.findall(":|:|>|<|>=|<=",e)

if len(op) != 1:

#没有操作符

return e, '语法错误'

op = op[0]

if op == '<' or op == '>':

index = e.find(op)

if e[index+1] == '=':

op = op + '='

pred, obj = e.split(op)

c_pred = _map_predicate(pred)

if not len(c_pred):

return e, '知识库中没有该属性: ' + pred

if obj == '':

return e, '属性值不能为空'

pred = c_pred[0]

part_query = ""

#该属性值对应的部分查询语句

if not begin_with_NOT:

if op == ':' or op == ':':

if pred == 'height' or pred == 'weight':

part_query = '{"term":{"' + pred + '":' + obj + '}}'

else:

part_query = '{"nested":{"path":"po","query":{"bool":

{"must":[{"term":{"po.pred":"' + pred + \

'"}},{"term":{"po.obj":"' + obj + '"}}]}}}}'

else:

if pred == 'height' or pred == 'weight':

part_query = '{"range":{"' + pred + '":{"' + cmp_dir[op] +

'":' + obj + '}}}'

else:

return e,'该属性不支持比较大小,目前只支持height,weight'

else:

if op == ':' or op == ':':

if pred == 'height' or pred == 'weight':

part_query = '{"bool":{"must_not":{"term":{"' + pred +

'":' + obj + '}}}}'

else:

part_query = '{"nested":{"path":"po","query":{"bool":

{"must":[{"term":{"po.pred":"' + pred + \

'"}},{"bool":{"must_not":{"term":{"po.obj":"' +

obj + '"}}}}]}}}}'

else:

if pred == 'height' or pred == 'weight':

part_query = '{"bool":{"must_not":{"range":{"' + pred +

'":{"' + cmp_dir[op] + '":' + obj + \

'}}}}}'

else:

return e,'该属性不支持比较大小,目前只支持height,weight'

po_list.append(part_query)

or_po = [False] * len(exps)

#根据AND,OR关系合并上述的查询语句部分,形成完整

的查询语句

should_list = []

must_list = []

i = 0

while i < len(bool_ops):

#用OR操作符连接的子句优先级更高,先合并

if bool_ops[i] == 'OR':

adjacent_or = [po_list[i]]

or_po[i] = True

while i < len(bool_ops) and bool_ops[i] == 'OR':

adjacent_or.append(po_list[i+1])

or_po[i+1] = True

i += 1

should_list.append(",".join(adjacent_or))

i += 1

for i,po in enumerate(or_po):

#再合并AND操作符连接的子句

if not po:

must_list.append(po_list[i])

must_list = ",".join(must_list)

query = ""

#合并所有子句,形成最终query

if must_list:

query = '{"query":{"bool":{"must":[' + must_list + ']'

if should_list:

query += ","

for s in should_list:

query += '"should":[' + s + '],'

query = query[:-1]

query += '}}}'

else:

query = '{"query":{"bool":{'

if should_list:

for s in should_list:

query += '"should":[' + s + '],'

query = query[:-1]

query += '}}}'

#... 下面部分为执行查询

5.3.2 执行查询

构建出查询语句后,执行改查询,解析查询结果即可

# 上面部分为查询语句构造...

response = requests.get("http://localhost:9200/demo/person/_search", data =

query)

res = json.loads(response.content)

if res['hits']['total'] == 0:

return None,'none'

else:

ans = {}

for e in res['hits']['hits']:

name = e['_source']['subj']

ans[name] = "/search?question="+name

return ans, 'done'

你可能感兴趣的:(知识图谱)

NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
从数据到智慧：AI原生知识库构建的完整技术栈解析 AI天才研究院 Agentic AI 实战 AI大模型企业级应用开发实战 AI人工智能与大数据 AI-native 大数据 ai
从数据到智慧：AI原生知识库构建的完整技术栈解析关键词AI原生知识库、知识图谱、向量数据库、大语言模型、RAG技术、知识工程、智能问答系统摘要在人工智能飞速发展的今天，构建能够真正理解、组织和应用知识的系统已成为企业数字化转型的核心竞争力。本文将深入剖析AI原生知识库的完整技术栈，从数据采集与预处理，到知识表示与建模，再到存储架构与检索增强生成技术，全方位解读如何将原始数据转化为可行动的智慧。我们
Spring Data Neo4j 与后端人工智能算法的数据交互 AI大模型应用实战 spring neo4j 人工智能 ai
SpringDataNeo4j与后端人工智能算法的数据交互关键词：SpringDataNeo4j、图数据库、人工智能算法、数据交互、知识图谱、图神经网络、数据集成摘要：本文深入探讨了如何利用SpringDataNeo4j框架实现后端人工智能算法与图数据库的高效数据交互。文章首先介绍了图数据库和人工智能算法的基本概念，然后详细解析了SpringDataNeo4j的核心架构和原理。接着，通过实际代码示
知识图谱系列（2）：知识图谱的技术架构与组成要素程序员查理 #知识图谱知识图谱架构人工智能 AI Agent RAG
1.引言知识图谱作为一种强大的知识表示和组织方式，已经在搜索引擎、推荐系统、智能问答等多个领域展现出巨大的价值。在之前的上一篇文章中，我们介绍了知识图谱的基础概念与发展历程，了解了知识图谱的定义、核心特征、发展历史以及在AI发展中的地位与作用。要深入理解和应用知识图谱，我们需要进一步探索其内部的技术架构和组成要素。知识图谱不仅仅是一个简单的数据结构，而是一个复杂的技术体系，涉及知识的表示、存储、查
Python爬虫实战：爬取百度学术摘要信息全流程详解与代码示例 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 学习 dubbo 百度
1.前言随着学术资源数字化的普及，百度学术成为学者们常用的论文搜索平台。获取大量论文摘要信息对于文献综述、知识图谱构建等研究极为重要。本文将系统讲解如何利用Python编写爬虫，批量抓取百度学术上的论文摘要。我们将结合最新Python爬虫技术，涵盖基础同步爬虫、异步爬虫、多线程，全面实战演示。2.项目背景与目标百度学术支持通过关键词搜索论文，展示论文标题、作者、期刊、摘要等信息。目标是：根据关键词
AI驱动下的企业学习平台，如何重构员工发展与HR角色 weixin_54980836 人工智能学习重构
近期，JoshBersin官方网站分享了一篇关于L&D领域AI深度变革的文章，文章所描绘的并非仅仅是新工具的涌现，而是一场触及L&D本质与HR战略价值的深刻革命。当Docebo坚定走向“AI原生”，当Sana以知识图谱重构组织智慧，它们揭示的正是我们HR从业者必须直面的未来——AI驱动的学习已不再是效率的提升，而是组织能力与人才价值创造方式的根本性进化。一、超越自动化：AI原生平台对学习本质的重构
GNN--知识图谱（逐步贯通基础到项目实践）峙峙峙图神经网络知识图谱人工智能
原文仓库链接：知识图谱–贯通已有知识地图记录知识关系图谱和跨学科碰撞新启发知识图谱mermaid可能需要下载插件才能渲染线性代数神经网络深度学习框架硬件加速图论GNN框架交叉理解前向理解定义：前向理解：A–>B，A为B的基础铺垫知识，通过深入学习A对B有更好的理解01.LinearAlgebraforLinearLayerofNN从线性代数行列变换的角度看神经网络中的线性层线性代数矩阵乘法，可以理
DeepSeek在智能教育评估中的应用：试题检索 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 easyui 前端 javascript ai
DeepSeek在智能教育评估中的应用：试题检索关键词：DeepSeek、智能教育、试题检索、自然语言处理、知识图谱、个性化学习、评估系统摘要：本文探讨了DeepSeek大模型在智能教育评估系统中的试题检索应用。我们将深入分析如何利用先进的自然语言处理技术和知识图谱构建高效的试题检索系统，实现个性化学习路径推荐和精准评估。文章将从核心概念、技术原理到实际应用场景，全面解析这一创新教育技术解决方案。
知识图谱的个性化智能教学推荐系统(论文+源码) 毕设工作室_wlzytw python论文项目知识图谱人工智能
目录摘要Abstract目录第1章绪论1.1研究背景及意义1.2国内外研究现状1.2.1知识图谱1.2.2个性化推荐系统1.3本文研究内容及创新点1.4全文组织结构第2章相关理论与技术概述2.1知识图谱2.1.1知识图谱的介绍与发展2.1.2知识图谱的构建2.3协同过滤推荐算法2.2.1推荐算法概述2.2.2Pearson相关系数2.2.3Spearman相关系数2.4Bert模型和Albert模
从新闻到知识图谱：用大模型和知识工程“八步成诗”打造科技并购大脑许泽宇的技术分享知识图谱科技人工智能
一句话摘要：本文带你用现代NLP和知识图谱技术，把科技公司并购新闻变成结构化的知识大脑，过程全景揭秘，理论与实战齐飞，代码只用伪代码，干货与段子齐发，助你成为AI知识工程老司机！前言：为什么要把新闻变成知识图谱？想象一下，你是个投资分析师，老板让你一周内梳理全球科技并购大事件，找出谁在买谁、花了多少钱、背后有哪些大佬、涉及哪些新技术……你会怎么做？A.手动Ctrl+F，Excel狂敲，熬夜爆肝？B
构建智能企业知识管理平台：动态知识图谱与语义检索系统 AI天才研究院 Agentic AI 实战 AI大模型企业级应用开发实战 AI人工智能与大数据知识图谱人工智能 ai
构建智能企业知识管理平台：动态知识图谱与语义检索系统关键词：知识管理平台、动态知识图谱、语义检索、知识图谱构建、语义检索算法摘要：本文详细探讨了构建智能企业知识管理平台的核心技术，重点介绍了动态知识图谱和语义检索系统的原理与实现。通过分析知识图谱的构建方法和语义检索算法，结合实际案例，展示了如何利用这些技术提升企业的知识管理水平。文章内容包括背景介绍、核心概念、算法原理、系统架构设计、项目实战以及
从维基百科到知识图谱：用 DSPy、OpenAI 和 TiDB 构建 GraphRAG 的奇妙旅程步子哥 AGI通用人工智能知识图谱 tidb 人工智能
在信息爆炸的时代，如何快速从海量数据中提取有用信息，成为了技术发展的重要方向。传统的RAG（Retrieval-AugmentedGeneration）方法虽然在信息检索领域表现出色，但随着需求复杂度的提升，GraphRAG（基于知识图谱的RAG）逐渐成为更优的解决方案。本文将带您一步步了解如何利用DSPy、OpenAI和TiDBVectorDatabase，从维基百科数据构建一个GraphRAG
GraphRAG革命性突破！美国Cedars-Sinai医疗中心揭秘：知识增强大模型如何重塑阿尔茨海默病基因研究与治疗？ DeepSeek-大模型系统教程人工智能大模型 chatgpt 语言模型 ai 大模型学习大模型教程
摘要：随着阿尔茨海默病患者人数不断攀升，Cedars-Sinai医学中心通过知识图谱和AI技术，打造了AlzKB阿尔茨海默病知识库，用以推动新型病因和药物的发现。本文详解这些前沿工具如何结合，赋能专业人士实现高效科研转化，为认知障碍领域带来突破正文据估计，690万65岁及以上的美国人患有阿尔茨海默病。如果没有重大的医学突破，预计到2060年，美国这一数字将上升到1380万，到2050年全球将上升到
如何成为一名合格的 Prompt 工程师？ csdn_tom_168 AI 人工智能 ai prompt
以下为基于行业实践与最新趋势的Prompt工程师成长体系，结合技术能力、实战经验与职业发展三个维度构建的完整路径：一、核心能力模型构建1.基础认知能力领域知识融合掌握垂直领域知识图谱（如医疗术语、法律条文），通过RAG技术实现专业语料注入案例：设计医疗诊断Prompt时需理解ICD-11疾病分类标准模型原理理解熟悉主流模型特性（如GPT-4长文本处理优势、Claude3的逻辑推理强项），针对性设计
现代 JavaScript (ES6+) 入门到实战（八）：总结与展望 - 成为一名现代前端开发者
恭喜你坚持到了最后！在过去的七篇文章中，我们一起踏上了一段从“传统”到“现代”的JavaScript进化之旅。我们告别了那些曾经让我们头疼的“怪异行为”，拥抱了一套更强大、更优雅、更符合工程化思想的工具集。现在，是时候回顾我们的旅程，并展望前方的道路了。一、我们的进化之路：知识图谱回顾让我们将学到的核心知识点串联起来，形成一张清晰的“进化图谱”。如果你错过了之前的任何一篇，可以点击链接回顾：第一篇
计算机毕业设计Python知识图谱中华古诗词可视化古诗词情感分析古诗词智能问答系统 AI大模型自动写诗大数据毕业设计(源码+LW文档+PPT+讲解) B站计算机毕业设计大学大数据毕业设计人工智能课程设计知识图谱 python 大数据深度学习爬虫
温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！信息安全/网络安全大模型、大数据、深度学习领域中科院硕士在读，所有源码均一手开发！感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人介绍资料《Python知识图谱中华古诗
深度探索 Py2neo：用 Python 玩转图数据库 Neo4j 萧鼎 python基础到进阶教程 python 数据库 neo4j
随着社交网络、推荐系统、知识图谱等应用的普及，图数据库越来越成为解决关系复杂数据问题的重要武器。作为图数据库中的佼佼者，Neo4j凭借其强大的性能和灵活的数据模型，被广泛应用于各种关联密集型场景。而在Python生态中，py2neo是使用最广泛的Neo4j客户端库之一，它简洁直观，封装度高，能够让你在Python中像操作对象一样操作图数据。本文将全面介绍py2neo的使用方法与设计理念，帮助你快速
计算机毕业设计Python知识图谱中华古诗词可视化古诗词情感分析古诗词智能问答系统 AI大模型自动写诗大数据毕业设计(源码+LW文档+PPT+讲解)
温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！温馨提示：文末有CSDN平台官方提供的学长联系方式的名片！信息安全/网络安全大模型、大数据、深度学习领域中科院硕士在读，所有源码均一手开发！感兴趣的可以先收藏起来，还有大家在毕设选题，项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人介绍资料Python知识图谱中华古诗词
LangServer 与 Langgraph 融合架构：构建智能语言服务系统小赖同学啊人工智能架构
LangServer与Langgraph融合架构：构建智能语言服务系统LangServer（语言服务器协议）与Langgraph（语言图模型）的结合将创造新一代智能语言处理平台，实现从底层语言理解到高层应用服务的全链路增强。以下是深度技术方案：一、核心融合价值Langgraph语义理解知识图谱构建LangServer接口服务开发工具链业务系统实时反馈关键增强点：语义深度：Langgraph提供上下
长尾形分布论文速览三十篇【60-89】木木阳 Long-tailed 人工智能
长尾形分布速览（60-89）这些研究展示了LLMs在长尾数据分布、持续学习、异常检测、联邦学习、对比学习、知识图谱、推荐系统、多目标跟踪、标签修复、对象检测、医疗生物医学以及其他应用中的广泛应用。通过优化和创新，LLMs在这些领域展现了卓越的性能，并为解决长尾问题提供了有效的工具和方法。1.长尾持续学习与对抗学习长尾持续学习(Paper60):通过优化器状态重用来减少遗忘，提高在长尾任务中的持续学
【知识图谱构建系列1】数据集介绍几道之旅人工智能智能体及数字员工 Python杂货铺 AI 自建MCP 学习记录知识图谱
文章目录项目简介数据集简介数据集核心内容应用与影响小细节参考论文：hal.science/hal-04862214/项目地址：https://github.com/ChristopheCruz/LLM4KGC/项目简介我们所要学习的项目（LLM4KGC）聚焦于利用大语言模型（LLMs）实现从文本到知识图谱（Text-to-KnowledgeGraph,T2KG）的自动化构建，旨在探索高效可靠的知识
Neo4j 图数据库安装教程（2024最新版）—— Windows / Linux / macOS 全平台指南 2501_91537435 图数据库 neo4j 数据库 windows
Neo4j图数据库安装教程（2024最新版）——Windows/Linux/macOS全平台指南Neo4j是目前最流行的图数据库（GraphDatabase），广泛应用于社交网络、推荐系统、知识图谱等领域。本文将详细介绍Windows、Linux和macOS三大平台的Neo4j安装方法，并包含配置优化、基础使用示例和常见问题解决。一、Neo4j简介1.什么是Neo4j？Neo4j是一个高性能的No
信息抽取数据集全景分析：分类体系、技术演进与挑战_DEEPSEEK 致Great 分类数据挖掘人工智能
信息抽取数据集全景分析：分类体系、技术演进与挑战摘要信息抽取（IE）作为自然语言处理的核心任务，是构建知识图谱、支持智能问答等应用的基础。近年来，随着深度学习技术的发展和大规模预训练模型的兴起，IE数据集呈现爆发式增长，其分析与评估对模型研发和领域迁移至关重要。本文基于对158个主流IE数据集的系统性梳理，首次提出“信息提取与命名实体识别数据集分类体系”。该体系涵盖8大类别（命名实体识别、关系提取
AI人工智能领域知识图谱在深度学习中的应用拓展
AI人工智能领域知识图谱在深度学习中的应用拓展关键词：知识图谱、深度学习、神经网络、图嵌入、知识表示学习、推理机制、应用场景摘要：本文深入探讨了知识图谱与深度学习的融合应用，系统性地分析了知识图谱在深度学习中的关键技术路径和应用场景。文章首先介绍了知识图谱的基本概念和表示方法，然后详细阐述了知识图谱与深度学习结合的多种技术路线，包括图神经网络、知识嵌入和推理机制等。接着通过具体案例展示了知识图谱增
信息抽取领域关键Benchmark方法：分类体系
信息抽取领域关键Benchmark方法：分类体系摘要信息抽取（InformationExtraction,IE）作为自然语言处理的核心任务之一，旨在从非结构化文本中识别并结构化关键信息（如实体、关系、事件等），广泛应用于知识图谱构建、智能问答和数据分析等领域。近年来，随着深度学习技术的快速发展，信息抽取方法在性能和应用范围上取得了显著进步，但同时也面临着任务多样性、跨领域泛化性以及低资源场景下的适
搜索领域知识图谱的知识推理算法研究搜索引擎技术知识图谱算法人工智能 ai
搜索领域知识图谱的知识推理算法研究关键词：知识图谱、知识推理、搜索算法、图神经网络、路径推理、规则推理、表示学习摘要：本文深入探讨搜索领域中知识图谱的知识推理算法。我们将从知识图谱的基本概念出发，分析不同类型的知识推理算法原理，包括基于规则的推理、基于表示的推理和基于路径的推理。通过实际案例和代码实现，展示这些算法如何提升搜索效果，最后讨论该领域的未来发展趋势和挑战。背景介绍目的和范围本文旨在系统
人工智能中的知识图谱与向量数据库：选择与应用指南 AI Agent首席体验官人工智能知识图谱数据库
1.人工智能领域，知识图谱是什么？知识图谱是人工智能和语义网领域的一个重要概念，它是一种结构化的知识表示方法，用于存储实体之间的语义关系。知识图谱基本上是由节点（实体）和边（关系）组成的图结构：节点：代表现实世界中的实体或概念，如人物、地点、组织等边：代表实体间的语义关系，如"出生于"、“工作于”、"创立了"等知识图谱的主要特点和应用包括：语义网络表示：以三元组形式（主体-关系-客体）存储知识，如
增强版 Kimi：AI 驱动的智能创作平台，实现一站式内容生成（图片、PPT、PDF）！每天译点晓知识 AI人工智能专栏人工智能 PPT PDF一键生成 AI 图片生成
前言基于扣子Coze零代码平台，我们从零到一轻松实现了专属Bot机器人的搭建。AI大模型（LLM）、智能体（Agent）、知识库、向量数据库、知识图谱，RAG，AGI的不同形态愈发显现，如何将其动态组合，凸显其强大爆发力！！！接下来，我们介绍通过Kimi进行功能增强？使得我们的Bot具备一键生成图片、PPT编写、PDF制作......模型配置Kimi月之暗面旗下国产大模型，以独特的长文本处理能力，
进阶向：新手详解Neo4j关系查询代码 nightunderblackcat Python进阶 neo4j pycharm python
今天我将深入解析一段使用Neo4j图数据库进行关系查询的Python代码。这段代码实现了人物关系查询、知识图谱问答等功能，是图数据库应用的典型示例。我会用最详细的方式讲解每一部分，确保完全理解！代码概览这段代码主要包含四个核心功能：Zquery()-查询指定人物的所有关系Zget_json_data()-将查询结果转换为可视化所需的JSON格式Zget_KGQA_answer()-实现知识图谱问答
文心一言（ERNIE Bot）：百度打造的知识增强大语言模型明似水 AI 文心一言百度语言模型
1.产品概述文心一言（ERNIEBot）是百度自主研发的知识增强大语言模型，于2023年3月16日正式发布，对标OpenAI的ChatGPT，具备文本生成、多模态交互、逻辑推理、中文理解等能力。该模型基于百度的飞桨深度学习平台和文心大模型（ERNIE）技术，融合海量数据和知识图谱，在中文理解、商业文案、数理逻辑、多模态生成等方面表现突出。2024年9月，百度将文心一言APP升级为文小言，定位为“新
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin