weixin_40539807

菜哥学知识图谱（通过“基于医疗知识图谱的问答系统”）（三）（代码分析）

上接菜哥学知识图谱（通过“基于医疗知识图谱的问答系统”）（二）

代码分析

这是项目内的文件结构。从基于医疗知识图谱的问答系统源码详解借一张图，按照新内容修改了一下。

├── QASystemOnMedicalKG
	├── data
		├── medical.json               # 知识数据
	├── dict
        ├── check.txt                  # 诊断检查项目实体库
        ├── deny.txt                   # 否定词库
        ├── department.txt             # 医疗科目实体库
        ├── disease.txt                # 疾病实体库
        ├── drug.txt                   # 药品实体库
        ├── food.txt                   # 食物实体库
        ├── producer.txt               # 在售药品库
        ├── symptom.txt                # 疾病症状实体库
	├── document					   # 文档
    ├── img							   # 图片
    ├── prepare_data
        ├── build_data.py              # 数据库操作脚本
        ├── data_spider.py             # 数据采集脚本
        ├── max_cut.py                 # 基于词典的最大前向/后向匹配
    ├── answer_search.py               # 问题查询及返回
    ├── build_medicalgraph.py          # 将结构化json数据导入neo4j
    ├── chatbot_graph.py               # 问答程序脚本
    ├── question_classifier.py         # 问句类型分类脚本
    ├── question_parser.py             # 问句解析脚本

一个文件一个文件的分析。
1.data\medical.json
这里面是已经存储好的疾病知识数据，打开看一下。新建一个openjson.py文件，输入以下内容：

with open(r'C:\QASystemOnMedicalKG\data\medical.json', 'r', encoding='utf8') as js:
    for js_data in js:
        print(js_data)

执行，可以看到，json文件里面的数据是这样的：

{ "_id" : { "$oid" : "5bb57901831b973a137e614d" }, 
"name" : "病毒性肠炎", 
"desc" : "病毒性肠炎(viralgastroenteritis)又称病毒性腹泻......。", 
"category" : [ "疾病百科", "内科", "消化内科" ], 
"prevent" : "及早发现和隔离病人......。",
 "cause" : "......但多数肠粘膜细胞尚正常。肠绒毛上皮细胞内空泡变性，内质网中有多量轮状病毒颗粒。", 
 "symptom" : [ "恶心与呕吐", "驻站医", "发烧", "腹泻", "腹痛", "慢性腹痛" ], 
 "yibao_status" : "否", 
 "get_prob" : "0.001%", 
 "easy_get" : "无特定人群", 
 "get_way" : "无传染性",
 "acompany" : [ "缺铁性贫血" ], 
 "cure_department" : [ "内科", "消化内科" ], 
 "cure_way" : [ "药物治疗", "康复治疗" ], 
 "cure_lasttime" : "7-14天",
 "cured_prob" : "85%-95%",
 "common_drug" : [ "盐酸左氧氟沙星胶囊", "依托红霉素片" ], 
 "cost_money" : "根据不同医院，收费标准不一致，市三甲医院约（1000——5000元）", 
 "check" : [ "便常规", "纤维肠镜", "小肠镜检查", "红细胞计数(RBC)", "细菌学检验", "粪酸碱度", "血常规", "粪细菌培养", "血小板计数（PLT）" ], 
 "do_eat" : [ "鸭蛋", "鸡蛋", "鸡肉", "芝麻" ], 
 "not_eat" : [ "杏仁", "腐竹", "白扁豆", "沙丁鱼" ], 
 "recommand_eat" : [ "冬瓜粒杂锦汤", "土豆肉末粥", "丁香酸梅汤" ], 
 "recommand_drug" : [ "司帕沙星片", "清泻丸", "复方黄连素片", "枯草杆菌二联活菌肠溶胶囊", "盐酸左氧氟沙星胶囊", "司帕沙星分散片",..... "SP", "依托红霉素片", "苦木注射液", "氧氟沙星片" ], 
 "drug_detail" : [ "联邦左福康盐酸左氧氟沙星胶(盐酸左氧氟沙星胶囊)", "广东华南依托红霉素片(依托红霉素片)", "桂林三金复方红根草片(复方红根草片)", ........"万年青苦木注射液(苦木注射液)", "惠州九惠炎宁颗粒(炎宁颗粒)", "浙江得恩德氧氟沙星片(氧氟沙星片)", "吉林跨海生化止痢宁片(止痢宁片)" ] }
{......}
{......}

可以猜测，每一种疾病是一条字典类型数据。每条数据里面有24个键值对。每个键值对的含义能猜出来。
2.dict文件夹内的各个文本文档，是各类实体库，可以挨个打开看一下。

和一个否定词库deny.txt。

3.prepare_data\data_spider.py 数据采集脚本。spider_main()方法把爬取的疾病相关信息放到数据库’medical’里。inspect_crawl()方法把检查项目的网页地址和源码放到了数据库’jc’里。
可以看对源码我的注释：

#!/usr/bin/env python3
# coding: utf-8
# File: data_spider.py
# Author: lhy
# Date: 18-10-3


import urllib.request   #爬虫工具
import urllib.parse   #爬虫工具 
from lxml import etree   #爬虫工具 
import pymongo  #MongoDB 是目前最流行的 NoSQL 数据库之一，使用的数据类型 BSON（类似 JSON）。使用该数据库应先安装，并启动服务。 
import re

'''基于司法网的犯罪案件采集'''#这儿应该是写错了
class CrimeSpider:  
    def __init__(self):
        self.conn = pymongo.MongoClient()  #建立数据库连接
        self.db = self.conn['medical']  #获取数据库'medical'
        self.col = self.db['data']   #获取文件'data'

    '''根据url，请求html'''
    #获取网页的html源码
    def get_html(self, url):
        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                                 'Chrome/51.0.2704.63 Safari/537.36'}
        req = urllib.request.Request(url=url, headers=headers)
        res = urllib.request.urlopen(req)
        html = res.read().decode('gbk')
        return html

    '''url解析'''
    #应该是自动跳转链接，抓取所有病例的页面 但是这个http://www.anliguan.com是不是写错了.这个方法有问题,也没用到.
    def url_parser(self, content):
        selector = etree.HTML(content)
        urls = ['http://www.anliguan.com' + i for i in  selector.xpath('//h2[@class="item-title"]/a/@href')]
        return urls

    '''测试'''
    #将内容写入数据库
    def spider_main(self):
        for page in range(1, 11000):
            try:
                basic_url = 'http://jib.xywy.com/il_sii/gaishu/%s.htm'%page      #疾病概述页面  这个网站的网页地址有点怪
                cause_url = 'http://jib.xywy.com/il_sii/cause/%s.htm'%page       #病因
                prevent_url = 'http://jib.xywy.com/il_sii/prevent/%s.htm'%page   #预防
                symptom_url = 'http://jib.xywy.com/il_sii/symptom/%s.htm'%page   #症状
                inspect_url = 'http://jib.xywy.com/il_sii/inspect/%s.htm'%page   #检查方法
                treat_url = 'http://jib.xywy.com/il_sii/treat/%s.htm'%page       #治疗
                food_url = 'http://jib.xywy.com/il_sii/food/%s.htm'%page         #饮食保健
                drug_url = 'http://jib.xywy.com/il_sii/drug/%s.htm'%page         #好评药品
                data = {}                                                        #将以下数据封装成字典
                data['url'] = basic_url                                          #基本网址,str, 'url':基本网址
                data['basic_info'] = self.basicinfo_spider(basic_url)            #疾病基本信息，字典，'basic_info':{'category':疾病分类,'name':疾病名称,'desc':疾病简介,'attributes':[基本知识,治疗常识,温馨提示]}
                data['cause_info'] =  self.common_spider(cause_url)              #病因,list, 'cause_info':[第一段文字,第二段文字,...]
                data['prevent_info'] =  self.common_spider(prevent_url)          #预防,list, 'prevent_info':[第一段文字,第二段文字,...]
                data['symptom_info'] = self.symptom_spider(symptom_url)         #症状(应该是并发症)，元组，'symptom_info'：（症状信息，[第一段症状，第二段症状，...]）
                data['inspect_info'] = self.inspect_spider(inspect_url)         #检查方法的网址，list，'inspect_info'：[检查方法网址,.....]
                data['treat_info'] = self.treat_spider(treat_url)                #治疗概述,list, 'treat_info':[就诊科室,治疗方式,治疗周期,治愈率,常用药品]
                data['food_info'] = self.food_spider(food_url)                   #食物,字典, 'food_info':{'good':宜吃食物, 'bad':忌食物, 'recommand':宜食物推荐食物}
                data['drug_info'] = self.drug_spider(drug_url)                   #药品名称,str, 'drug_info':药品名称
                print(page, basic_url)
                self.col.insert(data)      #将上述数据封装成的字典,写入数据库

            except Exception as e:
                print(e, page)
        return

    '''基本信息解析'''
    def basicinfo_spider(self, url):
        html = self.get_html(url)
        selector = etree.HTML(html)
        title = selector.xpath('//title/text()')[0]  #网页的标题
        category = selector.xpath('//div[@class="wrap mt10 nav-bar"]/a/text()') #分类
        desc = selector.xpath('//div[@class="jib-articl-con jib-lh-articl"]/p/text()') #简介
        ps = selector.xpath('//div[@class="mt20 articl-know"]/p') #[基本知识,治疗常识,温馨提示]
        infobox = []
        for p in ps:
            info = p.xpath('string(.)').replace('\r','').replace('\n','').replace('\xa0', '').replace('   ', '').replace('\t','')
            infobox.append(info)
        basic_data = {}
        basic_data['category'] = category
        basic_data['name'] = title.split('的简介')[0]
        basic_data['desc'] = desc
        basic_data['attributes'] = infobox
        return basic_data

    '''treat_infobox治疗解析'''
    def treat_spider(self, url):
        html = self.get_html(url)
        selector = etree.HTML(html)
        ps = selector.xpath('//div[starts-with(@class,"mt20 articl-know")]/p')
        infobox = []  #[就诊科室,治疗方式,治疗周期,治愈率,常用药品]
        for p in ps:
            info = p.xpath('string(.)').replace('\r','').replace('\n','').replace('\xa0', '').replace('   ', '').replace('\t','')
            infobox.append(info)
        return infobox

    '''treat_infobox治疗解析'''
    def drug_spider(self, url):
        html = self.get_html(url)
        selector = etree.HTML(html)
        drugs = [i.replace('\n','').replace('\t', '').replace(' ','') for i in selector.xpath('//div[@class="fl drug-pic-rec mr30"]/p/a/text()')]
        return drugs   #返回药品名称

    '''food治疗解析'''
    def food_spider(self, url):
        html = self.get_html(url)
        selector = etree.HTML(html)
        divs = selector.xpath('//div[@class="diet-img clearfix mt20"]')
        try:
            food_data = {}
            food_data['good'] = divs[0].xpath('./div/p/text()')  #宜吃食物
            food_data['bad'] = divs[1].xpath('./div/p/text()')   #忌吃食物
            food_data['recommand'] = divs[2].xpath('./div/p/text()')   #宜吃食物(推荐食物)
        except:
            return {}

        return food_data

    '''症状信息解析'''
    def symptom_spider(self, url):
        html = self.get_html(url)
        selector = etree.HTML(html)
        symptoms = selector.xpath('//a[@class="gre" ]/text()')   #症状
        ps = selector.xpath('//p')
        detail = []  #症状列表
        for p in ps:
            info = p.xpath('string(.)').replace('\r','').replace('\n','').replace('\xa0', '').replace('   ', '').replace('\t','')
            detail.append(info)
        symptoms_data = {}    #这个用来干嘛?
        symptoms_data['symptoms'] = symptoms
        symptoms_data['symptoms_detail'] = detail
        return symptoms, detail

    '''检查信息解析'''
    def inspect_spider(self, url):
        html = self.get_html(url)
        selector = etree.HTML(html)
        inspects  = selector.xpath('//li[@class="check-item"]/a/@href')    #看起来像检查的网址
        return inspects

    '''通用解析模块'''
    def common_spider(self, url):
        html = self.get_html(url)
        selector = etree.HTML(html)
        ps = selector.xpath('//p')
        infobox = []    #病因/预防. [第一段文字,第二段文字,...]
        for p in ps:
            info = p.xpath('string(.)').replace('\r', '').replace('\n', '').replace('\xa0', '').replace('   ','').replace('\t', '')
            if info:
                infobox.append(info)
        return '\n'.join(infobox)
    '''检查项抓取模块'''
    def inspect_crawl(self):
        for page in range(1, 3685):
            try:
                url = 'http://jck.xywy.com/jc_%s.html'%page
                html = self.get_html(url)
                data = {}    #检查的字典数据
                data['url']= url  #检查项目网页的地址
                data['html'] = html   #检查项目网页的源码
                self.db['jc'].insert(data)   #放到jc这个数据库里
                print(url)
            except Exception as e:
                print(e)


handler = CrimeSpider()
handler.inspect_crawl()

4.prepare_data\max_cut.py 基于词典的最大前向/后向匹配。
看原文注释就可以，重新注释的意义不大。

5.prepare_data\build_data.py 数据库操作脚本。collect_medical()方法把key换成英文了,内容变化不大；执行后，数据应该在data\medical.json里面,格式内容是一样的。
注释一下

#!/usr/bin/env python3
# coding: utf-8
# File: build_data.py
# Author: lhy
# Date: 18-10-3
import pymongo
from lxml import etree  #解析HTML的包
import os
from max_cut import *

class MedicalGraph:
    def __init__(self):
        self.conn = pymongo.MongoClient()  #链接数据库
        cur_dir = '/'.join(os.path.abspath(__file__).split('/')[:-1]) #当前文件夹地址
        self.db = self.conn['medical']
        self.col = self.db['data']   #获取数据库内的数据
        first_words = [i.strip() for i in open(os.path.join(cur_dir, 'first_name.txt'))]   # 'first_name.txt'文件是做什么的？读取该文件
        alphabets = ['a','b','c','d','e','f','g','h','i','j','k','l','m','n','o','p','q','r','s','t','u','v','w','x','y', 'z']
        nums = ['1','2','3','4','5','6','7','8','9','0']
        self.stop_words = first_words + alphabets + nums #停词表？包含firstwords，字母，数字
        self.key_dict = {
            '医保疾病' : 'yibao_status',
            "患病比例" : "get_prob",
            "易感人群" : "easy_get",
            "传染方式" : "get_way",
            "就诊科室" : "cure_department",
            "治疗方式" : "cure_way",
            "治疗周期" : "cure_lasttime",
            "治愈率" : "cured_prob",
            '药品明细': 'drug_detail',
            '药品推荐': 'recommand_drug',
            '推荐': 'recommand_eat',
            '忌食': 'not_eat',
            '宜食': 'do_eat',
            '症状': 'symptom',
            '检查': 'check',
            '成因': 'cause',
            '预防措施': 'prevent',
            '所属类别': 'category',
            '简介': 'desc',
            '名称': 'name',
            '常用药品' : 'common_drug',
            '治疗费用': 'cost_money',
            '并发症': 'acompany'
        }
        self.cuter = CutWords() #创建最大前向/后向匹配类的实例

    def collect_medical(self):
        cates = []
        inspects = []
        count = 0
        for item in self.col.find():
            data = {}
            basic_info = item['basic_info']  # 前面写过，'basic_info':{'category':疾病分类,'name':疾病名称,'desc':疾病简介,'attributes':[基本知识,治疗常识,温馨提示]}
            name = basic_info['name']   #'name':疾病名称
            if not name:
                continue
            # 基本信息
            data['名称'] = name #疾病名称
            data['简介'] = '\n'.join(basic_info['desc']).replace('\r\n\t', '').replace('\r\n\n\n','').replace(' ','').replace('\r\n','\n') #疾病简介
            category = basic_info['category'] 
            data['所属类别'] = category #疾病分类
            cates += category  #[疾病分类]
            inspect = item['inspect_info']
            inspects += inspect #'inspect_info'：[检查方法网址,.....]
            attributes = basic_info['attributes'] #[基本知识,治疗常识,温馨提示]
            # 成因及预防
            data['预防措施'] = item['prevent_info']  #'prevent_info':[第一段文字,第二段文字,...]
            data['成因'] = item['cause_info']   #病因, 'cause_info':[第一段文字,第二段文字,...]
            # 并发症
            data['症状'] = list(set([i for i in item["symptom_info"][0] if i[0] not in self.stop_words])) #元组，'symptom_info'：（症状信息，[第一段症状，第二段症状，...]）
            for attr in attributes:  #[基本知识,治疗常识,温馨提示]
                attr_pair = attr.split('：')
                if len(attr_pair) == 2:
                    key = attr_pair[0]
                    value = attr_pair[1]
                    data[key] = value  #这一段解决了好多个key，可以看下面的具体内容
'''
上面一段代码中attributes的具体内容如下文（一个例子）：
医保疾病：否

患病比例：0.5%

易感人群：多见于小儿

传染方式：呼吸道传播

并发症：支气管肺炎 肺不张


就诊科室：儿科 小儿内科

治疗方式：药物治疗 支持性治疗

治疗周期：1-2个月

治愈率：98%

常用药品：穿心莲内酯片 百咳静糖浆
治疗费用：根据不同医院，收费标准不一致，市三甲医院约（1000-4000元）


保持室内通风，衣物在阳光下曝晒。

'''


            # 检查
            inspects = item['inspect_info'] #'inspect_info'：[检查方法网址,.....]
            jcs = []
            for inspect in inspects:
                jc_name = self.get_inspect(inspect)
                if jc_name:
                    jcs.append(jc_name)
            data['检查'] = jcs   #应该是检查项点
            # 食物
            food_info = item['food_info']
            if food_info:
                data['宜食'] = food_info['good']
                data['忌食'] = food_info['bad']
                data['推荐'] = food_info['recommand']
            # 药品
            drug_info = item['drug_info']
            data['药品推荐'] = list(set([i.split('(')[-1].replace(')','') for i in drug_info]))
            data['药品明细'] = drug_info
            data_modify = {}
            for attr, value in data.items():    #遍历前面的data内容
                attr_en = self.key_dict.get(attr)  #'name'
                if attr_en:
                    data_modify[attr_en] = value   #把内容放到data里面，如  'name':白百咳,
                if attr_en in ['yibao_status', 'get_prob', 'easy_get', 'get_way', "cure_lasttime", "cured_prob"]:
                    data_modify[attr_en] = value.replace(' ','').replace('\t','')
                elif attr_en in ['cure_department', 'cure_way', 'common_drug']:
                    data_modify[attr_en] = [i for i in value.split(' ') if i]
                elif attr_en in ['acompany']:
                    acompany = [i for i in self.cuter.max_biward_cut(data_modify[attr_en]) if len(i) > 1]   #并发症用了最大向前匹配
                    data_modify[attr_en] = acompany

            try:
                self.db['medical'].insert(data_modify)  #插入字典
                count += 1
                print(count)
            except Exception as e:
                print(e)

        return


    def get_inspect(self, url):  #参数url是检查方法的网址
        res = self.db['jc'].find_one({'url':url})
        if not res:
            return ''
        else:
            return res['name'] #网址对应的检查项点名称？ 但是‘jc’数据库里面没有‘name’字段啊，这个没看懂

    def modify_jc(self):  #好吧，在这个方法里，更新了name字段
        for item in self.db['jc'].find():
            url = item['url']
            content = item['html']
            selector = etree.HTML(content)
            name = selector.xpath('//title/text()')[0].split('结果分析')[0]   #检查项目名称
            desc = selector.xpath('//meta[@name="description"]/@content')[0].replace('\r\n\t','')     #检查内容
            self.db['jc'].update({'url':url}, {'$set':{'name':name, 'desc':desc}})



if __name__ == '__main__':
    handler = MedicalGraph()

未完待续：
菜哥学知识图谱（通过“基于医疗知识图谱的问答系统”）（四）（代码分析2）

音视频知识图谱 2022.04 关键帧Keyframe
前些时间，我在知识星球上创建了一个音视频技术社群：关键帧的音视频开发圈，在这里群友们会一起做一些打卡任务。比如：周期性地整理音视频相关的面试题，汇集一份音视频面试题集锦，你可以看看《音视频面试题集锦2022.04》。再比如：循序渐进地归纳总结音视频技术知识，绘制一幅音视频知识图谱。下面是2022.04月知识图谱新增的内容节选：1）图谱路径：**采集/音频采集/声音三要素/响度******主观计量响
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
【笔记】自然语言处理NLP---概论 xhanZ NLP相关
（from人文学院开设课程）目录1.自然语言处理概论1.1自然语言处理研究的意义、历史与现状1.1.1自然语言的特点1.1.2自然语言处理研究的意义1.1.3国外研究现状1.2NLP的方法、特点和规律1.2.1理性主义与经验主义1.2.2语料库语言学：经验主义研究方法1.2.3汉语语言处理的方法1.2.4基于知识图谱的深度学习1.自然语言处理概论1.1自然语言处理研究的意义、历史与现状1.1.1自
GraphRAG入门:基本概念、应用场景及学习方法学习中的程序媛~ 学习方法
一、GraphRAG的用途是什么GraphRAG用于复杂信息分析,适合处理跨文档、有噪音或主题抽象的数据.二、GraphRAG能做什么GraphRAG能连接大量信息,回答普通难搜索难以解答的问题.她可以回答跨文档的问题,也能总结数据集的主要主题.三、GraphRAG的特点1.知识图谱提取:使用llm自动从输入文本文档中创建知识图谱,表示数据中的实体、关系和关键声明2.层次聚类使用leiden技术对
【Java那些年系列-启航篇 01】史上最强JavaSE学习路线图 & 知识图谱夏之以寒 Java那些年专栏 Java JavaSE Java学习路线 Java知识图谱
【Java那些年系列-启航篇01】史上最强JavaSE学习路线图&知识图谱作者名称：纸飞机-暖阳作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：Java那些年专栏专栏介绍：本专栏涵盖了JavaSE从基础语法到面向对象编程，从异常处理到集合框架，从I/O流到多线程并发，再到网络编程和虚拟机内部机制等一系列编程要素个人感慨：市面上关于JavaSE的学习路线或知
【Java那些年系列-启航篇 04】Java程序架构：深入理解类与对象的设计原则夏之以寒 Java那些年专栏 java 架构类对象数据结构
作者名称：纸飞机-暖阳作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：Java那些年专栏专栏介绍：本专栏涵盖了JavaSE从基础语法到面向对象编程，从异常处理到集合框架，从I/O流到多线程并发，再到网络编程和虚拟机内部机制等一系列编程要素个人感慨：市面上关于JavaSE的学习路线或知识图谱很繁杂，学习起来比较费劲，Java知识体系非常庞大，刚接触阶段只需要
计算机毕业设计hadoop+spark知识图谱房源推荐系统房价预测系统房源数据分析房源可视化房源大数据大屏大数据毕业设计机器学习计算机毕业设计大全
创新点：1.支付宝沙箱支付2.支付邮箱通知(JavaMail)3.短信验证码修改密码4.知识图谱5.四种推荐算法(协同过滤基于用户、物品、SVD混合神经网络、MLP深度学习模型)6.线性回归算法预测房价7.Python爬虫采集链家数据8.AI短信识别9.百度地图API10.lstm情感分析11.spark大屏可视化开发技术：springbootvue.jspythonechartssparkmys
WeKnow-RAG：智能自适应的检索增强生成方法步子哥人工智能
在当今快速发展的人工智能领域，检索增强生成（Retrieval-AugmentedGeneration，RAG）方法逐渐成为一种新兴的解决方案。CobusGreyling在他最新的文章中深入探讨了WeKnow-RAG，这一方法通过结合知识图谱和网络搜索技术，极大地提升了大型语言模型（LLMs）在复杂查询中的表现。知识图谱的力量知识图谱（KnowledgeGraphs,KGs）作为信息检索的重要工具
大数据毕业设计hadoop+spark+hive微博舆情情感分析知识图谱微博推荐系统 qq_79856539 javaweb 大数据 hadoop 课程设计
（一）Selenium自动化Python爬虫工具采集新浪微博评论、热搜、文章等约10万条存入.csv文件作为数据集；（二）使用pandas+numpy或MapReduce对数据进行数据清洗，生成最终的.csv文件并上传到hdfs；（三）使用hive数仓技术建表建库，导入.csv数据集；（四）离线分析采用hive_sql完成，实时分析利用Spark之Scala完成;（五）统计指标使用sqoop导入m
大数据毕业设计天hadoop+spark+hive游戏推荐系统游戏数据分析可视化大屏 steam游戏爬虫游戏大数据机器学习知识图谱计算机毕业设计机器学习深度学习人工智能知识图谱 2401_84159688 程序员大数据 hadoop 人工智能
|—||一、选题的目的和意义用户往往因为不能及时查看游戏信息而造成许多烦恼。另一方面，游戏商城平台没能进行系统的管理与维护使游戏信息没能及时的更新。而传统的游戏信息管理，采用的还是手工备案、人工查询的方式。但是随之游戏信息的增多这种管理方式的工作量不断加大，这种做法就存在费时费力、缺乏时效性、不利于调动人员的积极性等缺点。一旦网站建立好之后，一方面，用户可以在第一时间在系统里查询所需的信息，另一方
graphRAG原理解析——基于微软graphRAG+Neo4j llm-graph-builder 赖皮猫 neo4j
知识图谱生成llm-graph-builder（以下简称LGB）也使用了最新的graph+RAG的思路，使用知识图谱来加持RAG，提供更加准确和丰富的知识问答。知识图谱的生成上，利用大模型的泛化能力来自动生成和构建知识图谱，包括实体、关系和属性等。其相较于微软开源的GraphRAG（以下简称MS-GRAG）有很多相似和同源之处，但也有很多的不同。模块能力llm-graph-builderGraph
在neo4j中导入csv文件并构建知识图谱芹菜还是菜知识图谱 neo4j 知识图谱
本文csv文件数据来源于openKG中达观的开源知识图谱数据。从开源社区中下载下来的数据文件还是json，先用python把json文件转为csv文件。import csvimport jsonwith open('entities.json','r',encoding='utf-8')as fp: data=json.load(fp,strict=False)csv_file=open('en
深入理解PyTorch中的MessagePassing 小桥流水---人工智能深度学习机器学习算法人工智能 pytorch 人工智能 python
深入理解PyTorch中的MessagePassing图神经网络（GraphNeuralNetworks，简称GNNs）在近年来已成为处理图形数据的一种强大工具，广泛应用于社交网络分析、蛋白质结构预测、知识图谱增强等多个领域。PyTorchGeometric（PyG）是基于PyTorch的一个库，专为图神经网络的研究和实现而设计。在PyG中，MessagePassing类是实现图神经网络层的核心组
ecchart关系图展示（知识图谱） P-ShineBeam 知识基础 echarts 前端 javascript
ECharts关系图#box{display:none;background-color:lightgoldenrodyellow;width:200px;height:260px;position:absolute;right:10px;top:150px;}#box-type{display:block;}#box-name{display:block;}/*#box-index{*//*di
计算机毕业设计Hadoop+Spark知识图谱体育赛事推荐系统体育赛事热度预测系统体育赛事数据分析体育赛事可视化体育赛事大数据机器学习大数据毕业设计大数据毕设机器学习人工智能计算机毕业设计大全
开发技术前端：vue.js、element-ui、echarts后端：springboot、mybatis大数据：spark、hadoop数据库：mysql关系型数据库、neo4j图数据库算法：协同过滤推荐算法、MLP深度学习模型、SVD神经网络混合推荐算法、lstm模型、KNN、CNN、Sklearn、K-Means第三方平台：百度AI、阿里云短信、支付宝沙箱支付爬虫：Pythonchrome-
React+Vis.js（06）：vis.js修改选中节点的样式和边的样式叁拾舞 Vis.js javascript react.js 前端 vis.js
文章目录初始化知识图谱选中节点修改节点背景颜色选中节点修改节点文字颜色未选中节点恢复节点背景颜色和文字颜色修改当前选中节点的边的颜色初始化知识图谱创建network.js组件，来初始化原始知识图谱：importReact,{useRef,useEffect}from"react";importvisfrom"vis";constnodes=newvis.DataSet([
图神经网络GNN的前世今生小桥流水---人工智能 Python程序代码深度学习人工智能神经网络人工智能深度学习
GNN图神经网络（GraphNeuralNetwork，简称GNN）已经成为处理图形结构数据的一种强大工具，广泛应用于社交网络分析、知识图谱、推荐系统等领域。在本文中，我们将深入探讨图神经网络的历史背景、关键的发展阶段以及未来可能的发展方向。一、背景介绍图（Graph）是一种数据结构，由节点（Node）和连接节点的边（Edge）组成。在许多现实世界的应用中，数据自然地呈现出图形结构，如社交网络中的
A Survey of Large Language Models on Generative Graph Analytics: Query, Learning, and Applications UnknownBody LLM Daily Survey Paper LLM for Graph 语言模型人工智能自然语言处理
本文是LLM系列文章，针对《ASurveyofLargeLanguageModelsonGenerativeGraphAnalytics:Query,Learning,andApplications》的翻译。生成图分析的大型语言模型综述：查询、学习和应用摘要1引言2前言3图结构理解任务4图学习任务5图形推理6图表示7基于知识图谱的增强检索8基于图LLM的应用9基准数据集和评估10未来的方向11结论
计算机毕业设计hadoop+spark知识图谱美食推荐系统美食价格预测美团推荐系统美团爬虫大众点评爬虫美食数据分析美食可视化大屏大数据毕设计算机毕业设计大全
创新点：1.支付宝沙箱支付2.支付邮箱通知(JavaMail)3.短信验证码修改密码4.知识图谱5.四种推荐算法(协同过滤基于用户、物品、SVD混合神经网络、MLP深度学习模型)6.线性回归算法预测房价7.Python爬虫采集大众点评美食数据8.AI短信识别9.百度地图API10.lstm情感分析11.spark大屏可视化开发技术：springbootvue.jspythonechartsspar
计算机毕业设计hadoop+spark知识图谱高考分数预测系统高考志愿推荐系统高考可视化大屏高考大数据高考数据分析高考爬虫大数据毕业设计计算机毕业设计大全
开发技术hadoopsparkspringbootvue.jsPython爬虫、机器学习、深度学习mybatis-plusneo4j知识图谱图数据库mysql协同过滤算法(基于物品、基于用户模式)MLP模型SVD神经网络CNN、KNN、GNN卷积神经网络预测算法阿里云平台百度AI平台阿里大于短信平台lstm模型创新点4种机器学习推荐算法进行高考志愿学校推荐1种深度学习模型进行高考分数线预测hado
多模态大模型Internvl-1.5-26B微调后部署及测试实录（附代码）写代码的中青年大模型 prompt python 大模型 swift 微调 lora
大模型相关目录大模型，包括部署微调prompt/Agent应用开发、知识库增强、数据库增强、知识图谱增强、自然语言处理、多模态等大模型应用开发内容从0起步，扬帆起航。基于Dify的智能分类方案：大模型结合KNN算法（附代码）OpenCompass：大模型测评工具一文读懂多模态大模型基础架构大模型管理平台：one-api使用指南大模型RAG、ROG、RCG概念科普RAGOnMedicalKG：大模型
百度Ernie大模型是什么？会飞的岛格酱 AIGC AIGC 百度人工智能
百度的Ernie模型（EnhancedRepresentationthroughkNowledgeIntegration）是一个基于Transformer架构的预训练语言模型。它由百度研发，旨在通过整合大规模语料和知识图谱来增强模型的语言理解和生成能力。它通过整合大规模语料和知识图谱，采用多任务学习和分层预训练策略，在多个自然语言处理任务上取得了显著的性能提升。Ernie模型的不断发展和优化，使其
3.Python数据分析—数据分析入门知识图谱&索引(知识体系中篇) 以山河作礼。 Python数据分析项目数据分析知识图谱数据挖掘 python 开发语言
3.Python数据分析—数据分析入门知识图谱&索引-知识体系中篇一·个人简介二·数据获取和处理2.1数据来源：2.2数据清洗：2.2.1缺失值处理：2.2.2异常值处理：2.3数据转换：2.3.1数据类型转换：2.3.2数据编码：2.4数据合并与重塑：2.4.1数据合并：2.4.2数据拼接：2.4.3数据重塑：三·数据探索与分析3.1描述性统计分析3.2数据可视化原则和技巧3.3探索性数据分析（
智合同如何助力建筑行业合同智能化管理智合同（小智）合同智能应用 AI技术降本增效提质人工智能自然语言处理知识图谱深度学习大数据
#建筑行业#人工智能#AI#合同智能应用#深度学习#自然语言处理技术#知识图谱智合同-采用深度学习、自然语言处理技术、知识图谱等人工智能技术，为企业提供专业的合同相关的智能服务。其主要服务包含：合同智能审查、合同要素智能提取、合同版本对比、合同智能起草、ICR智能识别、合同履约追踪、文本一致性对比、广告审查、合同范本库等服务。智合同在助力建筑行业合同智能化管理方面具有显著的优势。首先，智合同利用A
【大咖力荐新手必备】软件开发入门，这300篇文章就够了！高校俱乐部软件开发新手必备数据编码 IP
小编在这里根据知识图谱整理了CSDN站内的优质文章300篇，帮助见习工程提升技术能力、实现系统化学习！基础IT技术文章300篇大合集包含：【信息/编码】进制转换25篇、数据编码25篇；【IP/组网】网关与网段25篇、IP协议26篇、主机与DNS23篇、访问控制37篇；【程序逻辑】JavaScript29篇、常用算法37篇；【Web基础】HTML31篇、CSS32篇、DOM与BOM23篇扫码添加小助
知识图谱最新权威综述论文解读：实体发现 ngl567
上期我们介绍了2020年知识图谱最新权威综述论文《ASurveyonKnowledgeGraphs:Representation,AcquisitionandApplications》的知识图谱补全部分，本期我们将一起学习这篇论文的实体发现部分。论文地址：https://arxiv.org/pdf/2002.00388.pdfarxiv.org1实体发现本节将基于实体的知识获取区分为若干细分任务，
视频回放- Neo4j “图,无处不在 ”关联系列线上研讨会 : 知识图谱助力企业提升数据应用价值 Jennifer726 音视频知识图谱 big data 数据库开发数据仓库
感谢您注册参加1月12日Neo4j“图,无处不在”关联系列线上研讨会-知识图谱助力企业提升数据应用价值。以下是相关内容视频回放。欢迎推荐给更多的同事和朋友观看。图的影响力-回顾2021，展望2022(Dr.JimWebber,Neo4j首席科学家）https://www.bilibili.com/video/BV1V44y1L7kX/从数据分析到数据智能-Neo4j知识图谱介绍(金昕，Neo4j高
构建生物医学知识图谱from zero to hero （4）：通过Neo4j构建知识图谱 ASKCOS AIDD CADD 化学生物知识图谱 neo4j 人工智能
图数据库是一种专门用于存储图形数据的NoSQL数据库。与传统的关系型数据库和其他NoSQL数据库不同，图数据库利用图形数据模型来存储和管理数据。图形数据模型由节点和边组成，节点代表实体，边代表实体之间的关系。例如，在社交网络中，用户可以表示为节点，朋友关系可以表示为边。图数据库具有以下特点：灵活的数据模型：图数据库采用图形数据模型，可以灵活地存储和表示各种类型的数据，例如社交网络、地图、知识图谱等
【了解机器学习的定义与发展历程】 AK@ 人工智能人工智能机器学习
曾梦想执剑走天涯，我是程序猿【AK】目录简述概要知识图谱简述概要了解机器学习的定义与发展历程知识图谱机器学习（MachineLearning，ML）是一门跨学科的学科，它使用计算机模拟或实现人类学习行为，通过不断地获取新的知识和技能，重新组织已有的知识结构，从而提高自身的性能。简单来说，机器学习就是让计算机从数据中学习规律，并根据这些规律对未来数据进行预测。机器学习的发展历程可以追溯到上世纪50年
【人工智能学习思维脉络导图】 AK@ 人工智能人工智能学习
曾梦想执剑走天涯，我是程序猿【AK】目录知识图谱1.基础知识2.人工智能核心概念3.实践与应用4.持续学习与进展5.挑战与自我提升6.人脉网络知识图谱人工智能学习思维脉络导图1.基础知识计算机科学基础数学基础（线性代数、微积分、概率论和统计学）编程语言（Python、R等）2.人工智能核心概念机器学习监督学习无监督学习强化学习深度学习神经网络卷积神经网络（CNN）循环神经网络（RNN）自然语言处理
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开

菜哥学知识图谱（通过“基于医疗知识图谱的问答系统”）（三）（代码分析）

目录

代码分析

你可能感兴趣的:(知识图谱)