chen_nnn

知识图谱基础代码构建（医疗向）

今天上线发现自己竟然涨粉了，也给了我更大的动力将这一方面继续记录下去，这里是对另外一个项目代码的解读，个人认为是对前面连续几篇中文医疗知识图谱的解读的一个补充，有着拨云见日的作用。

项目来源是GitHub上面刘老师做的一个基于知识医疗图谱的问答机器人，本文主要关注点放在建立知识图谱这一侧。这个项目并且将数据集也开源了放在dict和data文件夹下，让我觉得真的很难得，得给老师一个star！https://github.com/liuhuanyong/QASystemOnMedicalKGhttps://github.com/liuhuanyong/QASystemOnMedicalKG

然后我们开始对刘老师项目内与知识图谱构建方向有关的代码进行一个解读。

data_spider.py

build_data.py

MedicalGraph类：

collect_medical():

get_inspect():

max_cut.py

CutWords类：

load_words():

max_forward_cut():

max_backward_cut():

max_biward_cut():

结语

data_spider.py

首先是数据获取阶段，解读刘老师的爬虫项目。

import urllib.request
import urllib.parse
from lxml import etree
import pymongo
import re


class CrimeSpider:
    def __init__(self):
        self.conn = pymongo.MongoClient()
        self.db = self.conn['medical']
        self.col = self.db['data']

    '''根据url，请求html'''
    def get_html(self, url):
        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                                 'Chrome/51.0.2704.63 Safari/537.36'}
        req = urllib.request.Request(url=url, headers=headers)
        res = urllib.request.urlopen(req)
        html = res.read().decode('gbk')
        return html

    '''url解析'''
    def url_parser(self, content):
        selector = etree.HTML(content)
        urls = ['http://www.anliguan.com' + i for i in  selector.xpath('//h2[@class="item-title"]/a/@href')]
        return urls

    '''测试'''
    def spider_main(self):
        for page in range(1, 11000):
            try:
                basic_url = 'http://jib.xywy.com/il_sii/gaishu/%s.htm'%page
                cause_url = 'http://jib.xywy.com/il_sii/cause/%s.htm'%page
                prevent_url = 'http://jib.xywy.com/il_sii/prevent/%s.htm'%page
                symptom_url = 'http://jib.xywy.com/il_sii/symptom/%s.htm'%page
                inspect_url = 'http://jib.xywy.com/il_sii/inspect/%s.htm'%page
                treat_url = 'http://jib.xywy.com/il_sii/treat/%s.htm'%page
                food_url = 'http://jib.xywy.com/il_sii/food/%s.htm'%page
                drug_url = 'http://jib.xywy.com/il_sii/drug/%s.htm'%page
                data = {}
                data['url'] = basic_url
                data['basic_info'] = self.basicinfo_spider(basic_url)
                data['cause_info'] =  self.common_spider(cause_url)
                data['prevent_info'] =  self.common_spider(prevent_url)
                data['symptom_info'] = self.symptom_spider(symptom_url)
                data['inspect_info'] = self.inspect_spider(inspect_url)
                data['treat_info'] = self.treat_spider(treat_url)
                data['food_info'] = self.food_spider(food_url)
                data['drug_info'] = self.drug_spider(drug_url)
                print(page, basic_url)
                self.col.insert(data)

            except Exception as e:
                print(e, page)
        return

    '''基本信息解析'''
    def basicinfo_spider(self, url):
        html = self.get_html(url)
        selector = etree.HTML(html)
        title = selector.xpath('//title/text()')[0]
        category = selector.xpath('//div[@class="wrap mt10 nav-bar"]/a/text()')
        desc = selector.xpath('//div[@class="jib-articl-con jib-lh-articl"]/p/text()')
        ps = selector.xpath('//div[@class="mt20 articl-know"]/p')
        infobox = []
        for p in ps:
            info = p.xpath('string(.)').replace('\r','').replace('\n','').replace('\xa0', '').replace('   ', '').replace('\t','')
            infobox.append(info)
        basic_data = {}
        basic_data['category'] = category
        basic_data['name'] = title.split('的简介')[0]
        basic_data['desc'] = desc
        basic_data['attributes'] = infobox
        return basic_data

    '''treat_infobox治疗解析'''
    def treat_spider(self, url):
        html = self.get_html(url)
        selector = etree.HTML(html)
        ps = selector.xpath('//div[starts-with(@class,"mt20 articl-know")]/p')
        infobox = []
        for p in ps:
            info = p.xpath('string(.)').replace('\r','').replace('\n','').replace('\xa0', '').replace('   ', '').replace('\t','')
            infobox.append(info)
        return infobox

    '''treat_infobox治疗解析'''
    def drug_spider(self, url):
        html = self.get_html(url)
        selector = etree.HTML(html)
        drugs = [i.replace('\n','').replace('\t', '').replace(' ','') for i in selector.xpath('//div[@class="fl drug-pic-rec mr30"]/p/a/text()')]
        return drugs

    '''food治疗解析'''
    def food_spider(self, url):
        html = self.get_html(url)
        selector = etree.HTML(html)
        divs = selector.xpath('//div[@class="diet-img clearfix mt20"]')
        try:
            food_data = {}
            food_data['good'] = divs[0].xpath('./div/p/text()')
            food_data['bad'] = divs[1].xpath('./div/p/text()')
            food_data['recommand'] = divs[2].xpath('./div/p/text()')
        except:
            return {}

        return food_data

    '''症状信息解析'''
    def symptom_spider(self, url):
        html = self.get_html(url)
        selector = etree.HTML(html)
        symptoms = selector.xpath('//a[@class="gre" ]/text()')
        ps = selector.xpath('//p')
        detail = []
        for p in ps:
            info = p.xpath('string(.)').replace('\r','').replace('\n','').replace('\xa0', '').replace('   ', '').replace('\t','')
            detail.append(info)
        symptoms_data = {}
        symptoms_data['symptoms'] = symptoms
        symptoms_data['symptoms_detail'] = detail
        return symptoms, detail

    '''检查信息解析'''
    def inspect_spider(self, url):
        html = self.get_html(url)
        selector = etree.HTML(html)
        inspects  = selector.xpath('//li[@class="check-item"]/a/@href')
        return inspects

    '''通用解析模块'''
    def common_spider(self, url):
        html = self.get_html(url)
        selector = etree.HTML(html)
        ps = selector.xpath('//p')
        infobox = []
        for p in ps:
            info = p.xpath('string(.)').replace('\r', '').replace('\n', '').replace('\xa0', '').replace('   ','').replace('\t', '')
            if info:
                infobox.append(info)
        return '\n'.join(infobox)
    '''检查项抓取模块'''
    def inspect_crawl(self):
        for page in range(1, 3685):
            try:
                url = 'http://jck.xywy.com/jc_%s.html'%page
                html = self.get_html(url)
                data = {}
                data['url']= url
                data['html'] = html
                self.db['jc'].insert(data)
                print(url)
            except Exception as e:
                print(e)


handler = CrimeSpider()
handler.inspect_crawl()

在这请忽略类的名称叫CrimeSpider，这是因为刘老师之前还做了一个完整的和司法案件有关的知识图谱，加上爬虫之间大同小异，改一改就能爬取另外一个网站。对于该爬虫文件我不做过多解读，详细情况可以参照本人另一篇博客。Python爬虫编程基础 Python入门+数据分析实训笔记分享_chen_nnn的博客-CSDN博客笔者通过哔哩哔哩弹幕网学习爬虫编程基础实训笔记在此分享视频来源：https://www.bilibili.com/video/BV12E411A7ZQ?spm_id_from=333.1007.top_right_bar_window_default_collection.content.clickhttps://blog.csdn.net/chen_nnn/article/details/122979611

这里我们主要关注一下，刘老师爬取的网站的情况，从代码中可以看出数据的原网站是寻医问药网的疾病百科。

可以看到该网站的疾病百科从HTML的角度来看，结构较为清晰，比较适合爬取，之后的数据处理的工作量可以大大减少。爬虫将所有与该疾病相关的信息都进行爬取和存储，最终一共爬取了8807条和疾病有关的数据，里面的数据存储的结构如下。

build_data.py

该文件是将爬虫爬取到的数据进行规整，实现上图所示的结构。

MedicalGraph类：

import pymongo
from lxml import etree
import os
from max_cut import *

class MedicalGraph:
    def __init__(self):
        self.conn = pymongo.MongoClient()#'''建立无用户名密码连接'''
        cur_dir = '/'.join(os.path.abspath(__file__).split('/')[:-1])
        self.db = self.conn['medical']
        self.col = self.db['data']
        first_words = [i.strip() for i in open(os.path.join(cur_dir, 'first_name.txt'))]
        alphabets = ['a','b','c','d','e','f','g','h','i','j','k','l','m','n','o','p','q','r','s','t','u','v','w','x','y', 'z']
        nums = ['1','2','3','4','5','6','7','8','9','0']
        self.stop_words = first_words + alphabets + nums
        self.key_dict = {
            '医保疾病' : 'yibao_status',
            "患病比例" : "get_prob",
            "易感人群" : "easy_get",
            "传染方式" : "get_way",
            "就诊科室" : "cure_department",
            "治疗方式" : "cure_way",
            "治疗周期" : "cure_lasttime",
            "治愈率" : "cured_prob",
            '药品明细': 'drug_detail',
            '药品推荐': 'recommand_drug',
            '推荐': 'recommand_eat',
            '忌食': 'not_eat',
            '宜食': 'do_eat',
            '症状': 'symptom',
            '检查': 'check',
            '成因': 'cause',
            '预防措施': 'prevent',
            '所属类别': 'category',
            '简介': 'desc',
            '名称': 'name',
            '常用药品' : 'common_drug',
            '治疗费用': 'cost_money',
            '并发症': 'acompany'
        }
        self.cuter = CutWords()

pymongo是一个方便使用数据库的库函数，首先按照刘老师注释所言，建立一个无用户名密码连接，然后定义一个指针变量，该变量使用os.path.abspath（只有当在脚本中执行的时候，os.path.abspath(__file__)才会起作用，因为该命令是获取的当前执行脚本的完整路径，如果在交互模式或者terminate 终端中运行会报没有__file__这个错误。）获取绝对路径。然后再获取该路径下的first_name.txt中的内容，构建一个first_words变量（os.path.join的作用是：连接两个或更多的路径名组件1.如果各组件名首字母不包含’/’，则函数会自动加上2.如果有一个组件是一个绝对路径，则在它之前的所有组件均会被舍弃3.如果最后一个组件为空，则生成的路径以一个’/’分隔符结尾）。

但是这个first_name.txt里面的内容却并没有在文件中给出，所以我们也不知道是以一个怎样的逻辑，但是我们有了最后构建好的json文件，所以这部分我们就当做背景知识的学习。

collect_medical():

    def collect_medical(self):
        cates = []
        inspects = []
        count = 0
        for item in self.col.find():
            data = {}
            basic_info = item['basic_info']
            name = basic_info['name']
            if not name:
                continue
            # 基本信息
            data['名称'] = name
            data['简介'] = '\n'.join(basic_info['desc']).replace('\r\n\t', '').replace('\r\n\n\n','').replace(' ','').replace('\r\n','\n')
            category = basic_info['category']
            data['所属类别'] = category
            cates += category
            attributes = basic_info['attributes']
            # 成因及预防
            data['预防措施'] = item['prevent_info']
            data['成因'] = item['cause_info']
            # 并发症
            data['症状'] = list(set([i for i in item["symptom_info"][0] if i[0] not in self.stop_words]))
            for attr in attributes:
                attr_pair = attr.split('：')
                if len(attr_pair) == 2:
                    key = attr_pair[0]
                    value = attr_pair[1]
                    data[key] = value
            # 检查
            inspects = item['inspect_info']
            jcs = []
            for inspect in inspects:
                jc_name = self.get_inspect(inspect)
                if jc_name:
                    jcs.append(jc_name)
            data['检查'] = jcs
            # 食物
            food_info = item['food_info']
            if food_info:
                data['宜食'] = food_info['good']
                data['忌食'] = food_info['bad']
                data['推荐'] = food_info['recommand']
            # 药品
            drug_info = item['drug_info']
            data['药品推荐'] = list(set([i.split('(')[-1].replace(')','') for i in drug_info]))
            data['药品明细'] = drug_info
            data_modify = {}
            for attr, value in data.items():
                attr_en = self.key_dict.get(attr)
                if attr_en:
                    data_modify[attr_en] = value
                if attr_en in ['yibao_status', 'get_prob', 'easy_get', 'get_way', "cure_lasttime", "cured_prob"]:
                    data_modify[attr_en] = value.replace(' ','').replace('\t','')
                elif attr_en in ['cure_department', 'cure_way', 'common_drug']:
                    data_modify[attr_en] = [i for i in value.split(' ') if i]
                elif attr_en in ['acompany']:
                    acompany = [i for i in self.cuter.max_biward_cut(data_modify[attr_en]) if len(i) > 1]
                    data_modify[attr_en] = acompany

            try:
                self.db['medical'].insert(data_modify)
                count += 1
                print(count)
            except Exception as e:
                print(e)

        return

find() 方法检测字符串中是否包含子字符串 str ，如果指定 beg（开始）和 end（结束）范围，则检查是否包含在指定范围内，如果指定范围内如果包含指定索引值，返回的是索引值在字符串中的起始位置。如果不包含索引值，返回-1。item和basic_info都以字典的形式储存数据。

由于在该for循环中，定义了data字典，之后将有关该疾病的各种信息以键值对的形式存储到字典当中。首先是名称、简介信息（需要对其做一些修正然后才能保存）、疾病类别、预防措施、成因、症状。然后对于其他信息格式如XXX：XXX也同样进行存储，在冒号之后还有并列的情况之后处理。对于inspects中包含多个项目，在data['检查']下以列表的形式存储。最后是食物和药品。将这一切都存储到data中去后，在最后我们对data的格式进行最后一次修正，使用之前设定好的英文名。然后将其保存到数据库当中。

get_inspect():

    def get_inspect(self, url):
        res = self.db['jc'].find_one({'url':url})
        if not res:
            return ''
        else:
            return res['name']

该函数在上一个函数当中使用，目的就是找到该条目当中的名字，find_one()方法作用是返回一个文档满足指定的查询条件。如果多个文档满足查询,该方法返回第一个文档根据自然秩序反映了磁盘上文件的顺序。在限制集合,自然秩序是一样的插入顺序。如果没有文档满足查询,方法返回null。

max_cut.py

CutWords类：

class CutWords:
    def __init__(self):
        dict_path = './disease.txt'
        self.word_dict, self.max_wordlen = self.load_words(dict_path)

开始的定义很简单，就是加载保存疾病名称的文本文档。

load_words():

    def load_words(self, dict_path):
        words = list()
        max_len = 0
        for line in open(dict_path):
            wd = line.strip()
            if not wd:
                continue
            if len(wd) > max_len:
                max_len = len(wd)
            words.append(wd)
        return words, max_len#这个是加载词典么，为什么只要字长依次递增的呢？

list() 方法用于将元组或字符串转换为列表，所以这里是想要构建一个空列表。然后定义最大字长变量，在字典遍历的过程中，不断将疾病名称保存到words中，同时更新最大字长。

max_forward_cut():

    def max_forward_cut(self, sent):
        cutlist = []
        index = 0
        while index < len(sent):
            matched = False
            for i in range(self.max_wordlen, 0, -1):
                cand_word = sent[index: index + i]
                if cand_word in self.word_dict:
                    cutlist.append(cand_word)
                    matched = True
                    break
            if not matched:
                i = 1
                cutlist.append(sent[index])
            index += i
        return cutlist

该函数作用是最大向前匹配。从左向右取待切分汉语句的m个字符作为匹配字段，m为大机器词典中最长词条个数。查找大机器词典并进行匹配。若匹配成功，则将这个匹配字段作为一个词切分出来。对于送进函数处理的文本段，首先按照最大字长来切分，并检查能否匹配到存储在字典当中的疾病名称，能匹配到就实现函数作用，跳出循环，将该名称返回，如果没有则将字长减一继续匹配，直到匹配到为止，如果到最后也没有匹配成功的话，就返回该字段第一个值。

max_backward_cut():

    def max_backward_cut(self, sent):
        cutlist = []
        index = len(sent)
        while index > 0:
            matched = False
            for i in range(self.max_wordlen, 0, -1):
                tmp = (i + 1)
                cand_word = sent[index - tmp: index]
                if cand_word in self.word_dict:
                    cutlist.append(cand_word)
                    matched = True
                    break
            if not matched:
                tmp = 1
                cutlist.append(sent[index - 1])

            index -= tmp

        return cutlist[::-1]

该函数作用是最大向后匹配。从右向左取待切分汉语句的m个字符作为匹配字段，m为大机器词典中最长词条个数。查找大机器词典并进行匹配。功能和前面的最大向前匹配类似，只不过在该函数中如果最后匹配失败则返回字段最后一个值。

max_biward_cut():

    def max_biward_cut(self, sent):
        forward_cutlist = self.max_forward_cut(sent)
        backward_cutlist = self.max_backward_cut(sent)
        count_forward = len(forward_cutlist)
        count_backward = len(backward_cutlist)

        def compute_single(word_list):
            num = 0
            for word in word_list:
                if len(word) == 1:
                    num += 1
            return num

        if count_forward == count_backward:
            if compute_single(forward_cutlist) > compute_single(backward_cutlist):
                return backward_cutlist
            else:
                return forward_cutlist

        elif count_backward > count_forward:
            return forward_cutlist

        else:
            return backward_cutlist

双向最大匹配法是将正向最大匹配法得到的分词结果和逆向最大匹配法的到的结果进行比较，从而决定正确的分词方法。运用启发式规则：1.如果正反向分词结果词数不同，则取分词数量较少的那个。 2.如果分词结果词数相同 a.分词结果相同，就说明没有歧义，可返回任意一个。 b.分词结果不同，返回其中单字较少的那个。函数中包含的compute_single()函数用来计算分词结果列表当中单个字符的个数。

结语

到此为止将刘老师项目当中对于数据预处理部分的代码解读完成，之后再更新对于知识图谱构建的相关部分。

MyBatis-plus 2.x -＞ 3.x 版本升级笔记三只松鼠@ 工作日常 spring java sql
参考链接：https://github.com/baomidou/mybatis-plus/issues/32621.官方更新日志升级JDK8+优化性能Wrapper支持lambda语法模块化MP合理的分配各个包结构移除com.baomidou.mybatisplus.extension.injector.methods.additional包下的过时类fix:初始化TableInfo中遇到多个字
Vue3-笔记002-Ref与Reactive ·焱· vue3学习笔记笔记 vue.js javascript
002-Ref与Reactive-目录Refref案例ref与RefifRefshallowReftriggerRefcustomRefdom元素的refReactive与ref的共同点与ref的不同点数组的异步赋值问题readonlyshallowReactivetoReftoRefstoRawRef接受一个内部值并返回一个响应式且可变的ref对象。ref对象仅有一个.valueproperty
Python实战：开发经典猜拳游戏（石头剪刀布）藍海琴泉游戏
目录引言：为什么选择猜拳游戏作为入门项目？第一部分：基础知识点与代码实现1.游戏逻辑与流程2.代码分步实现2.1导入必要模块2.2定义游戏规则函数2.3生成计算机选择2.4判断胜负逻辑2.5主循环与交互3.代码运行效果示例第二部分：功能扩展与优化1.添加计分系统2.支持多轮游戏与退出选择3.增加图形化界面（可选）第三部分：进一步学习方向1.深化游戏功能2.学习相关知识3.书籍与资源推荐适合人群：编
Python函数完全解读：从零基础到高阶实战藍海琴泉 python 开发语言
目标读者：编程新手|转行者|需系统掌握函数用法的开发者目录一、函数是什么？为什么需要函数？二、函数基础语法详解1.定义与调用2.返回值：函数的输出结果3.参数传递机制4.案例：计算BMI指数三、变量作用域：理解局部与全局1.局部变量2.全局变量四、函数进阶：lambda与高阶函数1.lambda匿名函数2.高阶函数五、函数高级特性1.装饰器：增强函数功能2.递归函数六、实战案例：文件处理工具一、函
本地部署deepseek-r1:14b 批量调用 Python调用本地deepseek-r1:14b实现对本地数据库的AI管理朴拙Python交易猿 python 数据库开发语言
这篇文章主要为大家详细介绍了Python如何基于DeepSeek模型，调用本地deepseek-r1:14b实现对本地数据库的AI管理场景描述基于DeepSeek模型，实现对本地数据库的AI管理。实现思路1、本地python+flask搭建个WEB，配置数据源。2、通过DeepSeek模型根据用户输入的文字需求，自动生成SQL语句。3、通过SQL执行按钮，实现对数据库的增删改查。模型服务方法1启动
Matplotlib 柱形图 lly202406 开发语言
Matplotlib柱形图引言在数据可视化领域，柱形图是一种非常常见且强大的图表类型。它能够帮助我们直观地比较不同类别或组之间的数据大小。Matplotlib，作为Python中最受欢迎的数据可视化库之一，提供了丰富的绘图功能，其中包括创建柱形图。本文将详细介绍Matplotlib中的柱形图，包括其基本用法、高级特性以及如何进行优化。基本用法安装Matplotlib在开始使用Matplotlib之
Matplotlib如何创建交互式图表？ EdgarBertram matplotlib
Matplotlib是一个强大的Python绘图库，它可以用于生成高质量的静态图像。然而，Matplotlib同样支持创建交互式图表，这对于数据分析和可视化非常有用。交互式图表允许用户通过交互方式探索数据，例如缩放、平移或者查询数据点。下面我们将详细介绍如何使用Matplotlib创建交互式图表。一、安装与配置首先，确保你已经安装了Matplotlib库。你可以使用pip来安装：bash复制代码p
如何用PHP开发一个api数据接口幽蓝计划 php
对于一个iOS开发者来说，我一直觉得会写接口是一件很酷的事情，因为它可以实时修改前台数据，而不像App一样需要更新版本和接受审核。更重要的是，它意味着你的技术完成了一个闭环，可以独自完成一整个项目的开发。PHP是我接触的第一个脚本语言，使用之后更是感觉PHP功能强大，开发过程非常友好方便，虽然之后也学习过Python、JavaScript等语言，但现在还是习惯使用PHP，下面就来介绍一下如何用PH
使用E2B数据分析沙盒进行文件分析 qahaj 数据分析数据挖掘 python
使用E2B数据分析沙盒进行文件分析在现代数据分析中，运行环境的安全性与灵活性是确保数据处理高效可靠的关键因素。E2B提供了一个数据分析沙盒，能够在隔离的环境中安全地执行代码，非常适合构建诸如代码解释器或类似于ChatGPT的高级数据分析工具。在这篇文章中，我将演示如何使用E2B的数据分析沙盒来对上传的文件进行分析，为您提供一个强大的Python代码示例。核心原理解析E2B的数据分析沙盒为开发者提供
Python笔记——DeprecationWarning 小橘猫cate Python python 开发语言
定义如下阶跃函数时出现警告，defstep_function(x):returnnp.array(x>0,dtype=np.int)DeprecationWarning:`np.int`isadeprecatedaliasforthebuiltin`int`.Tosilencethiswarning,use`int`byitself.Doingthiswillnotmodifyanybehavio
使用 ArcGIS 和 Python 进行地理信息系统(GIS)分析 scaFHIO arcgis python java
在本篇文章中，我们将探讨如何利用ArcGIS和Python进行地理信息系统(GIS)分析。ArcGIS是由Esri开发和维护的一系列GIS软件，包括客户端、服务器和在线解决方案。本文主要聚焦于如何使用Python和arcgis库来实现GIS功能。技术背景介绍ArcGIS提供了功能强大的工具来进行矢量和栅格分析、地理编码、地图制作以及路线和路径规划。通过arcgisPython库，我们可以访问Esr
数据分析实战：Shopee虾皮网销售数据分析 harvensage 数据分析数据分析数据挖掘
一、背景目标Shopee（虾皮网）是东南亚电商平台，覆盖新加坡、马来西亚、菲律宾、泰国、越南、巴西、墨西哥、哥伦比亚、智利等十余个市场，触达超10亿消费者！2023年Shopee总订单量达82亿，23年Q4总订单数同比增长46%！分析数据样本来自某爬虫系统爬取的Shopee网从2023年4月至2023年5月期间特定产品的销售数据。任务要求任务要求：从数据中获取在2023年5月上市的产品。使用问题1
批量获取虾皮shopee商品详情信息爬虫 a6229203 爬虫数据库前端
每天100万详情联系736131417v:IpAnt_Proxy在当今的电子商务环境中，数据是至关重要的。对于电商平台的商家和开发者来说，获取商品详情信息是他们日常工作的关键部分。虾皮Shopee作为东南亚最大的电商平台，其商品信息对于商家和开发者来说具有极高的价值。本文将分享如何通过API批量获取虾皮Shopee的商品详情信息，并提供测试代码，让您轻松上手。一、了解虾皮ShopeeAPI虾皮Sh
PHP 爬虫实战：爬取淘宝商品详情数据 EcomDataMiner php 爬虫开发语言
随着互联网技术的发展，数据爬取越来越成为了数据分析、机器学习等领域的重要前置技能。而在这其中，爬虫技术更是不可或缺。php作为一门广泛使用的后端编程语言，其在爬虫领域同样也有着广泛应用和优势。本文将以爬取斗鱼直播数据为例，介绍php爬虫的实战应用。准备工作在开始爬虫之前，我们需要做一些准备工作。首先，需要搭建一个本地服务器环境，推荐使用WAMP、XAMPP等集成化工具，方便部署PHP环境。其次，我
DeprecationWarning: 无效的转义序列‘\/‘解决方案数据科学智慧 linux 运维服务器 Python
DeprecationWarning:无效的转义序列’/'解决方案在Python编程中，您可能会遇到"DeprecationWarning:无效的转义序列’/'"的警告消息。这个警告通常在您尝试使用无效的转义序列时出现，例如在正则表达式或字符串中。本文将为您提供解决方案，以解决这个问题。首先，让我们了解一下转义序列的概念。在Python中，某些字符前面带有反斜杠（\），以表示特殊含义，例如换行符（
如何使用PHP爬虫根据关键词获取Shopee商品列表？数据小爬虫@ php 爬虫 android
在跨境电商领域，Shopee作为东南亚及中国台湾地区领先的电商平台，拥有海量的商品信息。无论是进行市场调研、数据分析，还是寻找热门商品，根据关键词获取Shopee商品列表都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写PHP爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用PHP爬虫根据关键词获取Shopee商品列表，并提供完整的代码示例。一
如何使用PHP爬虫获取Shopee（虾皮）商品详情？数据小爬虫@ php 爬虫开发语言
在跨境电商领域，Shopee（虾皮）作为东南亚及中国台湾地区领先的电商平台，拥有海量的商品信息。无论是进行市场调研、数据分析，还是寻找热门商品，获取Shopee商品详情都是一项极具价值的任务。然而，手动浏览和整理这些信息显然是低效且容易出错的。幸运的是，通过编写PHP爬虫程序，我们可以高效地完成这一任务。本文将详细介绍如何利用PHP爬虫获取Shopee商品详情，并提供完整的代码示例。一、为什么选择
Linux内核srio驱动,Zynq—Linux移植学习笔记（十四）：RapidIO驱动开发 weixin_39942572 Linux内核srio驱动
#defineDRIVER_NAME"xiic-rio"#defineSRIO_ZYNQ_BASEADDR0x40000000#defineSRIO_ZYNQ_NODE_BASEADDR0x10100#defineSRIO_ZYNQ_MAX_HOPCOUNT13structxiic_rio{structmutexlock;u8*data;};/*Weneedglobalvarriableforma
lingo使用笔记(仅入门) 发篇博客骗自己笔记
lingo使用教程㈠，大致描述（平白无趣的科普）Lingo是一款用于线性规划、整数规划和非线性规划的优化软件。以下是一些常见的Lingo语法和写法的笔记，帮助你快速上手。1.基本结构Lingo模型通常由以下几个部分组成：集合定义：定义模型中使用的集合。数据输入：定义模型中的参数和数据。变量定义：定义决策变量。目标函数：定义优化目标。约束条件：定义模型的约束条件。求解命令：告诉Lingo进行求解。2
python做飞机大战让敌机打子弹_python（pygame）滑稽大战(类似飞机大战) 教程青云若水
初始准备工作本项目使用的python3版本(如果你用python2，我不知会怎么样)Ide推荐大家选择pycharm(不同ide应该没影响)需要安装第三方库pygame，pygame安装方法(windows电脑，mac系统本人实测与pygame不兼容，强行运行本项目卡成ppt)电脑打开cmd命令窗口，输入pip3installpygame补充说明:由于众所周知的原因，安装过程中下载可能十分缓慢，甚
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析快撑死的鱼 Python算法精解 python 深度学习开发语言
利用Python和深度学习方法实现手写数字识别的高精度解决方案——从数据预处理到模型优化的全流程解析在人工智能的众多应用领域中，手写数字识别是一项经典且具有重要实际应用价值的任务。随着深度学习技术的飞速发展，通过构建和训练神经网络模型，手写数字识别的精度已经可以达到99%以上。本文将以Python为主要编程语言，结合深度学习的核心技术，详细解析手写数字识别的实现过程，并探讨如何进一步优化模型以提高
python之连连看游戏 CrMylive. python 游戏 pygame
实现一个简单的连连看游戏需要用到pygame库和一些基本的数据结构和算法。导入pygame库在程序开始之前，首先需要导入pygame库。在Python中，可以使用以下代码导入pygame库：importpygame初始化Pygame在导入pygame库之后，需要使用以下代码初始化pygame：pygame.init()设置游戏窗口设置游戏窗口的大小、标题等属性。可以使用以下代码设置游戏窗口大小为6
Kubernetes学习笔记-移除Nacos迁移至K8s 人生偌只如初见 Kubernetes J2EE kubernetes k8s java
项目服务的配置管理和服务注册发现由原先的Nacos全面迁移到Kubernetes上。一、移除Nacos移除Nacos组件依赖。com.alibaba.cloudspring-cloud-starter-alibaba-nacos-discoverycom.alibaba.cloudspring-cloud-starter-alibaba-nacos-configorg.springframewor
Python, Java, C ++开发全球热能动态监测APP Geeker-2025 python java c++
开发一个“全球热能动态监测APP”是一个非常有意义的想法，尤其是在能源管理和环境保护领域。以下是开发该APP的详细思路和技术实现方案，分别针对Python、Java和C++。---###**功能需求分析**1.**全球热能数据展示**：-各国或地区的热能生产、消费和进出口数据。-实时监测热能动态（如发电厂的热能输出、温度变化等）。2.**地图可视化**：-在地图上标注热能发电厂的位置。-使用颜色或
Java基础笔记（小白友好版）代码什么的真不会呀 java 笔记开发语言
Java基础笔记（小白友好版）1.Java简介Java是一种广泛使用的计算机编程语言，由詹姆斯·高斯林（JamesGosling）在1995年创建Java的口号是"一次编写，到处运行"（WriteOnce,RunAnywhere）Java程序需要先编译成字节码（.class文件），然后在Java虚拟机（JVM）上运行主要特点：面向对象：一切皆对象，代码更清晰易懂平台无关性：可以在Windows、M
动物识别系统代码python_动物识别系统__代码 weixin_39812065 动物识别系统代码python
1动物识别专家系统动物识别专家系统是流行的专家系统实验模型，它用产生式规则来表示知识，共15条规则、可以识别七种动物，这些规则既少又简单，可以改造他们，也可以加进新的规则，还可以用来识别其他东西的新规则来取代这些规则。动物识别15条规则的中文表示是：规则1：如果：动物有毛发则：该动物是哺乳动物规则2：如果：动物有奶则：该单位是哺乳动物规则3:如果：该动物有羽毛则：该动物是鸟规则4：如果：动物会飞，
动物识别系统代码python_动物识别系统代码 weixin_39862794 动物识别系统代码python
简易动物识别专家系统源代码（调试无错！）#includevoidbirds(){inta;printf("**************************************\n");printf("1.长腿，长脖子，黑色，不会飞。\n");printf("2.不会飞，会游泳，黑色.\n");printf("3.善飞\n");printf("4.无上述特征\n");printf("****
从零至巅：逆向爬虫之道 0_0 蓝花楹下逆向爬虫爬虫
逆向爬虫-涅槃吾本一介凡鸟，栖于尘世，碌碌无为，浑浑噩噩，如沧海一粟，渺小而无足轻重。然，虽为小雀，心亦怀鸿鹄之志，欲挥羽向天，如凤凰般，翱翔九天，俯瞰苍茫大地。奈何羽翼未丰，学识浅薄，常感力不从心，困于樊笼，不得展翅高飞。然，吾深知，学如逆水行舟，不进则退。故，今执笔为记，以明志，以自勉。愿以此笔记为舟，载吾渡学海，以勤为桨，以思为帆，逐浪前行，终至彼岸。虽前路漫漫，荆棘丛生，然吾心坚定，誓不负
Python深浅拷贝 Karl_zhujt Python python
文章目录1概述2数据类型2.1可变类型2.2不可变类型3深浅拷贝3.1浅拷贝3.2深拷贝4深浅拷贝对数据类型的影响4.1对于不可变类型的影响4.2对于可变类型的影响4.3总结5实现机制5.1copy5.2id6示例6.1普通赋值6.2浅拷贝可变类型6.3浅拷贝不可变类型6.4深拷贝可变类型6.5深拷贝不可变类型7注意事项1概述在Python中，可变类型和不可变类型的拷贝行为有所不同。理解它们的区别
基于 EMA12 指标结合 iTick 外汇报价 API 、股票报价API、指数报价API的量化策略编写与回测
iTick提供了强大的外汇报价API、股票报价API和指数报价API服务，为量化策略的开发提供了丰富的数据支持。本文将详细介绍如何使用Python结合EMA12指标和iTick的报价API来构建一个简单的量化交易策略，并对该策略进行回测。1.引言在量化交易领域，技术指标是构建交易策略的重要基础。iTick提供了强大的外汇报价API、股票报价API和指数报价API服务，为量化策略的开发提供了丰富的数
ASM系列五利用TreeApi 解析生成Class lijingyao8206 ASM 字节码动态生成 ClassNode TreeAPI
前面CoreApi的介绍部分基本涵盖了ASMCore包下面的主要API及功能，其中还有一部分关于MetaData的解析和生成就不再赘述。这篇开始介绍ASM另一部分主要的Api。TreeApi。这一部分源码是关联的asm-tree-5.0.4的版本。在介绍前，先要知道一点， Tree工程的接口基本可以完
链表树——复合数据结构应用实例 bardo 数据结构树型结构表结构设计链表菜单排序
我们清楚：数据库设计中，表结构设计的好坏，直接影响程序的复杂度。所以，本文就无限级分类（目录）树与链表的复合在表设计中的应用进行探讨。当然，什么是树，什么是链表，这里不作介绍。有兴趣可以去看相关的教材。需求简介：经常遇到这样的需求，我们希望能将保存在数据库中的树结构能够按确定的顺序读出来。比如，多级菜单、组织结构、商品分类。更具体的，我们希望某个二级菜单在这一级别中就是第一个。虽然它是最后
为啥要用位运算代替取模呢 chenchao051 位运算哈希汇编
在hash中查找key的时候，经常会发现用&取代%，先看两段代码吧， JDK6中的HashMap中的indexFor方法： /** * Returns index for hash code h. */ static int indexFor(int h, int length) {
最近的情况麦田的设计者生活感悟计划软考想
今天是2015年4月27号整理一下最近的思绪以及要完成的任务 1、最近在驾校科目二练车，每周四天，练三周。其实做什么都要用心，追求合理的途径解决。为
PHP去掉字符串中最后一个字符的方法 IT独行者 PHP 字符串
今天在PHP项目开发中遇到一个需求，去掉字符串中的最后一个字符原字符串1,2,3,4,5,6, 去掉最后一个字符","，最终结果为1,2,3,4,5,6 代码如下： $str = "1,2,3,4,5,6,"; $newstr = substr($str,0,strlen($str)-1); echo $newstr;
hadoop在linux上单机安装过程 _wy_ linux hadoop
1、安装JDK jdk版本最好是1.6以上，可以使用执行命令java -version查看当前JAVA版本号，如果报命令不存在或版本比较低，则需要安装一个高版本的JDK，并在/etc/profile的文件末尾，根据本机JDK实际的安装位置加上以下几行： export JAVA_HOME=/usr/java/jdk1.7.0_25
JAVA进阶----分布式事务的一种简单处理方法无量多系统交互分布式事务
每个方法都是原子操作：提供第三方服务的系统，要同时提供执行方法和对应的回滚方法 A系统调用B,C,D系统完成分布式事务 =========执行开始======== A.aa(); try { B.bb(); } catch(Exception e) { A.rollbackAa(); } try { C.cc(); } catch(Excep
安墨移动广告：移动DSP厚积薄发引领未来广告业发展命脉矮蛋蛋 hadoop 互联网
　　“谁掌握了强大的DSP技术，谁将引领未来的广告行业发展命脉。”2014年，移动广告行业的热点非移动DSP莫属。各个圈子都在纷纷谈论，认为移动DSP是行业突破点，一时间许多移动广告联盟风起云涌，竞相推出专属移动DSP产品。　　到底什么是移动DSP呢? 　　DSP(Demand-SidePlatform)，就是需求方平台，为解决广告主投放的各种需求，真正实现人群定位的精准广
myelipse设置 alafqq IP
在一个项目的完整的生命周期中，其维护费用，往往是其开发费用的数倍。因此项目的可维护性、可复用性是衡量一个项目好坏的关键。而注释则是可维护性中必不可少的一环。注释模板导入步骤安装方法：打开eclipse/myeclipse 选择 window-->Preferences-->JAVA-->Code-->Code
java数组百合不是茶 java数组
java数组的声明创建初始化； java支持C语言数组中的每个数都有唯一的一个下标一维数组的定义声明： int[] a = new int[3];声明数组中有三个数int[3] int[] a 中有三个数，下标从0开始，可以同过for来遍历数组中的数
javascript读取表单数据 bijian1013 JavaScript
利用javascript读取表单数据，可以利用以下三种方法获取： 1、通过表单ID属性：var a = document.getElementByIdx_x_x("id"); 2、通过表单名称属性：var b = document.getElementsByName("name"); 3、直接通过表单名字获取：var c = form.content.
探索JUnit4扩展：使用Theory bijian1013 java JUnit Theory
理论机制（Theory）一.为什么要引用理论机制（Theory）当今软件开发中，测试驱动开发（TDD — Test-driven development）越发流行。为什么 TDD 会如此流行呢？因为它确实拥有很多优点，它允许开发人员通过简单的例子来指定和表明他们代码的行为意图。 TDD 的优点： &nb
[Spring Data Mongo一]Spring Mongo Template操作MongoDB bit1129 template
什么是Spring Data Mongo Spring Data MongoDB项目对访问MongoDB的Java客户端API进行了封装，这种封装类似于Spring封装Hibernate和JDBC而提供的HibernateTemplate和JDBCTemplate，主要能力包括 1. 封装客户端跟MongoDB的链接管理 2. 文档-对象映射，通过注解:@Document(collectio
【Kafka八】Zookeeper上关于Kafka的配置信息 bit1129 zookeeper
问题： 1. Kafka的哪些信息记录在Zookeeper中 2. Consumer Group消费的每个Partition的Offset信息存放在什么位置 3. Topic的每个Partition存放在哪个Broker上的信息存放在哪里 4. Producer跟Zookeeper究竟有没有关系？没有关系！！！ //consumers、config、brokers、cont
java OOM内存异常的四种类型及异常与解决方案 ronin47 java OOM 内存异常
　OOM异常的四种类型：　　　　　一：　StackOverflowError ：通常因为递归函数引起（死递归，递归太深）。-Xss 128k 一般够用。　二：　out Of memory: PermGen Space：通常是动态类大多，比如web 服务器自动更新部署时引起。-Xmx
java-实现链表反转-递归和非递归实现 bylijinnan java
20120422更新：对链表中部分节点进行反转操作，这些节点相隔k个： 0->1->2->3->4->5->6->7->8->9 k=2 8->1->6->3->4->5->2->7->0->9 注意1 3 5 7 9 位置是不变的。解法：将链表拆成两部分： a.0-&
Netty源码学习-DelimiterBasedFrameDecoder bylijinnan java netty
看DelimiterBasedFrameDecoder的API，有举例：接收到的ChannelBuffer如下： +--------------+ | ABC\nDEF\r\n | +--------------+ 经过DelimiterBasedFrameDecoder(Delimiters.lineDelimiter())之后，得到： +-----+----
linux的一些命令 -查看cc攻击-网口ip统计等 hotsunshine linux
Linux判断CC攻击命令详解 2011年12月23日 ⁄ 安全 ⁄ 暂无评论查看所有80端口的连接数 netstat -nat|grep -i '80'|wc -l 对连接的IP按连接数量进行排序 netstat -ntu | awk '{print $5}' | cut -d: -f1 | sort | uniq -c | sort -n 查看TCP连接状态 n
Spring获取SessionFactory ctrain sessionFactory
String sql = "select sysdate from dual"; WebApplicationContext wac = ContextLoader.getCurrentWebApplicationContext(); String[] names = wac.getBeanDefinitionNames(); for(int i=0; i&
Hive几种导出数据方式 daizj hive 数据导出
Hive几种导出数据方式 1.拷贝文件如果数据文件恰好是用户需要的格式，那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path 2.导出到本地文件系统 --不能使用insert into local directory来导出数据，会报错 --只能使用
编程之美 dcj3sjt126com 编程 PHP 重构
我个人的 PHP 编程经验中，递归调用常常与静态变量使用。静态变量的含义可以参考 PHP 手册。希望下面的代码，会更有利于对递归以及静态变量的理解 header("Content-type: text/plain"); function static_function () { static $i = 0; if ($i++ < 1
Android保存用户名和密码 dcj3sjt126com android
转自：http://www.2cto.com/kf/201401/272336.html 我们不管在开发一个项目或者使用别人的项目，都有用户登录功能，为了让用户的体验效果更好，我们通常会做一个功能，叫做保存用户，这样做的目地就是为了让用户下一次再使用该程序不会重新输入用户名和密码，这里我使用3种方式来存储用户名和密码 1、通过普通的txt文本存储 2、通过properties属性文件进行存
Oracle 复习笔记之同义词 eksliang Oracle 同义词 Oracle synonym
转载请出自出处：http://eksliang.iteye.com/blog/2098861 1.什么是同义词同义词是现有模式对象的一个别名。概念性的东西，什么是模式呢？创建一个用户，就相应的创建了一个模式。模式是指数据库对象，是对用户所创建的数据对象的总称。模式对象包括表、视图、索引、同义词、序列、过
Ajax案例 gongmeitao Ajax jsp
数据库采用Sql Server2005 项目名称为:Ajax_Demo 1.com.demo.conn包 package com.demo.conn; import java.sql.Connection;import java.sql.DriverManager;import java.sql.SQLException; //获取数据库连接的类public class DBConnec
ASP.NET中Request.RawUrl、Request.Url的区别 hvt .net Web C#asp.net hovertree
如果访问的地址是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree%3C&n=myslider#zonemenu那么Request.Url.ToString() 的值是：http://h.keleyi.com/guestbook/addmessage.aspx?key=hovertree<&
SVG 教程（七）SVG 实例，SVG 参考手册天梯梦 svg
SVG 实例在线实例下面的例子是把SVG代码直接嵌入到HTML代码中。谷歌Chrome，火狐，Internet Explorer9，和Safari都支持。注意：下面的例子将不会在Opera运行，即使Opera支持SVG - 它也不支持SVG在HTML代码中直接使用。 SVG 实例 SVG基本形状一个圆矩形不透明矩形一个矩形不透明2 一个带圆角矩
事务管理 luyulong java spring 编程事务
事物管理 spring事物的好处为不同的事物API提供了一致的编程模型支持声明式事务管理提供比大多数事务API更简单更易于使用的编程式事务管理API 整合spring的各种数据访问抽象 TransactionDefinition 定义了事务策略 int getIsolationLevel()得到当前事务的隔离级别 READ_COMMITTED
基础数据结构和算法十一：Red-black binary search tree sunwinner Algorithm Red-black
The insertion algorithm for 2-3 trees just described is not difficult to understand; now, we will see that it is also not difficult to implement. We will consider a simple representation known
centos同步时间 stunizhengjia linux 集群同步时间
做了集群，时间的同步就显得非常必要了。以下是查到的如何做时间同步。在CentOS 5不再区分客户端和服务器，只要配置了NTP，它就会提供NTP服务。 1)确认已经ntp程序包： # yum install ntp 2)配置时间源（默认就行，不需要修改） # vi /etc/ntp.conf server pool.ntp.o
ITeye 9月技术图书有奖试读获奖名单公布 ITeye管理员 ITeye
ITeye携手博文视点举办的9月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 9月试读活动回顾：http://webmaster.iteye.com/blog/2118112本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《NFC：Arduino、Andro

知识图谱基础代码构建（医疗向）

data_spider.py

build_data.py

MedicalGraph类：

collect_medical():

get_inspect():

max_cut.py

CutWords类：

load_words():

max_forward_cut():

max_backward_cut():

max_biward_cut():

结语

你可能感兴趣的:(笔记,知识图谱,爬虫,python)