中国移动。4G

多线程爬取猪八戒网站

此项目是使用多线程爬取猪八戒网址it类的所有公司信息

猪八戒主页网址：https://guangzhou.zbj.com/

我们要爬的是it这个大类的这10小类

通过检查我们发现，所有的网址都是放在带有class=‘channel-service-grid clearfix’这个属性的div标签下面，我们可以通过使用lxml库以及xpath语法来获得所有小类的url

这个函数代码如下：

def get_categories_url(url): 
    details_list = []
    text = getHTMLText(url)
    html = etree.HTML(text)
    divs = html.xpath("//div[@class='channel-service-grid-inner']//div[@class='channel-service-grid-item' or @class='channel-service-grid-item second']")
    for div in divs:
        detail_url = div.xpath("./a/@href")[0]
        details_list.append(detail_url)
    return details_list

随便进入一个类，我们右键检查一个公司，发现这个公司的url就放在一个带有class=‘name’的a标签下的href属性，然后再加上'https://'就好

函数如下：

    def get_company_urls(url):
        companies_list = []
        text = getHTMLText(url)
        html = etree.HTML(text)
        h4s = html.xpath("//h4[@class='witkey-name fl text-overflow']/a/@href")
        for h4 in h4s:
            company_url = 'https:' + h4
            companies_list.append(company_url)
        return companies_list

对于每一页，我们只需要循环遍历就能够得到一页中所有公司的信息

这时候我们随便点进去几个公司来看，发现所有公司基本可以分为两类：

一种是有首页、买服务、看案例、交易评价、人才档案之类的

另一种是像这样就直接到人才档案这一页面的

可以看出我们要爬取的数据基本都在人才档案这个页面，因此我们要设定一个判断条件，如果它有首页、买服务、看案例、交易评价、人才档案这些的话就跳到人才档案的页面那里

我们可以看到它这些是放在li标签下面的，我们可以这样来设定判定条件：在网页中找到带有class='witkeyhome-nav clearfix'的ul标签，获取它下面的li标签。如果获取不到li标签或者带有li标签的列表的长度为0的话就代表已经是在人才档案这个页面下面，对这一类的url就不用采取特别处理。如下图所示，对于不是直接到人才档案的网页，我们只需要找到最后一个li标签下面的href属性再加上'https://'就ok了

代码如下：

lis = html.xpath("//ul[@class='witkeyhome-nav clearfix']//li[@class=' ']")
                if len(lis) == 0:
                    company_url_queue.put(company)
                    continue
                for li in lis:
                    try:
                        if li.xpath(".//text()")[1] == '人才档案':
                            rcda_url = ('https://profile.zbj.com'+ li.xpath("./a/@href")[0]).split('/salerinfo.html')[0]+'?isInOldShop=1'
                            company_url_queue.put(rcda_url)
                            break
                        else:continue
                    except:pass #有一些网站的li标签是空的，因此会报错，pass掉就好

拿到每一个公司的人才档案页面url之后，正常来说我们就能够按照这个思路拿到我们所有想拿的信息。可是我第一次对爬取下来的人才档案页面url用xpath库查找信息时，发现无论写什么都是返回一个空的列表给我。我自己很确信自己写的xpath语法没有任何问题（没错就是这么自信），然后把获取到的text打印出来看一下，发现上面并没有我想要的信息。就如下图所示：我复制的是公司的近三个月利润，发现是不存在这个信息的

因此我断定这个网页采取了反爬虫的机制。我们点击右键检查找到network按F5刷新一下，然后在右边的search输入这个交易额

就能发现这些数据其实是写在这个名为13780820?isInOldShop=1的js文件下面。因为它采用的是ajax写进去的，所以我们正常的请求方法请求不到它的数据。我们来看下它的reques url

人才档案url：https://shop.zbj.com/13780820/salerinfo.html

我们可以发现只要把原来的人才档案页面的url去除掉后面的/salerinfo.html 再加上?isInOldShop=1就能拿到包含有真正数据的url

代码如下图所示：

rcda_url = ('https://profile.zbj.com'+ li.xpath("./a/@href")[0]).split('/salerinfo.html'）[0]+'?isInOldShop=1'

最后对每个拿到的公司url获取自己想要的信息就可以了，代码如下

def get_company_infos(url):        
        company_url = url
        text = getHTMLText(url)
        html = etree.HTML(text)
        company_name = html.xpath("//h1[@class='title']/text()")[0]
        try:
            grade = html.xpath("//div[@class='ability-tag ability-tag-3 text-tag']/text()")[0].strip()
        except:
            grade = html.xpath("//div[@class='tag-wrap tag-wrap-home']/div/text()")[0].replace('\n', '')

        lis = html.xpath("//ul[@class='ability-wrap clearfix']//li")
        score = float(lis[0].xpath("./div/text()")[0].strip())
        profit = float(lis[1].xpath("./div/text()")[0].strip())
        good_comment_rate = float(lis[2].xpath("./div/text()")[0].strip().split("%")[0])
        try:
            again_rate = float(lis[4].xpath("./div/text()")[0].strip().split("%")[0])
        except:
            again_rate=0.0
        try:
            finish_rate = float(lis[4].xpath("./div/text()")[0].strip().split("%")[0])
        except:
            finish_rate = 0.0

        company_info = html.xpath("//div[@class='conteng-box-info']//text()")[1].strip().replace("\n", '')
        skills_list = []
        divs = html.xpath("//div[@class='skill-item']//text()")
        for div in divs:
            if len(div) >= 3:
                skills_list.append(div)
        good_at_skill = json.dumps(skills_list, ensure_ascii=False)

        try:
            divs = html.xpath("//div[@class='our-info']//div[@class='content-item']")
            build_time = divs[1].xpath("./div/text()")[1].replace("\n", '')
            address = divs[3].xpath("./div/text()")[1].replace("\n", '')
        except:
            build_time = '暂无'
            address = '暂无'

最后再来处理几个小问题。1.每个小类它的页数，翻页的url该怎么设定？2.我们都知道一家公司可能存在于几个小类中，我们如何判断这个公司已经被爬取过？3.那么多的数据，要解析那么多页面，如何提高速度？

1.对于每一页的页数，我们翻到最下面右键检查就能发现，它写在了带有属性class='pagination-total'的div标签下的ul标签的最后一个li标签里面。因此我们可以通过下面的代码得到：

pages = int(html.xpath("//p[@class='pagination-total']/text()")[0].split("共")[1].split('页')[0])

按照正常套路，每个页面都应该是第一页带有p=0 然后后面的页数每页再加上每一页的公司总数（这里是40），可是当我检查的时候把我给奇葩到了：像这个网站开发小类的第一页看似没有问题

然后我们再看第二页

然后再看第三第四页

然后我们再看其他几个小类就会发现，每个小类的第一页后缀都是相同的，都是/p.html,然后第二页基本每个小类都会有一个对应的值，后面的从第三页开始就在第二页对应那个值得基础上加40

因此我想到用字典来存储每个小类第二页所对应的值，然后在遍历每一页前先判断它是第几页，再来确定url

代码如下

    second_page_num = {'https://guangzhou.zbj.com/wzkf/p.html':34,
                      'https://guangzhou.zbj.com/ydyykf/p.html':36,
                      'https://guangzhou.zbj.com/rjkf/p.html':37,
                      'https://guangzhou.zbj.com/uisheji/p.html':35,
                      'https://guangzhou.zbj.com/saas/p.html':38,
                      'https://guangzhou.zbj.com/itfangan/p.html':39,
                      'https://guangzhou.zbj.com/ymyfwzbj/p.html':40,
                      'https://guangzhou.zbj.com/jsfwzbj/p.html':40,
                      'https://guangzhou.zbj.com/ceshifuwu/p.html':40,
                      'https://guangzhou.zbj.com/dashujufuwu/p.html':40
                      }
    for category in categories_list:
        j = second_page_num[category]
        for i in range(1,pages+1):
            if i == 1:
                company_list = get_company_urls(category)
            elif i == 2:
                page_url = category.split('.html')[0] +'k'+str(j) +'.html'
                company_list = get_company_urls(page_url)
            else:
                page_url = category.split('.html')[0] + 'k' + str(j+40*(i-2)) + '.html'
                company_list = get_company_urls(page_url)

问题解决

第二个问题其实很简单，我们只要先设置一个列表用来存储被爬取过的公司就行。在对每一页得公司遍历时，先判断这家公司是否在列表中，如果在，就continue，如果不在，就把它加到列表中然后再进行爬取。代码如下：

    is_exists_company = []
    for company in company_list:
         if company in is_exists_company:
               continue
         else:
                is_exists_company.append(company)

对于最后一个问题，我们都很容易想到解决方式：采用多线程

整个爬虫代码如下：


import requests
from lxml import etree
import json
import pymysql
from queue import Queue
import threading
import time

gCondition = threading.Condition()

HEADERS = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',
    'Referer':'https://guangzhou.zbj.com/'
}

company_nums = 0
is_exists_company = []

class Producer(threading.Thread):
    def __init__(self,page_queue,company_url_queue,company_nums,is_exists_company,*args,**kwargs):
        super(Producer,self).__init__(*args,**kwargs)
        self.page_queue = page_queue
        self.company_url_queue = company_url_queue
        self.company_nums = company_nums
        self.is_exists_company = is_exists_company

    def run(self):
        while True:
            if self.page_queue.empty():
                break
            self.parse_url(self.page_queue.get())


    def parse_url(self,url):
        company_url_list = self.get_company_urls(url)
        for company in company_url_list:
            gCondition.acquire()
            if company in self.is_exists_company:
                gCondition.release()
                continue
            else:
                self.is_exists_company.append(company)
                self.company_nums += 1
            print('已经存入{}家公司'.format(self.company_nums))
            gCondition.release()
            text = getHTMLText(company)
            html = etree.HTML(text)
            lis = html.xpath("//ul[@class='witkeyhome-nav clearfix']//li[@class=' ']")
            if len(lis) == 0:
                self.company_url_queue.put(company)
                continue
            for li in lis:
                try:
                    if li.xpath(".//text()")[1] == '人才档案':
                        rcda_url = ('https://profile.zbj.com' + li.xpath("./a/@href")[0]).split('/salerinfo.html')[
                                       0] + '?isInOldShop=1'
                        self.company_url_queue.put(rcda_url)
                        break
                    else:continue
                except:pass  # 有一些网站的li标签是空的，因此会报错，pass掉就好

    def get_company_urls(self,url):
        companies_list = []
        text = getHTMLText(url)
        html = etree.HTML(text)
        h4s = html.xpath("//h4[@class='witkey-name fl text-overflow']/a/@href")
        for h4 in h4s:
            company_url = 'https:' + h4
            companies_list.append(company_url)
        return companies_list





class Consunmer(threading.Thread):

    def __init__(self,company_url_queue,page_queue,*args,**kwargs):
        super(Consunmer, self).__init__(*args,**kwargs)
        self.company_url_queue = company_url_queue
        self.page_queue = page_queue

    def run(self):
        while True:
            if self.company_url_queue.empty() and self.page_queue.empty():
                break
            company_url = self.company_url_queue.get()
            self.get_and_write_company_details(company_url)
            print(company_url + '写入完成')

    def get_and_write_company_details(self,url):
        conn = pymysql.connect(host=****, user=*****, password=*****, database=****,port=****, charset='utf8')
        cursor = conn.cursor()  # 连接数据库放在线程主函数中的，如果放在函数外面，就会导致无法连接数据库

        company_url = url
        text = getHTMLText(url)
        html = etree.HTML(text)
        company_name = html.xpath("//h1[@class='title']/text()")[0]
        try:
            grade = html.xpath("//div[@class='ability-tag ability-tag-3 text-tag']/text()")[0].strip()
        except:
            grade = html.xpath("//div[@class='tag-wrap tag-wrap-home']/div/text()")[0].replace('\n', '')

        lis = html.xpath("//ul[@class='ability-wrap clearfix']//li")
        score = float(lis[0].xpath("./div/text()")[0].strip())
        profit = float(lis[1].xpath("./div/text()")[0].strip())
        good_comment_rate = float(lis[2].xpath("./div/text()")[0].strip().split("%")[0])
        try:
            again_rate = float(lis[4].xpath("./div/text()")[0].strip().split("%")[0])
        except:
            again_rate=0.0
        try:
            finish_rate = float(lis[4].xpath("./div/text()")[0].strip().split("%")[0])
        except:
            finish_rate = 0.0

        company_info = html.xpath("//div[@class='conteng-box-info']//text()")[1].strip().replace("\n", '')
        skills_list = []
        divs = html.xpath("//div[@class='skill-item']//text()")
        for div in divs:
            if len(div) >= 3:
                skills_list.append(div)
        good_at_skill = json.dumps(skills_list, ensure_ascii=False)

        try:
            divs = html.xpath("//div[@class='our-info']//div[@class='content-item']")
            build_time = divs[1].xpath("./div/text()")[1].replace("\n", '')
            address = divs[3].xpath("./div/text()")[1].replace("\n", '')
        except:
            build_time = '暂无'
            address = '暂无'

        sql = """
        insert into（数据表名）(id,company_name,company_url,grade,score,profit,good_comment_rate,again_rate,company_info,good_at_skill,build_time,address) values(null,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s,%s)
                                """

        cursor.execute(sql, (
        company_name, company_url, grade, score, profit, good_comment_rate, again_rate, company_info, good_at_skill,
        build_time, address))
        conn.commit()


def getHTMLText(url):
    resp = requests.get(url,headers=HEADERS)
    resp.encoding='utf-8'
    return resp.text

def get_categories_url(url):
    details_list = []
    text = getHTMLText(url)
    html = etree.HTML(text)
    divs = html.xpath("//div[@class='channel-service-grid-inner']//div[@class='channel-service-grid-item' or @class='channel-service-grid-item second']")
    for div in divs:
        detail_url = div.xpath("./a/@href")[0]
        details_list.append(detail_url)
    return details_list




def main():
    second_page_num = {'https://guangzhou.zbj.com/wzkf/p.html':34,
                      'https://guangzhou.zbj.com/ydyykf/p.html':36,
                      'https://guangzhou.zbj.com/rjkf/p.html':37,
                      'https://guangzhou.zbj.com/uisheji/p.html':35,
                      'https://guangzhou.zbj.com/saas/p.html':38,
                      'https://guangzhou.zbj.com/itfangan/p.html':39,
                      'https://guangzhou.zbj.com/ymyfwzbj/p.html':40,
                      'https://guangzhou.zbj.com/jsfwzbj/p.html':40,
                      'https://guangzhou.zbj.com/ceshifuwu/p.html':40,
                      'https://guangzhou.zbj.com/dashujufuwu/p.html':40
                      }
    global company_nums
    company_url_queue = Queue(100000)
    page_queue = Queue(1000)
    categories_list = get_categories_url('https://guangzhou.zbj.com/it')
    for category in categories_list:
        text = getHTMLText(category)
        html = etree.HTML(text)
        pages = int(html.xpath("//p[@class='pagination-total']/text()")[0].split("共")[1].split('页')[0])
        j = second_page_num[category]
        for i in range(1,pages+1):
            if i == 1:
                page_queue.put(category)
            elif i == 2:
                page_url = category.split('.html')[0] +'k'+str(j) +'.html'
                page_queue.put(page_url)
            else:
                page_url = category.split('.html')[0] + 'k' + str(j+40*(i-2)) + '.html'
                page_queue.put(page_url)
            print('{}的第{}页已经保存到队列中'.format(category,i))
            time.sleep(1)

    print('url存入完成，多线程开启')

    for x in range(5):
        t = Producer(page_queue,company_url_queue,company_nums,is_exists_company)
        t.start()

    for x in range(5):
        t = Consunmer(company_url_queue,page_queue)
        t.start()


if __name__ == '__main__':
    main()

感谢观看

Python控制批量插入Catia文件并修改文件定义及PN 一盘红烧肉 python
改了两天，总算初步摸清楚了Catia中的文件结构，实现了使用Python控制批量修改文件名及定义使用Pycatia在Product中插入Part并改名及定义
PySide2是 Qt 库的 Python 绑定之一 WwwwwH_PLUS #Qt qt python 开发语言
PySide2是Qt库的Python绑定之一，它为Python程序员提供了创建跨平台桌面应用程序的工具和功能。PySide2是Qt5.x系列的Python绑定，而Qt本身是一个跨平台的图形用户界面（GUI）框架，广泛用于开发各种类型的桌面应用程序，包括多种平台（Windows、Linux、macOS）的应用。主要特点跨平台支持：PySide2可以在Windows、Linux和macOS上运行，允许
Python学习第十一天 Leo来编程 Python学习 python
疑惑：有很多人不知道是不是也分不清什么是单核？什么是多核？什么是时间片？进程？线程？那么在讲进程和线程前我先举个例子更好理解这些概念。单核例子：比如你是一个厨师（计算机）在一个厨房（CPU）里需要同时做3个菜（进程）、每个菜需要准备不同的调料以及协作（线程），那么这个厨师需要不断地切换时间（时间片）来达到同时在一个时间将三个菜做完。多核的话其实对应的例子就是多个厨师，这样的例子太多了因为万物皆对象
python学习第三天 Leo来编程 Python学习 python 开发语言
条件判断条件判断使用if、elif和else关键字。它们用于根据条件执行不同的代码块。#条件判断age=18ifage0:#也可以写if(s>0)但是没必要因为python给个提示建议去掉保证代码的按照缩进来进行更加规范print("这个数字是大于0的数字!")#这行代码属于if语句的代码块elifs==0:print("这个数字是等于0的数字!")#这行代码属于elif语句的代码块else:pr
三种优化算法旅者时光算法算法 python 开发语言
本文将总结遗传算法、粒子群算法、模拟退火三种优化算法的核心思路，并使用python完整实现。实际上，越来越多的优秀算法已经被封装为一个易用的接口。很多时候，一行代码就能实现我们的需求。但了解这些算法的基本逻辑，能够使用最基本的代码实现它。无论对于提升我们的编程能力还是解决问题的能力，都会大有裨益。甚至，改变我们思考问题的方式。1、遗传算法遗传算法，顾名思义，就是借鉴了生物通过遗传变异来逐渐适应环境
使用 Python 合并微信与支付宝账单，生成财务报告 python后端
最近用思源笔记记东西上瘾，突然想每个月存一份收支记录进去。但手动整理账单太麻烦了，支付宝导出一份CSV，微信又导出一份，格式还不一样，每次复制粘贴头都大。干脆写了个Python脚本一键处理，核心就干两件事：把俩平台的CSV账单合并到一起自动生成带分类表格的Markdown（直接拖进思源就能渲染）代码主要折腾了这些：支付宝账单前24行都是废话，直接skiprows=24跳过去，GBK编码差点让我栽跟
Python Flask 在网页应用程序中处理错误和异常 dowhileprogramming python flask 开发语言
PythonFlask在网页应用程序中处理错误和异常PythonFlask在网页应用程序中处理错误和异常PythonFlask在网页应用程序中处理错误和异常在我们所有的代码示例中，我们没有注意如何处理用户在浏览器中输入错误的URL或向我们的应用程序发送错误的参数集的情况。这不是设计意图，但目的是首先关注网页应用程序的关键组件。网页框架的美妙之处在于，它们通常默认支持错误处理。如果发生任何错误，将自
农业生产模拟和农业政策分析：WOFOST模型与PCSE模型安装、运行、数据准备；农田农作物生长模拟和产量预测等 WangYan2022 作物模型农业 WOFOST模型 PCSE模型农田生态系统作物模型农业生产模拟
WOFOST（WorldFoodStudies）和PCSE（PythonCropSimulationEnvironment）是两个用于农业生产模拟的模型：WOFOST是一个经过多年开发和验证的模型，被广泛用于全球的农业生产模拟和农业政策分析；采用了模块化的结构，可以对不同的农作物和环境条件进行参数化和适应；WOFOST可用于长期模拟，能够模拟整个作物生长周期，包括播种、生长、收获等各个阶段；WOF
基于Python+Vue开发的电影订票管理系统源码+运行步骤冷琴1996 Python系统设计 python vue.js 开发语言
项目简介该项目是基于Python+Vue开发的电影订票管理系统（前后端分离），这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Python编程技能，同时锻炼他们的项目设计与开发能力。通过学习基于Python的电影订票管理系统项目，大学生可以在实践中学习和提升自己的能力，为以后的职业发展打下坚实基础。技术学习之路主要功能影片管理：管理系统可以录入、修改和查询影片的基本信息，如
Python通过YOLO格式TXT标签文件在图像中画框 CHERISH_KDX python YOLO 人工智能
使用场景检测数据集标注是否有误：在目标检测算法中需要标注自己的数据集，为了更加方便的检查数据集标注是否有误，可以使用该工具将标注结果绘制在图像中并查看。美化识别结果中的检测框：在一些目标检测场景中，YOLO检测算法原始的检测框绘制会导致重叠、颜色冲突、字体过大等问题。可以使用该工具进行修改。代码importosimportcv2classcheck_label:def__init__(self,c
基于llama_cpp 调用本地模型（llama）实现基本推理月光技术杂谈大模型初探 llama llama.cpp python LLM 集成显卡本地模型 AI
零基础实践本地推理模型基本应用：基于llama_cpp的本地模型调用。本文先安装llama_cpppython库，再编写程序，利用其调用llama-2-7b-chat.Q4_K_M.ggu模型。背景llama_cpp是一个基于C++的高性能库（llama.cpp）的Python绑定，支持在CPU或GPU上高效运行LLaMA及其衍生模型（如LLaMA2），并通过量化技术（如GGUF格式）优化内存使用
python实现查找满足条件的数字 qq_恰同学少年 python
问题：一个四位数，知道其前两位和后两位分别相等，并且这个数还是一个平方数，求出这个数。一个四位数，范围只能是1000~9999，前两位和后两位分别相等，也就是说，它的结构应该是aabb。最后，这个数是一个平方数。有的小伙伴可能不知道啥叫平方数，暂且解释下，所谓的平方数就是指该数等于一个整数的平方。比如3的平方是9，那么我们就说9是个平方数。第一步，这是个四位数，前两位和后两位分别相等，我们将满足条
python中常用的内置模块举例（入门级整理） qq_恰同学少年 python
python对于初学者可以说是十分友好的一门编程语言，不仅语法简单，而且它自身还包含了十分丰富的第三方模块，我仅就将我自己常用的一些内置模块（自带的，无需安装）做一下简单的总结和介绍：1.turtleturtle，是python中比较好玩一个模块，它有一个专有名称“海龟作图”，光看名字就应该能够猜到它是用来干嘛的，没错，就是来画图的，它可以通过某些语句来控制一个点在白板上的运动轨迹，它在白板上走过
QPython双核攻略：从零基础到AI开发，你的手机就是全栈训练营程之编 python 开发语言青少年编程人工智能
主题一：《编程小白必看！在手机上种下你的第一行代码》✨北京优趣天下信息技术有限公司重磅出品我们比谁都清楚：✔️86%的初学者因环境配置放弃编程✔️72%的上班族只有碎片化学习时间✔️95%的自学者需要即时答疑支持为什么QPython成为2025现象级学习工具？▸全栈开发环境：解释器+编辑器+控制台三合一▸AI导师常驻：集成DeepSeek代码助手（支持中英双语提问）▸极速学习路径：Q派课程7天完成
Python学习指南：系统化路径 + 避坑建议程之编 Python全栈通关秘籍青少年编程 python 开发语言人工智能机器学习
新手小白学习编程就像搭积木——需要从基础开始，逐步构建知识体系。以下是为你量身定制的Python学习路径，帮你告别杂乱，高效入门！一、学习前的关键认知明确目标：想用Python做什么？数据分析（如Excel自动化、可视化）Web开发（如搭建网站）人工智能（如机器学习）自动化办公（如处理文件、邮件）目标不同，后续学习侧重点不同（但基础通用）。避免误区：❌只看教程不写代码✅边学边动手，哪怕抄代码也要运
【Python代码练习（简单应用）】 9... python 汇编前端开发语言 dreamweaver
一、Python列表添加与删除元素：append()。在列表末尾添加新的格式元素添加格式：list.append(元素)删除格式：list.remove(元素)例如：#给出代码listA=['水煮千丝','平板豆腐','白烧饭','香菇青菜','西红柿鸡蛋汤']listA._________("红烧肉")listA._________("水煮千丝")print(listA)将“红烧肉”放入列表中，
统信uos20：利用docker部署python+jupyterlab开发环境阆遤 docker python jupyter github actions workflow 统信uos20
很多统信uos20计算机没有联网安装python开发环境的条件，但是工作中需要对数据进行分析处理，因而产生了离线部署python开发环境的想法。我首先下载了python3.11的源代码包，在uos中编译居然正常通过。但后续的麻烦来了：需要安装的库没法安装。尝试了一天，最终放弃。改用Docker方式部署，理由就不多解释了。一、在uos中安装docker。我的系统是uos20linux4.19.0-a
第五周作业——第十章动手试一试 hongsqi
10-1Python学习笔记学习笔记：在文本编辑器中新建一个文件，写几句话来总结一下你至此学到的Python知识，其中每一行都以“InPythonyoucan”打头。将这个文件命名为learning_python.txt，并将其存储到为完成本章练习而编写的程序所在的目录中。编写一个程序，它读取这个文件，并将你所写的内容打印三次：第一次打印时读取整个文件；第二次打印时遍历文件对象；第三次打印时将各行
统信UOS下达梦数据库启动图形界面应用工具monitor报JAVA相关错：An error has occurred. See the log file LaoYuanPython 老猿Python 国产信创之光 java 达梦数据库统信UOS操作系统 JDK 图形应用报错
☞░前往老猿Python博客░https://blog.csdn.net/LaoYuanPython一、前言在博文《基于飞腾2000CPU+浪潮电脑+统信UOS安装达梦数据库详解https://blog.csdn.net/LaoYuanPython/article/details/143258863》中介绍了基于飞腾2000CPU+浪潮电脑+统信UOS安装达梦数据库的详细过程，并且安装完毕之后通过
整理一下arcGis desktop版本软件，从入门到精通需要学习的知识点 AnalogElectronic arcgis 学习
整理一下arcGisdesktop版本软件，从入门到精通需要学习的知识点以下是一份关于ArcGISDesktop从入门到精通的学习知识点整理：一、软件初认识与基础操作软件初认识：了解ArcGISDesktop的界面布局，包括内容列表、ArcToolbox工具箱、结果窗口、地图窗口、目录窗口、搜索窗口、python编程窗口以及其他常用工具条等。数据添加与管理：掌握通过不同方式添加数据，如图层列表右键
动态规划双剑合璧：C++与Python征服洛谷三大经典DP问题三流搬砖艺术家动态规划 c++python
动态规划核心思想状态定义→转移方程→边界处理→时空优化本文精选洛谷动态规划题单中三大经典问题，通过C++与Python双语言对比实现，彻底掌握DP精髓！题目一：P1048采药（01背包模板）题目描述在限定时间T内采集草药，每株草药有采集时间time[i]和价值value[i]，求最大总价值。解题思路状态定义：dp[j]表示时间j能获得的最大价值转移方程：dp[j]=max(dp[j],dp[j-t
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务 AGI大模型与大数据研究院程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务1.背景介绍1.1问题的由来翻译是跨语言沟通的重要桥梁，随着全球化进程的加速，翻译需求日益增长。传统的机器翻译方法主要依赖于规则和统计方法，如基于短语的翻译、基于统计的机器翻译等。然而，这些方法难以处理复杂的语言现象，翻译质量参差不齐。近年来，随着深度学习技术的快速发展，基于神经网络序列到序列（Sequence-to-Seq
20个简单的python代码练习 qq_恰同学少年 python 开发语言
下面整理了20个简单的python代码练习，供大家学习交流使用，轻易上手，复制下来就能用！！！废话不多说，直奔主题1.输入一个不超过5位的正整数，输出其逆数。例如输入12345，输出应为54321。a=input('请输入一个不超过5位的正整数：')print('其逆数为：',a[::-1])注：该代码使用了列表的切片和反转操作，首先将这个数的每个位上的数字存储到一个列表中，然后通过列表的反转来得
Python第十六课：深度学习入门 | 神经网络解密程之编 Python全栈通关秘籍 python 神经网络青少年编程
本节目标理解生物神经元与人工神经网络的映射关系掌握激活函数与损失函数的核心作用使用Keras构建手写数字识别模型可视化神经网络的训练过程掌握防止过拟合的基础策略一、神经网络基础（大脑的数字化仿生）1.神经元对比生物神经元人工神经元树突接收信号输入层接收特征数据细胞体整合信号加权求和（∑(权重×输入)+偏置）轴突传递电信号激活函数处理输出2.核心组件解析激活函数：神经元的"开关"（如ReLU：max
通过 Ollama 本地部署 DeepSeek-r1:1.5b 模型后，用 Python 调用推理并生成基于 pytest + PO 设计模式的 Playwright 自动化测试文件 Python测试之道测试提效 python python pytest 设计模式
以下是完整的实现步骤和代码示例，详细说明了如何通过Python调用本地部署的DeepSeek-r1:1.5b模型，将功能测试用例转换为适合pytest和PageObject（PO）设计模式的Playwright自动化测试脚本。一、前提条件DeepSeek模型本地部署通过Ollama部署DeepSeek-r1:1.5b模型。Ollama提供的本地推理服务默认可通过HTTPAPI访问，地址通常为：ht
【UI自动化】Selenium库中使用By类元素定位方法搞不来测试的摄影狮软件测试 python selenium 自动化
使用By类，首先需要在Python中导入该模块：fromselenium.webdriver.common.byimportBy1.通过元素的ID属性来定位driver.find_element(By.ID,'kw')如下图，我们需要定位百度的输入框。首先选中定位工具，然后选中输入框。我们可以看到该元素id的值为："kw"2.通过元素的NAME属性来定位driver.find_element(By
DeepSeek + Cline：编程如何加速引擎 meisongqing 人工智能
DeepSeek与Cline的结合为编程工作流提供了显著的加速能力，这种组合通过AI辅助规划、代码生成与优化、实时调试等功能，大幅提升开发效率。以下是具体实现方式及技术要点：一、智能规划与代码生成问题分析与规划（Plan模式）DeepSeek-R1模型擅长处理复杂逻辑推理，开发者可在Cline的Plan模式下用自然语言描述需求（如“用Python实现数据清洗并计算平均值”）。DeepSeek会根据
Python 变量起名全攻略：新手避坑与大神指南科雷learning 学习AI python编程 python 开发语言
学习AI科雷learning2025年03月10日22:19江苏一、引言：变量起名的“玄学”难题在Python编程的世界里，变量命名看似简单，实则暗藏玄机，常常让新手们踩坑不断。本文将带你深入了解Python变量命名规则，助你从新手小白变身命名大神。二、基础规则：保命口诀要牢记小白的困惑小白：（举着写满报错的代码）大神快看！我就写了个3D效果=True，Python竟然说我语法错误？专家的解答专家
聚类分析|k-means聚类方法及其Python实现皖山文武数据挖掘商务智能 kmeans 聚类 python 数据挖掘机器学习
k-means聚类方法及其Python实现0.k-means算法简介1.k-means算法工作原理2.k-means算法流程3.k–means算法的Python实现0.k-means算法简介k-means算法由MacQueen在1967年提出。是一种经典的基于划分的聚类方法。划分方法（PartitioningMethod）是基于距离判断样本相似度，通过不断迭代将含有多个样本的数据集划分成若干个簇，
python调用ollama本地部署的deepseek 小杰丶 python 开发语言
说明在本地主机上调用局域网内使用ollama部署好的deepseek。之前的文章中已经部署好，并调试通的网络，现在需要使用python能调用deepseek的API，便于后续的模型探索和应用开发。但是百度了很多，没一个能用的，各种无脑的复制粘贴，最后还是老实得去看官方文档，还是自己记录一下比较好。正文使用ollama的pythonlib包进行deepseek的调用。pypyi地址：ollama·P
Spring4.1新特性——综述 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
Schema与数据类型优化 annan211 数据结构 mysql
目前商城的数据库设计真是一塌糊涂，表堆叠让人不忍直视，无脑的架构师，说了也不听。在数据库设计之初，就应该仔细揣摩可能会有哪些查询，有没有更复杂的查询，而不是仅仅突出很表面的业务需求，这样做会让你的数据库性能成倍提高，当然，丑陋的架构师是不会这样去考虑问题的。选择优化的数据类型 1 更小的通常更好更小的数据类型通常更快，因为他们占用更少的磁盘、内存和cpu缓存，
第一节 HTML概要学习 chenke html Web css
第一节 HTML概要学习 1. 什么是HTML HTML是英文Hyper Text Mark-up Language(超文本标记语言)的缩写，它规定了自己的语法规则，用来表示比“文本”更丰富的意义，比如图片，表格，链接等。浏览器（IE,FireFox等）软件知道HTML语言的语法，可以用来查看HTML文档。目前互联网上的绝大部分网页都是使用HTML编写的。打开记事本输入一下内
MyEclipse里部分习惯的更改 Array_06 eclipse
继续补充中---------------------- 1.更改自己合适快捷键windows-->prefences-->java-->editor-->Content Assist--> Activation triggers for java的右侧“.”就可以改变常用的快捷键选中 Text
近一个月的面试总结 cugfy 面试
本文是在学习中的总结，欢迎转载但请注明出处：http://blog.csdn.net/pistolove/article/details/46753275 前言打算换个工作，近一个月面试了不少的公司，下面将一些面试经验和思考分享给大家。另外校招也快要开始了，为在校的学生提供一些经验供参考，希望都能找到满意的工作。
HTML5一个小迷宫游戏 357029540 html5
通过《HTML5游戏开发》摘抄了一个小迷宫游戏，感觉还不错，可以画画，写字，把摘抄的代码放上来分享下，喜欢的同学可以拿来玩玩！ <html> <head> <title>创建运行迷宫</title> <script type="text/javascript"
10步教你上传githib数据张亚雄 git
官方的教学还有其他博客里教的都是给懂的人说得，对已我们这样对我大菜鸟只能这么来锻炼，下面先不玩什么深奥的，先暂时用着10步干净利索。等玩顺溜了再用其他的方法。操作过程（查看本目录下有哪些文件NO.1）ls （跳转到子目录NO.2）cd+空格+目录（继续NO.3）ls （匹配到子目录NO.4）cd+ 目录首写字母+tab键+（首写字母“直到你所用文件根就不再按TAB键了”）（查看文件
MongoDB常用操作命令大全 adminjun mongodb 操作命令
成功启动MongoDB后，再打开一个命令行窗口输入mongo，就可以进行数据库的一些操作。输入help可以看到基本操作命令，只是MongoDB没有创建数据库的命令，但有类似的命令如：如果你想创建一个“myTest”的数据库，先运行use myTest命令，之后就做一些操作（如：db.createCollection('user')）,这样就可以创建一个名叫“myTest”的数据库。一
bat调用jar包并传入多个参数 aijuans
下面的主程序是通过eclipse写的： 1.在Main函数接收bat文件传递的参数（String[] args）如： String ip =args[0]; String user=args[1]; &nbs
Java中对类的主动引用和被动引用 ayaoxinchao java 主动引用对类的引用被动引用类初始化
在Java代码中，有些类看上去初始化了，但其实没有。例如定义一定长度某一类型的数组，看上去数组中所有的元素已经被初始化，实际上一个都没有。对于类的初始化，虚拟机规范严格规定了只有对该类进行主动引用时，才会触发。而除此之外的所有引用方式称之为对类的被动引用，不会触发类的初始化。虚拟机规范严格地规定了有且仅有四种情况是对类的主动引用，即必须立即对类进行初始化。四种情况如下：1.遇到ne
导出数据库提示 outfile disabled BigBird2012 mysql
在windows控制台下，登陆mysql，备份数据库： mysql>mysqldump -u root -p test test > D:\test.sql 使用命令 mysqldump 格式如下： mysqldump -u root -p *** DBNAME > E:\\test.sql。注意：执行该命令的时候不要进入mysql的控制台再使用，这样会报
Javascript 中的 && 和 || bijian1013 JavaScript &&||
准备两个对象用于下面的讨论 var alice = { name: "alice", toString: function () { return this.name; } } var smith = { name: "smith",
[Zookeeper学习笔记之四]Zookeeper Client Library会话重建 bit1129 zookeeper
为了说明问题，先来看个简单的示例代码： package com.tom.zookeeper.book; import com.tom.Host; import org.apache.zookeeper.WatchedEvent; import org.apache.zookeeper.ZooKeeper; import org.apache.zookeeper.Wat
【Scala十一】Scala核心五：case模式匹配 bit1129 scala
package spark.examples.scala.grammars.caseclasses object CaseClass_Test00 { def simpleMatch(arg: Any) = arg match { case v: Int => "This is an Int" case v: (Int, String)
运维的一些面试题 yuxianhua linux
1、Linux挂载Winodws共享文件夹 mount -t cifs //1.1.1.254/ok /var/tmp/share/ -o username=administrator,password=yourpass 或 mount -t cifs -o username=xxx,password=xxxx //1.1.1.1/a /win
Java lang包-Boolean BrokenDreams boolean
Boolean类是Java中基本类型boolean的包装类。这个类比较简单，直接看源代码吧。 public final class Boolean implements java.io.Serializable,
读《研磨设计模式》-代码笔记-命令模式-Command bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.Collection; import java.util.List; /** * GOF 在《设计模式》一书中阐述命令模式的意图：“将一个请求封装
matlab下GPU编程笔记 cherishLC matlab
不多说，直接上代码 gpuDevice % 查看系统中的gpu,,其中的DeviceSupported会给出matlab支持的GPU个数。 g=gpuDevice(1); %会清空 GPU 1中的所有数据,,将GPU1 设为当前GPU reset(g) %也可以清空GPU中数据。 a=1; a=gpuArray(a); %将a从CPU移到GPU中 onGP
SVN安装过程 crabdave SVN
SVN安装过程 subversion-1.6.12 ./configure --prefix=/usr/local/subversion --with-apxs=/usr/local/apache2/bin/apxs --with-apr=/usr/local/apr --with-apr-util=/usr/local/apr --with-openssl=/
sql　行列转换 daizj sql 行列转换行转列列转行
行转列的思想是通过case when 来实现列转行的思想是通过union all 来实现下面具体例子：假设有张学生成绩表(tb)如下: Name Subject Result 张三语文　　74 张三数学　　83 张三物理　　93 李四语文　　74 李四数学　　84 李四物理　　94 */ /* 想变成姓名 &
MySQL--主从配置 dcj3sjt126com mysql
linux下的mysql主从配置：说明：由于MySQL不同版本之间的(二进制日志)binlog格式可能会不一样，因此最好的搭配组合是Master的MySQL版本和Slave的版本相同或者更低， Master的版本肯定不能高于Slave版本。（版本向下兼容） mysql1 : 192.168.100.1 //master mysq
关于yii 数据库添加新字段之后model类的修改 dcj3sjt126com Model
rules: array('新字段','safe','on'=>'search') 1、array('新字段', 'safe')//这个如果是要用户输入的话，要加一下， 2、array('新字段', 'numerical'),//如果是数字的话 3、array('新字段', 'length', 'max'=>100),//如果是文本 1、2、3适当的最少要加一条，新字段才会被
sublime text3 中文乱码解决 dyy_gusi Sublime Text
sublime text3中文乱码解决原因：缺少转换为UTF-8的插件目的：安装ConvertToUTF8插件包第一步：安装能自动安装插件的插件，百度“Codecs33”，然后按照步骤可以得到以下一段代码： import urllib.request,os,hashlib; h = 'eb2297e1a458f27d836c04bb0cbaf282' + 'd0e7a30980927
概念了解：CGI，FastCGI，PHP-CGI与PHP-FPM geeksun PHP
CGI CGI全称是“公共网关接口”(Common Gateway Interface)，HTTP服务器与你的或其它机器上的程序进行“交谈”的一种工具，其程序须运行在网络服务器上。 CGI可以用任何一种语言编写，只要这种语言具有标准输入、输出和环境变量。如php,perl,tcl等。 FastCGI FastCGI像是一个常驻(long-live)型的CGI，它可以一直执行着，只要激活后，不
Git push 报错 "error: failed to push some refs to " 解决 hongtoushizi git
Git push 报错 "error: failed to push some refs to " . 此问题出现的原因是：由于远程仓库中代码版本与本地不一致冲突导致的。由于我在第一次git pull --rebase 代码后，准备push的时候，有别人往线上又提交了代码。所以出现此问题。解决方案： 1： git pull 2：
第四章 Lua模块开发 jinnianshilongnian nginx lua
在实际开发中，不可能把所有代码写到一个大而全的lua文件中，需要进行分模块开发；而且模块化是高性能Lua应用的关键。使用require第一次导入模块后，所有Nginx 进程全局共享模块的数据和代码，每个Worker进程需要时会得到此模块的一个副本（Copy-On-Write），即模块可以认为是每Worker进程共享而不是每Nginx Server共享；另外注意之前我们使用init_by_lua中初
java.lang.reflect.Proxy liyonghui160com
1.简介 Proxy 提供用于创建动态代理类和实例的静态方法（1）动态代理类的属性代理类是公共的、最终的，而不是抽象的未指定代理类的非限定名称。但是，以字符串 "$Proxy" 开头的类名空间应该为代理类保留代理类扩展 java.lang.reflect.Proxy 代理类会按同一顺序准确地实现其创建时指定的接口
Java中getResourceAsStream的用法 pda158 java
1.Java中的getResourceAsStream有以下几种： 1. Class.getResourceAsStream(String path) ： path 不以’/'开头时默认是从此类所在的包下取资源，以’/'开头则是从ClassPath根下获取。其只是通过path构造一个绝对路径，最终还是由ClassLoader获取资源。　　2. Class.getClassLoader.get
spring 包官方下载地址（非maven） sinnk spring
SPRING官方网站改版后，建议都是通过 Maven和Gradle下载，对不使用Maven和Gradle开发项目的，下载就非常麻烦，下给出Spring Framework jar官方直接下载路径: http://repo.springsource.org/libs-release-local/org/springframework/spring/ s
Oracle学习笔记(7) 开发PLSQL子程序和包 vipbooks oracle sql 编程
哈哈，清明节放假回去了一下，真是太好了，回家的感觉真好啊！现在又开始出差之旅了，又好久没有来了，今天继续Oracle的学习！这是第七章的学习笔记，学习完第六章的动态SQL之后，开始要学习子程序和包的使用了……，希望大家能多给俺一些支持啊！编程时使用的工具是PLSQL

多线程爬取猪八戒网站

你可能感兴趣的:(python,spider,python,爬虫)