海螺肉

python爬虫实战教程

Python爬虫学习

前言

本博客为本人原创禁止转载
本次python爬虫系列主要以代码的方式入门基础爬虫系列，对部分知识理论解释不多，读者会用即可，特点注意本博客是以实战为基础一定要看代码，讲解主要分。以下7个模块进行。
1、requests库

2、xpath使用

3、BeautifulSoup

4、Re正则模块

5、代理IP

6、分页爬取

7、实战妹子图

requests库

requests库的简单入门

发起get请求

如何发起get请求?

# 导入requests包
import requests

# 定义请求的url(本次爬取百度)
url = 'https://www.baidu.com'

# 发起get请求
res  = requests.get(url=url)

# 获取响应结果
print(res)    #  对象 200表示成功
print(res.content)  # b'...' 二进制文本流
print(res.content.decode('utf-8'))  # 把二进制文本流按utf-8转换为普通字符集
print(res.text)  # 获取相应内容
print(res.status_code)  # 请求状态码 200代表成功
print(res.url)  # 请求url
print(res.request.headers)  # 请求头信息
print(res.headers)  # 响应头信息

当然我们通过上述res.request.headers获取请求头可以发现，我们的请求头为’python-requests/2.23.0’值等于赤裸裸的告诉浏览器，我就是爬虫我要来爬你，很大概率会被服务器拒绝访问，此时就需要引入请求头。

requests请求头

什么是请求头我们在谷歌输入www.baidu.com后打开开发者工具回车后可以看到如下信息

我红线画出的是requests请求的请求头，要使服务器察觉不到是爬虫访问了它最简单的就是设置请求头，下面实现一个带请求头的代码。

import requests

# 定义请求的url
url = 'https://baidu.com/'

# 定义请求头信息
headers = {
     
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36'
}

# 发起get请求
res = requests.get(url=url, headers=headers)

# 获取响应状态码
code = res.status_code

# 响应成功后把响应内容写入文件
if code == 200:
    print(res.requests.headers)

此时请求头信息就定义为了我们设置的这时服务器就无法判断着到底是爬虫还是正常请求了。

当然如果我们想通过爬虫获取网页源代码只需要在代码下面加上这个语句

with open('./test1.html', 'w', encoding='utf-8') as fp:
        fp.write(res.text)

值得注意的是，由于pycharm默认utf-8编码格式，如果不加上encoding='utf-8’是会报错的。

post请求

前面我们学习了get请求，顾名思义get请求拉请求，向服务器拉取我们需要的内容，入网页，但某些时候我们是需要向服务器发送东西的，例如我们进行翻译时时需要向服务器发送内容的，这时便需要post请求。

下面跟我进行百度翻译过程分析，当输入需要翻译的内容后打开开发者工具可以看到个sug的消息，里面包含了我们请求翻译的内容以及返回的内容

可以看出浏览器向www.baidu.com/sug发送post请求后可得到一个json的返回数据，数据里面有我们需要的数据。

下面我们就来通过post请求实现一个翻译的功能

import requests

# 定义请求的url
url = 'https://fanyi.baidu.com/sug'

# 定义请求头
headers = {
     
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36'
}

# post发送数据
data = {
     'kw':'你好'}

# 发送请求
res = requests.post(url=url, headers=headers, data=data)

# 接受返回数据
code = res.status_code
if code == 200:
    print('请求成功')
    data = res.json()
    if data['errno'] == 0:
        print('响应成功')
        print(data['data'][0]['k'])
        v = data['data'][0]['v']
        print(v.split(';')[-2])

当然上面的data是事先设置好的，感兴趣的小伙伴可以自己去实现一个能自己输入信息进行翻译的代码，给个提示使用个input就可以，对有python基础的小伙伴应该很容易实现.

cookie和session

使用浏览器我们经常会发现意见事情浏览器貌似会记住我们的信息，但我们都了解http请求是一个无状态请求协议，什么是无状态请求协议简单来说就是它不会记住用户的状态和任何信息。而网站记录的信息是怎么回事，其实这就是cookie信息，同时我们也可以使用cookie信息访问网站

而cookie是在服务器本地的如果我们不想使用只要在浏览器清除cookie信息就不可以使用了，而seesion与cookie不同，session是在服务器断进行数据记录的，并给每一个用户生成session ID，并在浏览器设置cookie。

下面来看一个带cookie的请求头

# 定义请求头信息
headers = {
     
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36',
    'cookie':'cookie的信息各位从浏览器复制即可'

}

Xpath使用

xpath基本入门

xpath可以怎么用xpath可以用来解析html字符串,下面用一个小案例啊进行演示

from lxml import etree    # 这就是使用xpath所必须的导包操作

text = '''



    
    海螺肉爬虫教程


    
    Java工程师
    python工程师
    AI工程师
    

'''
# 使用etree解析html字符串
html = etree.HTML(text)

# 提取数据
r = html.xpath('/html/body/ul/li/a/text()')  # ['Java工程师', 'python工程师', 'AI工程师']
# print(r)

r = html.xpath('/html/body/ul/li[1]/a/text()')  # ['Java工程师']
print(r)

当然小伙伴们可能会好奇这是怎么解析的，下面就进行说明。

'''
/ 当前元素的直接子节点
// 当前元素的子节点或孙子节点

text()  获取文本
@attr 获取属性对应的值
'''

而对第一个代码进行分析

/html后获取的为整个html文档的值，/html/body后获取的内容就缩小为标签内的内容了，/html/body/ul后或取的内容就缩小到了

内的了，这样逐步缩小就可以精确获取我们所需要的内容了。

xpath实战

下面我们使用xpath进行一下实战带小伙伴们更好的学习xpath，我们将要实战xpath获取文章的信息，爬取内容如下。

爬取学习猿地猿著文章的标题，作者，以及文章url。首先对网页源码进行分析。

下面给出爬虫代码并进行分析

import requests
import json
from lxml import etree

# 请求地址
url = 'https://www.lmonkey.com/essence'

# 请求头
headers = {
     
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36'
}

# 发送get请求
res = requests.get(url=url, headers=headers)

# 请求成功
if res.status_code==200:
    # 请求内容写入文件
    with open('./yuanzhu.html', 'w', encoding='utf-8') as fp:
        fp.write(res.text)

# 解析数据
html = etree.parse('./yuanzhu.html', etree.HTMLParser())

# 提取数据 作者 文章标题 文章地址url
author = html.xpath('//div[@class="list-group-item list-group-item-action px-0 xin_hover"]//strong/a/text()')
titles = html.xpath('//div[@class="topic_title mb-0  essence_title yh"]/text()')
titleurl = html.xpath('//div[@class="flex-fill  col-12 col-md-8 px-3 px-md-0 pt-2 pt-md-0"]/a[1]/@href')


data = []
for i in range(0,len(author)):
    res = {
     '作者：':author[i], '标题：':titles[i], '文章链接：':titleurl[i]}
    data.append(res)

print(data)


# 写入数据
with open('./yz.json', 'w') as fp:
    json.dump(data, fp)

BeautifulSoup

bs4基本操作

from bs4 import BeautifulSoup


html_doc = '''



    
    海螺肉爬虫


    内容如下
    Java工程师
    Java在当前比较火值得学习
    python工程师
    python写爬虫很棒
    AI工程师
    ai改变世界
    

'''

# 创建一个BeautifulSoup对象，建议手动指定解析器
soup = BeautifulSoup(html_doc, 'lxml')

# 通过tag标签对象获取文档数据
r = soup.title
r = soup.title.text  # 获取文本
print(r)

p = soup.p  # 获取p标签的内容
print(p)

# 通过搜索获取页面中的元素 find, find_all

r = soup.find('a')   # 找到第一个a标签的内容
print(r)
r = soup.find_all('a')  # 找到所有a标签的内容
print(r)

# css选择器

# 通过标签选择元素
r = soup.select('title')  # 获取title标签内容
# print(r)

# 通过class类获取元素
r = soup.select('.title')  # 获取class为title的标签的内容
# print(r)

# 通过ID名获取元素

# 通过空格 层级关系获取元素
r = soup.select('html body p')    # 获取html下body内容下所有p标签的内容
# print(r)
# 通过逗号 并列关系获取元素
r = soup.select('title, a')   # 获取title标签和a标签下的内容
print(r)

Re正则模块

Re基本内容

'''
正则表达式，就是使用字符，转义字符和特殊字符组成一个规则
使用这个规则对文本的内容完成一个搜索或匹配或替换的功能

正则表达式的组成
    普通字符：大小写字母，数字，符号
    转义字符：\w \W \d \D \s \S...
    特殊符号：. * ? + ^ $ [] {} ()
    匹配模式：I U...
'''
import re

# 定义字符串
vars = 'ilove520python'

# 定义正则
reg = '\d\d\d'

# 调用正则表达式
res = re.findall(reg,vars)
print(res) # 520

# 一个简单的正则匹配了520三个数字

Re模块相关函数

import re

'''
re.match()函数
    特点：从头开始匹配，要么第一个就符合要求，要么不符合
         匹配成功返回match对象，否则返回None，
         返回结果可用group()获取
         可用span()获取匹配区间
re.search()函数
    特点：从字符串开头到结尾开始搜索式匹配
         匹配成功返回search对象，否则返回None，
         返回结果可用group()获取
         可用span()获取匹配区间
re.findall()
    特点：按照正则表达式规则在字符串中匹配元素，结果返回一个列表，如果没有返回空列表
re.finditer()
    特点：按照正则表达式规则在字符串中匹配所有复合规则的元素，返回一个迭代器
re.sub()
    特点：安按照正则表达式的规则，在字符串中找到需要被替换的字符串
    参数：
        pattern：正则表达式规则，匹配组要被替换的字符串
        repl：替换的字符串
        string：被替换原始字符串
compile()
    定义：可以直接将正则表达式定义为正则对象，使用正则对象直接操作
'''


# 定义字符串
vars = 'iloveyou521tosimida511'

# 定义正则表达式
reg = 'love'  # 代表一个数字

# 调用match正则方法
res = re.match(reg, vars)
# print(res)
# print(res.group())
# print(res.span())

# search
res = re.search(reg, vars)
# print(res)
# print(res.group())
# print(res.span())

# re.findall()
reg = '\d\d\d'  # 也可以 reg = '\d{3}'
# res = re.findall(reg, vars)
# print(res)

# re.finditer()
res = re.finditer(reg, vars)
# print(res)
# print(list(res))

# sub
# res = re.sub(reg, 'AAA', vars)
# print(res)

# compile
reg = re.compile('\d{3}')
res = reg.findall((vars))
print(res)

Re模块正则表达式定义

import re
'''
正则表达式规则定义
'''
# 普通字符
# vars  = 'iloveyou'
#
# reg = 'love'
# res = re.search(reg, vars).group()
# print(res)

# 转义字符 \w \W \d \D \s \S...
# \w 代表单个字母 数字 下划线
# \W代表单个的W非 字母、数字、下划线
# \d 代表单个数字
# \D代表单个的非数字
# \s代表单个空格符或制表符
# \S代表单个的非空格符或制表符
# varstr = '@_ilove  you520'
#
# reg = '\S\w\w\w\w'   # 可组合使用
# res = re.search(reg, varstr).group()
# print(res)


# 特殊字符 . * + ? {} [] () ^ $
varstr = 'hello Wor。ld  iloveyou5211'

reg = '.'    # 代表任意字符 除了换行符之外
reg = '.*'   # * 代表匹配次数 任意次数  若开始不符合直接返回
reg = '.+'   # + 代表匹配次数 至少要求匹配一次 若开始不匹配 往后跳继续匹配
reg = '.+?'  # ? 拒绝贪婪，匹配要求只要达成则返回
reg = '\w{4}' # {} 代表匹配次数 {4} 一个数字时，代表必须匹配的次数 {2，5}两个数字时，代表匹配的区间次数
reg = '[a-z]' # []代表范围
reg = '[A-Z, a-z]'
reg = '\w+(\d{4})'  # ()代表子组 括号中的表达式首先作为正则的一部分，另外会把小括号中的内容单独提取一份
reg = '(.*?)'
res = re.search(reg, varstr)
print(res.group())


varstr = '17610105211'
# 定义一个匹配手机号的正则表达式规则
reg = '^1\d{10}$'

# 定义一个正则表达式验证一个邮箱是否正确
varstr = '[email protected]'
reg = '[a-zA-Z0-9-_]+@[a-zA-Z0-9]+.com$'

res = re.search(reg, varstr)
# print(res.group())
# print(res.groups())


# 正则模式
varstr = 'iloveYou'
reg = '[a-z]+'
res = re.search(reg, varstr)
# print(res.group())

代理IP

某些时候我们使用爬虫爬取大量数据的时候由于快速的请求，导致服务器压力过大而这时服务器最好的解决措施就是封IP，让你的IP不能继续访问，而这时解决方式有两个，一个就是你爬慢一点，让服务器觉得你还是人在请求，还有一个就是使用代理IP，代理IP当然现在有很多代理IP网站，但如果你不出钱几乎用不了(曾经试过十多个才能找到一个可能的

当然我画出只是告诉你他是一个免费的IP，并不是说可用…

而代理IP该如何使用下面进行了解

proxies = {
     
    'http':'123.207.57.145:1080',
    'https':'123.207.57.145:1080'
}

# 发起get请求
res = requests.get(url=url, headers=headers, proxies=proxies)

# 如上就使用了代理IP技术

分页爬取

前面的爬虫都只能爬一页可是作为爬虫只爬一页是不是太屈辱了…所以还是得学会分页爬虫才行，分页爬虫怎么进行简单来说就是不断循环请求而已，最后我会用分页爬取技术爬取快代理20页ip

分页原理分析

可以看到两个页面的差别在于url地址的不同，所以我们只需要在循环请求中不断改变url地址即可

而该如何循环实现改变url地址呢

for i in range(1,21):
    print(f'当前正在爬取第{i}页')
    # 定义请求url
    time.sleep(2)
    url = 'https://www.kuaidaili.com/free/inha/'+str(i)+'/'

这样就可以不断改变url地址，实现循环请求

而前面我们获取的数据都没有进行存取，但是当我们获取大量数据后将其存入数据库就是必须的了，如何实现这个操作其实页很简单，使用一个pymqsql包就可以，我使用的是python3.×，如果小伙伴使用python 2.×所需包有所不同.

# 将数据写入数据库
try:
   conn = pymysql.connect(host="127.0.0.1", user='root', port=3306, passwd='root', db='db1', charset='utf8')
   cursor = conn.cursor()

   insert_inf = ("insert into dlip(ip, port, ym, kind, time)" "values (%s, %s, %s, %s, %s)")
   for i in range(len(ip)):

       ata_inf = (ip[i], port[i], ym[i], kind[i], time1[i])
       cursor.execute(insert_inf, data_inf)
       conn.commit()   # 提交事务

       conn.close()

except :
      s = sys.exc_info()
      print("Error '%s' happened on line %d" % (s[1], s[2].tb_lineno)) # 打印错误信息
      print('connect mysql error.')

上述就是将数据写入数据库的操作，值得注意的是cursor不可以重复使用，还有try后一定要打印错误日志要不然bug可能会逼疯你…

分页实战快代理

前面讲了分页操作及数据库存取操作，我下面给出整个流程完整代码

import requests
from fake_useragent import UserAgent  # 这个包以前未讲 ，主要用来获取虚拟请求头的
import re
import pymysql
import sys
import time

un = UserAgent()
for i in range(1,11):
    print(f'当前正在爬取第{i}页')
    # 定义请求url
    time.sleep(2)
    url = 'https://www.kuaidaili.com/free/inha/'+str(i)+'/'


    # 定义请求头
    headers = {
     
        'User-Agent':un.random
    }


    # 发起get请求
    res = requests.get(url=url, headers=headers)

    if res.status_code == 200:
        # print('请求成功')

        # 获取ip地址
        reg = '(.*)'

        ip = re.findall(reg,res.text)

        # 获取端口号
        reg = '(.*)'

        port = re.findall(reg, res.text)

        # 隐秘度
        reg = '(.*)'
        ym = re.findall(reg, res.text)

        # 类型
        reg = '(.*)'
        kind  = re.findall(reg, res.text)

        # 最后验证时间
        reg = '(.*)'
        time1 = re.findall(reg, res.text)


        # 将数据写入数据库
        try:
            conn = pymysql.connect(host="127.0.0.1", user='root', port=3306, passwd='root', db='db1', charset='utf8')
            cursor = conn.cursor()

            insert_inf = ("insert into dlip(ip, port, ym, kind, time)" "values (%s, %s, %s, %s, %s)")
            for i in range(len(ip)):

                data_inf = (ip[i], port[i], ym[i], kind[i], time1[i])
                cursor.execute(insert_inf, data_inf)
            conn.commit()

            conn.close()

        except :
            s = sys.exc_info()
            print("Error '%s' happened on line %d" % (s[1], s[2].tb_lineno))
            print('connect mysql error.')

此时获取的ip就全部存入了数据库。

重磅！爬虫爬取妹子图

前面讲述了爬虫爬取数据但没有讲述如何下载图片我们最后进行学习

废话不多直接给出代码，各位小伙伴去分析吧

import requests
import os

def getPage(kw, num):

    params = []
    for i in range(30, 30*num+30,30):
        params.append({
     
            'tn': 'resultjson_com',
            'ipn': 'rj',
            'ct': '201326592',
            'is':'',
            'fp': 'result',
            'queryWord': kw,
            'cl': '2',
            'lm': '-1',
            'ie': 'utf - 8',
            'oe': 'utf - 8',
            'adpicid':'',
            'st':'',
            'z':'',
            'ic':'',
            'hd':'',
            'latest':'',
            'copyright':'',
            'word': kw,
            's':'',
            'se':'',
            'tab':'',
            'width':'',
            'height':'',
            'face':'',
            'istype':'',
            'qc':'',
            'nc':'',
            'fr':'',
            'expermode':'',
            'force':'',
            'cg': 'girl',
            'pn': '90',
            'rn': '30',
            'gsm': '5a',
            '1590936486366':'',

        })

    url = 'https://image.baidu.com/search/acjson'
    urls = []
    for i in params:
        # 向每一个url发起请求
        res = requests.get(url=url, params=i).json()['data']
        # 获取请求数据
        urls.append(res)
    return urls

def downloadImg(datalist, dir):

    # 检测文件夹是否存在
    if not os.path.exists(dir):
        os.mkdir(dir)

    # 循环下在文件数据
    x = 0
    for data in datalist:
        for i in data:
            if i.get('thumbURL') != None:
                print(f'下载图片{i.get("thumbURL")}')
                # 发请求
                imgres = requests.get(i.get("thumbURL"))
                with open(dir+f'{x}.jpg', 'wb')as f:
                    f.write(imgres.content)
                x += 1



# 获取用户输入信息
keyword = input('请输入搜索图片的关键字：')

# 调用函数进行数据爬取 ，可指定关键字和下载页数
datalist = getPage(keyword, 2)

# 调用函数，保存数据, 可以指定要保存的图片路劲
# downloadImg(datalist,'F:\\baidu')
# 检测文件夹是否存在
if not os.path.exists('F:\\baidu'):
    os.mkdir('F:\\baidu')
    # 循环下在文件数据
x = 0
for data in datalist:
    for i in data:
        if i.get('thumbURL') != None:
            print(f'下载图片{i.get("thumbURL")}')
            # 发请求
            imgres = requests.get(i.get("thumbURL"))
            print(requests.get(i.get("thumbURL")))
            open(f'F:\\baidu\\{x}.jpg', 'wb').write(imgres.content)
            x += 1

至于效果如何请各位小伙伴自行探索。
原创不易若有帮助点赞支持！

【Python 第五篇章】数据类型蜗牛 | ICU Python 专栏 python windows 开发语言
一、列表详解list.append(x)在列表末尾添加一个元素。list.extend(iterable)用可迭代对象的元素扩展列表。list.insert(i,x)在指定位置插入元素，第一个参数是插入元素的索引，第二个是值。list.remove(x)从列表中删除第一个值为x的元素。list.pop([i])移除列表中给定位置的条目，并返回该条目。如果未指定索引号，则a.pop()将移除并返回列
python catia catalog文件_Python封装的获取文件目录的函数卢新生 python catia catalog文件
获取指定文件夹中文件的函数，网上学习时东拼西凑的结果。注意，其中文件名如1.txt，文件路径如D:\文件夹\1.txt；direct为第一层子级importos#filePath输入文件夹全路径#mode#1递归获取所有文件名;#2递归获取所有文件路径;#3获取direct文件名;#4获取direct文件路径;#5获取direct文件名和direct子文件夹名;#6获取direct文件路径和dir
Python：每日一题之错误票据努力的敲码工蓝桥杯每日一题 python 蓝桥杯
题目描述某涉密单位下发了某种票据，并要在年终全部收回。每张票据有唯一的ID号。全年所有票据的ID号是连续的，但ID的开始数码是随机选定的。因为工作人员疏忽，在录入ID号的时候发生了一处错误，造成了某个ID断号，另外一个ID重号。你的任务是通过编程，找出断号的ID和重号的ID。假设断号不可能发生在最大和最小号。输入描述输入描述要求程序首先输入一个整数N(N<100)表示后面数据行数。接着读入N行数据
Python控制批量插入Catia文件并修改文件定义及PN 一盘红烧肉 python
改了两天，总算初步摸清楚了Catia中的文件结构，实现了使用Python控制批量修改文件名及定义使用Pycatia在Product中插入Part并改名及定义
PySide2是 Qt 库的 Python 绑定之一 WwwwwH_PLUS #Qt qt python 开发语言
PySide2是Qt库的Python绑定之一，它为Python程序员提供了创建跨平台桌面应用程序的工具和功能。PySide2是Qt5.x系列的Python绑定，而Qt本身是一个跨平台的图形用户界面（GUI）框架，广泛用于开发各种类型的桌面应用程序，包括多种平台（Windows、Linux、macOS）的应用。主要特点跨平台支持：PySide2可以在Windows、Linux和macOS上运行，允许
Python学习第十一天 Leo来编程 Python学习 python
疑惑：有很多人不知道是不是也分不清什么是单核？什么是多核？什么是时间片？进程？线程？那么在讲进程和线程前我先举个例子更好理解这些概念。单核例子：比如你是一个厨师（计算机）在一个厨房（CPU）里需要同时做3个菜（进程）、每个菜需要准备不同的调料以及协作（线程），那么这个厨师需要不断地切换时间（时间片）来达到同时在一个时间将三个菜做完。多核的话其实对应的例子就是多个厨师，这样的例子太多了因为万物皆对象
python学习第三天 Leo来编程 Python学习 python 开发语言
条件判断条件判断使用if、elif和else关键字。它们用于根据条件执行不同的代码块。#条件判断age=18ifage0:#也可以写if(s>0)但是没必要因为python给个提示建议去掉保证代码的按照缩进来进行更加规范print("这个数字是大于0的数字!")#这行代码属于if语句的代码块elifs==0:print("这个数字是等于0的数字!")#这行代码属于elif语句的代码块else:pr
三种优化算法旅者时光算法算法 python 开发语言
本文将总结遗传算法、粒子群算法、模拟退火三种优化算法的核心思路，并使用python完整实现。实际上，越来越多的优秀算法已经被封装为一个易用的接口。很多时候，一行代码就能实现我们的需求。但了解这些算法的基本逻辑，能够使用最基本的代码实现它。无论对于提升我们的编程能力还是解决问题的能力，都会大有裨益。甚至，改变我们思考问题的方式。1、遗传算法遗传算法，顾名思义，就是借鉴了生物通过遗传变异来逐渐适应环境
使用 Python 合并微信与支付宝账单，生成财务报告 python后端
最近用思源笔记记东西上瘾，突然想每个月存一份收支记录进去。但手动整理账单太麻烦了，支付宝导出一份CSV，微信又导出一份，格式还不一样，每次复制粘贴头都大。干脆写了个Python脚本一键处理，核心就干两件事：把俩平台的CSV账单合并到一起自动生成带分类表格的Markdown（直接拖进思源就能渲染）代码主要折腾了这些：支付宝账单前24行都是废话，直接skiprows=24跳过去，GBK编码差点让我栽跟
Python Flask 在网页应用程序中处理错误和异常 dowhileprogramming python flask 开发语言
PythonFlask在网页应用程序中处理错误和异常PythonFlask在网页应用程序中处理错误和异常PythonFlask在网页应用程序中处理错误和异常在我们所有的代码示例中，我们没有注意如何处理用户在浏览器中输入错误的URL或向我们的应用程序发送错误的参数集的情况。这不是设计意图，但目的是首先关注网页应用程序的关键组件。网页框架的美妙之处在于，它们通常默认支持错误处理。如果发生任何错误，将自
农业生产模拟和农业政策分析：WOFOST模型与PCSE模型安装、运行、数据准备；农田农作物生长模拟和产量预测等 WangYan2022 作物模型农业 WOFOST模型 PCSE模型农田生态系统作物模型农业生产模拟
WOFOST（WorldFoodStudies）和PCSE（PythonCropSimulationEnvironment）是两个用于农业生产模拟的模型：WOFOST是一个经过多年开发和验证的模型，被广泛用于全球的农业生产模拟和农业政策分析；采用了模块化的结构，可以对不同的农作物和环境条件进行参数化和适应；WOFOST可用于长期模拟，能够模拟整个作物生长周期，包括播种、生长、收获等各个阶段；WOF
基于Python+Vue开发的电影订票管理系统源码+运行步骤冷琴1996 Python系统设计 python vue.js 开发语言
项目简介该项目是基于Python+Vue开发的电影订票管理系统（前后端分离），这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Python编程技能，同时锻炼他们的项目设计与开发能力。通过学习基于Python的电影订票管理系统项目，大学生可以在实践中学习和提升自己的能力，为以后的职业发展打下坚实基础。技术学习之路主要功能影片管理：管理系统可以录入、修改和查询影片的基本信息，如
Python通过YOLO格式TXT标签文件在图像中画框 CHERISH_KDX python YOLO 人工智能
使用场景检测数据集标注是否有误：在目标检测算法中需要标注自己的数据集，为了更加方便的检查数据集标注是否有误，可以使用该工具将标注结果绘制在图像中并查看。美化识别结果中的检测框：在一些目标检测场景中，YOLO检测算法原始的检测框绘制会导致重叠、颜色冲突、字体过大等问题。可以使用该工具进行修改。代码importosimportcv2classcheck_label:def__init__(self,c
基于llama_cpp 调用本地模型（llama）实现基本推理月光技术杂谈大模型初探 llama llama.cpp python LLM 集成显卡本地模型 AI
零基础实践本地推理模型基本应用：基于llama_cpp的本地模型调用。本文先安装llama_cpppython库，再编写程序，利用其调用llama-2-7b-chat.Q4_K_M.ggu模型。背景llama_cpp是一个基于C++的高性能库（llama.cpp）的Python绑定，支持在CPU或GPU上高效运行LLaMA及其衍生模型（如LLaMA2），并通过量化技术（如GGUF格式）优化内存使用
python实现查找满足条件的数字 qq_恰同学少年 python
问题：一个四位数，知道其前两位和后两位分别相等，并且这个数还是一个平方数，求出这个数。一个四位数，范围只能是1000~9999，前两位和后两位分别相等，也就是说，它的结构应该是aabb。最后，这个数是一个平方数。有的小伙伴可能不知道啥叫平方数，暂且解释下，所谓的平方数就是指该数等于一个整数的平方。比如3的平方是9，那么我们就说9是个平方数。第一步，这是个四位数，前两位和后两位分别相等，我们将满足条
python中常用的内置模块举例（入门级整理） qq_恰同学少年 python
python对于初学者可以说是十分友好的一门编程语言，不仅语法简单，而且它自身还包含了十分丰富的第三方模块，我仅就将我自己常用的一些内置模块（自带的，无需安装）做一下简单的总结和介绍：1.turtleturtle，是python中比较好玩一个模块，它有一个专有名称“海龟作图”，光看名字就应该能够猜到它是用来干嘛的，没错，就是来画图的，它可以通过某些语句来控制一个点在白板上的运动轨迹，它在白板上走过
QPython双核攻略：从零基础到AI开发，你的手机就是全栈训练营程之编 python 开发语言青少年编程人工智能
主题一：《编程小白必看！在手机上种下你的第一行代码》✨北京优趣天下信息技术有限公司重磅出品我们比谁都清楚：✔️86%的初学者因环境配置放弃编程✔️72%的上班族只有碎片化学习时间✔️95%的自学者需要即时答疑支持为什么QPython成为2025现象级学习工具？▸全栈开发环境：解释器+编辑器+控制台三合一▸AI导师常驻：集成DeepSeek代码助手（支持中英双语提问）▸极速学习路径：Q派课程7天完成
Python学习指南：系统化路径 + 避坑建议程之编 Python全栈通关秘籍青少年编程 python 开发语言人工智能机器学习
新手小白学习编程就像搭积木——需要从基础开始，逐步构建知识体系。以下是为你量身定制的Python学习路径，帮你告别杂乱，高效入门！一、学习前的关键认知明确目标：想用Python做什么？数据分析（如Excel自动化、可视化）Web开发（如搭建网站）人工智能（如机器学习）自动化办公（如处理文件、邮件）目标不同，后续学习侧重点不同（但基础通用）。避免误区：❌只看教程不写代码✅边学边动手，哪怕抄代码也要运
【Python代码练习（简单应用）】 9... python 汇编前端开发语言 dreamweaver
一、Python列表添加与删除元素：append()。在列表末尾添加新的格式元素添加格式：list.append(元素)删除格式：list.remove(元素)例如：#给出代码listA=['水煮千丝','平板豆腐','白烧饭','香菇青菜','西红柿鸡蛋汤']listA._________("红烧肉")listA._________("水煮千丝")print(listA)将“红烧肉”放入列表中，
统信uos20：利用docker部署python+jupyterlab开发环境阆遤 docker python jupyter github actions workflow 统信uos20
很多统信uos20计算机没有联网安装python开发环境的条件，但是工作中需要对数据进行分析处理，因而产生了离线部署python开发环境的想法。我首先下载了python3.11的源代码包，在uos中编译居然正常通过。但后续的麻烦来了：需要安装的库没法安装。尝试了一天，最终放弃。改用Docker方式部署，理由就不多解释了。一、在uos中安装docker。我的系统是uos20linux4.19.0-a
第五周作业——第十章动手试一试 hongsqi
10-1Python学习笔记学习笔记：在文本编辑器中新建一个文件，写几句话来总结一下你至此学到的Python知识，其中每一行都以“InPythonyoucan”打头。将这个文件命名为learning_python.txt，并将其存储到为完成本章练习而编写的程序所在的目录中。编写一个程序，它读取这个文件，并将你所写的内容打印三次：第一次打印时读取整个文件；第二次打印时遍历文件对象；第三次打印时将各行
统信UOS下达梦数据库启动图形界面应用工具monitor报JAVA相关错：An error has occurred. See the log file LaoYuanPython 老猿Python 国产信创之光 java 达梦数据库统信UOS操作系统 JDK 图形应用报错
☞░前往老猿Python博客░https://blog.csdn.net/LaoYuanPython一、前言在博文《基于飞腾2000CPU+浪潮电脑+统信UOS安装达梦数据库详解https://blog.csdn.net/LaoYuanPython/article/details/143258863》中介绍了基于飞腾2000CPU+浪潮电脑+统信UOS安装达梦数据库的详细过程，并且安装完毕之后通过
整理一下arcGis desktop版本软件，从入门到精通需要学习的知识点 AnalogElectronic arcgis 学习
整理一下arcGisdesktop版本软件，从入门到精通需要学习的知识点以下是一份关于ArcGISDesktop从入门到精通的学习知识点整理：一、软件初认识与基础操作软件初认识：了解ArcGISDesktop的界面布局，包括内容列表、ArcToolbox工具箱、结果窗口、地图窗口、目录窗口、搜索窗口、python编程窗口以及其他常用工具条等。数据添加与管理：掌握通过不同方式添加数据，如图层列表右键
动态规划双剑合璧：C++与Python征服洛谷三大经典DP问题三流搬砖艺术家动态规划 c++python
动态规划核心思想状态定义→转移方程→边界处理→时空优化本文精选洛谷动态规划题单中三大经典问题，通过C++与Python双语言对比实现，彻底掌握DP精髓！题目一：P1048采药（01背包模板）题目描述在限定时间T内采集草药，每株草药有采集时间time[i]和价值value[i]，求最大总价值。解题思路状态定义：dp[j]表示时间j能获得的最大价值转移方程：dp[j]=max(dp[j],dp[j-t
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务 AGI大模型与大数据研究院程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
Python机器学习实战：构建序列到序列(Seq2Seq)模型处理翻译任务1.背景介绍1.1问题的由来翻译是跨语言沟通的重要桥梁，随着全球化进程的加速，翻译需求日益增长。传统的机器翻译方法主要依赖于规则和统计方法，如基于短语的翻译、基于统计的机器翻译等。然而，这些方法难以处理复杂的语言现象，翻译质量参差不齐。近年来，随着深度学习技术的快速发展，基于神经网络序列到序列（Sequence-to-Seq
20个简单的python代码练习 qq_恰同学少年 python 开发语言
下面整理了20个简单的python代码练习，供大家学习交流使用，轻易上手，复制下来就能用！！！废话不多说，直奔主题1.输入一个不超过5位的正整数，输出其逆数。例如输入12345，输出应为54321。a=input('请输入一个不超过5位的正整数：')print('其逆数为：',a[::-1])注：该代码使用了列表的切片和反转操作，首先将这个数的每个位上的数字存储到一个列表中，然后通过列表的反转来得
Python第十六课：深度学习入门 | 神经网络解密程之编 Python全栈通关秘籍 python 神经网络青少年编程
本节目标理解生物神经元与人工神经网络的映射关系掌握激活函数与损失函数的核心作用使用Keras构建手写数字识别模型可视化神经网络的训练过程掌握防止过拟合的基础策略一、神经网络基础（大脑的数字化仿生）1.神经元对比生物神经元人工神经元树突接收信号输入层接收特征数据细胞体整合信号加权求和（∑(权重×输入)+偏置）轴突传递电信号激活函数处理输出2.核心组件解析激活函数：神经元的"开关"（如ReLU：max
通过 Ollama 本地部署 DeepSeek-r1:1.5b 模型后，用 Python 调用推理并生成基于 pytest + PO 设计模式的 Playwright 自动化测试文件 Python测试之道测试提效 python python pytest 设计模式
以下是完整的实现步骤和代码示例，详细说明了如何通过Python调用本地部署的DeepSeek-r1:1.5b模型，将功能测试用例转换为适合pytest和PageObject（PO）设计模式的Playwright自动化测试脚本。一、前提条件DeepSeek模型本地部署通过Ollama部署DeepSeek-r1:1.5b模型。Ollama提供的本地推理服务默认可通过HTTPAPI访问，地址通常为：ht
【UI自动化】Selenium库中使用By类元素定位方法搞不来测试的摄影狮软件测试 python selenium 自动化
使用By类，首先需要在Python中导入该模块：fromselenium.webdriver.common.byimportBy1.通过元素的ID属性来定位driver.find_element(By.ID,'kw')如下图，我们需要定位百度的输入框。首先选中定位工具，然后选中输入框。我们可以看到该元素id的值为："kw"2.通过元素的NAME属性来定位driver.find_element(By
DeepSeek + Cline：编程如何加速引擎 meisongqing 人工智能
DeepSeek与Cline的结合为编程工作流提供了显著的加速能力，这种组合通过AI辅助规划、代码生成与优化、实时调试等功能，大幅提升开发效率。以下是具体实现方式及技术要点：一、智能规划与代码生成问题分析与规划（Plan模式）DeepSeek-R1模型擅长处理复杂逻辑推理，开发者可在Cline的Plan模式下用自然语言描述需求（如“用Python实现数据清洗并计算平均值”）。DeepSeek会根据
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那