讳疾忌医丶

request库xpath,bs4数据解析selenium模拟登录

requests模块

requests伪造UA,params参数

import requests
word = input("请输入名字:")
url ="https://www.sogou.com/web"
params={
    'query':word
}
headers = {
    'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Safari/537.36'
}
resp = requests.get(url=url,params=params,headers=headers)
# 手动修改响应数据的编码
resp.encoding = "utf-8"
resp = resp.text
file_name = word+".html"
with open(file_name,"w",encoding="utf-8") as f:
    f.write(resp)
print("ok")

urllib库图片保存本地:

from urllib import request
url = "http://pic.sc.chinaz.com/files/pic/pic9/202009/apic28014.jpg"
request.urlretrieve(url=url,filename="./456.png")

bs4 解析

原理流程:
- 标签定位
- 数据的提取
bs4 数据解析的解析原理/流程
实例化一个BeautifulSoup的对象,且将等待被解析的数据加载到该对象中
-方式1:
- BeautifulSoup(‘fp’,‘lxml’):解析本地存储的html文件
- 方式2:
  - BeautifulSoup(page_text,‘lxml’):解析互联网上请求到的页面数据
调用BeautifulSoup对象中的相关方法和数据进行表情定位和数据的提取
环境的安装:
- 标签定位
- pip3 install bs4
- pip3 install lxml
  soup = BeautifulSoup(page_text,‘lxml’)
- 标签定位:soup.div 只会定位第一个div标签
- 属性定位根据具体的标签熟悉定位:soup.find(‘duv’,ckass_=‘song’) # class属性为song的div标签
- findAll和find的用法一样,但是返回值不一样是一个列表
- 选择器:使用select(’#id’)
- 层级选择器:select(’.ta>ul’) >表示一个层级, 多个层级可以用空格隔开
- 数据提取:
- .string取出标签中直系文本内容 .text取出标签中所有文本内容

# bs4 爬取 https://www.shicimingju.com/book/sanguoyanyi.html
from bs4 import BeautifulSoup
import requests
headers = {
    'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Safari/537.36'
}

# 请求首页解析出章节表情和详情页的url
url = "https://www.shicimingju.com/book/sanguoyanyi.html"

# 打开文件
fp = open("./text.txt","w",encoding="utf-8")

# 首页的页面源码数据
page_text = requests.get(url=url,headers=headers).text

# 数据解析的层级选择器
soup = BeautifulSoup(page_text,'lxml')
a_list = soup.select('.book-mulu>ul>li>a')
for item in a_list:
    title = item.string # 标题数据
    detail_url = "https://www.shicimingju.com"+item['href'] # 详情url
    
    # 解析详情页
    page_text_detail = requests.get(url=detail_url,headers=headers).text
    soup_detail = BeautifulSoup(page_text_detail,'lxml')
    content = soup_detail.find('div',class_='chapter_content').text
    fp.write(title+":"+content+'\n')
    print(title,'下载成功!')

xpath解析

html 标签结构
- 是一个树状的结构
xpath解析原理
- 实例化一个etree对象,且将即将解析的数据加载到该对象中
  - 解析本地存储的html文档:
    - etree.parse(‘fileName’)
  - 解析网上爬取的html数据:
    - etree.HTML(page_text)
- 使用etree对象中的xpath方法结合着不同的xpath表达式实现表情定位和数据提取
  - 标签定位
    - 最左侧的/ : 必须要从根标签开始逐层的定位目标标签(必须是根父节点,下一及只能是字节点不能是孙)
    - 最左侧的//: 可以从任意位置定位标签(下一及可以是子孙节点)
    - 属性定位: “//div[@class=‘song’]”
    - 索引定位: “//li[3]” 这里的索引是从一开始的
    - 模糊匹配:
      - “//div[contains(@class,‘h’)]” # 定位到class中属性值包含h的div标签
      - “//div[starts-with(@class,‘ta’)]” # 定位到class属性值中是以ta开头的div标签
    - 数据提取
      - 提取标签中的值:
        
        /text() 取出下一及的内容
        
        //text() 子孙的所有文本
      - 取属性的数据:
        
        //a/@href

# 爬取图片数据和图片名称保持到本地
from lxml import etree
import requests
# url = "http://pic.netbian.com/4kmeinv/index.html"
url = "http://pic.netbian.com/4kmeinv/index_%d.html"
headers = {
    'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Safari/537.36'
}

for i in range(1,6):
    if i == 1:
        new_url = "http://pic.netbian.com/4kmeinv/index.html"
    else: 
        new_url = format(url%i) # 表示非第一页url
        
    response = requests.get(url=new_url,headers=headers)
    response.encoding = 'gbk'
    page_text = response.text
    
    # 数据解析 图片地址和图片名称
    tree = etree.HTML(page_text)
    # 定位到所有的li标签
    li_list = tree.xpath('//div[@class="slist"]/ul/li') # 全局解析
    for li in li_list:
        img_url = "http://pic.netbian.com"+li.xpath('./a/img/@src')[0] # 局部解析 ./ 表示当前标签li 因为返回的是一个列表所以[0]
        img_name = li.xpath('./a/img/@alt')[0] + ".jpg"# 局部解析 ./ 表示当前标签
        
        # 存入本地
        img_data = requests.get(url=img_url,headers=headers).content
        with open('./text%s' % img_name, 'wb') as f:
            f.write(img_data)
        print(img_name,"下载成功")

print("全部完成!!!")

xpath小案例

url = "https://www.aqistudy.cn/historydata/"
page_text = requests.get(url=url,headers=headers).text
tree = etree.HTML(page_text)
hot_cities = tree.xpath("//div[@class='hot']//ul/li/a/text()")
all_cities = tree.xpath("//div[@class='all']//ul/div[2]/li/a/text()")

# 合并上面两个xpath表达式
data = tree.xpath("//div[@class='hot']//ul/li/a/text() | //div[@class='all']//ul/div[2]/li/a/text()")

cookie处理

cookie是存储在客户端的一组键值对
cookie是由服务器创建
处理cookie两种方式:
- 手动处理:
  - 将cookie封装到headers字典中,将字典作用到get/post方法headers参数中
- 自动处理:
  - Session对象:
  - Session对象的创建:requests.Session()
  - 对象的作用:
    - 可以跟requests一样用get/post进行请求发送,在使用Session进行请求发送的过程中,如果成功cookie,则自动保存存储到session中
    - 在爬虫中使用session处理cookie时,session对象至少需要被调用几次?
      - 两次,第一次是为了捕获cookie到session对象,第二次就是调用携带cookie的session请求发送

# https://xueqiu.com/  将学球网的新闻数据爬取
# 网站分析:第一屏数据不是动态数据,当鼠标滑到底部会发ajax请求数据
import requests
headers = {
    'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Safari/537.36'
}

url = "https://xueqiu.com/statuses/hot/listV2.json?since_id=-1&max_id=113797&size=15"

# 创建Session对象
session = requests.Session()
# 第一次操作Session,预测:访问首页会给我们返回cookie
session.get(url="https://xueqiu.com/",headers=headers)
# 使用携带cookie的session发送请求
json_data = session.get(url=url,headers=headers).json()
json_data

代理操作:

- 概念:代理服务器
- 代理服务器的作用:
    - 转发请求从而更换请求ip地址
- 代理和爬虫之间的关联?
    - 爬虫程序可能会在短时间内对指定的服务器发起高频请求,服务端会将该高频请求ip禁掉
- 代理的匿名度:
    - 透明:对方服务器知道你使用了代理也知道你的真实ip
    - 匿名:知道你使用了代理,但是不知道你的真实ip
    - 高匿:不知道你使用了代理,更不知道你的真是ip
- 代理类型:
    - http:只能代理http,https只能代理https
    - http://http.zhiliandaili.cn/
    -  错误解决方式:遇到HTTPConnectionOpool(host:xx) Max retri exceeded with url
    - 将Connection 的值修改为close

import random
# 使用代理请求网站
all_ips = [
    {'https':'xxxxx'},
    {'https':'xxxxx'},
    {'https':'xxxxx'}
]
url = "xxxx"
requests.get(url=url,proxies=random.choiceo(all_ips))

验证码识别:

线上打码平台
云平台,超级鹰(http://www.chaojiying.com/),打码兔
超级鹰使用: 生产一个软件ID->点击开发文档(下载实例代码)

# 超级鹰的代码:
# coding:utf-8

import requests
from hashlib import md5

class Chaojiying_Client(object):

    def __init__(self, username, password, soft_id):
        self.username = username
        password =  password.encode('utf8')
        self.password = md5(password).hexdigest()
        self.soft_id = soft_id
        self.base_params = {
            'user': self.username,
            'pass2': self.password,
            'softid': self.soft_id,
        }
        self.headers = {
            'Connection': 'Keep-Alive',
            'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',
        }

    def PostPic(self, im, codetype):
        """
        im: 图片字节
        codetype: 题目类型 参考 http://www.chaojiying.com/price.html
        """
        params = {
            'codetype': codetype,
        }
        params.update(self.base_params)
        files = {'userfile': ('ccc.jpg', im)}
        r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files, headers=self.headers)
        return r.json()

    def ReportError(self, im_id):
        """
        im_id:报错题目的图片ID
        """
        params = {
            'id': im_id,
        }
        params.update(self.base_params)
        r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers)
        return r.json()

# 自己封装的一个识别验证码图片的函数
def transform_code_img(imgPath,imgType):  
    chaojiying = Chaojiying_Client('xiaozhulei', 'zhu1213556247', '908482') # 用户中心>>软件ID 生成一个替换 96001
    im = open(imgPath, 'rb').read() # 本地图片文件路径 来替换 a.jpg 有时WIN系统须要//
    return chaojiying.PostPic(im, imgType)['pic_str'] # 1902 验证码类型  官方网站>>价格体系 3.4+版 print 后要加()

# 调用识别验证码的函数
transform_code_img('./text/chaojiying_Python/a.jpg',4004)


from lxml import etree
sess = requests.Session() #创建好session对象
#处理动态变化的请求参数
#1.解析出本次登录页面对应的验证码图片地址
login_url = 'https://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspx'
page_text = sess.get(url=login_url,headers=headers).text
tree = etree.HTML(page_text)
#解析出了验证码图片的地址
img_path = 'https://so.gushiwen.org'+tree.xpath('//*[@id="imgCode"]/@src')[0]
img_data = sess.get(url=img_path,headers=headers).content #请求到了图片数据

#将图片保存到本地存储
with open('./code.jpg','wb') as fp:
    fp.write(img_data)
#将动态变化的请求参数从页面源码中解析出来
__VIEWSTATE = tree.xpath('//*[@id="__VIEWSTATE"]/@value')[0]
__VIEWSTATEGENERATOR = tree.xpath('//*[@id="__VIEWSTATEGENERATOR"]/@value')[0]

#识别验证码
code_result = transform_code_img('./code.jpg',1004)
print(code_result)

post_url = 'https://so.gushiwen.org/user/login.aspx?from=http%3a%2f%2fso.gushiwen.org%2fuser%2fcollect.aspx'
data = {
    "__VIEWSTATE":__VIEWSTATE,
    "__VIEWSTATEGENERATOR":__VIEWSTATEGENERATOR,
    "from": "http://so.gushiwen.org/user/collect.aspx",
    "email": "[email protected]",
    "pwd": "bobo328410948",
    "code": code_result,
    "denglu": "登录",
}
#模拟登录的请求
response = sess.post(url=post_url,headers=headers,data=data)
page_text = response.text #登录成功后页面的源码数据
with open('gushiwen.html','w',encoding='utf-8') as fp:
    fp.write(page_text)

selenium捕获动态加载数据

需要先安装驱动到python的目录里面
selenium 和爬虫关联:
- 非常的捕获到任意形式加载出来的数据
- 模拟登录
- 裁剪验证码时出现偏差,可以调整缩放为100%

from selenium.webdriver import Chrome
import  time
from lxml import etree

# 打开浏览器
chrome = Chrome()

# 在地址栏中输入百度网址
chrome.get("http://www.baidu.com/")
time.sleep(2)

# 获取当前页面显示的页面数据
page_text = chrome.page_source # 该属性可以返回当前页面所有被加载出来的源码数据
tree = etree.HTML(page_text)
# 全局解析
divs = tree.xpath("//div[@class='container']/div[@class='box']")
# 局部解析
for div in divs:
    h1 = div.xpath('./h1/a/text()')[0]
    print(h1)
    
    
# 退出
chrome.quit()

使用selenium模拟登录 https://kyfw.12306.cn/otn/resources/login.html

# 使用selenium模拟登录 https://kyfw.12306.cn/otn/resources/login.html
from selenium.webdriver import Chrome
from selenium.webdriver import ActionChains # 动作链
import time
# pip3 install pillow
from PIL import Image # 进行截图


chrome = Chrome()
chrome.get('https://kyfw.12306.cn/otn/resources/login.html')
chrome.maximize_window()
time.sleep(2)

chrome.find_element_by_xpath('/html/body/div[2]/div[2]/ul/li[2]/a').click()

# 通过id定位到input
username_tag = chrome.find_element_by_id('J-userName')
# 写入用户名
username_tag.send_keys('17683734889')

password_tag = chrome.find_element_by_id('J-password')
# 写入密码
password_tag.send_keys('zhu1213556247')

# 验证码处理:截图发个超级鹰
# 截图登录页面整张图
chrome.save_screenshot('./main.png')

# 只需要将验证码图片左下角和右上角的两点坐标获取到就可以定位到验证码的区域了
img_tag = chrome.find_element_by_xpath('//*[@id="J-loginImg"]')

location = img_tag.location # 当前标签在页面中左下角的坐标
size  = img_tag.size # 当前标签在页面中尺寸

# 裁剪的区
rangle = (int(location['x']),int(location['y']),int(location['x']+size['width']),int(location['y']+size['height']))

# 基于Image类提供的工具进行裁剪
i = Image.open('./main.png')
frame = i.crop(rangle)
frame.save('./code.png') # code.png就是验证码图片

# 识别验证码图片
result = transform_code_img('./code.png',9004) # 返回坐标(x1,y1|x2,y2)

# 需要将x1,y1,x2,y2,转化成[[x1,y1],[x2,y2]]
all_list = []#[[x1,y1],[x2,y2]]
if '|' in result:
    list_1 = result.split('|')
    count_1 = len(list_1)
    for i in range(count_1):
        xy_list = []
        x = int(list_1[i].split(',')[0])
        y = int(list_1[i].split(',')[1])
        xy_list.append(x)
        xy_list.append(y)
        all_list.append(xy_list)
else:
    x = int(result.split(',')[0])
    y = int(result.split(',')[1])
    xy_list = []
    xy_list.append(x)
    xy_list.append(y)
    all_list.append(xy_list)

for pos in all_list:
    x = pos[0]
    y = pos[1]
    # x, y 就是需要点击的一个坐标
    # move_to_element_with_offset表示先定位到某一个标签,然后在根据x,y坐标进行点击
    # perform 表示立即执行
    ActionChains(chrome).move_to_element_with_offset(img_tag,x,y).click().perform()
    time.sleep(1)

# # 点击登录按钮
chrome.find_element_by_id('J-login').click()

time.sleep(3)

# page_text = chrome.page_source
# page_text

Python的Numpy数组np.array()基本用法详解（二）苏雨流丰 Python30Days python 开发语言 numpy array
本节主要讲授array获取元素、转置、重塑等方法"""@Date:2022-01-21@Author:苏雨流丰@lang:Python@summary:访问、获取np.array的元素"""导入numpy包importnumpyasnp初始化工作np_34_list=[[1,3,5,7],[2,4,6,8],[1,2,5,6]]np_44_list=[[1,3,5,7],[2,4,6,8],[1,
python-git- GitHub 45度看我 github
python之git-GitHub一：github原文链接二：WhatisGitHub1>创建仓库2>创建分支3>提交修改4>发起PullRequest三：理解GitHub流四：创建你的GitHub主页1>setting-->“Commitchanges”按钮五：典型的项目1>社区（TheCommunity）2>文档（TheDocs）3>Issue创建一个问题单4>PullRequest六：Git
Python基础语法（二）：条件、循环与运算符算法工程师y python 开发语言
本篇Python基础语法（二）将深入讲解编程中至关重要的条件判断、循环结构和运算符，它们是实现复杂逻辑的基石。一、条件语句（if-elif-else）条件语句用于根据不同的条件执行不同的代码块。Python中用if、elif（elseif的缩写）和else实现。1.基本语法age=18ifage（大于）、大于10>5→True=大于等于5>=5→True3)and(2<4)→Trueor任一条件为
【python爬虫实战】——基于全国各城市快递网点的数据采集小L工程师 python爬虫实战爬虫网络爬虫 python selenium 开发语言数据分析数据可视化
一、项目背景随着电子商务的快速发展，快递行业成为了现代物流的重要组成部分。快递网点的分布和服务质量直接影响到用户的物流体验。为了更好地了解快递网点的分布情况、服务范围以及联系方式等信息，本项目通过爬虫技术从公开的快递信息网站上采集相关数据。‘>本文章中所有内容仅供学习交流使用，不用于其他任何目的，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者无关！二、项目目的和意义本项目的主要目的是通
前端缓存接口数据 jjjjjjjjj¢ 笔记前端
在前端缓存接口数据时，可以结合浏览器缓存策略、前端存储（localStorage、sessionStorage、IndexedDB）、内存缓存（变量存储）、ServiceWorker等方式，选择适合的方案。使用浏览器HTTP缓存（推荐，依赖后端支持）如果接口数据不会频繁变化，可以使用HTTP缓存策略（强缓存+协商缓存），减少不必要的请求。后端设置Cache-Control在接口响应头中，服务器可以
学习Web3.0需要具备哪些基础知识？ alankuo 人工智能人工智能
学习Web3.0需要具备以下基础知识：一、计算机科学基础1.编程知识-了解至少一种编程语言，如Python、JavaScript等。这将有助于理解Web3.0应用程序的开发和智能合约的编写。-熟悉编程概念，如变量、数据类型、控制结构、函数等。2.数据结构和算法-掌握常见的数据结构，如数组、链表、栈、队列、树、图等，以及它们的操作和应用。-了解基本的算法，如排序、搜索、递归等，以及它们的时间和空间复
PyTorch中，将`DataLoader`加载的数据高效传输到GPU 大霸王龙 pytorch 人工智能 python
一、数据加载到GPU的核心步骤数据预处理与张量转换若原始数据为NumPy数组或Python列表，需先转换为PyTorch张量：X_tensor=torch.from_numpy(X).float()#转换为浮点张量y_tensor=torch.from_numpy(y).long()#分类任务常用长整型显式指定设备：通过.to(device)将数据移至GPU（需提前定义device对象）：devi
cmd运行python脚本找不到包_命令行执行python模块时提示包找不到的问题 weixin_39788960
庄稼人不是专职python开发的道友，虽然与python相识已多年，可惜相识不相知，只是偶尔借助pydev写一些简单的小工具。多年来，一直困惑于这样一个问题：同样的工程，同样的代码，使用pydev可以运行任意一个python脚本，而使用命令行运行却不行？命令行下(或者双击执行)总是提示“ImportError:Nomodulenamedxxx”？pydev究竟做了什么魔术呢？长话短说，以上面工程为
Python报错：moduleNotFoundError:No module named ‘exceptions‘ 南浔Pyer 报错解决 Python编程
报错如下：使用pipinstalldocx安装模块docx后，发现不能正常使用，并报错：fromexceptionsimportPendingDeprecationWarningModuleNotFoundError:Nomodulenamed'exceptions'解决方法卸载原来安装的docxpipuninstalldocx安装python-docx模块即可pipinstallpython-d
Python如何设置工作目录飞起来fly呀 Python python 开发语言
在Python编程中，正确设置工作目录是文件系统操作的关键步骤之一。工作目录影响到相对路径的解析，确保程序能正确访问所需的文件和资源。为方便大家理解和使用，这里详细介绍如何在Python中利用os模块设置工作目录，并以此实现更灵活的文件操作。使用os模块设置工作目录Python的os模块提供了操作系统相关的功能，包括目录和文件操作。你可以用这个模块来更改当前的工作目录，以匹配你项目的需要。1.设置
【人工智能】【Python】在Scikit-Learn中使用决策树算法（ID3和CART） SmallBambooCode 机器学习人工智能 python 算法 scikit-learn 决策树机器学习 ai
importnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.treeimportDecisionTreeClassifier,plot_tree#加载数据集iris=load_iri
Python 3.14版本的彩蛋
使用3.14版本的Python创建一个虚拟环境，会看到在虚拟环境的bin目录中，不仅有python3、python3.14等常规文件，竟然还存在一个特殊的文件thon。/tmp/venv/bin$lltotal72...-rwxr-xr-x1useruser290BMar510:57pip3.14*lrwxr-xr-x1useruser10BMar510:57python@->python.exe
【Python】执行脚本的时，如何指定运行根目录，而不是指定脚本的父级目录 jwensh #Python python
author:jwensh&gptdate:2024.09.23python执行脚本的时，如何指定运行根目录，而不是指定脚本的父级目录prompt：python执行脚本的时候，如何指定他的运行根目录，而不是指定脚本的父级目录在执行Python脚本时，如果你想指定一个自定义的运行根目录，而不是默认的脚本所在目录，可以使用以下几种方式：1.通过os.chdir()修改当前工作目录在脚本中使用os.ch
python系列：解决：ModuleNotFoundError: No module named ‘exceptions’ 坦笑&&life #python python 开发语言
解决：ModuleNotFoundError:Nomodulenamed‘exceptions’解决：ModuleNotFoundError:Nomodulenamed‘exceptions’背景报错问题报错位置代码报错原因解决方法其他解决办法注意：此时有以下几种解决办法：1.升级代码或模块以支持Python3。2.如果你必须使用Python2，请确保你的代码或模块与Python2兼容。3.如果你
Spring Boot整合SA-Token的使用详解陈辰学长 spring boot 数据库后端
SpringBoot整合SA-Token的使用详解，涉及到SA-Token的基本介绍、整合步骤、配置、常用API以及实际使用场景等多个方面。以下将详细阐述这一过程，确保内容不少于2000字。一、SA-Token简介SA-Token是一个轻量级的Java权限认证框架，由国人开发，主要解决登录认证、权限认证、单点登录、OAuth2.0、分布式Session会话、微服务网关鉴权等一系列权限相关问题。SA
使用Python Flask构建Web应用程序代码快速拳 python flask 前端 Python
Flask是一个轻量级的PythonWeb框架，它提供了构建Web应用程序所需的基本功能。它简单易用，非常适合小型项目和原型开发。本文将介绍如何使用Flask构建一个简单的Web应用程序，并提供相应的源代码。首先，我们需要安装Flask。可以使用以下命令使用pip安装Flask：pipinstallflask一旦安装完成，我们就可以开始构建我们的Web应用程序了。首先，创建一个Python文件，命
2024年一文1800字从0到1使用Python Flask实战构建Web应用(1) 2401_84564025 程序员 python flask 前端
现在我也找了很多测试的朋友，做了一个分享技术的交流群，共享了很多我们收集的技术文档和视频教程。如果你不想再体验自学时找不到资源，没人解答问题，坚持几天便放弃的感受可以加入我们一起交流。而且还有很多在自动化，性能，安全，测试开发等等方面有一定建树的技术大牛分享他们的经验，还会分享很多直播讲座和技术沙龙可以免费学习！划重点！开源的！！！qq群号：110685036第三部分：运行Flask应用在app.
【python web】一文掌握 Flask 的基础用法数据知道 python 前端 flask
文章目录一、Flask介绍1.1安装Flask二、Flask的基本使用2.1创建第一个Flask应用2.2路由与视图函数2.3请求与响应2.4响应对象2.5模板渲染2.6模板继承2.7静态文件管理2.8Blueprint蓝图2.9错误处理三、Flask扩展与插件四、部署Flask应用五、总结Flask是一个轻量级的PythonWeb框架，因其简单易用、灵活性高而受到广泛欢迎。本文将全面介绍Flas
python绘制密度散点图龟速前进 anaconda 可视化 python
头大，外行人做个图咋这么难，趋势线还没有研究出来怎么加上去，哎importmatplotlib.pyplotaspltfromscipy.statsimportgaussian_kdefrommpl_toolkits.axes_grid1importmake_axes_locatableimportnumpyasnpimportpandasaspdfromdbfreadimportDBFdata=
python colorama_Python colorama 模块使用说明 weixin_39682697 python colorama
1Colorama模块说明在上篇博客我们了解了prettytable的使用,如下：https://www.cndba.cn/cndba/dave/article/3564使用prettytable模块之后，输出的内容格式看上去会非常整齐，但如果我们想要对部分内容重点显示，那么可以使用两种方法：1)直接使用Python控制输出颜色2)使用colorama模块Colorama是一个python专门用来
python colorama模块失效怎么办_python – 由于模块colorama,无法使用aws CLI 金牛远望号 python colorama模块失效怎么办
我已经安装了AWSCLI,并尝试在MacOSSierra上使用它.它抱怨没有模块colorama：$awsTraceback(mostrecentcalllast):File"/usr/local/bin/aws",line19,inimportawscli.clidriverFile"/Library/Python/2.7/site-packages/awscli/clidriver.py",l
数据可视化：python画散点图scatter 西红柿爱吃小番茄 python python 数据可视化 matplotlib
数据可视化：python画散点图scatter我想遍历一幅图的所有像素的h分量的值，然后用散点图表示出来。观察这幅图的h分量的值得变化范围。scatter函数的原型matplotlib.pyplot.scatter(x,y,s=20,c='b',marker='o',cmap=None,norm=None,vmin=None,vmax=None,linewidths=None,vert=None,
Python Colorama 库详解：终端输出美化的神器萧鼎 python基础到进阶教程 python
PythonColorama库详解：终端输出美化的神器在开发命令行工具或调试程序时，我们可能会希望通过颜色来区分重要信息，比如警告、错误、提示等。而Colorama是一个简单易用的Python库，可以帮助我们轻松地为终端输出添加颜色，提升用户体验。1.Colorama是什么？Colorama是一个Python库，用于在终端中实现跨平台的彩色文本输出。它主要提供以下功能：为文本添加前景色、背景色。控
Python之colorama PlutoZuo Python python 开发语言
Python之colorama文章目录Python之colorama1.安装Colorama库2.导入Colorama库3.初始化Colorama4.设置文本颜色和样式5.自定义颜色和样式Colorama是一个Python库，用于在控制台（终端）上输出彩色文本。它提供了一些方便的函数和类，用于在命令行界面中添加颜色和样式。以下是一些使用Colorama库的详细示例：1.安装Colorama库首先，
【AI】使用Python实现机器学习小项目教程丶2136 AI 人工智能 python 机器学习
引言在本教程中，我们将带领您使用Python编程语言实现一个经典的机器学习项目——鸢尾花（Iris）分类。通过这个项目，您将掌握机器学习的基本流程，包括数据加载、预处理、模型训练、评估和优化等步骤。论文AIGC检测，降AIGC检测，AI降重，三连私信免费获取：ReduceAIGC9折券！DetectAIGC立减2元券！AI降重9折券！目录引言一、项目背景与目标二、开发环境准备2.1所需工具2.2环
python进阶语法，函数的基本使用胡萝卜糊了 python java 服务器
#函数定义：#格式：def函数标识符（参数列表）：#定义无参函数defsay_hello():print("helloworld!")print("helloeveryone!")#定义有参函数defmymax(a,b):ifa>b:print("最大值是",a)else:print("最大值是",b)#函数调用#格式：函数名（实际参数列表）#函数调用时需要注意实参要和形参数量一致say_hell
请编写一个Python程序，实现WOA-CNN-BiLSTM鲸鱼算法优化卷积双向长短期记忆神经网络多输入单输出回归预测功能。 2301_81121233 算法神经网络 python mongodb storm zookeeper spark
实现一个基于鲸鱼优化算法（WOA）优化的卷积双向长短期记忆神经网络（CNN-BiLSTM）的多输入单输出回归预测功能是一个复杂的任务，涉及到多个步骤和组件。由于完整的实现会非常冗长，我将提供一个简化的框架和关键部分的代码示例，帮助你理解如何实现这个功能。请注意，这个示例不会包含所有细节，比如数据集的准备、鲸鱼优化算法的具体实现（WOA是一个元启发式算法，需要单独实现或引用现有库），以及CNN-Bi
Spark Sql 简单校验的实现小小小小小小小小小小码农 spark sql java
在网上参考了很多资料，都是要依赖Sparksession，这个需要spark环境，非常不友好，jdk版本也不好控制。不使用Sparksession获取上下文，利用spark和antlr的静态方法使用java实现简单的sparksql的语法以及内置函数的校验。1.spark版本3.2.0org.apache.sparkspark-sql_2.123.2.0org.antlrantlr4-runtim
Python软件和搭建运行环境办公小百知软件技术 python 开发语言
目录一、Python安装全流程（Windows/Mac/Linux）1.下载官方安装包2.详细安装步骤（以Windows为例）3.环境变量配置（Mac/Linux）二、虚拟环境管理（关键！）为什么需要虚拟环境？1.使用venv（Python内置）2.使用conda（推荐数据科学方向）三、开发工具推荐与配置1.IDE选择2.VSCode配置指南四、常见问题解决方案1.python命令无效？2.pip
python读取海康RGBD感知相机并解析图像数据我认为可以！ python 开发语言相机
python读取海康RGBD感知相机情景：相机：MV-EB435i海康提供的C++SDK比较完善，但是python的比较粗糙，给的demo只能得到他自己定义的数据帧需求：基于海康提供的pythonSDK，进一步开发读取RGB和Depth图，并转换成后续任务需要的numpy数组形式相机分析：可以使用HiViewer先调试相机，确认相机读取RGBD没问题：下载地址这些参数可以跟着相机的指南挑一挑，调到
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu

request库xpath,bs4数据解析selenium模拟登录

requests模块

bs4 解析

xpath解析

xpath小案例

cookie处理

代理操作:

验证码识别:

selenium捕获动态加载数据

使用selenium模拟登录 https://kyfw.12306.cn/otn/resources/login.html

你可能感兴趣的:(python爬虫,python,xpath,session,selenium)