冰履踏青云

requests模块的使用详解

文章目录

为什么要重点学习requests模块，而不是urllib
requests模块发送简单的get请求、获取响应
使用requests保存图片
发送带header的请求
url 带参数的两种请求方式
使用requests发送POST请求
代理ip的使用
cookie的使用
cookirJar的处理方法
处理证书错误
超时参数的使用
retrying模块的使用

为什么要重点学习requests模块，而不是urllib

requests的底层实现就是urllib
requests在python2 和python3中通用，方法完全一样
requests简单易用
Requests能够自动帮助我们解压(gzip压缩的等)响应内容

requests模块发送简单的get请求、获取响应

requests的作用就是发送网络请求，返回响应数据，那么现在
有一个简单的需求：通过requests向百度首页发送请求，获取百度首页的数据
示例：

import requests 
# 目标url
url = 'https://www.baidu.com' 
# 向目标url发送get请求
response = requests.get(url)
# 打印响应内容
print(response.text)

常用属性演示：


import requests

# 确定url
url = "https://www.baidu.com/"

#  使用requests发送get请求,获取响应
res = requests.get(url)
# res.encoding = res.apparent_encoding
print(res)  #   200代表状态码
# print(res.text)  # 返回响应文本,str字符串类型
# response.text： requests库会自动找编码
# print(res.encoding)  # requests库认为的编码方式 ISO-8859-1

# print(res.content)  # 返回响应源码，bytes类型
# print(res.content.decode('utf-8'))  # 把响应的bytes源码转为str类型

# print(res.status_code)  # 当前请求的响应码

# print(res.request.headers)  # 查看请求的请求头

# print(res.headers)  # 查看响应头

# print(res.request.cookies)  # 查看请求的cookie

# print(res.cookies) # 查看响应的cookies

注意：如果response.text有乱码解决办法:

response.content.decode()
response.content.decode(‘gbk’)
response.content.decode(‘unicode_escape’)

使用requests保存图片

首先找到图片的url地址
发送get请求，获取响应源码(response.content)
用二进制写入的方式打开文件,写入图片的响应源码
程序示例：

import requests

# 确定url
url = 'https://www.baidu.com/img/bd_logo1.png'

# 发送请求获取响应
response = requests.get(url)

with open('baidu.png', 'wb')as f:
    f.write(response.content)

发送带header的请求

为什么请求需要带上header？
因为网站往往都会检测请求头的User-Agent，如果ua不合法，可能会获取不到响应。所以加请求头的目的就是模拟浏览器，欺骗服务器，获取和浏览器一致的内容。当然，有的时候甚至不止需要传User-Agent一个参数，还需要其他的参数像Referer,Cookie等等

header的形式：字典

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

用法
requests.get(url, headers=headers)

代码示例：

import requests
url = 'https://www.baidu.com'
headers = {
	"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36"
}
# 在请求头中带上User-Agent，模拟浏览器发送请求
response = requests.get(url, headers=headers) 
print(response.content)

url 带参数的两种请求方式

目标url = 'https://www.baidu.com/s?wd=python’

# 方式一：直接发送带参数的url的请求
import requests
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
url = 'https://www.baidu.com/s?wd=python'
# kw = {'wd': 'python'}
# url中包含了请求参数，所以此时无需params
response = requests.get(url, headers=headers)
print(response.content)

# 方式二：利用params参数发送带参数的请求
import requests
headers = {
	"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36"
}
# 最后有没有问号结果都一样
url = 'https://www.baidu.com/s?' 
# 请求参数是一个字典 即wd=python
kw = {'wd': 'python'} 
# 带上请求参数发起请求，获取响应
response = requests.get(url, headers=headers, params=kw) 
# 当有多个请求参数时，requests接收的params参数为多个键值对的字典，比如 '?wd=python&a=c'-->{'wd': 'python', 'a': 'c'}
print(response.content)

使用requests发送POST请求

那么哪些地方我们会用到POST请求？

1.登录注册（ POST 比 GET 更安全）
2.需要传输大文本内容的时候（ POST 请求对数据长度没有要求）
所以同样的，我们的爬虫也需要在这两个地方模拟浏览器发送post请求

用法：

 response = requests.post("http://www.baidu.com/", \
  data = data,headers=headers)

data 的形式：字典

以百度翻译为例：
1.抓包确定请求的url地址

2.确定请求的参数

3.发送请求，获取响应

代码示例：

import requests

# 确定请求的url地址
url = "https://fanyi.baidu.com/langdetect"

#  构造表单
data = {
    "query": 'I am fine'
}
#  表单数据是放在请求体中的

#  发送请求，获取响应
response = requests.post(url, data=data)

#  打印响应的内容
print(response.text)

代理ip的使用

为什么要使用代理？
为了让服务器以为不是同一个客户端在请求，防止我们的真实地址被泄露，防止被追究
过程：

正向代理和反向代理

正向代理：给客户端做代理，隐藏客户端的ip地址，让服务器不知道客户端的真实ip地址

反向代理: 给服务器做代理，隐藏服务器的真实ip地址，同时可以实现负载均衡，处理静态文件请求等作用,比如nginx

代理IP的分类
根据代理ip的匿名程度，代理IP主要可以分为下面三类：

1.透明代理(Transparent Proxy)：透明代理虽然可以直接“隐藏”你的IP地址，但是还是可以查到你是谁。
2.匿名代理(Anonymous Proxy)：使用匿名代理，别人只能知道你用了代理，无法知道你是谁。
3.高匿代理(Elite proxy或High Anonymity Proxy)：高匿代理让别人根本无法发现你是在用代理，所以是最好的选择。

在使用的时候，毫无疑问使用高匿代理效果最好

从请求使用的协议可以分为：

http代理
https代理
socket代理等
不同分类的代理，在使用的时候需要根据抓取网站的协议来选择。

来这里分享几个代理获取的好地方；

http://ip.kxdaili.com/ 开心代理
https://proxy.mimvp.com/free.php 米扑代理
http://www.xiladaili.com/ 西拉免费代理IP
http://ip.jiangxianli.com/ 免费代理IP库
http://www.superfastip.com/ 极速代理
https://proxy.mimvp.com/free.php 米扑代理
http://www.shenjidaili.com/open/ 神鸡代理IP
http://31f.cn/http-proxy/ 三一代理
http://www.feiyiproxy.com/?page_id=1457 飞蚁代理
http://ip.zdaye.com/dayProxy/2019/4/1.html 站大爷
http://www.66ip.cn 66免费代理网
https://www.kuaidaili.com/free/inha 快代理
https://www.xicidaili.com 西刺
http://www.ip3366.net/free/?stype=1 云代理
http://www.iphai.com/free/ng IP海
http://www.goubanjia.com/ 全网代理
http://www.89ip.cn/index.html 89免费代理
http://www.qydaili.com/free/?action=china&page=3 旗云代理

可以找免费代理，也可以找付费代理，最好用高匿名的，响应时间短的

使用示例：

import requests

#  代理的使用

url = "https://www.baidu.com"

proxy = {
    'http': "125.108.108.165:9000"
}

response = requests.get(url, proxies=proxy)

print(response.text)

代理IP使用的注意点
反反爬使用代理ip是非常必要的一种反反爬的方式，但是即使使用了代理ip，对方服务器任然会有很多的方式来检测我们是否是一个爬虫，比如：一段时间内，检测IP访问的频率，访问太多频繁会屏蔽；检查Cookie，User-Agent，Referer等header参数，若没有则屏蔽；服务方购买所有代理提供商，加入到反爬虫数据库里，若检测是代理则屏蔽等。所以更好的方式在使用代理ip的时候使用随机的方式进行选择使用，不要每次都用一个代理ip

代理ip池的更新
购买的代理ip很多时候大部分(超过60%)可能都没办法使用，这个时候就需要通过程序去检测哪些可用，把不能用的删除掉。

cookie的使用

为了能够通过爬虫获取到登录后的页面，或者是解决通过cookie的反扒，需要使用request来处理cookie相关的请求

爬虫中使用cookie的利弊

带上cookie的好处:
1.能够访问登录后的页面
2.0能够实现部分反反爬

带上cookie的坏处:

一套cookie往往对应的是一个用户的信息，请求太频繁有更大的可能性被对方识别为爬虫
如何解决 ?使用多个账号

requests处理cookie的方法
使用requests处理cookie有三种方法：
以登陆人人网 http://www.renren.com/PLogin.do 为例：
1.cookie字符串放在headers中

import requests

#  使用cookie来实现模拟登陆

url = "http://www.renren.com/972035912/newsfeed/photo"
#  这里是登陆以后的url

headers = {
    "cookie的name":"cookie的value"
}

# 在请求头中定义登陆后的cookie,代入到请求中
response = requests.get(url, headers=headers)

print(response.text)

2.把cookie字典放传给请求方法的cookies参数接收

cookie_dict = {"cookie的name":"cookie的value"} # 登陆后的cookies,同上
requests.get(url,headers=headers,cookies=cookie_dict}

3.使用requests提供的session模块

import requests

url = "http://www.renren.com/PLogin.do"

#  构造formdata，填写自己的账号和密码
data = {
    "email": "xxxxx",
    "password": "xxxxx"
}


#  session的使用: 在请求之前创建session对象
session = requests.Session()

#  后续的请求都由session来发起,因为session中保存了用户的登陆信息
session.post(url, data=data)

response = session.get("http://www.renren.com/972035912/newsfeed/photo")
#  使用session请求登陆后的界面
print(response.text)

cookirJar的处理方法

使用request获取的resposne对象，具有cookies属性，能够获取对方服务器设置在本地的cookie，但是如何使用这些cookie呢？

response.cookies是CookieJar类型
使用requests.utils.dict_from_cookiejar，能够实现把cookiejar对象转化为字典

示例：

import requests
from requests.utils import dict_from_cookiejar, cookiejar_from_dict

url = "http://www.baidu.com"

response = requests.get(url)

dict_cokie = dict_from_cookiejar(response.cookies)
print(dict_cokie) # {'BDORZ': '27315'}

print(cookiejar_from_dict(dict_cokie)) # ]>

处理证书错误

请看以下代码：

import requests

url = "https://mip.tutumanhua.com/"

r = requests.get(url)

print(r.content.decode())

运行后出现这个问题的原因是：ssl的证书不安全导致。

解决办法：
如果碰到了SSLError,就在请求中添加verify=False
如下：

import requests

url = "https://mip.tutumanhua.com/"

r = requests.get(url, verify=False)

print(r.content.decode())

超时参数的使用

在爬虫中，一个请求很久没有结果，就会让整个项目的效率变得非常低，这个时候我们就需要对请求进行强制要求，让他必须在特定的时间内返回结果，否则就报错。
使用方法如下：

response = requests.get(url,timeout=3)
 #  请求如果在规定时间之内(3秒钟内)没有得到响应，就会抛出超时错误

通过添加timeout参数，能够保证在规定时间之内返回响应，否则会报错。

注意：
这个方法还能够拿来检测代理ip的质量，如果一个代理ip在很长时间没有响应，那么添加超时之后也会报错，对应的这个ip就可以从代理ip池中删除。

retrying模块的使用

使用超时参数能够加快我们整体的请求速度，但是在正常的网页浏览过成功，如果发生速度很慢的情况，我们会做的选择是刷新页面，那么在代码中，我们是否也可以刷新请求呢？当然可以，retrying模块就可以帮助我们解决。

使用retrying模块提供的retry模块，通过装饰器的方式使用，让被装饰的函数反复执行
retry中可以传入参数stop_max_attempt_number,让函数报错后继续重新执行，达到最大执行次数的上限，如果每次都报错，整个函数报错，如果中间有一个成功，程序继续往后执行。
程序示例：

import requests
from retrying import retry


#  如果函数连续调用三次都报错，才会报错,如果三次之中有一次成功，就成功
@retry(stop_max_attempt_number=3)
def get_response(url):
    response = requests.get(url, timeout=2)
    return response
s = get_response("https://www.baidu.com")
print(s.content.decode())

小练习：retrying和requests的简单封装
实现一个发送请求的函数，每次爬虫中直接调用该函数即可实现发送请求，在其中
使用timeout实现超时报错，使用retrying模块实现重试

import requests
from retrying import retry


#最大重试3次，3次全部报错，才会报错
@retry(stop_max_attempt_number=3) 
def _parse_url(url)
    #超时的时候回报错并重试
    response = requests.get(url,timeout=3) 
    #状态码不是200，也会报错并重试
    assert response.status_code == 200
    return response


def parse_url(url)
    try: #进行异常捕获
        response = _parse_url(url)
    except Exception as e:
        print(e)
        #报错返回None
        response = None
    return response

如何提升爬虫获取数据的准确性？小爬虫程序猿爬虫
提升爬虫获取数据的准确性是确保数据分析和后续应用有效性的关键。以下是一些经过验证的方法和最佳实践，可以帮助提高爬虫数据的准确性：1.数据清洗数据清洗是提升数据准确性的重要步骤，主要包括去除重复数据、处理缺失值和异常值。去除重复数据：重复数据会影响分析结果的准确性，可以通过pandas库的drop_duplicates()方法删除重复数据。importpandasaspddf=pd.DataFram
同城组局旅游组局搭子论坛系统狂团商城小师妹博纳miui52086 微信小程序小程序微信公众平台
同城组局旅游组局搭子论坛系统，作为一款集旅游组局、社交互动与信息服务于一体的综合性平台，其组局系统实现了无限开启的灵活性与便捷性，为用户提供了前所未有的组局体验。该系统基于先进的TP6框架与Mysql8数据库，并融入了Redis高并发架构，确保了在高流量、高并发场景下的稳定运行与快速响应。这一技术选型不仅提升了系统的整体性能，更为用户带来了流畅无阻的使用感受。在功能性方面，该系统展现出了极高的实用
中建海龙科技住博会展现装配式建筑4.0新风貌 qingqingcloud 科技
6月27日，第二十一届中国国际住宅产业暨建筑工业化产品博览会在京盛大开幕，以“好房子、好生活、新科技、新动能”为核心，汇聚了智能建造、智慧家居等领域的最新成果。中建海龙科技作为行业领军者，亮相展会，引领装配式建筑4.0时代新风尚。展会现场，中建海龙科技精心打造模块化“好房子”全流程客户服务体验区，人们仿佛置身于汽车4S店，直观感受从房屋设计、生产、装配到售后的全程服务，体验前所未有的便捷性。住房和
PHP爬虫：获取直播间弹幕数据实战指南 Jason-河山 PHP php 爬虫开发语言
在数字化时代，直播间弹幕作为观众与主播互动的重要方式，其数据的获取与分析对于理解观众行为、优化直播内容具有重要意义。然而，由于技术限制和法律合规性要求，直接获取直播间弹幕数据并非易事。本文将介绍如何使用PHP爬虫技术，合法合规地获取直播间弹幕API返回值，并进行实战分析。1.环境准备与法律合规性在开始之前，确保您的开发环境中已安装PHP和必要的cURL扩展。同时，必须确保您的爬虫行为遵守相关法律法
差分数组的使用邂逅you 算法练习算法
这个问题要求我们通过杨学长的超能力来在一条马路上种树，并计算最终种树的总长度。每次杨学长的超能力作用会覆盖一个区间，我们需要计算最终种树的总长度。问题分析给定一个马路长度为n，有m次操作，每次操作会让某个区间[l,r]种上树。我们的任务是求出所有操作后，马路上最终种树的总长度（即被种树的区域的长度）。思路直接模拟每次操作：我们可以用一个布尔数组tree[n]来记录马路上每个位置是否被种树。每次操作
sql语句order by与limit的使用邂逅you SQL语句与MySQL数据库 sql 数据库
一、orderby简介ORDERBY关键字用于对结果集进行「排序」。1、orderby的作用ORDERBY关键字可以使查询返回的「结果集」按照指定的列进行排序，可以按照某「一列」排序或者同时按照「多列」进行排序，排序的顺序可以是「升序」或者「降序」。2、语法格式selectcolumn_name,column_namefromtable_nameorderbycolumn_nameasc|desc
d2-crud-plus 使用小技巧（八）—— 分页旁边添加功能按钮（添加批量删除按钮） xuelong-ming d2-crud-plus 前端
需求在分页模块左边添加一个批量删除按钮，取消表格左上方的批量删除按钮。逻辑效果代码...
连锁企业管理系统助力企业精准定位市场，提升竞争力连锁企业管理系统连锁经营连锁企业管理系统连锁管理
在当今竞争激烈的商业环境中，连锁企业面临着前所未有的挑战。如何在瞬息万变的市场中精准定位，提升竞争力，成为每个连锁企业管理者亟待解决的问题。而连锁企业管理系统的出现，为企业提供了一把打开成功之门的钥匙。一、连锁企业管理系统：企业管理的利器连锁企业管理系统是一套集成了多种功能模块的信息化管理系统，它能够帮助企业实现总部与各门店之间的信息共享、业务协同和统一管理，从而提升运营效率，降低运营成本。二、连
ssm051网上医院预约挂号系统(文档+源码)_kaic 开心毕设汽车开发语言 javascript vue.js java
摘要如今的信息时代，对信息的共享性，信息的流通性有着较高要求，因此传统管理方式就不适合。为了让医院预约挂号信息的管理模式进行升级，也为了更好的维护医院预约挂号信息，网上医院预约挂号系统的开发运用就显得很有必要。并且通过开发网上医院预约挂号系统，不仅可以让所学的SSM框架得到实际运用，也可以掌握MySQL的使用方法，对自身编程能力也有一个检验和提升的过程。尤其是通过实践，可以对系统的开发流程加深印象
ssm051网上医院预约挂号系统(文档+源码)_kaic 开心工作室计算机文章毕业设计 java 开发语言汽车
摘要如今的信息时代，对信息的共享性，信息的流通性有着较高要求，因此传统管理方式就不适合。为了让医院预约挂号信息的管理模式进行升级，也为了更好的维护医院预约挂号信息，网上医院预约挂号系统的开发运用就显得很有必要。并且通过开发网上医院预约挂号系统，不仅可以让所学的SSM框架得到实际运用，也可以掌握MySQL的使用方法，对自身编程能力也有一个检验和提升的过程。尤其是通过实践，可以对系统的开发流程加深印象
树莓派通过手机热点，无线连接PC端电脑，进行远程操作 Epiphany_ZZW 树莓派智能手机
树莓派通过手机热点实现无线连接具有以下几点优势：1.该方式能够联网，方便在项目开发时下载一些数据包。2.该方式能够通过手机端查看树莓派IP地址(有些情况树莓派ip地址会发生改变)借鉴链接如下：树莓派的使用网线及无线连接方法及手机连接树莓派_opencv镜像具体操作方式如下：打开终端：pi@raspberrypi:~$sudonano/etc/wpa_supplicant/wpa_supplican
Python-OAuth2 教程房耿园Hartley
Python-OAuth2教程项目地址:https://gitcode.com/gh_mirrors/pyt/python-oauth21.项目目录结构及介绍在python-oauth2项目中，目录结构通常包括以下几个部分：src/:主要代码存放的地方，包含了OAuth2的核心模块和实现。tests/:测试用例，用于确保代码的功能正确性。docs/:文档目录，包含项目的README和其他相关说明。
mysql8.0使用PXC实现高可用（Rocky8.0环境）致奋斗的我们 openEuler Linux 云原生高级 oracle 数据库 mysql linux openEurler adb Rocky8.0
目录搭建PXC集群配置hosts解析用MySQL软件模块的命令（三台都需要）下载PXC安装包启用PXC80版本安装PXC集群初始化数据库第一个节点需要以引导模式启动：查看临时密码修改密码免密登录查询集群信息查看证书修改证书查询集群信息同步状态监控节点2,3无需修改密码节点下线搭建PXC集群PerconaXtraDBCluster(简称PXC)集群是基于Galera2.xlibrary，事务型应用下
Node.js RESTful API 大哥的打嗝 Node.js restful node.js json
RESTfulAPI是一种构建网络应用程序的架构风格，它遵循REST(RepresentationalStateTransfer)架构原则。在RESTfulAPI中，我们使用HTTP协议的标准方法（如GET、POST、PUT、DELETE）来操作资源。在Node.js中，我们可以使用Express框架来构建RESTfulAPI。首先，我们需要安装express模块，在终端执行npminstalle
Py-imaplib读取163邮箱侃看网Ayong python python 开发语言
Py-imaplib读取163邮箱引入包#-*-coding:utf-8-*-importosimportemailimportimaplibimportquopriimportdatetimeimportrequestsimportjsonimporttimeimporthmacimporthashlibimportbase64importurllib.parsefromoptparseimpo
Ruoyi-Radius详解靖节先生基础框架网络协议 java
Ruoyi-Radius详解一、模块功能架构核心目标：实现基于RADIUS协议的AAA（认证、授权、计费）服务，与若依管理系统无缝集成，复用其用户体系与权限模型。功能细分：认证（Authentication）：校验用户凭证（用户名/密码）合法性。授权（Authorization）：动态返回用户网络权限属性（如VLAN、IP池、带宽策略）。计费（Accounting）：记录用户会话时长、流量消耗等计
Redis数据类型有哪些头孢头孢零散面试相关的总结 redis 哈希算法数据库
Redis底层数据类型及其实现原理详细解析Redis提供了多种底层数据类型，每种类型都基于不同的数据结构实现，适用于不同的应用场景。理解这些底层实现和它们的使用方式对于优化Redis性能至关重要。以下是Redis中常用的底层数据类型的详细介绍，包括底层实现原理以及一些常用的Java代码示例。1.字符串（String）1.1数据类型描述Redis中的字符串（String）是最基本的数据类型，它可以存
【python】用IMAP获取电子邮件胡亥 python入门与自动化操作 python ssl https
大家好，我是胡亥大魔王。今天介绍python中用IMAP获取电子邮件前面讲过了SMTP是用来发送邮件的协议，于此相对应的取回发送到你电子邮件地址的电子邮件也有一个协议，即因特网消息访问协议（IMAP）。python自带了一个imaplib模块，但实际上第三方的imapclient模块更好用，本文主要介绍如何使用IMAPClient，完整的文档在https://imapclient.readthed
豆瓣电影TOP250爬虫项目诚信爱国敬业友善爬虫爬虫 python
以下是一个基于Python的豆瓣电影TOP250爬虫项目案例，包含完整的技术原理说明、关键知识点解析和项目源代码。本案例采用面向对象编程思想，涵盖反爬机制处理、数据解析和存储等核心内容。豆瓣电影TOP250爬虫项目一、项目需求分析目标网站：https://movie.douban.com/top250爬取内容：电影名称导演和主演信息上映年份制片国家电影类型评分评价人数短评金句技术挑战：请求头验证分
探索远程睡眠控制新境界：Sleep-On-LAN 史姿若Muriel
探索远程睡眠控制新境界：Sleep-On-LANsleep-on-lanMulti-platformprocessallowingtosleeponLANalinuxorwindowscomputer,throughwake-on-lan(reversed)magicpacketsorthroughHTTPRESTrequests.项目地址:https://gitcode.com/gh_mirro
Node.js RESTful API 框架温宝沫Morgan
推荐项目：Node.jsRESTfulAPI框架去发现同类优质开源项目:https://gitcode.com/项目简介是一个用于构建RESTfulAPI的轻量级Node.js框架。它提供了一种简单易用的方式，让你能够快速地创建、管理和部署RESTful服务。功能与用途易于使用：该框架采用了直观且易于理解的设计模式，使得开发人员可以轻松上手。模块化设计：基于Mongoose模型进行操作，可方便地实
Python 爬虫中的异常处理数据小爬虫@ python 爬虫 php
在Python中，异常处理通常使用try-except语句块来实现。你可以捕获特定的异常类型，也可以捕获通用异常。1.捕获特定异常针对常见的网络请求异常和解析异常，可以捕获具体的异常类型，例如requests.exceptions.RequestException、AttributeError等。示例代码：importrequestsfrombs4importBeautifulSoupdeffet
Python 爬虫中的解析方法数据小爬虫@ python 爬虫开发语言
1.使用BeautifulSoup解析HTML如果商品描述是通过HTML页面获取的，可以使用BeautifulSoup库来解析HTML内容。示例代码：importrequestsfrombs4importBeautifulSoupdefget_product_description(url):headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win6
Python爬虫：如何优雅地“偷窥”商品详情数据小爬虫@ API python 爬虫开发语言
在这个信息爆炸的时代，获取商品详情已经不再是简单的点击和浏览。我们需要的是速度、效率，还有一点点的...偷偷摸摸。没错，今天我们要聊的是如何使用Python爬虫来“偷窥”商品详情。别担心，我们保证一切都是合法合规的，就像在百货商场里试穿衣服一样，只是看看，不买账。一、爬虫的“伪装术”在开始我们的“偷窥”之旅前，我们需要给我们的爬虫穿上一件“隐身衣”。这是因为许多网站都有反爬虫机制，比如检查你的Us
MAC 系统关闭屏幕/睡眠后被唤醒 Wake Requests chenzhuo997 macos
问题；查看wake日志pmset-glog|grep"WakeRequests"为WakeRequests[*process=dasdrequest=SleepService...info="com.apple.alarm.user-invisible-com.apple.calaccessd...电源设置命令参考：pmset-gsched//查看定时事件sudopmsetschedulecanc
分享一些处理复杂HTML结构的经验数据小爬虫@ html 前端
在处理复杂HTML结构时，尤其是使用Java爬虫和Jsoup进行数据抓取时，以下是一些实用的经验和技巧，可以帮助你更高效地解析和提取数据：1.缩小解析范围对于复杂的HTML结构，尽量缩小解析范围，只解析所需的元素。使用CSS选择器来定位所需的元素，而不是对整个文档进行解析。2.使用Jsoup的选择器功能Jsoup提供了强大的选择器功能，可以用来处理嵌套的DOM元素。例如，你可以使用select方法
zemax光学设计坐标断点怎么使用？光学设计培训光学设计光学光学工程计算机视觉数码相机
在Zemax光学设计中，坐标断点（CoordinateBreaks）的使用涉及多个方面，包括理解坐标系、插入坐标断点、设置参数以及注意事项等。以下是对Zemax光学设计坐标断点使用的详细解释：一、理解Zemax坐标系Zemax使用的是右手坐标系，其中：大拇指方向代表Z轴；四指指向代表Y轴；四指弯曲指向手心方向代表X轴正向。在序列模式下，每个表面都是参考其前面的表面顶点坐标系，每个表面的厚度决定下一
Nginx 中启用 Gzip 压缩以优化网页加载速度神秘泣男子 Linux高级管理 #运维 nginx 优化
作者主页：点击！Nginx-从零开始的服务器之旅专栏：点击！Linux高级管理防护和群集专栏：点击！⏰️创作时间：2025年2月7日17点14分目录1.配置网页压缩目的操作步骤检查gzip模块是否启用测试步骤1.gzipon;2.gzip_types3.gzip_min_length4.gzip_comp_level总结启用Gzip压缩是一种简单高效的优化方法，可以显著减少网页传输的数据量，从而提
MySQL玩转指南：探秘Server层组件及权限校验实践苹果苹果开花吧 Java mysql 数据库 mysql 数据库后端 java
本文将带你揭开MySQLServer层的神秘面纱，逐一剖析连接器、查询缓存、分析器、优化器、执行器等关键组件的功能和作用。同时，还将重点介绍这些组件在权限校验方面的精彩表现。首先来看一下这张思维导图，对本文内容有个直观的认识。接下来进入正文。MySQLSQL语句执行流程示意图：从中你可以清楚地看到SQL语句在MySQL的各个功能模块中的执行过程。大体来说，MySQL可以分为Server层和存储引擎
CSS动画与变形玲玲酱 #CSS3 前端 html5 css3
CSS动画-Animations由于该技术的规范还没有稳定，在使用前要先确保浏览器对其兼容性。Animations是css3的一个模块，使用keyframes定义如何随着时间的移动改变CSS的属性值，可以通过指定它们的持续时间，重复次数，如何重复来控制关键帧的行为。Animations由两部分组成：css动画的配置，以及一系列的keyframes（用来描述动画的开始、过程、结束状态）。不需要了解任
枚举的构造函数中抛出异常会怎样 bylijinnan java enum 单例
首先从使用enum实现单例说起。为什么要用enum来实现单例？这篇文章（ http://javarevisited.blogspot.sg/2012/07/why-enum-singleton-are-better-in-java.html）阐述了三个理由： 1.enum单例简单、容易，只需几行代码： public enum Singleton { INSTANCE;
CMake 教程 aigo C++
转自：http://xiang.lf.blog.163.com/blog/static/127733322201481114456136/ CMake是一个跨平台的程序构建工具，比如起自己编写Makefile方便很多。介绍：http://baike.baidu.com/view/1126160.htm 本文件不介绍CMake的基本语法，下面是篇不错的入门教程： http:
cvc-complex-type.2.3: Element 'beans' cannot have character Cb123456 spring Webgis
cvc-complex-type.2.3: Element 'beans' cannot have character Line 33 in XML document from ServletContext resource [/WEB-INF/backend-servlet.xml] is i
jquery实例:随页面滚动条滚动而自动加载内容 120153216 jquery
<script language="javascript"> $(function (){ var i = 4;$(window).bind("scroll", function (event){ //滚动条到网页头部的高度，兼容ie,ff,chrome var top = document.documentElement.s
将数据库中的数据转换成dbs文件何必如此 sql dbs
旗正规则引擎通过数据库配置器（DataBuilder）来管理数据库，无论是Oracle，还是其他主流的数据都支持，操作方式是一样的。旗正规则引擎的数据库配置器是用于编辑数据库结构信息以及管理数据库表数据，并且可以执行SQL 语句，主要功能如下。 1)数据库生成表结构信息：主要生成数据库配置文件(.conf文
在IBATIS中配置SQL语句的IN方式 357029540 ibatis
在使用IBATIS进行SQL语句配置查询时，我们一定会遇到通过IN查询的地方，在使用IN查询时我们可以有两种方式进行配置参数：String和List。具体使用方式如下： 1.String:定义一个String的参数userIds，把这个参数传入IBATIS的sql配置文件，sql语句就可以这样写： <select id="getForms" param
Spring3 MVC 笔记（一） 7454103 spring mvc bean REST JSF
自从 MVC 这个概念提出来之后 struts1.X struts2.X jsf 。。。。。这个view 层的技术一个接一个！都用过！不敢说哪个绝对的强悍！要看业务，和整体的设计！最近公司要求开发个新系统！
Timer与Spring Quartz 定时执行程序 darkranger spring bean 工作 quartz
有时候需要定时触发某一项任务。其实在jdk1.3，java sdk就通过java.util.Timer提供相应的功能。一个简单的例子说明如何使用，很简单： 1、第一步，我们需要建立一项任务，我们的任务需要继承java.util.TimerTask package com.test; import java.text.SimpleDateFormat; import java.util.Date;
大端小端转换，le32_to_cpu 和cpu_to_le32 aijuans C语言相关
大端小端转换，le32_to_cpu 和cpu_to_le32 字节序 http://oss.org.cn/kernel-book/ldd3/ch11s04.html 小心不要假设字节序. PC 存储多字节值是低字节为先(小端为先, 因此是小端), 一些高级的平台以另一种方式(大端)
Nginx负载均衡配置实例详解 avords
[导读] 负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡，单从字面上的意思来理解就可以解负载均衡是我们大流量网站要做的一个东西，下面我来给大家介绍在Nginx服务器上进行负载均衡配置方法，希望对有需要的同学有所帮助哦。负载均衡先来简单了解一下什么是负载均衡
乱说的 houxinyou 框架敏捷开发软件测试
从很久以前，大家就研究框架，开发方法，软件工程，好多！反正我是搞不明白！这两天看好多人研究敏捷模型，瀑布模型！也没太搞明白. 不过感觉和程序开发语言差不多，瀑布就是顺序，敏捷就是循环. 瀑布就是需求、分析、设计、编码、测试一步一步走下来。而敏捷就是按摸块或者说迭代做个循环，第个循环中也一样是需求、分析、设计、编码、测试一步一步走下来。也可以把软件开发理
欣赏的价值——一个小故事 bijian1013 有效辅导欣赏欣赏的价值
　　第一次参加家长会，幼儿园的老师说："您的儿子有多动症，在板凳上连三分钟都坐不了，你最好带他去医院看一看。"　　回家的路上，儿子问她老师都说了些什么，她鼻子一酸，差点流下泪来。因为全班30位小朋友，惟有他表现最差；惟有对他，老师表现出不屑，然而她还在告诉她的儿子："老师表扬你了，说宝宝原来在板凳上坐不了一分钟，现在能坐三分钟。其他妈妈都非常羡慕妈妈，因为全班只有宝宝
包冲突问题的解决方法 bingyingao eclipse maven exclusions 包冲突
包冲突是开发过程中很常见的问题：其表现有： 1.明明在eclipse中能够索引到某个类，运行时却报出找不到类。 2.明明在eclipse中能够索引到某个类的方法，运行时却报出找不到方法。 3.类及方法都有，以正确编译成了.class文件，在本机跑的好好的，发到测试或者正式环境就抛如下异常： java.lang.NoClassDefFoundError: Could not in
【Spark七十五】Spark Streaming整合Flume-NG三之接入log4j bit1129 Stream
先来一段废话：实际工作中，业务系统的日志基本上是使用Log4j写入到日志文件中的，问题的关键之处在于业务日志的格式混乱，这给对日志文件中的日志进行统计分析带来了极大的困难，或者说，基本上无法进行分析，每个人写日志的习惯不同，导致日志行的格式五花八门，最后只能通过grep来查找特定的关键词缩小范围，但是在集群环境下，每个机器去grep一遍，分析一遍，这个效率如何可想之二，大好光阴都浪费在这上面了
sudoku solver in Haskell bookjovi sudoku haskell
这几天没太多的事做，想着用函数式语言来写点实用的程序，像fib和prime之类的就不想提了（就一行代码的事），写什么程序呢？在网上闲逛时发现sudoku游戏，sudoku十几年前就知道了，学生生涯时也想过用C/Java来实现个智能求解，但到最后往往没写成，主要是用C/Java写的话会很麻烦。现在写程序，本人总是有一种思维惯性，总是想把程序写的更紧凑，更精致，代码行数最少，所以现
java apache ftpClient bro_feng java
最近使用apache的ftpclient插件实现ftp下载，遇见几个问题，做如下总结。 1. 上传阻塞，一连串的上传，其中一个就阻塞了，或是用storeFile上传时返回false。查了点资料，说是FTP有主动模式和被动模式。将传出模式修改为被动模式ftp.enterLocalPassiveMode();然后就好了。看了网上相关介绍，对主动模式和被动模式区别还是比较的模糊，不太了解被动模
读《研磨设计模式》-代码笔记-工厂方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 工厂方法模式：使一个类的实例化延迟到子类 * 某次，我在工作不知不觉中就用到了工厂方法模式（称为模板方法模式更恰当。2012-10-29）： * 有很多不同的产品，它
面试记录语 chenyu19891124 招聘
或许真的在一个平台上成长成什么样，都必须靠自己去努力。有了好的平台让自己展示，就该好好努力。今天是自己单独一次去面试别人，感觉有点小紧张，说话有点打结。在面试完后写面试情况表，下笔真的好难，尤其是要对面试人的情况说明真的好难。今天面试的是自己同事的同事，现在的这个同事要离职了，介绍了我现在这位同事以前的同事来面试。今天这位求职者面试的是配置管理，期初看了简历觉得应该很适合做配置管理，但是今天面
Fire Workflow 1.0正式版终于发布了 comsci 工作 workflow Google
Fire Workflow 是国内另外一款开源工作流，作者是著名的非也同志，哈哈.... 官方网站是 http://www.fireflow.org 经过大家努力,Fire Workflow 1.0正式版终于发布了正式版主要变化: 1、增加IWorkItem.jumpToEx(...)方法，取消了当前环节和目标环节必须在同一条执行线的限制，使得自由流更加自由 2、增加IT
Python向脚本传参 daizj python 脚本传参
如果想对python脚本传参数，python中对应的argc, argv(c语言的命令行参数)是什么呢？需要模块：sys 参数个数：len(sys.argv) 脚本名： sys.argv[0] 参数1： sys.argv[1] 参数2： sys.argv[
管理用户分组的命令gpasswd dongwei_6688 passwd
NAME： gpasswd - administer the /etc/group file SYNOPSIS： gpasswd group gpasswd -a user group gpasswd -d user group gpasswd -R group gpasswd -r group gpasswd [-A user,...] [-M user,...] g
郝斌老师数据结构课程笔记 dcj3sjt126com 数据结构与算法
<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
yii2 cgridview加上选择框进行操作 dcj3sjt126com GridView
页面代码 <?=Html::beginForm(['controller/bulk'],'post');?> <?=Html::dropDownList('action','',[''=>'Mark selected as: ','c'=>'Confirmed','nc'=>'No Confirmed'],['class'=>'dropdown',])
linux mysql fypop linux
enquiry mysql version in centos linux yum list installed | grep mysql yum -y remove mysql-libs.x86_64 enquiry mysql version in yum repositoryyum list | grep mysql oryum -y list mysql* install mysq
Scramble String hcx2013 String
Given a string s1, we may represent it as a binary tree by partitioning it to two non-empty substrings recursively. Below is one possible representation of s1 = "great":
跟我学Shiro目录贴 jinnianshilongnian 跟我学shiro
历经三个月左右时间，《跟我学Shiro》系列教程已经完结，暂时没有需要补充的内容，因此生成PDF版供大家下载。最近项目比较紧，没有时间解答一些疑问，暂时无法回复一些问题，很抱歉，不过可以加群（334194438/348194195）一起讨论问题。 ----广告-----------------------------------------------------
nginx日志切割并使用flume-ng收集日志 liyonghui160com
nginx的日志文件没有rotate功能。如果你不处理，日志文件将变得越来越大，还好我们可以写一个nginx日志切割脚本来自动切割日志文件。第一步就是重命名日志文件，不用担心重命名后nginx找不到日志文件而丢失日志。在你未重新打开原名字的日志文件前，nginx还是会向你重命名的文件写日志，linux是靠文件描述符而不是文件名定位文件。第二步向nginx主
Oracle死锁解决方法 pda158 oracle
　select p.spid,c.object_name,b.session_id,b.oracle_username,b.os_user_name from v$process p,v$session a, v$locked_object b,all_objects c where p.addr=a.paddr and a.process=b.process and c.object_id=b.
java之List排序 shiguanghui list排序
在Java Collection Framework中定义的List实现有Vector，ArrayList和LinkedList。这些集合提供了对对象组的索引访问。他们提供了元素的添加与删除支持。然而，它们并没有内置的元素排序支持。　　你能够使用java.util.Collections类中的sort()方法对List元素进行排序。你既可以给方法传递
servlet单例多线程 utopialxw 单例多线程 servlet
转自http://www.cnblogs.com/yjhrem/articles/3160864.html 和 http://blog.chinaunix.net/uid-7374279-id-3687149.html Servlet 单例多线程 Servlet如何处理多个请求访问？Servlet容器默认是采用单实例多线程的方式处理多个请求的：1.当web服务器启动的