酒酿小小丸子

全网最全！Python爬虫requests库教程(附案例)

1.requests 库简介

Requests 是一个为人类设计的简单而优雅的 HTTP 库。requests 库是一个原生的 HTTP 库，比 urllib3 库更为容易使用。requests 库发送原生的 HTTP 1.1 请求，无需手动为 URL 添加查询串，也不需要对 POST 数据进行表单编码。相对于 urllib3 库， requests 库拥有完全自动化 Keep-alive 和 HTTP 连接池的功能。requests 库包含的特性如下。

❖ 1Keep-Alive & 连接池

❖ 国际化域名和 URL

❖ 带持久 Cookie 的会话

❖ 浏览器式的 SSL 认证

❖ 自动内容解码

❖ 基本 / 摘要式的身份认证

❖ 优雅的 key/value Cookie

❖ 自动解压

❖ Unicode 响应体

❖ HTTP(S) 代理支持

❖ 文件分块上传

❖ 流下载

❖ 连接超时

❖ 分块请求

❖ 支持 .netrc

1.1 Requests 的安装

pip install requests

1.2 Requests 基本使用

代码 1-1: 发送一个 get 请求并查看返回结果

import requests  
url = 'http://www.tipdm.com/tipdm/index.html' # 生成get请求  
rqg = requests.get(url)  
# 查看结果类型  
print('查看结果类型：', type(rqg))  
# 查看状态码  
print('状态码：',rqg.status_code)  
# 查看编码  
print('编码 ：',rqg.encoding)  
# 查看响应头  
print('响应头：',rqg.headers)  
# 打印查看网页内容  
print('查看网页内容：',rqg.text)

查看结果类型：<class ’requests.models.Response’>  
状态码：200  
编码 ：ISO-8859-1  
响应头：{’Date’: ’Mon, 18 Nov 2019 04:45:49 GMT’, ’Server’: ’Apache-Coyote/1.1’, ’  
Accept-Ranges’: ’bytes’, ’ETag’: ’W/"15693-1562553126764"’, ’Last-Modified’: ’  
Mon, 08 Jul 2019 02:32:06 GMT’, ’Content-Type’: ’text/html’, ’Content-Length’: ’  
15693’, ’Keep-Alive’: ’timeout=5, max=100’, ’Connection’: ’Keep-Alive’}

1.3 Request 基本请求方式

你可以通过 requests 库发送所有的http请求：

requests.get("http://httpbin.org/get") #GET请求  
requests.post("http://httpbin.org/post") #POST请求  
requests.put("http://httpbin.org/put") #PUT请求  
requests.delete("http://httpbin.org/delete") #DELETE请求  
requests.head("http://httpbin.org/get") #HEAD请求  
requests.options("http://httpbin.org/get") #OPTIONS请求

2.使用Request发送GET请求

HTTP中最常见的请求之一就是GET 请求，下面首先来详细了解一下利用requests构建GET请求的方法。

GET 参数说明：get(url, params=None, **kwargs):

❖ URL: 待请求的网址

❖ params ：（可选）字典，列表为请求的查询字符串发送的元组或字节

❖ **kwargs: 可变长关键字参数

首先，构建一个最简单的 GET 请求，请求的链接为 http://httpbin.org/get ，该网站会判断如果客户端发起的是 GET 请求的话，它返回相应的请求信息，如下就是利用 requests构建一个GET请求

import requests  
r = requests.get(http://httpbin.org/get)  
print(r.text)  
{  
"args": {},  
"headers": {  
"Accept": "*/*",  
"Accept-Encoding": "gzip, deflate",  
"Host": "httpbin.org",  
"User-Agent": "python-requests/2.24.0",  
"X-Amzn-Trace-Id": "Root=1-5fb5b166-571d31047bda880d1ec6c311"  
},  
"origin": "36.44.144.134",  
"url": "http://httpbin.org/get"  
}

可以发现，我们成功发起了 GET 请求，返回结果中包含请求头、URL 、IP 等信息。那么，对于 GET 请求，如果要附加额外的信息，一般怎样添加呢？

2.1 发送带 headers 的请求

首先我们尝试请求知乎的首页信息

import requests  
response = requests.get(’https://www.zhihu.com/explore’)  
print(f"当前请求的响应状态码为：{response.status_code}")  
print(response.text)

当前请求的响应状态码为：400

400 Bad Request

openresty

这里发现响应的状态码为 400 ，说明我们请求失败了，因为知乎已经发现了我们是一个爬虫，因此需要对浏览器进行伪装，添加对应的 UA 信息。

import requests  
headers = {"user-agent": ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit  
/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36’}  
response = requests.get(’https://www.zhihu.com/explore’, headers=headers)  
print(f"当前请求的响应状态码为：{response.status_code}")  
# print(response.text)

当前请求的响应状态码为：200

…

这里我们加入了 headers 信息，其中包含了 User-Agent 字段信息，也就是浏览器标识信息。很明显我们伪装成功了！这种伪装浏览器的方法是最简单的反反爬措施之一。

GET 参数说明：携带请求头发送请求的方法

requests.get(url, headers=headers)

-headers 参数接收字典形式的请求头

-请求头字段名作为 key ，字段对应的值作为 value

练习

请求百度的首页 https://www.baidu.com , 要求携带 headers, 并打印请求的头信息 !

解

import requests  
url = 'https://www.baidu.com'  
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit  
/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}  
# 在请求头中带上User-Agent，模拟浏览器发送请求  
response = requests.get(url, headers=headers)  
print(response.content)  
# 打印请求头信息  
print(response.request.headers)

2.2 发送带参数的请求

我们在使用百度搜索的时候经常发现 url 地址中会有一个 ‘?‘ ，那么该问号后边的就是请求参数，又叫做查询字符串!

通常情况下我们不会只访问基础网页，特别是爬取动态网页时我们需要传递不同的参数获取不同的内容；GET 传递参数有两种方法，可以直接在链接中添加参数或者利用 params 添加参数。

2.2.1 在 url 携带参数

直接对含有参数的url发起请求

import requests  
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit  
/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}  
url = ’https://www.baidu.com/s?wd=python’  
response = requests.get(url, headers=headers)

2.2.2 通过 params 携带参数字典

1.构建请求参数字典

2.向接口发送请求的时候带上参数字典，参数字典设置给 params

import requests  
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit  
/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}  
# 这是目标url  
# url = ’https://www.baidu.com/s?wd=python’  
# 最后有没有问号结果都一样  
url = ’https://www.baidu.com/s?’  
# 请求参数是一个字典 即wd=python  
kw = {’wd’: ’python’}  
# 带上请求参数发起请求，获取响应  
response = requests.get(url, headers=headers, params=kw)  
print(response.content)

通过运行结果可以判断，请求的链接自动被构造成了：

http://httpbin.org/get?key2=value2&key1=value1 。

另外，网页的返回类型实际上是str类型，但是它很特殊，是 JSON格式的。所以，如果想直接解析返回结果，得到一个字典格式的话，可以直接调用json() 方法。示例如下：

import requests  
r = requests.get("http://httpbin.org/get")  
print( type(r.text))  
print(r.json())  
print( type(r. json()))

< class ’str’ >

{ ’args’ : {}, ’headers’ : { ’Accept’ : ’*/*’ , ’Accept-Encoding’ : ’gzip, deflate’ , ’Host’’httpbin.org’ , ’User-Agent’ : ’python-requests/2.24.0’ , ’X-Amzn-Trace-Id’ : ’Root=1-5fb5b3f9-13f7c2192936ec541bf97841’ }, ’origin’ : ’36.44.144.134’ , ’url’ : ’http://httpbin.org/get’ }

< class ’dict’ >

可以发现，调用 json() 方法，就可以将返回结果是JSON格式的字符串转化为字典。但需要注意的是，如果返回结果不是 JSON 格式，便会出现解析错误，抛出 json.decoder.JSONDecodeError异常。

补充内容，接收字典字符串都会被自动编码发送到 url ，如下：

import requests  
headers = {’User-Agent’: ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit  
/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Safari/537.36’}  
wd = ’张三同学’  
pn = 1  
response = requests.get(’https://www.baidu.com/s’, params={’wd’: wd, ’pn’: pn},  
headers=headers)  
print(response.url)

# 输出为：https://www.baidu.com/s?wd=%E9%9B%A8%E9%9C%93%E5%90%8
C%E5%AD%A6&pn=1

# 可见 url 已被自动编码

上面代码相当于如下代码，params编码转换本质上是用urlencode

import requests  
from urllib.parse import urlencode  
headers = {’User-Agent’: ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit  
/537.36 (KHTML, like Gecko)  
wd = ’张三同学’  
encode_res = urlencode({’k’: wd}, encoding=’utf-8’)  
keyword = encode_res.split(’=’)[1]  
print(keyword)  
# 然后拼接成url  
url = ’https://www.baidu.com/s?wd=%s&pn=1’ % keyword  
response = requests.get(url, headers=headers)  
print(response.url)

# 输出为：https://www.baidu.com/s?wd=%E9%9B%A8%E9%9C%93%E5
%90%8C%E5%AD%A6&pn=1

2.3 使用 GET 请求抓取网页

上面的请求链接返回的是 JSON 形式的字符串，那么如果请求普通的网页，则肯定能获得相应的内容了!

import requests  
import re  
headers = {"user-agent": ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit  
/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36’}  
response = requests.get(’https://www.zhihu.com/explore’, headers=headers)  
result = re.findall("(ExploreSpecialCard-contentTitle|ExploreRoundtableCard  
questionTitle).*?>(.*?)</a>", response.text)  
print([i[1] for i in result])

[ ’ 西安回民街有什么好吃的？’ , ’ 西安有哪些值得逛的宝藏店铺？’ , ’ 西安哪些商圈承载着你的青春？’ , ’ 你有哪些好的驾驶习惯可以分享？’ , ’ 有哪些只有经验丰富的司机才知道的驾驶技巧？’ , ’ 有车的注意了，这些开车知识每个人都要掌握，关键时刻能救命 ’ , ’ 欢迎着陆！知乎宇宙成员招募通告’ , ’ 星球登陆问题：给你十块钱穿越到未来，怎样才能混得风生水起？’ , ’ 星球登陆问题：知乎宇宙中的「超能量」你最希望拥有哪一种？你会如何使用它？’ , ’ 挪威三文鱼，原产地至关重要 ’ , ’ 挪威最吸引人的地方有哪些？’ , ’ 生活在挪威是一种什么体验？’ , ’ 如何看待京东方 AMOLED 柔性屏量产？未来前景如何？’ , ’ 柔性屏能不能给手机行业带来革命性的影响？’ , ’ 什么是超薄可弯曲柔性电池？会对智能手机的续航产生重大影响吗？’ , ’ 美术零基础怎样才能学好美术，在艺考中取得高分？’ , ’ 清华美院被鄙视吗 ?’ , ’ 艺术生真的很差吗？’ , ’ 人应该怎样过这一生？’ , ’ 人的一生到底该追求什么？’ , ’ 人类知道世界的终极真理后会疯掉吗?’ , ’ 焦虑是因为自己能力不够吗？’ , ’ 社交恐惧症是怎样的一种体验？’ , ’ “忙起来你就没时间抑郁了”这句话有理么？’ ]

这里我们加入了 headers 信息，其中包含了 User-Agent 字段信息，也就是浏览器标识信息。如果不加这个，知乎会禁止抓取。

抓取二进制数据在上面的例子中，我们抓取的是知乎的一个页面，实际上它返回的是一个 HTML 文档。

如果想抓去图片、音频、视频等文件，应该怎么办呢？图片、音频、视频这些文件本质上都是由二进制码组成的，由于有特定的保存格式和对应的解析方式，我们才可以看到这些形形色色的多媒体。

所以，想要抓取它们，就要拿到它们的二进制码。下面以 GitHub的站点图标为例来看一下：

import requests  
response = requests.get("https://github.com/favicon.ico")  
with  
open(’github.ico’, ’wb’) as f:  
f.write(response.content)

Response对象的两个属性，一个是 text, 另一个是 content. 其中前者表示字符串类型文本，后者表示 bytes 类型数据 , 同样地，音频和视频文件也可以用这种方法获取。

2.4 在Headers参数中携带cookie

网站经常利用请求头中的 Cookie 字段来做用户访问状态的保持，那么我们可以在 headers 参数中添加 Cookie ，模拟普通用户的请求。

2.4.1 Cookies 的获取

为了能够通过爬虫获取到登录后的页面，或者是解决通过 cookie 的反爬，需要使用 request 来处理 cookie 相关的请求：

import requests  
url = ’https://www.baidu.com’  
req = requests.get(url)  
print(req.cookies)  
# 响应的cookies  
for key, value in req.cookies.items():  
print(f"{key} = {value}")

BDORZ = 27315

这里我们首先调用 cookies 属性即可成功得到 Cookies ，可以发现它是 RequestCookieJar 类型。然后用 items() 方法将其转化为元组组成的列表，遍历输出每一个 Cookie 的名称和值，实现 Cookie 的遍历解析。

2.4.2 携带 Cookies 登录

带上 cookie 、 session 的好处：能够请求到登录之后的页面。

带上 cookie 、 session 的弊端：一套 cookie 和 session 往往和一个用户对应请求太快，请求次数太多，容易被服务器识别为爬虫。

不需要 cookie 的时候尽量不去使用 cookie 但是为了获取登录之后的页面, 我们必须发送带有 cookies 的请求我们可以直接用 Cookie 来维持登录状态 , 下面以知乎为例来说明。首先登录知乎，将 Headers 中的 Cookie 内容复制下来。

➢ 从浏览器中复制 User-Agent 和 Cookie

➢ 浏览器中的请求头字段和值与 headers 参数中必须一致

➢ headers 请求参数字典中的 Cookie 键对应的值是字符串

import requests  
import re  
# 构造请求头字典  
headers = {  
# 从浏览器中复制过来的User-Agent  
"user-agent": ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (  
KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36’,  
# 从浏览器中复制过来的Cookie  
"cookie": ’xxx这里是复制过来的cookie字符串’}  
# 请求头参数字典中携带cookie字符串  
response = requests.get(’https://www.zhihu.com/creator’, headers=headers)  
data = re.findall(’CreatorHomeAnalyticsDataItem-title.*?>(.*?)</div>’,response.text)  
print(response.status_code)  
print(data)

当我们不携带 Cookies 进行请求时：

import requests  
import re  
headers = {"user-agent": ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit  
/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36’}  
response = requests.get(’https://www.zhihu.com/creator’, headers=headers)  
data = re.findall(’CreatorHomeAnalyticsDataItem-title.*?>(.*?)</div>’,response.text)  
print(response.status_code)  
print(data)

200

[]

在打印的输出结果中为空 , 两者对比 , 则成功利用 headers 参数携带 cookie ，获取登陆后才能访问的页面!

2.4.3 cookies 参数的使用

上一小节我们在headers参数中携带cookie ，也可以使用专门的cookies参数。

❖ 1. cookies 参数的形式：字典

cookies = “cookie 的 name”:“cookie 的 value”

➢ 该字典对应请求头中 Cookie 字符串，以分号、空格分割每一对字典键值对

➢ 等号左边的是一个 cookie 的 name ，对应 cookies 字典的 key

➢ 等号右边对应 cookies 字典的 value

❖ 2.cookies 参数的使用方法

response = requests.get(url, cookies)

❖ 3. 将 cookie 字符串转换为 cookies 参数所需的字典：

cookies_dict = { cookie . split ( ’=’ ) [ 0 ]: cookie . split ( ’=’ ) [- 1 ] for cookie in

cookies_str . split ( ’; ’ ) }

❖ 4. 注意：cookie 一般是有过期时间的，一旦过期需要重新获取

response = requests.get(url, cookies)  
import requests  
import re  
url = ’https://www.zhihu.com/creator’  
cookies_str = ’复制的cookies’  
headers = {"user-agent": ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit  
/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36’}  
cookies_dict = {cookie.split(’=’, 1)[0]:cookie.split(’=’, 1)[-1] for cookie in  
cookies_str.split(’; ’)}  
# 请求头参数字典中携带cookie字符串  
resp = requests.get(url, headers=headers, cookies=cookies_dict)  
data = re.findall(’CreatorHomeAnalyticsDataItem-title.*?>(.*?)</div>’,resp.text)  
print(resp.status_code)  
print(data)

200

[ ’python 中该怎么把这种 id 不同但是 class 相同的方法写成一个整合呀？’ , ’ 父母没有能力给我买电脑的钱，我该怎么办？’ , ’ 一句话形容一下你现在的生活状态？’ ]

2.4.4 构造RequestsCookieJar对象进行cookies设置

在这里我们还可以通过构造 RequestsCookieJar 对象进行 cookies 设置 , 示例代码如下:

import requests  
import re  
url = ’https://www.zhihu.com/creator’  
cookies_str = ’复制的cookies’  
headers = {"user-agent": ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit  
/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36’}  
jar = requests.cookies.RequestsCookieJar()  
for cookie in cookies_str.split(’;’):  
key,value = cookie.split(’=’,1)  
jar. set(key,value)  
# 请求头参数字典中携带cookie字符串  
resp = requests.get(url, headers=headers, cookies=jar)  
data = re.findall(’CreatorHomeAnalyticsDataItem-title.*?>(.*?)</div>’,resp.text)  
print(resp.status_code)  
print(data)

200

这里我们首先新建了一个RequestCookieJar对象，然后将复制下来的cookies利用split() 方法分剖，接着利用 set()方法设置好每个Cookie的key和value，然后通过调用 requests的get()方法并传递给cookies参数即可。

当然，由于知乎本身的限制， headers参数也不能少，只不过不需要在原来的 headers 参数里面设置 cookie 字段了。测试后，发现同样可以正常登录知乎。

2.4.5 cookieJar 对象转换为 cookies 字典的方法

使用 requests 获取的 resposne 对象，具有 cookies 属性。该属性值是一个 cookieJar 类型，包含了对方服务器设置在本地的 cookie 。我们如何将其转换为 cookies 字典呢？

❖ 1. 转换方法

cookies_dict = requests.utils.dict_from_cookiejar(response.cookies)

❖ 2. 其中 response.cookies 返回的就是 cookieJar 类型的对象

❖ 3. requests.utils.dict_from_cookiejar 函数返回 cookies 字典

import requests  
import re  
url = 'https://www.zhihu.com/creator'  
cookies_str = '复制的cookies'  
headers = {"user-agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit  
/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'}  
cookie_dict = {cookie.split('=', 1)[0]:cookie.split('=', 1)[-1] for cookie in  
cookies_str.split('; ')}  
# 请求头参数字典中携带cookie字符串  
resp = requests.get(url, headers=headers, cookies=cookies_dict)  
data = re.findall('CreatorHomeAnalyticsDataItem-title.*?>(.*?)

',resp.text)  
print(resp.status_code)  
print(data)  
# 可以把一个字典转化为一个requests.cookies.RequestsCookieJar对象  
cookiejar = requests.utils.cookiejar_from_dict(cookie_dict, cookiejar=None,  
overwrite=True)  
type(cookiejar) # requests.cookies.RequestsCookieJar  
type(resp.cookies) # requests.cookies.RequestsCookieJar  
#构造RequestsCookieJar对象进行cookies设置其中jar的类型也是 requests.cookies.  
RequestsCookieJar  
#cookiejar转字典  
requests.utils.dict_from_cookiejar(cookiejar)

2.5 Timeout 设置

在平时网上冲浪的过程中，我们经常会遇到网络波动，这个时候，一个请求等了很久可能任然没有结果。

在爬虫中，一个请求很久没有结果，就会让整个项目的效率变得非常低，这个时候我们就需要对请求进行强制要求，让他必须在特定的时间内返回结果，否则就报错。

❖ 1. 超时参数 timeout 的使用方法

response = requests.get(url, timeout=3)

❖ 2. timeout=3 表示：发送请求后， 3 秒钟内返回响应，否则就抛出异常

url = ‘http://www.tipdm.com/tipdm/index.html’

#设置超时时间为2

print(‘超时时间为2:’,requests.get(url,timeout=2))

超时时间过短将会报错

requests.get(url,timeout = 0.1) #备注时间为0.001

超时时间为 2:

3.使用Request发送POST请求

思考：哪些地方我们会用到POST请求？

1.登录注册（在 web 工程师看来 POST 比 GET 更安全， url 地址中不会暴露用户的账号密码等信息）

2.需要传输大文本内容的时候（ POST 请求对数据长度没有要求）

所以同样的，我们的爬虫也需要在这两个地方回去模拟浏览器发送 post 请求其实发送 POST 请求与 GET 方式很相似，只是参数的传递我们需要定义在 data 中即可：

POST参数说明：

post(url, data=None, json=None, **kwargs):

❖ URL: 待请求的网址

❖ data ：( 可选 ) 字典，元组列表，字节或类似文件的对象，以在 Request 的正文中发送

❖ json: ( 可选 )JSON 数据，发送到 Request 类的主体中。

❖ **kwargs: 可变长关键字参数

import requests  
payload = {’key1’: ’value1’, ’key2’: ’value2’}  
req = requests.post("http://httpbin.org/post", data=payload)  
print(req.text)

3.1 POST发送JSON数据

很多时候你想要发送的数据并非编码为表单形式的 , 发现特别在爬取很多java网址中出现这个问题。如果你传递一个 string而不是一个dict ，那么数据会被直接发布出去。我们可以使用json.dumps()是将 dict 转化成str格式 ; 此处除了可以自行对dict进行编码，你还可以使用json参数直接传递，然后它就会被自动编码。

import json  
import requests  
url = ’http://httpbin.org/post’  
payload = {’some’: ’data’}  
req1 = requests.post(url, data=json.dumps(payload))  
req2 = requests.post(url, json=payload)  
print(req1.text)  
print(req2.text)

可以发现，我们成功获得了返回结果，其中 form 部分就是提交的数据，这就证明 POST 请求成功发送了。

笔记

requests 模块发送请求有 data 、 json 、 params 三种携带参数的方法。

params 在 get 请求中使用， data 、 json 在 post 请求中使用。

data 可以接收的参数为：字典，字符串，字节，文件对象。

❖ 使用 json 参数，不管报文是 str 类型，还是 dict 类型，如果不指定 headers 中 content-type 的

类型，默认是：application/json 。

❖ 使用 data 参数，报文是 dict 类型，如果不指定 headers 中 content-type 的类型，默认 application/x

www-form-urlencoded ，相当于普通 form 表单提交的形式，会将表单内的数据转换成键值对，此时数据可以从 request.POST 里面获取，而 request.body 的内容则为 a=1&b=2 的这种键值对形式。

❖ 使用 data 参数，报文是 str 类型，如果不指定 headers 中 content-type 的类型，默认 application/json。

用 data 参数提交数据时， request.body 的内容则为 a=1&b=2 的这种形式，

用 json 参数提交数据时， request.body 的内容则为 ’“a”: 1, “b”: 2’ 的这种形式

3.2 POST 上传文件

如果我们要使用爬虫上传文件，可以使用 fifile 参数：

url = 'http://httpbin.org/post'  
files = {'file': open('test.xlsx', 'rb')}  
req = requests.post(url, files=files)  
req.text

如果有熟悉 WEB 开发的伙伴应该知道，如果你发送一个非常大的文件作为 multipart/form data 请求，你可能希望将请求做成数据流。默认下 requests 不支持 , 你可以使用 requests-toolbelt 三方库。

3.3 使用 POST 请求抓取网页

主要是找到待解析的网页

import requests  
# 准备翻译的数据  
kw =  
input("请输入要翻译的词语：")  
ps = {"kw": kw}  
# 准备伪造请求  
headers = {  
# User-Agent：首字母大写，表示请求的身份信息；一般直接使用浏览器的身份信息，伪造  
爬虫请求  
# 让浏览器认为这个请求是由浏览器发起的[隐藏爬虫的信息]  
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (  
KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36 Edg/85.0.564.41"  
}  
# 发送POST请求，附带要翻译的表单数据--以字典的方式进行传递  
response = requests.post("https://fanyi.baidu.com/sug", data=ps)  
# 打印返回的数据  
# print(response.content)  
print(response.content.decode("unicode_escape"))

4.Requests进阶(1)*Session会话维持

在这一部分主要介绍关于 Session 会话维持，以及代理 IP 的使用。

在requests中，如果直接利用get()或post()等方法的确可以做到模拟网页的请求，但是这实际上是相当于不同的会话，也就是说相当于你用了两个浏览器打开了不同的页面。

设想这样一个场景，第一个请求利用post() 方法登录了某个网站，第二次想获取成功登录后的自己的个人信息，你又用了一次get()方法去请求个人信息页面。实际上，这相当于打开了两个浏览器，这是两个完全不相关的会话，能成功获取个人信息吗？那当然不能。

有小伙伴可能说了，我在两次请求时设置一样的cookies不就行了？可以，但这样做起来显得很烦琐，我们有更简单的解决方法。

其实解决这个问题的主要方法就是维持同一个会话，也就是相当于打开一个新的浏览器选项卡而不是新开一个浏览器。但是我又不想每次设置cookies，那该怎么办呢？这时候就有了新的利器一Session对象。

利用它，我们可以方便地维护一个会话，而且不用担心 cookies 的问题，它会帮我们自动处理好。

requests模块中的Session类能够自动处理发送请求获取响应过程中产生的cookie，进而达到状态保持的目的。接下来我们就来学习它。

4.1 requests.session 的作用以及应用场景

❖ requests.session 的作用

自动处理 cookie ，即下一次请求会带上前一次的 cookie

❖ requests.session 的应用场景

自动处理连续的多次请求过程中产生的cookie

4.2 requests.session 使用方法

session 实例在请求了一个网站后，对方服务器设置在本地的 cookie 会保存在 session 中，下一次再使用 session 请求对方服务器的时候，会带上前一次的 cookie。

session = requests . session () # 实例化 session 对象

response = session . get ( url , headers , …)

response = session . post ( url , data , …)

session 对象发送 get 或 post 请求的参数，与 requests 模块发送请求的参数完全一致。

4.3 使用Session维持github登录信息

❖ 对 github 登陆以及访问登陆后才能访问的页面的整个完成过程进行抓包

❖ 确定登陆请求的 url 地址、请求方法和所需的请求参数

-部分请求参数在别的 url 对应的响应内容中，可以使用 re 模块获取

❖ 确定登陆后才能访问的页面的的 url 地址和请求方法

❖ 利用 requests.session 完成代码

import requests  
import re  
# 构造请求头字典  
headers = {  
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (  
KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36',}  
# 实例化session对象  
session = requests.session()  
# 访问登陆页获取登陆请求所需参数  
response = session.get(https://github.com/login, headers=headers)  
authenticity_token = re.search('name="authenticity_token" value="(.*?)" />',  
response.text).group(1) # 使用正则获取登陆请求所需参数  
# 构造登陆请求参数字典  
data = {  
'commit': 'Sign in', # 固定值  
'utf8': ' ', # 固定值  
'authenticity_token': authenticity_token, # 该参数在登陆页的响应内容中  
'login':  
input('输入github账号：'),  
'password':  
input('输入github账号：')}  
# 发送登陆请求（无需关注本次请求的响应）  
session.post(https://github.com/session, headers=headers, data=data)  
# 打印需要登陆后才能访问的页面  
response = session.get(https://github.com/settings/profile, headers=headers)  
print(response.text)

可以使用文本对比工具进行校对 !

5.Requests进阶(2)*代理的使用

对于某些网站，在测试的时候请求几次，能正常获取内容。但是一旦开始大规模爬取，对于大规模且频繁的请求，网站可能会弹出验证码，或者跳转到登录认证页面，更甚者可能会直接封禁客户端的 IP ，导致一定时间段内无法访问。

那么，为了防止这种情况发生，我们需要设置代理来解决这个问题，这就需要用到 proxies 参数。可以用这样的方式设置：

proxy代理参数通过指定代理ip ，让代理ip对应的正向代理服务器转发我们发送的请求，那么我们首先来了解一下代理ip以及代理服务器。

5.1 使用代理的过程

1.代理 ip 是一个 ip ，指向的是一个代理服务器

2.代理服务器能够帮我们向目标服务器转发请求

5.2 正向代理和反向代理

前边提到 proxy 参数指定的代理 ip 指向的是正向的代理服务器，那么相应的就有反向服务器；现在来了解一下正向代理服务器和反向代理服务器的区别。

❖ 从发送请求的一方的角度，来区分正向或反向代理

❖ 为浏览器或客户端（发送请求的一方）转发请求的，叫做正向代理

-浏览器知道最终处理请求的服务器的真实 ip 地址，例如 VPN

❖ 不为浏览器或客户端（发送请求的一方）转发请求、而是为最终处理请求的服务器转发请求的，叫做反向代理

-浏览器不知道服务器的真实地址，例如nginx。

5.3 代理 ip(代理服务器）的分类

❖ 根据代理 ip 的匿名程度，代理 IP 可以分为下面三类：

➢ 透明代理 (Transparent Proxy) ：透明代理虽然可以直接“隐藏”你的 IP 地址，但是还是可以查到你是谁。

目标服务器接收到的请求头如下：

REMOTE_ADDR = Proxy IP

HTTP_VIA = Proxy IP

HTTP_X_FORWARDED_FOR = Your IP

➢ 匿名代理 (Anonymous Proxy) ：使用匿名代理，别人只能知道你用了代理，无法知道你是谁。

目标服务器接收到的请求头如下：

REMOTE_ADDR = proxy IP

HTTP_VIA = proxy IP

HTTP_X_FORWARDED_FOR = proxy IP

➢ 高匿代理 (Elite proxy 或 High Anonymity Proxy) ：高匿代理让别人根本无法发现你是在用代理，所以是最好的选择。** 毫无疑问使用高匿代理效果最好 ** 。

目标服务器接收到的请求头如下：

REMOTE_ADDR = Proxy IP

HTTP_VIA = not determined

HTTP_X_FORWARDED_FOR = not determined

❖ 根据网站所使用的协议不同，需要使用相应协议的代理服务。

从代理服务请求使用的协议可以分为：

➢ http 代理：目标 url 为 http 协议

➢ https 代理：目标 url 为 https 协议

➢ socks 隧道代理（例如 socks5 代理）等：

✾ 1. socks 代理只是简单地传递数据包，不关心是何种应用协议（ FTP 、 HTTP 和HTTPS 等）。

✾ 2. socks 代理比 http 、 https 代理耗时少。

✾ 3. socks 代理可以转发 http 和 https 的请求

5.4 proxies 代理参数的使用

为了让服务器以为不是同一个客户端在请求；为了防止频繁向一个域名发送请求被封 ip ，所以我们需要使用代理 ip ；那么我们接下来要学习 requests 模块是如何使用代理 ip 的基本用法。

response = requests . get ( url , proxies = proxies )  
proxies 的形式：字典  
proxies = {  
" http ": " http :// 12.34.56.79: 9527 ",  
" https ": " https :// 12.34.56.79: 9527 ",  
}

注意：如果 proxies 字典中包含有多个键值对，发送请求时将按照 url 地址的协议来选择使用相应的代理ip

import requests  
proxies = {  
"http": "http://124.236.111.11:80",  
"https": "https:183.220.145.3:8080"}  
req = requests.get(’http://www.baidu.com’,proxies =proxies)  
req.status_code

6.Requests进阶(3)*SSL证书验证

此外， requests还提供了证书验证的功能。当发送HTTP请求的时候，它会检查SSL证书，我们可以使用verify参数控制是否检查此证书。其实如果不加verify参数的话，默认是True，会向动验证。

现在我们用 requests 来测试一下：

import requests  
url = 'https://cas.xijing.edu.cn/xjtyrz/login'  
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit  
/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'}  
req = requests.get(url,headers=headers)

SSLError: HTTPSConnectionPool(host= ’cas.xijing.edu.cn’ , port=443): Max retries exceeded with url: /xjtyrz/login (Caused by SSLError(SSLCertVerificationError(1,[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1123)’)))

这里提示一个错误 SSL Error ，表示证书验证错误。所以，如果请求一个 HTTPS 站点，但是证书验证错误的页面时，就会报这样的错误，那么如何避免这个错误呢？很简单，把 verify 参数设置为 False 即可。

7.Requests库其他内容

7.1 查看响应内容

发送请求后，得到的自然就是响应。在上面的实例中，我们使用 text 和 content 获取了响应的内容。此外，还有很多属性和方法可以用来获取其他信息，比如状态码、响应头、Cookies 等。

示例如下：

import requests  
url = 'https://www.baidu.com'  
req = requests.get(url)  
print(req.status_code)  
# 响应状态码  
print(req.text)  
# 响应的文本内容  
print(req.content)  
# 响应的二进制内容  
print(req.cookies)  
# 响应的cookies  
print(req.encoding)  
# 响应的编码  
print(req.headers)  
# 响应的头部信息  
print(req.url)  
# 响应的网址  
print(req.history)  
# 响应的历史

7.2 查看状态码与编码

使用 rqg.status_code 的形式可查看服务器返回的状态码，而使用 rqg.encoding 的形式可通过服务器返回的 HTTP 头部信息进行网页编码。需要注意的是，当 Requests 库猜测错误的时候，需要手动指定 encoding 编码，避免返回的网页内容出现乱码。

7.3 发送get请求，并手动指定编码

代码 1-2: 发送 get 请求，并手动指定编码

url = 'http://www.tipdm.com/tipdm/index.html'  
rqg = requests.get(url)  
print('状态码 ',rqg.status_code)  
print('编码 ',rqg.encoding)  
rqg.encoding = 'utf-8' #手动指定编码  
print('修改后的编码 ',rqg.encoding)  
# print(rqg.text)

状态码，200

编码，ISO-8859-1

修改后的编码，utf-8

笔记

手动指定的方法并不灵活，无法自适应爬取过程中的不同的网页编码，而使用chardet库的方法比较简便灵活。chardet 库是一个非常优秀的字符串 / 文件编码检测模块

7.4 chardet 库的使用

chartdet 库的 detect 方法可以检测给定字符串的编码，其语法格式如下。

chartdet.detect(byte_str)

detect 方法常用参数及其说明

byte_str ：接收 string 。表示需要检测编码的字符串。无默认值

7.5 使用detect方法检测编码并指定

代码 1-3: 使用 detect 方法检测编码并指定编码

import chardet  
url = 'http://www.tipdm.com/tipdm/index.html'  
rqg = requests.get(url)  
print(rqg.encoding)  
print(chardet.detect(rqg.content))  
rqg.encoding = chardet.detect(rqg.content)['encoding']  
# 访问字典元素  
print(rqg.encoding)

ISO-8859-1

{ ’encoding’ : ’utf-8’ , ’confidence’ : 0.99, ’language’ : ’’ }

utf-8

7.6 requests 库综合测试

向网站 ’http://www.tipdm.com/tipdm/index.html’ 发送一个完整GET的请求 , 该请求包含链接、请求头、响应头、超时时间和状态码, 并且编码正确设置。

代码 1-6: 生成完整的HTTP请求。

# 导入相关的库  
import requests  
import chardet  
# 设置url  
url = 'http://www.tipdm.com/tipdm/index.html'  
# 设置请求头  
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit  
/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36"}  
# 生成GET请求，并设置延时为2  
rqg = requests.get(url,headers=headers,timeout = 2)  
# 查看状态码  
print("状态码 ",rqg.status_code)  
# 检测编码(查看编码)  
print('编码 ',rqg.encoding)  
# 使用chardet库的detect方法修正编码  
rqg.encoding = chardet.detect(rqg.content)['encoding']  
# 检测修正后的编码  
print('修正后的编码: ',rqg.encoding)  
#查看响应头  
print('响应头：',rqg.headers)  
# 查看网页内容  
#print(rqg.text)

状态码，200

编码，ISO-8859-1

修正后的编码 : utf-8

响应头：{ ’Date’ : ’Mon, 18 Nov 2019 06:28:56 GMT’ , ’Server’ : ’Apache-Coyote/1.1’ , ’

Accept-Ranges’ : ’bytes’ , ’ETag’ : ’W/“15693-1562553126764”’ , ’Last-Modified’ : ’

Mon, 08 Jul 2019 02:32:06 GMT’ , ’Content-Type’ : ’text/html’ , ’Content-Length’ : ’

15693’ , ’Keep-Alive’ : ’timeout=5, max=100’ , ’Connection’ : ’Keep-Alive’ }

好了今天的分享就到这里了，最后多说一句，小编也是一名python开发工程师，这里有我自己整理的一套最新的python系统学习教程，如果你需要的话，微信扫描下方CSDN官方认证二维码即可领取

零基础Python学习资源介绍

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

二、Python学习软件

工欲善其事，必先利其器。学习Python常用的开发软件都在这里了！

三、Python入门学习视频

还有很多适合0基础入门的学习视频，有了这些视频，轻轻松松上手Python~

四、Python练习题

每节视频课后，都有对应的练习题哦，可以检验学习成果哈哈！

五、Python实战案例

光学理论是没用的，要学会跟着一起敲代码，动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。这份资料也包含在内的哈~

六、Python面试资料

我们学会了Python之后，有了技能就可以出去找工作啦！下面这些面试题是都来自阿里、腾讯、字节等一线互联网大厂，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

七、资料领取

上述完整版Python全套学习资料已经上传CSDN官方，需要的小伙伴可自行微信扫描下方CSDN官方认证二维码输入“领取资料”免费领取！！

你可能感兴趣的:(python,爬虫,开发语言,学习,数据挖掘)

【机器学习【9】】评估算法：数据集划分与算法泛化能力评估 roman_日积跬步-终至千里 #机器学习机器学习
文章目录一、数据集划分：训练集与评估集二、K折交叉验证：提升评估可靠性1.基本原理1.1.K折交叉验证基本原理1.2.逻辑回归算法与L22.基于K折交叉验证L2算法三、弃一交叉验证（Leave-One-Out）1、基本原理2、代码实现四、ShuffleSplit交叉验证1、基本原理2、为什么能降低方差3、代码测试五、选择建议在机器学习中，评估算法的核心目标是衡量模型在“未知数据”上的表现，而不是仅
Python 中 sys 库的全面解析与实战应用二向箔reverse 服务器 python
在Python的众多标准库中，sys库占据着举足轻重的地位。它与Python解释器紧密交互，为开发者提供了访问解释器内部信息和控制解释器行为的强大能力。无论是命令行参数处理、系统环境配置，还是程序退出控制，sys库都能大显身手。本文将带您深入探索sys库的常用功能，通过丰富的实例讲解，助您轻松掌握其使用技巧。sys库的基础认知sys库是Python的内置标准库，无需额外安装，只需通过imports
python环境安装jupyter 爱分享的胖头鱼 02.Python(基础知识)jupyter ide python python虚拟环境
安装完毕之后下一步可以参考：配置jupyter的启动路径-CSDN博客1前提条件：python环境系统：win10python：本地已经有python，可以查看本地的python版本：C:\Users\PC>python--versionPython3.8.102安装jupyter并启动安装jupyterC:\Users\PC>pipinstalljupyternotebookCollecting
被动的学习乐婷0809
2019.3.6星期三雨读经人员:艳红雨乐宇婷诗经时间第514天读经内容:《黄帝内经》《唐诗三百首》《诗经》《新概念英语》保险这个词语对我很敏感，因为我只买了乡镇医疗险，其它保险真没有想买的意思，也一点都不懂得。下午老公的婶婶又叫我去听了一堂关于怎样去推销产品和发展人员的课，真的要睡着了，一点不明白。就在去年我上班都总要我去，今年不上班越总是说，对于在做保险这份工作的人，他们就说是在帮助一个家庭。
过年，我损失了什么？张超_75c3
自阴历12月28日至正月5日，春节放假在老家待了整整8天。可以这么说，在家过了一个轻轻松松、愉快祥和地春节，晚上打牌、早上睡到10点起床、带妻子和女儿短途旅行两次、串亲戚等等，有说有笑，不亦乐乎！可是，今天我不想说这些，而是更想说说，这八天时间，我到底失去了什么？能不能过的更有意义些？我失去了什么？只有我自己知道，平时的我每天5:20起床，起床后学习“得到”专栏吴军的“谷歌方法论”，每天一篇，可以
在恋爱中学习爱情坚冰至_Monsol
苏州2018大雪实践出真知，是颠扑不破的真理。推而广之，在战争中学习战争，在水里学会游泳。光说不练，不仅是假把式，还是禁锢自己勇气、纯真、希望的牢笼。同样，在恋爱中学会爱情。每一次用心的“练习”，不仅给自己一生的感情之路，点缀上闪烁晶莹光泽的“小幸运”，还可能得遇相守一生的真幸运。苏州寒山寺甲·认准你要什么马云的“终极三问”，在感情里同样适用：你有什么？你要什么？你能放弃什么？人，不能贪心，不能什
对“人格障碍”的浅认识春暖花开LittleHui
“人格障碍”这个词是我在学习心理学时接触到的。人格障碍是指明显偏离正常且根深蒂固的行为方式，具有适应不良的性质，其人格在内容上、质上或整个人格方面异常，由于这个原因，病人遭受痛苦，或给个人或社会带来不良影响。人格的异常妨碍了他们的情感和意志活动，破坏了其行为的目的性和统一性，给人以与众不同的特意感觉，在待人接物方面表现尤为突出。人格障碍通常开始于童年、青少年或成年早期，（更多是原生家庭造成的，来自
炒股思维和纪律决定成败，同时知道做超短线看什么选股指标，月盈利30%以上。股海救星
炒股思维和纪律决定成败，同时知道做超短线看什么选股指标，月盈利30%以上。（请加老师微信：hxw128126进入到“股票强化训练营”一起学习，领取涨幅大于40%的选股指标和战法）做交易的，尤其是做交易的，几乎每个人都会了解一些技术分析。趋势线、支撑压力、各种价格形态、超买超卖、背离、百分比回撤，等等，这些技术手段几乎每个人都了解它的主要内容和使用方法。可是，为什么很多人总是用不好技术分析的这些工具
python爬虫之获取渲染代码
获取渲染后的网页代码过get()方法获取浏览器中的网页资源后,浏览器将自动渲染网页源代码内容，并生成渲染后的的时使用page_source()方法即可获取渲染后的网页代码。示例代码:'''获取渲染后的网页代码'''fromseleniumimportwebdriverfromselenium.webdriver.chrome.optionsimportOptionschrome_options=O
学习笔记(66):Python入门教程-datetime模块时间运算顾子宇研发管理 python 编程语言 Python 小猿圈 Python入门教程
立即学习:https://edu.csdn.net/course/play/24459/296363?utm_source=blogtoedudatetime模块：datetime.date：表示日期的类，常用属性有year，month，daydatetime.time：表示时间的类，常用的属性有hour,minute,second,microseconddatetime.datetime：表示日
掌握reStructuredText：编写与格式化文档的技巧
本文还有配套的精品资源，点击获取简介：reStructuredText（rST）是一种轻量级文本标记语言，广泛用于Python社区的文档编写，特别是借助Sphinx文档生成器。本文介绍了rST的基础语法和高级特性，包括段落、标题、强调、代码、列表、引用、链接、图像、表格、章节组织、自定义角色和指令、包含和排除文件以及源代码高亮。同时，探讨了Sphinx与rST结合使用的高级功能，包括扩展、配置和构
掌握C#文件操作与XML处理：学习资料完整指南竹石文化传播有限公司
本文还有配套的精品资源，点击获取简介：C#是一种广泛应用于Windows和跨平台开发的编程语言，它在.NET框架中包含强大的文件和XML操作能力。本文深入探讨了C#中的文件读写技术，包括使用System.IO命名空间中的File类进行文本和二进制文件处理，FileStream类的流操作，以及XML文档的解析、创建和修改方法。同时，文章也介绍了文件操作的扩展功能和在进行文件操作时应考虑的异常处理。通
[Python] -项目实战5- Python 实现简易学生成绩管理系统踏雪无痕老爷子 Python python 开发语言
一、为什么做这个项目？学习OOP和GUI基础：通过类与对象封装学生信息，熟悉Tkinter构建窗口、表格、按钮等。实用性强：可添加、查询、删除、修改学生记录，是常见管理系统的基本功能。扩展性好：后续可以接入数据库、图表展示、权限控制等功能。二、核心技术与工具tkinter：Python内置的桌面GUI库，用于构建窗口界面、表单和按钮。sqlite3：轻量级关系数据库，适合小型持久化存储，无需部署服
[Python] -项目实战类3- 用Python制作一个记事本应用踏雪无痕老爷子 Python 开发语言 python
一、为什么要自己写记事本？提升GUI编程能力：通过构建窗口、菜单、文本区等组件，理解基本控件的使用。实用工具：自定义功能、更轻量、更符合个人使用习惯。实验与扩展空间大：方便加入特色功能，如自动保存、代码高亮、插件等。二、准备工作✅安装Python（建议Python 3.7+）。无需安装第三方库，tkinter是Python标准库的一部分。用于构建UI界面。sudoaptinstallpython3
[Python] -项目实战4- 利用Python进行Excel批量处理踏雪无痕老爷子 Python python excel 开发语言
一、为什么要批量处理Excel文件？节省时间：人工对数十、数百个Excel文件重复操作不现实，Python批量处理一次搞定。保证一致性：统一格式、统一操作，避免手动误差。易于集成：可嵌入日常自动化流程，支持定时和触发执行。二、常用库及选型建议库作用优势局限pandas读取/清洗/分析Excel数据语法简
睡眠如何促进学习方所
《考试脑科学》中用了一整个章节的篇幅来说明睡眠对学习的重要性，我想这个知识大家很早就已经知道了。可是尽管我很早就知道，可是从来未曾重视过或者打心底里是“不相信”的，仍然按照以往的经验学习，就在不知不自觉之间损失了效率，浪费了时间，希望看完这篇文章后，能让你更加重视这一知识。我们都知道，“海马体”是长期记忆的关卡，只有经过海马体审查的知识，才可能被我们真正吸收，成为长期知识。在我们睡着的时候，大脑会
案例：孩子厌学叛逆，学习传统文化，儿子重新感恩懂事了！彭华勇
昨天孩子去看望初中的英语彭老师，下班后我去接他回家，我发信息给他我十五分钟到小区门口，是否可以下来？孩子回复说能否等他一会，或上楼玩会，孩子的信息带着商量的口吻，接着老师打电话让我上去座会，顺便聊聊天.从孩子上高中到现在每个假期都到彭老师家玩，记得有一次因为手机的事，我们发生了争执，孩子放下手机独自一人离开了家，我整夜无眠，四处寻找，各种恐惧，担心，最后天亮后孩子在彭老师家门口，我现在居住的地离老
2022-03-13 是大珊呐
本周七年级刚从基地回来，发了一下寒假冬奥会主题的奖状，不管是手抄报行式的还是直接画冬奥会吉祥物的作品都十分的用心，展板呈现的效果也比较好，看来以后的教学还是以提高学生的兴趣为主，让学生画自己想画的才能激发出学生的潜力。九年级按部就班讲了一下这次期末考试的试题分析了一下绘画需要注意的点，可能是元旦疫情来的太突然，学生整个疫情和寒假期间学习太过懒惰美术考试成绩十分不理想，其他科目更不理想，提高学生的主
当代短篇小说选：《清风店》（七）闲读与苦读
别说读书苦，那是你看世界的路——每年冬季照例的整风整社开始了。因为清风店不是重点村,上头没有派工作组来。事情偏这么凑巧,借用段顺的话:就好像鬼使神差。恰在整风之前,常四起到县委党校去学习。“天下大事”便有了另外的演变:在给清风店领导提意见的时候,段顺和老曹克星没想到群众对常四起的工作竟也指出不少缺点。自然,有的意见,老曹克星当众解释一下,便不存在了。常言说的好,人被感情统治的时候，理智便退避三舍了
2021-8-7晨间日记宋会兵
今天是什么日子起床：7:15就寝：天气：晴好心情：纪念日：任务清单昨日完成的任务，最重要的三件事：改进：习惯养成：昨天会长和老陆下棋下了几盘，又和小鲁下了两盘，小鲁中午过来已经和老陆下了半天，老陆晚饭后小鲁还要下，这小鲁是越下越精神，越下越能磨。周目标·完成进度学习·信息·阅读健康·饮食·锻炼人际·家人·朋友工作·思考最美好的三件事1.2.3.思考·创意·未来
python中的keys方法 m0_58134286 python dict
d.keys()1.作用：获取字典d中的所有key值，返回值是一个对象2.例子：dict1=dict（one=1，two=2）print（dict1.keys（））//输出结果为：dict_keys（["one","two"])3.思考：若何将返回值转换成列表print（list(dict1.keys())//输出结果为：["one","two"]
bash方式启动模型训练 BILLY BILLY 深度学习基础开发必备工具自动驾驶
export\PATHPYTHONPATH=/workspace/mmlab/mmdetection/:/workspace/mmlab/mmsegmentation/:/workspace/mmlab/mmdeploy/:${env:PYTHONPATH}\CUDA_VISIBLE_DEVICES=0\DATA_ROOT_1=/mnt/data/…/\DATA_ROOT_2=/mnt/data/
Python基础(十四): 函数作用域伯wen
一、基本概念1、变量的作用域变量的作用范围:可操作范围Python是静态作用域,也就是说在Python中,变量的作用域源于它在代码中的位置,在不同的位置,可能有不同的命名空间2、命名空间命名空间是作用域的体现形式表示变量不同的具体的操作范围3、Python-LEGBL-Local:函数内的命名空间作用范围:当前整个函数体deftest():a=10print(a)test()#打印:10a的作用范
爬虫实战案例（两个） AI 嗯啦爬虫
该博客展示两个简单的爬虫实战案例，一个是从人民邮电出版社上爬取其中一个分类的全部图书信息，另一个是在苏宁易购上爬取某个商品的好评和差评，用两个简单的案例讲解爬虫在实际情况下的运作流程一、获取图书信息需求：统计人民邯电出版社官网中与关键词“python”有关的全部图书，包含图书名、价格、作者名等信息，并将获取的信息写入“Excel图书汇总，txt”文件中。流程：配置浏览器并打开目标网站搜索"Pyth
【机翻】第4课-故事结构：好莱坞经典告诉你，让人欲罢不能的故事怎么编读书打字
各位同学大家好，从这堂课急呢，我们第二阶段的学习就开始了。在第一阶段结束的时候啊，老师布置了两篇作业，其中一篇作业是让大家写一个受骗上当的故事。到现在为止呢，一共是有59位同学叫作业了。周三晚上的直播中，老师也对这些作业做出了点评。通过这些作业，老师了解了大家的水平，更重要的是了解到了大家共同的一些问题。有的同学啊在经过的第一阶段的学习以后啊，从一个从未写过任何作品的小白开始动笔写故事了，而且写的
Python高效编程技术大全：从解释器到异步编程竹石文化传播有限公司
本文还有配套的精品资源，点击获取简介：《Python高性能编程技术》旨在指导开发者深入理解Python的性能优化方法。本书涵盖了从解释器机制、数据结构和内置函数的优化，到使用Numpy、Pandas、多线程和多进程进行数值计算和数据处理，再到并发编程和性能分析等全面技术，帮助开发者提升代码执行效率和处理各种性能挑战。1.Python解释器性能分析Python作为一门解释型语言，其性能受到解释器行为
穿越日记牧屿樵谷
总体要求：记录过去的某天，从早上醒来到晚上睡觉前，记录有关学习的一切活动和相关决策，并以过来人（学过这门课的人）的身份进行评价，目的是展示自己对学习的监控能力。日期:2021年5月8日8:10～9:50上金融企业会计课，在第一节课程中，由于天气太热导致注意力不够集中，中途还有点犯困，这种状态持续了大概十几分钟，我看到旁边的室友在认真做笔记，我一时感到惭愧，然后开始调整状态认真做笔记认真听课。(评价
革命老区涉县千名留守妇女组织起来了，每天学习技能只为了居家可就业。助力乡村振兴 85c9fc40e512
#妇女就业问题，是最大的民生问题，我们为革命老区涉县，千名留守妇女居家就业谋幸福，星星之火可以燎原，一起努力春华秋实#太行巾帼出太行
Python day15
@浙大疏锦行Pythonday15.内容：复习日本周主要的内容是一些常见的机器学习流程以及其中的部分内容标签编码以及连续特征的处理：归一化和正态化等。图像的绘制：热力图、Shap图等的绘制超参数优化算法：网格搜索、贝叶斯以及启发式算法模拟退火、遗传算法等不平衡数据集的处理：过采样以及欠采样。
Python Day16 赵英英俊 Python训练 python
@浙大疏锦行Pythonday16内容：numpy数组的创建以及相关操作numpy的索引理解SHAP值代码：importnumpyasnpa=np.array([[1,2],[3,4],[5,6]])b=np.array([[7,8],[9,10],[11,12]])效果：
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache