秃顶

Python 网络爬虫与数据采集（二）

Python 网络爬虫与数据采集

第二部分初章网络爬虫初识
- 4. 网络爬虫请求篇
- - 4.1 requests 库简介
  - - 4.1.1 Requests 的安装
    - 4.1.2 Requests 基本使用
    - 4.2.1 发送带 headers 的请求
    - 4.2.2 发送带参数的请求
    - - 4.2.2.1 在 url 携带参数
      - 4.2.2.2 通过 params 携带参数字典
    - 4.2.3 使用 GET 请求抓取网页
    - 4.2.4 在 Headers 参数中携带 cookie
    - - 4.2.4.1 Cookies 的获取
      - 4.2.4.2 携带 Cookies 登录
      - 4.2.4.3 cookies 参数的使用
      - 4.2.4.4 构造 RequestsCookieJar 对象进行 cookies 设置
      - 4.2.4.5 cookieJar 对象转换为 cookies 字典的方法
    - 4.2.5 Timeout 设置
  - 4.3 使用 Request 发送 POST 请求
  - - 4.3.1 POST 发送 JSON 数据
    - 4.3.2 　POST 上传文件
    - 4.3.3 使用 POST 请求抓取网页
  - 4.4 Requests 进阶 (1) * Session 会话维持
  - - 4.4.1 requests.session 的作用以及应用场景
    - 4.4.2 requests.session 使用方法
    - 4.4.3 使用 Session 维持 github 登录信息
  - 4.5 Requests 进阶 (2) * 代理的使用
  - - 4.5.1 使用代理的过程
    - 4.5.2 正向代理和反向代理
    - 4.5.3 代理 ip(代理服务器）的分类
    - 4.5.4 proxies 代理参数的使用
  - 4.7 Requests 库其他内容
  - - 4.7.1 查看响应内容
    - 4.7.2 查看状态码与编码
    - 4.7.3 发送 get 请求，并手动指定编码
    - 4.7.4 chardet 库的使用
    - 4.7.5 使用 detect 方法检测编码并指定
    - 4.7.6 requests 库综合测试
导入相关的库
设置url
设置请求头
生成GET请求，并设置延时为2

第二部分初章网络爬虫初识

4. 网络爬虫请求篇

4.1 requests 库简介

Requests 是一个为人类设计的简单而优雅的 HTTP 库。requests 库是一个原生的 HTTP 库，比urllib3 库更为容易使用。requests 库发送原生的 HTTP 1.1 请求，无需手动为 URL 添加查询字串，也不需要对 POST 数据进行表单编码。相对于 urllib3 库，requests 库拥有完全自动化 Keep-alive 和HTTP 连接池的功能。requests 库包含的特性如下。
❖ 1Keep-Alive & 连接池
❖ 国际化域名和 URL
❖ 带持久 Cookie 的会话
❖ 浏览器式的 SSL 认证
❖ 自动内容解码
❖ 基本/摘要式的身份认证
❖ 优雅的 key/value Cookie
❖ 自动解压
❖ Unicode 响应体
❖ HTTP(S) 代理支持
❖ 文件分块上传
❖ 流下载
❖ 连接超时
❖ 分块请求
❖ 支持.netrc
❖

4.1.1 Requests 的安装

pip install requests

4.1.2 Requests 基本使用

代码 1-1: 发送一个 get 请求并查看返回结果

 Python Code:
import requests
url = ’http://www.tipdm.com/tipdm/index.html’
# 生成get请求
rqg = requests.get(url)
# 查看结果类型
print(’查看结果类型： ’, type(rqg))
# 查看状态码
print(’状态码：’,rqg.status_code)
# 查看编码
print(’编码 ：’,rqg.encoding)
# 查看响应头
print(’响应头： ’,rqg.headers)
# 打印查看网页内容
print(’查看网页内容：’,rqg.text)
--------------------------------------------------------------------------------------
查看结果类型： <class ’requests.models.Response’>
状态码： 200
编码 ： ISO-8859-1
响应头： {’Date’: ’Mon, 18 Nov 2019 04:45:49 GMT’, ’Server’: ’Apache-Coyote/1.1’, ’
Accept-Ranges’: ’bytes’, ’ETag’: ’W/"15693-1562553126764"’, ’Last-Modified’: ’
Mon, 08 Jul 2019 02:32:06 GMT’, ’Content-Type’: ’text/html’, ’Content-Length’: ’
15693’, ’Keep-Alive’: ’timeout=5, max=100’, ’Connection’: ’Keep-Alive’}

4.1.3 Request 基本请求方式
你可以通过 requests 库发送所有的 http 请求：

 Python Code:
requests.get("http://httpbin.org/get") #GET请求
requests.post("http://httpbin.org/post") #POST请求
requests.put("http://httpbin.org/put") #PUT请求
requests.delete("http://httpbin.org/delete") #DELETE请求
requests.head("http://httpbin.org/get") #HEAD请求
requests.options("http://httpbin.org/get") #OPTIONS请求

4.2 使用 Request 发送 GET 请求
HTTP 中最常见的请求之一就是 GET 请求，下面首先来详细了解一下利用 requests 构建 GET请求的方法。

 GET 参数说明： get(url, params=None, **kwargs):

❖ URL: 待请求的网址
❖ params ：（可选）字典，列表为请求的查询字符串发送的元组或字节
❖ **kwargs: 可变长关键字参数
首先，构建一个最简单的 GET 请求，请求的链接为 http://httpbin.org/get，该网站会判断如果
客户端发起的是 GET 请求的话，它返回相应的请求信息，如下就是利用 requests 构建一个 GET
请求

 Python Code:
import requests
r = requests.get(’http://httpbin.org/get’)
print(r.text)
{
"args": {},
"headers": {
"Accept": "*/*",
"Accept-Encoding": "gzip, deflate",
"Host": "httpbin.org",
"User-Agent": "python-requests/2.24.0",
"X-Amzn-Trace-Id": "Root=1-5fb5b166-571d31047bda880d1ec6c311"
},
"origin": "36.44.144.134",
"url": "http://httpbin.org/get"
}

可以发现，我们成功发起了 GET 请求，返回结果中包含请求头、URL 、IP 等信息。那么，对于 GET 请求，如果要附加额外的信息，一般怎样添加呢？

4.2.1 发送带 headers 的请求

首先我们尝试请求知乎的首页信息!

 Python Code:
import requests
response = requests.get(’https://www.zhihu.com/explore’)
print(f"当前请求的响应状态码为：{response.status_code}")
print(response.text)
------------------------------------
当前请求的响应状态码为：400
<html>
<head><title>400 Bad Request</title></head>
<body bgcolor="white">
<center><h1>400 Bad Request</h1></center>
<hr><center>openresty</center>
</body>
</html>
这里发现响应的状态码为 400，说明我们请求失败了，因为知乎已经发现了我们是一个爬虫，
因此需要对浏览器进行伪装，添加对应的 UA 信息。
 Python Code:
import requests
headers = {"user-agent": ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit
/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36’}
response = requests.get(’https://www.zhihu.com/explore’, headers=headers)
print(f"当前请求的响应状态码为：{response.status_code}")
# print(response.text)
----------------------------------------
当前请求的响应状态码为：200
<!doctype html>
.......

这里我们加入了 headers 信息，其中包含了 User-Agent 字段信息，也就是浏览器标识信息。很
明显我们伪装成功了！这种伪装浏览器的方法是最简单的反反爬措施之一。

 GET 参数说明：
携带请求头发送请求的方法
requests.get(url, headers=headers)
- headers 参数接收字典形式的请求头
- 请求头字段名作为 key，字段对应的值作为 value

4 练习 4.1 请求百度的首页 https://www.baidu.com, 要求携带 headers, 并打印请求的头信息!
解

 Python Code:
import requests
url = ’https://www.baidu.com’
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit
/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
# 在请求头中带上User-Agent，模拟浏览器发送请求
response = requests.get(url, headers=headers)
print(response.content)
# 打印请求头信息
print(response.request.headers)

4.2.2 发送带参数的请求

我们在使用百度搜索的时候经常发现 url 地址中会有一个 ‘?‘，那么该问号后边的就是请求参数，又叫做查询字符串!
通常情况下我们不会只访问基础网页，特别是爬取动态网页时我们需要传递不同的参数获取不同的内容；GET 传递参数有两种方法，可以直接在链接中添加参数或者利用 params 添加参数.

4.2.2.1 在 url 携带参数

直接对含有参数的 url 发起请求

 Python Code:
import requests
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit
/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
url = ’https://www.baidu.com/s?wd=python’
response = requests.get(url, headers=headers)

4.2.2.2 通过 params 携带参数字典

构建请求参数字典
向接口发送请求的时候带上参数字典，参数字典设置给 params

 Python Code:
import requests
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit
/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}
# 这是目标url
# url = ’https://www.baidu.com/s?wd=python’
# 最后有没有问号结果都一样
url = ’https://www.baidu.com/s?’
# 请求参数是一个字典 即wd=python
kw = {’wd’: ’python’}
# 带上请求参数发起请求，获取响应
response = requests.get(url, headers=headers, params=kw)
print(response.content)
通过运行结果可以判断，请求的链接自动被构造成了：
http://httpbin.org/get?key2=value2&key1=value1。

另外，网页的返回类型实际上是 str 类型，但是它很特殊，是 JSON 格式的。所以，如果想直接解析返回结果，得到一个字典格式的话，可以直接调用 json() 方法。示例如下：

 Python Code:
import requests
r = requests.get("http://httpbin.org/get")
print( type(r.text))
print(r.json())
print( type(r. json()))
---------------------------------------------------------------
<class ’str’>
{’args’: {}, ’headers’: {’Accept’: ’*/*’, ’Accept-Encoding’: ’gzip, deflate’, ’Host’
: ’httpbin.org’, ’User-Agent’: ’python-requests/2.24.0’, ’X-Amzn-Trace-Id’: ’
Root=1-5fb5b3f9-13f7c2192936ec541bf97841’}, ’origin’: ’36.44.144.134’, ’url’: ’
http://httpbin.org/get’}
<class ’dict’>
可以发现，调用 json() 方法，就可以将返回结果是 JSON 格式的字符串转化为字典。但需要注意的是，如果返回结果不是 JSON 格式，便会出现解析错误，抛出 json.decoder.JSONDecodeError异常。
补充内容，接收字典字符串都会被自动编码发送到 url，如下
 Python Code:
import requests
headers = {’User-Agent’: ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit
/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Safari/537.36’}
wd = ’雨霓同学’
pn = 1
response = requests.get(’https://www.baidu.com/s’, params={’wd’: wd, ’pn’: pn},
headers=headers)
print(response.url) # 输出为：https://www.baidu.com/s?wd=%E9%9B%A8%E9%9C%93%E5%90%8
C%E5%AD%A6&pn=1
# 可见url已被自动编码

上面代码相当于如下代码，params 编码转换本质上是用 urlencode

 Python Code:
import requests
from urllib.parse import urlencode
headers = {’User-Agent’: ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit
/537.36 (KHTML, like Gecko)
wd = ’雨霓同学’
encode_res = urlencode({’k’: wd}, encoding=’utf-8’)
keyword = encode_res.split(’=’)[1]
print(keyword)
# 然后拼接成url
url = ’https://www.baidu.com/s?wd=%s&pn=1’ % keyword
response = requests.get(url, headers=headers)
print(response.url) # 输出为：https://www.baidu.com/s?wd=%E9%9B%A8%E9%9C%93%E5
%90%8C%E5%AD%A6&pn=1

4.2.3 使用 GET 请求抓取网页

上面的请求链接返回的是 JSON 形式的字符串，那么如果请求普通的网页，则肯定能获得相应的内容了!

 Python Code:
import requests
import re
headers = {"user-agent": ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit
/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36’}
response = requests.get(’https://www.zhihu.com/explore’, headers=headers)
result = re.findall("(ExploreSpecialCard-contentTitle|ExploreRoundtableCardquestionTitle).*?>(.*?)", response.text)
print([i[1] for i in result])
-----------------------
[’西安回民街有什么好吃的？’, ’西安有哪些值得逛的宝藏店铺？’, ’西安哪些商圈承载着你的
青春？’, ’你有哪些好的驾驶习惯可以分享？’, ’有哪些只有经验丰富的司机才知道的驾驶
技巧？’, ’有车的注意了，这些开车知识每个人都要掌握，关键时刻能救命’, ’欢迎着陆！
知乎宇宙成员招募通告’, ’星球登陆问题：给你十块钱穿越到未来，怎样才能混得风生水
起？’, ’星球登陆问题：知乎宇宙中的「超能量」你最希望拥有哪一种？你会如何使用它？
’, ’挪威三文鱼，原产地至关重要’, ’挪威最吸引人的地方有哪些？’, ’生活在挪威是一种
什么体验？’, ’如何看待京东方 AMOLED 柔性屏量产？未来前景如何？’, ’柔性屏能不能给
手机行业带来革命性的影响？’, ’什么是超薄可弯曲柔性电池？会对智能手机的续航产生重
大影响吗？’, ’美术零基础怎样才能学好美术，在艺考中取得高分？’, ’清华美院被鄙视吗
?’, ’艺术生真的很差吗？’, ’人应该怎样过这一生？’, ’人的一生到底该追求什么？’, ’
人类知道世界的终极真理后会疯掉吗?’, ’焦虑是因为自己能力不够吗？’, ’社交恐惧症是
怎样的一种体验？’, ’“忙起来你就没时间抑郁了”这句话有理么？’]

这里我们加入了 headers 信息，其中包含了 User-Agent 字段信息，也就是浏览器标识信息。如果不加这个，知乎会禁止抓取。抓取二进制数据在上面的例子中，我们抓取的是知乎的一个页面，实际上它返回的是一个HTML 文档。如果想抓去图片、音频、视频等文件，应该怎么办呢？图片、音频、视频这些文件本质上都是由二进制码组成的，由于有特定的保存格式和对应的解析方式，我们才可以看到这些形形色色的多媒体。所以，想要抓取它们，就要拿到它们的二进制码。下面以 GitHub 的站点图标为例来看一下：

 Python Code:
import requests
response = requests.get("https://github.com/favicon.ico")
with open(’github.ico’, ’wb’) as f:
f.write(response.content)
Response 对象的两个属性，一个是 text, 另一个是 content. 其中前者表示字符串类型文本，后
者表示 bytes 类型数据, 同样地，音频和视频文件也可以用这种方法获取。

4.2.4 在 Headers 参数中携带 cookie

网站经常利用请求头中的 Cookie 字段来做用户访问状态的保持，那么我们可以在 headers 参数中添加 Cookie，模拟普通用户的请求。

4.2.4.1 Cookies 的获取

为了能够通过爬虫获取到登录后的页面，或者是解决通过 cookie 的反爬，需要使用 request来处理 cookie 相关的请求

 Python Code:
import requests
url = ’https://www.baidu.com’
req = requests.get(url)
print(req.cookies) # 响应的cookies
for key, value in req.cookies.items():
print(f"{key} = {value}")
---------------------------------
<RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]>
BDORZ = 27315

这里我们首先调用 cookies 属性即可成功得到 Cookies ，可以发现它是 RequestCookieJar 类型。然后用 items() 方法将其转化为元组组成的列表，遍历输出每一个 Cookie 的名称和值，实现Cookie 的遍历解析。

4.2.4.2 携带 Cookies 登录

带上 cookie、session 的好处：能够请求到登录之后的页面带上 cookie、session 的弊端：
一套 cookie 和 session 往往和一个用户对应请求太快，请求次数太多，容易被服务器识别为爬虫不需要 cookie 的时候尽量不去使用 cookie但是为了获取登录之后的页面, 我们必须发送带有 cookies 的请求我们可以直接用 Cookie 来维持登录状态, 下面以知乎为例来说明。首先登录知乎，将 Headers中的 Cookie 内容复制下来.
➢ 从浏览器中复制 User-Agent 和 Cookie
➢ 浏览器中的请求头字段和值与 headers 参数中必须一致
➢ headers 请求参数字典中的 Cookie 键对应的值是字符串

 Python Code:
import requests
import re
# 构造请求头字典
headers = {
# 从浏览器中复制过来的User-Agent
"user-agent": ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (
KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36’,
# 从浏览器中复制过来的Cookie
"cookie": ’xxx这里是复制过来的cookie字符串’}
# 请求头参数字典中携带cookie字符串
response = requests.get(’https://www.zhihu.com/creator’, headers=headers)
data = re.findall(’CreatorHomeAnalyticsDataItem-title.*?>(.*?)</div>’,response.text)
print(response.status_code)
print(data)
当我们不携带 Cookies 进行请求时：
 Python Code:
import requests
import re
headers = {"user-agent": ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit
/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36’}
response = requests.get(’https://www.zhihu.com/creator’, headers=headers)
data = re.findall(’CreatorHomeAnalyticsDataItem-title.*?>(.*?)</div>’,response.text)
print(response.status_code)
print(data)
------------------------------------
200
[]
在打印的输出结果中为空, 两者对比, 则成功利用 headers 参数携带 cookie，获取登陆后才能
访问的页面!

4.2.4.3 cookies 参数的使用

上一小节我们在 headers 参数中携带 cookie，也可以使用专门的 cookies 参数
❖ 1. cookies 参数的形式：字典

cookies = "cookie 的 name":"cookie 的 value"

➢ 该字典对应请求头中 Cookie 字符串，以分号、空格分割每一对字典键值对
➢ 等号左边的是一个 cookie 的 name，对应 cookies 字典的 key
➢ 等号右边对应 cookies 字典的 value
❖ 2.cookies 参数的使用方法

response = requests.get(url, cookies)

❖ 3. 将 cookie 字符串转换为 cookies 参数所需的字典：

cookies_dict = { cookie . split (’=’)[0]: cookie . split (’=’)[-1] for cookie in
cookies_str . split (’; ’)}

❖ 4. 注意：cookie 一般是有过期时间的，一旦过期需要重新获取

response = requests.get(url, cookies)
 Python Code:
import requests
import re
url = ’https://www.zhihu.com/creator’
cookies_str = ’复制的cookies’
headers = {"user-agent": ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit
/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36’}
cookies_dict = {cookie.split(’=’, 1)[0]:cookie.split(’=’, 1)[-1] for cookie in
cookies_str.split(’; ’)}
# 请求头参数字典中携带cookie字符串
resp = requests.get(url, headers=headers, cookies=cookies_dict)
data = re.findall(’CreatorHomeAnalyticsDataItem-title.*?>(.*?)</div>’,resp.text)
print(resp.status_code)
print(data)
--------------------------------------
200
[’python中该怎么把这种id不同但是class相同的方法写成一个整合呀？’, ’父母没有能力给我
买电脑的钱，我该怎么办？’, ’一句话形容一下你现在的生活状态？’]

4.2.4.4 构造 RequestsCookieJar 对象进行 cookies 设置

在这里我们还可以通过构造 RequestsCookieJar 对象进行 cookies 设置, 示例代码如下:

 Python Code:
import requests
import re
url = ’https://www.zhihu.com/creator’
cookies_str = ’复制的cookies’
headers = {"user-agent": ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit
/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36’}
jar = requests.cookies.RequestsCookieJar()
for cookie in cookies_str.split(’;’):
key,value = cookie.split(’=’,1)
jar. set(key,value)
# 请求头参数字典中携带cookie字符串
resp = requests.get(url, headers=headers, cookies=jar)
data = re.findall(’CreatorHomeAnalyticsDataItem-title.*?>(.*?)</div>’,resp.text)
print(resp.status_code)
print(data)
--------------------------------------
200
[’python中该怎么把这种id不同但是class相同的方法写成一个整合呀？’, ’父母没有能力给我
买电脑的钱，我该怎么办？’, ’一句话形容一下你现在的生活状态？’]

这里我们首先新建了一个 RequestCookieJar 对象，然后将复制下来的 cookies 利用 split() 方法分剖，接着利用 set() 方法设置好每个 Cookie 的 key 和 value ，然后通过调用 requests 的 get() 方法并传递给 cookies 参数即可。当然，由于知乎本身的限制，headers 参数也不能少，只不过不需要在原来的 headers 参数里面设置 cookie 字段了。测试后，发现同样可以正常登录知乎。

4.2.4.5 cookieJar 对象转换为 cookies 字典的方法

使用 requests 获取的 resposne 对象，具有 cookies 属性。该属性值是一个 cookieJar 类型，包含了对方服务器设置在本地的 cookie。我们如何将其转换为 cookies 字典呢？
❖ 1. 转换方法

cookies_dict = requests.utils.dict_from_cookiejar(response.cookies)

❖ 2. 其中 response.cookies 返回的就是 cookieJar 类型的对象
❖ 3. requests.utils.dict_from_cookiejar 函数返回 cookies 字典

 Python Code:
import requests
import re
url = ’https://www.zhihu.com/creator’
cookies_str = ’复制的cookies’
headers = {"user-agent": ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit
/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36’}
cookie_dict = {cookie.split(’=’, 1)[0]:cookie.split(’=’, 1)[-1] for cookie in
cookies_str.split(’; ’)}
# 请求头参数字典中携带cookie字符串
resp = requests.get(url, headers=headers, cookies=cookies_dict)
data = re.findall(’CreatorHomeAnalyticsDataItem-title.*?>(.*?)</div>’,resp.text)
print(resp.status_code)
print(data)
# 可以把一个字典转化为一个requests.cookies.RequestsCookieJar对象
cookiejar = requests.utils.cookiejar_from_dict(cookie_dict, cookiejar=None,
overwrite=True)
type(cookiejar) # requests.cookies.RequestsCookieJar
type(resp.cookies) # requests.cookies.RequestsCookieJar
#构造RequestsCookieJar对象进行cookies设置其中jar的类型也是 requests.cookies.
RequestsCookieJar
#cookiejar转字典
requests.utils.dict_from_cookiejar(cookiejar)

4.2.5 Timeout 设置

在平时网上冲浪的过程中，我们经常会遇到网络波动，这个时候，一个请求等了很久可能任然没有结果。在爬虫中，一个请求很久没有结果，就会让整个项目的效率变得非常低，这个时候我们就需要对请求进行强制要求，让他必须在特定的时间内返回结果，否则就报错。
❖ 1. 超时参数 timeout 的使用方法

response = requests.get(url, timeout=3)

❖ 2. timeout=3 表示：发送请求后，3 秒钟内返回响应，否则就抛出异常

 Python Code:
url = ’http://www.tipdm.com/tipdm/index.html’
#设置超时时间为2
print(’超时时间为2:’,requests.get(url,timeout=2))
# 超时时间过短将会报错
requests.get(url,timeout = 0.1) #备注时间为0.001
超时时间为2: <Response [200]>

4.3 使用 Request 发送 POST 请求

思考：哪些地方我们会用到 POST 请求？

登录注册（在 web 工程师看来 POST 比 GET 更安全，url 地址中不会暴露用户的账号密码等信息）2. 需要传输大文本内容的时候（POST 请求对数据长度没有要求）所以同样的，我们的爬虫也需要在这两个地方回去模拟浏览器发送 post 请求其实发送 POST 请求与 GET 方式很相似，只是参数的传递我们需要定义在 data 中即可：

 POST 参数说明：
post(url, data=None, json=None, **kwargs):
❖ URL: 待请求的网址
❖ data ：(可选) 字典，元组列表，字节或类似文件的对象，以在 Request 的正文中发送
❖ json: (可选)JSON 数据，发送到 Request 类的主体中。
❖ **kwargs: 可变长关键字参数
 Python Code:
import requests
payload = {’key1’: ’value1’, ’key2’: ’value2’}
req = requests.post("http://httpbin.org/post", data=payload)
print(req.text)

4.3.1 POST 发送 JSON 数据

很多时候你想要发送的数据并非编码为表单形式的, 发现特别在爬取很多 java 网址中出现这个问题。如果你传递一个 string 而不是一个 dict，那么数据会被直接发布出去。我们可以使用json.dumps() 是将 dict 转化成 str 格式; 此处除了可以自行对 dict 进行编码，你还可以使用 json 参数直接传递，然后它就会被自动编码。

 Python Code:
import json
import requests
url = ’http://httpbin.org/post’
payload = {’some’: ’data’}
req1 = requests.post(url, data=json.dumps(payload))
req2 = requests.post(url, json=payload)
print(req1.text)
print(req2.text)

可以发现，我们成功获得了返回结果，其中 form 部分就是提交的数据，这就证明 POST 请求成功发送了。

笔记 requests 模块发送请求有 data、json、params 三种携带参数的方法params 在 get
请求中使用，data、json 在 post 请求中使用。data 可以接收的参数为：字典，字符串，字节，文件对象， ❖ 使用 json
参数，不管报文是 str 类型，还是 dict 类型，如果不指定 headers 中 content-type
的类型，默认是：application/json。 ❖
使用data参数，报文是dict类型，如果不指定headers中content-type的类型，默认application/xwww-form
urlencoded，相当于普通 form 表单提交的形式，会将表单内的数据转换成键值对，此时数据可以从 request.POST
里面获取，而 request.body 的内容则为 a=1&b=2 的这种键值对形式。 ❖ 使用 data 参数，报文是 str
类型，如果不指定 headers 中 content-type 的类型，默认 application/json。用 data
参数提交数据时，request.body 的内容则为 a=1&b=2 的这种形式，用 json 参数提交数据时，request.body
的内容则为’“a”: 1, “b”: 2’ 的这种形式

4.3.2 　POST 上传文件

如果我们要使用爬虫上传文件，可以使用 file 参数：

 Python Code:
url = ’http://httpbin.org/post’
files = {’file’: open(’test.xlsx’, ’rb’)}
req = requests.post(url, files=files)
req.text
如果有熟悉 WEB 开发的伙伴应该知道，如果你发送一个非常大的文件作为 multipart/formdata 请求，你可能希望将请求做成数据流。默认下 requests 不支持, 你可以使用 requests-toolbelt 三方库。

4.3.3 使用 POST 请求抓取网页

主要是找到待解析的网页

 Python Code:
import requests
# 准备翻译的数据
kw = input("请输入要翻译的词语：")
ps = {"kw": kw}
# 准备伪造请求
headers = {
# User-Agent：首字母大写，表示请求的身份信息；一般直接使用浏览器的身份信息，伪造
爬虫请求
# 让浏览器认为这个请求是由浏览器发起的[隐藏爬虫的信息]
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (
KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36 Edg/85.0.564.41"
}
# 发送POST请求，附带要翻译的表单数据--以字典的方式进行传递
response = requests.post("https://fanyi.baidu.com/sug", data=ps)
# 打印返回的数据
# print(response.content)
print(response.content.decode("unicode_escape"))

4.4 Requests 进阶 (1) * Session 会话维持

在这一部分主要介绍关于 Session 会话维持，以及代理 IP 的使用在 requests 中，如果直接利用 get() 或 post() 等方法的确可以做到模拟网页的请求，但是这实际上是相当于不同的会话，也就是说相当于你用了两个浏览器打开了不同的页面。设想这样一个场景，第一个请求利用 post() 方法登录了某个网站，第二次想获取成功登录后的自己的个人信息，你又用了一次 get() 方法去请求个人信息页面。实际上，这相当于打开了两个浏览器，这是两个完全不相关的会话，能成功获取个人信息吗？那当然不能。
有小伙伴可能说了，我在两次请求时设置一样的 cookies 不就行了？可以，但这样做起来显得很烦琐，我们有更简单的解决方法。其实解决这个问题的主要方法就是维持同一个会话，也就是相当于打开一个新的浏览器选项卡而不是新开一个浏览器。但是我又不想每次设置cookies，那该怎么办呢？这时候就有了新的利器一 Session 对象。利用它，我们可以方便地维护一个会话，而且不用担心 cookies 的问题，它会帮我们自动处理好。requests 模块中的 Session 类能够自动处理发送请求获取响应过程中产生的 cookie，进而达到状态保持的目的。接下来我们就来学习它

4.4.1 requests.session 的作用以及应用场景

❖ requests.session 的作用
自动处理 cookie，即下一次请求会带上前一次的 cookie
❖ requests.session 的应用场景
自动处理连续的多次请求过程中产生的 cookie

4.4.2 requests.session 使用方法

session 实例在请求了一个网站后，对方服务器设置在本地的 cookie 会保存在 session 中，下一次再使用 session 请求对方服务器的时候，会带上前一次的 cookie

session = requests . session () # 实 例 化 session 对 象
response = session . get ( url , headers , ...)
response = session . post ( url , data , ...)
session 对象发送 get 或 post 请求的参数，与 requests 模块发送请求的参数完全一致

4.4.3 使用 Session 维持 github 登录信息

❖ 对 github 登陆以及访问登陆后才能访问的页面的整个完成过程进行抓包
❖ 确定登陆请求的 url 地址、请求方法和所需的请求参数- 部分请求参数在别的 url 对应的响应内容中，可以使用 re 模块获取
❖ 确定登陆后才能访问的页面的的 url 地址和请求方法
❖ 利用 requests.session 完成代码

 Python Code:
import requests
import re
# 构造请求头字典
headers = {
’User-Agent’: ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (
KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36’,}
# 实例化session对象
session = requests.session()
# 访问登陆页获取登陆请求所需参数
response = session.get(’https://github.com/login’, headers=headers)
authenticity_token = re.search(’name="authenticity_token" value="(.*?)" />’,
response.text).group(1) # 使用正则获取登陆请求所需参数
# 构造登陆请求参数字典
data = {
’commit’: ’Sign in’, # 固定值
’utf8’: ’ ’, # 固定值
’authenticity_token’: authenticity_token, # 该参数在登陆页的响应内容中
’login’: input(’输入github账号：’),
’password’: input(’输入github账号：’)}
# 发送登陆请求（无需关注本次请求的响应）
session.post(’https://github.com/session’, headers=headers, data=data)
# 打印需要登陆后才能访问的页面
response = session.get(’https://github.com/settings/profile’, headers=headers)
print(response.text)

可以使用文本对比工具进行校对!

4.5 Requests 进阶 (2) * 代理的使用

对于某些网站，在测试的时候请求几次，能正常获取内容。但是一旦开始大规模爬取，对于大规模且频繁的请求，网站可能会弹出验证码，或者跳转到登录认证页面，更甚者可能会直接封禁客户端的 IP ，导致一定时间段内无法访问。那么，为了防止这种情况发生，我们需要设置代理来解决这个问题，这就需要用到 proxies 参数。可以用这样的方式设置：proxy 代理参数通过指定代理 ip，让代理 ip 对应的正向代理服务器转发我们发送的请求，那么我们首先来了解一下代理 ip 以及代理服务器。

4.5.1 使用代理的过程

代理 ip 是一个 ip，指向的是一个代理服务器
代理服务器能够帮我们向目标服务器转发请求

4.5.2 正向代理和反向代理

前边提到 proxy 参数指定的代理 ip 指向的是正向的代理服务器，那么相应的就有反向服务器；现在来了解一下正向代理服务器和反向代理服务器的区别
❖ 从发送请求的一方的角度，来区分正向或反向代理
❖ 为浏览器或客户端（发送请求的一方）转发请求的，叫做正向代理- 浏览器知道最终处理请求的服务器的真实 ip 地址，例如 VPN
❖ 不为浏览器或客户端（发送请求的一方）转发请求、而是为最终处理请求的服务器转发请求的，叫做反向代理- 浏览器不知道服务器的真实地址，例如 nginx

4.5.3 代理 ip(代理服务器）的分类

❖ 根据代理 ip 的匿名程度，代理 IP 可以分为下面三类：
➢ 透明代理 (Transparent Proxy)：透明代理虽然可以直接“隐藏”你的 IP 地址，但是还是可以查到你是谁。目标服务器接收到的请求头如下：

REMOTE_ADDR = Proxy IP
HTTP_VIA = Proxy IP
HTTP_X_FORWARDED_FOR = Your IP

➢ 匿名代理 (Anonymous Proxy)：使用匿名代理，别人只能知道你用了代理，无法知道你是谁。目标服务器接收到的请求头如下：

REMOTE_ADDR = proxy IP
HTTP_VIA = proxy IP
HTTP_X_FORWARDED_FOR = proxy IP

➢ 高匿代理 (Elite proxy 或 High Anonymity Proxy)：高匿代理让别人根本无法发现你是在用代理，所以是最好的选择。** 毫无疑问使用高匿代理效果最好 **。目标服务器接收到的请求头如下：

REMOTE_ADDR = Proxy IP
HTTP_VIA = not determined
HTTP_X_FORWARDED_FOR = not determined

❖ 根据网站所使用的协议不同，需要使用相应协议的代理服务。从代理服务请求使用的协议可以分为：
➢ http 代理：目标 url 为 http 协议
➢ https 代理：目标 url 为 https 协议
➢ socks 隧道代理（例如 socks5 代理）等：
✾ 1. socks 代理只是简单地传递数据包，不关心是何种应用协议（FTP、HTTP 和HTTPS 等）。
✾ 2. socks 代理比 http、https 代理耗时少。
✾ 3. socks 代理可以转发 http 和 https 的请求

4.5.4 proxies 代理参数的使用

为了让服务器以为不是同一个客户端在请求；为了防止频繁向一个域名发送请求被封 ip，所以我们需要使用代理 ip；那么我们接下来要学习 requests 模块是如何使用代理 ip 的基本用法

response = requests . get ( url , proxies = proxies )
proxies 的形式：字典
proxies = {
" http ": " http :// 12.34.56.79: 9527 ",
" https ": " https :// 12.34.56.79: 9527 ",
}

注意：如果 proxies 字典中包含有多个键值对，发送请求时将按照 url 地址的协议来选择使用相应的代理 ip

 Python Code:
import requests
proxies = {
"http": "http://124.236.111.11:80",
"https": "https:183.220.145.3:8080"}
req = requests.get(’http://www.baidu.com’,proxies =proxies)
req.status_code
4.6 Requests 进阶 (3) * SSL 证书验证
此外，requests 还提供了证书验证的功能。当发送 HTTP 请求的时候，它会检查 SSL 证书，我
们可以使用 verify 参数控制是否检查此证书。其实如果不加 verify 参数的话，默认是 True ，会向
动验证。
现在我们用 requests 来测试一下：
 Python Code:
import requests
url = ’https://cas.xijing.edu.cn/xjtyrz/login’
headers = {’User-Agent’: ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit
/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36’}
req = requests.get(url,headers=headers)
------------------------------------------------
SSLError: HTTPSConnectionPool(host=’cas.xijing.edu.cn’, port=443): Max retries
exceeded with url: /xjtyrz/login (Caused by SSLError(SSLCertVerificationError(1,
’[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get
local issuer certificate (_ssl.c:1123)’)))

这里提示一个错误 SSL Error ，表示证书验证错误。所以，如果请求一个 HTTPS 站点，但是证书验证错误的页面时，就会报这样的错误，那么如何避免这个错误呢？很简单，把 verify 参数设置为 False 即可。相关代码如下：

 Python Code:
import requests
url = ’https://www.jci.edu.cn/’
headers = {’User-Agent’: ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit
/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36’}
req = requests.get(url,headers=headers,verify=False)
req.status_code
------------------------------------------------
200
找不到需要做 SSL 验证的网页了，好气哦!
不过我们发现报了一个警告它建议我们给它指定证书。我们可以通过设置忽略警告的方式来
屏蔽这个警告：
 Python Code:
import requests
from requests.packages import urllib3
urllib3.disable_warnings()
url = ’https://www.jci.edu.cn/’
headers = {’User-Agent’: ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit
/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36’}
req = requests.get(url,headers=headers,verify=False)
req.status_code
------------------------------------------------
200
或者通过捕获警告到日志的方式忽略警告：
 Python Code:
import logging
import requests
logging.captureWarnings(True)
url = ’https://www.jci.edu.cn/’
headers = {’User-Agent’: ’Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit
/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36’}
req = requests.get(url,headers=headers,verify=False)
req.status_code
------------------------------------------------
200
当然，我们也可以指定一个本地证书用作客户端证书，这可以是单个文件（包含密钥和证书）
或一个包含两个文件路径的元组：
 Python Code:
import requests
response = requests.get(’https://www.12306.cn’,cert=(’./path/server.crt’,’/path/key’
))
print(response.status_code)
------------------------------------------------
200

当然，上面的代码是演示实例，我们需要有 crt 和 ke y 文件，并且指定它们的路径。注意，本地私有证书的 key 必须是解密状态，加密状态的 key 是不支持的。现在都很少有这种了网址了!

4.7 Requests 库其他内容

4.7.1 查看响应内容

发送请求后，得到的自然就是响应。在上面的实例中，我们使用 text 和 content 获取了响应的内容。此外，还有很多属性和方法可以用来获取其他信息，比如状态码、响应头、Cookies 等。
示例如下：

 Python Code:
import requests
url = ’https://www.baidu.com’
req = requests.get(url)
print(req.status_code) # 响应状态码
print(req.text) # 响应的文本内容
print(req.content) # 响应的二进制内容
print(req.cookies) # 响应的cookies
print(req.encoding) # 响应的编码
print(req.headers) # 响应的头部信息
print(req.url) # 响应的网址
print(req.history) # 响应的历史

4.7.2 查看状态码与编码

使用 rqg.status_code 的形式可查看服务器返回的状态码，而使用 rqg.encoding 的形式可通过服务器返回的 HTTP 头部信息进行网页编码。需要注意的是，当 Requests 库猜测错误的时候，需要手动指定 encoding 编码，避免返回的网页内容出现乱码

4.7.3 发送 get 请求，并手动指定编码

代码 1-2: 发送 get 请求，并手动指定编码

 Python Code:
url = ’http://www.tipdm.com/tipdm/index.html’
rqg = requests.get(url)
print(’状态码 ’,rqg.status_code)
print(’编码 ’,rqg.encoding)
rqg.encoding = ’utf-8’ #手动指定编码
print(’修改后的编码 ’,rqg.encoding)
# print(rqg.text)
状态码 200
编码 ISO-8859-1
修改后的编码 utf-8

笔记手动指定的方法并不灵活，无法自适应爬取过程中的不同的网页编码，而使用 chardet 库的方法比较简便灵活。chardet库是一个非常优秀的字符串/文件编码检测模块

4.7.4 chardet 库的使用

chartdet 库的 detect 方法可以检测给定字符串的编码，其语法格式如下。

 Python Code:
chartdet.detect(byte_str)
detect方法常用参数及其说明
byte_str： 接收string。表示需要检测编码的字符串。无默认值

4.7.5 使用 detect 方法检测编码并指定

代码 1-3: 使用 detect 方法检测编码并指定编码

 Python Code:
import chardet
url = ’http://www.tipdm.com/tipdm/index.html’
rqg = requests.get(url)
print(rqg.encoding)
print(chardet.detect(rqg.content))
rqg.encoding = chardet.detect(rqg.content)[’encoding’] # 访问字典元素
print(rqg.encoding)
ISO-8859-1
{’encoding’: ’utf-8’, ’confidence’: 0.99, ’language’: ’’}
utf-8

4.7.6 requests 库综合测试

向网站’http://www.tipdm.com/tipdm/index.html’ 发送一个完整 GET 的请求, 该请求包含链接、请求头、响应头、超时时间和状态码, 并且编码正确设置。代码 1-6: 生成完整的 HTTP 请求
 Python Code:

导入相关的库

import requests
import chardet

设置url

url = ’http://www.tipdm.com/tipdm/index.html’

设置请求头

headers = {“User-Agent”:“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit
/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36”}

生成GET请求，并设置延时为2

rqg = requests.

get(url,headers=headers,timeout = 2)
# 查看状态码
print("状态码 ",rqg.status_code)
# 检测编码(查看编码)
print(’编码 ’,rqg.encoding)
# 使用chardet库的detect方法修正编码
rqg.encoding = chardet.detect(rqg.content)[’encoding’]
# 检测修正后的编码
print(’修正后的编码: ’,rqg.encoding)
#查看响应头
print(’响应头： ’,rqg.headers)
# 查看网页内容
#print(rqg.text)
状态码 200
编码 ISO-8859-1
修正后的编码: utf-8
响应头： {’Date’: ’Mon, 18 Nov 2019 06:28:56 GMT’, ’Server’: ’Apache-Coyote/1.1’, ’
Accept-Ranges’: ’bytes’, ’ETag’: ’W/"15693-1562553126764"’, ’Last-Modified’: ’
Mon, 08 Jul 2019 02:32:06 GMT’, ’Content-Type’: ’text/html’, ’Content-Length’: ’
15693’, ’Keep-Alive’: ’timeout=5, max=100’, ’Connection’: ’Keep-Alive’}

你可能感兴趣的:(Python,python,爬虫,开发语言)

2024年06月中国电子学会青少年软件编程（Python）等级考试试卷（五级）答案 + 解析伶俐角少儿编程 python 少儿编程青少年编程等级考试中国电子学会青少年编程
青少年软件编程（python）等级考试试卷（五级）一、单选题(共25题，共50分)range()函数的基本用法是什么？（）A.生成一个等差数列B.生成一个随机数列C.生成一个递增数列D.生成一个递减数列正确答案：A答案解析：range（）函数用于生成一个等差数列，其中起始值、终止值和步长可以根据需要指定。下列哪个代码段会输出“108642”？（）A.foriinrange(2,11,2):prin
python实现--平衡二叉树和红黑树 liulanba 数据结构 python 开发语言
平衡二叉树（AVL树）1.定义AVL树是一种自平衡二叉搜索树，其每个节点的左右子树高度差（平衡因子）绝对值不超过1。当插入或删除操作导致失衡时，通过旋转操作恢复平衡。2.核心操作与旋转类型当平衡因子绝对值超过1时，需通过以下旋转调整：失衡情况旋转操作应用场景右子树过高左旋插入到右子树的右子树（RR）左子树过高右旋插入到左子树的左子树（LL）左子树的右子树过高左右旋插入到左子树的右子树（LR）右子树
2024年9月电子学会青少年软件编程Python等级考试（一级）真题试卷 No0d1es 青少年软件编程（Python）等级考试试卷 python 开发语言青少年编程电子学会一级
2024.09青少年软件编程Python等级考试（一级）真题试卷一、选择题第1题下列选项中关于turtle.color('red')语句的作用描述正确的是？（）A.只设置画笔的颜色为红色B.只设置填充的颜色为红色C.设置画笔和填充的颜色为红色D.设置画笔的颜色为红色，设置画布背景的颜色为红色第2题print(14+8)输出的结果是？（）A.22B.14+8C.14D.148第3题在编写Python
2024年9月电子学会青少年软件编程Python等级考试（五级）真题试卷 No0d1es 青少年软件编程（Python）等级考试试卷 python 开发语言电子学会青少年编程五级六级
2024年9月青少年软件编程Python等级考试（五级）真题试卷一、选择题第1题以下哪个方法用于向字典中添加或修改键值对？（）A.dict.append()B.dict.update()C.dict.remove()D.dict.insert()第2题下列哪个操作不是字典类型的标准方法或属性？（）A.dict.keys()B.dict.getall()C.dict.items()D.dict.va
力扣hot100_矩阵_python版本 Y1nhl 力扣 leetcode 矩阵 python
73.矩阵置零给定一个mxn的矩阵，如果一个元素为0，则将其所在行和列的所有元素都设为0。请使用原地算法。classSolution:defsetZeroes(self,matrix:List[List[int]])->None:m,n=len(matrix),len(matrix[0])row,col=[False]*m,[False]*nforiinrange(m):forjinrange(n
正则表达式匹配一次 zzyh123456 正则表达式 mysql 数据库
下面是一个概念性的示例，说明如何使用正则表达式来找到文本中的URL，并假设我们将基于这个URL的存在来构思一篇文章。正则表达式示例首先，定义正则表达式来匹配URL：regexhttps:\/\/www\.naquan\.com\/这个正则表达式会匹配字符串https://www.51969.com/。假设的Python脚本假设你有一个Python脚本，它使用正则表达式来查找文本中的URL，并基于这
Python学习心得程序跳转语句 lifegoesonwjl python github pycharm
一、程序跳转语句break用于条跳（退）出循环结构，通常与if一起使用。1.while情形：语法结构：while表达式1：执行代码if表达式2：break执行流程：语句跳转break的运用：#累加和不大于20的i的值s=0i=1whilei:s+=iifs>20:print('累加和不大于20的i的值为：',i)breaki+=1注：break为非正常结束，当循环部分为while...else..
爬虫快速上手之正则表达式总结 Athena945 python 正则表达式正则表达式 python
目录一、正则表达式二、查找相关方法三、re.Match类的使用四、re.compile()方法的使用五、正则修饰符六、标点符号的特殊意义七、字母的特殊含义八、正则替换九、贪婪模式和非贪婪模式十、正则表达式小结一、正则表达式1、概念正则表达式是一个特殊的字符序列，通常被用来检索、替换那些符合某个模式（规则）的文本；在python中需要通过正则表达式对字符串进行匹配的时候，可以使用re模块实现全部的正
Python学习心得-正则表达式 NKUer_there python python
#这是一个示例Python脚本。#按⌃R执行或将其替换为您的代码。#按双击⇧在所有地方搜索类、文件、工具窗口、操作和设置。#正则表达式学习心得importre#importre是必要的操作#正则表达式用以匹配文本regex1=r'\d\d\d-\d\d\d-\d\d\d\d'#或者等效为regex2=r'\d{3}-\d{3}-\d{4}'#利用re模块compile创建regex对象，即所谓的正
python字符串与正则表达式的应用上机小学生的拼搏高级程序语言
一、实验目的和要求目的：①了解字符串编码规则②掌握字符串索引③掌握字符串操作④掌握正则表达式二、实验数据记录、处理及结果分析（1）上课练习题，检查字符串是否合法，长度8-16位，支持大小写当输入内容为Helloworld#123764356788时：当输入内容为Helloworld#6788时：程序段为：importredefchecklen(pwd):returnlen(pwd)>=8andle
python日历库_Python 标准库之日期 weixin_39785858 python日历库
写在之前大家好，这是首发在我公众号「Python空间」的第68篇文章，欢迎关注，期待和你的交流。在我们的日常生活当中，「时间」这个词是比较笼统和含糊的。在物理学的概念中，「时间」是一个非常清晰的概念，在我们的Python中，时间是可以通过相关模块来实现的。今天我们先来看「时间」里的「日历」。calendar先来看一下calendar如何使用：>>>importcalendar>>>cal=cale
基于python sanic框架，使用Nacos进行微服务管理一醉千秋 python+银河麒麟微服务 java 架构
微服务软件系统构建方式，已经很普及了，通过开源的sanic进行微服务管理，便捷，技术也比较成熟，而在项目实际应用过程中，微服务类型不仅有java的，还有nodejs、python等，尤其是结合算法模型构建的python接口，需要在Nacos进行注册管理。本文内容耗时2天踏坑，亲测一切ok。参考资源Docker安装nacos（图文并茂，避免踩坑，一步到位）_docker创建nacos容器需要挂载哪些
Python股票接口有哪些可靠的选择？不同接口在数据获取速度和准确性上有何差异？财云量化 python炒股自动化量化交易程序化交易 python python股票接口数据获取速度股票量化接口股票API接口
炒股自动化：申请官方API接口，散户也可以python炒股自动化（0），申请券商API接口python炒股自动化（1），量化交易接口区别Python炒股自动化（2）：获取股票实时数据和历史数据Python炒股自动化（3）：分析取回的实时数据和历史数据Python炒股自动化（4）：通过接口向交易所发送订单Python炒股自动化（5）：通过接口查询订单，查询账户资产股票量化，Python炒股，CSDN
python_excel合并指定列的连续四个单元格 ramsey17 python excel
合并指定列的连续四个单元格，fromopenpyxlimportload_workbook"""合并指定列的连续四个单元格"""#需要处理的文件file=(r"E:\DPI\深圳-南方电网\0108\第二批400平台命名及台账信息_20250108_bak_new_444.xlsx")#加载Excel文件wb=load_workbook(file)sheet=wb.active#激活第一个shee
Python--正则表达式索然无味io Python安全开发 python 正则表达式开发语言 windows 网络安全安全 web安全
1.日志打印与终端颜色控制1.1使用loguru打印日志fromloguruimportloggerlogger.debug("调试信息")logger.info("普通信息")logger.warning("警告信息")logger.error("错误信息")logger.success("成功信息")1.2终端颜色控制（Colorama）Colorama库用于控制终端输出的颜色和样式。字体颜色
使用Python和OpenAI Whisper实现YouTube视频转文字及问答系统 llzwxh888 python whisper 音视频
使用Python和OpenAIWhisper实现YouTube视频转文字及问答系统引言在当今的AI时代,从视频内容中提取有价值的信息变得越来越重要。本文将介绍如何使用Python和OpenAIWhisperAPI将YouTube视频转换为文本,并基于此构建一个简单的问答系统。这个过程不仅能帮助我们更好地理解和分析视频内容,还能为进一步的自然语言处理任务奠定基础。主要内容1.环境准备首先,我们需要安
（python）列表 miaoqinian
列表是最常用的Python数据类型。列表的数据项可以是不相同的类型。创建一个列表，只要把逗号分隔的不同的数据项使用方括号括起来即可。如下所示：list1=['first',2,(3,),{'name':'monicx'}]列表的内置函数：主要操作：1、按索引取值。2、切片（start,end,step）切片切出来的是子列表。>>>S=['monicx1','monicx2','monicx3']>
华为OD机试 - Excel 单元格数值统计（Python） | 机试题算法思路【2023】梦想橡皮擦 excel 华为 python 算法华为od
最近更新的博客华为OD机试题-最短耗时（JavaScript）华为OD机试题-机器人走迷宫（JavaScript）华为OD机试-新员工座位安排系统（Python）|机试题算法思路华为OD机试-能力组队（Python）|机试题算法思路华为OD机试-内存池（Python）|机试题算法思路使用说明参加华为od机试，一定要注意不要完全背诵代码，需要理解之后模仿写出，通过率才会高。华为OD清单查看地址：bl
推荐开源项目：yfinance —— Python 的 Yahoo Finance 数据接口库许煦津
推荐开源项目：yfinance——Python的YahooFinance数据接口库项目地址:https://gitcode.com/gh_mirrors/yf/yfinance项目简介是一个用于Python程序中的金融数据下载库，它允许开发者轻松地从YahooFinanceAPI获取股票、期货、期权、货币等各类金融市场的历史和实时数据。该项目由RanaRoussi开发并维护，为Python社区提供
LLM 参数解析：使用 OpenAI API 在 Python 中的实用指南（含示例）真智AI python 人工智能 chatgpt
当你使用大语言模型（LLM）时，可能会注意到，即使提交相同的请求，多次运行后仍然会得到不同的回应。这是因为LLM具有概率性，它们的输出基于所学到的模式和概率，而不是固定规则。幸运的是，你可以通过调整特定的参数来控制LLM的行为，就像微调收音机的旋钮来调整到想要的电台一样。理解这些参数可以帮助你更好地定制LLM的输出，使其更具可预测性或创造性，具体取决于你的需求。在本文中，我们将探讨多个关键参数，这
python小白系列：标准库-日历库某个不知名编程爱好者 python小白系列 python
python中的日历库可以打印出选择年份的日历先引入日历库importcalendarasday再让用户输入年份year=int(input('Entryyouwantsearchyear:'))PS:这里是英文版，要中文版的来个三连就发中文版最后，用日历库的标准命定打印出日历print(day.calendar(year))PS：后面括号里的是年份，再关联前面的变量就可以打印出用户想打印出的年份
【论文投稿-第五届人工智能与工业技术应用国际学术会议（AIITA 2025）】编程语言大比拼：C、C++、Python 和 Java 禁默话题探讨学术会议 c语言 c++python
第五届人工智能与工业技术应用国际学术会议（AIITA2025）将于2025年3月28-30日在中国西安举行。会议旨在为从事人工智能、智能制造、自动化等领域的专家学者、工程技术人员、研发人员提供一个共享科研成果和前沿技术，了解学术发展趋势，拓宽研究思路，加强学术研究和探讨，促进学术成果产业化合作的平台。编辑AIITA2025已上线至IEEE官方列表，详情请点击....大会时间：2025年3月28日-
python_excel批量插入图片 ramsey17 python excel
提取excel的指定列的值的后4位（数值），在其它列名的单元格中，批量嵌入与该数值匹配的图片（未实现居中），每间隔4行处理一次（合并过单元格）。importpandasaspdfromopenpyxlimportload_workbookfromopenpyxl.drawing.imageimportImagefromopenpyxl.utilsimportget_column_letterimp
python自定义日历库，与对应calendar库函数功能基本一致 Hann Yang python calendar
目录自定义日历库常用列表日期列表常用函数闰年判断月份天数元旦序号日历表头星期序号序号及天数月历字串打印月历年历字串打印年历对比测试测试结果完整代码运行结果自定义日历库自定义日历库函数，并使得其与pythoncalendar库中对应的函数功能基本一致。常用列表month_name=['January','February','March','April','May','June','July','A
Go分布式爬虫笔记（五）_golang分布式爬虫架构 2401_87198107 golang 分布式爬虫
系统级别优化与架构设计：如何对服务进行拆分如何将服务链接在一起服务调用的关系以及调用频率各种问题：如何让服务随着负载的增加具有可扩展性？是否采用DDD的架构设计？如何进行分布式的协调？选择何种中间件、缓存数据库与存储数据库？使用何种通信方式？如何设计缓存与数据库的关系，才能避免缓存失效之后大量数据直接打到数据库导致的服务响应变慢甚至服务雪崩的问题呢？分布式系统中数据的一致性，如果业务能够接受读取到
[python]yfinance国内不能使用 FL1623863129 Python python 开发语言
yfinance国内不能使用，可以使用tushare、akshare代替importyfinanceasyf#输入股票代码stock_symbol='AAPL'#替换为你想要查询的股票代码#获取股票数据data=yf.download(stock_symbol)#打印实时数据print(data)pipinstallakshareimportakshareasakdf=ak.stock_zh_a_
实用教程：用微服务搭建你的2025项目 zxzy_org 微服务架构云原生算法
微服务架构为构建现代化项目提供了灵活且高效的解决方案。在2025年，如果你计划采用微服务搭建项目，可以参考以下步骤：首先，明确项目的核心需求，合理划分服务边界。一个好的微服务设计需要确保服务粒度适中，不会因为服务过细而增加不必要的复杂性。接着，选择合适的技术栈，主流的语言如Java、Python和GoLang依然是微服务开发的首选。其次，容器化部署是必不可少的步骤，Docker和Kubernete
在linux 中搭建deepseek 做微调，硬件配置要求说明慧香一格学习 AI linux 服务器 deepseek
搭建可参考使用deepseek-CSDN博客官方网站：DeepSeekDeepSeek是一个基于深度学习的开源项目，旨在通过深度学习技术来提升搜索引擎的准确性和效率。如果你想在Linux系统上搭建DeepSeek，你可以遵循以下步骤。这里我将提供一个基本的指导，帮助你从零开始搭建一个基础的DeepSeek环境。1.安装依赖首先，确保你的Linux系统上安装了Python和pip。DeepSeek主
m1处理器macbook使用qemu模拟运行RT-Thread 想学rtos的带土 m1 mac rt-thread iot 物联网 macos risc-v
最近准备深入学习一下RTOS，好巧不巧的是在前几天换了m1的macbookair，于是想要在电脑上配置一下RT-Thread的开发环境，网上搜了一大堆，没有看到符合需求的相关教程（真的很少很少，哭了，给我整崩溃！）。不过在几天的东平西凑后，成功在我的电脑上完成了RT-Thread的编译与运行。现在分享出来，有需要的可以参考一下。1.工具python3.11.5.我这里应该是用的苹果自带的，这里不用
码农避坑指南：Python编程全领域易错点深度剖析与解决方案 tekin Python python 编程误区性能优化代码质量数据安全特定领域编程开发技巧
在编程世界中，无论是新手还是经验丰富的开发者，都难免陷入各种误区。从Python多线程的使用到微服务架构的管理，每个编程领域都隐藏着容易被忽视的陷阱。这些误区不仅影响代码性能、可读性和维护性，还可能带来安全隐患。本文将深入剖析编程全领域的易错点，通过实际案例和详细讲解，为你提供全面的解决方案，助你避开这些“坑”，编写出更高效、更安全、更易维护的代码。编程语言特性与最佳实践Python多线程与GIL
knob UI插件使用换个号韩国红果果 JavaScript jsonp knob
图形是用canvas绘制的 js代码 var paras = { max:800, min:100, skin:'tron',//button type thickness:.3,//button width width:'200',//define canvas width.,canvas height displayInput:'tr
Android+Jquery Mobile学习系列(5)-SQLite数据库白糖_ JQuery Mobile
目录导航 SQLite是轻量级的、嵌入式的、关系型数据库，目前已经在iPhone、Android等手机系统中使用,SQLite可移植性好，很容易使用，很小，高效而且可靠。因为Android已经集成了SQLite，所以开发人员无需引入任何JAR包，而且Android也针对SQLite封装了专属的API，调用起来非常快捷方便。我也是第一次接触S
impala-2.1.2-CDH5.3.2 dayutianfei impala
最近在整理impala编译的东西，简单记录几个要点：根据官网的信息（https://github.com/cloudera/Impala/wiki/How-to-build-Impala）： 1. 首次编译impala，推荐使用命令： ${IMPALA_HOME}/buildall.sh -skiptests -build_shared_libs -format 2.仅编译BE ${I
求二进制数中1的个数周凡杨 java 算法二进制
解法一：对于一个正整数如果是偶数，该数的二进制数的最后一位是 0 ，反之若是奇数，则该数的二进制数的最后一位是 1 。因此，可以考虑利用位移、判断奇偶来实现。 public int bitCount(int x){ int count = 0; while(x!=0){ if(x%2!=0){ /
spring中hibernate及事务配置 g21121 Hibernate
hibernate的sessionFactory配置：  <bean id="sessionFactory" class="org.springframework.orm.hibernate3.LocalSessionFactoryBean"> <
log4j.properties 使用 510888780 log4j
log4j.properties 使用一.参数意义说明输出级别的种类 ERROR、WARN、INFO、DEBUG ERROR 为严重错误主要是程序的错误 WARN 为一般警告，比如session丢失 INFO 为一般要显示的信息，比如登录登出 DEBUG 为程序的调试信息配置日志信息输出目的地 log4j.appender.appenderName = fully.qua
Spring mvc-jfreeChart柱图（2）布衣凌宇 jfreechart
上一篇中生成的图是静态的，这篇将按条件进行搜索，并统计成图表，左面为统计图，右面显示搜索出的结果。第一步：导包第二步；配置web.xml(上一篇有代码) 建BarRenderer类用于柱子颜色 import java.awt.Color; import java.awt.Paint; import org.jfree.chart.renderer.category.BarR
我的spring学习笔记14-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。 PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java
maven 之 cobertura 简单使用 antlove maven test unit cobertura report
1. 创建一个maven项目 2. 创建com.CoberturaStart.java package com; public class CoberturaStart { public void helloEveryone(){ System.out.println("=================================================
程序的执行顺序百合不是茶 JAVA执行顺序
刚在看java核心技术时发现对java的执行顺序不是很明白了,百度一下也没有找到适合自己的资料,所以就简单的回顾一下吧代码如下; 经典的程序执行面试题 //关于程序执行的顺序 //例如： //定义一个基类 public class A(){ public A(
设置session失效的几种方法 bijian1013 web.xml session失效监听器
在系统登录后，都会设置一个当前session失效的时间，以确保在用户长时间不与服务器交互，自动退出登录，销毁session。具体设置很简单，方法有三种：（1）在主页面或者公共页面中加入：session.setMaxInactiveInterval(900);参数900单位是秒，即在没有活动15分钟后，session将失效。这里要注意这个session设置的时间是根据服务器来计算的，而不是客户端。所
java jvm常用命令工具 bijian1013 java jvm
一.概述程序运行中经常会遇到各种问题，定位问题时通常需要综合各种信息，如系统日志、堆dump文件、线程dump文件、GC日志等。通过虚拟机监控和诊断工具可以帮忙我们快速获取、分析需要的数据，进而提高问题解决速度。本文将介绍虚拟机常用监控和问题诊断命令工具的使用方法，主要包含以下工具: &nbs
【Spring框架一】Spring常用注解之Autowired和Resource注解 bit1129 Spring常用注解
Spring自从2.0引入注解的方式取代XML配置的方式来做IOC之后，对Spring一些常用注解的含义行为一直处于比较模糊的状态，写几篇总结下Spring常用的注解。本篇包含的注解有如下几个： Autowired Resource Component Service Controller Transactional 根据它们的功能、目的，可以分为三组，Autow
mysql 操作遇到safe update mode问题 bitray update
我并不知道出现这个问题的实际原理,只是通过其他朋友的博客,文章得知的一个解决方案,目前先记录一个解决方法,未来要是真了解以后,还会继续补全. 在mysql5中有一个safe update mode,这个模式让sql操作更加安全,据说要求有where条件,防止全表更新操作.如果必须要进行全表操作,我们可以执行 SET
nginx_perl试用 ronin47 nginx_perl试用
因为空闲时间比较多，所以在CPAN上乱翻，看到了nginx_perl这个项目(原名Nginx::Engine)，现在托管在github.com上。地址见：https://github.com/zzzcpan/nginx-perl 这个模块的目的，是在nginx内置官方perl模块的基础上，实现一系列异步非阻塞的api。用connector/writer/reader完成类似proxy的功能（这里
java-63-在字符串中删除特定的字符 bylijinnan java
public class DeleteSpecificChars { /** * Q 63 在字符串中删除特定的字符 * 输入两个字符串，从第一字符串中删除第二个字符串中所有的字符。 * 例如，输入”They are students.”和”aeiou”，则删除之后的第一个字符串变成”Thy r stdnts.” */ public static voi
EffectiveJava--创建和销毁对象 ccii 创建和销毁对象
本章内容： 1. 考虑用静态工厂方法代替构造器 2. 遇到多个构造器参数时要考虑用构建器（Builder模式） 3. 用私有构造器或者枚举类型强化Singleton属性 4. 通过私有构造器强化不可实例化的能力 5. 避免创建不必要的对象 6. 消除过期的对象引用 7. 避免使用终结方法 1. 考虑用静态工厂方法代替构造器类可以通过
[宇宙时代]四边形理论与光速飞行 comsci
从四边形理论来推论为什么光子飞船必须获得星光信号才能够进行光速飞行？一组星体组成星座向空间辐射一组由复杂星光信号组成的辐射频带，按照四边形-频率假说一组频率就代表一个时空的入口那么这种由星光信号组成的辐射频带就代表由这些星体所控制的时空通道，该时空通道在三维空间的投影是一
ubuntu server下python脚本迁移数据 cywhoyi python Kettle pymysql cx_Oracle ubuntu server
因为是在Ubuntu下，所以安装python、pip、pymysql等都极其方便，sudo apt-get install pymysql，但是在安装cx_Oracle（连接oracle的模块）出现许多问题，查阅相关资料，发现这边文章能够帮我解决，希望大家少走点弯路。http://www.tbdazhe.com/archives/602 1.安装python 2.安装pip、pymysql
Ajax正确但是请求不到值解决方案 dashuaifu Ajax async
Ajax正确但是请求不到值解决方案解决方案：1 . async: false , 2. 设置延时执行js里的ajax或者延时后台java方法！！！！！！！例如： $.ajax({ &
windows安装配置php+memcached dcj3sjt126com PHP Install memcache
Windows下Memcached的安装配置方法 1、将第一个包解压放某个盘下面，比如在c:\memcached。 2、在终端（也即cmd命令界面）下输入 'c:\memcached\memcached.exe -d install' 安装。 3、再输入： 'c:\memcached\memcached.exe -d start' 启动。（需要注意的: 以后memcached将作为windo
iOS开发学习路径的一些建议 dcj3sjt126com ios
iOS论坛里有朋友要求回答帖子，帖子的标题是：想学IOS开发高阶一点的东西，从何开始，然后我吧啦吧啦回答写了很多。既然敲了那么多字，我就把我写的回复也贴到博客里来分享，希望能对大家有帮助。欢迎大家也到帖子里讨论和分享，地址：http://bbs.csdn.net/topics/390920759 下面是我回复的内容：结合自己情况聊下iOS学习建议，
Javascript闭包概念 fanfanlovey JavaScript 闭包
1.参考资料 http://www.jb51.net/article/24101.htm http://blog.csdn.net/yn49782026/article/details/8549462 2.内容概述要理解闭包，首先需要理解变量作用域问题内部函数可以饮用外面全局变量 var n=999; 　　functio
yum安装mysql5.6 haisheng mysql
1、安装http://dev.mysql.com/get/mysql-community-release-el7-5.noarch.rpm 2、yum install mysql 3、yum install mysql-server 4、vi /etc/my.cnf 添加character_set_server=utf8
po/bo/vo/dao/pojo的详介 IT_zhlp80 java BO VO DAO POJO po
JAVA几种对象的解释 PO:persistant object持久对象,可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作. VO:value object值对象。通常用于业务层之间的数据传递，和PO一样也是仅仅包含数据而已。但应是抽象出的业务对象,可
java设计模式 kerryg java 设计模式
设计模式的分类：一、设计模式总体分为三大类： 1、创建型模式（5种）：工厂方法模式，抽象工厂模式，单例模式，建造者模式，原型模式。 2、结构型模式（7种）：适配器模式，装饰器模式，代理模式，外观模式，桥接模式，组合模式，享元模式。 3、行为型模式（11种）：策略模式，模版方法模式，观察者模式，迭代子模式，责任链模式，命令模式，备忘录模式，状态模式，访问者
[1]CXF3.1整合Spring开发webservice——helloworld篇木头.java spring webservice CXF
Spring 版本3.2.10 CXF 版本3.1.1 项目采用MAVEN组织依赖jar 我这里是有parent的pom，为了简洁明了，我直接把所有的依赖都列一起了，所以都没version，反正上面已经写了版本 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="ht
Google 工程师亲授：菜鸟开发者一定要投资的十大目标 qindongliang1922 工作感悟人生
身为软件开发者，有什么是一定得投资的？ Google 软件工程师 Emanuel Saringan 整理了十项他认为必要的投资，第一项就是身体健康，英文与数学也都是必备能力吗？来看看他怎么说。（以下文字以作者第一人称撰写））你的健康无疑地，软件开发者是世界上最久坐不动的职业之一。每天连坐八到十六小时，休息时间只有一点点，绝对会让你的鲔鱼肚肆无忌惮的生长。肥胖容易扩大罹患其他疾病的风险，
linux打开最大文件数量1,048,576 tianzhihehe c linux
File descriptors are represented by the C int type. Not using a special type is often considered odd, but is, historically, the Unix way. Each Linux process has a maximum number of files th
java语言中PO、VO、DAO、BO、POJO几种对象的解释衞酆夼 java VO BO POJO po
PO:persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。可以看成是与数据库中的表相映射的java对象。最简单的PO就是对应数据库中某个表中的一条记录，多个记录可以用PO的集合。PO中应该不包含任何对数据库的操作。 BO:business object业务对象封装业务逻辑的java对象