王络不稳定

2021-11-03大数据学习日志——数据埋点+网络爬虫——requests 模块

requests 是用 python 语言编写的一个开源的HTTP库，可以通过 requests 库编写 python 代码发送网络请求，其简单易用，是编写爬虫程序时必知必会的一个模块。

requests 模块的作用

发送网络请求，获取响应数据。

中文文档： Requests: 让 HTTP 服务人类 — Requests 2.18.1 文档

requests 模块的安装

安装命令如下：

pip install requests
或者
pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple

具体安装运行如下图所示：

查看安装好的 requests 模块的信息

pip show requests

具体运行如下图所示：

01_requests 模块的基本使用

知识点：

掌握 requests 发送 GET 请求
掌握 response 对象的基本属性
掌握 response.text 和 response.content 的区别
掌握 requests 发送自定义请求头的方式
掌握 requests 发送带参数的get请求

1.1 requests 发送 GET 请求

使用 requests 模块发送 GET 请求的语法是: requests.get(url), 调用完该方法之后会返回一个 response 响应对象。

需求：通过 requests 向百度首页发送请求，获取百度首页的数据

# 1. 导入request模块
import requests

# 2. 准备目标url地址
url = 'https://www.baidu.com'

# 3. 向目标url地址发送get请求
response = requests.get(url)

# 4. 打印响应内容
print(response.text)

运行代码结果如下：

1.2 response 响应对象

观察上边代码运行结果发现，有好多乱码；这是因为编解码使用的字符集不同早造成的；我们尝试使用下边的办法来解决中文乱码问题。

代码如下:

# 1. 导入request模块
import requests

# 2. 准备目标url地址
url = 'https://www.baidu.com'

# 3. 向目标url地址发送get请求
response = requests.get(url)

# 4. 打印响应内容
# print(response.text)
print(response.content.decode())

运行代码结果如下：

1.2.1 response.content 和 response.text 的区别

response.content

返回类型： bytes
解码类型：没有指定，原始响应内容，没有进行解码
指定编码方式： response.content.decode('指定编码字符集')
注意： response.content.decode() 默认使用 utf-8 编码方式

response.text

返回类型： str
解码类型： requests 模块自动根据 HTTP 头部对响应的编码作出有根据的推测，推测的文本编码
response.text = response.content.decode('推测出的编码字符集')

获取网页源码的方式：

response.content.decode()
response.content.decode('gbk')
response.text

以上三种方法从前往后尝试，能够100%的解决所有网页解码的问题, 推荐优先使用: response.content.decode()

1.2.2 response 响应对象其他属性和方法

response.url : 响应的url地址，有时候响应的 url 地址和请求的 url 地址不一样。
response.status_code : 获取响应状态码。
response.request.headers : 获取响应对应的请求头信息。
response.headers : 获取响应头信息。
response.request._cookies : 响应对应请求携带的cookie，返回cookieJar类型。
response.cookies : 响应时设置的 cookie，返回cookieJar类型。
response.json() : 自动将 json 字符串类型的响应内容转换为 python 对象(dict or list)。

示例代码如下:

# 1. 导入request模块
import requests

# 2. 准备目标url地址
url = 'https://www.baidu.com'

# 3. 向目标url地址发送get请求
response = requests.get(url)

# 4. 打印响应内容
print(response.url)                            # 打印响应的url
print(response.status_code)                    # 打印响应的状态码
print(response.request.headers)                # 打印响应对象的请求头
print(response.headers)                        # 打印响应头
print(response.request._cookies)               # 打印请求携带的cookies
print(response.cookies)                        # 打印响应设置的cookies

示例代码运行结果如下:

1.2.3 练习-保存网络图片

需求：将图片http://www.itcast.cn/2018czgw/images/logo2.png 保存到本地。

思考：

以什么方式打开文件。
保存什么格式的内容。

分析：

图片的url地址： http://www.itcast.cn/2018czgw/images/logo2.png
利用 requests 模块发送请求，获取到图片的响应。
以二进制的方式打开文件，并将 response 响应的二进制内容写入到文件。

完整代码如下:

# 1. 导入request模块
import requests

# 2. 准备目标url地址
url = 'http://www.itcast.cn/2018czgw/images/logo2.png'

# 3. 向目标url地址发送get请求
response = requests.get(url)

# 4. 打开文件，将数据写入到文件中
with open('itcast.png', 'wb') as f:
    # 写入响应内容的二进制数据
    f.write(response.content)

1.3 requests 请求时设置请求头

在最开始，我们书写了一下代码，获取了一下百度首页的内容:

# 1. 导入request模块
import requests

# 2. 准备目标url地址
url = 'https://www.baidu.com'

# 3. 向目标url地址发送get请求
response = requests.get(url)

# 4. 打印响应内容
print(response.content.decode())

运行以上代码的结果如下：

接下来，我们对比一下，使用浏览器查看的百度的源码和我们代码中拿到的源码有什么区别。

打开浏览器，访问百度首页，然后鼠标右键 --> 查看网页源代码

可以看到，很明显使用浏览器获取到的百度首页的内容要比使用代码获取到的内容要多得多。这是为什么呢？

回顾爬虫的概念：模拟浏览器，欺骗服务器，获取和浏览器一致的内容，所以在这里我们需要带上一些请求头信息。

查看一下浏览器的请求头信息：鼠标右键 --> 检查 --> 打开Network --> 地址栏访问百度，抓包，查看请求信息

再在代码中，使用 response.requests.headers 查看使用 requests 模块发送请求时携带的请求头信息:

对比一下，很明显的，代码中的 User-Agent 和浏览器中的完全不一样，前面我们也说过，User-Agent 是浏览器的身份标识，而代码中直接发送的是 python-requets/2.25.1 这样服务器很明显的就知道我们不是使用正常的浏览器访问服务器，所以返回的数据就比较少。

1.3.1 设置请求头的语法

response = requests.get(url, headers={})

headers 参数接收的字典形式的请求头
请求头字段名作为字典的 key，字段名对应的值作为字典的 value。

例如：

User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.85 Safari/537.36

作为 headers 的参数，可以写为：

{"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.85 Safari/537.36"}

1.3.2 设置请求头完整代码实现

# 1. 导入request模块
import requests

# 2. 准备目标url地址
url = 'https://www.baidu.com'
# 准备请求头字典
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.85 Safari/537.36"
}

# 3. 向目标url地址发送get请求
response = requests.get(url, headers=headers)

# 4. 查看请求头信息
print(response.request.headers)

# 5. 打印响应内容
print(response.content.decode())

运行结果如下图所示：

很明显，拿到的内容和使用浏览器拿到的网页源码内容就是一样的了。

1.4 发送带查询参数的请求

我们在使用百度搜索的时候，经常会发现 URL 地址中会有一个 ? ，该问号后面的就是查询参数，又叫做查询字符串参数。

1.4.1 requests请求携带查询参数的语法

语法格式如下:

response = requests.get(url, params={})

params参数接收的是一个字典。
查询参数中，等号左边的内容作为字典的 key，等号右边的内容作为字典的 value。
注意点：在url地址中，很多查询参数是没有用的，比如百度搜索的url地址，其中参数只有一个字段有用，其他的都可以删除。如何确定那些请求参数有用或者没用：挨个尝试！ 对应的，在后续的爬虫中，遇到很多参数的url地址，都可以尝试删除参数。

1.4.2 发送带查询参数请求的应用

需求：实现在百度中搜索传智播客

实现方式1：对传智播客_百度搜索发起请求可以使用 requests.get(url, params=kw) 的方式

实现代码如下所示:

# 1. 导入request模块
import requests

# 2. 准备目标url地址
url = 'https://www.baidu.com/s?'
# 准备请求头字典
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.85 Safari/537.36"
}
# 准备请求参数的字典
params = {
    "wd": "传智播客"
}

# 3. 向目标url地址发送get请求
response = requests.get(url, headers=headers, params=params)

# 4. 打印响应的内容
print(response.content.decode())

上述代码运行结果如下图所示：

实现方式2：直接对传智播客_百度搜索完整的url地址进行请求，不使用 params 参数

实现代码如下:

# 1. 导入request模块
import requests

# 2. 准备目标url地址
url = 'https://www.baidu.com/s?wd=传智播客'
# 准备请求头字典
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.85 Safari/537.36"
}

# 3. 向目标url地址发送get请求
response = requests.get(url, headers=headers)

# 4. 打印响应的内容
print(response.content.decode())

以上代码运行结果如下所示：

02_requests 模块的深入使用

知识点：

了解 GET 和 POST 请求的区别
掌握使用 requests 发送 POST 请求
了解代理IP的分类
掌握 requests 模块使用代理IP的方法

2.1 requests 模块发送POST请求

思考: 那些地方会使用到 POST 请求？

登录注册：POST 比 GET 更安全。
需要传输大文本内容的时候，POST请求对数据长度没有要求。

所以同样的，我们的爬虫也需要在这两个地方会去模拟浏览器发送post请求。

补充：GET 请求和 POST 请求的区别

	GET	POST
后退按钮/刷新	无害	数据会被重新提交（浏览器应该告知用户数据会被重新提交）。
书签	可收藏为书签	不可收藏为书签
历史	参数保留在浏览器历史中。	参数不会保存在浏览器历史中。
对数据长度的限制	当发送数据时，GET 方法向 URL 添加数据；URL 的长度是受限制的（URL 的最大长度是 2048 个字符）。	无限制。
对数据类型的限制	只允许 ASCII 字符。	没有限制。也允许二进制数据。
安全性	与 POST 相比，GET 的安全性较差，因为所发送的数据是 URL 的一部分。在发送密码或者其他敏感信息的时候决不能使用GET。	POST 比 GET 更安全，因为参数不会被保存在浏览器历史或 web 服务器日志中。
可见性	数据在 URL 中对所有人都是可见的。	数据不会显示在 URL 中。

2.1.1 requests 发送 POST 请求语法

语法格式如下:

response = requests.post(url, data={}, headers={}, params={})

data参数接收的数据类型是字典。
POST请求体(form data)中，冒号左边的作为字典的 key，冒号右边的作为字典的 value。

如下图所示：

将请求体(form data)中的数据转换为字典：

data = {
    "username": "admin",
    "password": "admin"
}

2.1.2 案例

登录页面 URL 地址： http://manager-health-java.itheima.net/login.html

案例分析

抓包分析，找到登录请求的url地址

右键检查 --> Network
用户名和密码输入框输入用户名和密码：用户名 admin，密码 admin，然后点击登录，抓取请求

根据抓包发现，登录的 URL 地址为：(登录成功之后会进行重定向到首页，所以响应状态码是302)

请求体数据为：

最终分析出：
- POST 请求 URL 地址为： http://manager-health-java.itheima.net/login.do
- 请求方式为： POST
- 请求体参数为：
```
data = {
    "username": "admin",
    "password": "admin"
}
```

案例代码实现

完整代码如下:

import requests

# 1. 准备登录的url地址，请求头，请求体数据
login_url = "http://manager-health-java.itheima.net/login.do"
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.85 Safari/537.36"
}
data = {
    "username": "admin",
    "password": "admin"
}

# 2. 发起登录请求
response = requests.post(login_url, data=data, headers=headers)

# 打印登录成功之后的响应状态码和响应的内容
print(response.status_code)
print(response.content.decode())

上述代码运行结果如下：

响应状态码:

2.2 requests 使用代理

每次在使用浏览器请求一个网站的时候，服务器是可以获取到当前客户端的 IP 地址的，使用爬虫程序去请求服务器的速度和频率是特别快的，这样的话，我们使用同一台电脑上的浏览器去请求别人的服务器，会被服务器识别到，这样可能就会将我们的 IP 地址封掉。为了不让服务器将我们的 IP 地址封掉，在发送请求的时候可以使用代理 IP。

2.2.1 使用代理 IP 的目的

让服务器以为是不同的客户端在请求
防止我们的真实地址被泄露，防止被追究

2.2.2 代理的使用过程

代理IP 是一个IP，指向的是一个代理服务器
代理服务器能够帮我们向目标服务器转发请求

2.2.3 代理 IP 的分类

根据代理 IP 的匿名程度，代理 IP 可以分为以下三类：

分类名称	特点	服务器接收的请求头信息
透明代理	透明代理虽然可以直接“隐藏”你的IP地址，但是还是可以查到你是谁。	REMOTE_ADDR = Proxy IP HTTP_VIA = Proxy IP HTTP_X_FORWARDED_FOR = Your IP
匿名代理	使用匿名代理，别人只能知道你用了代理，无法知道你是谁。	REMOTE_ADDR = Proxy IP HTTP_VIA = Proxy IP HTTP_X_FORWARDED_FOR = Proxy IP
高匿代理	无法发现你是在用代理，所以是最好的选择毫无疑问使用高匿代理效果最好。	REMOTE_ADDR = Proxy IP HTTP_VIA = not determined HTTP_X_FORWARDED_FOR = not determined

根据网站所使用的协议不同，需要使用相应协议的代理服务。从代理服务请求使用的协议可以分为：

http代理：目标url为http协议
https代理：目标url为https协议
socks隧道代理（例如socks5代理）等：
- socks 代理只是简单地传递数据包，不关心是何种应用协议（FTP、HTTP和HTTPS等）。
- socks 代理比http、https代理耗时少。
- socks 代理可以转发http和https的请求

2.2.4 requests 模块中使用代理

为了让服务器以为是不同的客户端在请求；为了防止频繁向一个域名发送请求被封 IP，所以我们需要使用代理 IP；那么我们接下来要学习requests 模块是如何使用代理 IP 的。

语法格式如下:

response = requests.get(url, proxies={})

proxies 参数接收的数据类型为字典。

字典的格式如下：

proxies = {
    "协议类型": "协议类型://代理IP地址:端口号"
}

例如：
proxies = {
  # 目标地址为 http 协议，会使用 http 这个 key 对应的代理服务
  "http": "http://113.121.255.26:9999",
  # 目标地址为 https 协议，会使用 https 这个 key 对应的代理服务
  "https": "https://219.151.157.130:3128"
}

免费代理 IP 网站

快代理： https://www.kuaidaili.com/free/
89免费代理：https://www.89ip.cn/

在学习阶段，我们直接在网上找一些免费的代理去使用即可，免费的代理的质量不是很好，真正在公司会去购买付费的高质量的代理，或者自己去搭建代理服务器。

2.2.5 案例 - 使用代理 IP 请求唱吧

完整代码如下:

# 1. 导入request模块
import requests

# 2. 准备目标url地址
url = 'http://changba.com/now/stars/index.html'
# 准备请求头字典
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.85 Safari/537.36"
}
# 准备代理IP的字典
proxies = {
    'http': 'http://113.108.190.50:8080'
}

# 3. 向目标url地址发送get请求
response = requests.get(url, headers=headers, proxies=proxies)

# 4. 打印响应的内容
print(response.content.decode())

运行结果如下:

知识点：

了解爬虫中为什么要使用 Cookie
掌握在请求头中携带 Cookie
掌握使用cookies参数携带 Cookie
掌握使用requests.session 进行状态保持

3.1 爬虫中使用Cookie

为了能够通过爬虫获取到登录后的页面，或者是解决通过cookie的反扒，需要使用request来处理cookie相关的请求

3.1.1 爬虫中携带Cookie的利弊

带上 Cookie 的好处
- 能够访问登录后的页面
- 能够实现部分反反爬
带上 Cookie 的弊端
- 一套cookie往往对应的是一个用户的信息，请求太频繁有更大的可能性被对方识别为爬虫
- 那么上面的问题如何解决 ?使用多个账号

3.1.2 requests中使用 Cookie的方法

使用requests携带cookie有三种方法：

cookie字符串放在headers中，设置 Cookie 请求头
把cookie字典放传给请求方法的cookies参数接收
使用requests提供的session模块发送请求

网站经常利用请求头中的 Cookie 字段来做用户访问状态的保持，那么我们可以在 headers 参数中设置 Cookie 请求头，模拟普通用户的请求。我们以传智健康登陆为例：

3.2.1 抓包找到登录之后的Cookie

打开浏览器，右键检查，点击 Network，勾选 Preserve log
访问url地址：http://manager-health-java.itheima.net/login.html
输入账号和密码之后，点击登录。
访问一个登录之后才可以访问的页面，例如：传智健康
找到Network中对应的抓到的包，查看在访问时携带的 User-Agent 和 Cookie 的信息

3.2.2 完成代码

从浏览器中复制User-Agent和Cookie
浏览器中的请求头字段和值与headers参数中必须一致
headers请求参数字典中的Cookie键对应的值是字符串

完整代码如下:

import requests

# 1. 准备目标url地址
url = 'http://manager-health-java.itheima.net/pages/main.html'

# 2. 准备请求头信息，cookie  和 User-Agent，（从浏览器抓包复制）
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36",
    "Cookie": "JSESSIONID=4BBDB822771C712E3570B8AD3BED780F"
}

# 3. 发送请求，获取响应数据
response = requests.get(url, headers=headers)

# 4. 查看响应的内容
print(response.content.decode())

运行代码验证结果：

登录之后访问该页面，会显示出来对应的左侧的菜单信息，我们查看一下在代码中获取到的响应内容中，是否包含着对应的菜单信息即可。

3.3 使用 Cookies 参数

上一小节中，我们在请求头 headers 中携带着登录之后的 Cookie 信息，我们也可以使用专门的 cookies 参数来携带 Cookie。

3.3.1 Cookies 参数语法以及格式

cookies参数的格式：字典
```
cookies = {"Cookie的name": "Cookie的Value"}
```
- 该字典对应请求头中Cookie字符串，以分号、空格分割每一对字典键值对
- 等号左边的是一个cookie的name，对应cookies字典的key
- 等号右边对应cookies字典的value

cookies参数的使用方式：

response = requests.get(url, cookies={})

注意： cookie一般是有过期时间的，一旦过期需要重新获取

3.3.2 使用cookies参数完成登录传智健康

登录传智健康，获取到登录之后的cookie字符串
将浏览器抓包获取到的cookie字符串，转换成字典，以便用于发送请求时传递给cookies参数。

完整代码如下：

import requests

# 1. 准备目标url地址
url = 'http://manager-health-java.itheima.net/pages/main.html'

# 2. 准备请求头信息，User-Agent，（从浏览器抓包复制）
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"
}
# 准备cookies字典
cookie_dict = {
    'JSESSIONID': '14C7DFBF244EB81DC281FC1B96EF88D6'
}

# 3. 发送请求，获取响应数据
response = requests.get(url, headers=headers, cookies=cookie_dict)

# 4. 查看响应的内容
print(response.content.decode())

对比网页内容和使用代码获取到的网页响应内容：

发现，代码中获取到的响应内容和页面中的内容是一致的，表示我们使用 cookies参数携带cookie登录传智健康是成功的。

cookie有过期时间，所以直接复制浏览器中的cookie可能意味着下一程序继续运行的时候需要替换代码中的cookie，对应的我们也可以通过一个程序专门来获取cookie供其他程序使用；当然也有很多网站的cookie过期时间很长，这种情况下，直接复制cookie来使用更加简单。

补充：将浏览器复制的含有多个Cookie的字符串转换为字典

cookies_dict = {
    cookie.split('=')[0]:cookie.split('=')[1] for cookie in cookies_str.split('; ')
}

3.4 使用 requests.session 携带Cookie

前面使用手动的方式使用cookie，那么有没有更好的方法在requets中携带cookie呢？

requests 提供了一个叫做session类，来实现客户端和服务端的会话保持

会话保持有两个内涵：

自动保存cookie，下一次请求会带上前一次的cookie
实现和服务端的长连接，加快请求速度

3.4.1 使用方式

session = requests.session() # 实例化session类对象
response = session.get(url, headers, ...)
response = session.post(url, data, ...)

session对象发送get或post请求的参数，与requests模块发送请求的参数完全一致

3.4.2 使用 requests.session 登录传智健康

登录页面 url 地址：传智健康
先抓包获取到登录传智健康的登录 url 地址，以及登录需要的参数
先使用 request.session 完成登录，获取登录之后的 cookie
在使用 request.session 对象请求登录之后的页面。

完整代码如下：

import requests

# 1. 准备登录的url地址（抓包获取到的登录的post url地址）
login_url = "http://manager-health-java.itheima.net/login.do"

# 准备请求头User-Agent
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"
}
# 准备请求体字典
data = {
    "username": "admin",
    "password": "admin"
}

# 2. 创建session对象
session = requests.session()

# 3. 使用session对象发送post请求 登录传智健康
session.post(login_url, headers=headers, data=data)

# 使用 session对象再次请求登录之后的url地址
url = "http://manager-health-java.itheima.net/pages/main.html"
# 发送请求 获取响应
response = session.get(url, headers=headers)

# 4. 打印响应内容
print(response.content.decode())

04_案例-百度贴吧爬虫

4.1 需求

给定一个贴吧名字，给定要抓取的页数。
将贴吧的每一页数据保存到html中。

4.2 需求分析

打开百度贴吧首页：登录_百度贴吧
搜索访问进入某一个贴吧中，这里以传智播客贴吧为例： https://tieba.baidu.com/f?kw=传智播客
上述过程中，我们可以分析出来，在url地址中的 kw 参数，对应的就是我们要访问的贴吧的名字。我们可以根据给定的贴吧名字进行替换要抓取的贴吧的名字。
进入到传智播客贴吧中，我们目前看到的就是第一页的数据，需求中，我们是需要获取到多页的数据的，那么我们就需要去分析一下，每一页的url地址的规律，从而构造出多页的url地址。

页面url地址规律分析

第一页的url地址： https://tieba.baidu.com/f?kw=传智播客
第二页的url地址： https://tieba.baidu.com/f?kw=传智播客&pn=50
第三页的url地址： https://tieba.baidu.com/f?kw=传智播客&pn=100
第四页的url地址： https://tieba.baidu.com/f?kw=传智播客&pn=150
第五页的url地址： https://tieba.baidu.com/f?kw=传智播客&pn=200

通过分析发现，每一页的url地址中，都是在参数 pn 的基础上加 50。第一页的url地址中，是没有pn参数的，那么我们可以尝试一下，第一页的url地址中加上 pn=0，传智播客吧-百度贴吧--传智播客-国内口碑最好的IT培训机构！--中国的软件教育已经坑害了不少软件工程师苗子，传智播客自成立之日起就立志于改变中国的软件教育，目前已经出版IT教程书籍十多本，教学视频几十套, 看看能不能访问成功

通过上一步的验证，我们发现第一页的 pn 值为 0

那么综上所述，我们可以得出百度贴吧的url地址的规律为：

tb_name：要访问的贴吧的名字
page_num: 当前要访问的页码数
https://tieba.baidu.com/f?kw=tb_name&pn=50 * (page_num - 1)

比如我们需要抓取10页的数据，可以先将所有页的url地址构造好，放到一个列表中。

import requests

# url地址的模板
base_url = "https://tieba.baidu.com/f?kw={}&pn={}"

# 获取要抓取的贴吧的名字
tb_name = input('请输入要抓取的贴吧的名字：')
# 获取要抓取的页数
page_num = int(input('请输入要抓取的页数：'))

# 构造url地址
url_list = [base_url.format(tb_name, i * 50) for i in range(page_num)]

print(url_list)

构造好的url地址如下图所示：

遍历构造好的url地址，分别对url地址去发送请求，获取到响应数据，再分别将每一页的数据保存到文件中。

# 准备headers中的User-Agent
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"
}
# 遍历每一页的url地址，发送请求 获取响应
for url in url_list:
    response = requests.get(url, headers=headers)
    # 将获取到的响应的内容，保存到文件中
    # 构造文件名
    file_name = tb_name + "第{}页.html".format(url_list.index(url) + 1)
    # 打开文件，将数据保存到文件中
    with open(file_name, 'w', encoding='utf-8') as f:
        f.write(response.content.decode())

    print(file_name, '保存成功')

    # 设置time.sleep() 防止访问速度过快
    time.sleep(2)

4.3 完整代码

完整代码如下：

import time

import requests

# url地址的模板
base_url = "https://tieba.baidu.com/f?kw={}&pn={}"

# 获取要抓取的贴吧的名字
tb_name = input('请输入要抓取的贴吧的名字：')
# 获取要抓取的页数
page_num = int(input('请输入要抓取的页数：'))

# 构造url地址
url_list = [base_url.format(tb_name, i * 50) for i in range(page_num)]

# 准备headers中的User-Agent
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"
}
# 遍历每一页的url地址，发送请求 获取响应
for i, url in enumerate(url_list):
    response = requests.get(url, headers=headers)
    # 将获取到的响应的内容，保存到文件中
    # 构造文件名
    file_name = tb_name + "第{}页.html".format(i + 1)
    # 打开文件，将数据保存到文件中
    with open(file_name, 'w', encoding='utf-8') as f:
        f.write(response.content.decode())

    print(file_name, '保存成功')

    # 设置time.sleep() 防止访问速度过快
    time.sleep(2)

你可能感兴趣的:(爬虫,python,开发语言)

GitHub项目推荐--基于LLM的开源爬虫项目惟贤箬溪穷玩Ai github 爬虫
以下是一些基于大语言模型（LLM，LargeLanguageModel）的开源爬虫项目，它们结合了自然语言处理（NLP）技术与爬虫的功能，能在一定程度上提升爬取的智能化和精度。这些项目可以用于自动化抓取、内容提取、数据分析等任务。1.GPT-3WebScraper简介：这是一个基于OpenAIGPT-3模型的网页抓取工具，利用GPT-3的自然语言理解能力来生成有用的爬虫策略、处理网页内容并提取有价
PHP与Java的区别分析 Monika Zhang java 架构设计 php java 开发语言
一、语言特点php：一种的像Python的动态弱语言类型的服务器脚本语言，不需要编译代码；它是专为Web开发目的而开发和设计的，而且简单容易上手。Java：是一种通用的面向对象编程语言，属于强势优选语言类型，在执行前必须先正确编译。是面向对象的和人类可读的；支持服务器端和客户端；可用于开发独立应用程序或基于Web的应用程序，上手比PHP难。二、语法1.PHP是一种脚本语言，代码在服务器上执行，而结
闭包的概念总结与分析 Monika Zhang java java
1定义闭包又称词法闭包闭包最早定义为一种包含和的实体.在计算机科学中，闭包（英语：Closure），又称词法闭包（LexicalClosure）或函数闭包（functionclosures），是引用了自由变量的函数。解释一：闭包是引用了自由变量的函数，这个被引用的变量将和这个函数一同存在。解释二：闭包是函数和相关引用环境组成的实体。注：：除了局部变量的其他变量《Python核心编程》对闭包的解释:
毕业论文代码实验（Python\MATLAB）基于K-means聚类的EMD-BiLSTM-Attention光伏功率预测模型清风AI 毕业设计代码实现 python lstm 深度学习神经网络人工智能 matlab pytorch
一、项目背景1.1光伏功率预测意义在能源结构转型背景下（国家能源局2025规划），光伏发电渗透率已超过18%。但受天气突变、云层遮挡等因素影响，光伏出力具有显著波动性，导致：电网调度难度增加（±15%功率波动）电力市场交易风险提升光储协同控制效率降低1.2技术挑战多尺度特征耦合：分钟级辐照度变化与小时级天气模式共存非线性映射关系：气象因素与发电功率呈高阶非线性关系数据模态差异：数值天气预报(NWP
DeepSeek 部署指南 (使用 vLLM 本地部署) AGI大模型资料分享员人工智能语言模型学习 chatgpt 深度学习大模型 deepseek
DeepSeek部署指南(使用vLLM本地部署)本文档将指导您如何使用vLLM在本地部署DeepSeek语言模型。我们以deepseek-ai/DeepSeek-R1-Distill-Qwen-7B模型为例进行演示。1、安装Python环境首先，您需要安装Python环境。访问Python官网:https://www.python.org/根据您的操作系统选择安装包:Python官网提供Windo
Python基础知识点总结豆芽819 tip python 开发语言
1Python简介Python特点：解释型语言：无需编译，逐行执行。动态类型：变量类型在运行时确定。简洁易读：语法接近自然语言，代码简洁。跨平台支持：Windows/Linux/macOS均可运行。应用领域：Web开发、数据分析、人工智能、自动化脚本等。开发环境：推荐使用IDLE、PyCharm、VSCode或JupyterNotebook。2Python数值运算基本运算符：算术：+,-,*,/,
Python与区块链隐私保护技术：如何在去中心化世界中保障数据安全 Echo_Wish Python！实战！区块链 python 去中心化
Python与区块链隐私保护技术：如何在去中心化世界中保障数据安全在区块链世界里，透明性和不可篡改性是两大核心优势，但这也带来了一个悖论——如何在公开账本的同时保障用户隐私？如果你的交易记录对所有人可见，如何防止敏感信息泄露？Python作为区块链开发中最受欢迎的语言之一，提供了强大的工具和库来增强隐私保护。本文将深入探讨区块链的隐私保护技术，并结合Python代码示例，带你了解如何在Web3时代
人脸识别的一些代码饿了就干饭 CV相关人脸识别
1、cv2入门函数imread及其相关操作2、（详解）opencv里的cv2.resize改变图片大小Python3、机器学习之人脸识别face_recognition使用4、使用face_recognition进行人脸校准5、简单的人脸识别通用流程示意图（这个看着写的挺好的）6、face_recognition和图像处理中left、top、right、bottom解释7、使用pillow库对图片
Python从入门到精通的系统性学习路径 niuTaylor 编程区 python 学习开发语言
Python从入门到精通的系统性学习路径一、基础语法快速突破1.变量与基础操作#动态类型演示a=10#整型a=3.14#浮点型a="Python"#字符串a=[1,2,3]#列表#格式化输出进阶name="Alice"print(f"{name:*^20}")#居中填充输出：******Alice*******2.运算符优先级实战#常见运算符优先级练习result=5+3*2**2//(4%3)p
Python技术全景解析：从基础到前沿的深度探索靠近彗星 python 开发语言性能优化个人开发极限编程
目录一、Python为何成为开发者首选？1.核心优势矩阵2.性能进化史二、Python核心应用领域1.数据科学黄金三角2.AI开发新范式三、现代Python进阶技巧1.类型提示革命2.异步编程实战四、Python工程化实践1.现代项目架构2.性能优化矩阵五、Python未来生态展望1.前沿技术融合2.性能革命六、学习路线图1.技能成长路径基础阶段（1-3月）专业方向（3-6月）深度进阶（6-12月
如何使用DeepSeek编写测试用例？海姐软件测试 deepseek 大数据测试工具
一、DeepSeek在测试用例设计中的定位DeepSeek作为AI工具，并非直接替代测试设计，而是通过以下方式提升效率：快速生成基础用例框架（等价类、边界值等）智能补充易遗漏场景（如特殊字符、异常流）自动化脚本片段生成（Python/pytest/JUnit等）测试数据构造建议（符合业务规则的Mock数据）二、四步法实战：AI协作编写测试用例Step1：明确需求输入输入质量决定输出质量，需向Dee
Explore Model-Based Feature Importance 后端
Question1.ExploreModel-BasedFeatureImportanceThroughoutthisquestion,youmayonlyusePython.Foreachsub-question,providecommentary(ifneeded)alongwithscreenshotsofthecodeused.Pleasealsoprovideacopyofthecode
Python 标准库之 logging 模块 36度道 python系列学习笔记 python
1.logging模块简介在软件开发过程中，了解程序的运行状态、记录重要事件以及排查错误是至关重要的。logging模块为Python提供了灵活且强大的日志记录功能。它允许开发者控制日志的输出内容、输出位置（如文件、控制台）、日志级别（用于过滤不同重要程度的日志信息）等，帮助开发者更好地监控和调试程序。2.基本使用简单配置与输出：importlogging#配置日志基本设置logging.basi
python 标准库之 functools 模块 36度道 python系列学习笔记 python
functools模块提供了一系列用于处理函数的工具。其中，像partial可以创建一个新的可调用对象，这个对象固定了原函数的部分参数，有点像给函数穿上了“参数防护服”；reduce能对一个序列进行累积计算，就好比是一个勤劳的小会计，按顺序把序列里的数加起来或者做其他运算；wraps主要用于装饰器，它能帮助装饰器函数保留被装饰函数的元信息，比如函数名、文档字符串等，让被装饰函数“表里如一”。底层原
Python——函数生如雪花 Python python
一、十进制小数转换成二进制小数【问题描述】编写程序，输入十进制小数（只考虑正数），把它转换为以字符串形式存储的二进制小数，输出该二进制小数字符串。对于转换得到的二进制小数，小数点后最多保留10位。小数点后不足10位，则输出这些位，尾部不补0；小数点后超出10位，则直接舍弃超出部分。【输入形式】十进制浮点小数【输出形式】对应输入小数的二进制小数字符串。若整数部分或者小数部分为0，则输出0。比如输入0
Python Web框架 Flask vs Django vs FastAPI ZengDerby python flask fastapi django
如果您需要构建大型的、功能丰富的应用程序，Django可能是一个很好的选择。如果您需要更灵活的框架，可以选择Flask来定制开发。而对于追求极致性能和高并发处理的项目，FastAPI可能是一个更加理想的选择。优缺点Flask在小型项目或微服务理想的选择。Flask灵活且轻量，非常适合快速开发小型应用。Flask是一个非常灵活的框架，它允许您根据项目需求进行定制。您可以根据需要选择合适的插件和扩展。
python if用法 IT技术土狗 python从入门到入狱 python
pythonif用法流程控制流程控制即控制流程，具体指控制程序的执行流程，而程序的执行流程分为三种结构：顺序结构（之前我们写的代码都是顺序结构）、分支结构（用到if判断）、循环结构（用到while与for）1、分支结构分支结构就是根据条件判断的真假去执行不同分支对应的子代码2、为什么需要分支结构人类某些时候需要根据条件来决定做什么事情，比如：如果今天下雨，就带伞所以程序中必须有相应的机制来控制计算
python与数值有关的问题 cbxjsdg python
1.复数的问题x=123+456j#后面没加j部分为实数，加j部分为虚数print('实数部分',x.real)#表示实数print('虚数部分',x.imag)#表示虚数2.查看数值的类型a=10b=10.0c=1.99E2#表示1.99*10的二次方的意思，这是科学计数法print('数值为',a,'数值类型为',type(a))print('数值为',b,'数值类型为',type(b))pr
【架构设计】前置知识 GIS程序媛—椰子架构设计架构设计
架构设计是软件开发的进阶技能，需要结合理论知识和实践经验。以下是掌握架构设计所需的前置知识及其重要性，以及学习路径建议：一、基础编程能力1.编程语言与核心概念掌握至少一门主流语言（如Java、Python、C#、Go等），理解其语法、特性及生态。核心概念：面向对象（OOP）、函数式编程（FP）、并发/异步、内存管理等。示例：通过Java理解接口、多态、设计模式。通过Go学习并发模型（Gorouti
Python, C ++开发家庭开支 Geeker-2025 python c++
开发一款**家庭开支数字化记录与结算App**是一个非常有意义的项目，旨在帮助家庭用户高效管理开支、记录消费、分析财务状况，并提供结算和预算管理功能。以下是基于**Python**和**C++**的开发方案，结合两者在数据处理、实时通信和系统开发中的优势。---##1.**项目需求分析**家庭开支数字化记录与结算App的核心功能包括：1.**用户管理**：-用户注册、登录，支持家庭成员管理。2.*
linux执行python脚本conda库_Pycharm使用远程linux服务器conda/python环境在本地运行的方法(图解）)... weixin_39992462
Pycharm使用远程linux服务器conda/python环境在本地运行的方法(图解))1.首先在PycharmTools->Deployment->Configurations打开新建SFTP输入host:ip地址username密码然后点击TestConnection出现下图，则测试成功因为已经连接成功，这时候已经可以读取远程服务器的目录了：2.选择项目mapping(可以跳过3.在Set
brew mysql client_Mac安装mysqlclient过程解析 weixin_39630440 brew mysql client
尝试在虚拟环境下通过pip安装：pipinstallmysqlclient然后报错：OSError:mysql_confignotfound找到官方文档https://github.com/PyMySQL/mysqlclient-python，解释说安装前需安装另一个模块：brewinstallmysql-connector-c但是报错：查看报错信息，在安装mysql-connector-c前先b
macos安装python-nodejs_MAC平台基于Python Appium环境搭建过程图解 weixin_39612038
前言最近笔者要为python+appium课程做准备，mac在2019年重新安装了一次系统，这次重新在mac下搭建appium环境，刚好顺带写个文稿给大家分享分享搭建过程。一、环境和所需软件概述1.1目前环境：MacOS(10.15.3)1.2所需软件:jdk-8u91-macosx-x64.dmg(jdk1.8及以上版本应该都可以)android-sdk_r24.4.1-macosx.zip(m
python接口自动化全世界最帅的男人 python 自动化开发语言
Python是一种非常流行的编程语言，也是许多接口自动化测试框架的首选语言。下面是一个简单的接口自动化测试框架的思路：1.安装必要的库和工具：在Python中，我们可以使用requests库来发送HTTP请求，使用unittest库来编写测试用例，使用HTMLTestRunner库来生成测试报告。此外，我们还需要安装一个代码编辑器，如PyCharm或VSCode。2.创建测试用例：编写测试用例是接
Python接口自动化花落同学 Python自动化从入门到放弃 python 自动化
4接口自动化4.1使用python实现接口自动化如果不了解接口测试可参考https://ke.qq.com/course/4092904使用Python的request库实现接口测试：importjsonimportrequests#使用session管理：#1.可以自动关联set-cookie里面的内容#2.可以加快与服务器的连接速度session=requests.session()#auth
Python异步编程：从基础到高级 CarlowZJ python 网络数据库
前言在现代软件开发中，异步编程已经成为一种必不可少的技能。Python的异步编程模型（基于asyncio）为开发者提供了一种高效的方式来处理高并发任务，而无需依赖多线程或多进程。异步编程不仅可以提高程序的性能，还能简化并发代码的复杂性。本文将带你从异步编程的基础概念出发，逐步深入到高级应用，帮助你掌握Python异步编程的核心技能。一、异步编程的基础概念1.1什么是异步编程？异步编程是一种编程范式
使用Java爬虫按关键字搜索1688商品小爬虫程序猿 java 爬虫开发语言
在电商领域，获取1688商品信息对于市场分析、选品上架、库存管理和价格策略制定等方面至关重要。1688作为国内领先的B2B电商平台，提供了丰富的商品数据。虽然1688开放平台提供了官方API来获取商品信息，但有时使用爬虫技术来抓取数据也是一种有效的手段。本文将介绍如何利用Java按关键字搜索1688商品，并提供详细的代码示例。一、准备工作1.Java开发环境确保你的Java开发环境已经安装了以下必
python实现接口自动化一只小H呀の python 自动化开发语言
代码实现自动化相关理论代码编写脚本和工具实现脚本区别是啥?代码：优点：代码灵活方便缺点：学习成本高工具：优点：易上手缺点：灵活度低，有局限性。总结：功能脚本：工具自动化脚本：代码代码接口自动化怎么做的？第一步：python+request+unittest;具体描述？第二步：封装、调用、数据驱动、日志、报告;详细举例:第三步：api\scripts\data\log\report\until…脚本
探索Python中的集成方法：Stacking Echo_Wish Python 笔记 Python 算法 python 开发语言
在机器学习领域，Stacking是一种高级的集成学习方法，它通过将多个基本模型的预测结果作为新的特征输入到一个元模型中，从而提高整体模型的性能和鲁棒性。本文将深入介绍Stacking的原理、实现方式以及如何在Python中应用。什么是Stacking？Stacking，又称为堆叠泛化（StackedGeneralization），是一种模型集成方法，与Bagging和Boosting不同，它并不直
【Python】 Stacking: 强大的集成学习方法音乐学家方大刚 Python python 集成学习开发语言
我们都找到天使了说好了心事不能偷藏着什么都一起做幸福得没话说把坏脾气变成了好沟通我们都找到天使了约好了负责对方的快乐阳光下的山坡你素描的以后怎么抄袭我脑袋想的薛凯琪《找到天使了》在机器学习中，单一模型的性能可能会受到其局限性和数据的影响。为了解决这个问题，我们可以使用集成学习（EnsembleLearning）方法。集成学习通过结合多个基模型的预测结果，来提高整体模型的准确性和稳健性。Stacki
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分

2021-11-03大数据学习日志——数据埋点+网络爬虫——requests 模块

requests 模块的作用

requests 模块的安装

01_requests 模块的基本使用

1.1 requests 发送 GET 请求

1.2 response 响应对象

1.2.1 response.content 和 response.text 的区别

1.2.2 response 响应对象其他属性和方法

1.2.3 练习-保存网络图片

1.3 requests 请求时设置请求头

1.3.1 设置请求头的语法

1.3.2 设置请求头完整代码实现

1.4 发送带查询参数的请求

1.4.1 requests请求携带查询参数的语法

1.4.2 发送带查询参数请求的应用

02_requests 模块的深入使用

2.1 requests 模块发送POST请求

2.1.1 requests 发送 POST 请求语法

2.1.2 案例

2.2 requests 使用代理

2.2.1 使用代理 IP 的目的

2.2.2 代理的使用过程

2.2.3 代理 IP 的分类

2.2.4 requests 模块中使用代理

2.2.5 案例 - 使用代理 IP 请求唱吧

03_requests 请求携带 Cookie

3.1 爬虫中使用Cookie

3.1.1 爬虫中携带Cookie的利弊

3.1.2 requests中使用 Cookie的方法

3.2 Cookie 添加在 headers 中

3.2.1 抓包找到登录之后的Cookie

3.2.2 完成代码

3.3 使用 Cookies 参数

3.3.1 Cookies 参数语法以及格式

3.3.2 使用cookies参数完成登录传智健康

3.4 使用 requests.session 携带Cookie

3.4.1 使用方式

3.4.2 使用 requests.session 登录传智健康

04_案例-百度贴吧爬虫

4.1 需求

4.2 需求分析

4.3 完整代码

你可能感兴趣的:(爬虫,python,开发语言)