爬虫基础和requests模块

爬虫基础

  • 爬虫概述
    • 分类
    • 流程
  • http协议复习
    • http以及https的概念和区别
    • 爬虫特别关注的请求头和响应头
      • 特别关注的请求头字段
      • 特别关注的响应头字段
      • 常见的响应状态码
      • 浏览器的运行过程
  • requests模块
    • requests模块发送get请求
    • response响应对象
      • response.text 和response.content
      • 解决中文乱码
      • 常用属性或方法
    • requests模块发送请求
      • 发送带header的请求
      • 发送带参数的请求
      • headers参数中携带cookie
      • cookies参数的使用
      • cookieJar对象转换为cookies字典的方法
      • 超时参数timeout的使用
      • 代理&proxy代理参数的使用-
        • proxies代理参数的使用
      • 使用verify参数忽略CA证书
    • requests模块发送post请求
      • POST请求练习
    • requests.session状态保持
    • 练习
      • 过程

爬虫概述

模拟浏览器,发送请求,获取响应

网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端(主要指浏览器)发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。

分类

爬虫基础和requests模块_第1张图片

流程

爬虫基础和requests模块_第2张图片

  1. 获取一个url
  2. 向url发送请求,并获取响应(需要http协议)
  3. 如果从响应中提取url,则继续发送请求获取响应
  4. 如果从响应中提取数据,则将数据进行保存

http协议复习

爬虫基础和requests模块_第3张图片

http以及https的概念和区别

HTTPS比HTTP更安全,但是性能更低

  • HTTP:超文本传输协议,默认端口号是80
  • HTTPS:HTTP + SSL(安全套接字层),即带有安全套接字层的超本文传输协,默认端口号:443
    • SSL对传输的内容(超文本,也就是请求体或响应体)进行加密

爬虫特别关注的请求头和响应头

特别关注的请求头字段

http请求的形式:
爬虫基础和requests模块_第4张图片

  • Content-Type
  • Host (主机和端口号)
  • Connection (链接类型)
  • Upgrade-Insecure-Requests (升级为HTTPS请求)
  • User-Agent (浏览器名称)
  • Referer (页面跳转处)
  • Cookie (Cookie)
  • Authorization(用于表示HTTP协议中需要认证资源的认证信息,如前边web课程中用于jwt认证)

特别关注的响应头字段

http响应的形式
爬虫基础和requests模块_第5张图片
爬虫只关注一个响应头字段

  • Set-Cookie (对方服务器设置cookie到用户浏览器的缓存)

常见的响应状态码

爬虫基础和requests模块_第6张图片

  • 所有的状态码都不可信,一切以是否从抓包得到的响应中获取到数据为准

浏览器的运行过程

爬虫基础和requests模块_第7张图片
http请求的过程

  1. 浏览器在拿到域名对应的ip后,先向地址栏中的url发起请求,并获取响应
  2. 在返回的响应内容(html)中,会带有css、js、图片等url地址,以及ajax代码,浏览器按照响应内容中的顺序依次发送其他的请求,并获取相应的响应
  3. 浏览器每获取一个响应就对展示出的结果进行添加(加载),js,css等内容会修改页面的内容,js也可以重新发送请求,获取响应
  4. 从获取第一个响应并在浏览器中展示,直到最终获取全部响应,并在展示的结果中添加内容或修改————浏览器的渲染

注意:

  • 浏览器最终展示的结果是由多个url地址分别发送的多次请求对应的多次响应共同渲染的结果
  • 在爬虫中,需要以发送请求的一个url地址对应的响应为准来进行数据的提取

浏览器展示的结果可以由多次请求对应的多次响应共同渲染出来,而爬虫是一次请求对应一个响应

requests模块

requests文档

  • 作用:发送http请求,获取响应数据
  • 安装:pip/pip3 install requests

requests模块发送get请求

需求:通过requests向百度首页发送请求,获取该页面的源码

# 1.2.1-简单的代码实现
import requests 

# 目标url
url = 'https://www.baidu.com' 

# 向目标url发送get请求
response = requests.get(url)

# 打印响应内容
print(response.text)

response响应对象

编解码使用的字符集不同早造成乱码;

# 1.2.2-response.content
import requests 
# 目标url
url = 'https://www.baidu.com' 
# 向目标url发送get请求
response = requests.get(url)
# 打印响应内容
# print(response.text)
print(response.content.decode()) # 注意这里!
  1. response.text是requests模块按照charset模块推测出的编码字符集进行解码的结果
  2. 网络传输的字符串都是bytes类型的,所以response.text = response.content.decode(‘推测出的编码字符集’)
  3. 可以在网页源码中搜索charset,尝试参考该编码字符集,注意存在不准确的情况

response.text 和response.content

  • response.text
    • 类型:str
    • 解码类型: requests模块自动根据HTTP 头部对响应的编码作出有根据的推测,推测的文本编码
  • response.content
    • 类型:bytes
    • 解码类型: 没有指定

解决中文乱码

  • response.content.decode() 默认utf-8
  • response.content.decode(“GBK”)
  • 常见的编码字符集
    • utf-8
    • gbk
    • gb2312
      ascii (读音:阿斯克码)
    • iso-8859-1

常用属性或方法

爬虫基础和requests模块_第8张图片

requests模块发送请求

发送带header的请求

问题:代码中的百度首页的源码非常少?

  • 需要我们带上请求头信息
    回顾爬虫的概念,模拟浏览器,欺骗服务器,获取和浏览器一致的内容
  • 请求头中有很多字段,其中User-Agent字段必不可少,表示客户端的操作系统以及浏览器的信息

携带请求头发送请求的方法

  • 方法:requests.get(url, headers=headers)
  • headers参数接收字典形式的请求头
  • 请求头字段名作为key,字段对应的值作为value
import requests
url = 'https://www.baidu.com'
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

# 在请求头中带上User-Agent,模拟浏览器发送请求
response = requests.get(url, headers=headers) 

print(response.content)

# 打印请求头信息
print(response.request.headers)

发送带参数的请求

查询字符串

  1. 在url携带参数
url = 'https://www.baidu.com/s?wd=python'
  1. 通过params携带参数字典
import requests
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

# 这是目标url
# url = 'https://www.baidu.com/s?wd=python'

# 最后有没有问号结果都一样
url = 'https://www.baidu.com/s?'

# 请求参数是一个字典 即wd=python
kw = {'wd': 'python'}

# 带上请求参数发起请求,获取响应
response = requests.get(url, headers=headers, params=kw)

print(response.content)

headers参数中携带cookie

爬虫基础和requests模块_第9张图片

  • 从浏览器中复制User-Agent和Cookie
  • 浏览器中的请求头字段和值与headers参数中必须一致
  • headers请求参数字典中的Cookie键对应的值是字符串
import requests
url = 'https://github.com/USER_NAME'
# 构造请求头字典
headers = {
    # 从浏览器中复制过来的User-Agent
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36',
    # 从浏览器中复制过来的Cookie
    'Cookie': 'xxx这里是复制过来的cookie字符串'
}
# 请求头参数字典中携带cookie字符串
resp = requests.get(url, headers=headers)
print(resp.text)

成功利用headers参数携带cookie,获取登陆后才能访问的页面

cookies参数的使用

  1. cookies参数的形式:字典
    cookies = {“cookie的name”:“cookie的value”}
    • 该字典对应请求头中Cookie字符串,以分号、空格分割每一对字典键值对
    • 等号左边的是一个cookie的name,对应cookies字典的key
    • 等号右边对应cookies字典的value
  2. cookies参数的使用方法
    response = requests.get(url, cookies)
  3. 将cookie字符串转换为cookies参数所需的字典:
    cookies_dict = {cookie.split(’=’)[0]:cookie.split(’=’)[-1] for cookie in cookies_str.split(’; ')}
  4. 注意:cookie一般是有过期时间的,一旦过期需要重新获取
import requests
url = 'https://github.com/USER_NAME'
# 构造请求头字典
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'
}
# 构造cookies字典
cookies_str = '从浏览器中copy过来的cookies字符串'
cookies_dict = {cookie.split('=')[0]:cookie.split('=')[-1] for cookie in cookies_str.split('; ')}

# 请求头参数字典中携带cookie字符串
resp = requests.get(url, headers=headers, cookies=cookies_dict)

print(resp.text)

cookieJar对象转换为cookies字典的方法

使用requests获取的resposne对象,具有cookies属性。该属性值是一个cookieJar类型,包含了对方服务器设置在本地的cookie。

  1. 转换方法
    cookies_dict = requests.utils.dict_from_cookiejar(response.cookies)
  2. 其中response.cookies返回的就是cookieJar类型的对象
  3. requests.utils.dict_from_cookiejar函数返回cookies字典

超时参数timeout的使用

遇到网络波动,在爬虫中,一个请求很久没有结果,就会让整个项目的效率变得非常低,就需要对请求进行强制要求,让他必须在特定的时间内返回结果,否则就报错。

  1. 超时参数timeout的使用方法
    response = requests.get(url, timeout=3)
  2. timeout=3表示:发送请求后,3秒钟内返回响应,否则就抛出异常
import requests
url = 'https://twitter.com'
response = requests.get(url, timeout=3)     # 设置超时时间

代理&proxy代理参数的使用-

代理过程
爬虫基础和requests模块_第10张图片
正向代理和反向代理的区别
爬虫基础和requests模块_第11张图片
代理ip分类
爬虫基础和requests模块_第12张图片
爬虫基础和requests模块_第13张图片

proxies代理参数的使用

为了防止频繁向一个域名发送请求被封ip,所以需要使用代理ip

  • 用法:
    response = requests.get(url, proxies=proxies)
  • proxies的形式:字典
  • 例如:
    proxies = {
    “http”: “http://12.34.56.79:9527”,
    “https”: “https://12.34.56.79:9527”,
    }
  • 注意:如果proxies字典中包含有多个键值对,发送请求时将按照url地址的协议来选择使用相应的代理ip

使用verify参数忽略CA证书

爬虫基础和requests模块_第14张图片
原因:该网站的CA证书没有经过【受信任的根证书颁发机构】的认证
爬虫基础和requests模块_第15张图片
解决方案:为了在代码中能够正常的请求,使用verify=False参数,此时requests模块发送请求将不做CA证书的验证:verify参数能够忽略CA证书的认证

import requests
url = "https://sam.huat.edu.cn:8443/selfservice/" 
response = requests.get(url,verify=False)

requests模块发送post请求

  1. 登录注册( 在web工程师看来POST 比 GET 更安全,url地址中不会暴露用户的账号密码等信息)
  2. 需要传输大文本内容的时候( POST 请求对数据长度没有要求)

requests发送post请求的方法

  • response = requests.post(url, data)
  • data参数接收一个字典
  • requests模块发送post请求函数的其它参数和发送get请求的参数完全一致

POST请求练习

爬虫基础和requests模块_第16张图片

import requests
import json

class King(object):
    def __init__(self, word):
        self.url = "http://fy.iciba.com/ajax.php?a=fy"
        self.word = word
        self.headers = {
            "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"
        }
        self.post_data = {
            "f": "auto",
            "t": "auto",
            "w": self.word
        }

    def get_data(self):
        response = requests.post(self.url, headers=self.headers, data=self.post_data)
        # 默认返回bytes类型,除非确定外部调用使用str才进行解码操作
        return response.content

    def parse_data(self, data):

        # 将json数据转换成python字典
        dict_data = json.loads(data)

        # 从字典中抽取翻译结果
        try:
            print(dict_data['content']['out'])
        except:
            print(dict_data['content']['word_mean'][0])

    def run(self):
        # url
        # headers
        # post——data
        # 发送请求
        data = self.get_data()
        # 解析
        self.parse_data(data)

if __name__ == '__main__':
    # king = King("人生苦短,及时行乐")
    king = King("China")
    king.run()
    # python标准库有很多有用的方法,每天看一个标准库的使用

requests.session状态保持

requests模块中的Session类能够自动处理发送请求获取响应过程中产生的cookie,进而达到状态保持的目的。

requests.session的作用以及应用场景

  • requests.session的作用
    • 自动处理cookie,即 下一次请求会带上前一次的cookie
  • requests.session的应用场景
    • 自动处理连续的多次请求过程中产生的cookie

session实例在请求了一个网站后,对方服务器设置在本地的cookie会保存在session中,下一次再使用session请求对方服务器的时候,会带上前一次的cookie

session = requests.session() # 实例化session对象
response = session.get(url, headers, ...)
response = session.post(url, data, ...)

session对象发送get或post请求的参数,与requests模块发送请求的参数完全一致

练习

使用requests.session来完成github登陆,并获取需要登陆后才能访问的页面

过程

  1. 对github登陆以及访问登陆后才能访问的页面的整个完成过程进行抓包
  2. 确定登陆请求的url地址、请求方法和所需的请求参数
    • 部分请求参数在别的url对应的响应内容中,可以使用re模块获取
  3. 确定登陆后才能访问的页面的的url地址和请求方法
  4. 利用requests.session完成代码
import requests
import re


# 构造请求头字典
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36',
}

# 实例化session对象
session = requests.session()

# 访问登陆页获取登陆请求所需参数
response = session.get('https://github.com/login', headers=headers)
authenticity_token = re.search('name="authenticity_token" value="(.*?)" />', response.text).group(1) # 使用正则获取登陆请求所需参数

# 构造登陆请求参数字典
data = {
    'commit': 'Sign in', # 固定值
    'utf8': '✓', # 固定值
    'authenticity_token': authenticity_token, # 该参数在登陆页的响应内容中
    'login': input('输入github账号:'),
    'password': input('输入github账号:')
}

# 发送登陆请求(无需关注本次请求的响应)
session.post('https://github.com/session', headers=headers, data=data)

# 打印需要登陆后才能访问的页面
response = session.get('https://github.com/1596930226', headers=headers)
print(response.text)

你可能感兴趣的:(爬虫,python)