1.初识爬虫和request库的安装使用

1.爬虫流程

  • 确定需求
  • 寻找需求
  • 发送请求
  • 解析数据
  • 存储数据

2.爬虫环境

  • windows10
  • Python3.7
  • IDE:Pycharm/Sublime

3.requests库安装和使用

  • request库的使用对应的是爬虫流程中发送请求这一步骤

  • web请求方式—GET/POST
    1.GET是默认的HTTP请求方法,用以直接输入网址的方式去访问网站。
    2. POST方法是向服务器提交表单数据,通常表单提交时采用POST方法。
    3. GET把请求参数包含在URL种,POST通过请求体传递参数。
    4.GET相对POST不安全,参数直接暴露在URL上,用来传递敏感信息。

  • 安装

    在python控制台输入

	pip install requests
  • 发送请求
import requests

#define requests url
url = 'https://www.baidu.com'

#start GET request
res =requests.get(url=url)
res.encoding='utf-8'
#get respond result
print(res)   #
print(res.content) # 二进制的文本流
print(res.content.decode('utf-8')) #二进制的文本流按照ytf-8的字符集转化为普通字符串
print(res.text) #获取相应的内容
print(res.headers) #响应头信息
print(res.status_code) #请求状态码  200成功 404失败
print(res.url) #请求的url地址
print(res.request.headers) #请求的头信息 'User-Agent': 'python-requests/2.22.0', 直接就告知是python程序发出请求
  • 百度审查元素几个有用点:cookie,Host,User-Agent
  • 1.初识爬虫和request库的安装使用_第1张图片

你可能感兴趣的:(爬虫)