Python爬虫——urllib_请求对象定制

UA介绍:
User Agent中文名为用户代理,j简称UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本,cpu类型,浏览器及版本,浏览器内核,浏览器渲染引擎,浏览器语言,浏览器插件等。

  1. 怎么在浏览器中找到UA
    F12打开控制台
    Python爬虫——urllib_请求对象定制_第1张图片
  2. url的组成 https://www.baidu.com/s?wd=周杰伦
协议 主机 端口号 路径 参数 锚点
http或https www.baidu.com http 80/https 443 s wd=周杰伦
  1. 读取百度网页源码
import urllib.request

import requests

url = "https://www.baidu.com"

# 因为urlopen方法中不能储存字典,所以headers不能直接传递进去
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36 Core/1.94.200.400 QQBrowser/11.8.5310.400'}

request = urllib.request.Request(url, headers=headers)
response = urllib.request.urlopen(request)

print(response.read().decode('utf-8'))

你可能感兴趣的:(Python爬虫,python,爬虫)