爬虫——网页页面爬取

User-Agent伪装

U-A伪装:门户网站的服务器会检测对应请求的载体身份标识,如果检测到请求的载体身份标识为某一款浏览器,说明该请求是一个正常的请求;
但是,如果检测到请求的载体身份标识不是基于某一款浏览器的,则表示该请求为不正常的请求(爬虫),则服务器就可能拒绝该次请求

# 爬取搜狗首页页面数据
import requests
#UA伪装:将对应的User-Agent封装到一个字典中
headers={
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36 Edg/112.0.1722.48'
}
#指定url
url = 'https://www.sogou.com/web'
#处理url携带的参数:封装到字典中
kw = input('enter a word:')
param = {
    'query':kw
}
#对指定url发起的请求对应的url是携带参数的,并且请求过程中处理了参数
response = requests.get(url=url,params=param,headers=headers)
#获取相应数据
#.text返回的是字符串形式的响应数据
page_text = response.text
print(page_text)
print('爬取结束')

爬虫——网页页面爬取_第1张图片

你可能感兴趣的:(爬虫,python,开发语言)