认识爬虫:User-Agent 是什么,如何使用 fake_useragent 扩展库随机生成各种 UA?

很多网站服务器往往通过判断客户端请求头中的 User-Agent 包含的操作系统信息、浏览器信息等来给不同的客户端浏览器发送不同的页面显示更好的效果。因此,在爬虫过程中就需要将我们自己的请求身份伪装成某种浏览器,而这个伪装信息就包含在 User-Agent 字段的赋值中,所以才要研究如何随机的生成各种不同的 User-Agent 的值来伪装我们的爬虫身份。

1、浏览器的 UA 字符串

服务器对客户端请求头的 UserAgent 检测又称为 UA 检测,UA 值的字符串标准格式一般为:浏览器标识 (操作系统标识; 加密等级标识; 浏览器语言) 渲染引擎标识 版本信息。根据操作系统、浏览器信息等的不同可以随机组合出不同的 User-Agent 的值。

2、导入 fake_useragent、并创建对象

1# -*- coding: UTF-8 -*-
2
3# 从 fake_useragent 模块导入 UserAgent
4from fake_useragent import UserAgent
5
6# 创建 UserAgent 对象
7user_agent = UserAgent()

3、不同浏览器如何随机生成 User-Agent

 1# 随机统计生成 User-Agent
 2print user_agent.random
 3# 随机生成 ie 的 User-Agent
 4print user_agent.ie
 5# 随机生成 opera 的 User-Agent
 6print user_agent.opera
 7# 随机生成 chrome 的 User-Agent
 8print user_agent.chrome
 9# 随机生成 google 的 User-Agent
10print user_agent.google
11# 随机生成 firefox 的 User-Agent
12print user_agent.firefox
13# 随机生成 safari 的 User-Agent
14print user_agent.safari

更多精彩前往微信公众号【Python 集中营】,专注于 python 技术栈,资料获取、交流社区、干货分享,期待你的加入~

image.png

你可能感兴趣的:(python爬虫)