很多网站服务器往往通过判断客户端请求头中的 User-Agent 包含的操作系统信息、浏览器信息等来给不同的客户端浏览器发送不同的页面显示更好的效果。因此,在爬虫过程中就需要将我们自己的请求身份伪装成某种浏览器,而这个伪装信息就包含在 User-Agent 字段的赋值中,所以才要研究如何随机的生成各种不同的 User-Agent 的值来伪装我们的爬虫身份。
服务器对客户端请求头的 UserAgent 检测又称为 UA 检测,UA 值的字符串标准格式一般为:浏览器标识 (操作系统标识; 加密等级标识; 浏览器语言) 渲染引擎标识 版本信息。根据操作系统、浏览器信息等的不同可以随机组合出不同的 User-Agent 的值。
1# -*- coding: UTF-8 -*-
2
3# 从 fake_useragent 模块导入 UserAgent
4from fake_useragent import UserAgent
5
6# 创建 UserAgent 对象
7user_agent = UserAgent()
1# 随机统计生成 User-Agent
2print user_agent.random
3# 随机生成 ie 的 User-Agent
4print user_agent.ie
5# 随机生成 opera 的 User-Agent
6print user_agent.opera
7# 随机生成 chrome 的 User-Agent
8print user_agent.chrome
9# 随机生成 google 的 User-Agent
10print user_agent.google
11# 随机生成 firefox 的 User-Agent
12print user_agent.firefox
13# 随机生成 safari 的 User-Agent
14print user_agent.safari
更多精彩前往微信公众号【Python 集中营】,专注于 python 技术栈,资料获取、交流社区、干货分享,期待你的加入~