UserAgent
是识别浏览器的一串字符串,相当于浏览器的身份证,在利用爬虫爬取网站数据时,频繁更换UserAgent
可以避免触发相应的反爬机制。fake-useragent
对频繁更换UserAgent
提供了很好的支持,可谓防反扒利器。下面将介绍fake-useragent
的安装到使用。
安装
在命令行中输入pip install fake-useragent
即可完成安装。
继续输入pip list
在检查fake-useragent
是否在pip的已安装包列表中,判断其知否安装成功。
使用
安装成功后,我们每次发送requests
请求时通过random
从中随机获取一个随机UserAgent
,两行代码即可完成UserAgent
的不停更换。
from fake_useragent import UserAgent
headers= {'User-Agent':str(UserAgent().random)}
r = requests.get(url, proxies=proxies, headers=headers, timeout=10)
更新
我在使用fake_useragent
中遇到如下的报错,在起初误认为是部分网站对某些UserAgent
的屏蔽导致的fake_useragent
调用出错,后来追究下来发现是由于fake_useragent
中存储的UserAgent
列表发生了变动,而我本地UserAgent
的列表未更新所导致的,在更新fake_useragent
后报错就消失了。关于这个报错知道更多细节的同学,欢迎在下面留言!
fake_useragent.errors.FakeUserAgentError: Maximum amount of retries reached
更新fake_useragent
,在命令行中输入pip install -U fake-useragent
即可完成更新,Python的其他包也可以用这种方法完成更新pip install -U 包名
。