爬虫 浏览器

使用python请求服务器
可以查看header信息是这样的:

Host: 127.0.0.1:3369
User-Agent: python-requests/3.21.0
Accept-Encoding: gzip, deflate
Accept: /
Connection: keep-alive

很明显暴露了你不是普通用户,容易被封,所以需要把自己伪装成浏览器用户,需要伪装header信息,

通常关注这两个:
user-agent
Referer

术语解释:
user-agent: 说明操作系统和浏览器版本号, 如果是pathon爬虫,默认是python-requests/3.21.0
referer: 从哪个网址点进来的,有些网站会实现防盗链,禁止被其他网站当图床
cookie:存储登录信息

from fake_useragent import UserAgent # 下载:pip install fake-useragent
ua = UserAgent() 
print(ua.random)
import requests
ua = UserAgent()
print(ua.random) # 随机产生

headers = {
‘User-Agent’: ua.random # 伪装
}

headers = {‘User-Agent’:ua.random,‘Referer’:‘这里放入图片的主页面’}
如果遇到防盗链的图片,一般思路就是先爬到所有图片的地址.jpg —–>将它们储存在列表中 —–>遍历访问图片地址,然后用 ‘wb’的格式打开文件写入,文件名根据图片地址动态改变。

IP代理池

访问免费代理的网站 => 测试代理是否可用,可用则保存 =》使用爬虫,过期就抛弃

另外可以使用开源 ip代理池—ProxyPool(推荐)
https://github.com/Python3WebSpider/ProxyPool.git
需要安装Redis

你可能感兴趣的:(python,爬虫,python,开发语言)