有些网站需要做了限定 浏览器才能 打开 所以这次我们要伪装一个浏览器 取抓去 数据
还是以豆瓣为例
代码如下:
''' 伪装浏览器 Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36 ''' import urllib.request url = 'https://www.douban.com/' header = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36'} req = urllib.request.Request(url=url,headers=header) re = urllib.request.urlopen(req) data = re.read() #设置编码方式 data = data.decode('utf-8') #打印抓取结果 print(data) #打印爬取网页的各类信息 print(type(re)) print(re.geturl()) print(re.info()) print(re.getcode())我的是mac电脑 如果是 win的系统 请自行 百度 或 用抓包工具 查找User-Agent 如有不妥请大神指点。。。
抓取结果:
"zh-cmn-Hans" class="ua-mac ua-webkit"> "UTF-8"> "description" content="提供图书、电影、音乐唱片的推荐、评论和价格比较,以及城市独特的文化生活。"> "keywords" content="豆瓣,广播,登陆豆瓣"> "qc:admins" content="2554215131764752166375" /> "wb:webmaster" content="375d4a17a4fa24c2" /> "mobile-agent" content="format=html5; url=https://m.douban.com">豆瓣 "stylesheet" href="https://img3.doubanio.com/f/shire/25e3b87e05e5de459e1473fad35d25cafd392ad6/css/core/_init_.css"> "stylesheet" href="https://img3.doubanio.com/f/sns/024dd07167e74fe8d2ac2faaf2725333e6f7561b/css/sns/anonymous_home.css">