Python3简单爬虫

先从一个最简单的页面开始爬起


Python3简单爬虫_第1张图片
    from urllib import request
    res = request.Request("http://www.baidu.com")  #构建请求
    res = request.urlopen(res) #获取服务器响应
    print(res.read().decode('utf-8')) #读取设置编码  输出到控制台

运行


Python3简单爬虫_第2张图片

但是往往裸奔版对一些网站是爬不了的,这时就需要对爬虫进行一些伪装了。伪装浏览器或者加入延时。
改成如下代码

    from urllib import request
    import ssl

    res = request.Request("http://www.baidu.com")

    res.add_header("User-Agent","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko)   Chrome/58.0.3029.81 Safari/537.36")
  context = ssl._create_unverified_context()
    res = request.urlopen(res,context=context)
    print(res.read().decode('utf-8'))

这样就成功完成伪装了

你可能感兴趣的:(Python3简单爬虫)