Python爬虫教程(三)

开发者社区.png

一、处理cookie,实战登录17K小说网

    部分网站需要登录才能获取所需数据,如此例我们要获取小说网站书架数据,需要进行登录得到属于此账号信息。
Python爬虫教程(三)_第1张图片
    1.会话(Session)跟踪是Web程序中常用的技术,用来跟踪用户的整个会话。常用的会话跟踪技术是Cookie与Session。Cookie通过在客户端记录信息确定用户身份,Session通过在服务器端记录信息确定用户身份。
    2.使用浏览器开发工具,找到登录所需网址。
Python爬虫教程(三)_第2张图片
    3.使用session获取所要内容。
    Python爬虫教程(三)_第3张图片
image.png
    4.获取cookie。
      Python爬虫教程(三)_第4张图片
image.png
    5.获取页面数据,使用session保持登录状态。
image.png
Python爬虫教程(三)_第5张图片
    6.第二种获取方式。
image.png
image.png
    我们可以看到直接使用requests无法进入登录状态的,但是我们也可通过cookie解决这个问题。在浏览器开发工具中获取cookie。
Python爬虫教程(三)_第6张图片
image.png
image.png

二、requests处理防盗链,获取梨视频视频。

    选择梨视频中任意视频,使用浏览器开发工具可以看到其视频链接,但是我们无法在页面源代码中找到视频下载链接
Python爬虫教程(三)_第7张图片
    刷新页面,可以在开发者工具中得到Request URL请求网址及srcUrl的网址。
Python爬虫教程(三)_第8张图片
image.png
Python爬虫教程(三)_第9张图片
    输入浏览器中,会出现报错,我们将正确的视频网址与此网址进行对比,可看到其前后均相同,只有中间部分不同。
Python爬虫教程(三)_第10张图片
    找到不同位置的来源,将两个界面进行对比。
Python爬虫教程(三)_第11张图片
    下面进行视频的爬取。
    1.拿到contID
      image.png
    2.获取videoStatus返回json
Python爬虫教程(三)_第12张图片
image.png
    出现文章已经下线的提升,可内容是出现在浏览器中的,我们将处理防盗链的问题,防盗链主要为溯源,找到本次请求的上一级链接。
Python爬虫教程(三)_第13张图片
Python爬虫教程(三)_第14张图片
Python爬虫教程(三)_第15张图片
    筛选内容,获取json。
       image.png
    3.对获取网址进行内容修改替换。
     image.png
image.png
    4.下载视频。
      image.png

三、综合训练,爬取网易云音乐评论信息

    1.使用开发者工具找到所需内容位置。
Python爬虫教程(三)_第16张图片
    2.发现其数据为加密形式,按照其请求运行过程找到加密的位置。
    Python爬虫教程(三)_第17张图片
    Python爬虫教程(三)_第18张图片
    3.找到未加密的参数
Python爬虫教程(三)_第19张图片
Python爬虫教程(三)_第20张图片
    4.参考网易的逻辑找到其加密的逻辑,可发现需要params,encSecKey两个参数。
Python爬虫教程(三)_第21张图片
Python爬虫教程(三)_第22张图片
    5.对应上述逻辑,找到d,e,f,g分别对应内容。
image.png
Python爬虫教程(三)_第23张图片
image.png
    6.下面进行评论的爬取。
Python爬虫教程(三)_第24张图片
Python爬虫教程(三)_第25张图片
Python爬虫教程(三)_第26张图片
        Python爬虫教程(三)_第27张图片
    7.运行获得结果,得到网易云音乐歌曲评论信息。
Python爬虫教程(三)_第28张图片

你可能感兴趣的:(Python爬虫教程(三))