Python爬虫教程(五)

开发者社区.png

一、综合训练-爬取91看剧视频

    1.找到想要爬取的视频位置
Python爬虫教程(五)_第1张图片

    打开哲仁王后第一集视频,打开页面源代码,可看到视频m3u8链接。
Python爬虫教程(五)_第2张图片

    使用开发者工具可以看到其m3u8文件内容
Python爬虫教程(五)_第3张图片

    2.获取视频页面源代码。
    Python爬虫教程(五)_第4张图片
Python爬虫教程(五)_第5张图片

    3.使用re解析从页面源代码中提取m3u8链接。
Python爬虫教程(五)_第6张图片
image.png

    4.下载m3u8文件
     Python爬虫教程(五)_第7张图片
Python爬虫教程(五)_第8张图片

    5.解析m3u8文件。
  Python爬虫教程(五)_第9张图片
                Python爬虫教程(五)_第10张图片

二、selenium概念介绍

    Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。
    我们要使用Selenium进行一些网页中的操作,还需要下载浏览器驱动。Chrome驱动下载地址http://npm.taobao.org/mirrors...。选择与当前使用的Chrome版本相同版本,若没有相同的版本号,则选择最接近的上一版本。将下载的驱动解压后保存在python解释器所在的文件夹中。
    测试驱动是否可用,使用selenium启动浏览器。
       Python爬虫教程(五)_第11张图片
Python爬虫教程(五)_第12张图片

三、Selenium的操作及爬取拉钩信息。

    1.打开拉勾网。
          Python爬虫教程(五)_第13张图片
Python爬虫教程(五)_第14张图片

    2.找到某个元素点击,这里以全国为例,复制其xpath地址。
Python爬虫教程(五)_第15张图片
image.png

    3.找到输入框,输入python,回车进行搜索,需要导入Keys。
      image.png
image.png

    4.查找所要数据的位置,进行提取。
    (1)找到所有存放数据的


  • Python爬虫教程(五)_第16张图片

        (2)找到每条想要元素位置获得其xpath。
    Python爬虫教程(五)_第17张图片
    Python爬虫教程(五)_第18张图片
    Python爬虫教程(五)_第19张图片

        (3)进行数据提取。
    Python爬虫教程(五)_第20张图片
    Python爬虫教程(五)_第21张图片

        5.窗口间切换,获取新窗口中内容。
    Python爬虫教程(五)_第22张图片
    Python爬虫教程(五)_第23张图片

        关闭子页面,回到主页面视角。
              image.png

        6.处理下拉菜单,实战爬取艺恩数据的年度票房信息。
    Python爬虫教程(五)_第24张图片
           Python爬虫教程(五)_第25张图片

        7.使用超级鹰处理超级鹰登录验证码
    Python爬虫教程(五)_第26张图片

        (1)完成注册登录,在用户中心查看软件ID,新注册账号需自己生成一个软件ID
    Python爬虫教程(五)_第27张图片

        (2)下载示例代码,在开发文档中选择对应语言,我这里选python。
    Python爬虫教程(五)_第28张图片
            Python爬虫教程(五)_第29张图片

        (3)将代码及示例图片复制到所建项目中进行测试。
                          image.png
    Python爬虫教程(五)_第30张图片
    image.png

        (4)使用超级鹰处理超级鹰登录验证码。
    Python爬虫教程(五)_第31张图片
    Python爬虫教程(五)_第32张图片
    Python爬虫教程(五)_第33张图片

  • 你可能感兴趣的:(Python爬虫教程(五))