【爬虫实战】9应用Python网络爬虫——利用Post定向爬取下载慕课MOOC视频

慕课MOOC视频Post定向爬虫

  • 前言
  • 下载中国大学MOOC视频思路讲解
  • 下载中国大学MOOC视频代码讲解
  • 小结

前言是在分析为什么直接爬不行,需要用 POST,不感兴趣可直接看思路

前言

以下内容为原创内容,欢迎参考与指正,欢迎借鉴,请标明出处即可

本文想爬取北京理工大学刘兆龙 、冯艳全 、石宏霆老师的大学物理典型问题解析—力学与热学,网址如下:https://www.icourse163.org/learn/BIT-1001605006?tid=1460672441#/learn/content?type=detail&id=1236923009&cid=1256673028

在原网页按F12进入开发者模式,发现我们需要的代码块为:

再往下层的:

……

最后我们需要的是:


后面的网站就是我们需要的视频:也可以直接写成https://mooc1vod.stu.126.net/nos/mp4/2016/11/24/1005374032_f9e9a7ba99504a9aa6e121572965d7a0_sd.mp4

最简单的爬取代码如下:

import requests


def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        print(r.status_code)
        r.raise_for_status()  # 如果状态不是200,引发HTTPError异常
        r.encoding = r.apparent_encoding
        return r
    except:
        print('爬取失败')


if __name__ == "__main__":
    url = 'https://www.icourse163.org/learn/BIT-1001605006?tid=1460672441#/learn/content?type=detail&id=1236923009&cid=1256673028'
    print(getHTMLText(url).text)

结果如下:

200


                    
                    

你可能感兴趣的:(【爬虫】,python,爬虫,mooc,正则化)