Python爬虫:短视频小姐姐哪家强,过来看看某间房

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

( 想要学习Python?Python学习交流群:1039649593,满足你的需求,资料都已经上传群文件流,可以自行下载!还有海量最新2020python学习资料。 )
Python爬虫:短视频小姐姐哪家强,过来看看某间房_第1张图片

一、前言

看视频平台哪家强?存在自己硬盘中才最强叫你一招爬取某间房海量小姐姐短视频!

二、课程亮点

1、动态数据抓包演示(动态)
2、json数据解析方法(json)
3、视频数据保存

三、所用到得库

import re
import requests  # 第三方模块
import pprint  # 格式化输出

四、爬虫案例一般步骤(思路):

  1. 找数据所在的url地址(分析网页性质<静态网页/动态网页>)
  2. 发送url地址请求 requests
  3. 数据解析
  4. 数据保存(本地\数据库)
    Python爬虫:短视频小姐姐哪家强,过来看看某间房_第2张图片

1.找数据所在的url地址(分析网页性质<静态网页/动态网页>)

def change_title(title):
    pattern = re.compile(r"[\/\\\:\*\?\"\<\>\|]")  # '/ \ : * ? " < > |'
    new_title = re.sub(pattern, "_", title)  # 替换为下划线
    return new_title

for page in range(8, 11):
    print(f'===================正在下载第{page}页视频数据=======================')
    # 1. 找数据所在的url地址(分析网页性质<静态网页/动态网页>)
    url = f'https://v.6.cn/minivideo/getMiniVideoList.php?act=recommend&page={page}&pagesize=25'
    headers = {
     'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'}

  1. 发送url地址请求 requests
# 2. 发送url地址请求  requests
    response = requests.get(url=url, headers=headers)
    json_data = response.json()
    # pprint.pprint(json_data)

3 数据解析

 # 3. 数据解析  剥洋葱
    data_list = json_data['content']['list']

    for data in data_list:
        video_title = data['alias'] + ".mp4" # 视频的标题, 尾缀  mp4 avi rmvb flv ...
        video_url = data['playurl']  # 视频的链接地址
        # print(video_title, video_url)

        # 请求视频链接地址数据
        print('正在下载:', video_title)
        video_data = requests.get(url=video_url, headers=headers).content  # 二进制

        new_title = change_title(video_title)

4.数据保存(本地\数据库)

 # 4.数据保存(本地\数据库)
        with open('video\\' + new_title, mode='wb') as f:
            f.write(video_data)
            print('下载完成...\n')

你可能感兴趣的:(爬虫,python,python,网络)