Python 女*神*视*界,采集好看的视频+图片~

人生苦短,我用Python

这次是案例分享
在这里插入图片描述

知识点:

海量视频数据一键保存
html标签数据解析方法
re解析数据方法

环境介绍:

python  3.8
pycharm 2021.2
requests >>> pip install requests
parsel   >>> pip install parsel

+python安装包 安装教程视频
+pycharm 社区版 专业版 及 激活码免费

一. 分析网站(思路分析)

我们通过在网页链接前面+ view-source:https:.....
###无偿领python源码籽料qun:5403 05994
就可以查看到网页源代码, 我们在网页源代码当中可以找到 视频链接地址

二. 代码实现

1. 发送网络请求
2. 获取数据 网页源代码
3. 筛选数据 视频详情页地址
4. 发送网络请求
5. 获取数据 网页源代码
6. 筛选数据 视频播放地址
7. 访问视频播放地址
8. 获取视频二进制数据
9. 保存 视频数据

Python 女*神*视*界,采集好看的视频+图片~_第1张图片

导入模块

import requests     # 发送网络请求
import re           # 正则模块
import parsel       # 解析数据模块

1. 发送网络请求

url_1 = 'https:///tag/xg.html'

response_1 = requests.get(url_1)

2. 获取数据 网页源代码

data_html_1 = response_1.text

3. 筛选数据 视频详情页地址

selector = parsel.Selector(data_html_1)
info_url_list = selector.css('.meta-title::attr(href)').getall()
title_url_list = selector.css('.meta-title::text').getall()
new_title_list = [i for i in title_url_list if i != ' ']
无偿领python源码籽料qun:5403 05994
for zip_data in zip(info_url_list, new_title_list):
    url = zip_data[0]
    # 1. 发送网络请求
    response = requests.get(url=url)
    # : 发送请求成功响应
    # 2. 获取数据 网页源代码
    data_html = response.text
    # 3. 筛选数据 视频播放地址
    # 第一个参数匹配规则 第二个我们要在哪里匹配
    video_url = re.findall('url: "(.*?)",', data_html)[0]
    print(video_url)
    # 4. 访问视频播放地址
    # 5. 获取视频/音频/图片 二进制数据
    video_data = requests.get(video_url).content
    title = zip_data[1]
    # 6. 保存 视频数据
    with open(f'video\\{title}.mp4', mode='wb') as f:
        f.write(video_data)
    print(title, '爬取成功!!!')

Python 女*神*视*界,采集好看的视频+图片~_第2张图片
Python 女*神*视*界,采集好看的视频+图片~_第3张图片

你可能感兴趣的:(python基础知识,基础知识,python,音视频,pycharm)