转载:使用Python写一个m3u8多线程下载器
可去看原文:https://blog.csdn.net/muslim377287976/article/details/104340242
文章目录
挖坑缘由
功能
代码
GUI
下载工具类
逻辑代码
总结
挖坑缘由
现在很多在线观看的视频为了防盗链使用了M3u8格式,想要下载的话比较麻烦,如果切分的ts文件名是递增的数字序号的还好说,但是很多是随机的字母,这种就无法通过使用迅雷的批量任务来下载了。然而网上搜到的m3u8downloader使用起来不是很满意,那个工具应该是单线程的,下载进度贼慢,而且如果有一个资源卡住了,就会一直卡在那里,另外我在开发这个下载工具时发现了很多m3u8资源指向是跨域的,不一定都在一个域名下,有可能我使用m3u8downloader时下载失败是这个原因导致的。
在被m3u8downloader折磨了一段时间后终于准备自己写一个下载器了。
先康康最终成果吧
功能
1.使用线程池进行耗时操作
2.可保留所有ts文件
3.单个文件下载失败可手动下载单个文件,再通过shell命令合并
4.如果m3u8资源支持多分辨率,可以指定速度优先(下载分辨率最小的)和画质优先(下载分辨率最大的)
5.如果不填写视频名称,则使用随机字符串+数字的组合
6.引入ffmpeg,增加加密m3u8文件下载功能(2020.03.15更新)
代码
GUI
界面部分使用tkinter,虽然丑了点但是挺好用的。。
逻辑代码部分需要与GUI进行交互,显示进度、弹框等,所以把GUI封装成了一个类。这里需要注意,GUI代码部分还没有与逻辑代码绑定。
from tkinter import *
from tkinter import ttk
import tkinter.messagebox
class M3u8Downloader:
def __init__(self, title="M3U8下载器", version=None, auth="莫近东墙"):
self.root = Tk()
self.title = title
self.version = version
self.auth = auth
self.root.title("%s-%s by %s" % (self.title, self.version, self.auth))
self.w = 350
self.h = 360
self.frm = LabelFrame(self.root, width=self.w - 20, height=170, padx=10, text="设置")
self.frm.place(x=10, y=5)
Label(self.frm, text="m3u8地址:", font=("Lucida Grande", 11)).place(x=0, y=0)
self.button_url = Entry(self.frm, width=30)
self.button_url.place(x=0, y=25)
Label(self.frm, text="视频名称:(无需后缀名)", font=("Lucida Grande", 11)).place(x=0, y=50)
self.button_video_name = Entry(self.frm, width=30)
self.button_video_name.place(x=0, y=75)
self.v = IntVar()
self.cb_status = IntVar()
self.v.set(1)
self.rb1 = Radiobutton(self.frm, text='速度优先', variable=self.v, value=1, font=("Lucida Grande", 11))
self.rb2 = Radiobutton(self.frm, text='画质优先', variable=self.v, value=2, font=("Lucida Grande", 11))
self.cb = Checkbutton(self.frm, text='保存源文件', variable=self.cb_status, font=("Lucida Grande", 11))
self.rb1.place(x=0, y=95)
self.rb2.place(x=100, y=95)
self.cb.place(x=200, y=95)
self.button_start = Button(self.frm, text="开始下载", width=8, font=("Lucida Grande", 11))
self.button_start.place(x=230, y=15)
self.button_exit = Button(self.frm, text="退出", width=8, font=("Lucida Grande", 11))
self.button_exit.place(x=230, y=70)
self.progress = ttk.Progressbar(self.frm, orient="horizontal", length=self.w - 40, mode="determinate")
self.progress.place(x=0, y=120)
self.progress["maximum"] = 100
self.progress["value"] = 0
self.message_frm = LabelFrame(self.root, width=self.w - 20, height=170, padx=10, text="消息")
self.message_frm.place(x=10, y=180)
self.scrollbar = Scrollbar(self.message_frm)
self.scrollbar.pack(side='right', fill='y')
self.message_v = StringVar()
self.message_s = ""
self.message_v.set(self.message_s)
self.message = Text(self.message_frm, width=41, height='11')
self.message.insert('insert', self.message_s)
self.message.pack(side='left', fill='y')
# 以下两行代码绑定text和scrollbar
self.scrollbar.config(command=self.message.yview)
self.message.config(yscrollcommand=self.scrollbar.set)
self.message.config(state=DISABLED)
ws, hs = self.root.winfo_screenwidth(), self.root.winfo_screenheight()
self.root.geometry('%dx%d+%d+%d' % (self.w, self.h, (ws / 2) - (self.w / 2), (hs / 2) - (self.h / 2)))
self.root.resizable(0, 0)
# self.root.mainloop()
def alert(self, m):
print("%s" % m)
if m:
self.message.config(state=NORMAL)
self.message.insert(END, m + "\n")
# 确保scrollbar在底部
self.message.see(END)
self.message.config(state=DISABLED)
self.root.update()
def clear_alert(self):
self.message.config(state=NORMAL)
self.message.delete('1.0', 'end')
self.message.config(state=DISABLED)
self.root.update()
def show_info(self, m):
tkinter.messagebox.showinfo(self.title, m)
下载工具类
这里需要注意的是,requests的超时分为两种,请求超时和读取超时,请求超时是指连接不上,读取超时是指连接上了,但是资源下载不下来(常见于下载国外的资源),timeout=(10, 30)就是设置这两种超时时间。
header=Model_http_header.get_user_agent()是我专门写了一个类用来随机设置请求头的,毕竟很多网站设置了反爬虫。。
import requests
import Model_http_header
def easy_download(url, cookie=None, header=Model_http_header.get_user_agent(), timeout=(10, 30),
max_retry_time=3):
i = 1
while i <= max_retry_time:
try:
print("连接:%s" % url)
res = requests.get(url=(url.rstrip()).strip(), cookies=cookie, headers=header, timeout=timeout)
if res.status_code != 200:
return None
return res
except Exception as e:
print(e)
i += 1
return None
这个就是随机设置请求头的代码,其中需要注意的是'Accept-Encoding': 'gzip, deflate',可接受的编码格式里面我去掉了br,因为真的有网站把ts文件用br格式进行编码。但是requests默认是不支持解码br格式的。
import random
"""随机设置user_agent"""
user_agent_list = [
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
"Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 "
"Safari/536.3",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
]
def get_user_agent():
header = {
'Accept': 'application/json, text/javascript, */*; q=0.01',
'Accept-Encoding': 'gzip, deflate',
'content-type': 'application/json',
'x-requested-with': 'XMLHttpRequest',
'Accept-Language': 'zh-CN,zh;q=0.8',
'User-Agent': random.choice(user_agent_list)}
return header
逻辑代码
各个方法注释的挺详细的,我只提一下几个比较重要的地方:
1.代码中会执行下载的耗时操作,需要另开一个线程来跑逻辑代码,不然GUI会卡住。
2.如果在GUI初始化的时候就绑定逻辑代码,就是把s()绑定到button_start这个按钮上,那么代码运行过程中show_info等方法是无法生效的,因为__init__的时候,已经把逻辑代码绑定好了,这时的m3还是None,因此只能等m3对象初始化完成以后,手动绑定按键事件。(我已经晕了)
3.获取ts下载地址是最麻烦的,首先大部分的m3u8文件里面会再嵌套一个m3u8文件,这样做原本是为了提供多分辨率资源可供选择,但是现在基本上都是用来屏蔽m3u8下载插件的。然后ts下载地址都是相对路径,但是这个相对路径有的是相对m3u8文件的,有的是相对域名的。甚至有的m3u8文件域名和嵌套的m3u8文件域名不一样。所以在正式开始下载以前只能先拿一个下载地址进行测试,测试通过了再开始下载
#!/usr/bin/python3
import Model_download as dm
import os
import sys
import shutil
import threadpool
import random
import m3u8Downloader
import threading
m3 = None
download_fail_list = []
running = False
url_list = []
order_increase = True
exit_flag = False
save_source_file = False
url_host = None
url_path = None
# 设置排序模式
def order_type(type_):
global order_increase
global m3
order_increase = type_
if type_:
m3.alert("设置速度优先")
else:
m3.alert("设置画质优先")
# 是否保存源文件
def save_source():
global save_source_file
global m3
if m3.cb_status.get() == 0:
save_source_file = True
m3.alert("下载完成后保存源文件")
else:
save_source_file = False
m3.alert("下载完成后删除源文件")
# 获取域名
def get_host(url):
url_param = url.split("//")
return url_param[0]+"//"+url_param[1].split("/")[0]+"/"
# 获取目录
def get_dir(url):
host = get_host(url)
url = url.replace(host, '')
return ("/"+url[0:url.rfind("/")]+"/").replace("//", "/")
# 获取域名+路径
def get_path(url):
if url.rfind("/") != -1:
return url[0:url.rfind("/")]+"/"
else:
return url[0:url.rfind("\\")] + "\\"
# 检查地址是否正确
def check_href(m3u8_href):
if m3u8_href:
return True
else:
return False
# 检查文件名是否正确
def check_video_name(name):
if name is None or "" == name:
a = "1234567890"
b = "abcdefghijklmnopqrstuvwxyz"
aa = []
bb = []
for i in range(6):
aa.append(random.choice(a))
bb.append(random.choice(b))
res = "".join(i + j for i, j in zip(aa, bb))
return res
return name.replace("\t", "").replace("\n", "")
# 获取带宽
def get_band_width(info):
info_list = info.split("\n")[0].split(",")
for info in info_list:
if info.startswith("BANDWIDTH"):
return int(info.split("=")[1])
return 0
# 排序
def order_list(o_type, o_list):
o_list.sort(key=get_band_width, reverse=o_type)
return o_list
# 获取视频下载地址
def get_ts_add(m3u8_href):
global url_path
global url_host
global m3
m3.alert("获取ts下载地址,m3u8地址:\n%s" % m3u8_href)
url_host = get_host(m3u8_href)
url_path = get_path(m3u8_href)
response = dm.easy_download(m3u8_href)
if response is not None:
response = response.text
else:
return []
m3.alert("响应体:\n%s\n" % response)
response_list = response.split("#")
ts_add = []
m3u8_href_list_new = []
for res_obj in response_list:
if res_obj.startswith("EXT-X-KEY"):
m3.show_info("视频文件已加密,请等待后续版本")
break
if res_obj.startswith("EXT-X-STREAM-INF"):
# m3u8 作为主播放列表(Master Playlist),其内部提供的是同一份媒体资源的多份流列表资源(Variant Stream)
# file_add = res_obj.split("\n")[1]
file = res_obj.split(":")[1]
m3u8_href_list_new.append(file)
if res_obj.startswith("EXTINF"):
# 当 m3u8 文件作为媒体播放列表(Media Playlist),其内部信息记录的是一系列媒体片段资源
file = res_obj.split("\n")[1]
ts_add.append(file)
if len(m3u8_href_list_new) > 0:
# 根据画质优先/速度优先排序
m3u8_href_list_new = order_list(order_increase, m3u8_href_list_new)
for info in m3u8_href_list_new:
file = info.split("\n")[1]
ts_add = get_ts_add(url_host + file)
if len(ts_add) == 0:
ts_add = get_ts_add(url_path + file)
return ts_add
# 下载视频并保存为文件
def download_to_file(url, file_name):
global download_fail_list
global url_list
global exit_flag
if exit_flag:
return
response = dm.easy_download(url)
if response is None:
download_fail_list.append((url, file_name))
return
with open(file_name, 'wb') as file:
file.write(response.content)
p = count_file(file_name)/len(url_list)*100
set_progress(p)
# 设置进度条
def set_progress(v):
global m3
m3.progress["value"] = v
m3.root.update()
# 重新下载视频
def download_fail_file():
global download_fail_list
global m3
if len(download_fail_list) > 0:
for info in download_fail_list:
url = info[0]
file_name = info[1]
m3.alert("正在尝试重新下载%s" % file_name)
response = dm.easy_download(url=url, max_retry_time=50)
if response is None:
m3.alert("%s下载失败,请手动下载:\n%s" % (file_name, url))
continue
with open(file_name, 'wb') as file:
file.write(response.content)
p = count_file(file_name)/len(url_list)*100
set_progress(p)
# 合并文件
def merge_file(dir_name):
global m3
com = "copy /b \"" + dir_name + "\\*\" \"" + dir_name + ".ts\""
m3.alert("执行文件合并命令:%s" % com)
res = os.system(com)
if res == 0:
return True
else:
return False
# 拼接下载用的参数
def get_download_params(head, dir_name):
global url_list
i = 0
params = []
while i < len(url_list):
index = "%05d" % i
param = ([head + url_list[i], dir_name + "\\" + index + ".ts"], None)
params.append(param)
i += 1
return params
# 设置线程池开始下载
def start_download_in_pool(params):
global m3
m3.alert("已确认正确地址,开始下载")
pool = threadpool.ThreadPool(10)
thread_requests = threadpool.makeRequests(download_to_file, params)
[pool.putRequest(req) for req in thread_requests]
pool.wait()
# 获取视频文件数量
def count_file(file_name):
path = get_path(file_name)
file_num = 0
for f_path, f_dir_name, f_names in os.walk(path):
for name in f_names:
if name.endswith(".ts"):
file_num += 1
return file_num
# 检查视频文件是否全部下载完成
def check_file(dir_name):
global url_list
path = dir_name
file_num = 0
for f_path, f_dir_name, f_names in os.walk(path):
for name in f_names:
if name.endswith(".ts"):
file_num += 1
return file_num == len(url_list)
# 测试下载地址
def test_download_url(url):
global m3
m3.alert("尝试使用%s下载视频" % url)
res = dm.easy_download(url, max_retry_time=10)
return res is not None
def start(m3u8_href, video_name):
global download_fail_list
global running
global url_list
global m3
global url_path
global url_host
m3.clear_alert()
set_progress(0)
# 检查地址是否合法
if check_href(m3u8_href) is False:
m3.alert("请输入正确的m3u8地址")
return
# 格式化文件名
video_name = check_video_name(video_name)
# 任务开始标志,防止重复开启下载任务
running = True
# 获取所有ts视频下载地址
url_list = get_ts_add(m3u8_href)
if len(url_list) == 0:
m3.alert("获取地址失败")
# 重置任务开始标志
running = False
return
# 获取程序所在目录
path = os.path.dirname(os.path.realpath(sys.argv[0]))
video_name = path+"\\"+video_name
if not os.path.exists(video_name):
os.makedirs(video_name)
m3.alert("总计%s个视频" % str(len(url_list)))
# 拼接正确的下载地址开始下载
if test_download_url(url_host+url_list[0]):
params = get_download_params(head=url_host, dir_name=video_name)
# 线程池开启线程下载视频
start_download_in_pool(params)
elif test_download_url(url_path+url_list[0]):
params = get_download_params(head=url_path, dir_name=video_name)
# 线程池开启线程下载视频
start_download_in_pool(params)
else:
m3.alert("地址连接失败")
running = False
return
# 重新下载先前下载失败的视频
download_fail_file()
# 检查ts文件总数是否对应
if check_file(video_name):
# 调用cmd方法合并视频
if merge_file(video_name):
if save_source_file is False:
# 删除文件夹
shutil.rmtree(video_name)
m3.alert("下载完成")
m3.show_info("下载完成")
set_progress(0)
else:
m3.alert("视频文件合并失败,请查看消息列表")
m3.show_info("视频文件合并失败,请查看消息列表")
else:
m3.alert("请手动下载缺失文件并合并")
m3.show_info("请手动下载缺失文件并合并")
# 清空下载失败视频列表
download_fail_list = []
# 重置任务开始标志
running = False
def s():
global m3
if running is False:
m3u8_href = m3.button_url.get().rstrip()
video_name = m3.button_video_name.get().rstrip()
# 开启线程执行耗时操作,防止GUI卡顿
t = threading.Thread(target=start, args=(m3u8_href, video_name,))
# 设置守护线程,进程退出不用等待子线程完成
t.setDaemon(True)
t.start()
else:
m3.show_info("任务执行中,请勿重复开启任务")
def e():
global exit_flag
exit_flag = True
sys.exit(0)
def run():
global m3
m3 = m3u8Downloader.M3u8Downloader(version="3.6.8")
# 绑定点击事件
m3.rb1.bind("
m3.rb2.bind("
m3.cb.bind("
m3.button_start.bind("
m3.button_exit.bind("
# 手动加入消息队列
m3.root.mainloop()
if __name__ == "__main__":
run()
总结
贴出来的是我修改以后的第三个版本,日后有时间了再优化。
打包成可执行文件的工具下载地址:链接: https://pan.baidu.com/s/1go2awUhjJgoAQpxfRMeqVw 提取码: r8jx(2020.03.15更新3.7.0版本)
各位要注意身体啊
原文链接:https://blog.csdn.net/muslim377287976/article/details/104340242