weixin_39553458

python下载加密m3u8_基于Python3实现的m3u8批量下载器解密&合并&多线程（开车新姿势~）...

一、前言

在上一篇帖子 https://www.52pojie.cn/thread-1184085-1-1.html 展示了怎么抓到晃video的m3u8，现在发个最近闲来无聊写的m3u8批量下载器，实现了多线程下载、AES常规解密、合并、批量下载四大功能。

车速图片.gif (850.2 KB, 下载次数: 0)

2020-10-6 20:01 上传

二、m3u8概述

M3U8 是 Unicode 版本的 M3U，用 UTF-8 编码。"M3U" 和 "M3U8" 文件都是苹果公司使用的 HTTP Live Streaming(HLS) 协议格式的基础，HLS 的工作原理是把整个流分成一个个小的基于 HTTP 的文件来下载，每次只下载一些。当媒体流正在播放时，客户端可以选择从许多不同的备用源中以不同的速率下载同样的资源，允许流媒体会话适应不同的网络速率,所以广泛用于在线视频的播放、传输。

一个m3u8文件主要由信息头(记录版本、是否加密、key的位置)、ts流列表两个部分构成。下面是常见的两类m3u8文件。

这种m3u8链接对应的视频可能有多种分辨率，比如下面这个例子只有720x480这个分辨率，对应的相对url为1000kb/hls/index.m3u8，是一个相对路径，720x480分辨率的视频绝对路径就是https://www.xxx.com/yyy/zzz/1000kb/hls/index.m3u8，需要再次访问这个链接下载这个分辨率对应的m3u8文件。

#EXTM3U

#EXT-X-STREAM-INF:PROGRAM-ID=1,BANDWIDTH=1000000,RESOLUTION=720x480

1000kb/hls/index.m3u8

这种m3u8已经把ts列表直接放进来了，所以下载所有的ts流组合即可得到视频的全部内容。

注意第5行，注明了该视频进行了加密，加密方式为AES-128(默认是CBC模式)，加密key的路径为key.key，是一个相对路径，套上基路径就是https://www.xxx.com/yyy/zzz/key.key，(注：key也可能这个key的url是一个http开头的绝对路径)。有的m3u8可能还在这一行加一个IV，也就是AES-CBC加密、解密中的IV。

下面的例子中ts也是相对路径，同样需要加上基路径，比如第1个ts的绝对路径就是https://www.xxx.com/yyy/zzz/QxiMvI3688000.ts

#EXTM3U

#EXT-X-VERSION:3

#EXT-X-TARGETDURATION:1

#EXT-X-MEDIA-SEQUENCE:0

#EXT-X-KEY:METHOD=AES-128,URI="key.key"

#EXTINF:0.834167,

QxiMvI3688000.ts

#EXTINF:0.834167,

QxiMvI3688001.ts

#EXTINF:0.834167,

QxiMvI3688002.ts

#EXTINF:0.834167,

QxiMvI3688003.ts

#EXTINF:0.834167,

QxiMvI3688004.ts

#EXTINF:0.834167,

QxiMvI3688005.ts

...

三、基于Python3实现的m3u8批量下载器(解密&多线程&合并)

1、下载思路

经过简单的分析m3u8协议及其文件格式，现在只要把他们串起来就好了。

①、下载m3u8文件，如果其内容的表示形式是第1种，则还需要再次访问对应的分辨率的url，重新下载m3u8

②、解析m3u8，判断是否加密了(需要提取加密方式、加密key、IV),提取ts列表

③、多线程下载所有ts(注意别打乱顺序，在m3u8文件中的顺序就是在完整视频中的顺序，所以需要记录原来的顺序，或者按照顺序进行ts重命名)

④、合并(如果加密了，则对每个ts解密)

⑤、调用FFmpeg，将合并好的视频信息放入一个mp4容器中(直接放在mp4文件也行)

⑥、回到①，开始下载下一个m3u8

2、Python源码实现

受博主编码能力影响，加上博主又很懒，怎么简单怎么来，代码冗余度比较高。。。下面的代码已经过了4-5千个m3u8的下载测试，但是不能保证没有bug，如有问题欢迎斧正哈~

# UTF-8

# author hestyle

# desc: 必须在终端直接执行，不能在pycharm等IDE中直接执行，否则看不到动态进度条效果

import os

import sys

import m3u8

import requests

import traceback

import threadpool

from Crypto.Cipher import AES

headers = {

"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",

"Connection": "Keep-Alive",

"Accept-Encoding": "gzip, deflate, br",

"Accept-Language": "zh-CN,zh;q=0.9",

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36"

}

######################配置信息##########################

# m3u8链接批量输入文件

m3u8InputFilePath = "D:/input/m3u8s_input.txt"

# 视频保存路径

saveRootDirPath = "D:/output"

# 下载出错的m3u8保存文件

errorM3u8InfoDirPath = "D:/output/error.txt"

# m3u8文件、key文件下载尝试次数，ts流默认无限次尝试下载，直到成功

m3u8TryCountConf = 10

# 线程数(同时下载的分片数)

processCountConf = 50

#######################################################

# 全局变量

# 全局线程池

taskThreadPool = None

# 当前下载的m3u8 url

m3u8Url = None

# url前缀

rootUrlPath = None

# title

title = None

# ts count

sumCount = None

# 已处理的ts

doneCount = None

# cache path

cachePath = saveRootDirPath + "/cache"

# log path

logPath = cachePath + "/log.log"

# log file

logFile = None

# 1、下载m3u8文件

def getM3u8Info():

global m3u8Url

global logFile

global rootUrlPath

tryCount = m3u8TryCountConf

while True:

if tryCount < 0:

print("\t{0}下载失败！".format(m3u8Url))

logFile.write("\t{0}下载失败！".format(m3u8Url))

return None

tryCount = tryCount - 1

try:

response = requests.get(m3u8Url, headers=headers, timeout=20, allow_redirects=True)

if response.status_code == 301:

nowM3u8Url = response.headers["location"]

print("\t{0}重定向至{1}！".format(m3u8Url, nowM3u8Url))

logFile.write("\t{0}重定向至{1}！\n".format(m3u8Url, nowM3u8Url))

m3u8Url = nowM3u8Url

continue

expected_length = int(response.headers.get('Content-Length'))

actual_length = len(response.content)

if expected_length > actual_length:

raise Exception("m3u8下载不完整")

print("\t{0}下载成功！".format(m3u8Url))

logFile.write("\t{0}下载成功！".format(m3u8Url))

rootUrlPath = m3u8Url[0:m3u8Url.rindex('/')]

break

except TimeoutError:

print("\t{0}下载失败！正在重试".format(m3u8Url))

logFile.write("\t{0}下载失败！正在重试".format(m3u8Url))

traceback.print_exc()

# 解析m3u8中的内容

m3u8Info = m3u8.loads(response.text)

# 有可能m3u8Url是一个多级码流

if m3u8Info.is_variant:

print("\t{0}为多级码流！".format(m3u8Url))

logFile.write("\t{0}为多级码流！".format(m3u8Url))

for rowData in response.text.split('\n'):

# 寻找响应内容的中的m3u8

if rowData.endswith(".m3u8"):

m3u8Url = m3u8Url.replace("index.m3u8", rowData)

rootUrlPath = m3u8Url[0:m3u8Url.rindex('/')]

return getM3u8Info()

# 遍历未找到就返回None

print("\t{0}响应未寻找到m3u8！".format(response.text))

logFile.write("\t{0}响应未寻找到m3u8！".format(response.text))

return None

else:

return m3u8Info

# 2、下载key文件

def getKey(keyUrl):

global logFile

tryCount = m3u8TryCountConf

while True:

if tryCount < 0:

print("\t{0}下载失败！".format(keyUrl))

logFile.write("\t{0}下载失败！".format(keyUrl))

return None

tryCount = tryCount - 1

try:

response = requests.get(keyUrl, headers=headers, timeout=20, allow_redirects=True)

if response.status_code == 301:

nowKeyUrl = response.headers["location"]

print("\t{0}重定向至{1}！".format(keyUrl, nowKeyUrl))

logFile.write("\t{0}重定向至{1}！\n".format(keyUrl, nowKeyUrl))

keyUrl = nowKeyUrl

continue

expected_length = int(response.headers.get('Content-Length'))

actual_length = len(response.content)

if expected_length > actual_length:

raise Exception("key下载不完整")

print("\t{0}下载成功！key = {1}".format(keyUrl, response.content.decode("utf-8")))

logFile.write("\t{0}下载成功！ key = {1}".format(keyUrl, response.content.decode("utf-8")))

break

except :

print("\t{0}下载失败！".format(keyUrl))

logFile.write("\t{0}下载失败！".format(keyUrl))

return response.text

# 3、多线程下载ts流

def mutliDownloadTs(playlist):

global logFile

global sumCount

global doneCount

global taskThreadPool

taskList = []

# 每个ts单独作为一个task

for index in range(len(playlist)):

dict = {"playlist": playlist, "index": index}

taskList.append((None, dict))

# 重新设置ts数量，已下载的ts数量

doneCount = 0

sumCount = len(taskList)

printProcessBar(sumCount, doneCount, 50)

# 构造thread pool

requests = threadpool.makeRequests(downloadTs, taskList)

[taskThreadPool.putRequest(req) for req in requests]

# 等待所有任务处理完成

taskThreadPool.wait()

print("")

return True

# 4、下载单个ts playlists[index]

def downloadTs(playlist, index):

global logFile

global sumCount

global doneCount

global cachePath

global rootUrlPath

succeed = False

while not succeed:

# 文件名格式为 "00000001.ts"，index不足8位补充0

outputPath = cachePath + "/" + "{0:0>8}.ts".format(index)

outputFp = open(outputPath, "wb+")

if playlist[index].startswith("http"):

tsUrl = playlist[index]

else:

tsUrl = rootUrlPath + "/" + playlist[index]

try:

response = requests.get(tsUrl, timeout=10, headers=headers, stream=True)

if response.status_code == 200:

expected_length = int(response.headers.get('Content-Length'))

actual_length = len(response.content)

if expected_length > actual_length:

raise Exception("分片下载不完整")

outputFp.write(response.content)

doneCount += 1

printProcessBar(sumCount, doneCount, 50)

logFile.write("\t分片{0:0>8} url = {1} 下载成功！".format(index, tsUrl))

succeed = True

except Exception as exception:

logFile.write("\t分片{0:0>8} url = {1} 下载失败！正在重试...msg = {2}".format(index, tsUrl, exception))

outputFp.close()

# 5、合并ts

def mergeTs(tsFileDir, outputFilePath, cryptor, count):

global logFile

outputFp = open(outputFilePath, "wb+")

for index in range(count):

printProcessBar(count, index + 1, 50)

logFile.write("\t{0}\n".format(index))

inputFilePath = tsFileDir + "/" + "{0:0>8}.ts".format(index)

if not os.path.exists(outputFilePath):

print("\n分片{0:0>8}.ts, 不存在，已跳过！".format(index))

logFile.write("分片{0:0>8}.ts, 不存在，已跳过！\n".format(index))

continue

inputFp = open(inputFilePath, "rb")

fileData = inputFp.read()

try:

if cryptor is None:

outputFp.write(fileData)

else:

outputFp.write(cryptor.decrypt(fileData))

except Exception as exception:

inputFp.close()

outputFp.close()

print(exception)

return False

inputFp.close()

print("")

outputFp.close()

return True

# 6、删除ts文件

def removeTsDir(tsFileDir):

# 先清空文件夹

for root, dirs, files in os.walk(tsFileDir, topdown=False):

for name in files:

os.remove(os.path.join(root, name))

for name in dirs:

os.rmdir(os.path.join(root, name))

os.rmdir(tsFileDir)

return True

# 7、convert to mp4(调用了FFmpeg，将合并好的视频内容放置到一个mp4容器中)

def ffmpegConvertToMp4(inputFilePath, ouputFilePath):

global logFile

if not os.path.exists(inputFilePath):

print(inputFilePath + " 路径不存在！")

logFile.write(inputFilePath + " 路径不存在！\n")

return False

cmd = r'.\ffmpeg -i "{0}" -vcodec copy -acodec copy "{1}"'.format(inputFilePath, ouputFilePath)

if os.system(cmd) == 0:

print(inputFilePath + "转换成功！")

logFile.write(inputFilePath + "转换成功！\n")

return True

else:

print(inputFilePath + "转换失败！")

logFile.write(inputFilePath + "转换失败！\n")

return False

# 8、模拟输出进度条

def printProcessBar(sumCount, doneCount, width):

precent = doneCount / sumCount

useCount = int(precent * width)

spaceCount = int(width - useCount)

precent = precent*100

print('\t{0}/{1} {2}{3} {4:.2f}%'.format(sumCount, doneCount, useCount*'■', spaceCount*'□', precent), file=sys.stdout, flush=True, end='\r')

# m3u8下载器

def m3uVideo8Downloader():

global title

global logFile

global m3u8Url

global cachePath

# 1、下载m3u8

print("\t1、开始下载m3u8...")

logFile.write("\t1、开始下载m3u8...\n")

m3u8Info = getM3u8Info()

if m3u8Info is None:

return False

tsList = []

for playlist in m3u8Info.segments:

tsList.append(playlist.uri)

# 2、获取key

keyText = ""

cryptor = None

# 判断是否加密

if (len(m3u8Info.keys) != 0) and (m3u8Info.keys[0] is not None):

# 默认选择第一个key，且AES-128算法

key = m3u8Info.keys[0]

if key.method != "AES-128":

print("\t{0}不支持的解密方式！".format(key.method))

logFile.write("\t{0}不支持的解密方式！\n".format(key.method))

return False

# 如果key的url是相对路径，加上m3u8Url的路径

keyUrl = key.uri

if not keyUrl.startswith("http"):

keyUrl = m3u8Url.replace("index.m3u8", keyUrl)

print("\t2、开始下载key...")

logFile.write("\t2、开始下载key...\n")

keyText = getKey(keyUrl)

if keyText is None:

return False

# 判断是否有偏移量

if key.iv is not None:

cryptor = AES.new(bytes(keyText, encoding='utf8'), AES.MODE_CBC, bytes(key.iv, encoding='utf8'))

else:

cryptor = AES.new(bytes(keyText, encoding='utf8'), AES.MODE_CBC, bytes(keyText, encoding='utf8'))

# 3、下载ts

print("\t3、开始下载ts...")

logFile.write("\t3、开始下载ts...\n")

if mutliDownloadTs(tsList):

print("\tts下载完成---------------------")

logFile.write("\tts下载完成---------------------\n")

# 4、合并ts

print("\t4、开始合并ts...")

logFile.write("\t4、开始合并ts...\n")

if mergeTs(cachePath, cachePath + "/cache.flv", cryptor, len(tsList)):

print("\tts合并完成---------------------")

logFile.write("\tts合并完成---------------------\n")

else:

print(keyText)

print("\tts合并失败！")

logFile.write("\tts合并失败！\n")

return False

# 5、开始转换成mp4

print("\t5、开始mp4转换...")

logFile.write("\t5、开始mp4转换...\n")

if not ffmpegConvertToMp4(cachePath + "/cache.flv", saveRootDirPath + "/" + title + ".mp4"):

return False

return True

if __name__ == '__main__':

# 判断m3u8文件是否存在

if not (os.path.exists(m3u8InputFilePath)):

print("{0}文件不存在！".format(m3u8InputFilePath))

exit(0)

m3u8InputFp = open(m3u8InputFilePath, "r", encoding="utf-8")

# 设置error的m3u8 url输出

errorM3u8InfoFp = open(errorM3u8InfoDirPath, "a+", encoding="utf-8")

# 设置log file

if not os.path.exists(cachePath):

os.makedirs(cachePath)

logFile = open(logPath, "w+", encoding="utf-8")

# 初始化线程池

taskThreadPool = threadpool.ThreadPool(processCountConf)

while True:

rowData = m3u8InputFp.readline()

rowData = rowData.strip('\n')

if rowData == "":

break

m3u8Info = rowData.split(',')

title = m3u8Info[0]

m3u8Url = m3u8Info[1]

try:

print("{0} 开始下载:".format(m3u8Info[0]))

logFile.write("{0} 开始下载:\n".format(m3u8Info[0]))

if m3uVideo8Downloader():

# 成功下载完一个m3u8则清空logFile

logFile.truncate()

print("{0} 下载成功！".format(m3u8Info[0]))

else:

errorM3u8InfoFp.write(title + "," + m3u8Url + '\n')

errorM3u8InfoFp.flush()

print("{0} 下载失败！".format(m3u8Info[0]))

logFile.write("{0} 下载失败！\n".format(m3u8Info[0]))

except Exception as exception:

print(exception)

traceback.print_exc()

# 关闭文件

logFile.close()

m3u8InputFp.close()

errorM3u8InfoFp.close()

print("----------------下载结束------------------")

四、开车姿势与车速展示

1、开车姿势

①、导入源码用到库m3u8、traceback、threadpool、pycryptodome、beautifulsoup4(用pip3安装就行)

②、将ffmpeg.exe放到源码文件所在目录(源码调用了cmd命令进而调用了ffmpeg.exe)

ffmpeg.exe文件下载链接: htt防ps://pan.ba封idu.com/s/1Q处ag-VlGlRajx理Ovp2d_2Uaw 提取码: 886z

③、将准备好的m3u8s_input.txt文件(必须是utf-8编码，格式如下)

title_1,m3u8_url_1

title_2,m3u8_url_2

title_3,m3u8_url_3

...这是省略号，小白别瞎搞...

title_n,m3u8_url_n

④、配置好源码中的m3u8 url文件路径、视频保存的地址、线程数

⑤、控制台/终端使用Python执行脚本

注：为了尽量减少频繁的删除、创建ts流文件，源码实验时在output目录中创建一个cache缓存目录，里面暂存下载好的ts流。下载过程中不可删除！！！

cache文件介绍.png (71.82 KB, 下载次数: 0)

2020-10-6 21:06 上传

2、车速展示(系好安全带)

下载进度条.png (22.52 KB, 下载次数: 0)

2020-10-6 20:52 上传

360加速球网速.png (7.45 KB, 下载次数: 0)

2020-10-6 20:52 上传

视频截屏.png (106.45 KB, 下载次数: 0)

2020-10-6 20:56 上传

五、git链接

六、后记

以上源码仅作为Python技术学习、交流之用，切勿用于任何可能造成违法犯罪的场景，否则后果自负！

你可能感兴趣的:(python下载加密m3u8)

网络爬虫——python爬取豆瓣评论 SSeaflower 爬虫 python 开发语言
网络爬虫——python爬取豆瓣评论一、网络爬虫概述1.1网络爬虫定义网络爬虫，又被称为网络蜘蛛（WebSpider）、网络机器人等。它根据网页地址（URL）爬取网页内容，网页地址（URL）就是我们在浏览器中输入的网站链接。例如：https://www.baidu.com；https://movie.douban.com/。网络爬虫不仅能够复制网页信息和下载音视频，还可以做到网站的模拟登录和行为链
系统更新急救Fixprint 一键修复共享打印机官方认证无病毒文哥工具箱1 电脑开源软件软件构建
各位打印机小烦恼们，你们有没有遇到过Windows系统更新后，打印机共享功能突然失效的情况啊？那种想打印东西却打不了的感觉，真的是让人抓狂！别担心，今天就给大家介绍一款神奇的工具——NT6打印机共享修复工具Fixprint，它就是打印机共享问题的“救星”！软件下载地址安装包软件下载地址安装包###一、核心功能1.**修复共享连接错误**你知道吗，这工具能自动化修复系统更新导致的故障。就像一个超级修
PDF 助手ApowerPDF：阅读编辑转换页面管理，一站式搞定所有 PDF 需求
各位办公小能手们！今天给你们介绍一款超厉害的软件，叫ApowerPDF。软件下载地址安装包它就像是一个超级全能选手，集PDF阅读、编辑、转换还有页面管理这些功能于一身。它能修改文本和图表内容，字体的颜色大小随便调，还能插入图片、添加链接，简直不要太方便。页面操作方面，分割、合并、删除、旋转，自定义页眉页脚背景，这些操作都能轻松搞定，就像玩游戏一样简单。它还有个内置的转换引擎，能把PDF转换成Wor
200 种格式转换FileConverter：图片视频音频文档随意转，免费开源超好用文哥工具箱1 电脑软件构建开源软件
各位文件处理小能手们！今天给你们介绍个超牛的免费开源工具——FileConverter。软件下载地址安装包这玩意儿就像个万能魔法师，能让图片、视频、音频、文档等200多种格式随意转换，就跟变戏法似的！你知道吗，用户只要在右键菜单点一点，就能快速完成转换操作，简直不要太方便！而且啊，这软件还自带压缩功能，压缩比例和旋转参数都能随便调，就像给文件量身定制衣服一样。更厉害的是，它支持离线处理，不用网络也
电竞护航小程序源码游戏代练小程序源码搭建游戏派单小程序定制开发 D15554088058 游戏小程序
独立源码前端uniapp后端phpthinkphp6的框架开源无加密适合运营或者二次开发。欢迎私信（头像11位数字）功能列表：游戏分类：后台添加设置游戏分类分销奖励：推荐打手绑定关系，二级奖励，奖励比例手台设置管事：购买管事权益推荐打手绑定推荐关系，二级奖励，奖励比例后台设置，比打手的奖励高发布订单：后台添加商家成为商家商家添加客服成为客服之后才可以在小程序端发布订单打手接单：打手需要缴纳保证金后
Python 中的深拷贝、浅拷贝与等号赋值：理解对象复制的本质小羊苏八 python 开发语言
目录1.等号赋值（=）2.浅拷贝（copy.copy()）3.深拷贝（copy.deepcopy()）4.不可变对象与可变对象5.性能对比6.实际应用场景7.总结前言在Python中，对象的复制是一个常见的操作，但很多人对深拷贝、浅拷贝和等号赋值之间的区别感到困惑。本文将通过详细的示例和解释，帮助你深入理解这三种操作的本质和应用场景。1.等号赋值（=）在Python中，等号赋值是最基本的对象操作之
Python中的分支结构小羊苏八 #python python 开发语言
文章目录前言一、Python分支结构概述二、if语句详解三、if-else语句详解四、if-elif-else语句详解五、嵌套分支结构六、分支结构的注意事项七、实际应用场景八、总结前言在Python编程的世界里，分支结构如同现实中的道路岔口，根据不同的条件引导程序流向不同的执行路径。它是构建复杂逻辑、实现智能决策的关键所在。本文将带你全面了解Python的分支结构，从基础语法到实际应用，让你轻松掌
标题 “Python 网络爬虫 —— selenium库驱动浏览器 WeiJingYu. python 爬虫 selenium
一、Selenium库核心认知Selenium库是Web应用程序测试与自动化操作的利器，能驱动浏览器（如Edge、Firefox等）执行点击、输入、打开、验证等操作。与Requests库差异显著：Requests库仅能获取网页原始代码，而Selenium基于浏览器驱动程序工作，浏览器可渲染网页源代码，借此能轻松拿到渲染后的数据信息（如JS动态加载内容），完美解决Requests库无法处理的动态页面
Python网络爬虫实现selenium对百度识图二次开发以及批量保存Excel WeiJingYu. python 爬虫 selenium
一.百度识图自动上传图片fromseleniumimportwebdriverfromselenium.webdriver.edge.optionsimportOptionsfromselenium.webdriver.common.byimportByedge_options=Options()edge_options.binary_location=r"C:\ProgramFiles(x86)
Python关于操作文件夹的讲解——Python 操作文件和文件夹 WeiJingYu. python 开发语言
借助os库，可完成文件大小查询、文件/文件夹删除、重命名等操作，满足多样化文件管理需求。（一）查询文件大小os库path模块的getsize(path)方法，能获取指定路径文件占用内存大小，单位为字节。字节是计算机存储基本单位，常见存储单位换算关系如下：单位换算关系说明字节（Byte）1字节=8位（bit）存储基本单元千字节（KB）1KB=1024Byte日常文件大小常用表述兆字节（MB）1MB=
PDF 拆分合并PDFSam：开源免费多文件合并 + 按页码拆分本地处理文哥工具箱1 电脑开源软件软件构建
各位打工人和学生党们，你知道吗，处理PDF文件简直是咱们的日常噩梦啊，尤其是遇到要合并好几个文件，或者从中抠几页出来的时候，简直头大如斗！今天给你们安利一个神仙工具，PDFSam，听我的，不好用你回来打我（开玩笑的啦）！这家伙可是开源免费的，完全不用你掏一分钱，软件下载地址安装包它能干嘛呢，可太多了！你想把好几个PDF拧成一股绳？没问题，合并功能分分钟搞定。想把一个大PDF拆成小的？也行！按页码拆
Python 网络爬虫 —— 代理服务器 WeiJingYu. 爬虫服务器前端
一、会话（Session）（一）核心逻辑HTTP本身无记忆，每次请求独立。会话（Session）就是为解决这问题，让客户端（浏览器）和服务器“记住”交互状态（比如登录态），常用Cookie实现：服务器发Cookie给客户端存着，下次请求带着，服务器就知道“是同一用户”。（二）创建会话（requests实现）用requests库的Session类，自动维持会话、管理Cookie，代码形式：impor
Python 中的闭包：原理、应用与实践小羊苏八 python 开发语言
目录前言1.什么是闭包？2.闭包的基本结构3.闭包的应用场景4.闭包的高级特性5.闭包的性能与内存管理6.闭包的实践案例7.总结前言在Python编程中，闭包是一个非常强大且灵活的特性。闭包允许嵌套函数访问外部函数的变量，即使外部函数已经返回。这种特性使得闭包在函数式编程、装饰器、回调函数等场景中非常有用。本文将通过详细的示例和解释，深入探讨Python中的闭包。1.什么是闭包？闭包（Closur
python-第五课-绘线段、正方形布口袋_天晴了
1.绘制第一个海龟图形A.课程内容：通过绘制线段和正方形来学习导入海归模块、创建画笔、移动和旋转画笔。通过绘制图形来学习python编程的基本方法。B.知识点(1)导入海龟绘图模块(2)创建画笔(3)向前移动(4)画笔旋转C.用到的基本指令(1)import(2)turtle.Pen()(3)forward()(4)right()海龟绘图(turle)是python内置的一个比较有趣味的模块。使用
python爬虫技术——基础知识、实战南瓜AI python 爬虫 scrapy
参考文献：Python爬虫入门(一)（适合初学者）-CSDN博客一、常用爬虫工具包Scrapy语言:Python特点:高效、灵活的爬虫框架，适合大型爬虫项目。BeautifulSoup语言:Python特点:用于解析HTML和XML，简单易用。Selenium语言:Python/Java/C#特点:支持浏览器自动化，适合处理JavaScript渲染的网页。Requests语言:Python特点:简
分享两个爬虫练习网站高质量海王哦爬虫爬虫 python
Python爬虫案例|ScrapeCenterSpiderbuf|Python爬虫练习靶场
快手拍视频能赚钱吗？怎样在快手上发作品挣钱？日常购物技巧呀
快手也是国内发展的比较快的短视频之一，不少用户会选择在平台上发表一些短视频，以此提高自己账号的粉丝量，但是拍短视频是否能赚钱了?下面来了解清楚。➤推荐网购薅羊毛app“高省”，一个领取内部优惠券+现金返利的平台。高省只提供领券返利链接，下单全程都在淘宝、京东、拼多多等原平台，更支持抖音、快手电商、外卖红包返利等。（应用商店搜“高省”即可下载，邀请码:521521。）➤由于信息差的关系，很多剁手党都
Python之print打印追捕的风 Python之数据处理 python 开发语言爬虫
python是一门脚本语言，少不了使用各种print打印调试，本文总结一下pythonprint打印的几种方法。1单独打印变量1.1只打印变量：方法：print(variable)示例：name="Mike"age=21print(name)print(age)输出：Mike211.2带其他信息：示例：name="Mike"age=21print('mynameis',name)print('my
python3——print使用 weixin_30404405
print的初步认识：对于科班出身的或有相关经验的人来说，学习python是相当有趣的事,因为可以做日常任务，比如自动备份你的MP3；可以做网站，如YouTube就是Python写的；可以做网络游戏的后台，很多在线游戏的后台都是Python开发的；可以爬数据，得到你想要的内容。总之就是能干很多很多事啦。而对于非科班的我来说，学习python是非常辛苦的，从一行行print打印,到一个个关键字，从思
GIMP 3.0 中文版下载与安装全指南，附软件下载链接
GIMP（GNUImageManipulationProgram）作为开源图像处理领域的标杆工具，其3.0版本在技术架构上实现了多项突破：界面与性能升级基于GTK3重构的UI支持高分辨率屏幕，SVG图标体系带来更现代的视觉体验；引入多线程渲染与SIMD指令集加速，滤镜处理效率提升300%+非破坏性编辑机制通过图层版本控制与历史状态隔离，实现图像修改与原始数据的分离，这一特性对专业设计流程至关重要跨
DAY2——Python 基础变量类型之字符串和数字类型 .venn PYTHON学习 python 开发语言算法
字符串类型（str）字符串是Python中最常用的数据类型之一，用于表示文本信息。字符串可以用单引号（''）、双引号（""）或三引号（''''''或""""""）定义。三引号通常用于多行字符串。字符串是不可变序列，支持索引和切片操作。以下是一些常见操作：#定义字符串s1='hello's2="world"s3='''Thisisamulti-linestring'''#字符串拼接combined=
DAY4——Python 推导式及常见语句和内置函数个人总结
Python推导式Python推导式是一种简洁的语法结构，用于快速生成列表、字典、集合或生成器。推导式通常比传统的循环更高效且更易读。常见的推导式包括列表推导式、字典推导式、集合推导式和生成器推导式。列表推导式语法：[expressionforiteminiterableifcondition]示例：#生成平方数列表squares=[x**2forxinrange(10)]print(square
LNMP的安装记录 Jay_MIng linux php 运维 nginx mysql
Linux可以使用虚拟机挂载使用Centos、Debian、Ubunto等的一些镜像，有条件的话可以使用阿里云的系统，本文使用的就是阿里云的x86_64x86_64x86_64GNU/Linux系统，虚拟机安装不做详解，可以自行搜索，或者有疑问可以提出一起探讨安装PHP1、下载解压wgethttp://cn2.php.net/distributions/php-7.2.8.tar.gztar-xz
对象的本质：OOP编程核心揭秘止观止计算机科学 OOP 面对对象编程
引言面向对象编程（OOP）革命性地重塑了软件开发，其核心在于“对象”——一种模拟现实实体的计算模型。对象不仅是数据容器，更是封装了状态和行为的自治单元，使程序从指令序列转变为交互网络。通过本解析，我们将层层递进，揭示对象在OOP中的根本角色：从定义延伸到设计实践，帮助读者跨越语言差异（如Java、Python或C++），掌握这一范式的精髓。章节构建遵循技术演进：先解剖对象本质，再关联OOP支柱，最
python怎么打印 _python大神_ python python
python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？python怎么打印？py
报错解决：/usr/bin/python^M: bad interpreter: No such file or directory KimmyDs linux 运维服务器
报错问题分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh.py文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。一般是因为windows行结尾和linux行结尾标识不同造成的。问题解决：1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具先将脚本编码转换，再放到Linux中执行。转换方式如下（UltraEdit）：File-->
Python 高手编程系列三千三百五十四：你自己的包索引或索引镜像杨琴1 python java 网络
你可能会想要运行你自己的Python包索引，主要有以下3个原因。●官方的Python包索引没有任何可用性保证。它由Python软件基金会运行，这要感谢大量的捐款。因此，它往往意味着网站可能会倒闭。你不希望由于PyPI的故障而中途停止部署或打包过程。●即使是不会公开发布的闭源代码，将Python编写的可复用组件正确打包也很有用。它简化了代码库，因为公司内用于不同项目的包不需要供应（vendored）
DAY3——PYTHON——复合类型之序列类型、映射类型和集合类型总结 .venn PYTHON学习 python 复合类型可变序列
序列类型序列类型是元素有序排列的数据结构，可通过索引访问元素。有三种基本序列类型：list,tuple和range对象；列表是可变的，支持增删改操作；元组是不可变的，创建后不能修改；列表（List）概念List（列表）是Python中一种有序、可变的数据结构，可以存储不同类型的元素。列表用方括号[]表示，元素之间用逗号分隔。my_list=[1,"apple",3.14,True]创建List列表
Python 高手编程系列三千三百五十三：十二要素应用
无痛部署的主要要求是确保构建应用的过程尽可能简单和流畅。这主要是清除障碍并鼓励成熟的做法。在有些组织中，只有特定的人负责开发（开发团队，Dev），而不同的人负责部署和维护执行环境（运营团队，Ops），那么遵守这些常见做法就特别重要。与服务器维护、监控、部署、配置等相关的所有任务都统称为运营（operations）。即使在某些组织中没有单独的运营团队，通常也只有一部分开发人员被授权执行部署任务并维护
Python 生物信息学秘籍第三版（四）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/9694cf42f7d741c69225ff1cf52b0efe译者：飞龙协议：CCBY-NC-SA4.0第十一章：生物信息学中的机器学习机器学习在许多不同的领域中都有应用，计算生物学也不例外。机器学习在该领域有着无数的应用，最古老且最为人熟知的应用之一就是使用主成分分析（PCA）通过基因组学研究种群结构。随着该领域的蓬勃发展，还有许多其他潜在的应
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb

python下载加密m3u8_基于Python3实现的m3u8批量下载器 解密&合并&多线程 （开车新姿势~）...

你可能感兴趣的:(python下载加密m3u8)

python下载加密m3u8_基于Python3实现的m3u8批量下载器解密&合并&多线程（开车新姿势~）...