爬遍天下无敌手

Python爬虫：短视频平台无水印下载！强不强？

导入：

虽然目前有些软件还没适配，但是，我发了 Blink 后有一写人留言或者私信找我要源码，不过我还在增加适配的软件，所以还没有时间写这篇博客，今天呢，就先把我目前适配了的代码拿出来，后续还会继续适配的！

分平台解释：

皮皮虾

皮皮搞笑

皮皮搞笑与皮皮虾很类似，也是先获取分享链接，在电脑端进行分析：

PS：如有需要Python学习资料的小伙伴可以加点击下方链接自行获取

python免费学习资料以及群交流解答点击即可加入

抓包分析

我们可以很容易的在抓包资源 HXR 中找到某一固定的链接： https://h5.ippzone.com/ppapi/share/fetch_content ，在该链接中的 video 字段可以看到有两个链接，分别打开尝试一下可以发现：后缀含有 wm 的链接是含有水印的视频，另一个则是我们的目标链接了，但是我们又发现，在 video 字段下，还有一个全是数字的字符串，我们在当前 json 文件中搜索可以发现：

在上一个标签 img 下，有一个 id 字段，和字符串标签一样。知道了视频链接的存放位置和获取方式，接下来开始分析请求：

在尝试过几次抓包后发现，请求 URL 始终都没有变化，只是下面的请求负载有所变化，第三个参数 post 默认不变就好，至于前两个参数，都在分享链接跳转的链接中：

https://h5.ippzone.com/pp/post/350259149175?zy_to=copy_link&share_count=1&m=0cd13da8548a1bc85813d8c60d331e22&app=&type=post&did=d2bddf23159ae495&mid=1270840711117&pid=350259149175

源码及结果

一切准备工作做好后，开始编写代码：

提醒：转载请标明作者和原文链接！！！

原文地址：https://blog.csdn.net/qq_44700693/article/details/108089085

"""
CSDN ：高智商白痴
CSDN个人主页：https://blog.csdn.net/qq_44700693
"""
class PPGX():  # 皮皮搞笑
    def __init__(self, url):
        s_url = url
        self.headers = {
            'Host': 'share.ippzone.com',
            'Origin': 'http://share.ippzone.com',
            'Referer': s_url,
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36 Edg/84.0.522.52'
        }
        self.JSON = {
            "pid": int(str(s_url).split('=')[-1]),
            "mid": int(str(s_url).split('&')[-2].split('=')[-1]),
            "type": "post"
        }

    def ppgx_download(self):
	    """
		CSDN ：高智商白痴
		CSDN个人主页：https://blog.csdn.net/qq_44700693
		"""
        URL = 'http://share.ippzone.com/ppapi/share/fetch_content'
        r = requests.post(URL, proxies=proxy, headers=self.headers, json=self.JSON)
        video_name = r.json()['data']['post']['content'].replace(' ','')
        if video_name == '':
            video_name = int(random.random() * 2 * 1000)
        if len(str(video_name)) > 20:
            video_name = video_name[:20]
        video_url = r.json()['data']['post']['videos'][str(r.json()['data']['post']['imgs'][0]['id'])]['url']
        video = requests.get(video_url, proxies=proxy).content
        with open(path + str(video_name) + '.mp4', 'wb') as f:
            f.write(video)
        print("【皮皮搞笑】: {}.mp4 无水印视频下载完成！".format(video_name))

结果：

抖音 / 抖音极速版

接下来以抖音为例（抖音极速版的解析方式和抖音相同）：同样的思路，拿到分享链接到电脑浏览器中抓包分析：

拿到如下信息：摆摊的第二天……#架子鼓演奏 #架子鼓 #乐器 #听心 https://v.douyin.com/JMKHkqt/ 复制此链接，打开【抖音短视频】，直接观看视频！所以为了方便，使用正则表达式来提取该内容中的链接： url = re.findall('(https?://[^\s]+)', s_url)[0] # 正则提取字符串中的链接

抓包分析

我们可以在抓包资源 HXR 中找到某一请求，在该 json 文件中 play_addr 字段下可以找到视频链接，用浏览器打开：

该链接跳转到了视频是没错，不过直接跳转到了又水印的链接上，这就有点卡住了。不过，按照皮皮搞笑的链接区分来看， wm 是含有水印的视频的话。

https://aweme.snssdk.com/aweme/v1/playwm/?video_id=v0200f750000bsegsdpphaglno4mqd8g&ratio=720p&line=0

当我们删掉链接中的 wm 字段后：

没有加载？？？？？？？而且我们可以发现链接根本都还没有跳转。但是：当我们把设备切换为手机时：链接跳转到了无水印的视频链接：

代码及结果

当一切都分析完后，开始编写代码：注意：当我们去掉 wm 字段后，下载视频时，需要带上模拟手机端的请求头！

class DY():  # 抖音
    headers = {  # 模拟手机端
        'user-agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1 Edg/84.0.4147.105'
    }

    def __init__(self, s_url):
        self.url = re.findall('(https?://[^\s]+)', s_url)[0]  # 正则提取字符串中的链接

    def dy_download(self):
    	"""
		CSDN ：高智商白痴
		CSDN个人主页：https://blog.csdn.net/qq_44700693
		"""
        rel_url = str(requests.get(self.url, proxies=proxy, headers=self.headers).url)
        if 'video' == rel_url.split('/')[4]:
            URL = 'https://www.iesdouyin.com/web/api/v2/aweme/iteminfo/?item_ids=' + rel_url.split('/')[5] + '&dytk='
            r = requests.get(URL, proxies=proxy, headers=self.headers)
            video_url = r.json()['item_list'][0]['video']['play_addr']['url_list'][0].replace('/playwm/', '/play/')
            video_name = r.json()['item_list'][0]['share_info']['share_title'].split('#')[0].split('@')[0].replace(' ','')
            if video_name == '':
                video_name = int(random.random() * 2 * 1000)
            if len(str(video_name)) > 20:
                video_name = video_name[:20]
            video = requests.get(video_url, proxies=proxy, headers=self.headers).content
            with open(path + str(video_name) + '.mp4', 'wb') as f:
                f.write(video)
            print("【抖音短视频】: {}.mp4 无水印视频下载完成！".format(video_name))".format(video_name))

结果：由于抖音和抖音极速版的分享内容是一样的，无法分辨哪个平台，所以统一输出。

但是：我发现抖音没事就爱搞幺蛾子，有时分享链接是上文所示：有时又是一段原链接…所以我，做了一点小小的优化：

小优化：

if 'www.iesdouyin.com' in self.s_url:
    print("【抖音短视频】: {}.mp4 无水印视频下载完成！".format(video_name))
if 'v.douyin.com' in self.s_url:
    print("【抖音短视频/抖音极速版】: {}.mp4 无水印视频下载完成！".format(video_name))

腾讯微视

套路依旧，获取分享链接：

拿到链接：

上不上班无所谓，主要是想蹦迪https://h5.weishi.qq.com/weishi/feed/6XSB277Nr1K5nIKb6/wsfeed?wxplay=1&id=6XSB277Nr1K5nIKb6&spid=8813798054214369280&qua=v1_and_weishi_8.0.6_588_312028000_d&chid=100081014&pkg=3670&attach=cp_reserves3_1000370011

抓包及分析

注意：这里是一个写爬虫的常用思路：将设备切换为手机，因为相对于电脑端，手机端的健壮性没有电脑端好，所以很多东西都可以通过这种方式来抓取，就如这个例子：

未切换：

已切换：

依次检查请求后发现：链接也就摆放在 json 数据中。那么，接下来直接分析请求：

对于请求负载中的参数，我们可以直接在请求链接中截取：

https://h5.weishi.qq.com/weishi/feed/6XSB277Nr1K5nIKb6/wsfeed?wxplay=1&id=6XSB277Nr1K5nIKb6&spid=8813798054214369280&qua=v1_and_weishi_8.0.6_588_312028000_d&chid=100081014&pkg=3670&attach=cp_reserves3_1000370011

其他的参数默认就好，而至于请求链接，同一个视频刷新几次，参数 t 就有多少个值：

https://h5.weishi.qq.com/webapp/json/weishi/WSH5GetPlayPage?t=0.764612279656077&g_tk= https://h5.weishi.qq.com/webapp/json/weishi/WSH5GetPlayPage?t=0.3168301677339891&g_tk= https://h5.weishi.qq.com/webapp/json/weishi/WSH5GetPlayPage?t=0.8888910469548954&g_tk= …

而且，有时候长度都不一样，这就把我吓到了！什么加密？这么复杂！既然同一个视频每次刷新都不一样，是不是跟时间戳有关系？？？但是这明显不是啊！正在我为这个参数发愁时，我也不知道我当时是怎么想的，无聊，随机修改了参数 t 的几个数字发现，仍然能够获取到视频！！！！！！！然后我发现：所有的数全是在 0—1 之间变化，我用Python的 random 产生了一组随机数来看：

import random
print(random.random())

#  结果：
#  0.5890812460827893

我都惊呆了！！就是这种数据啊！我用这个随机数去请求时，结果居然是可行的，这…

居然误打误撞的给破解了…

代码及结果

class TXWS():  # 腾讯微视
    headers = {  # 模拟手机端
        'user-agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1 Edg/84.0.4147.105'
    }

    def __init__(self, s_url):
        self.url = re.findall('(https?://[^\s]+)', s_url)[0]  # 正则提取字符串中的链接
        self.data = {
            'datalvl': "all",
            'feedid': str(self.url).split('/')[5],
            'recommendtype': '0',
            '_weishi_mapExt': '{}'
        }

    def txws_download(self):  # 参数 t 为随机数
        """
		CSDN ：高智商白痴
		CSDN个人主页：https://blog.csdn.net/qq_44700693
		"""
        url = 'https://h5.weishi.qq.com/webapp/json/weishi/WSH5GetPlayPage?t={}&g_tk='.format(random.random())
        r = requests.post(url, proxies=proxy, headers=self.headers, data=self.data)
        video_name = r.json()['data']['feeds'][0]['feed_desc'].replace(' ','')
        if video_name == '':
            video_name = int(random.random() * 2 * 1000)
        if len(str(video_name)) > 20:
            video_name = video_name[:20]
        video_url = r.json()['data']['feeds'][0]['video_url']
        video = requests.get(video_url, proxies=proxy, headers=self.headers).content
        with open(path + str(video_name) + '.mp4', 'wb') as f:
            f.write(video)
        print("【腾讯微视】: {}.mp4 无水印视频下载完成！".format(video_name))

结果：

开眼 Eyepetizer

虽然开眼下载的视频，并没有水印，但是下载好的视频只能在软件内观看，但是我还是想让它下载到它该下载的地址：套路，套路，还是套路：

抓包分析

还是很简单的，没什么反爬机制，很容易就会找到了视频的下载地址，接下来直接分析请求：

请求链接中只有几个数字需要解析，但是我们发现，它就出现在分享链接中：

https://www.eyepetizer.net/detail.html?vid=208234&utm_campaign=routine&utm_medium=share&utm_source=others&uid=0&resourceType=video&udid=c65aab71b05749d584eac4ee7944bb6274e17596&vc=6030061&vn=6.3.6&size=1080X2070&deviceModel=9&first_channel=xiaomi&last_channel=xiaomi&system_version_code=27

代码及结果

class KY_Eyepetizer():  # 开眼
    def __init__(self, url):
        self.vid = str(url).split('=')[1].split('&')[0]
        self.headers = {
            'origin': 'https://www.eyepetizer.net',
            'referer': url,
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36 Edg/84.0.522.58'
        }

    def ky_download(self):
        """
		CSDN ：高智商白痴
		CSDN个人主页：https://blog.csdn.net/qq_44700693
		"""
        url = 'https://baobab.kaiyanapp.com/api/v1/video/{}?f=web'.format(self.vid)
        r = requests.get(url, proxies=proxy, headers=self.headers)
        video_name = r.json()['title'].replace(' ','')
        if video_name == '':
            video_name = int(random.random() * 2 * 1000)
        if len(str(video_name)) > 20:
            video_name = video_name[:20]
        video_url = r.json()['playUrl']
        video = requests.get(video_url, proxies=proxy, headers=self.headers).content
        with open(path + str(video_name) + '.mp4', 'wb') as f:
            f.write(video)
        print("【开眼 Eyepetizer】: {}.mp4 无水印视频下载完成！".format(video_name))

结果：

快手/快手极速版

单个视频下载

我们还是以快手为例（快手极速版的解析规则和快手一样）：依旧按照套路来，不过因为快手的限制，必须登录才能分享：

抓包分析

按照以前的套路，将链接粘贴到浏览器，F12 抓包，结果并没有获取到任何与当前视频链接相关的信息，既然不在 json 文件中，难道在网页源码中？？？去挨个儿查看后，也不是，这该怎么爬取呢？？别忘了我前面提到的方法：更改设备。当我把设备换成手机端后，json 数据中也还是没有相关数据，不过！！我在网页源码中找到了我们想要的链接：

到这里我们也已经找到了链接存放的地址，接下来则是，如何在这么多的字符里将链接提取出来呢？？？答案是：使用正则表达式。

代码及结果

class KS():  # 快手
    def __init__(self, s_url):
        self.s_url=s_url.replace('\n','')
        self.url = re.findall('(https?://[^\s]+)', s_url)[0]  # 正则提取字符串中的链接
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1 Edg/84.0.4147.105'
        }

    def ks_download(self):
        """
		CSDN ：高智商白痴
		CSDN个人主页：https://blog.csdn.net/qq_44700693
		"""
        html = requests.get(self.url, headers=self.headers).text
        video_name = re.findall('name":"(.*?)"', html)[0].replace(' ','')
        if video_name == '':
            video_name = int(random.random() * 2 * 1000)
        if len(str(video_name)) > 20:
            video_name = video_name[:20]
        video_url = re.findall('srcNoMark":"(.*?)"', html)[0]
        video = requests.get(video_url, proxies=proxy, headers=self.headers).content
        with open(path + str(video_name) + '.mp4', 'wb') as f:
            f.write(video)
        if '【快手App】' in self.s_url:
            print("【快手】: {}.mp4 无水印视频下载完成！".format(video_name))
        elif '【快手极速版App】' in self.s_url:
            print("【快手极速版】: {}.mp4 无水印视频下载完成！".format(video_name))

结果：

用户视频下载

同样的我们拿到用户首页的分享地址：

看了这么多快手，还是「贝贝兔很」最好玩了！ https://v.kuaishou.com/69cjtE 复制此链接，打开【快手】直接观看！

抓包分析

还是一贯的套路，更改设备，模拟手机向下刷新发现：

在新加载出的 json 文件中，含有两个重要信息：

feeds ：包含第19条到37条的视频信息（不是链接，而是一个中亚参数，我后面会提到怎么使用）。
pcursor ：请求某一部分视频的重要参数。

既然包含了第19条到37条的视频，那么第1到第18条的视频信息在哪里呢？根据前面的教训，我直接查看了切换到移动设备时的源码发现:

这里确实是有18条数据，而且每一个链接直接导向了该视频的首页，那么解析方式就和单个视频的下载方式一样了！对于这18条数据，我们同样可以用正则表达式直接提取，但是后面的几十条数据就需要我们来进行解析了。

我们从新加载的 json 文件中可以看到，这里面包含了很多信息，但是却没有视频的链接，但是，既然刷新又必须加载它，说明肯定有什么重要的东西：后来我发现正则表达式提取出的链接都有像是之处，所以我拿出了几个用正则表达式提取出的链接。(默认前缀)

/fw/photo/3x3m9e644ep95qg?cc=share_copylink&fid=574031739&shareId=227013708994&shareToken=X8rcLJByeLfC10c_A&appType=21&kpn=KUAISHOU /fw/photo/3xggwttf4kquza9?cc=share_copylink&fid=574031739&shareId=227013708994&shareToken=X8rcLJByeLfC10c_A&appType=21&kpn=KUAISHOU …

我发现对于同一个用户，所有视频的基本形式除了黄色部分不一样以外，其余的都是固定的！这不就是一个参数的问题嘛， json 文件中那么多的数据，不信找不到：我一一尝试后终于找到了那个参数：

既然我们已经知道如何拼接每个视频的链接，那么，最主要的就是如何获取那个视频的关键参数。我前面已经说了，在 json 文件中的 pcursor 字段很是重要！

我尝试多次后终于发现发现：前一个 post 请求所返回数据中的 pcursor 字段的值，就是下一次请求所需要的参数！而两次请求中，视频的顺序刚好和用户的一样，所以如何请求后续的视频信息，我们已经知道方法了，不过，第一次的请求的参数是怎么来的呢？？

解决：在编写代码时，我给第一次 post 请求的参数 pcursor 赋了个空值，也是能够请求成功的！而请求结束的标志就是：pcursor 字段的值等于 no_more：

代码及结果

class KS():  # 快手
    def __init__(self, s_url):
        self.s_url=s_url.replace('\n','')
        self.url = re.findall('(https?://[^\s]+)', s_url)[0]  # 正则提取字符串中的链接
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1 Edg/84.0.4147.105'
        }
        self.video_list = []
        self.rel_url = requests.get(self.url, proxies=proxy, headers=self.headers)  # 真实网址

    def ks_download(self):
        """
		CSDN ：高智商白痴
		CSDN个人主页：https://blog.csdn.net/qq_44700693
		"""
        if 'user' != self.rel_url.url.split('/')[4]:
            self.ks_download_video()
        if 'user' == self.rel_url.url.split('/')[4]:
            self.ks_download_user()

    def ks_download_video(self):
        """
		CSDN ：高智商白痴
		CSDN个人主页：https://blog.csdn.net/qq_44700693
		"""
        video_name = re.findall('name":"(.*?)"', self.rel_url.text)[0].replace(' ', '')
        if video_name == '':
            video_name = int(random.random() * 2 * 1000)
        if len(str(video_name)) > 20:
            video_name = video_name[:20]
        video_url = re.findall('srcNoMark":"(.*?)"', self.rel_url.text)[0]
        video = requests.get(video_url, proxies=proxy, headers=self.headers).content
        with open(path + str(video_name) + '.mp4', 'wb') as f:
            f.write(video)
        if '【快手App】' in self.s_url:
            print("【快手】: {}.mp4 无水印视频下载完成！".format(video_name))
        elif '【快手极速版App】' in self.s_url:
            print("【快手极速版】: {}.mp4 无水印视频下载完成！".format(video_name))

    def ks_download_user(self):
        """
		CSDN ：高智商白痴
		CSDN个人主页：https://blog.csdn.net/qq_44700693
		"""
        global user_name
        headers = {
            'Cookie': '粘贴自己的Cookie信息',
            'Origin': 'https://c.kuaishou.com',
            'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1 Edg/84.0.4147.125'
        }
        rel_url = requests.get(self.url, proxies=proxy, headers=headers)  # 真实网址
        user_name = re.findall('(.*?)', rel_url.text)[-1]
        if os.path.exists(path + user_name + '/'):
            pass
        else:
            os.makedirs(path + user_name + '/')
        videos = re.findall(' 
  结果： 
   
    
  抖音火山版/火山极速版 
  单个视频下载 
  对于这两个软件的解析，其实我是偷懒了，嘿嘿嘿，我翻看以前别人的博客，细细研究后发现了一个快手视频解析的接口： 其实很抱歉我忘记了我在哪个地方看到的那片文章，通过那篇文章，我们可以获取到原火山小视频的视频加载api : 
   
   https://api-hl.huoshan.com/hotsoon/item/video/_source/?item_id=6859730122820291840 原火山小视频无水印接口 https://api.huoshan.com/hotsoon/item/video/_reflow/?item_id=6859730122820291840 抖音火山版水印接口 https://api.huoshan.com/hotsoon/item/video/_source/?item_id=6859730122820291840 抖音火山版无水印接口 
   
  现在，已经知道视频加载的 api 后，就只需获取视频的 item_id 参数了。这个参数在跳转链接中就可以找到。 
  代码及结果： 
  所以我直接写出来解析代码： 
  class DY_HSB():
    headers = {   # 模拟手机
        'user-agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1 Edg/84.0.4147.105'
    }

    def __init__(self, s_url):
        self.s_url=s_url
        self.url = re.findall('(https?://[^\s]+)', s_url)[0]  # 正则提取字符串中的链接

    def dyhsb_download(self):
        """
		CSDN ：高智商白痴
		CSDN个人主页：https://blog.csdn.net/qq_44700693
		"""
        rel_url = str(requests.get(self.url, proxies=proxy, headers=self.headers).url)
        video_name = int(random.random() * 2 * 1000)
        video_url = 'https://api.huoshan.com/hotsoon/item/video/_source/?item_id=' + \
                     rel_url.split('=')[1].split('&')[0]
        video = requests.get(video_url, proxies=proxy, headers=self.headers).content
        with open(path + str(video_name) + '.mp4', 'wb') as f:
             f.write(video)
        if '【抖音火山版】' in self.s_url:
             print("【抖音火山版】: {}.mp4 无水印视频下载完成！".format(video_name))
        elif '【火山极速版】' in self.s_url:
             print("【火山极速版】: {}.mp4 无水印视频下载完成！".format(video_name)) 
  结果：因为这个 api 无法获取其余信息，所以就以随机数来命名。 
   
   
    
  用户视频下载 
  我们还是拿到用户首页的分享链接： 
   
   「天使航拍」也在抖音火山版，快来看 TA 的精彩作品吧！「天使航拍」上传了 173 个视频作品，一起来围观>>https://share.huoshan.com/hotsoon/s/FJ0C7M5rWa8/ 复制此链接，打开【抖音火山版】，直接找到TA~ 
   
  抓包分析 
    
   
  我们可以很快地找到一个用户视频的请求接口，然后拿到视频的 item_id 参数。但是！这个接口好像有参数去限制请求视频的数量，目前我只是试了一下修改请求参数，不过也只能最多爬取该用户40—50 个视频，如果以后有时间，我再去研究一下。 虽然请求参数较多，但是经过我的尝试，只有两个参数是必须的： 
   
    encrypted_id : 在请求跳转链接中以 to_user_id 的参数存在。
  
    count ：请求数量。（但是最多只能请求40—50个？？这是怎么回事，我目前还没弄清楚！）
  
   
   
   https://share.huoshan.com/pages/user/index.html?to_user_id=MS4wLjABAAAA6iUfN2mZ0H4Z7iLtZQ73TYdXoyTUIjk6oDdVWuRtn_g×tamp=1597806131&share_ht_uid=0&did=67279005018&iid=3113420875114797&utm_medium=huoshan_android&tt_from=copy_link&app=live_stream&utm_source=copy_link&schema_url=sslocal%3A%2F%2Fprofile%3Fid%3D75014355319 
   
    
   
    
  代码及结果： 
  class DY_HSB():
    headers = {   # 模拟手机
        'user-agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1 Edg/84.0.4147.105'
    }

    def __init__(self, s_url):
        self.s_url=s_url
        self.url = re.findall('(https?://[^\s]+)', s_url)[0]  # 正则提取字符串中的链接

    def dyhsb_download(self):
        """
		CSDN ：高智商白痴
		CSDN个人主页：https://blog.csdn.net/qq_44700693
		"""
        rel_url = str(requests.get(self.url, proxies=proxy, headers=self.headers).url)
        if 'item' == rel_url.split('/')[4]:  # 单个视频
            video_name = int(random.random() * 2 * 1000)
            video_url = 'https://api.huoshan.com/hotsoon/item/video/_source/?item_id=' + \
                        rel_url.split('=')[1].split('&')[0]
            video = requests.get(video_url, proxies=proxy, headers=self.headers).content
            with open(path + str(video_name) + '.mp4', 'wb') as f:
                f.write(video)
            if '【抖音火山版】' in self.s_url:
                print("【抖音火山版】: {}.mp4 无水印视频下载完成！".format(video_name))
            elif '【火山极速版】' in self.s_url:
                print("【火山极速版】: {}.mp4 无水印视频下载完成！".format(video_name))
        if 'user' == rel_url.split('/')[4]:  # 用户视频
            ##########
            # 缺陷：最多支持下载 40--50 个该用户视频。
            ##########
            to_user_id = rel_url.split('=')[1].split('&')[0]
            info_json = requests.get('https://share.huoshan.com/api/user/info?encrypted_id={}'.format(to_user_id))
            item_count = info_json.json()['data']['item_count']
            user_name = info_json.json()['data']['nickname']
            if os.path.exists(path + user_name + '/'):
                pass
            else:
                os.makedirs(path + user_name + '/')
            videos_url = 'https://share.huoshan.com/api/user/video?encrypted_id={}&count={}'.format(to_user_id,
                                                                                                    item_count)
            video_info = requests.get(videos_url, proxies=proxy, headers=self.headers).json()['data']
            for info in tqdm(video_info, desc='正在下载用户 {} 的视频:'.format(user_name)):
                video_name = int(random.random() * 2 * 1000)
                video_url = 'https://api.huoshan.com/hotsoon/item/video/_source/?item_id=' + info['item_id']
                video = requests.get(video_url, proxies=proxy, headers=self.headers).content
                with open(path + user_name + '/' + str(video_name) + '.mp4', 'wb') as f:
                    f.write(video)
            if '【抖音火山版】' in self.s_url:
                print("【抖音火山版】: 用户 {} 的无水印视频下载完成！".format(user_name))
            elif '【火山极速版】' in self.s_url:
                print("【火山极速版】: 用户 {} 的无水印视频下载完成！".format(user_name)) 
  结果： 
   
   
    
  最右 
  依旧是通过拿到分享链接，然后抓包分析： 
   
  拿到分享链接： 
   
   #最右#分享一条有趣的内容给你，不好看算我输。请戳链接>> https://share.izuiyou.com/hybrid/share/post?pid=191652885&zy_to=applink&share_count=1&m=ce86942098b72ec745e740e69ab9f6ec&d=fd238824d489ba3c1d65dfb74793074fd42ce27cafa76630b9eecfd7d657f50c&app=zuiyou&recommend=top_ctr&name=use_push_only&title_type=post 
   
  单个视频下载 
  基本思路也还是不变，更改设备后查看源码，将部分源码提取出来： 
   
  … 
   
  将这部分源码拿到 JSON在线解析的网站上去： 
   
  虽然提示有错误，不过我们可以编辑一下源码，改正这个错误： 先搜索错误的信息： 
   
  然后修改： 
   
  因为这个参数不影响我们的爬取，所以，无论改成什么字符都可以，切记一定要双引号！ 
  随后，经过我的一番查找，终于找到了视频的无水印链接： 
   
  由于这并不是标准的 json 数据，所以，我们还是直接用正则表达式来提取。 
  代码及结果 
  class ZY():  # 最右
    headers = {  # 模拟成手机
        'Host': 'share.izuiyou.com',
        'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1 Edg/84.0.4147.105'
    }

    def __init__(self, s_url):
        self.url = re.findall('(https?://[^\s]+)', s_url)[0]  # 正则提取字符串中的链接

    def zy_download(self):
        """
		CSDN ：高智商白痴
		CSDN个人主页：https://blog.csdn.net/qq_44700693
		"""
        url_flag = str(self.url).split('/')[3]
        html = requests.get(self.url, proxies=proxy, headers=self.headers).text
        flag = re.findall('"imgs":\[{"id":(.*?),"h":', html)[0]
        video_name = re.findall('{"id":.*?,"share":.*?,"content":"(.*?)","title":"', html)[0].replace(' ','')
        if video_name == '':
            video_name = int(random.random() * 2 * 1000)
        if len(str(video_name)) > 20:
            video_name = video_name[:20]
        video_url = re.findall(',"thumb":' + flag + ',"playcnt":.*?"url":"(.*?)","prior', html)[0] \
            .replace('u002F', '').replace('\\', '/')
        video = requests.get(video_url, proxies=proxy).content
        with open(path + str(video_name) + '.mp4', 'wb') as f:
            f.write(video)
        print("【最右】: {}.mp4 无水印视频下载完成！".format(video_name)) 
  结果： 
   
    
  话题视频下载 
  同样的，我们拿到某一话题的链接： 
   
   #最右#发现一个超给力的话题，快来围观！请戳链接>> https://share.izuiyou.com/topic/429972?m=ce86942098b72ec745e740e69ab9f6ec&d=fd238824d489ba3c1d65dfb74793074fd42ce27cafa76630b9eecfd7d657f50c&app=zuiyou 
   
  代码及分析 
  对于这一话题，我们在电脑抓包 XHR 选项中可以看到有一个 list 字段，里面就是关于该话题的视频信息： 
   
    
  备注： 因为此次都是用电脑浏览器抓的包，并没有去分析手机端的 APP 请求方式，所以对于话题下载。只能下载前 10 个视频，后续有机会或者有需求的话，我会再抓包分析！ 对与请求链接：https://share.izuiyou.com/api/topic/details ，并没有发生什么变化，但是传参就有点复杂了： 
   
  不过在我几次筛选之后发现有用的参数并不复杂： 
   
    app: 默认 “zuiyou” 就好！
  
    d、m、tid: 虽然不知道这个参数是干嘛的，不过我们可以在主页链接中找到。注意： 参数 tid 是 int 类型的参数。
  
    ua: 这个就很明显了啊，就是请求的 User-Agent。
  
   
  于是我们就可以构建一下请求负载： 这里需要注意的是：请求负载是 JSON 类型的数据，而不是最常见的 DATA ： 
   
    
  JSON = {
        'app': "zuiyou",
        'd': str(self.url).split('=')[2].split('&')[0],
        'm': str(self.url).split('=')[1].split('&')[0],
        'tid': int(str(self.url).split('/')[4].split('?')[0]),
        'ua': "Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1 Edg/84.0.4147.125"
         } 
  同样的我们发现，在 video 字段下，还有一个全是数字的字符串： 
   
  我们在当前 json 文件中搜索可以发现，在 img 字段的信息里有一串一模一样的字段： 
   
    
  代码及结果： 
  知道了视频链接保存的地方与请求方式，下面开始编写代码： 
  class ZY():  # 最右
    headers = {  # 模拟成手机
        'Host': 'share.izuiyou.com',
        'User-Agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1 Edg/84.0.4147.105'
    }

    def __init__(self, s_url):
        self.url = re.findall('(https?://[^\s]+)', s_url)[0]  # 正则提取字符串中的链接

    def zy_download(self):
        """
		CSDN ：高智商白痴
		CSDN个人主页：https://blog.csdn.net/qq_44700693
		"""
        url_flag = str(self.url).split('/')[3]
        if 'hybrid' == url_flag:
            html = requests.get(self.url, proxies=proxy, headers=self.headers).text
            flag = re.findall('"imgs":\[{"id":(.*?),"h":', html)[0]
            video_name = re.findall('{"id":.*?,"share":.*?,"content":"(.*?)","title":"', html)[0].replace(' ','')
            if video_name == '':
                video_name = int(random.random() * 2 * 1000)
            if len(str(video_name)) > 20:
                video_name = video_name[:20]
            video_url = re.findall(',"thumb":' + flag + ',"playcnt":.*?"url":"(.*?)","prior', html)[0] \
                .replace('u002F', '').replace('\\', '/')
            video = requests.get(video_url, proxies=proxy).content
            with open(path + str(video_name) + '.mp4', 'wb') as f:
                f.write(video)
            print("【最右】: {}.mp4 无水印视频下载完成！".format(video_name))
        if 'topic' == url_flag:
            ###########
            #  缺陷：话题区最多下载 10 个视频
            ###########
            JSON = {
                'app': "zuiyou",
                'd': str(self.url).split('=')[2].split('&')[0],
                'm': str(self.url).split('=')[1].split('&')[0],
                'tid': int(str(self.url).split('/')[4].split('?')[0]),
                'ua': "Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1 Edg/84.0.4147.125"
            }
            URL = 'https://share.izuiyou.com/api/topic/details'
            r = requests.post(URL, json=JSON, proxies=proxy, headers=self.headers)
            video_info = r.json()['data']['list']
            type_name = r.json()['data']['topic']['topic'].replace(' ','')
            if os.path.exists(path + type_name + '/'):
                pass
            else:
                os.makedirs(path + type_name + '/')
            for video_info in tqdm(video_info, desc='正在下载类型 【{}】 的视频: '.format(type_name)):
                video_name = video_info['content'].replace(' ','')
                if video_name == '':
                    video_name = int(random.random() * 2 * 1000)
                if len(str(video_name)) > 20:
                    video_name = video_name[:20]
                flag = video_info['imgs'][0]['id']
                video_url = video_info['videos'][str(flag)]['url']
                video = requests.get(video_url, proxies=proxy).content
                with open(path + type_name + '/' + str(video_name) + '.mp4', 'wb') as f:
                    f.write(video)
            print("【最右】: 类型 【{}】 无水印视频下载完成！".format(type_name)) 
  小优化： 
   
    1、因为后来我发现在话题区可能有图片的动态，不是视频的话，可能会出错，所以我对可能会出错的地方进行了处理
  
    2、当我在测试的过程中发现，有些视频的神评中也含有视频，所以我准备再加一点点代码，把那些也都下载下来：
  
   
  先找到审评的保存地方： 
   
  对于神评中的视频，规则和单个视频很相似：在 video 字段下，还有一个全是数字的字符串： 
   
  在当前 json 文件中搜索可以发现，在 img 字段的信息里有一串一模一样的字段： 
   
  然而，也有可能在神评中没有视频或者没有神评，所以这一次直接把可能出现问题的地方处理掉： 
  #
#  上面不做修改
#
"""
CSDN ：高智商白痴
CSDN个人主页：https://blog.csdn.net/qq_44700693
"""
if 'topic' == url_flag:
    ###########
    #  缺陷：话题区最多下载 10 个视频
    ###########
    JSON = {
        'app': "zuiyou",
        'd': str(self.url).split('=')[2].split('&')[0],
        'm': str(self.url).split('=')[1].split('&')[0],
        'tid': int(str(self.url).split('/')[4].split('?')[0]),
        'ua': "Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1 Edg/84.0.4147.125"
    }
    URL = 'https://share.izuiyou.com/api/topic/details'
    r = requests.post(URL, json=JSON, proxies=proxy, headers=self.headers)
    video_info = r.json()['data']['list']
    type_name = r.json()['data']['topic']['topic'].replace(' ','')
    if os.path.exists(path + type_name + '/'):
        pass
    else:
        os.makedirs(path + type_name + '/')
    for video_info in tqdm(video_info, desc='正在下载类型 【{}】 的视频: '.format(type_name)):
        video_name = video_info['content'].replace(' ','')
        if video_name == '':
            video_name = int(random.random() * 2 * 1000)
        if len(str(video_name)) > 20:
            video_name = video_name[:20]
        flag = video_info['imgs'][0]['id']
        try:
            video_url = video_info['videos'][str(flag)]['url']
            video = requests.get(video_url, proxies=proxy).content
            with open(path + type_name + '/' + str(video_name) + '.mp4', 'wb') as f:
                f.write(video)
        except:
            pass
        try:
            video_info1=video_info['god_reviews'][0]['videos']
            for a in tqdm(range(len(video_info1)),desc="正在下载该视频下的评论视频:"):
                flag1=video_info['god_reviews'][0]['imgs'][a]['id']
                video_url1=video_info['god_reviews'][0]['videos'][str(flag1)]['url']
                video_name = int(random.random() * 2 * 1000)
                video = requests.get(video_url1, proxies=proxy).content
                with open(path + type_name + '/' + str(video_name) + '.mp4', 'wb') as f:
                    f.write(video)
        except:
            pass
    print("【最右】: 类型 【{}】 无水印视频下载完成！".format(type_name)) 
  结果： 
   
    
  VUE 
  单个视频下载 
  vue平台虽然视频本身没有频台水印，但是却没有给我们提供下载功能，所以我才会编写这段代码： 同样拿到某一个视频的分享链接： 
   
  拿到的分享链接： 
   
   https://v.vuevideo.net/share/post/-5263687500195767823 
   
  抓包与分析 
    
   
  在电脑端打开分享网站后，又检查工具查看，我们所需要的东西都可以很轻松的找到，于是： 
  代码及结果 
  class VUE():  # VUEvlog
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Safari/537.36 Edg/84.0.522.59'
    }

    def __init__(self, url):
        self.url = url

    def vue_download(self):
        """
		CSDN ：高智商白痴
		CSDN个人主页：https://blog.csdn.net/qq_44700693
		"""
        rel = requests.get(self.url, proxies=proxy, headers=self.headers)
        video_name = parsel.Selector(rel.text).xpath('//div[@class="videoTitle"]/text()').extract()[0].replace(' ',
                                                                                                               '')
        if video_name == '':
            video_name = int(random.random() * 2 * 1000)
        if len(str(video_name)) > 20:
            video_name = video_name[:20]
        video_url = parsel.Selector(rel.text).xpath('//div[@class="videoContainer"]/video/@src').extract()[0]
        video = requests.get(video_url, proxies=proxy).content
        with open(path + str(video_name) + '.mp4', 'wb') as f:
            f.write(video)
        print("【VUE】: {}.mp4 视频下载完成！".format(video_name)) 
  结果： 
   
    
  话题视频下载 
  对于话题区，我们也还是拿到分享链接： 
   
    
   
   https://v.vuevideo.net/share/topics/193 
   
  抓包与分析 
    
   
    
  代码及结果： 
  按照单个视频下载的方式，同样的能够获得我们所需要的所有信息，每一个 
…
 标签都包裹着每一个视频的信息，所以： 
  class VUE():  # VUEvlog
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Safari/537.36 Edg/84.0.522.59'
    }

    def __init__(self, url):
        self.url = url

    def vue_download(self):
        """
		CSDN ：高智商白痴
		CSDN个人主页：https://blog.csdn.net/qq_44700693
		"""
        rel = requests.get(self.url, proxies=proxy, headers=self.headers)
        if str(rel.url).split('/')[4] == 'post':  # 单个视频
            video_name = parsel.Selector(rel.text).xpath('//div[@class="videoTitle"]/text()').extract()[0].replace(' ',
                                                                                                                   '')
            if video_name == '':
                video_name = int(random.random() * 2 * 1000)
            if len(str(video_name)) > 20:
                video_name = video_name[:20]
            video_url = parsel.Selector(rel.text).xpath('//div[@class="videoContainer"]/video/@src').extract()[0]
            video = requests.get(video_url, proxies=proxy).content
            with open(path + str(video_name) + '.mp4', 'wb') as f:
                f.write(video)
            print("【VUE】: {}.mp4 视频下载完成！".format(video_name))
        if str(rel.url).split('/')[4] == 'topics':  # 主题视频
            all_li = parsel.Selector(rel.text).xpath('//div[@class="info-layout"]').extract()
            topics_name = re.findall('>(.*?)<', rel.text)[0].replace(' ', '')
            for li_info in tqdm(all_li, desc="正在下载类型为 {} 的视频:".format(topics_name)):
                video_name = re.findall('="post-title-text">(.*?) 20:
                    video_name = video_name[:20]
                video_url = re.findall('src="(.*?)"', li_info)[1].replace(' ', '')
                if os.path.exists(path + topics_name + '/'):
                    pass
                else:
                    os.makedirs(path + topics_name + '/')
                video = requests.get(video_url, proxies=proxy).content
                with open(path + topics_name + '/' + str(video_name) + '.mp4', 'wb') as f:
                    f.write(video)
            print("【VUE】: 类型 【{}】 无水印视频下载完成！".format(topics_name)) 
  结果： 
    
   
    
  看看视频 
  看看视频，是将一部电视剧的主要情节剪辑下来，让你在上厕所的时候追完一部剧。 按照我们以前的套路，我们肯定要先拿到视频的分享链接，不过，看看视频并没有给我们提供这样的功能，但是，我们直接分享到QQ时发现，这就是一个分享链接： 
   
   https://micro.kankan.com/index?productId=207063&setId=220133&productName=隐秘的角落&userId=-1&userid=-1&moviesId=207063 
   
  抓包与分析 
  将链接放到浏览器抓包可以很快的找到视频信息的保存地址： 
   
  同样的我们能够得到全部和单个视频的请求接口。 
  代码及结果 
  我们对结果进行梳理后，开始编写代码： 
  class KKSP():  # 看看视频
    def __init__(self, s_url):
        self.moviesId = str(s_url).split('=')[-1]
        print(self.moviesId)
        self.headers = {
            'Host': 'svideo-api.kankan.com',
            'Origin': 'https://micro.kankan.com',
            'Referer': s_url,
            'terminal': 'H5',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36 Edg/85.0.564.44',
            'userid': '-1'
        }

    def kksp_download(self):
        """
		CSDN ：高智商白痴
		CSDN个人主页：https://blog.csdn.net/qq_44700693
		"""
        global video_url, video_name
        url = 'https://svideo-api.kankan.com/microvision/getSetListByMoviesId?moviesId=' + self.moviesId
        print(url)
        r = requests.get(url, proxies=proxy, headers=self.headers)
        video_infos = r.json()['data']['moviesSetList']
        name = r.json()['data']['moviesName']
        print(name) 
  但是当我运行以上代码时发现在 ’Referer’: s_url 的地方出现了错误，时编码的问题： 
   
   UnicodeEncodeError: 'latin-1' codec can't encode characters in position 73-77: ordinal not in range(256) 大致翻译为： UnicodeEncodeError：“ latin-1”编解码器无法对位置73-77中的字符进行编码：序数不在范围内（256） 原因是链接中含有中文。 
   
  小优化 
  class KKSP():  # 看看视频
    def __init__(self, s_url):
        self.moviesId = str(s_url).split('=')[-1]
        self.headers = {
            'Host': 'svideo-api.kankan.com',
            'Origin': 'https://micro.kankan.com',
            'Referer': quote(s_url),
            'terminal': 'H5',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36 Edg/85.0.564.44',
            'userid': '-1'
        }

    def kksp_download(self):
        """
		CSDN ：高智商白痴
		CSDN个人主页：https://blog.csdn.net/qq_44700693
		"""
        global video_url, video_name
        url = 'https://svideo-api.kankan.com/microvision/getSetListByMoviesId?moviesId=' + self.moviesId
        print(url)
        r = requests.get(url, proxies=proxy, headers=self.headers)
        video_infos = r.json()['data']['moviesSetList']
        name = r.json()['data']['moviesName']
        if os.path.exists(path + name):
            pass
        else:
            os.makedirs(path + name)
        video_num = 0
        for video_info in tqdm(video_infos, desc="正在下载 {}: ".format(name)):
            video_num += 1
            video_name = '第{}集 '.format(video_num) + video_info['des']
            if video_name == '':
                video_name = int(random.random() * 2 * 1000)
            if len(str(video_name)) > 20:
                video_name = video_name[:20]
            video_url = video_info['moviesSetScreenList'][0]['vodurl']
            video = requests.get(video_url, proxies=proxy).content
            with open(path + name + '/' + str(video_name) + '.mp4', 'wb') as f:
                f.write(video)
        print("【看看视频】: {}.mp4 视频下载完成！".format(name)) 
  结果： 
    
   
    
  哔哩哔哩 
  由于B站不同于其他平台的短视频，所以我决定单独写一篇博客： 点击跳转：Python爬虫: 哔哩哔哩视频下载 
  AcFun 
  A站我也单独写了篇文章来介绍：点击跳转：Python爬虫：AcFun弹幕视频网 
  ZzzFun 
  Python爬虫：ZzzFun动漫视频网 
  西瓜视频 
  抓包分析 
  对于西瓜视频来说，既有安卓端的APP，也有网页版的主站。 但是呢，经过我的观察与验证发现，无论是哪个平台，请求资源的链接都是一样的，举个例子： 
   
   在安卓端拿到的分享链接：【https://v.ixigua.com/J4wB5ek/ 】 与在浏览器端拿到的链接：【https://www.ixigua.com/6873787245292159495/】 其实是定向到了同一个链接下：https://www.ixigua.com/6873787245292159495/ 
   
   
  其实说白了就是，在安卓端拿到的分享链接是一个短的映射链接，而在浏览器地址栏显示的才是映射到的真正的地址链接，（不知道我说明白没有哈哈~~） 
  在我明白了以上的对应关系之后，我又发现了一个有用的信息，那就是： 
   
   APP端和电脑网页端在线播放时，视频本身就是加载的无水印的链接，而当我们用手机浏览器打开时会发现，即使是在线观看，也是有水印的视频。 
   
  知道了这些，那我们就可以确定，我们的请求头中 user-agent 字符，不能是手机的了。 
  既然APP端和电脑浏览器端都是一样的请求链接，那我们就不用再用APP端来获取链接了，直接再浏览器网页端点击岂不是更香~~ 
  我们先随便点击一个视频打开调试工具： 
   
  让视频播放几秒钟后发现，网站一直在反复请求两个相识的链接，这是怎么回事呢？有种似曾相识的感觉… 
  没错~~就是和B站的加载机制相同：分别加载音频和视频。 
  我们先来查看网页源码：找到渲染完成的视频标签的位置后发现： 
   
  每个视频都是以 blob:https://… 的形式出现的。那么这条路就是行不通的。 接下来再来看看有没有什么可供使用的接口或者JSON数据，答案是：全都没有。这可就难办了，看着那些请求链接，有很多的参数，不过我发现：链接中的 ? 之后所有字段都不影响我们去请求资源，真正有用的就只有 ? 前面的字段。 
   
   举个例子： 链接一：https://v3-xg-web.ixigua.com/599d2dfe9869f497674442f1eb94a612/5fd385d0/video/tos/cn/tos-cn-vd-0026/f99dcd1c27af4b5d82fe4cd1be06b3b9/media-video-avc1/?a=1768&br=8283&bt=2761&cd=0%7C0%7C0&cr=0&cs=0&cv=1&dr=0&ds=4&er=0&l=202012112139480100220282230D1D20F6&lr=default&mime_type=video_mp4&qs=0&rc=ajhlc2kzc280djMzZDczM0ApZTg8NTg2Mzw4Nzc1ZTM0ZWdecTZzNC1famdfLS02LS9zcy1hXmMxMGAuY2NfYzQwLjM6Yw%3D%3D&vl=&vr=&range=0-1826 链接二：https://v3-xg-web.ixigua.com/8487c167d9680b36f5b19e039114f30d/5fd385d0/video/tos/cn/tos-cn-vd-0026/f99dcd1c27af4b5d82fe4cd1be06b3b9/media-audio-und-mp4a/?a=1768&br=0&bt=0&cd=0%7C0%7C0&cr=0&cs=0&cv=1&dr=0&ds=&er=0&l=202012112139480100220282230D1D20F6&lr=default&mime_type=video_mp4&qs=0&rc=ajhlc2kzc280djMzZDczM0ApZ15xNnM0LV9qZ18tLTYtL3NzOmM%3D&vl=&vr=&range=0-1743 
   
  那么中间的那些字段到底是怎么来的呢？我对每个字段进行搜索，结果连一条消息都没有找到，说明这个链接的参数没有在别的地方先生成或者加载。而是直接请求的该链接… 
  并且后来我发现，同一个视频，浏览器刷新后，参数是会改变的，并非像之前那样是固定生成的链接，所以，我们还得另辟途径~~ 
   
   在这里，我就不提我遇到的那些坑了，（怕你们笑话，哈哈哈~） 我直接开始解释链接的加载位置。 
   
  我们打开某个视频的网页源码： 
   
  咦~~~~ 只有 23 行数据。不过我们都被骗了~~因为我发现在我浏览器的右下角有个这个东西： 
   
  原来有很多数据都被写在了一行… 把滚动条往右一拉，才发现有好多的JSON数据啊，话不多说，我们将之前的视频播放时加载的链接拿来一搜索，结果： 
   
  我去，这是怎么回事，我又将全部的网页源码拷贝出来，放在了我的前端编译器上进行格式化： 
   
  呵，数据藏得还不少！！！ 我从上到下的继续翻看源码，发现，视频的一些信息确实是在这里： 就比如视频的名字： 
   
  紧接着我又发现了与视频清晰度相关的一些信息： 
   
  那么在这里是不是隐藏这一些视频的请求信息呢？ 于是我又继续查找，知道我发现了一些重要的信息： 
   
  这…名字取得应该够明白了吧，确实是验证了我们之前所说的，该网站是将视频和音频分开请求的。然后我开始分析每一个参数到底是什么，不过我一眼 就看上了一个参数： 
   
  main_url ：看到这个 main 我就觉得它不简单，于是我就先拿他下手： 
   
   "main_url":“aHR0cD…ZyPQ==” （太长了，我就用…代替了） 
   
  先拿出一个来看一看，后面的两个等号很熟悉吧，一串字符后面跟着等号，这让我以下就想到了 BASE64 加密，不管怎么说，我们先拿出来验证一下： 
   
  将链接拿到浏览器打开发现，结果还真是我们所要寻找的链接，那么按照这个规矩，音频的链接也是这么提取的，所以我们开始编写代码： 
  class XGSP:
    main_headers = {
        'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
        'accept-language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
        'cache-control': 'max-age=0',
        'sec-fetch-dest': 'document',
        'sec-fetch-mode': 'navigate',
        'sec-fetch-site': 'none',
        'sec-fetch-user': '?1',
        'upgrade-insecure-requests': '1',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.67 Safari/537.36 Edg/87.0.664.55'
    }
    def __init__(self, s_url):
        self.url = s_url

    def XGSP_download(self):
        """
		CSDN ：高智商白痴
		CSDN个人主页：https://blog.csdn.net/qq_44700693
		"""
        r = requests.get(self.url, headers=self.main_headers)
        r.encoding = 'utf-8'
        video_info = (re.findall('"packerData":{"video":(.*?)}}}},"', r.text)[0] + "}}}}").replace("undefined",
                                                                                                   '"undefined"')
        video_json = json.loads(video_info)
        video_name = video_json["title"].replace("|", "-").replace(" ", "")
        print("视频名：" + video_name)
        video_url = base64.b64decode(
            video_json['videoResource']['dash']['dynamic_video']['dynamic_video_list'][-1]['main_url']).decode("utf-8")
        print("视频链接：" + video_url)
        audio_url = base64.b64decode(
            video_json['videoResource']['dash']['dynamic_video']['dynamic_audio_list'][-1]['main_url']).decode("utf-8")
        print("音频链接：" + audio_url) 
  注解： 
   
     
   
   
    细心的朋友应该会发现，按照这个流程写下来的代码，获取到的网页源码全是乱码。那是在浏览器端复制过来的请求头中会有这样的字段：accept-encoding: gzip, deflate, br，但是我并没有写上去，反而在请求分享链接时进行了如下的设置：r.encoding = 'utf-8’，这样才能使网页源码正常爬取。
  
    video_info = (re.findall(’“packerData”:{“video”: (.*?)}}}},"’, r.text)[0] + “}}}}”).replace(“undefined”, ‘“undefined”’) ：为了减少需要再次清晰数据，我们直接用正则表达式提取出视频和音频的链接部分。因为视频不同， video 字段后的一个字段会有所不同，所以我直接拿比较明显的 4 个 **” } “**来截取，然后拼接上。
  
    base64.b64decode(video_json[‘videoResource’][‘dash’][‘dynamic_video’][‘dynamic_video_list’][-1][‘main_url’]).decode(“utf-8”) ：则是base64解码。
  
   
    
  现在我们就可以拿到每一次的视频和音频的链接了（我这里以最高的清晰度来作为演示）。 
  class XGSP:
    main_headers = {
        #
        #  不变
		#
    }

    video_headers = {
        'accept': '*/*',
        'accept-encoding': 'gzip, deflate, br',
        'accept-language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
        'origin': 'https://www.ixigua.com',
        'referer': 'https://www.ixigua.com/',
        'sec-fetch-dest': 'empty',
        'sec-fetch-mode': 'cors',
        'sec-fetch-site': 'same-site',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36 Edg/87.0.664.57'
    }

    def __init__(self, s_url):
        self.url = s_url

    def XGSP_download(self):
        """
		CSDN ：高智商白痴
		CSDN个人主页：https://blog.csdn.net/qq_44700693
		"""
        #
        #  不变
        #
        with open(path + video_name + ".flv", "wb") as f:
            f.write(requests.get(video_url, headers=self.video_headers).content)
            print("视频文件下载完成...")
        with open(path + video_name + "-1.flv", "wb") as f:
            f.write(requests.get(audio_url, headers=self.video_headers).content)
        print("音视频均下载完成，即将开始拼接...") 
  现在我们已经下载好了视频和音频，接下来就需要将它们合并为一个视频，既然加载方式和B站很相似，那么下载方式也应该差不多： Python爬虫：哔哩哔哩（bilibili）视频下载 
  类源码 
  或者直接参考我的代码： 
  class XGSP:
    main_headers = {
        'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
        'accept-language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
        'cache-control': 'max-age=0',
        'sec-fetch-dest': 'document',
        'sec-fetch-mode': 'navigate',
        'sec-fetch-site': 'none',
        'sec-fetch-user': '?1',
        'upgrade-insecure-requests': '1',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.67 Safari/537.36 Edg/87.0.664.55'
    }

    video_headers = {
        'accept': '*/*',
        'accept-encoding': 'gzip, deflate, br',
        'accept-language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
        'origin': 'https://www.ixigua.com',
        'referer': 'https://www.ixigua.com/',
        'sec-fetch-dest': 'empty',
        'sec-fetch-mode': 'cors',
        'sec-fetch-site': 'same-site',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36 Edg/87.0.664.57'
    }

    def __init__(self, s_url):
        """
        CSDN ：高智商白痴
        CSDN个人主页：https://blog.csdn.net/qq_44700693
        :param s_url: 视频分享链接
        """
        self.url = s_url

    def XGSP_download(self):
        r = requests.get(self.url, headers=self.main_headers)
        r.encoding = 'utf-8'
        video_info = (re.findall('"packerData":{"video":(.*?)}}}},"', r.text)[0] + "}}}}").replace("undefined",
                                                                                                   '"undefined"')
        video_json = json.loads(video_info)
        video_name = video_json["title"].replace("|", "-").replace(" ", "")
        print("视频名：" + video_name)
        video_url = base64.b64decode(
            video_json['videoResource']['dash']['dynamic_video']['dynamic_video_list'][-1]['main_url']).decode("utf-8")
        print("视频链接：" + video_url)
        audio_url = base64.b64decode(
            video_json['videoResource']['dash']['dynamic_video']['dynamic_audio_list'][-1]['main_url']).decode("utf-8")
        print("音频链接：" + audio_url)
        with open(path + video_name + ".flv", "wb") as f:
            f.write(requests.get(video_url, headers=self.video_headers).content)
            print("视频文件下载完成...")
        with open(path + video_name + "-1.flv", "wb") as f:
            f.write(requests.get(audio_url, headers=self.video_headers).content)
        print("音视频均下载完成，即将开始拼接...")
        video_add_mp3("D:/ffmpeg-2020-09-30-essentials_build/bin/", path, path + video_name + ".flv",
                      path + video_name + "-1.flv")


def video_add_mp3(ffmpeg_path, save_path, file1_path, file2_path):
    """
    CSDN ：高智商白痴
    CSDN个人主页：https://blog.csdn.net/qq_44700693
    ffmpeg -i video.mp4 -i audio.m4a -c:v copy -c:a copy output.mp4
     视频添加音频
    :param ffmpeg_path: ffmpeg的安装 bin 路径
    :param save_path: 文件保存路径
    :param file1_path: 传入视频频文件的路径
    :param file2_path: 传入音频文件的路径
    :return:
    """ 
    mp4_name = file1_path.split('/')[-1].split('.')[0] + '-temp.mp4'
    mp3_name = file1_path.split('/')[-1].split('.')[0] + '-temp.mp3'
    outfile_name = file1_path.split('.')[0] + '.mp4'
    os.system(r'%sffmpeg -i %s %s' % (ffmpeg_path, file1_path, save_path + mp4_name))
    os.system(r'%sffmpeg -i %s %s' % (ffmpeg_path, file2_path, save_path + mp3_name))
    os.system(r'%sffmpeg -i %s -i %s -c:v copy -c:a copy %s' % (
        ffmpeg_path, save_path + mp4_name, save_path + mp3_name, outfile_name))
    os.remove(save_path + mp4_name)
    os.remove(save_path + mp3_name)
    os.remove(file1_path)
    os.remove(file2_path) 
  因为不知道原视频的真实格式，所以将视频和音频的格式都手动改为 flv 格式，在合并前进行格式转换。 
  结果

你可能感兴趣的:(Python,python,java,大数据,正则表达式,id)

android系统selinux中添加新属性property 辉色投像
1.定位/android/system/sepolicy/private/property_contexts声明属性开头：persist.charge声明属性类型：u:object_r:system_prop:s0图12.定位到android/system/sepolicy/public/domain.te删除neverallow{domain-init}default_prop:property
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
水平垂直居中的几种方法（总结） LJ小番茄 CSS_玄学语言 html javascript 前端 css css3
1.使用flexbox的justify-content和align-items.parent{display:flex;justify-content:center;/*水平居中*/align-items:center;/*垂直居中*/height:100vh;/*需要指定高度*/}2.使用grid的place-items:center.parent{display:grid;place-item
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
每日一题——第八十四题互联网打工人no1 C语言程序设计每日一练 c语言
题目：编写函数1、输入10个职工的姓名和职工号2、按照职工由大到小顺序排列，姓名顺序也随之调整3、要求输入一个职工号，用折半查找法找出该职工的姓名#define_CRT_SECURE_NO_WARNINGS#include#include#defineMAX_EMPLOYEES10typedefstruct{intid;charname[50];}Empolyee;voidinputEmploye
WPF中的ComboBox控件几种数据绑定的方式互联网打工人no1 wpf c#
一、用字典给ItemsSource赋值（此绑定用的地方很多，建议熟练掌握）在XMAL中：在CS文件中privatevoidBindData(){DictionarydicItem=newDictionary();dicItem.add(1,"北京");dicItem.add(2,"上海");dicItem.add(3,"广州");cmb_list.ItemsSource=dicItem;cmb_l
git常用命令笔记咩酱-小羊 git 笔记
###用习惯了idea总是不记得git的一些常见命令，需要用到的时候总是担心旁边站了人~~~记个笔记@_@，告诉自己看笔记不丢人初始化初始化一个新的Git仓库gitinit配置配置用户信息gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]"基本操作克隆远程仓库gitclone查看
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
DIV+CSS+JavaScript技术制作网页（旅游主题网页设计与制作）云南大理 STU学生网页设计网页设计期末网页作业 html静态网页 html5期末大作业网页设计 web大作业
️精彩专栏推荐作者主页:【进入主页—获取更多源码】web前端期末大作业：【HTML5网页期末作业(1000套)】程序员有趣的告白方式：【HTML七夕情人节表白网页制作(110套)】文章目录二、网站介绍三、网站效果▶️1.视频演示2.图片演示四、网站代码HTML结构代码CSS样式代码五、更多源码二、网站介绍网站布局方面：计划采用目前主流的、能兼容各大主流浏览器、显示效果稳定的浮动网页布局结构。网站程
【华为OD机试真题2023B卷 JAVA&JS】We Are A Team 若博豆 java 算法华为 javascript
华为OD2023（B卷）机试题库全覆盖，刷题指南点这里WeAreATeam时间限制：1秒|内存限制：32768K|语言限制：不限题目描述：总共有n个人在机房，每个人有一个标号（1<=标号<=n），他们分成了多个团队，需要你根据收到的m条消息判定指定的两个人是否在一个团队中，具体的：1、消息构成为：abc，整数a、b分别代
【加密社】Solidity 中的事件机制及其应用加密社闲侃区块链智能合约区块链
加密社引言在Solidity合约开发过程中，事件（Events）是一种非常重要的机制。它们不仅能够让开发者记录智能合约的重要状态变更，还能够让外部系统（如前端应用）监听这些状态的变化。本文将详细介绍Solidity中的事件机制以及如何利用不同的手段来触发、监听和获取这些事件。事件存储的地方当我们在Solidity合约中使用emit关键字触发事件时，该事件会被记录在区块链的交易收据中。具体而言，事件
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
关于城市旅游的HTML网页设计——(旅游风景云南 5页)HTML+CSS+JavaScript 二挡起步 web前端期末大作业 javascript html css 旅游风景
⛵源码获取文末联系✈Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业|游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作|HTML期末大学生网页设计作业，Web大学生网页HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScrip
HTML网页设计制作大作业（div+css）云南我的家乡旅游景点带文字滚动二挡起步 web前端期末大作业 web设计网页规划与设计 html css javascript dreamweaver 前端
Web前端开发技术描述网页设计题材，DIV+CSS布局制作,HTML+CSS网页设计期末课程大作业游景点介绍|旅游风景区|家乡介绍|等网站的设计与制作HTML期末大学生网页设计作业HTML：结构CSS：样式在操作方面上运用了html5和css3，采用了div+css结构、表单、超链接、浮动、绝对定位、相对定位、字体样式、引用视频等基础知识JavaScript：做与用户的交互行为文章目录前端学习路线
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
MYSQL面试系列-04 king01299 面试 mysql 面试
MYSQL面试系列-0417.关于redolog和binlog的刷盘机制、redolog、undolog作用、GTID是做什么的？innodb_flush_log_at_trx_commit及sync_binlog参数意义双117.1innodb_flush_log_at_trx_commit该变量定义了InnoDB在每次事务提交时，如何处理未刷入（flush）的重做日志信息（redolog）。它
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，