安静平和

《视频直播技术详解》之（三）：编码和封装

　在上一期的处理篇中，我们介绍了讲解常见视频处理功能如美颜、视频水印、滤镜、连麦等。本篇是《解密视频直播技术》系列之三：编码和封装。视频编码是本系列一个重要的部分，如果把整个流媒体比喻成一个物流系统，那么编解码就是其中配货和装货的过程，这个过程非常重要，它的速度和压缩比对物流系统的意义非常大，影响物流系统的整体速度和成本。同样，对流媒体传输来说，编码也非常重要，它的编码性能、编码速度和编码压缩比会直接影响整个流媒体传输的用户体验和传输成本。

　　--------------------------------------------

　　视频编码的意义

　　原始视频数据存储空间大，一个 1080P 的 7 s 视频需要 817 MB

　　原始视频数据传输占用带宽大，10 Mbps 的带宽传输上述 7 s 视频需要 11 分钟

　　而经过 H.264 编码压缩之后，视频大小只有 708 k ，10 Mbps 的带宽仅仅需要 500 ms ，可以满足实时传输的需求，所以从视频采集传感器采集来的原始视频势必要经过视频编码。

　　基本原理

　　那为什么巨大的原始视频可以编码成很小的视频呢?这其中的技术是什么呢?核心思想就是去除冗余信息：

　　空间冗余：图像相邻像素之间有较强的相关性

　　时间冗余：视频序列的相邻图像之间内容相似

　　编码冗余：不同像素值出现的概率不同

　　视觉冗余：人的视觉系统对某些细节不敏感

　　知识冗余：规律性的结构可由先验知识和背景知识得到

　　视频本质上讲是一系列图片连续快速的播放，最简单的压缩方式就是对每一帧图片进行压缩，例如比较古老的 MJPEG 编码就是这种编码方式，这种编码方式只有帧内编码，利用空间上的取样预测来编码。形象的比喻就是把每帧都作为一张图片，采用 JPEG 的编码格式对图片进行压缩，这种编码只考虑了一张图片内的冗余信息压缩，如图 1，绿色的部分就是当前待编码的区域，灰色就是尚未编码的区域，绿色区域可以根据已经编码的部分进行预测(绿色的左边，下边，左下等)。

　　图 1

　　但是帧和帧之间因为时间的相关性，后续开发出了一些比较高级的编码器可以采用帧间编码，简单点说就是通过搜索算法选定了帧上的某些区域，然后通过计算当前帧和前后参考帧的向量差进行编码的一种形式，通过下面两个图 2 连续帧我们可以看到，滑雪的同学是向前位移的，但实际上是雪景在向后位移，P 帧通过参考帧(I 或其他 P 帧)就可以进行编码了，编码之后的大小非常小，压缩比非常高。

　　图 2

　　可能有同学对这两张图片怎么来的感兴趣，这里用了 FFmpeg 的两行命令来实现，具体 FFmpeg 的更多内容请看后续章节：

　　第一行生成带有移动矢量的视频

　　第二行把每一帧都输出成图片

　　除了空间冗余和时间冗余的压缩，主要还有编码压缩和视觉压缩，下面是一个编码器主要的流程图：

　　图 3

　　图 4

　　图 3、图 4 两个流程，图 3 是帧内编码，图 4 是帧间编码，从图上看到的主要区别就是第一步不相同，其实这两个流程也是结合在一起的，我们通常说的 I 帧和 P 帧就是分别采用了帧内编码和帧间编码。

　　编码器的选择

　　前面梳理了一下编码器的原理和基本流程，编码器经历了数十年的发展，已经从开始的只支持帧内编码演进到现如今的 H.265 和 VP9 为代表的新一代编码器，就目前一些常见的编码器进行分析，带大家探索一下编码器的世界。

　　1) H.264 简介

　　H.264/AVC 项目意图创建一种视频标准。与旧标准相比，它能够在更低带宽下提供优质视频(换言之，只有 MPEG-2，H.263 或 MPEG-4 第 2 部分的一半带宽或更少)，也不增加太多设计复杂度使得无法实现或实现成本过高。另一目的是提供足够的灵活性以在各种应用、网络及系统中使用，包括高、低带宽，高、低视频分辨率，广播，DVD 存储，RTP/IP 网络，以及 ITU-T 多媒体电话系统。

　　H.264/AVC 包含了一系列新的特征，使得它比起以前的编解码器不但能够更有效的进行编码，还能在各种网络环境下的应用中使用。这样的技术基础让 H.264 成为包括 YouTube 在内的在线视频公司采用它作为主要的编解码器，但是使用它并不是一件很轻松的事情，理论上讲使用 H.264 需要交纳不菲的专利费用。

　　专利许可

　　和 MPEG-2 第一部分、第二部分，MPEG-4 第二部分一样，使用 H.264/AVC 的产品制造商和服务提供商需要向他们的产品所使用的专利的持有者支付专利许可费用。这些专利许可的主要来源是一家称为 MPEG-LA LLC 的私有组织，该组织和 MPEG 标准化组织没有任何关系，但是该组织也管理著 MPEG-2 第一部分系统、第二部分视频、MPEG-4 第二部分视频和其它一些技术的专利许可。

　　其他的专利许可则需要向另一家称为 VIA Licensing 的私有组织申请，这家公司另外也管理偏向音频压缩的标准如 MPEG-2 AAC 及 MPEG-4 Audio 的专利许可。

　　H.264 的开源实现

　　OpenH264

　　x264

　　OpenH264 是思科实现的开源 H.264 编码，虽然 H.264 需要交纳不菲的专利费用，但是专利费有一个年度上限，思科把 OpenH264 实现的年度专利费交满后，OpenH264 事实上就可以免费自由的使用了。

　　x264 是一个采用 GPL 授权的视频编码自由软件。x264 的主要功能在于进行 H.264/MPEG-4 AVC 的视频编码，而不是作为解码器(decoder)之用。

　　除去费用问题比较来看：

　　OpenH264 CPU 的占用相对 x264低很多

　　OpenH264 只支持 baseline profile，x264 支持更多 profile

　　2) HEVC/H.265 简介

　　高效率视频编码(High Efficiency Video Coding，简称 HEVC)是一种视频压缩标准，被视为是 ITU-T H.264/MPEG-4 AVC 标准的继任者。2004 年开始由 ISO/IEC Moving Picture Experts Group(MPEG)和 ITU-T Video Coding Experts Group(VCEG)作为 ISO/IEC 23008-2 MPEG-H Part 2 或称作 ITU-T H.265 开始制定。第一版的 HEVC/H.265 视频压缩标准在 2013 年 4 月 13 日被接受为国际电信联盟(ITU-T)的正式标准。HEVC 被认为不仅提升视频质量，同时也能达到 H.264/MPEG-4 AVC 两倍之压缩率(等同于同样画面质量下比特率减少了 50%)，可支持 4K 分辨率甚至到超高清电视(UHDTV)，最高分辨率可达到 8192×4320(8K 分辨率)。

　　H.265 的开源实现

　　libde265

　　x265

　　专利许可

　　HEVC Advance 要求所有包括苹果、YouTube、Netflix、Facebook、亚马逊等使用 H.265 技术的内容制造商上缴内容收入的 0.5%作为技术使用费，而整个流媒体市场每年达到约 1000 亿美元的规模，且不断增长中，征收 0.5%绝对是一笔庞大的费用。而且他们还没有放过设备制造商，其中电视厂商需要支付每台 1.5 美元、移动设备厂商每台 0.8 美元的专利费。他们甚至没有放过蓝光设备播放器、游戏机、录像机这样的厂商，这些厂商必须支付每台 1.1 美元的费用。最无法令人接受的是，HEVC Advance 的专利使用权追溯到了厂商的「始发销售日期」，意思是之前已经发售的产品依然要追缴费用。

　　H.265 的开源实现：

　　libde265

　　x265

　　libde265 HEVC 由 struktur 公司以开源许可证 GNU LesserGeneral Public License (LGPL) 提供，观众可以较慢的网速下欣赏到最高品质的影像。跟以前基于H.264标准的解码器相比，libde265 HEVC 解码器可以将您的全高清内容带给多达两倍的受众，或者，减少 50%流媒体播放所需要的带宽。高清或者 4K/8K超高清流媒体播放，低延迟/低带宽视频会议，以及完整的移动设备覆盖。具有「拥塞感知」视频编码的稳定性，十分适合应用在 3/4G 和 LTE 网络。

　　x265 是由 MulticoreWare 开发，并开源。采用 GPL 协议，但是资助这个项目的几个公司组成了联盟可以在非 GPL 协议下使用这个软件。

　　3) VP8 简介

　　VP8 是一个开放的视频压缩格式，最早由 On2 Technologies 开发，随后由 Google 发布。同时 Google 也发布了 VP8 编码的实做库：libvpx，以 BSD 授权条款的方式发行，随后也附加了专利使用权。而在经过一些争论之后，最终VP8 的授权确认为一个开放源代码授权。

　　目前支持 VP8 的网页浏览器有 Opera、Firefox 和 Chrome。

　　专利许可

　　2013 年三月，Google 与 MPEG LA 及 11 个专利持有者达成协议，让 Google 获取 VP8 以及其之前的 VPx 等编码所可能侵犯的专利授权，同时 Google 也可以无偿再次授权相关专利给 VP8 的用户，此协议同时适用于下一代 VPx 编码。至此 MPEG LA 放弃成立 VP8 专利集中授权联盟，VP8 的用户将可确定无偿使用此编码而无须担心可能的专利侵权授权金的问题。

　　VP8 的开源实现

　　libvpx

　　libvpx 是 VP8 的唯一开源实现，由 On2 Technologies 开发，Google 收购后将其开放源码，License 非常宽松可以自由使用。

　　4) VP9 简介

　　VP9 的开发从 2011 年第三季开始，目标是在同画质下，比 VP8 编码减少 50% 的文件大小，另一个目标则是要在编码效率上超越 HEVC 编码。

　　2012 年 12 月 13 日，Chromium 浏览器加入了VP9编码的支持。Chrome 浏览器则是在 2013 年 2 月 21 日开始支持 VP9 编码的视频播放。

　　Google 宣布会在 2013 年 6 月 17 日完成 VP9 编码的制定工作，届时 Chrome 浏览器将会把 VP9 编码默认引导。2014 年 3 月 18 日，Mozilla 在 Firefox 浏览器中加入了 VP9 的支持。

　　2015 年 4 月 3 日，谷歌发布了libvpx1.4.0 增加了对 10 位和 12 位的比特深度支持、4:2:2 和 4:4:4 色度抽样，并 VP9 多核心编/解码。

　　专利许可

　　VP9 是一个开放格式、无权利金的视频编码格式。

　　VP9 的开源实现

　　libvpx

　　libvpx 是 VP9 的唯一开源实现，由 Google 开发维护，里面有部分代码是 VP8 和 VP9 公用的，其余分别是 VP8 和 VP9 的编解码实现。

　　VP9 和 H.264 和 HEVC 比较

　　HEVC 和 H.264 在不同分辨率下的比较

　　跟H.264/MPEG-4 相比，HEVC的平均比特率减低值为：

　　可见码率下降了 60% 以上。

　　HEVC (H.265) 对 VP9 和 H.264 在码率节省上有较大的优势，在相同 PSNR 下分别节省了 48.3% 和 75.8%。

　　H.264 在编码时间上有巨大优势，对比 VP9 和 HEVC(H.265) ，HEVC 是 VP9 的 6 倍，VP9 是 H.264 的将近 40 倍

　　5) FFmpeg

　　谈到视频编码相关内容就不得不提一个伟大的软件包 -- FFmpeg。

　　FFmpeg 是一个自由软件，可以运行音频和视频多种格式的录影、转换、流功能，包含了 libavcodec ——这是一个用于多个项目中音频和视频的解码器库，以及 libavformat ——一个音频与视频格式转换库。

　　FFmpeg 这个单词中的 FF 指的是 Fast Forward。有些新手写信给 FFmpeg 的项目负责人，询问 FF 是不是代表 Fast Free 或者 Fast Fourier 等意思，FFmpeg 的项目负责人回信说：「Just for the record， the original meaning of FF in FFmpeg is Fast Forward.」

　　这个项目最初是由 Fabrice Bellard 发起的，而现在是由 Michael Niedermayer 在进行维护。许多FFmpeg的开发者同时也是 MPlayer 项目的成员，FFmpeg 在 MPlayer 项目中是被设计为服务器版本进行开发。

　　FFmpeg 下载地址是 : https://ffmpeg.org/download.html

　　可以浏览器输入下载，目前支持 Linux ，Mac OS，Windows 三个主流的平台，也可以自己编译到 Android 或者 iOS 平台。

　　如果是 Mac OS ，可以通过 brew 安装

　　我们可以用 FFmpeg 来做哪些有用有好玩的事情呢?通过一系列小实验来带大家领略 FFmpeg 的神奇和强大。

　　FFmpeg 录屏

　　通过一个小例子看一下怎么在 Mac OS 下面使用 FFmpeg 进行录屏:

　　输入：

　　输出：

　　给出了当前设备支持的所有输入设备的列表和编号，我本地有两块显示器，所以 1 和 2 都是我屏幕，可以选择一块进行录屏。

　　查看当前的 H.264 编解码器：

　　输入：

　　输出：

　　查看当前的 VP8 编解码器：

　　输入：

　　输出：

　　可以选择用 vp8 或者 h264 做编码器

　　然后用 ffplay 播放就可以了

　　FFmpeg 视频转换成 gif

　　有一个特别有用的需求，在网上发现了一个特别有趣的视频想把她转换成一个动态表情，作为一个 IT 从业者，我第一个想到的不是下载一个转码器，也不是去找一个在线转换网站，直接利用手边的工具 FFmpeg，瞬间就完成了转码：

　　FFmpeg 录制屏幕并直播

　　可以继续扩展例子1，直播当前屏幕的内容，向大家介绍一下怎么通过几行命令搭建一个测试用的直播服务：

　　Step 1：首先安装 docker：访问 https://www.docker.com/products/docker ，按操作系统下载安装。

　　Step 2：下载 nginx-rtmp 镜像：

　　Step 3：创建 nginx html 路径，启动 docker-nginx-rtmp

　　Step 4：推送屏幕录制到 nignx-rtmp

　　Step 5：用 ffplay 播放

　　总结一下，FFmpeg 是个优秀的工具，可以通过它完成很多日常的工作和实验，但是距离提供真正可用的流媒体服务、直播服务还有非常多的工作要做，这方面可以参考七牛云发布的七牛直播云服务。

　　封装

　　介绍完了视频编码后，再来介绍一些封装。沿用前面的比喻，封装可以理解为采用哪种货车去运输，也就是媒体的容器。

　　所谓容器，就是把编码器生成的多媒体内容(视频，音频，字幕，章节信息等)混合封装在一起的标准。容器使得不同多媒体内容同步播放变得很简单，而容器的另一个作用就是为多媒体内容提供索引，也就是说如果没有容器存在的话一部影片你只能从一开始看到最后，不能拖动进度条(当然这种情况下有的播放器会话比较长的时间临时创建索引)，而且如果你不自己去手动另外载入音频就没有声音，下面介绍几种常见的封装格式和优缺点：

　　1)AVI 格式(后缀为 .avi): 它的英文全称为 Audio Video Interleaved ，即音频视频交错格式。它于 1992 年被 Microsoft 公司推出。这种视频格式的优点是图像质量好。由于无损 AVI 可以保存 alpha 通道，经常被我们使用。缺点太多，体积过于庞大，而且更加糟糕的是压缩标准不统一，最普遍的现象就是高版本 Windows 媒体播放器播放不了采用早期编码编辑的 AVI 格式视频，而低版本 Windows 媒体播放器又播放不了采用最新编码编辑的 AVI 格式视频，所以我们在进行一些 AVI 格式的视频播放时常会出现由于视频编码问题而造成的视频不能播放或即使能够播放，但存在不能调节播放进度和播放时只有声音没有图像等一些莫名其妙的问题。

　　2)DV-AVI 格式(后缀为 .avi): DV 的英文全称是 Digital Video Format ，是由索尼、松下、JVC 等多家厂商联合提出的一种家用数字视频格式。数字摄像机就是使用这种格式记录视频数据的。它可以通过电脑的 IEEE 1394 端口传输视频数据到电脑，也可以将电脑中编辑好的的视频数据回录到数码摄像机中。这种视频格式的文件扩展名也是 AVI。电视台采用录像带记录模拟信号，通过 EDIUS 由IEEE 1394端口采集卡从录像带中采集出来的视频就是这种格式。

　　3)QuickTime File Format 格式(后缀为 .mov): 美国 Apple 公司开发的一种视频格式，默认的播放器是苹果的 QuickTime。具有较高的压缩比率和较完美的视频清晰度等特点，并可以保存alpha通道。

　　4)MPEG 格式(文件后缀可以是 .mpg .mpeg .mpe .dat .vob .asf .3gp .mp4等) : 它的英文全称为 Moving Picture Experts Group，即运动图像专家组格式，该专家组建于 1988 年，专门负责为 CD 建立视频和音频标准，而成员都是为视频、音频及系统领域的技术专家。MPEG 文件格式是运动图像压缩算法的国际标准。MPEG 格式目前有三个压缩标准，分别是 MPEG-1、MPEG-2、和 MPEG-4 。MPEG-1、MPEG-2 目前已经使用较少，着重介绍 MPEG-4，其制定于 1998 年，MPEG-4 是为了播放流式媒体的高质量视频而专门设计的，以求使用最少的数据获得最佳的图像质量。目前 MPEG-4 最有吸引力的地方在于它能够保存接近于 DVD 画质的小体积视频文件。

　　5)WMV 格式(后缀为.wmv .asf): 它的英文全称为 Windows Media Video，也是微软推出的一种采用独立编码方式并且可以直接在网上实时观看视频节目的文件压缩格式。WMV 格式的主要优点包括：本地或网络回放，丰富的流间关系以及扩展性等。WMV 格式需要在网站上播放，需要安装 Windows Media Player( 简称 WMP)，很不方便，现在已经几乎没有网站采用了。

　　6)Real Video 格式(后缀为 .rm .rmvb): Real Networks 公司所制定的音频视频压缩规范称为Real Media。用户可以使用 RealPlayer 根据不同的网络传输速率制定出不同的压缩比率，从而实现在低速率的网络上进行影像数据实时传送和播放。RMVB 格式：这是一种由 RM 视频格式升级延伸出的新视频格式，当然性能上有很大的提升。RMVB 视频也是有着较明显的优势，一部大小为 700 MB 左右的 DVD 影片，如果将其转录成同样品质的 RMVB 格式，其个头最多也就 400 MB 左右。大家可能注意到了，以前在网络上下载电影和视频的时候，经常接触到 RMVB 格式，但是随着时代的发展这种格式被越来越多的更优秀的格式替代，著名的人人影视字幕组在 2013 年已经宣布不再压制 RMVB 格式视频。

　　7)Flash Video 格式(后缀为 .flv):由 Adobe Flash 延伸出来的的一种流行网络视频封装格式。随着视频网站的丰富，这个格式已经非常普及。

　　8)Matroska 格式(后缀为 .mkv):是一种新的多媒体封装格式，这个封装格式可把多种不同编码的视频及 16 条或以上不同格式的音频和语言不同的字幕封装到一个 Matroska Media 档内。它也是其中一种开放源代码的多媒体封装格式。Matroska 同时还可以提供非常好的交互功能，而且比 MPEG 的方便、强大。

　　9)MPEG2-TS 格式 (后缀为 .ts)(Transport Stream「传输流」;又称 MTS、TS)是一种传输和存储包含音效、视频与通信协议各种数据的标准格式，用于数字电视广播系统，如 DVB、ATSC、IPTV 等等。MPEG2-TS 定义于 MPEG-2 第一部分，系统(即原来之 ISO/IEC 标准 13818-1 或 ITU-T Rec. H.222.0)。Media Player Classic、VLC 多媒体播放器等软件可以直接播放 MPEG-TS 文件。

　　目前，我们在流媒体传输，尤其是直播中主要采用的就是 FLV 和 MPEG2-TS 格式，分别用于 RTMP/HTTP-FLV 和 HLS 协议。

【AIGC半月报】AIGC大模型启元：2024.07（上） LeeZhao@ AIGC 人工智能 AI Agent
AIGC大模型启元：2024.07（上）(1)AIGVBench-T2V（文生视频基准测评）(2)Gen-3Alpha（Runway）(3)Step-2、Step-1.5V、Step-1X（阶跃星辰开源大模型）(4)InternVL2.0“书生·万象”（上海人工智能实验室）(5)CodeGeeX4-ALL-9B（智谱AI）(6)TTT（全新LLM架构）(1)AIGVBench-T2V（文生视频基准
可以与 FastAPI 不分伯仲的 Python 著名的 Web 框架程序员小麦 fastapi python 前端服务器 excel 开发语言
正如你所理解的，任何领域都不可能停止进步，不断使用相同的工具意味着不思进取。这一点在信息技术领域，尤其是网络开发行业非常明显。关于网络框架，不论是Django和Flask等传统框架还是Python的新型高级框架，一直有着新的框架不断出现，它们正在挤掉传统和成熟的技术，它们特征更好、编码更方便、更简单、更快捷。众所周知的Pythonweb框架Django该网络框架是最流行的Python网络框架之一。
python爬虫报错日记雁于飞笔记经验分享其他 python 爬虫网络爬虫
python爬虫报错日记类未定义原因：代码检查没有问题**，位置错了**，测试代码包含在类里……UnicodedecodeError错误原因：字符没有自动转换成utf-8格式KeyError：“href”原因：前面运行正常，有异常路由，加个判断写入文件乱码原因：获取正常，写入时encoding异常，不会自动转换成“utf-8”同上3
EMO2: 情感表达驱动的语音控制头像视频生成 AIGC探路者计算机视觉数字人 talking head talking face AIGC
本文提出了一种新颖的语音驱动说话头像方法，能够同时生成高度表现力的面部表情和手势。与现有专注于生成全身或半身姿态的方法不同，我们研究了语音手势生成的挑战，并识别出音频特征与全身手势之间较弱的对应关系作为关键限制。为解决这一问题，我们将任务重新定义为两阶段过程。在第一阶段，我们直接从音频输入生成手部姿势，利用音频信号与手部动作之间的强相关性。在第二阶段，我们采用扩散模型合成视频帧，结合第一阶段生成的
【包邮送书】你好！Python Mindtechnist 粉丝福利 python 网络开发语言机器学习
欢迎关注博主Mindtechnist或加入【智能科技社区】一起学习和分享Linux、C、C++、Python、Matlab，机器人运动控制、多机器人协作，智能优化算法，滤波估计、多传感器信息融合，机器学习，人工智能等相关领域的知识和技术。关注公粽号《机器和智能》回复关键词“python项目实战”即可获取美哆商城视频资源！博主介绍：CSDN博客专家，CSDN优质创作者，CSDN实力新星，CSDN内容
HTML常用标签王磊鑫 html 前端 css
一.标题标签-1.HTML提供了6个等级的网页标题-二.段落和换行标签2.标签用于定义段落，它可以将整个网页分为若干个段落。特点：1）文本在一个段落中会根据浏览器窗口的大小自动换行。2）段落和段落之间保有空隙。3.换行标签，将某段文本强制换行显示。三、文本格式化标签1）加粗或者2)倾斜或者3)删除线或者4)下划线或者四、特殊标签1）和标签是没有语义的，它们就是一个盒子，用来装内容的。2）标签用来布
VideoFileClip 获取视频报错、 Tomorrow'sThinker 音视频 moviepy
报错内容：OSError:MoviePyerror:failedtoreadthedurationoffile/mnt/data/test/monitor/videos/new_video/1652063723941.mkv.Herearethefileinfosreturnedbyffmpeg:ffmpegversion4.2.2-statichttps://johnvansickle.com/
vscode自用插件记 uppself 基本 vscode 开发工具
VScode自用插件记录插件全局Ayu主题中文CodeRunner跑代码MaterialTheme主题MaterialThemeicons图标vscode-icons图标Remote-sshssh远程PartialDiff找不同Prettier-codeformatter代码格式化TodoTreeVisualStudiointellicodeTurboconsole.log()日志记录，打印取消注
用Python写了一个好玩的桌面宠物游戏脚本，简单又好玩墨鱼爆蛋 Python Python游戏 python 开发语言游戏桌面宠物
今天，我们来分享一个宠物桌面小程序，全程都是通过PyQT来制作的，对于PythonGUI感兴趣的朋友，千万不要错过哦！我们先来看看最终的效果，对于一个小小的娱乐项目来说，还是不错啦！好了，废话不多说，我直接上干货，本项目使用PYQT5作为编码框架，如果你对于该框架不是特别熟悉的话，建议先去简单学习一下~源码和素材图片在文末领取！素材图片项目源码展示importsysimportosimportra
基于阿里云视觉智能平台实现换脸程序 zhumin726 阿里云云计算
简介阿里云视觉智能平台提供了一种强大的换脸功能，能够将视频中的人脸替换成其他图片中的脸。这种功能广泛应用于视频编辑、特效制作等领域。本文将介绍如何使用阿里云视觉智能平台进行视频换脸。核心工作流程整个换脸程序的实现可分为以下几个主要步骤：1身份验证与环境准备阿里云视觉智能平台通过AccessKey机制进行身份认证，确保用户的合法访问。这一过程建立了本地环境与阿里云服务之间的连接。2数据预处理与上传视
【Python百日进阶-Web开发-Feffery】Day604 - 趣味dash_04：Excel转Pdf文件岳涛@泰山医院 Dash python excel 前端 dash
文章目录一、环境准备1.1初始化基础`Python+Dash`环境1.2本例中使用的第三方包二、本项目B站视频讲解三、页面效果四、项目源码一、环境准备1.1初始化基础Python+Dash环境CSDN文档参见：https://blog.csdn.net/yuetaope/article/details/129795264Bilibili视频参见：https://www.bilibili.com/v
找鞍点（Java） wzx_Eleven java 蓝桥杯算法
一个矩阵元素的“鞍点”是指该位置上的元素值在该行上最大、在该列上最小。本题要求编写程序，求一个给定的n阶方阵的鞍点。输入格式：输入第一行给出一个正整数n（1≤n≤6）。随后n行，每行给出n个整数，其间以空格分隔。输出格式：输出在一行中按照“行下标列下标”（下标从0开始）的格式输出鞍点的位置。如果鞍点不存在，则输出“NONE”。题目保证给出的矩阵至多存在一个鞍点。输入样例1：417414836161
【python进阶】txt excel pickle opencv操作demo 闪闪发亮的小星星 AI算法工程师打怪 python excel opencv
文章目录1.txt读写读综合案例日志文件读写2.excel读写读取csv读取xlsx3.matplotlib案例折线图多个折现图散点图柱状图饼状图4opencv案例加载与展示图片缩放图片旋转图片保存图片读取摄像头视频保存opencv综合案例5pickle案例1.txt读写读file.read()file.readlines()file.readline()##使用'read'方法读取文件的所有内容
npm publish 发布一个 Angular 库的时候报错以及解决方法
在多模态模型的架构上，ChatGPT的绘图能力主要依赖以下几个核心组件：跨模态编码器（Cross-ModalEncoder）：跨模态编码器的作用是将文本和图像的特征进行对齐。GPT可以将用户输入的文本描述转换为文本特征表示，然后利用跨模态编码器将这些特征映射到图像特征空间。这种方式确保模型能够理解描述性语言中不同细节是如何与图像特征对应的。
PyTorch深度学习实战（43）——手写文本识别盼小辉丶深度学习 pytorch 人工智能
PyTorch深度学习实战（43）——手写文本识别0.前言1.手写文本识别1.1基本概念1.2输入和输出格式1.3CTC损失值2.模型与数据集分析2.1数据集分析2.2模型分析3.实现手写文本识别模型小结系列链接0.前言手写文本识别，也称为手写文本的光学字符识别(OpticalCharacterRecognition,OCR)，是计算机视觉和自然语言处理中的一项具有挑战性的任务。与印刷文本不同，手
AI跟踪报道第62期-本周AI新闻: 微软推出Copilot的AI Agent和Computer Control 新加坡内哥谈技术人工智能 copilot 大数据
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/油管视频:https://youtu.be/_Egli1MlVWk?si=DIjVm2l
【odoo】odoo 公共方法的设计与实现种花的人_ odoo python
Odoo公共方法的设计与实现1.功能需求2.seController类分析2.1res_ok方法：返回成功响应2.2res_err方法：返回错误响应2.3res_exception方法：捕获并返回异常2.4json_default方法：自定义JSON序列化2.5错误码字典error_code3.总结在Odoo开发中，我们常常需要编写一些通用的功能方法，这些方法可以帮助我们更高效地处理数据格式化、错
CANopen学习笔记卡钦斯基通信协议网络
1.CANopen的预定义报文ID分类CANopen在设计时，对其定义为小网络、控制信号的实时通讯：报文传输采用CAN标准帧格式。即11bit的ID域，以尽量减小传输时间。网络控制报均采用数据最小字节数。比如心跳报文，只有1个字节数据。实时更新的过程数据无需接收方报文应答。即采用生产消费模型，降低总线负载。需要接收方确认的配置参数一般都时采用快速单字传输。即1个报文最多传达1个32bit的参数变量
深入理解旋转位置编码（RoPE）及其在大型语言模型中的应用 tangjunjun-owen 语言模型-多模态大模型语言模型人工智能自然语言处理 RoPE 旋转位置编码
文章目录前言一、旋转位置编码原理1、RoPE概述2、复数域内的旋转1、位置编码生成2、应用位置编码二、RoPE的实现细节1、RotaryEmbedding类设计2、apply_rotary_pos_emb函数3、demo_apply_rotary_pos_emb函数三、完整RoPE代码Demo前言随着自然语言处理（NLP）领域的快速发展，预训练的语言模型如BERT、GPT系列、PaLM、Qwen等
Amazon Redshift实用命令语句 weixin_30777913 云计算数据仓库
1.数据库管理相关命令创建数据库CREATEDATABASEmydatabase;AmazonRedshift创建数据库命令除了基本形式外，还有以下几种带不同参数的形式：带OWNER参数可以指定数据库的所有者，通常是一个数据库用户或角色。CREATEDATABASEmydatabaseOWNERmyuser;带ENCODING参数用于指定数据库使用的字符编码。CREATEDATABASEmydat
JavaFx-桌面应用开发利器（三）FXML和Scene Builder web18224617243 面试学习路线阿里巴巴 android 前端后端
本文接上文JavaFx-桌面应用开发利器（二）基础架构篇，在熟悉了JavaFx的基础框架后，通过基础的学习示例。相信你对基础的Stage和Scene对象等都有了一定的基础认识。在学习的时候，建议各位都能亲自动手进行编码，更有利于掌握相关知识。本文主要讲解JavaFx里面的FXML进行UI可视化开发，同时结合SceneBuilder，说明如何加速开发速度。一、首先介绍下简单介绍下FXML。FXML并
Go 项目实战：如何优雅的处理日志 vespeng Golang golang gin
在Go项目开发中，日志处理是一项至关重要的任务。它不仅有助于我们在开发过程中调试代码，还能在生产环境中帮助我们快速定位问题。本文将详细介绍如何在Go项目中优雅地处理日志，包括日志的级别、格式、输出以及如何使用第三方日志库等方面。一、日志级别的重要性日志级别是控制日志输出的重要手段。通过设置不同的日志级别，我们可以灵活地控制日志的详细程度。在Go语言中，常见的日志级别有DEBUG、INFO、WARN
TRELLIS文本或图像生3d模型一键整合包win版本，省去繁琐安装、效果超Wonder3D，对硬件要求更低速度更快16g N卡可流畅运行 struggle2025 计算机视觉人工智能深度学习图像处理集成学习 AI作画
一、介绍:TRELLIS文生、图生3d模型软件介绍，目前只开放了图生3D（文末提供整合包下载）TRELLIS是一个大型3D资产生成模型。它接受文本或图像提示，并生成各种格式的高质量3D资产，如辐射场、3D高斯和网格。TRELLIS的基石是一种统一的结构化LATent（SLAT）表示法，允许解码到不同的输出格式，以及为SLAT定制的校正流变换器作为强大的后端。我们提供大规模预训练模型，参数高达20亿
《Python基础》之对文件的基础操作湫ccc python 开发语言
目录介绍了解编码一、文件的读写操作（open()-close()）步骤1、写操作open()方式1：以字节的方式覆盖写数据到文件中wb模式方式2：以字节的方式追加写数据到文件中ab模式方式3：以字符的方式以指定的编码覆盖写入w模式方式4：以字符的方式以指定的编码覆盖写入a模式2、读取操作open()方式1：以字节的形式读取文件数据方式2：以字符的形式读取文件数据二、文件的读写操作（withopen
如何使用 Emmet 快捷方式提高开发效率木觞清 javascript html5 css3
前端开发是一个高度依赖效率的领域，开发者们常常需要处理大量的HTML和CSS代码。为了解决重复工作和提高开发效率，Emmet快捷方式应运而生。Emmet作为一款强大的前端工具，能够通过简化的快捷命令快速生成HTML和CSS结构，极大地提升了开发者的编码速度。本文将介绍如何在日常开发中使用Emmet，帮助你节省宝贵的时间。什么是Emmet快捷方式？Emmet是一款广泛应用于前端开发的插件，它通过一系
SD卡受损怎么修复蓝天星空转载
进入dos，找到开始菜单，在运行框中输入cmd后回车。执行chkdskI:/F(I是SD卡盘符，F是修复参数）。等待修复完成，DOS窗口会自动关闭。把TF卡插入读卡器，接到电脑USB后，电脑提示格式化，点击取消。然后查看一下属性，直接使用属性中的“工具-开始检查”。如果遇到无法格式化的情况，右击“计算机”-“管理”。找到存储下的“磁盘管理”，右侧能看到SD卡盘符，点击它，选择“格式化”就可以了。h
python 访问openai接口哦里哦里哦里给 Python AI 实战深度学习 python ai oneapi
目录一、openai接口文档1.访问OpenAIAPI文档2.注册和获取API密钥3.快速开始：示例代码4.请求结构和响应格式二、步骤1、安装openai库2、示例代码实现一个命令行循环对话机器人加入gradio界面demo一、openai接口文档使用OpenAIAPI文档可以帮助你更好地理解和操作API，尤其是在开发复杂项目时。以下是使用OpenAIAPI文档的指南：1.访问OpenAIAPI文
P1089 [NOIP2004 提高组] 津津的储蓄计划沉睡的雄虱算法 c++
目录题目描述输入格式输出格式输入输出样例思路分析：代码实现：总结题目描述P1089[NOIP2004提高组]津津的储蓄计划-洛谷|计算机科学教育新生态津津的零花钱一直都是自己管理。每个月的月初妈妈给津津300300元钱，津津会预算这个月的花销，并且总能做到实际花销和预算的相同。为了让津津学习如何储蓄，妈妈提出，津津可以随时把整百的钱存在她那里，到了年末她会加上20%20%还给津津。因此津津制定了一
kaggle入门级竞赛Spaceship Titanic LIghtgbm+Optuna调参机器学习司猫白机器学习实战机器学习 python 集成学习 scikit-learn
kaggle入门级竞赛SpaceshipTitanic简介数据介绍数据集描述数据字段描述train.csv-约三分之二（~8700）乘客的个人记录，用作培训数据。test.csv-剩余三分之一（~4300）乘客的个人记录，用作测试数据。您的任务是预测Transported该集合中乘客的价值。Sample_submission.csv-格式正确的提交文件。代码分类变量optuna算法简介简介欢迎来到
Python 语法进阶：`with open` 语句与编码格式、获取目录操作详解 Selina .a python教程 python 开发语言
在Python编程中，文件处理是一项基础且重要的任务。为了更高效、安全地处理文件，Python提供了withopen语句，以及丰富的编码格式支持。此外，获取目录操作也是文件处理中不可或缺的一环，它允许我们遍历、创建和删除文件夹。本文将详细讲解withopen语句的使用、编码格式的选择，以及获取目录操作的相关知识。一、withopen语句详解withopen语句是Python中处理文件的推荐方式，因
Enum用法不懂事的小屁孩 enum
以前的时候知道enum，但是真心不怎么用，在实际开发中，经常会用到以下代码: protected final static String XJ = "XJ"; protected final static String YHK = "YHK"; protected final static String PQ = "PQ";
【Spark九十七】RDD API之aggregateByKey bit1129 spark
1. aggregateByKey的运行机制 /** * Aggregate the values of each key, using given combine functions and a neutral "zero value". * This function can return a different result type
hive创建表是报错： Specified key was too long; max key length is 767 bytes daizj hive
今天在hive客户端创建表时报错，具体操作如下 hive> create table test2(id string); FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:javax.jdo.JDODataSto
Map 与 JavaBean之间的转换周凡杨 java 自省转换反射
最近项目里需要一个工具类，它的功能是传入一个Map后可以返回一个JavaBean对象。很喜欢写这样的Java服务，首先我想到的是要通过Java 的反射去实现匿名类的方法调用，这样才可以把Map里的值set 到JavaBean里。其实这里用Java的自省会更方便，下面两个方法就是一个通过反射，一个通过自省来实现本功能。 1：JavaBean类 1 &nb
java连接ftp下载 g21121 java
有的时候需要用到java连接ftp服务器下载，上传一些操作，下面写了一个小例子。 /** ftp服务器地址 */ private String ftpHost; /** ftp服务器用户名 */ private String ftpName; /** ftp服务器密码 */ private String ftpPass; /** ftp根目录 */ private String f
web报表工具FineReport使用中遇到的常见报错及解决办法（二）老A不折腾 finereport web报表 java报表总结
抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、没有返回数据集：在存储过程中的操作语句之前加上set nocount on 或者在数据集exec调用存储过程的前面加上这句。当S
linux 系统cpu 内存等信息查看墙头上一根草 cpu 内存 liunx
1 查看CPU 　　1.1 查看CPU个数　　# cat /proc/cpuinfo | grep "physical id" | uniq | wc -l 　　2 　　**uniq命令：删除重复行;wc –l命令：统计行数** 　　1.2 查看CPU核数　　# cat /proc/cpuinfo | grep "cpu cores" | u
Spring中的AOP aijuans spring AOP
Spring中的AOP Written by Tony Jiang @ 2012-1-18 （转）何为AOP AOP，面向切面编程。在不改动代码的前提下，灵活的在现有代码的执行顺序前后，添加进新规机能。来一个简单的Sample: 目标类： [java] view plain copy print ? package&nb
placeholder(HTML 5) IE 兼容插件 alxw4616 JavaScript jquery jQuery插件
placeholder 这个属性被越来越频繁的使用. 但为做HTML 5 特性IE没能实现这东西. 以下的jQuery插件就是用来在IE上实现该属性的. /** * [placeholder(HTML 5) IE 实现.IE9以下通过测试.] * v 1.0 by oTwo 2014年7月31日 11:45:29 */ $.fn.placeholder = function
Object类,值域,泛型等总结(适合有基础的人看) 百合不是茶泛型的继承和通配符变量的值域 Object类转换
java的作用域在编程的时候经常会遇到,而我经常会搞不清楚这个问题,所以在家的这几天回忆一下过去不知道的每个小知识点变量的值域; package 基础; /** * 作用域的范围 * * @author Administrator * */ public class zuoyongyu { public static vo
JDK1.5 Condition接口 bijian1013 java thread Condition java多线程
Condition 将 Object 监视器方法（wait、notify和 notifyAll）分解成截然不同的对象，以便通过将这些对象与任意 Lock 实现组合使用，为每个对象提供多个等待 set （wait-set）。其中，Lock 替代了 synchronized 方法和语句的使用，Condition 替代了 Object 监视器方法的使用。条件（也称为条件队列或条件变量）为线程提供了一
开源中国OSC源创会记录 bijian1013 hadoop spark MemSQL
一.Strata+Hadoop World（SHW）大会是全世界最大的大数据大会之一。SHW大会为各种技术提供了深度交流的机会，还会看到最领先的大数据技术、最广泛的应用场景、最有趣的用例教学以及最全面的大数据行业和趋势探讨。二.Hadoop &nbs
【Java范型七】范型消除 bit1129 java
范型是Java1.5引入的语言特性，它是编译时的一个语法现象，也就是说，对于一个类，不管是范型类还是非范型类，编译得到的字节码是一样的，差别仅在于通过范型这种语法来进行编译时的类型检查，在运行时是没有范型或者类型参数这个说法的。范型跟反射刚好相反，反射是一种运行时行为，所以编译时不能访问的变量或者方法(比如private)，在运行时通过反射是可以访问的，也就是说，可见性也是一种编译时的行为，在
【Spark九十四】spark-sql工具的使用 bit1129 spark
spark-sql是Spark bin目录下的一个可执行脚本，它的目的是通过这个脚本执行Hive的命令，即原来通过 hive>输入的指令可以通过spark-sql>输入的指令来完成。 spark-sql可以使用内置的Hive metadata-store，也可以使用已经独立安装的Hive的metadata store 关于Hive build into Spark
js做的各种倒计时 ronin47 js 倒计时
第一种：精确到秒的javascript倒计时代码 HTML代码: <form name="form1"> <div align="center" align="middle"
java-37.有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接 bylijinnan java
public class MaxCatenate { /* * Q.37 有n 个长为m+1 的字符串，如果某个字符串的最后m 个字符与某个字符串的前m 个字符匹配，则两个字符串可以联接， * 问这n 个字符串最多可以连成一个多长的字符串，如果出现循环，则返回错误。 */ public static void main(String[] args){
mongoDB安装开窍的石头 mongodb安装基本操作
mongoDB的安装 1:mongoDB下载 https://www.mongodb.org/downloads 2:下载mongoDB下载后解压
[开源项目]引擎的关键意义 comsci 开源项目
一个系统，最核心的东西就是引擎。。。。。而要设计和制造出引擎，最关键的是要坚持。。。。。。现在最先进的引擎技术，也是从莱特兄弟那里出现的，但是中间一直没有断过研发的
软件度量的一些方法 cuiyadll 方法
软件度量的一些方法http://cuiyingfeng.blog.51cto.com/43841/6775/在前面我们已介绍了组成软件度量的几个方面。在这里我们将先给出关于这几个方面的一个纲要介绍。在后面我们还会作进一步具体的阐述。当我们不从高层次的概念级来看软件度量及其目标的时候，我们很容易把这些活动看成是不同而且毫不相干的。我们现在希望表明他们是怎样恰如其分地嵌入我们的框架的。也就是我们度量的
XSD中的targetNameSpace解释 darrenzhu xml namespace xsd targetnamespace
参考链接: http://blog.csdn.net/colin1014/article/details/357694 xsd文件中定义了一个targetNameSpace后，其内部定义的元素，属性，类型等都属于该targetNameSpace,其自身或外部xsd文件使用这些元素，属性等都必须从定义的targetNameSpace中找：例如：以下xsd文件，就出现了该错误，即便是在一
什么是RAID0、RAID1、RAID0+1、RAID5，等磁盘阵列模式? dcj3sjt126com raid
RAID 1又称为Mirror或Mirroring，它的宗旨是最大限度的保证用户数据的可用性和可修复性。 RAID 1的操作方式是把用户写入硬盘的数据百分之百地自动复制到另外一个硬盘上。由于对存储的数据进行百分之百的备份，在所有RAID级别中，RAID 1提供最高的数据安全保障。同样，由于数据的百分之百备份，备份数据占了总存储空间的一半，因而，Mirror的磁盘空间利用率低，存储成本高。 Mir
yii2 restful web服务快速入门 dcj3sjt126com PHP yii2
快速入门 Yii 提供了一整套用来简化实现 RESTful 风格的 Web Service 服务的 API。特别是，Yii 支持以下关于 RESTful 风格的 API：支持 Active Record 类的通用API的快速原型涉及的响应格式（在默认情况下支持 JSON 和 XML) 支持可选输出字段的定制对象序列化适当的格式的数据采集和验证错误
MongoDB查询(3)——内嵌文档查询（七） eksliang MongoDB查询内嵌文档 MongoDB查询内嵌数组
MongoDB查询内嵌文档转载请出自出处：http://eksliang.iteye.com/blog/2177301 一、概述有两种方法可以查询内嵌文档：查询整个文档；针对键值对进行查询。这两种方式是不同的，下面我通过例子进行分别说明。二、查询整个文档例如:有如下文档 db.emp.insert({ &qu
android4.4从系统图库无法加载图片的问题 gundumw100 android
典型的使用场景就是要设置一个头像，头像需要从系统图库或者拍照获得，在android4.4之前，我用的代码没问题，但是今天使用android4.4的时候突然发现不灵了。baidu了一圈，终于解决了。下面是解决方案： private String[] items = new String[] { "图库","拍照" }; /* 头像名称 */
网页特效大全 jQuery等 ini JavaScript jquery css html5 ini
HTML5和CSS3知识和特效 asp.net ajax jquery实例分享一个下雪的特效 jQuery倾斜的动画导航菜单选美大赛示例你会选谁 jQuery实现HTML5时钟功能强大的滚动播放插件JQ-Slide 万圣节快乐！！！向上弹出菜单jQuery插件 htm5视差动画 jquery将列表倒转顺序推荐一个jQuery分页插件 jquery animate
swift objc_setAssociatedObject block(version1.2 xcode6.4) 啸笑天 version
import UIKit class LSObjectWrapper: NSObject { let value: ((barButton: UIButton?) -> Void)? init(value: (barButton: UIButton?) -> Void) { self.value = value
Aegis 默认的 Xfire 绑定方式，将 XML 映射为 POJO MagicMa_007 java POJO xml Aegis xfire
Aegis 是一个默认的 Xfire 绑定方式，它将 XML 映射为 POJO, 支持代码先行的开发.你开发服务类与 POJO,它为你生成 XML schema/wsdl XML 和注解映射概览默认情况下，你的 POJO 类被是基于他们的名字与命名空间被序列化。如果
js get max value in (json) Array qiaolevip 每天进步一点点学习永无止境 max 纵观千象
// Max value in Array var arr = [1,2,3,5,3,2];Math.max.apply(null, arr); // 5 // Max value in Jaon Array var arr = [{"x":"8/11/2009","y":0.026572007},{"x"
XMLhttpRequest 请求 XML,JSON ,POJO 数据 Luob. POJO json Ajax xml XMLhttpREquest
在使用XMlhttpRequest对象发送请求和响应之前，必须首先使用javaScript对象创建一个XMLHttpRquest对象。 var xmlhttp； function getXMLHttpRequest(){ if(window.ActiveXObject){ xmlhttp:new ActiveXObject("Microsoft.XMLHTTP
jquery wuai jquery
以下防止文档在完全加载之前运行Jquery代码，否则会出现试图隐藏一个不存在的元素、获得未完全加载的图像的大小等等 $(document).ready(function(){ jquery代码; }); <script type="text/javascript" src="c:/scripts/jquery-1.4.2.min.js&quo

《视频直播技术详解》之（三）：编码和封装

你可能感兴趣的:(流媒体服务器,视频,编码,格式)