零声教育

C++音视频开发-H.265编码原理入门

视频编码的目的是为了压缩原始视频，压缩的主要思路是从空间、时间、编码、视觉等几个主要角度去除冗余信息。由于 H.264 出色的数据压缩比率和视频质量，成为当前市场上最为流行的编解码标准。而 H.265 是在 H.264 的基础上，保证相同视频质量的同时，视频流的码率还可以减少50%。随着H.265编码格式越来越流行，本文将主要介绍 H.265 的编码原理，以下是 H.265 的编码框架流程图。

01、编码结构

H.265在编码结构上分为视频编码层（VCL）和网络提取层（NAL）。

VCL：Video Coding Layer，主要包括视频压缩引擎和图像分块的语法定义，原始视频在 VCL 层，被编码成视频数据。简单版本的编码过程如下：
将每一帧的图像分块，将块信息添加到码流中；
对单元块进行预测编码，帧内预测生成残差，帧间预测进行运动估计和运动补偿；
对残差进行变换，对变换系数进行量化、扫描。
对量化后的变换系数、运动信息、预测信息等进行熵编码，形成压缩的视频码流输出。
NAL：Network Abstraction Layer，主要定义数据的封装格式，把 VCL 产生的视频数据封装成一个个 NAL 单元的数据包，适配不同的网络环境并传输。

02、分块

从编码顺序和结构上讲，H.265首先将一个视频划分成若干个序列，一个序列划分成若干个图像组（GOP），每一个GOP代表一组连续的视频帧。H.265 在对图像做预测编码和变换编码时，会先对图像进行划分，划分方式是四叉树。在划分四叉树时，会将整个视频帧划分成若干个正方形的编码树块（CTB），CTB 可以继续划分成编码块（CB），CB 还可以划分为预测块（PB）和变换块（TB）。因此，H.265对视频的结构划分如下图所示：

同一位置处的一个亮度 CB 和两个色度 CB ，加上一些相应的语法元素，组成一个编码单元（CU）。CU 是决定进行帧内预测、帧间预测、Skip/Merge模式的单元。

同一位置处的一个亮度 CTB 和两个色度 CTB ，加上一些相应的语法元素，和包含的 CU ，组成一个编码树单元（CTU）。CTU 相当于 H.264 中的宏块，区别是 CTU 的尺寸是由编码器制定，最大可以支持到 64x64，最小可以支持到 16x16。而宏块的大小固定为 16x16。

一个 CTU 在进行编码时，按照深度优先的顺序进行 CU 编码，像数据结构中的四叉树一样，一个大的方块代表父节点，里面有四个小方块分别代表四个子节点。

03、预测

视频的本质是由一系列连续的视频帧组成，在单个视频帧内部和多个视频帧之间都存在大量的冗余。从空间的角度看，单个视频帧内部的像素点之间的像素值相差很小。从时间的角度看，两个连续的视频帧之间也有很多相同的像素点。预测编码就是基于图像统计特性进行数据压缩的一种方法，利用了图像在时间和空间上的相关性，通过已经重建的像素数据预测当前正在编码的像素。

音视频开发学习地址：FFmpeg/WebRTC/RTMP/NDK/Android音视频流媒体高级开发

【文章福利】：小编整理了一些个人觉得比较好的学习书籍、视频资料共享在群文件里面，有需要的可以自行添加哦！~点击832218493加入（需要自取）

3.1 帧内预测

帧内预测是指用于预测的像素和当前正在编码的像素都在同一个视频帧内，并且一般都在邻近的区域内。由于邻近的像素之间有很强的相关性，像素值一般都非常接近，发生突变的概率非常小，差值都是0或者非常小的数。所以，帧内预测编码后传输的是预测值和真实值之间的差值，即0附近的值，叫做预测误差或残差，这样就用较少的比特传输，达到压缩的效果。

H.265帧内预测编码以块为单位，使用相邻已经重建的块的重建值对正在编码的块进行预测。预测分量分为亮度和色度两个，对应的预测块分别是亮度预测块和色度预测块。为了适应高清视频的内容特征，提高预测精度，H.265采用了更加丰富的预测块尺寸和预测模式。

H.265亮度预测块的尺寸在4*4到32*32之间，所有尺寸的预测块都有35种预测模式，这些预测模式可以分为3类：平面（Planar）模式、直流（DC）模式和角度（Angular）模式。

Planar模式：亮度模式0，适用于像素值变换缓慢的区域，例如像素渐变的场景。对预测块中的每个像素都使用不同的预测值。预测值等于：该像素在水平和垂直两个方向线性插值的平均值。
DC模式：亮度模式1，适用于图像的大面积平坦区域，该模式对预测块中的所有像素都使用相同的预测值。
如果预测块是正方形，预测值等于左边和上边的参考像素的平均值；
如果预测块是长方形，预测值等于长的那一边的平均值；
角度模式：亮度模式2~34，总共33个预测方向，其中模式10是水平方向，模式26是垂直方向。角度模式每个像素的预测值都是从对应预测方向前已经重建的像素集的样值进行水平或垂直方向偏移角度预测。

由于彩色视频中，相同位置的色度信号和亮度信号的特征类似，因此色度预测块和亮度预测块的预测模式也类似。H.265中色度预测块的预测模式有Planar模式、垂直模式、水平模式、DC模式和导出模式5种：

Planar模式：色度模式0，和亮度模式0一样。
垂直模式：色度模式1，和亮度模式26一样。
水平模式：色度模式2，和亮度模式10一样。
DC模式：色度模式3，和亮度模式1一样。
导出模式：色度模式4，采用和对应亮度预测块相同的预测模式。如果对应的亮度预测块模式是0、1、10、26中的一种，则替换为模式34。

3.2 帧间预测

帧间预测是指用于预测的像素和当前正在编码的像素不在同一个视频帧内，但是一般在相邻或附近的位置。一般情况下，帧间预测编码的压缩效果要比帧内预测好，主要原因是视频帧之间的相关性非常强。如果视频帧中的运动物体变化速度很慢，那么视频帧之间的像素差值也就很小，时间冗余度就非常大。

帧间预测评估运动物体运动状况的方法是运动估计，它的主要思想就是对预测块从参考帧的给定范围中搜索匹配块，计算匹配块和预测块之间的相对位移，该相对位移就是运动矢量。得到运动矢量后，需要对预测修正，也就是运动补偿。将运动矢量输入到运动补偿模块，"补偿"参考帧，即可得到当前编码帧的预测帧。预测帧和当前帧的差，就是帧间预测误差。

如果帧间预测只用到了前一帧图像，就称为前向帧间预测或单向预测。该预测帧也就是P帧，P帧可以参考前面的I帧或者P帧。

如果帧间预测不仅用到了前一帧图像预测当前块，还用到了后一帧图像，那么就是双向预测。该预测帧也就是B帧，B帧可以参考前面的I帧或P帧和后面的P帧。

由于P帧需要参考前面的I帧或P帧，而B帧需要参考前面I帧或P帧和后面的P帧，如果在一个视频流中，先到了B帧，而依赖的I帧、P帧还没有到，那么该B帧还不能立即解码，那么应该怎么保证播放顺序呢？其实，在视频编码时，会生成PTS和DTS。通常情况下，编码器在生成一个I帧后，会向后跳过几个帧，用前面的I帧作为参考帧对P帧编码，I帧和P帧之间的帧被编码为B帧。推流的视频帧顺序在编码的时候就已经按照I帧、P帧、B帧的依赖顺序编好了，收到数据后直接解码即可。所以，不可能先收到B帧，再收到依赖的I帧和P帧。

PTS：Presentation Time Stamp，显示时间戳，告诉播放器在什么时间显示这一帧。
DTS：Decoding Time Stamp，解码时间戳，告诉播放器在什么时间解码这一帧。

04、变换

变换编码是指将图像中的空间域信号映射变换到频域（频率域），然后对生成的变换系数编码。由于在空间域中，数据之间的相关性比较大，经过预测编码后的残差变化较小，存在大量的数据冗余，在图像中亮度值变化缓慢的平坦区域特别明显。而变换为频域后，会将空间域分散分布的残差数据转换成集中分布，可以降低相关性，减少数据冗余，从而达到去除空间冗余的目的。

在H.265中，一个编码块（CB）可以通过四叉树划分成若干个预测块（PB）和变换块（TB）。由于从 CB 到 TB 之间的四叉树划分主要是为了残差的变换运算，因此这种四叉树又称为残差四叉树（RQT）。如下图所示，就是一个 RQT 划分实例，将一个 32*32 的残差 CB 划分成13个不同大小的 TB 。

每个 TB 的大小有四种，分别是从 4*4、8*8、16*16、32*32，每个 TB 都对应一个整数变换系数矩阵。大尺寸的 TB 适用于图像亮度值变化缓慢的平坦区域，小尺寸的 TB 适用于图像亮度值变化剧烈的复杂区域。所有尺寸都可以使用离散余弦变换（DCT）变换。另外，对于 4*4 的帧内预测亮度残差块，还可以使用离散正弦变换（DST）。

由于帧内预测编码是基于左边和上边已经编码块的数据，因此预测块距离已编码块越近，相关性越强，预测误差越小；距离已编码块越远，相关性越小，预测误差越大。预测误差的这种数据分布特征和 DST 的正弦基函数 sin 非常相似，起始点最小，然后逐渐变大。但是因为 DST 计算量比 DCT 大，需要增加更多的变换类型标识，因此 DST 仅用于 4*4的帧内预测亮度残差块。

05、量化

由于变换编码只是将图像数据从空间域矩阵转换为频域的变换系数矩阵，矩阵的系数个数和数据量都没有减少。要想压缩数据，还需要对频域中的统计特征进行量化和熵编码。

常见的量化方法可以分为**标量量化（SQ）和矢量量化（VQ）**两类：

标量量化：将图像中的数据划分成若干个区间，然后在每个区间用一个值代表这个区间内所有样点的取值。
矢量量化：将图像中的数据划分成若干个区间，然后在每个区间用一个代表矢量代表这个区间的所有矢量取值。

由于矢量量化引入了多个像素之间的关联，并且使用了概率的方法，一般压缩率比标量量化高。但是由于其计算复杂度高，所以目前广泛使用的量化方法是标量量化。

量化的压缩率取决于划分的区间大小，即量化步长。量化步长越大，表示量化越粗，对应的视频码率越低，失真越大；量化步长越小，表示量化越细，对应的视频码率越高，失真越小。

H.265量化时是以**变换单元（TU）为基本单位，处理对象包括 TU 中的亮度分量和色度分量。H.265采用了非线性标量量化，通过量化参数（QP）**控制每个编码块的量化步长，QP 和量化步长的关系近似呈指数关系。QP 是个整数，亮度分量的 QP 值范围是 0~51，色度分量的亮度 QP 值范围是0~45。QP 值在0~29范围时，亮度分量和色度分量的量化步长相等，从QP=30开始，两者开始产生差异。QP 和量化步长的关系如下图所示：

编码端的量化过程可以简单理解为是每个 DCT 变换系数除以量化步长得到量化值。在解码端对应的反量化过程就是量化值乘以量化步长得到 DCT 变化系数值。

06、熵编码

熵编码是指在编码过程中按熵原理不丢失任何信息的编码。量化是一种有损的压缩方式，而熵编码是用更紧凑的方式标记和原数据之间的映射关系，属于无损压缩。常见的熵编码有香农（Shannon）编码、哈夫曼（Huffman）编码、算术（Arithmetic）编码、游程编码等。

6.1 哈夫曼编码

哈夫曼编码是一种变长编码，即不同字符的编码长度是变化的。该编码利用字符出现的概率构造哈夫曼二叉树，目标是让出现概率大的字符编码时用短码（距离根节点近），概率小的字符编码时用长码（距离根节点远），从而让平均码字长度最短。

码字：字符经过哈夫曼编码后得到的编码。

例：字符A、B、C、D、E、F对应的出现的概率分别是0.32、0.22、0.18、0.16、0.08、0.04。哈夫曼树的构造过程如下：

选择概率最小的 E、F 作为叶子节点，计算 E、F 的概率和作为它们父节点；
将父节点的值与剩下的 A、B、C、D 概率值排序，再选择最小的两个树求和；
重复以上过程；

最终构造出来的哈夫曼二叉树如下图所示：

左节点的路径为0，右节点的路径为1，求得A、B、C、D、E、F的编码结果：

平均码字长度 = 0.32*2 + 0.22*2 + 0.18*2 + 0.16*3 + 0.08*4 + 0.04*4 = 2.4bit

6.2 算术编码

虽然哈夫曼编码在理论上可以获得最佳编码结果，但是在实际编码中，由于计算机处理的最小数据单位是1bit，对于包含小数点的码字长度只能按照整数处理，所以实际编码效果往往略逊于理论编码效果。在图像压缩领域，通常使用算术编码代替哈夫曼编码。不过，算术编码的理论基础和哈夫曼编码是一致的，都是概率大的字符用短码，概率小的字符用长码。

算术编码分为固定模式算术编码、自适应算术编码（AAC）、二进制算术编码、自适应二进制算术编码（CABAC）等，H.265 中使用了 CABAC 。此处将只介绍固定模式算术编码流程：

统计输入的符号序列中各个字符和出现的概率；
按照概率分布，将[0, 1)区间划分成多个子区间，每个子区间代表一个字符，子区间的大小代表字符出现的概率；所有子区间大小的和等于1；假设该字符的区间范围为 [L, H)；
设置初始变量low=0, high=1，不断读取符号序列中的每个字符，找到该字符对应的区间范围 [L, H)，更新low和high的值：
low = low + (high - low) * L
high = low + (high - low) * H
遍历完符号序列后，得到最终的low和high，转换二进制形式输出得到编码数据；

例：输入符号序列是 ADBCD，统计各个字符出现的概率：

遍历第一个字符 A 时，low = 0, high = 1, L = 0, H = 0.2
low = low + (high - low) * L = 0
high = low + (high - low) * H = 0.2
遍历第二个字符 D 时，low = 0, high = 0.2, L = 0.6, H = 1
low = low + (high - low) * L = 0.12（注：此处计算的low不代入下面计算high值的公式中）
high = low + (high - low) * H = 0.2
遍历第三个字符 B 时，low = 0.12，high = 0.2，L = 0.2，H = 0.4
low = low + (high - low) * L = 0.136
high = low + (high - low) * H = 0.152
遍历第四个字符 C 时，low = 0.136，high = 0.152，L = 0.4，H = 0.6
low = low + (high - low) * L = 0.1424
high = low + (high - low) * H = 0.1456
遍历第五个字符D时，low = 0.1424，high = 0.1456，L = 0.6，H = 1
low = low + (high - low) * L = 0.14432
high = low + (high - low) * H = 0.1456

得到最后的[low, high)区间是[0.14432, 0.1456)，在这个区间内取任意值转二进制后都是对 "ADBCD"的算术编码。对应的编码流程可以简化到下面这张图中：

07、环路滤波

由于 H.265 采用分块编码，在图像反量化、反变换重建的时候，会存在一些失真效应，例如块效应、振铃效应。为了解决这些问题，H.265 采用了环路滤波技术，其中包括去方块滤波（DBF）和样点自适应补偿（SAO）。

DBF 作用于边界像素，用于解决块效应。块效应是指一些相邻编码块边界处的灰度值存在明显的不连续性，产生块效应主要有两个原因：

编码器对残差的DCT变换和量化是基于块的，忽略了块与块之间的相关性，导致块之间的处理不一致；
帧间预测运动补偿块的不完全匹配，存在误差；而编码时的预测参考帧通常来自这些重建图像，导致待预测图像失真；

DBF 针对边界类型采用强滤波、弱滤波或者不处理，边界类型的判定是由边界像素梯度阈值和边界块的量化参数决定的。DBF 处理时，先对整个图像的垂直边缘进行水平滤波，然后对水平边缘进行垂直滤波。滤波过程实际上就是对像素值进行修正的过程，让方块看起来不那么明显。H.264 中也存在 DBF 技术，但是应用于 4*4 大小的处理块，而 H.265 中应用于 8*8 大小的处理块。

SAO 是 H.265 新引入的对重建图像的误差补偿机制，用于改善振铃效应。振铃效应是指图像的灰度值剧烈变化产生的震荡，产生振铃效应主要原因是DCT变换后高频信息丢失。SAO 的原理就是通过对重构曲线的波峰像素添加负值补偿，波谷添加正值补偿，从而减小高频信息的失真。和 DBF 只作用于边界像素不同，SAO 作用于块中所有的像素。

小结

本文从 H.265 整体编码流程的角度，介绍了 H.265 编码涉及到的分块、预测、变换、量化、编码、环路滤波等技术点。通过了解这些编码原理，为我们后续进一步学习音视频开发技术奠定扎实的基础。

原文：H.265编码原理入门

侵删

C/C++---文件读取 MzKyle C/C++c语言 c++java
在C++中，文件读取操作主要是通过fstream类来完成的。fstream类提供了多种功能，用于从文件读取数据、写入数据以及对文件进行其他处理。文件读取操作可以通过两种主要方式实现：文本文件读取和二进制文件读取。文件读取在传参工作中，扮演十分重要的角色，方便客户端不接触代码的情况下对系统进行调试。1.文件输入流(ifstream)C++提供了ifstream（InputFileStream）类用于
从“直觉抢答”到“深度思考”：大模型的“慢思考”革命，思维链、树、图如何让AI越来越像人？陈敬雷-充电了么-CEO兼CTO 《GPT多模态大模型与AI Agent智能体》新书内容人工智能 chatgpt AIGC 神经网络 python 大模型思维链
注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AIAgent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】GPT多模态大模型与AIAgent智能体书籍本章配套视频课程【陈敬雷】文章目录GPT多模态大模型与AIAgent智能体系列十六从“直觉抢答”到“深度思考”：大模型的“慢思考”革命，思维链、树、图如何让AI越来越像人？引言：当AI从“快
MATLAB 基于图像处理的杂草识别技术鱼弦 matlab 图像处理计算机视觉
MATLAB基于图像处理的杂草识别技术1.系统介绍杂草识别是精准农业中的重要环节，基于图像处理的杂草识别技术利用计算机视觉和机器学习算法，自动识别田间杂草，为精准施药提供决策支持。本系统基于MATLAB实现杂草图像处理，包括图像预处理、特征提取、分类识别等模块。2.应用场景精准农业:自动识别田间杂草，实现精准施药，减少农药使用量。生态监测:监测农田杂草种类和分布，评估生态环境。植物保护:识别有害杂
【C#、C++ 和 Java】实现重力迷宫游戏鱼弦游戏开发 c#c++java 游戏
引言(Introduction)重力迷宫是一种益智游戏，玩家通过旋转整个游戏区域（迷宫），改变重力的方向，使得玩家角色和其他可动物体（如箱子、球）沿着新的重力方向下落。玩家的目标是利用重力到达迷宫的出口。实现重力迷宫需要管理复杂的网格状态（地形和物体），处理旋转输入，并实现根据当前重力方向模拟物理下落的逻辑。技术背景(TechnicalBackground)实现重力迷宫主要涉及以下核心技术概念：游
运维技术干货 — 不仅是 Linux 运维最佳实践 python算法小白 Linux
附Java/C/C++/机器学习/算法与数据结构/前端/安卓/Python/程序员必读书籍书单大全：书单导航页（点击右侧极客侠栈即可打开个人博客）：极客侠栈①【Java】学习之路吐血整理技术书从入门到进阶最全50+本（珍藏版)②【算法数据结构+acm】从入门到进阶吐血整理书单50+本（珍藏版)③【数据库】从入门到进阶必读18本技术书籍网盘吐血整理网盘(珍藏版)④【Web前端】从HTML到JS到AJ
NOIP2013提高组复赛数据详细分析与应用指南欧学东
本文还有配套的精品资源，点击获取简介：2013年的NOIP提高组复赛数据，涉及C++编程、算法设计、数据结构、问题分析、时间空间复杂度优化、调试测试、比赛策略、历年试题分析等多个知识点。这些数据对于参赛者、教练和信息技术教育研究者具有重要参考价值，有助于提升信息技术能力和竞赛准备的有效性。1.NOIP竞赛概览全国青少年信息学奥林匹克竞赛（NationalOlympiadinInformaticsi
今日头条配音怎么赚钱？配音赚钱的方法渠道分享测评君高省
配音是目前非常火的行业，很多人都想在网络平台接单赚钱。事实上，他们可以通过简单的手机设备和耳机接单。今日头条作为媒体行业的领头羊，对配音的需求很大。所以今天，小编带你看看今日头条是如何配音赚钱的。第一，打开今日头条手机APP，注册账号，点击中间的加号，就会出现发布视频的选项。可以直接发布你的配音视频。可以直接通过自己的流量来实现。第二，可以通过PC浏览器搜索“配音圈”主页，注册自己的账号，查看买家
基于蜣螂算法优化多头注意力机制的卷积神经网络结合双向长短记忆神经网络实现温度预测DBO-CNN-biLSTM-Multihead-Attention附matlab代码 matlab科研助手神经网络算法 cnn
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，代码获取、论文复现及科研仿真合作可私信。个人主页：Matlab科研工作室个人信条：格物致知。更多Matlab完整代码及仿真定制内容点击智能优化算法神经网络预测雷达通信无线传感器电力系统信号处理图像处理路径规划元胞自动机无人机物理应用机器学习内容介绍温度预测在气象学、农业、能源等领域具有重要的应用价值。随着大数据和人工智能技术的快速发
股票基金量化开源平台对比 Mr.小海开源开源金融
股票基金量化开源平台对比分析报告引言研究背景与意义在金融科技快速发展的背景下，量化交易已成为现代金融市场中投资者追求高效与精准交易的核心工具。通过程序化方式，投资者能够迅速处理海量市场数据，制定并执行复杂交易策略，其高效性、低情绪干扰及策略多样性等优势显著[1]。特别是随着人工智能技术的深化，2025年基于深度学习与机器学习的开源量化工具持续涌现，推动行业向数据驱动转型——量化交易将决策逻辑从经验
开源基金/股票量化平台调研报告 Mr.小海金融
开源基金/股票量化平台调研报告引言调研背景与目的近年来，随着人工智能技术的持续深化，量化交易领域迎来了深刻变革。2025年，基于深度学习和机器学习的开源工具不断涌现，不仅在技术层面实现突破，更在实际应用中展现出强大竞争优势，推动行业创新与升级[1].作为融合数学、统计与计算机技术的科技驱动型金融策略，量化交易通过自动化与数据驱动方法提升投资决策效率与准确性，已成为金融机构与投资者追求超额收益的重要
同步发电机与逆变型电源故障电流特性对比实验研究神经网络15044 MATLAB专栏仿真模型生成对抗网络学习人工智能开发语言 matlab
同步发电机与逆变型电源故障电流特性对比实验研究前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。1.研究背景与意义随着可再生能源在电力系统中的渗透率不断提高，逆变型电源(Inverter-BasedResources,IBR)在电网中的比重日益增加。与传统同步发电机相比，IBR的故障响应特性存在显著差异，这对电力系统的保护设计和运行控制提出了新的挑战
AIGC革命：基于魔搭社区的LLM应用开发实战——从模型微调到系统部署 Liudef06小白 AIGC 人工智能特殊专栏人工智能魔搭 AIGC LLM
AIGC革命：基于魔搭社区的LLM应用开发实战——从模型微调到系统部署1.AIGC技术演进与魔搭社区生态解析人工智能生成内容（AIGC）正在重塑内容创作、软件开发和人机交互的边界。从OpenAI的GPT系列到StabilityAI的StableDiffusion，生成式AI技术正以惊人的速度发展。在这场技术革命中，魔搭社区（ModelScope）作为中国领先的AI模型开源平台，正成为开发者探索AI
Python Gradio：快速搭建人脸识别应用 Python编程之道 Python人工智能与大数据 Python编程之道 python 开发语言 ai
PythonGradio：快速搭建人脸识别应用关键词：Python,Gradio,人脸识别,深度学习,计算机视觉,交互式应用,模型部署摘要：本文详细介绍了如何使用Python的Gradio库快速搭建一个交互式的人脸识别应用。我们将从基础概念出发，逐步讲解人脸识别的核心算法原理、Gradio的界面设计方法，并通过完整的项目实战演示如何将深度学习模型部署为可交互的Web应用。文章包含详细的代码实现、数
人工智能界的“黑话“大揭秘：AI新词汇速成指南
人工智能界的"黑话"大揭秘：AI新词汇速成指南你是否曾在科技大佬们讨论AI时一头雾水？听到RAG、Agent、PromptEngineering时以为他们在说天书？别担心，今天我们就来一场AI术语的"通俗化运动"，让你轻松混入AI圈子，秒变内行人！LLM（大型语言模型）：AI界的"大胃王"LLM是吞噬了互联网大部分文字的"数据饕餮"。特点：训练数据以TB（万亿字节）计算参数动辄上千亿计算能力堪比小
【图像处理基石】如何入门大规模三维重建？小米玄戒Andrew 图像处理基石深度学习人工智能三维重建大规模三维重建立体视觉大模型 LLM
入门大规模三维重建需要从基础理论、核心技术到实践工具逐步深入，同时需关注该领域的经典工作和前沿进展。以下是分阶段的入门路径及值得重点学习的工作：一、基础理论与前置知识大规模三维重建的核心是从海量图像或传感器数据中恢复场景的三维结构，涉及计算机视觉、摄影测量、图形学、最优化等多个领域，需先掌握以下基础：数学基础线性代数：矩阵运算、特征值分解（用于相机姿态估计）、奇异值分解（SVD，用于基础矩阵求解）
解密Claude系列：从原理到实践的全方位解析软考和人工智能学堂强化学习人工智能 Claude快速入门 Claude
引言：Claude系列模型的崛起在人工智能领域，大型语言模型(LLM)的发展日新月异。OpenAI的GPT系列和Anthropic的Claude系列无疑是这一领域的双子星。Claude系列模型以其独特的"ConstitutionalAI"理念和强大的对话能力，正在重塑人机交互的未来。本文将深入探讨Claude系列的技术原理、架构特点，并通过实践代码展示其强大能力。Claude系列的技术演进1.Cl
C++ Primer Plus 第五版：源代码深度解析与实践贫僧法号止尘
本文还有配套的精品资源，点击获取简介：《C++PrimerPlus第五版》通过源代码的实例展示，系统地介绍了C++编程语言的基础和高级特性。本书内容涵盖了基本语法、控制结构、函数、类和对象、封装、继承与多态、模板、异常处理、STL以及输入/输出流等多个关键知识点，帮助读者在理解理论的同时，通过实践加深对这些概念的应用。1.C++基础语法和高级特性介绍C++是一种静态类型、编译式、通用的编程语言，它
【c++】提升用户体验：问答系统的交互优化实践——关于我用AI编写了一个聊天机器人……（12） gfdhy 算法数据结构 c++c语言人工智能 tf-idf
本期依旧使用豆包辅助完成代码。从功能到体验的转变上个版本已经实现了问答系统的核心功能：基于TF-IDF算法的问题匹配和回答。它能够读取训练数据，处理用户输入，并返回最相关的答案。但在用户体验方面还有很大提升空间。让我们看看改进版做了哪些关键优化：1.引导系统上个版本仅在启动时显示简单的"Hello!输入'exit'结束对话。"提示，对于初次使用的用户来说不够友好。改进版增加了：详细的欢迎信息和功能
元宇宙：中国数字经济的新赛道——基于游戏生态、AI与区块链的创新实践 boyedu 元宇宙域名游戏人工智能区块链元宇宙
引言：数字经济时代的“新大陆”在数字技术的浪潮中，元宇宙正从科幻概念跃升为全球科技竞争的焦点。中国，作为全球数字经济规模第二大的经济体，正以独特的路径探索元宇宙的发展——以游戏生态为起点，融合人工智能（AI）与区块链技术，构建一个虚实融合的数字新世界。这一路径不仅契合中国在5G、AI、区块链等领域的技术积累，更与“数字经济”“新质生产力”等国家战略形成共振。本文将从技术融合、经济价值、社会影响三个
【C语言】基于 DEV C++的简单扫雷游戏九.九 C 语言游戏 c++游戏算法 c语言编辑器开发语言
目录一、代码二、实训报告三、答辩PPT一、代码这学期C语言大作业选题:基于DEVC++的简单扫雷游戏,以下是devc++适配代码。#define_CRT_SECURE_NO_WARNINGS1#include#include#include#defineROWS9#defineCOLS9#defineMINE_COUNT10voidInitBoard(charboard[][COLS],intro
力扣25.7.15每日一题——有效单词一个OI蒟蒻 LeetCode leetcode 算法职场和发展
Description应该都能看懂吧……Solution一道简单的模拟题。按照题意枚举字符串，判断元/辅音；判断合法即可。也不知道今天的题为什么怎么淼Code（C++、Python3）C++classSolution{public:boolisValid(stringword){if(word.size()bool:iflen(word)<3:returnFalsee=f=Falseforcinw
OpenCV 入门指南 —— 从环境搭建到图像处理 m0_74751715 opencv 图像处理人工智能 python
文章目录前言一、什么是OpenCV？二、环境准备与安装1.Python虚拟环境2.安装OpenCV3.验证安装三、读取与显示图像四、常见图像处理操作1.色彩空间转换2.图像平滑（模糊）3.边缘检测（Canny算法）4.在图像上绘制图形与文字五、视频与摄像头操作六、推荐学习路线七、参考资料前言在计算机视觉领域，OpenCV（OpenSourceComputerVisionLibrary）凭借其开源、
智能体架构设计的五大核心原则：构建下一代AI系统的工程基石一休哥助手人工智能
引言：智能体架构的范式演进人工智能领域正经历从孤立模型向自主智能体的范式转变。2025年，全球AI智能体市场规模突破200亿美元，在金融、医疗、制造等领域的渗透率超40%。然而，智能体开发仍面临协作效率低（多智能体任务重叠率达30%）、安全风险高（工具调用错误率18%）和系统僵化（需求变更迭代周期超2周）三大痛点。本文基于产业实践提炼五大核心设计原则，为构建下一代智能体系统提供架构指南。传统LLM
昇思MindSpore创新训练营·长三角站开始报名！昇思MindSpore 人工智能自然语言处理深度学习
一、介绍为充分发挥长三角研究型大学联盟教学实践基地共建共享功能，加强华东高校优秀青年学子的交流与互动，提供学生与产业界接触的机会，上海交通大学与华为技术有限公司共同发起，面向长三角研究型大学学生开设昇思MindSpore创新训练营。本次训练营以实践项目和业界需求为牵引，以学生实践为主线，让学生在实践的过程中学习和实践人工智能相关知识，掌握相关技术和工具，紧跟业界最新趋势，加深对人工智能行业的认识，
OPPO未来科技大会，科技感满满！你最爱哪些黑科技呢？冬天不冷了
#OPPO未来科技大会#OPPO携手IHSMarkit发布《智能互融：借助5G、人工智能和云技术，释放机遇》白皮书，表明人工智能、云技术和边缘设备、互联和物联网的协同努力，将为企业和消费者带来价值。看了一下早上的，是说明年绿厂要发不少好玩的产品，比如智能手表AR眼镜之类的，有些可能跟Reno3一块发，对外是说构建生态万物互联，其实就是多卖几样多赚钱，然后用这钱砸了搞技术赚更大的钱，毕竟现场说了未来
2025年最流行跑分最高的图片理解大模型调研报告
2025年最流行跑分最高的图片理解大模型调研报告引言当前，图片理解大模型正处于快速演进阶段，其技术发展呈现多维度深化与融合的特征。从技术演进方向来看，多模态融合已成为核心趋势之一，文本、图像、视频等不同模态的交互与协同能力显著提升。大型视觉-语言模型（LVLMs）作为人工智能领域的重要突破，标志着多模态理解与交互进入变革性发展阶段，尽管当前模型在各类任务中表现出色，但在细粒度视觉任务等基础能力层面
基于DTLC-AEC与DTLN的轻量级实时语音增强系统设计与实现神经网络15044 仿真模型神经网络机器学习图像处理 cnn 人工智能机器人
基于DTLC-AEC与DTLN的轻量级实时语音增强系统设计与实现前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。1.引言在当今的互联网通信时代，实时语音通信已成为人们日常生活中不可或缺的一部分。然而，语音通信质量常常受到回声、背景噪声等因素的严重影响。为了解决这些问题，我们需要高效的语音增强技术。本文将详细介绍如何将DTLC-AEC（深度学习回声消
C++ 左值与右值：深入解析与区别北辰alk c++c++
文章目录1.基本概念1.1左值(Lvalue)1.2右值(Rvalue)2.左值与右值的详细区别2.1基本区别对比表2.2代码示例说明3.左值引用与右值引用3.1左值引用3.2右值引用3.3引用绑定规则总结4.左值/右值的高级分类4.1值类别示意图4.2各类别示例5.左值/右值的实际应用5.1函数重载中的左值/右值5.2移动语义与右值引用5.3完美转发6.常见误区与注意事项7.实际应用场景7.1优
第 20 课时：GPU 管理和 Device Plugin 工作机制（车漾）阿里云云原生 CNCF X 阿里巴巴云原生技术公开课阿里云 Kubernetes CNCF 专家团队 CNCF 专家团队 CNCF 专家团队 Kubernetes
本文将主要分享以下几个方面的内容：需求来源GPU的容器化Kubernetes的GPU管理工作原理课后思考与实践需求来源2016年，随着AlphaGo的走红和TensorFlow项目的异军突起，一场名为AI的技术革命迅速从学术圈蔓延到了工业界，所谓AI革命从此拉开了帷幕。经过三年的发展，AI有了许许多多的落地场景，包括智能客服、人脸识别、机器翻译、以图搜图等功能。其实机器学习或者说是人工智能，并不是
智慧后厨检测算法构建智能厨房防护网智驱力人工智能人工智能算法高温预警行为识别口罩识别食品安全手套识别
智慧后厨检测：构建安全洁净厨房的智能解决方案背景：传统后厨管理的痛点与智慧化需求餐饮行业后厨管理长期面临操作规范难落实、安全隐患难察觉、卫生状况难追溯等痛点。传统人工巡检效率低、覆盖面有限，难以实现24小时无死角监管。例如，厨师未佩戴口罩或手套、违规使用手机、动火离人等行为，可能引发食品安全事故或火灾风险。随着人工智能技术的成熟，智慧后厨检测系统通过集成多种算法，实现了对后厨人员行为、环境卫生、设
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla

C++音视频开发-H.265编码原理入门

你可能感兴趣的:(1000道程序员常见问题解析,音视频,人工智能,计算机视觉,h265,c++)