mmdev

x264里的2pass指的是什么意思? x264源代码分析2.encode()

A:x264里的2pass指的是什么意思?另外stat是什么意思, 比如有个参数--stats <string> Filename for 2 pass stats [/"%s/"]/n", defaults->rc.psz_stat_out );
stats在这是什么意思?

2pass是2次编码的意思，stats是统计文档的名称，记录了1pass中的信息.2次编码就相当于2次转换这么做虽然转换时间会漫长，但压出的片子会有更好的画质，画面细节更好，而且体积会更小

2-pass主要是针对非实时的视频编码（如文件）来说的，通俗的说就是需要二次编码，第一次编码是先对整个文件进行扫描，记录一些统计信息，第二次编码时根据前面记录的统计信息再进行编码，这样的好处是可以提高编码的质量。

A:那个达人能简单说说x264中 rc 部分 1pass 和 2pass的思路？

就此问题在 x264 开发邮件列表里问过。没有得到一个明确的结论。
我看代码的过程中，首先关注的是 1pass ，得到的一点经验大概可以这样描述：
首先 x264 中将 QP 通过一个确定的公式变换为 QScale 。其主要就是针对于 QS 作分析和控制/约束变化的。
x264 的码率控制接口是以帧为单位的，而支持的宏块级变化只到宏块行。
编码一个宏块行之前调用接口函数以得到欲使用的 QP 。
它预测某个 gomb (宏块组) 的耗费码流的大小，利用在漏桶模型上，以之权衡 QP 是否需要改变并如何进行改变。
预测的时候是使用两种预测求平均的方法，见 predict_row_size() 函数。
它的预测方程一个比较引起混淆的是它对历史数据有个衰减的过程。
而且，这些衰减概念，应用在不同地方所用的几个方程上。
它的 RC 核心函数是 rate_estimate_qscale() 。
其中一个 QS 的推导是一个需要解析的输入表达式字符串，也因此在内部实现了一个表达式解析器，也许会产生一点晦涩感。
一时就想到这些。

E. 然后进入x264_encoder_encode( h, &nal, &i_nal, pic )函数,该函数定义在/Enc/encoder.c中.

开始进入比较复杂的地方了.

这个函数前面有一段注释(如下):

****************************************************************************

* x264_encoder_encode:

* XXX: i_poc : is the poc of the current given picture

* i_frame : is the number of the frame being coded

* ex: type frame poc

* I 0 2*0//poc是实际的帧的位置.

* P 1 2*3//frame是编码的顺序.

* B 2 2*1

* B 3 2*2

* P 4 2*6

* B 5 2*4

* B 6 2*5

****************************************************************************/

要搞清poc和frame的区别.

假设一个视频序列如下:

I B B P B B P

我们编码是按I P B B P B B的顺序,这就是frame的编号.

而我们视频序列的播放序号是POC的序号,这里是乘以了2.

函数中先定义了如下三个参数:

int i_nal_type;

nal存放的数据类型, 可以是sps,pps等多种.

int i_nal_ref_idc;

nal的优先级,nal重要性的标志位.

前面两个参数虽然简单,但如果不参照标准,也不容易理解,所以标准中的句法表是很重要的,可以说是最关键的.

int i_slice_type;

slice的类型,在x264中我的感觉好像一帧只有一个slice.如果确定了帧的类型,slice的类型也就确定了.

我们来看看编码器是如何区分读入的一帧是I帧,P帧,或者B帧,这个过程需要好好理解.

还以I B B P B B P为例.

if( h->i_frame % (h->param.i_iframe * h->param.i_idrframe) == 0 ){

确定这是立即刷新片.

}

这里很好理解.

但到了if( h->param.i_bframe > 0 )//可以B帧编码时.

就有问题了.

注意我们编完I帧后碰到了一个B帧,这时我们先不对它进编码.而是采用frame = x264_encoder_frame_put_from_picture( h, h->frame_next, pic )函数将这个B帧放进h->frame_next中.

好,这里出现了h->frame_next,在h中同时定义了下面几个帧数组用以实现帧的管理.

x264_frame_t *bframe_current[X264_BFRAME_MAX]; /* store the sequence of b frame being encoded */

x264_frame_t *frame_next[X264_BFRAME_MAX+1]; /* store the next sequence of frames to be encoded *///搞清意义,下一个帧,而不一定是B帧.

x264_frame_t *frame_unused[X264_BFRAME_MAX+1]; /* store unused frames */

注意区分这3个数组.

同时还有下面4个函数(定义在/ENCODER/encoder.c中).

x264_encoder_frame_put_from_picture();

x264_encoder_frame_put();

x264_encoder_frame_get();

x264_frame_copy_picture();

这3个数组和4个函数可以说完成了整个帧的类型的判定问题.这个里面if ,else语句较多,容易使人迷惑.但我们只要把握下面一个观点就可以看清实质:在不对P帧进行编码之前,我们不对B帧进行编码,只是把B帧放进缓冲区(就是前面提到的数组).

比如视频序列:I B B P B B P

先确立第一个帧的类型,然后进行编码.然后是2个B帧,我们把它放进缓冲区数组.然后是P帧,我们可以判定它的类型并进行编码.同时,我们将缓冲区的B帧放进h->bframe_current[i],不过这时P帧前的两个B帧并没有编码.当读到P帧后面的第一个B帧时,我们实际上才将h->bframe_current数组中的第一个B帧编码,也就是将在I帧后面的第一个B帧(说成P帧前面的第一个B帧容易误解J)编码.

依此类推,把握好上面4个函数的调用流程和指针操作的用法,就可以将帧的类型判定这个问题搞明白了.

F. 然后是速率控制(先不说这个,因为它对编码的流程影响不大),看看建立参考帧列表的操作,也就是

x264_reference_build_list( h, h->fdec->i_poc ); (定义在/ENCODER/encoder.c中).

光看这个函数是不行的,它是和后面的这个函数(如下)一起配合工作的.

if( i_nal_ref_idc != NAL_PRIORITY_DISPOSABLE )//B帧时.

{

x264_reference_update( h );

}

If条件是判断当前帧是否是B帧,如果是的话就不更新参考列表,因为B帧本来就不能作为参考帧嘛!如果是I帧或P帧的话,我们就更新参考帧列表.

我们看到了一个for循环,两个do—while循环.这是实现的关键,具体看代码,不好用语言说明白.

G. 进入另一个复杂的领域:写slice的操作,刚开使挺简单,如我下面的注释.

/* ---------------------- Write the bitstream -------------------------- */

/* Init bitstream context */

h->out.i_nal = 0;//out的声明在bs.h中.

bs_init( &h->out.bs, h->out.p_bitstream, h->out.i_bitstream );//空出8位.

/* Write SPS and PPS */

if( i_nal_type == NAL_SLICE_IDR )//不是每次都要写SPS and PPS,只有碰见立即刷新片时才写.

{

/* generate sequence parameters */

x264_nal_start( h, NAL_SPS, NAL_PRIORITY_HIGHEST );

x264_sps_write( &h->out.bs, h->sps );

x264_nal_end( h );

/* generate picture parameters */

x264_nal_start( h, NAL_PPS, NAL_PRIORITY_HIGHEST );

x264_pps_write( &h->out.bs, h->pps );

x264_nal_end( h );

}

不过看下面那个函数(就进入了复杂的领域).

H. x264_slice_write()(定义在/ENCODER/encoder.c中),这里面是编码的最主要部分,下面仔细分析.

前面不说,看下面这个循环,它是采用for循环对一帧图像的所有块依次进行编码.

for( mb_xy = 0, i_skip = 0; mb_xy < h->sps->i_mb_width * h->sps->i_mb_height; mb_xy++ )//h->sps->i_mb_width指的是从宽度上说有多少个宏快.对于宽度也就是288 / 16 = 18

{

const int i_mb_y = mb_xy / h->sps->i_mb_width;

const int i_mb_x = mb_xy % h->sps->i_mb_width;//这两个变量是定义宏块的位置.而不是指宏块中元素的位置.

/* load cache */

x264_macroblock_cache_load( h, i_mb_x, i_mb_y );//是把当前宏块的up宏块和left宏块的intra4x4_pred_mode，non_zero_count加载进来，放到一个数组里面，这个数组用来直接得到当前宏块的左侧和上面宏块的相关值.要想得到当前块的预测值，要先知道上面，左面的预测值，它的目的是替代getneighbour函数.

/* analyse parameters

* Slice I: choose I_4x4 or I_16x16 mode

* Slice P: choose between using P mode or intra (4x4 or 16x16)

* */

TIMER_START( i_mtime_analyse );

x264_macroblock_analyse( h );//定义在analyse.h中.

TIMER_STOP( i_mtime_analyse );

/* encode this macrobock -> be carefull it can change the mb type to P_SKIP if needed */

TIMER_START( i_mtime_encode );

x264_macroblock_encode( h );//定义在Enc/encoder.c中.

TIMER_STOP( i_mtime_encode );

截止到这就已经完成编码的主要过程了,后面就是熵编码的过程了(我也没看到那,但认为前面才是编码的主要过程).下面对这个过程进行分析.

A. x264_macroblock_cache_load( h, i_mb_x, i_mb_y );它是将要编码的宏块的周围的宏块的值读进来, 要想得到当前块的预测值，要先知道上面，左面的预测值，它的作用相当于jm93中的getneighbour函数.

B. 进入x264_macroblock_analyse( h )函数(定义在/Enc/analyse.c中,这里涉及到了函数指针数组,需要好好复习,个人认为这也是x264代码最为复杂的一个地方了).既然已经将该宏块周围的宏块的值读了出来,我们就可以对该宏块进行分析了(其实主要就是通过计算sad值分析是否要将16*16的宏块进行分割和采用哪种分割方式合适).

看似很复杂,但我们只要把握一个东西就有利于理解了:

举个生活中的例子来说:

如果你有2元钱,你可以去买2袋1元钱的瓜子,也可以买一袋2元钱的瓜子,如果2袋1元钱的瓜子数量加起来比1袋2元钱的瓜子数量多,你肯定会买2袋1元的.反之你会去买那2元1袋的.

具体来说,对于一个16*16的块,

如果它是I帧的块,我们可以将它分割成16个4*4的块,如果这16个块的sad加起来小于按16*16的方式计算出来的sad值,我们就将这个16*16的块分成16个4*4的块进行编码(在计算每个4*4的块的最小sad值时已经知道它采用何种编码方式最佳了),否则采用16*16的方式编码(同样我们也已知道对它采用哪种编码方式最为合适了.

如果它是P帧或B帧的块,同样是循环套循环,但更为复杂了,可以看我在analyse.c中的注释.

这里还要注意的是提到了

x264_predict_t predict_16x16[4+3];

typedef void (*x264_predict_t)( uint8_t *src, int i_stride );

这是函数指针数组,有很多对它的调用.

C. 退出x264_macroblock_analyse( h )函数,进入x264_macroblock_encode( )函数(定义在/ENCODER/macroblock.c中).

我拿宏块类型为I_16*16为例.

if( h->mb.i_type == I_16x16 )

{

const int i_mode = h->mb.i_intra16x16_pred_mode;

/* do the right prediction */

h->predict_16x16[i_mode]( h->mb.pic.p_fdec[0], h->mb.pic.i_fdec[0] );//这两个参数的关系.

//涉及到x264_predict_t(函数指针数组),声明在core/predict.h中,core/predict.c里有不同定义.

/* encode the 16x16 macroblock */

x264_mb_encode_i16x16( h, i_qscale );//

/* fix the pred mode value */

… }

我们看到h->predict_16x16[i_mode]( h->mb.pic.p_fdec[0], h->mb.pic.i_fdec[0] );只调用了一次,这是因为在x264_macroblock_analyse( )中我们已经确定了采用4种方式中的哪种最合适.而在x264_macroblock_analyse( )中判定一个块是否为I_16*16,我们调用了四次.这是因为当时我们需要拿最小的sad值进行比较.

继续,是x264_mb_encode_i16x16( h, i_qscale )函数(定义在/ENCODER/macroblock.c中).在这个函数中我们就可以看到量化,zig-扫描等函数了,这些都是直来直去的,需要的只是我们的细心和对数学知识的掌握了

c) 到这里还没完,我们接着看

void x264_macroblock_encode( x264_t *h ){

…….前面省略.

执行到下面这条语句,看看下面是干啥的.

/* encode chroma */

i_qscale = i_chroma_qp_table[x264_clip3( i_qscale + h->pps->i_chroma_qp_index_offset, 0, 51 )];

if( IS_INTRA( h->mb.i_type ) )

{

const int i_mode = h->mb.i_chroma_pred_mode;

/* do the right prediction */

h->predict_8x8[i_mode]( h->mb.pic.p_fdec[1], h->mb.pic.i_fdec[1] );

h->predict_8x8[i_mode]( h->mb.pic.p_fdec[2], h->mb.pic.i_fdec[2] );

/* fix the pred mode value */

h->mb.i_chroma_pred_mode = x264_mb_pred_mode8x8_fix[i_mode];

}

/* encode the 8x8 blocks */

x264_mb_encode_8x8( h, !IS_INTRA( h->mb.i_type ), i_qscale );//对色度块进行编码了.

到这我们可以看到原来我们在这前面是对宏块中的亮度系数进行了编码,我们到上面那个函数才开始对色度系数进行编码.进入x264_mb_encode_8x8()函数看到for循环里面有个2可以证明是对2个色度系数进行编码,想法没错.

那下面这些又是干啥的呢?它们是计算cbp系数看需要对残差(包括ac,dc)中的哪个系数进行传输的.

/* Calculate the Luma/Chroma patern and non_zero_count */

if( h->mb.i_type == I_16x16 )

{

h->mb.i_cbp_luma = 0x00;

for( i = 0; i < 16; i++ )

{

const int nz = array_non_zero_count( h->dct.block[i].residual_ac, 15 );

h->mb.cache.non_zero_count[x264_scan8[i]] = nz;

if( nz > 0 )

{

h->mb.i_cbp_luma = 0x0f;

}

else

{

h->mb.i_cbp_luma = 0x00;

for( i = 0; i < 16; i++ )

{

const int nz = array_non_zero_count( h->dct.block[i].luma4x4, 16 );//统计非0个数.

h->mb.cache.non_zero_count[x264_scan8[i]] = nz;

if( nz > 0 )

{

h->mb.i_cbp_luma |= 1 << (i/4);// %16的意义.

}

/* Calculate the chroma patern *///色度的cbp有3种方式.

h->mb.i_cbp_chroma = 0x00;

for( i = 0; i < 8; i++ )

{

const int nz = array_non_zero_count( h->dct.block[16+i].residual_ac, 15 );

h->mb.cache.non_zero_count[x264_scan8[16+i]] = nz;

if( nz > 0 )

{

h->mb.i_cbp_chroma = 0x02; /* dc+ac (we can't do only ac) */

}

if( h->mb.i_cbp_chroma == 0x00 &&

( array_non_zero_count( h->dct.chroma_dc[0], 4 ) > 0 || array_non_zero_count( h->dct.chroma_dc[1], 4 ) ) > 0 )

{

h->mb.i_cbp_chroma = 0x01; /* dc only */

}

if( h->param.b_cabac )

{

if( h->mb.i_type == I_16x16 && array_non_zero_count( h->dct.luma16x16_dc, 16 ) > 0 )

i_cbp_dc = 0x01;

else

i_cbp_dc = 0x00;

if( array_non_zero_count( h->dct.chroma_dc[0], 4 ) > 0 )

i_cbp_dc |= 0x02;

if( array_non_zero_count( h->dct.chroma_dc[1], 4 ) > 0 )

i_cbp_dc |= 0x04;

}

/* store cbp */

h->mb.cbp[h->mb.i_mb_xy] = (i_cbp_dc << 8) | (h->mb.i_cbp_chroma << 4) | h->mb.i_cbp_luma;

到这,基本上x264_macroblock_encode( h )(定义在Enc/encoder.c)基本上就分析完了.剩下的就是熵编码的部分了.以后的部分更需要的应该是耐心和数学知识吧,相对前面来说应该简单些.

l 总结:

1. 我对代码的理解应该还算比较深入,把代码的主线已经分析了出来,对代码中几个最难理解的地方(最难理解的地方就是帧的类型的判定,参考帧是如何管理的,一个16*16的块是采用到底需不需要分割,分割的话分成什么大小的,子块又采用何种预测方式,这些实际上就是整个编码的主线.)基本上已经明白,但有些过分复杂的函数的实现(或者涉及数学知识较多的地方)还有待深入研究,但我相信沿着这条主线应该能够继续深入下去,自己需要的是更多的时间和耐心. 自己需要的是更多的时间和耐心,争取以后能写出更详细更准确的流程分析,并尽量思考能改进的地方.

2.层次性,就像网络的7层结构一样,每一帧图像也可以分成很多层,只有对每层的语法结构(具体来说就是各个结构体中变量的意思)有了很好的理解,才有可能真正认清代码,这需要对标准认真研习.比如说量化参数,就在3个地方有定义,不读标准根本不会明白意思.

3. 很多过分复杂的东西不容易在本文中表达出来(比如说预测部分),只有通过自己的钻研才能真正悟到,直觉也很重要,还有就是信心了.看这种程序的收获就好像是真地肉眼看到了原子那样.

4.由于代码过分复杂,对某些函数的实现过程还没能彻底理解,比如说x264_macroblock_cache_load()函数的具体实现过程,我只是知道它的功能,实现过程还有待认真理解.dct变换是如何实现的,是如何计算残差的等等,这些都需要很多功夫,当然这里也需要大家的共同学习和交流.实现分工阅读不同代码部分并进行交流,才有可能对代码做到彻底的理解.

你可能感兴趣的:(encode)

Autoformer 架构详细解释及举例说明 six.学长 autoformer 人工智能
Autoformer架构详细解释上述图片展示了Autoformer架构的工作流程，包含编码器和解码器的结构。我们来详细解析图中的各个组件及其功能：编码器部分（AutoformerEncoder）输入数据（EncoderInput）：输入的是需要预测的时间序列数据。自动相关机制（Auto-Correlation）：这个模块通过检测时间序列中的周期性依赖关系，生成相关矩阵（K,Q,V表示键、查询和值）
Transformer精选问答 EmbodiedTech 大模型人工智能 transformer 深度学习人工智能
Transformer精选问答1Transformer各自模块作用Encoder模块经典的Transformer架构中的Encoder模块包含6个EncoderBlock.每个EncoderBlock包含两个子模块,分别是多头自注意力层,和前馈全连接层.多头自注意力层采用的是一种ScaledDot-ProductAttention的计算方式,实验结果表明,Multi-head可以在更细致的层面上提
迁移学习入门 EmbodiedTech 人工智能大模型迁移学习人工智能机器学习
迁移学习1迁移学习的概念预训练模型定义:简单来说别人训练好的模型。一般预训练模型具备复杂的网络模型结构；一般是在大量的语料下训练完成的预训练语言模型的类别现在我们接触到的预训练语言模型，基本上都是基于transformer这个模型迭代而来的因此划分模型类别的时候，以transformer架构来划分：Encoder-Only:只有编码器部分的模型，代表：BERTDecoder-Only:只要解码器部
Windows 图形显示驱动开发-WDDM 3.0功能- D3D12 视频编码（二）程序员王马 windows图形显示驱动开发驱动开发
D3D12视频编码回调函数驱动程序实现以下回调函数以支持D3D12视频编码。创建表示视频编码器的驱动程序对象：PFND3D12DDI_CALCPRIVATEVIDEOENCODERSIZE_0082_0会计算D3D运行时需要为驱动程序对象分配的内存量。PFND3D12DDI_CREATEVIDEOENCODER_0082_0创建保存视频编码会话状态的实际视频编码器对象。创建表示视频编码器堆的驱动程
Ultralytics包引起的编码报错问题 Xylokrysen 深度学习深度学习 YOLO
安装完Ultralytics包后，加载YOLO相关模型，执行报错：UnicodeEncodeError:'gbk'codeccan'tencodecharacter'\u0467'inposition3:illegalmultibytesequence这个错误是由于文件编码问题引起的，Ultralytics在初始化时会尝试创建或更新配置文件settings.yaml，而Windows系统默认使用G
goweb中文件上传和文件下载 Villiam_AY xcode macos ide golang
文件上传文件上传:客户端把上传文件转换为二进制流后发送给服务器,服务器对二进制流进行解析HTML表单(form)enctype(EncodeType)属性控制表单在提交数据到服务器时数据的编码类型enctype=“application/x-www-form-urlencoded”默认值,表单数据会被编码为名称/值形式。oenctype="multipart/form-data”编码成消息,每个控
python_学习爬虫遇到的第二个问题_urllib获取baidu搜索后网页源代码 KJDETL python_爬虫 python 学习爬虫
第二天学习爬虫，学习的是通过urllib.request和urllib.parse获取baidu搜索后网页源代码。importurllib.requestimporturllib.parse#请求网址url='https://www.baidu.com/s?'#想要搜索的内容data={'wd':'周杰伦'}#通过urllib.parse.urlencode将data进行url编码new_data
【ComfyUI专栏】ComfyUI引用Embedded和HyperNetwork超网络雾岛心情 ComfyUI ComfyUI AIGC
大家如果使用过WebUI，那么一定知道界面中存在的Embedding和HyperNetworks。在界面中我们直接点击相应的嵌入式和超网络就能直接使用。ComfyUI的界面设计不如WEBUI直观，但我们仍可通过Text-Encoder输入Embedding来实现Embedding的引入。在C站（Civitai）上，我们可以看到种类繁多的Embedding资源。这些文件通常体积较小，大多只有几十KB
Transformer 架构深度剖析时光旅人01号人工智能技术科普 transformer 深度学习人工智能 conda opencv 计算机视觉
一、Transformer架构核心设计1.1整体架构Transformer由编码器（Encoder）和解码器（Decoder）堆叠而成，每个层包含：多头自注意力（Multi-HeadSelf-Attention）前馈网络（Feed-ForwardNetwork,FFN）残差连接（ResidualConnection）和层归一化（LayerNorm）关键特性：完全基于注意力机制，摒弃了循环和卷积结构
Python第二十三课：自监督学习 | 无标注数据的觉醒程之编 Python全栈通关秘籍 python 开发语言人工智能机器学习
本节目标理解自监督学习的核心范式与优势掌握对比学习（ContrastiveLearning）框架实现图像掩码自编码器（MaskedAutoencoder）开发实战项目：亿级参数模型轻量化探索数据增强的创造性艺术一、自监督学习基础（AI的拼图游戏）1.核心思想解析学习范式数据需求生活比喻监督学习海量标注数据老师逐题批改作业无监督学习纯无标签数据自学杂乱笔记自监督学习自动生成伪标签玩拼图游戏（根据碎片
TCP的通信过程姬浩然 python tcp通信过程的实现 python
3.TCP通信过程3.1编码解码ipython3工具安装pip3installipython3s="hellodage"#str类型不能直接在网络中传输如果需要传输需要转换为Bytes二进制字节类型#utf-8编码情况一个汉字3个字节；GBK编码情况下一个汉字2字节s1="hello大哥"#str-编码->bytes二进制数据=字符串数据.encode(encoding='utf-8')In[8]
Java程序开发之Spring Security实战：JWT实现登录鉴权微风不留尘 java java spring java入门 spring security
一、JWT与安全认证核心原理1.JWT结构解析Header（头部）{"alg":"HS256","typ":"JWT"}Payload（负载）{"sub":"user123","exp":1680403200,"roles":["USER","ADMIN"]}Signature（签名）HMACSHA256(base64UrlEncode(header)+"."+base64UrlEncode(pa
Leetcode Hot100 第40题 297.二叉树的序列化和反序列化 onlyzzr 暑期实习刷题记录 leetcode 深度优先算法
/***Definitionforabinarytreenode.*structTreeNode{*intval;*TreeNode*left;*TreeNode*right;*TreeNode(intx):val(x),left(NULL),right(NULL){}*};*/classCodec{public:intindex;//Encodesatreetoasinglestring.str
接口测试中加密参数如何处理？海姐软件测试接口测试 python 开发语言测试工具职场和发展
1.加密类型及应对策略①对称加密（AES/DES）特点：加密解密使用同一密钥。处理方法：向开发获取密钥和加密算法（如AES-CBC、AES-ECB）。使用代码或工具解密响应数据：python复制fromCrypto.CipherimportAESimportbase64defdecrypt_aes(key,encrypted_data):cipher=AES.new(key.encode(),AE
安卓实现魔改版 Base64 算法 CYRUS STUDIO android 算法逆向 base64 网络安全安全
版权归作者所有，如有转发，请注明文章出处：https://cyrus-studio.github.io/blog/Java实现标准Base64编码和解码Base64编码：valencoded=Base64.encodeToString(str.toByteArray(),Base64.DEFAULT)Base64解码：valdecoded=Base64.decode(str,Base64.DEFA
深度学习 bert与Transformer的区别联系 Humingway 深度学习 bert transformer
BERT（BidirectionalEncoderRepresentationsfromTransformers）和Transformer都是现代自然语言处理（NLP）中的重要概念，但它们代表不同的层面。理解这两者之间的区别与联系有助于更好地掌握它们在NLP任务中的应用。TransformerTransformer是一种特定的深度学习模型架构，由Vaswani等人在2017年的论文《Attenti
base64加密解密架构师成长进阶空间 Java java
packagecom.github.util;importorg.apache.tomcat.util.codec.binary.Base64;publicclassBase64Util{//加密publicstaticStringgetBase64(Stringstr){StringencodeBase64String=Base64.encodeBase64String(str.getBytes
Windows 图形显示驱动开发-WDDM 3.2- D3D12 AV1 视频编码（二）程序员王马 windows图形显示驱动开发 windows 驱动开发
AV1的预期位流标头值驱动程序/主机标头编码责任给定具有K个磁贴的编码帧，驱动程序将在压缩位流中写入K个decode_tile()AV1语法元素，这与EncodeFrame参数中请求的磁贴相对应。然后，API客户端利用tile_start_and_end_present_flag/tg_start/tg_end元素构建tile_group_obu()AV1语法元素，以便根据需要将磁贴排列为磁贴组，
为什么VAE效果不好，但VAE+diffusion效果就好了？ AndrewHZ 深度学习新浪潮算法计算机视觉深度学习扩散模型 VAE 生成式模型技术分析
1.什么是VAE?VAE（VariationalAutoencoder，变分自编码器）是一种基于概率生成模型的深度学习框架，主要用于数据生成和潜在空间建模。它结合了自编码器（Autoencoder）的结构和变分推断（VariationalInference）的思想，能够从数据中学习有意义的潜在表示，并生成与训练数据相似的新样本。VAE的核心思想编码-解码结构类似传统自编码器，VAE包含两个部分：编
BERT（Bidirectional Encoder Representations from Transformers）的序列分类模型，简单学习记录努力努力再努力呐 BERT bert 分类学习
一、代码#本地离线模型使用fromtransformersimportAutoModelForCausalLM,AutoTokenizer,pipeline,BertForSequenceClassification,BertTokenizer#设置具体包含config.json的目录，只支持绝对路径model_dir=r"models\bert-base-chinese"#model_dir=r
LeetCode 热题 100_字符串解码（71_394_中等_C++）（栈） Dream it possible！ LeetCode 热题 100 leetcode c++算法
LeetCode热题100_字符串解码（71_394）题目描述：输入输出样例：题解：解题思路：思路一（栈）：代码实现代码实现（栈）：以思路一为例进行调试题目描述：给定一个经过编码的字符串，返回它解码后的字符串。编码规则为:k[encoded_string]，表示其中方括号内部的encoded_string正好重复k次。注意k保证为正整数。你可以认为输入字符串总是有效的；输入字符串中没有额外的空格，
分享一些自认为好用的解码平台肆—— 安全
综合平台：以下是两个含有多种解密网站的平台，可用于完成多数密码解密https://ctf.bugku.com/toolshttp://www.hiencode.com/摩斯密码解密平台：https://www.lddgo.net/encrypt/morse核心价值观解码平台：http://www.hiencode.com/cvencode.html
java生成二维码并与另一张图片合成，添加文字水印 DN金猿 springboot组件专题 eureka 蓝桥杯 elementui
效果图1.引入pomcom.google.zxingcore3.3.3com.google.zxingjavase3.3.32.工具类importcom.google.zxing.BarcodeFormat;importcom.google.zxing.EncodeHintType;importcom.google.zxing.MultiFormatWriter;importco
Java-生成二维码带多行文字-支持自动换行-支持tab缩进效果-支持高度自适应江节胜-胜行全栈AI Java java
最新版本更新https://code.jiangjiesheng.cn/article/3521.样式1：2.1效果图：忽略红色，最外层的红色只是方便展示当前图片的宽高2.2代码packagecn.jiangjiesheng.utils;importcom.google.zxing.BarcodeFormat;importcom.google.zxing.EncodeHintType;import
预览pdf，word等 cypking 前端
https://view.officeapps.live.com/op/view.aspx?src=${encodeURIComponent(documentFile)}
STM32标准库之编码器接口示例代码星仔极客示例代码 #STM32标准库示例代码 stm32 单片机嵌入式硬件
编码器接口测速Encoder.c#include"stm32f10x.h"//Deviceheader/***函数：编码器初始化*参数：无*返回值：无*/voidEncoder_Init(void){/*开启时钟*/RCC_APB1PeriphClockCmd(RCC_APB1Periph_TIM3,ENABLE);//开启TIM3的时钟RCC_APB2PeriphClockCmd(RCC_APB
WebRTC新增FFmpeg视频编解码模块程序员老舅音视频开发进阶 webrtc 视频编解码实时音视频音视频 c++
1整体描述目前webrtc内置的视频编解码器包括：VP8、VP9、AV1和H264。一般情况下载pc端基本可以满足大部分的需求，但是有时候为了进行编解码器的扩展包括支持H265或者是支持硬件编解码以提升效率时需要新增编解码模块。2新增外部编码器编码器实现的要点包括两个部分：一是需要实现以VideoEncoder为基类的编码器对象，核心API实现如下：（1）初始化编码器，将编码参数传入进行初始化。v
音视频处理中的基本概念码农飞飞音视频处理基本概念音视频编码解码
文章目录编码(encode)解码(decode)转码(transcode)视频编码音频编码视频编码参数解析音频编码参数解析各种音视频流介绍流媒体传输部署结构实时流式传输工作流程直播过程的几种工作模式要想入门并学好音视频处理，明白理解音视频处理中的各种基本概念是第一步。这是音视频处理工作中的基石。掌握了解这些概念，对于在音视频领域的发展大有裨益。这里总结了音视频处理中常涉及到的一些概念，希望对想从事
Transformer 代码剖析15 - Transformer模型代码（pytorch实现） lczdyx Transformer代码剖析 transformer pytorch 深度学习 embedding 人工智能 python
一、模型架构全景解析1.1类定义与继承关系classTransformer(nn.Module):该实现继承PyTorch的nn.Module基类，采用面向对象设计模式。核心架构包含编码器-解码器双塔结构，通过参数配置实现NLP任务的通用处理能力。TransformerEncoderDecoderMulti-HeadAttentionFeedForwardMaskedMulti-HeadAtten
攻防世界-web- easyphp 32进制 ctf web 攻防世界CTF php 开发语言
#攻防世界-web-easyphp依次构造a、b、c的值！";break;}$i++;}//$c=array("m",2022,array("n","DGGJ","DGGJ"));//echojson_encode($c);//$c=json_encode($c);//shic={"m":"12345a","n":[[0,1,2],0]}$c=array("m",2022,array("n","D
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比

x264里的2pass指的是什么意思? x264源代码分析2.encode()

A:x264里的2pass指的是什么意思?另外stat是什么意思, 比如有个参数--stats <string> Filename for 2 pass stats [/"%s/"]/n", defaults->rc.psz_stat_out );stats在这是什么意思?

2pass是2次编码的意思，stats是统计文档的名称，记录了1pass中的信息.2次编码就相当于2次转换这么做虽然转换时间会漫长，但压出的片子会有更好的画质，画面细节更好，而且体积会更小

A:那个达人能简单说说x264中 rc 部分 1pass 和 2pass的思路？

你可能感兴趣的:(encode)

A:x264里的2pass指的是什么意思?另外stat是什么意思, 比如有个参数--stats <string> Filename for 2 pass stats [/"%s/"]/n", defaults->rc.psz_stat_out );
stats在这是什么意思?