fangbaolei2088

运动估计

2009-11-17 12:11

理论知识：

两帧之间的物体运动是平移运动，位移量不是很很大，所以会以块作为单位分配运动矢量，在运动估计中采用了大量的参考帧预测来提高精度，当前的待编码块可以在缓存内的所有重建帧中寻找最优的匹配块进行运动补偿，以便很好的去除时间域的冗余度。为每一个块寻求一个运动矢量MV，并进行运动补偿预测编码。在每个分割区域中都有其对应的运动矢量，并对运动矢量以及块的选择方式进行编码和传输。
运动估计ME所表达的运动矢量MV，其研究的内容就是如何加速，有效的获得足够精确的mv，并且把前一帧所得的运动信息通过运动补偿MC来进行变换，量化编码，最后输出。
缩写含义：me得到的是mV
预测得到的是mvp
差值是mvd
MV:运动向量,参考帧中相对于当前帧的偏移
MVp:参考运动向量
MVD：两个向量间的差别

提高运动估计算法的效率的主要技术有：初始搜索点的选择，匹配准则，和运动搜索策略。
1.运动估计初始点的搜索：
1）直接选择参考帧对应块的中心位置，这种方法简单，但容易陷入局部最优点，如果初始的步长太大，而原点（指待搜索块的中心点在参考帧中的相同位置的对应点）不是最优点时候，可能使快速搜索跳出原点周围的区域，而去搜索较远的点，导致搜索方向的不确定性，陷入局部最优。
2）选择预测的起点，以预测点作为搜索的起点，
x264采用的将运动估计矢量和参考帧的左边，上边和右上边的MB的中值MV作为起点进行ME。
2. 匹配准则，
x264中所采用的匹配准则是SAD，SATD. SAD 即绝对误差和，仅反映残差时域差异，影响PSNR值，不能有效反映码流的大小。SATD即将残差经哈德曼变换的4×4块的预测残差绝对值总和，可以将其看作简单的时频变换，其值在一定程度上可以反映生成码流的大小。因此，不用率失真最优化时，可将其作为模式选择的依据。
一般帧内要对所有的模式进行检测，帧内预测选用SATD.在做运动估计时，一般而言，离最优匹配点越远，匹配误差值SAD越大，这就是有名的单一平面假设，现有的运动估计快速算法大都利用该特性。但是，转换后 SATD值并不满足该条件，如果在整象素中运用SATD搜索，容易陷入局部最优点。而在亚象素中，待搜索点不多，各点处的SAD差异相对不大，可以用 SATD选择码流较少的匹配位置。
3.运动搜索策略
x264所采用的运动搜索策略（对应的最后面的程序中有描述）：
#define X264_ME_DIA                  0
#define X264_ME_HEX                  1
#define X264_ME_UMH                  2
#define X264_ME_ESA                  3
#define X264_ME_TESA                 4

下面就在x264中的运动估计所涉及的函数进行跟踪：
ME的分析在函数x264_slice_write( x264_t *h )中的x264_macroblock_analyse( h );中：进入这个函数：由于对于I帧类型采用的帧内编码，这部分没有采用ME，所以对于I帧的分析略。
进入帧间类型（P/B）的分析中：以P帧的16*16MB为例进行跟踪：进入函数：
x264_mb_analyse_inter_p16x16( x264_t *h, x264_mb_analysis_t *a )
{   //对参考帧中的所有16*16块进行分析
for( i_ref = 0; i_ref < h->mb.pic.i_fref[0]; i_ref++ )
{
.......
/* search with ref */
LOAD_HPELS( &m, h->mb.pic.p_fref[0][i_ref], 0, i_ref, 0, 0 );
x264_mb_predict_mv_16x16( h, 0, i_ref, m.mvp );//下面的有详细的注释1
x264_mb_predict_mv_ref16x16( h, 0, i_ref, mvc, &i_mvc );// 注释2
x264_me_search_ref( h, &m, mvc, i_mvc, p_halfpel_thresh );// 注释3
.......
}

}

// 注释1：进行16*16的块的mv预测，得到运动估计的起始方向，并将获得的MV赋值给MVP，在下一步中使用
x264_mb_predict_mv_16x16( h, 0, i_ref, m.mvp );
void x264_mb_predict_mv_16x16( x264_t *h, int i_list, int i_ref, int16_t mvp[2] )
{
int     i_refa = h->mb.cache.ref[i_list][X264_SCAN8_0 - 1];//亮度左边块
int16_t *mv_a = h->mb.cache.mv[i_list][X264_SCAN8_0 - 1];
int     i_refb = h->mb.cache.ref[i_list][X264_SCAN8_0 - 8];//亮度上边块
int16_t *mv_b = h->mb.cache.mv[i_list][X264_SCAN8_0 - 8];
int     i_refc = h->mb.cache.ref[i_list][X264_SCAN8_0 - 8 + 4];//亮度的右上边块
int16_t *mv_c = h->mb.cache.mv[i_list][X264_SCAN8_0 - 8 + 4];
//当i_refc不存在时，就将i_refc赋值为左上边的块
if( i_refc == -2 )
{
i_refc = h->mb.cache.ref[i_list][X264_SCAN8_0 - 8 - 1];
mv_c   = h->mb.cache.mv[i_list][X264_SCAN8_0 - 8 - 1];
}
//看i_efa/b/c是否是在参考帧所对应中的那一块，若是i_count++，i_count是用来进行Mvp预测选择何种方式的一种标志
if( i_refa == i_ref ) i_count++;
if( i_refb == i_ref ) i_count++;
if( i_refc == i_ref ) i_count++;

if( i_count > 1 )
{
median:
x264_median_mv( mvp, mv_a, mv_b, mv_c );
}
else if( i_count == 1 )
{
if( i_refa == i_ref )
*(uint32_t*)mvp = *(uint32_t*)mv_a;
else if( i_refb == i_ref )
*(uint32_t*)mvp = *(uint32_t*)mv_b;
else
*(uint32_t*)mvp = *(uint32_t*)mv_c;
}
else if( i_refb == -2 && i_refc == -2 && i_refa != -2 )
*(uint32_t*)mvp = *(uint32_t*)mv_a;
else
goto median;
}
}

// 注释2：细化16*16块mv预测
/* This just improves encoder performance, it's not part of the spec */
x264_mb_predict_mv_ref16x16( h, 0, i_ref, mvc, &i_mvc );

void x264_mb_predict_mv_ref16x16( x264_t *h, int i_list, int i_ref, int16_t mvc[9][2], int *i_mvc )
{
//设运动补偿
#define SET_MVP(mvp) { \
*(uint32_t*)mvc[i] = *(uint32_t*)mvp; \
i++; \
}
......
//空间预测：获取左边，上边和左上的mb的mvc[i]，得到不同的类型的MVC，获得i个mvc
if( h->mb.i_neighbour & MB_LEFT )
{
int i_mb_l = h->mb.i_mb_xy - 1;
/* skip MBs didn't go through the whole search process, so mvr is undefined */
if( !IS_SKIP( h->mb.type[i_mb_l] ) )
SET_MVP( mvr[i_mb_l] );
}
if( h->mb.i_neighbour & MB_TOP )
{
int i_mb_t = h->mb.i_mb_top_xy;
if( !IS_SKIP( h->mb.type[i_mb_t] ) )
SET_MVP( mvr[i_mb_t] );

if( h->mb.i_neighbour & MB_TOPLEFT && !IS_SKIP( h->mb.type[i_mb_t - 1] ) )
SET_MVP( mvr[i_mb_t-1] );
if( h->mb.i_mb_x < h->mb.i_mb_stride - 1 && !IS_SKIP( h->mb.type[i_mb_t + 1] ) )
SET_MVP( mvr[i_mb_t+1] );
}
//时间预测
//dx,dy表示在时间差上的参考帧上对应点的坐标差
#define SET_TMVP(dx, dy) { \
int i_b4 = h->mb.i_b4_xy + dx*4 + dy*4*h->mb.i_b4_stride; \
int i_b8 = h->mb.i_b8_xy + dx*2 + dy*2*h->mb.i_b8_stride; \
int ref_col = l0->ref[0][i_b8]; \
if( ref_col >= 0 ) \
{ \
int scale = (h->fdec->i_poc - h->fdec->ref_poc[0][i_ref]) * l0->inv_ref_poc[ref_col];\
mvc[i][0] = (l0->mv[0][i_b4][0]*scale + 128) >> 8;\
mvc[i][1] = (l0->mv[0][i_b4][1]*scale + 128) >> 8;\
i++; \
} \
}
}

// 注释3
x264_me_search_ref( h, &m, mvc, i_mvc, p_halfpel_thresh );
void x264_me_search_ref( x264_t *h, x264_me_t *m, int16_t (*mvc)[2], int i_mvc, int *p_halfpel_thresh )
{
//初始化
.......

bmx = x264_clip3( m->mvp[0], mv_x_min*4, mv_x_max*4 );
bmy = x264_clip3( m->mvp[1], mv_y_min*4, mv_y_max*4 );
//这些变量*4，或者左移2位，是因为要得到分数像素（1/4像素）
pmx = ( bmx + 2 ) >> 2;
pmy = ( bmy + 2 ) >> 2;
bcost = COST_MAX;

/* try extra predictors if provided */
if( h->mb.i_subpel_refine >= 3 )
{
uint32_t bmv = pack16to32_mask(bmx,bmy);
COST_MV_HPEL( bmx, bmy );     //对COST_MV_HPEL目的：获得最佳cost的坐标
for( i = 0; i < i_mvc; i++ )
{
if( *(uint32_t*)mvc[i] && (bmv - *(uint32_t*)mvc[i]) )
{
int mx = x264_clip3( mvc[i][0], mv_x_min*4, mv_x_max*4 );
int my = x264_clip3( mvc[i][1], mv_y_min*4, mv_y_max*4 );
COST_MV_HPEL( mx, my );
}
}
bmx = ( bpred_mx + 2 ) >> 2;
bmy = ( bpred_my + 2 ) >> 2;
COST_MV( bmx, bmy );
}
else
{
/* check the MVP */
COST_MV( pmx, pmy );
bcost -= BITS_MVD( pmx, pmy );
for( i = 0; i < i_mvc; i++ )
{
int mx = (mvc[i][0] + 2) >> 2;
int my = (mvc[i][1] + 2) >> 2;
if( (mx | my) && ((mx-bmx) | (my-bmy)) )
{
mx = x264_clip3( mx, mv_x_min, mv_x_max );
my = x264_clip3( my, mv_y_min, mv_y_max );
COST_MV( mx, my );
}
}
}
COST_MV( 0, 0 );

//下面是对me方式的选择switch语句：#define X264_ME_DIA                  0
#define X264_ME_HEX                  1
#define X264_ME_UMH                  2
#define X264_ME_ESA                  3
#define X264_ME_TESA                 4
//switch( h->mb.i_me_method )中的参数 h->mb.i_me_method = h->param.analyse.i_me_method;
//根据用户的命令输入决定运动矢量的精度程度，根据空间相关性，用求出的左，上，左上的编码的宏块的//MV得到当前mb的mv的预测值mvp，以预测向量mvp的为初始原点，进行整数像素的搜索

case X264_ME_DIA:
//钻石形搜索：在do_while循环中，总是以一个菱形的形式进行搜索，只是原点发生变化，这个变化时有//bcost带来的，而坐标
//原点是有bmx,bmy的变化来获得：
//bmx,bmy的定义：bmx = x264_clip3( m->mvp[0], mv_x_min*4, mv_x_max*4 );
bmy = x264_clip3( m->mvp[1], mv_y_min*4, mv_y_max*4 );

bcost <<= 4;//这里的左移是为了和(costs[0]<<4)+N对应
do
{
//以bmx,bmy为基点在周围进行其四点的mv cost计算
COST_MV_X4_DIR( 0,-1, 0,1, -1,0, 1,0, costs );
COPY1_IF_LT( bcost, (costs[0]<<4)+1 );//cost左移了，还要再加N了,加N时为了区别是哪个点
COPY1_IF_LT( bcost, (costs[1]<<4)+3 );
COPY1_IF_LT( bcost, (costs[2]<<4)+4 );
COPY1_IF_LT( bcost, (costs[3]<<4)+12 );
if( !(bcost&15) )//后4位进行检测，如果后4位是0，就是证明所进行比较的4点都是比原点要大，所以不需要继续搜索了
break;
bmx -= (bcost<<28)>>30;//为什么要这么麻烦的同时左移和右移了，何不直接除以4
bmy -= (bcost<<30)>>30;
bcost &= ~15;
if( !CHECK_MVRANGE(bmx, bmy) )
break;
} while( ++i < i_me_range );
........
case X264_ME_HEX:六边形搜索+正方形细化，先进行六边形搜索，计算六个方向的矢量的cost，以最小者为起点，再进行正方形细化，
搜索当前的最佳的mv的头的8个连结点的向量的cost，比较大小得到mv，过程和钻石形类似

case X264_ME_UMH:非对称十字多六边形网格搜索，
具体的搜索步骤引用（http://bbs.chinavideo.org/viewthread.php?tid=7204&highlight=%D4%CB%B6%AF%B9%C0%BC%C6）
JM中快速整像素运动估计算法 (Unsymmetrical-cross Muti-Hexagon- grid Search)即UMHexagonS，该算法高效的起始点预测和搜索策略，
该算法用四个步骤完成。
第一步：用多种预测模式进行初始搜索点预测。主要对以下运动矢量所指向的点进行搜索，获得当前最优预测起点。
A,中值预测；
B,原点预测；
C,上层块预测；
D,前帧同位置块预测；
E,相邻(多)参考帧预测。
第二步：进行混合搜索,包括如下：
A，非对称十字搜索。
B，5×5 全搜索。
C，扩展的多层次六边形(六角形)格点搜索。
第三步：以当前最优点为中心，用六边形(六角形)进行搜索，直至最优点在六边型的中点为止。
第四步：以当前最优点为中心，用小菱形进行搜索，直至最优点在小菱形的中点为止。

在x264中，对于初始索引点的位置是在x264_mb_predict_mv_16x16中已经获得，在case X264_ME_UMH中主要是进行后面的三步。部分函数解释如下:
...................
DIA1_ITER( pmx, pmy );//在1/4像素出进行小菱形的搜索，并获得最小值
.........
// 若为i_piexl为4*4时，直接进行六边形细化，因为其预测矢量的精度较高，可以跳过十字形搜索和多级六边形搜索，
if(i_pixel == PIXEL_4x4)
goto me_hex2;
............
// 将获得的1/4像素的cost(ucost2)和整像素的cost进行比较，若果相等就赋值cross_start=3,此时的Bcost//为整像素的cost,ucost1为初始的cost
if( bcost == ucost2 )
cross_start = 3;
................
//cross 函数主要是在进行十字搜索，在垂直和水平方向进行搜索最小的cost
CROSS( 3, range, range );
.............................

case X264_ME_ESA:穷尽搜索法,x264已经取消了这种古老的全搜索法，而是采用下面改进的搜索法
case X264_ME_TESA:hadamard 全搜索法,这个算法和ESA相比主要是在搜索范围上的变化

//在完成了上面的整像素搜索后，由参数设置来进行1/2,1/4像素的搜索
if( bpred_cost < bcost )
{
m->mv[0] = bpred_mx;
m->mv[1] = bpred_my;
m->cost = bpred_cost;
}
else
{
m->mv[0] = bmx << 2;
m->mv[1] = bmy << 2;
m->cost = bcost;
}

/* compute the real cost */
m->cost_mv = p_cost_mvx[ m->mv[0] ] + p_cost_mvy[ m->mv[1] ];
if( bmx == pmx && bmy == pmy && h->mb.i_subpel_refine < 3 )
m->cost += m->cost_mv;

/* subpel refine */
if( h->mb.i_subpel_refine >= 2 )
{
int hpel = subpel_iterations[h->mb.i_subpel_refine][2];
int qpel = subpel_iterations[h->mb.i_subpel_refine][3];
refine_subpel( h, m, hpel, qpel, p_halfpel_thresh, 0 );
}
}

以上只是针对16*16帧间的MB的运动估计的跟踪，其他MB类型的ME类似。

Ubuntu: 配置OpenCV环境达柳斯·绍达华·宁 ubuntu opencv linux
从从Ubuntu系统安装opencv_ubuntu安装opencv-CSDN博客文章浏览阅读2.3k次，点赞4次，收藏14次。开源计算机视觉(OpenCV)是一个主要针对实时计算机视觉的编程函数库。OpenCV的应用领域包括:2D和3D功能工具包、运动估计、面部识别系统、手势识别、人机交互、移动机器人、动作理解、物体识别、分割和识别、实体影像立体视觉:来自两个摄像机的深度感知、运动跟踪、增强现实等
转：X264函数功能总结 hongge372
函数名称所以位置完成功能voidx264_frame_filtercommon\mc.c帧滤波voidx264_frame_init_lowrescommon\mc.c亮度1/2像素值初始化voidx264_mc_initcommon\mc.c运动估计初始化staticvoidmotion_compensation_chromacommon\mc.c色度运动估计staticuint8_t*get_
计算机视觉所需要的数学基础 superdont 计算机视觉计算机视觉人工智能
计算机视觉领域中使用的数学知识广泛而深入，以下是一些关键知识点及其在计算机视觉中的应用：线性代数：-矩阵运算：用于图像的表示和处理，如图像旋转、缩放、裁剪等。-向量空间：用于描述图像中的点、方向和形状。-特征值和特征向量：用于图像的特征提取和降维。微积分：-导数：用于图像边缘检测，通过计算图像亮度的变化率来识别边缘。-积分：用于图像的面积和体积计算，以及光流法中的运动估计。概率论与统计学：-概率分
论文解读--Wheel extraction based on micro doppler distribution using high-resolution radar 奔袭的算法工程师论文解读人工智能算法目标检测机器学习自动驾驶
基于高分辨率雷达微多普勒分布的车轮提取摘要随着先进驾驶辅助系统(ADAS)在城市场景中的出现，对汽车、卡车或摩托车等轮式车辆进行快速可靠的分类和运动估计至关重要。车轮的速度不同于车辆的底盘速度的事实被利用。第一次，基于多普勒分布的全自动方法提取了车轮的确切位置。计算归一化多普勒矩，描述基于车轮多普勒分布的每个反射的多普勒特征。具有高值的位置显示轮子的位置。除了分类之外，还可以估计车辆的方向，从而估
在全志T113-i平台上实现H.265视频解码步骤详解 DOT小文哥智能硬件 h.265 视频编解码视频全志
H.265，也被称为HEVC(HighEfficiencyVideoCoding)，作为H.264的继任者，提供了更好的视频压缩和更高的视频质。H.265通过引入更多先进的编码技术，如更强大的运动估计和更高效的变换编码，对比H.264进行了改进。这些改进使得H.265能够以相同的质量下使用较低的比特率进行视频压缩，从而降低存储和传输的成本。H.265标准的诞生是在有限带宽下传输更高质量的网络视频。
VIO学习总结 a81eefb19dfe
VIO学习总结VIO（visual-inertialodometry）即视觉惯性里程计，有时也叫视觉惯性系统（VINS，visual-inertialsystem），是融合相机和IMU数据实现SLAM的算法，根据融合框架的区别又分为紧耦合和松耦合，松耦合中视觉运动估计和惯导运动估计系统是两个独立的模块，将每个模块的输出结果进行融合，而紧耦合则是使用两个传感器的原始数据共同估计一组变量，传感器噪声也
LOAM: Lidar Odometry and Mapping in Real-time 论文阅读 KrMzyc 论文阅读
论文链接LOAM:LidarOdometryandMappinginReal-time0.Abstract提出了一种使用二维激光雷达在6自由度运动中的距离测量进行即时测距和建图的方法距离测量是在不同的时间接收到的，并且运动估计中的误差可能导致生成的点云的错误配准本文的方法在不需要高精度测距或惯性测量的情况下同时实现了低漂移和低计算复杂性关键思想是将同时定位和建图的复杂问题划分为两个算法一个算法以高
H.264运动补偿（Motion Compensation）概念（块匹配、运动矢量和残差编码、块划分和运动估计）（运动估计算法：全搜索、钻石搜索、六边形搜索） Dontla ffmpeg 音视频 h.264 算法网络
文章目录H.264运动补偿概念引言I.运动补偿基本原理1.1运动预测1.2帧类型1.3块匹配II.运动矢量和残差编码2.1运动矢量2.2残差编码III.H.264运动补偿技术难点3.1块划分和运动估计3.2残差编码3.3B帧的预测IV.H.264运动补偿实现4.1帧划分与运动估计4.2残差编码V.总结H.264运动补偿概念引言在视频编码中，减少冗余信息是提高编码效率的关键。这种冗余信息包括空间冗余
H.264宏块（Macroblock）概念（运动估计、变换编码、环路滤波） Dontla 音视频 ffmpeg ffmpeg
参考文章：音视频高手课系列5-h264编码基础(宏块原理)参考文章：切片slice与宏块，运动矢量文章目录使用videoEye分析视频宏块示例H.264宏块概念1.宏块的定义2.运动估计3.变换编码4.环路滤波5.注意：宏块的概念既适用于帧内编码，也适用于帧间编码宏块是为了解决帧内压缩问题，还是帧间压缩问题？参考文献使用videoEye分析视频宏块示例使用videoEye软件，导入视频，点击单帧解
H266/VVC帧间预测编码技术概述 DogDaoDao H266(VVC)标准人工智能视频编解码 H266 VVC 深度学习预测编码实时音视频
帧间预测编码简述帧间预测利用视频时间域的相关性，使用邻近已编码图像像素值预测当前图像的像素值，能有效去除视频时域冗余。目前主要的视频编码标准中，帧间预测都采用基于块的运动补偿技术，不同的编码标准有不同的分块方式。为当前图像的每个像素块在之前已编码图像找到一个最佳匹配块，这个寻找过程就称为运动估计（MotionEstimation，ME）。用于预测的图像被称为参考图像或参考帧（ReferencePi
FFmpeg X264编码参数音视频开发之旅音视频开发之旅深度学习机器学习 javascript
原文章是台湾省的音视频前辈翻译而来，其中用到了一些词语稍微有些不同，为了更好的阅读和理解，进行了修改替换，具体如下：位元率—〉比特率片子—〉slice位元数—〉比特数资料—〉数据资料流—〉数据流视讯—〉视频弹性—〉自适应支援—〉支持装置—〉设备筛选—〉滤波器巨集区块—〉宏块动态向量—〉运动向量动态估算—〉运动估计解复用器—〉解复用器副文件名—〉后缀名档案—〉文件资讯—〉信息旗标—〉标记档名—〉文件
ffplay工具 WongKyunban 音视频开发音视频 ffmpeg
在编译ffmpeg时，如果系统中包含了SDL库，则会默认编译生成ffplay工具，否则无法生成ffplay工具。ffplay即可以作为播放器，也可以作为很多图像化音视频数据的分析工具，通过它可以看到视频图像的运动估计方向、音频数据的波形等。ffplay也可以作为用于测试ffmpeg的codec引擎、format引擎、filter引擎的工具。ffplay的常用参数，更多的参数信息请参考ffplay的
HEVC中的帧间预测 Cohen_ina HEVC/H.265
帧间预测的基本原理：利用相邻的已经编码的图像为当前编码块寻找最佳匹配块，把这个最佳匹配块作为当前块的预测值，然后将预测值和当前块的原始像素值相减，得到当前块的残差值，后续的变换、量化等操作都是基于残差值进行的。运动估计：利用预测的运动矢量为当前编码块在参考帧上寻找一个最佳匹配块作为当前块的预测值，并得到残差值的过程常见的一些有关帧间预测的缩略词：ME指的是运动估计MC指的是运动补偿MV指的是预测块
通俗易懂——HEVC帧间预测简要知识点总结小惊大怪 HEVC hevc h.264 编码器
帧间预测预测编码分为帧内编码和帧间编码；本文主要简单介绍帧间编码的原理流程，帧间预测是基于块的运动估计方法和运动补偿技术完成对图像的像素值的预测。得到预测值之后与原图像值进行求差得到预测残差。通过对预测残差进行编码传输，达到对数据的大大压缩。预测残差通常是平坦的，很多残差值都接近于零，将残差信号作为后续模块的输入进行变换、量化，编码，可实现对视频信号的高效压缩。与预测残差一同进行变换、量化，编码的
AVC、HEVC、VVC帧间预测技术傻不拉几的程序员工作学习编解码 AVC HEVC VVC
帧间预测总体思路：帧间预测主要的工作是运动估计与运动补偿。所谓运动估计简单说就是在参考帧中找到当前块的最优参考块，用运动向量（MV）表示参考块与当前块的位置关系。所谓运动补偿简单说就是对参考块与当前块求差值得到残差用于传输。总的过程：通过搜索算法找到最优的参考块，计算MV，计算残差，MV提供位置信息，残差提供值的信息。========================================
HEVC帧间预测原理 dawnminghuang 编解码
一、帧间预测基本原理主要原理是为当前图像的每个像素块在之前已编码图像中寻找一个最佳匹配块,该过程称为运动估计(MotionEstimation,ME)。其中用于预测的图像称为参考图(ReferenceFrame)，参考块到当前像素块的位移称为运动向量(MotionVector，MV)，当前像素块与参考块的差值称为预测残差(PredictionResidual)。二、原理展开如果说按照每个像素去参考
计算机视觉基础（6）——光流估计猪猪的超超计算机视觉基础计算机视觉人工智能 opencv 图像处理
前言本章我们来学习一下图像处理基础中的运动估计。主要内容包括运动场估计和光流估计两个部分。在运动场估计中，我们将学习到运动场、光流、光流和运动场的区别；在光流估计中，我们将学习到光流估计任务、孔径问题，以及光流估计两种方法——LucasKnade方法和深度学习方法。一、运动估计运动估计常用于目标跟踪和分割、事件和活动识别以及自动驾驶预测等。1.1运动场定义：三维相对速度矢量在二维图像平面上的投影1
【论文翻译】TNT: Target-driveN Trajectory Prediction 猎猎长风自动驾驶自动驾驶深度学习人工智能
文章目录1.前言2.相关工作3.公式4.目标驱动轨迹预测4.1场景背景编码4.2目标预测4.3目标条件运动估计4.4轨迹评分和选择4.5训练和推理细节5.实验5.1数据集5.2实现细节5.3消融研究TNT：目标驱动的轨迹预测摘要：预测移动代理的未来行为，对于现实世界的应用至关重要。这是具有挑战的，因为代理的意图和相应的行为是未知的并且本质上是多模态的。我们的关键见解是：对于中等时间范围内的预测，未
U3D跳舞的线的运动方式与时间赛跑_
今天完了一下跳舞的线。觉得他的那种线段延伸，向前运动的效果很好看，所以打算自己用u3d做一下。我估计这种线段的运动估计也是个《反应堆》这种方块的行为如出一辙。方块不是真的被切割，而是在下方cube的边界处重现生成cube(原始)-cube(覆盖)的一个全新的体积的cube'。《反应堆》publicGameObjecttargetPrefabs;//预制体publicfloatspeed=1;//速
基于单目的光流法测速陈子迩单目视觉检测与测量 opencv实战 opencv 计算机视觉人工智能
目录1.简介2.代码实现1.简介基于单目的光流法是一种常见的计算机视觉技术，用于估计图像序列中物体的运动速度。它通过分析连续帧之间的像素变化来推断物体在图像中的移动情况。背景：光流法是计算机视觉领域中最早的运动估计方法之一，最早由Horn和Schunck在1981年提出。它基于光流假设，即相邻帧上的像素具有相似的灰度值，且相似的像素在移动过程中会产生相同的位移。光流法不仅可以用于物体的运动跟踪和姿
2019-10-28 usuer
https://blog.csdn.net/tiemaxiaosu/article/details/51719280一、原理在有些场合由于需要检测目标的运动方向，判断是进入检测区域或是离开检测区域，因此需要设定警戒线。运动方向的判断一般通过检测目标的运动方向来判断。也就是运用运动估计的思想。运动方向坚持需要用图像的光流场估算图像的运动场，根据传统估算方法，需要对图像中的每一个象素进行计算，算出图像
Dyna-DepthFormer：Multi-frame Transformer for Self-Supervised Depth Estimation in Dynamic Scene m_buddy #Depth Estimation transformer 深度学习人工智能
参考代码：None在自监督深度估计中特征构建、运动预测对性能影响比较大。特征构建就是高效从图像数据中抽取有效特征，从而使得深度估计结果更准确。而运动估计除了需要估计出自身系统相机系统位姿变化之外，还应该估计出场景中的运动目标这样就可以减少对应区域像素对自监督深度估计的影响。深度估计网络：对于图像特征抽取上文章引入了transformer模块，首先利用帧间关联（运动网络估计出的pose信息）使用de
视觉里程计（1）：什么是视觉里程计小枫小疯视觉里程计深度学习
1.概念：什么是里程计？在里程计问题中，我们希望测量一个运动物体的轨迹。这可以通过许多不同的手段来实现。例如，我们在汽车轮胎上安装计数码盘，就可以得到轮胎转动的距离，从而得到汽车的估计。或者，也可以测量汽车的速度、加速度，通过时间积分来计算它的位移。完成这种运动估计的装置（包括硬件和算法）叫做里程计（Odometry）。2.特性：里程计的特性？里程计一个很重要的特性，是它只关心局部时间上的运动，多
OpenCV 14(角点特征Harris和Shi-Tomasi) Darren_pty opencv 人工智能计算机视觉
一、角点角点是图像很重要的特征,对图像图形的理解和分析有很重要的作用。角点在三维场景重建运动估计，目标跟踪、目标识别、图像配准与匹配等计算机视觉领域起着非常重要的作用。在现实世界中，角点对应于物体的拐角，道路的十字路口、丁字路口等。蓝色框中的区域是一个平面很难被找到和跟踪。无论向哪个方向移动蓝色框，都是一样的对于黑色框中的区域，它是一个边缘。如果沿垂直方向移动，它会改变。但是如果沿水平方向移动就不
本质矩阵基础矩阵单应矩阵 (3) Gone_float 相机线性代数机器学习
除了基本矩阵和本质矩阵，我们还有一种称为单应矩阵（Homography）HHH的东西，它描述了两个平面之间的映射关系。若场景中的特征点都落在同一平面上（比如墙，地面等），则可以通过单应性来进行运动估计。这种情况在无人机携带的俯视相机，或扫地机携带的顶视相机中比较常见。单应矩阵通常描述处于共同平面上的一些点，在两张图像之间的变换关系。考虑在图像I1I1I1和I2I2I2有一对匹配好的特征点p1p1p
开始锻炼了梅子柒
大年初三，开始恢复性锻炼了。一个原因是，阳过40天了，虽然身体没有完全恢复到之前的状态，但是也休养的差不多了，也该动一动了，再不运动估计肌肉都萎缩了。还有一个原因，是为了完成儿子的运动考核。今年情况特殊，走到哪儿都不安全，不太想让儿子出门，所以替他完成这个任务，并且告诉他，以后不要把这样的任务放到假期，毕竟北方冬天完成运动任务还是有一定难度的。室外寒冷不适合，室内健身房不敢去。经历过疫情后我发现，
H.264编码及AAC编码基础岁月指尖流音视频开发音视频 h.264 aac
文章目录前言一、视频编码的实现原理1、视频编码技术的基本原理2、视频编码技术的实现方法3、运动估计和补偿①、块（Block）与宏块（MicroBlock）②、I帧、P帧、B帧的小结③、I帧（帧内编码）④、如何衡量和评价编解码的效果二、H.264编码基础1、H.264快速入门①、视频编码标准化组织②、视频压缩编码的基本技术、预测编码、变换编码、熵编码③、VCLNAL④、档次与级别⑤、常见编码器2、H
GeoNet: Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose 论文阅读玛卡巴卡_qin 论文论文阅读
论文信息题目：GeoNet:UnsupervisedLearningofDenseDepth,OpticalFlowandCameraPose作者：ZhichaoYinandJianpingShi来源：CVPR时间：2018Abstract我们提出了GeoNet，这是一种联合无监督学习框架，用于视频中的单目深度、光流和自我运动估计。这三个组件通过3D场景几何的性质耦合在一起，由我们的框架以端到端的
VIO系统介绍可即 SLAM slam 算法
VIO（visual-inertialodometry）即视觉惯性里程计，有时也叫视觉惯性系统（VINS，visual-inertialsystem），是融合相机和IMU数据实现SLAM的算法，根据融合框架的区别又分为紧耦合和松耦合，松耦合中视觉运动估计和惯导运动估计系统是两个独立的模块，将每个模块的输出结果进行融合，而紧耦合则是使用两个传感器的原始数据共同估计一组变量，传感器噪声也是相互影响的，
全景图像生成算法 LittroInno 算法
摘要全景图像生成是计算机视觉领域的一个重要研究方向。本文对五种经典的全景图像生成算法进行综述，包括基于相机运动估计的算法、基于特征匹配的算法、基于图像切割的算法、基于多项式拟合的算法和基于深度学习的算法。通过对这些算法的原理、优缺点、适用场景等进行详细分析和比较，为相关研究人员和开发人员提供全面的参考和指导。一、引言全景图像生成是将多幅局部图像拼接成一幅包含整个视场范围的全景图像。随着相机硬件的发
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本

运动估计

你可能感兴趣的:(运动估计)