JunZi DD

Vins初始化

Vins初始化过程比较复杂，单看论文难以理解，需要结合代码一起理解。在这里记录一下对初始化的理解，方便以后查看。

初始化的入口函数在Estimator::processImage函数中：

1、初始化的前提条件：

1.1、solver_flag == INITIAL(默认)

1.2、外参已经标定(即已经求解出q(c→b))

1.3、滑动窗口内有足够的图像帧(10帧)

在这里需要说明一下，estimator_node.cpp中的process()线程每运行一次，都会运行一次processImage函数和processImu函数。在窗口内有足够的图像帧之前，每次运行processImage函数，都会将当前需要处理的图像帧插入到窗口中；并且processImu函数也会计算出各图像帧的PVQ与两个相邻像帧间的预积分。

// 使用imu测量值计算预积分
// 将两帧图像间所有imu数据处理完之后，可以得到两帧图像之间的增量
pre_integrations[frame_count]->push_back(dt, linear_acceleration, angular_velocity);

// 采用中值法计算第j帧图像的PVQ,Ps[j]、Vs[j]、Rs[j]
// 需要注意的是：在初始化之前，此处的g,Bas,Bgs都为0，所有此处算出的PVQ存在误差
int j = frame_count;       
Vector3d un_acc_0 = Rs[j] * (acc_0 - Bas[j]) - g;
Vector3d un_gyr = 0.5 * (gyr_0 + angular_velocity) - Bgs[j];
Rs[j] *= Utility::deltaQ(un_gyr * dt).toRotationMatrix();
Vector3d un_acc_1 = Rs[j] * (linear_acceleration - Bas[j]) - g;
Vector3d un_acc = 0.5 * (un_acc_0 + un_acc_1);
Ps[j] += dt * Vs[j] + 0.5 * dt * dt * un_acc;
Vs[j] += dt * un_acc;

1.4、当前帧时间戳 - 上一帧时间戳 > 0.1

2、在满足初始化的条件后，进入initialStructure()函数中

2.1、通过加速度标准差判断IMU是否有充分运动以初始化

2.2、将所有特征点都放入sfm_f中

for (auto &it_per_id : f_manager.feature)
    {   // 遍历所有特征点
        int imu_j = it_per_id.start_frame - 1;
        SFMFeature tmp_feature; // 创建个SFMFeature类对象
        tmp_feature.state = false; // 特征点三角化标志，false为没有三角化
        tmp_feature.id = it_per_id.feature_id; // 特征点id
        for (auto &it_per_frame : it_per_id.feature_per_frame)
        {   // 遍历可以观察到特征点的所有帧
            imu_j++;
            Vector3d pts_j = it_per_frame.point; // 特征点归一化坐标
            tmp_feature.observation.push_back(make_pair(imu_j, Eigen::Vector2d{pts_j.x(), 
            pts_j.y()})); // 包含可以观察特征点的所有帧
        } 
        sfm_f.push_back(tmp_feature); // 将特征点添加进sfm_f
    }

2.3、在窗口内找出某帧作为参考帧，并计算当前帧的位姿relative_R，relative_T。需要注意的是图像帧的位姿表示为：relative_R = 参考帧到当前帧的逆；relative_T = -参考帧到当前帧的逆*参考帧到当前帧的位移

bool Estimator::relativePose(Matrix3d &relative_R, Vector3d &relative_T, int &l)
{
    for (int i = 0; i < WINDOW_SIZE; i++)
    {   // 遍历窗口中当前帧之前的所有图像帧(前9帧)
        vector> corres;

        // 寻找第i帧与第WINDOW_SIZE帧(也就是当前帧)之间共同特征点
        corres = f_manager.getCorresponding(i, WINDOW_SIZE);
        if (corres.size() > 20)
        {   // 条件1、两帧共同特征点数量 > 20
            double sum_parallax = 0;
            double average_parallax;
            for (int j = 0; j < int(corres.size()); j++)
            {   // 计算视差
                Vector2d pts_0(corres[j].first(0), corres[j].first(1));
                Vector2d pts_1(corres[j].second(0), corres[j].second(1));
                double parallax = (pts_0 - pts_1).norm();
                sum_parallax = sum_parallax + parallax;
            }
            average_parallax = 1.0 * sum_parallax / int(corres.size());
            if(average_parallax * 460 > 30 && m_estimator.solveRelativeRT(corres, 
               relative_R, relative_T))
            {   // 条件2：视差和 > 30 并且 通过对应特征点，可以计算出当前帧的位姿
                // 这里的460 ？？？
                l = i;
                return true;
            }
        }
    }
    return false;
}

2.4、计算出窗口内所有帧到参考帧的旋转与平移，并三角化得到地图点(以参考帧为世界坐标系的三角化)；使用ceres，优化得到的旋转、平移，然后转换成各帧的位姿q、T(返回值)

ps:这段代码比较长,但比较重要

bool GlobalSFM::construct(int frame_num, Quaterniond* q, Vector3d* T, int l, const Matrix3d relative_R, const Vector3d relative_T, vector &sfm_f, map &sfm_tracked_points)
{
	feature_num = sfm_f.size(); // 特征点数量

    // 参考帧旋转q(四元数)，没有旋转
	q[l].w() = 1;
	q[l].x() = 0;
	q[l].y() = 0;
	q[l].z() = 0;

    T[l].setZero(); // 参考帧平移向量，为0

    // 当前帧的位姿
	q[frame_num - 1] = q[l] * Quaterniond(relative_R); 
	T[frame_num - 1] = relative_T;

	// rotate to cam frame
	Matrix3d c_Rotation[frame_num];
	Vector3d c_Translation[frame_num];
	Quaterniond c_Quat[frame_num];
	double c_rotation[frame_num][4];
	double c_translation[frame_num][3];
	Eigen::Matrix Pose[frame_num];

    // 数组pose[]存放的是参考帧到第i帧的旋转与位移
	c_Quat[l] = q[l].inverse();
	c_Rotation[l] = c_Quat[l].toRotationMatrix();
	c_Translation[l] = -1 * (c_Rotation[l] * T[l]);
	Pose[l].block<3, 3>(0, 0) = c_Rotation[l];
	Pose[l].block<3, 1>(0, 3) = c_Translation[l];

	c_Quat[frame_num - 1] = q[frame_num - 1].inverse();
	c_Rotation[frame_num - 1] = c_Quat[frame_num - 1].toRotationMatrix();
	c_Translation[frame_num - 1] = -1 * (c_Rotation[frame_num - 1] * T[frame_num - 1]);
	Pose[frame_num - 1].block<3, 3>(0, 0) = c_Rotation[frame_num - 1];
	Pose[frame_num - 1].block<3, 1>(0, 3) = c_Translation[frame_num - 1];


	// 1: trangulate between l ----- frame_num - 1
	// 2: solve pnp l + 1; trangulate l + 1 ------- frame_num - 1;
	for (int i = l; i < frame_num - 1 ; i++)
	{
		// solve pnp
		if (i > l)
		{
			Matrix3d R_initial = c_Rotation[i - 1]; //
			Vector3d P_initial = c_Translation[i - 1];
			if(!solveFrameByPnP(R_initial, P_initial, i, sfm_f))
				return false;
			c_Rotation[i] = R_initial;  // 参考帧到第i帧的旋转
			c_Translation[i] = P_initial; // 参考帧到第i帧的平移
			c_Quat[i] = c_Rotation[i];
			Pose[i].block<3, 3>(0, 0) = c_Rotation[i];
			Pose[i].block<3, 1>(0, 3) = c_Translation[i];
		}

        // i=1时三角化当前帧的特征点(以参考帧作为世界坐标系)
        // i>1时三角化第i帧的特征点
		triangulateTwoFrames(i, Pose[i], frame_num - 1, Pose[frame_num - 1], sfm_f);
	}

	// 3: triangulate l-----l+1 l+2 ... frame_num -2
    // 此步骤我理解为查漏补缺
	for (int i = l + 1; i < frame_num - 1; i++)
		triangulateTwoFrames(l, Pose[l], i, Pose[i], sfm_f);

	// 4: solve pnp l-1; triangulate l-1 ----- l
	//              l-2              l-2 ----- l
	for (int i = l - 1; i >= 0; i--)
	{
		//solve pnp
		Matrix3d R_initial = c_Rotation[i + 1];
		Vector3d P_initial = c_Translation[i + 1];
		if(!solveFrameByPnP(R_initial, P_initial, i, sfm_f))
			return false;
		c_Rotation[i] = R_initial;
		c_Translation[i] = P_initial;
		c_Quat[i] = c_Rotation[i];
		Pose[i].block<3, 3>(0, 0) = c_Rotation[i];
		Pose[i].block<3, 1>(0, 3) = c_Translation[i];
		//triangulate
		triangulateTwoFrames(i, Pose[i], l, Pose[l], sfm_f);
	}

	// 5: triangulate all other points
	for (int j = 0; j < feature_num; j++)
	{
		if (sfm_f[j].state == true)
			continue;
		if ((int)sfm_f[j].observation.size() >= 2)
		{
			Vector2d point0, point1;
			int frame_0 = sfm_f[j].observation[0].first;
			point0 = sfm_f[j].observation[0].second;
			int frame_1 = sfm_f[j].observation.back().first;
			point1 = sfm_f[j].observation.back().second;
			Vector3d point_3d;
			triangulatePoint(Pose[frame_0], Pose[frame_1], point0, point1, point_3d);
			sfm_f[j].state = true;
			sfm_f[j].position[0] = point_3d(0);
			sfm_f[j].position[1] = point_3d(1);
			sfm_f[j].position[2] = point_3d(2);
		}		
	}

	// full BA
	ceres::Problem problem;
	ceres::LocalParameterization* local_parameterization = new ceres::QuaternionParameterization();

	for (int i = 0; i < frame_num; i++)
	{   // 遍历所有帧，向problem中添加旋转与平移
		//double array for ceres
		c_translation[i][0] = c_Translation[i].x();
		c_translation[i][1] = c_Translation[i].y();
		c_translation[i][2] = c_Translation[i].z();
		c_rotation[i][0] = c_Quat[i].w();
		c_rotation[i][1] = c_Quat[i].x();
		c_rotation[i][2] = c_Quat[i].y();
		c_rotation[i][3] = c_Quat[i].z();
		problem.AddParameterBlock(c_rotation[i], 4, local_parameterization);
		problem.AddParameterBlock(c_translation[i], 3);
		if (i == l)
		{
			problem.SetParameterBlockConstant(c_rotation[i]);
		}
		if (i == l || i == frame_num - 1)
		{
			problem.SetParameterBlockConstant(c_translation[i]);
		}
	}

	for (int i = 0; i < feature_num; i++)
	{   // 遍历所有特征点
		if (sfm_f[i].state != true)
			continue;
		for (int j = 0; j < int(sfm_f[i].observation.size()); j++)
		{
			int l = sfm_f[i].observation[j].first;
			ceres::CostFunction* cost_function =     
            ReprojectionError3D::Create(sfm_f[i].observation[j].second.x(),
                                        sfm_f[i].observation[j].second.y());

    		problem.AddResidualBlock(cost_function, NULL, c_rotation[l], 
                                     c_translation[l], sfm_f[i].position);
		}

	}
	ceres::Solver::Options options;
	options.linear_solver_type = ceres::DENSE_SCHUR;
	
	options.max_solver_time_in_seconds = 0.2;
	ceres::Solver::Summary summary;
	ceres::Solve(options, &problem, &summary);
	
	if (summary.termination_type == ceres::CONVERGENCE || summary.final_cost < 5e-03)
	{
		//cout << "vision only BA converge" << endl;
	}
	else
	{
		//cout << "vision only BA not converge " << endl;
		return false;
	}

    // 将优化后的旋转与位移转换成位姿
	for (int i = 0; i < frame_num; i++)
	{
		q[i].w() = c_rotation[i][0]; 
		q[i].x() = c_rotation[i][1]; 
		q[i].y() = c_rotation[i][2]; 
		q[i].z() = c_rotation[i][3]; 
		
        // 转换成第i帧的位姿
        q[i] = q[i].inverse(); 
        T[i] = -1 * (q[i] * Vector3d(c_translation[i][0], c_translation[i][1], 
                                     c_translation[i][2]));

	}

    // 下面的代码完全可以移到上面，故将其注释
    /*
	for (int i = 0; i < frame_num; i++)
	{

		T[i] = -1 * (q[i] * Vector3d(c_translation[i][0], c_translation[i][1], 
                                     c_translation[i][2]));

	}
     */

	for (int i = 0; i < (int)sfm_f.size(); i++)
	{   // 遍历所有特征点，将三角化成功的放入sfm_tracked_points中
		if(sfm_f[i].state)
			sfm_tracked_points[sfm_f[i].id] = Vector3d(sfm_f[i].position[0], 
            sfm_f[i].position[1], sfm_f[i].position[2]);
	}
	return true;

}

2.5、对于所有的图像帧，包括不在滑动窗口中的，提供初始的RT估计，然后solvePnP进行求解,得到每一帧的姿态。

在这里需要提出个问题：由processImage函数可以知道，当滑动窗口内帧数不足时,会直接将新传入的processImage的图像帧添加进窗口，即frame_count++，如下面代码：

if (frame_count == WINDOW_SIZE)
{
    //
}
else
    frame_count++;

那么当 processImage函数运行10次后，即frame_count=10，系统就会开始进行初始化了，那么问题来了，这里的不在滑动窗口内的图像帧是哪里来的？？？

解答：放在第4部分

for (int i = 0; frame_it != all_image_frame.end( ); frame_it++)
    {   // 遍历所有帧
        // provide initial guess
        cv::Mat r, rvec, t, D, tmp_r;

        if((frame_it->first) == Headers[i].stamp.toSec())
        {   // 如果是全局sfm过的图像帧，则不需在进行pnp求解
            
            frame_it->second.is_key_frame = true; // 关键帧
            
            // q(ci→c0)*q(b→c) = q(bi→c0)
            frame_it->second.R = Q[i].toRotationMatrix() * RIC[0].transpose(); 
            frame_it->second.T = T[i];
            i++;
            continue;
        }

        if((frame_it->first) > Headers[i].stamp.toSec())
        {   // 如果不在全局sfm中的图像帧，则进行pnp求解
            i++;
        }

        // Q和T是图像帧的位姿，而不是求解PNP时所用的坐标系变换矩阵
        Matrix3d R_inital = (Q[i].inverse()).toRotationMatrix();
        Vector3d P_inital = - R_inital * T[i];
        cv::eigen2cv(R_inital, tmp_r);
        cv::Rodrigues(tmp_r, rvec);
        cv::eigen2cv(P_inital, t);

        frame_it->second.is_key_frame = false;
        vector pts_3_vector;
        vector pts_2_vector;
        for (auto &id_pts : frame_it->second.points)
        {   // 遍历此帧
            int feature_id = id_pts.first;
            for (auto &i_p : id_pts.second)
            {
                it = sfm_tracked_points.find(feature_id);
                if(it != sfm_tracked_points.end())
                {
                    Vector3d world_pts = it->second;
                    cv::Point3f pts_3(world_pts(0), world_pts(1), world_pts(2));
                    pts_3_vector.push_back(pts_3);
                    Vector2d img_pts = i_p.second.head<2>();
                    cv::Point2f pts_2(img_pts(0), img_pts(1));
                    pts_2_vector.push_back(pts_2);
                }
            }
        }
        cv::Mat K = (cv::Mat_(3, 3) << 1, 0, 0, 0, 1, 0, 0, 0, 1);     
        if(pts_3_vector.size() < 6)
        {
            cout << "pts_3_vector size " << pts_3_vector.size() << endl;
            ROS_DEBUG("Not enough points for solve pnp !");
            return false;
        }
        if (! cv::solvePnP(pts_3_vector, pts_2_vector, K, D, rvec, t, 1))
        {
            ROS_DEBUG("solve pnp fail!");
            return false;
        }
        cv::Rodrigues(rvec, r);
        MatrixXd R_pnp,tmp_R_pnp;
        cv::cv2eigen(r, tmp_R_pnp); 
        
        // 将变换矩阵变成位姿
        R_pnp = tmp_R_pnp.transpose(); 
        MatrixXd T_pnp;
        cv::cv2eigen(t, T_pnp);
        T_pnp = R_pnp * (-T_pnp);

        // q(ci→c0)*q(b→c) = q(bi→c0)
        frame_it->second.R = R_pnp * RIC[0].transpose(); 
        frame_it->second.T = T_pnp;
    }

2.6、进行视觉惯性联合初始化，即运行visualInitialAlign()函数，由于函数代码较长，所以放到下一节中。

if (visualInitialAlign())
    return true;
else
{
    ROS_INFO("misalign visual structure with IMU");
    return false;
}

3、视觉惯性联合初始化

3.1、计算出陀螺仪的bais、尺度s、重力加速度g和速度各图像帧的速度。需要说明的是，在此之前的，陀螺仪bais与g都为0，所以processImu函数中计算的PVQ存在较大的误差。

// 计算陀螺仪偏置，尺度，重力加速度和速度
// 参数：所有图像帧；陀螺仪偏置数组；重力加速度；速度数组
bool VisualIMUAlignment(map &all_image_frame, Vector3d* Bgs, Vector3d &g, VectorXd &x)
{
    // 计算陀螺仪偏置
    solveGyroscopeBias(all_image_frame, Bgs);

    if(LinearAlignment(all_image_frame, g, x))
        return true;
    else 
        return false;
}

3.1.1、陀螺仪增量的计算公式，直接将崔大佬的推导粘贴过来了。

/// 计算陀螺仪偏置
void solveGyroscopeBias(map &all_image_frame, Vector3d* Bgs)
{
    Matrix3d A;
    Vector3d b;
    Vector3d delta_bg;
    A.setZero();
    b.setZero();
    map::iterator frame_i;
    map::iterator frame_j;
    for (frame_i = all_image_frame.begin(); next(frame_i) != all_image_frame.end(); 
         frame_i++)
    {
        frame_j = next(frame_i);
        MatrixXd tmp_A(3, 3);
        tmp_A.setZero();
        VectorXd tmp_b(3);
        tmp_b.setZero();

        // 前后两帧图像帧的旋转
        Eigen::Quaterniond q_ij(frame_i->second.R.transpose() * frame_j->second.R); 
        tmp_A = frame_j->second.pre_integration->jacobian.template block<3, 3>(O_R,                         
                O_BG); 

        // 获取对陀螺仪bais的雅克比
        tmp_b = 2 * (frame_j->second.pre_integration->delta_q.inverse() * q_ij).vec(); 

        // 获取imu预积分中的旋转与q_ij的旋转差
        A += tmp_A.transpose() * tmp_A;
        b += tmp_A.transpose() * tmp_b;

    }

    delta_bg = A.ldlt().solve(b); // 计算出陀螺仪的增量

    for (int i = 0; i <= WINDOW_SIZE; i++)
        Bgs[i] += delta_bg;

    /// 使用计算出来的bgs重新计算预积分
    for (frame_i = all_image_frame.begin(); next(frame_i) != all_image_frame.end( ); 
         frame_i++)
    {   
        frame_j = next(frame_i);
        frame_j->second.pre_integration->repropagate(Vector3d::Zero(), Bgs[0]);
    }
}

问题：为啥用Bgs[0]重新计算预积分，而不是Bgs[i]

解释：因为这里将所有帧都进行了预积分，不仅仅是窗口内的帧；在3.3中，使用Bgs[i]将窗口内的所有帧都重新预积分了

3.1.2、初始化尺度，重力加速度和速度，老规矩，看崔大佬的推导。

简单一点解释初始化过程就是：imu预积分的位移、旋转增量 - 图像通过几何方法算出来的位移、整理 = 0

尺度：图像通过几何方法算出来的位移和特征点深度是没有尺度信息的，所以需要计算尺度。

重力加速度：没看到初始化为g赋值，所有在此步骤之前，g应该一直都为0；注意此处算出的g时在c0相机坐标系下的g。

速度：之前的每帧图像的速度V[i]是对加速度*时间算出，存在误差

bool LinearAlignment(map &all_image_frame, Vector3d &g, VectorXd &x)
{
    int all_frame_count = all_image_frame.size();
    int n_state = all_frame_count * 3 + 3 + 1; // 状态量个数(其实主要是速度的的)

    MatrixXd A{n_state, n_state};
    A.setZero();
    VectorXd b{n_state};
    b.setZero();

    map::iterator frame_i;
    map::iterator frame_j;
    int i = 0;
    for (frame_i = all_image_frame.begin(); next(frame_i) != all_image_frame.end(); 
         frame_i++, i++)
    {
        frame_j = next(frame_i);

        MatrixXd tmp_A(6, 10); // 6 * 10
        tmp_A.setZero();
        VectorXd tmp_b(6); // 6 * 1
        tmp_b.setZero();

        double dt = frame_j->second.pre_integration->sum_dt; // 两帧间隔时间

        tmp_A.block<3, 3>(0, 0) = -dt * Matrix3d::Identity();
        tmp_A.block<3, 3>(0, 6) = frame_i->second.R.transpose() * dt * dt / 2 * 
                                  Matrix3d::Identity();
        tmp_A.block<3, 1>(0, 9) = frame_i->second.R.transpose() * (frame_j->second.T - 
                                  frame_i->second.T) / 100.0;     
        tmp_b.block<3, 1>(0, 0) = frame_j->second.pre_integration->delta_p + frame_i
                                  ->second.R.transpose() * frame_j->second.R * TIC[0] 
                                  - TIC[0];

        tmp_A.block<3, 3>(3, 0) = -Matrix3d::Identity();
        tmp_A.block<3, 3>(3, 3) = frame_i->second.R.transpose() * frame_j->second.R;
        tmp_A.block<3, 3>(3, 6) = frame_i->second.R.transpose() * dt * 
                                  Matrix3d::Identity();
        tmp_b.block<3, 1>(3, 0) = frame_j->second.pre_integration->delta_v;


        Matrix cov_inv = Matrix::Zero();

        cov_inv.setIdentity();

        MatrixXd r_A = tmp_A.transpose() * cov_inv * tmp_A; // 10 * 10
        VectorXd r_b = tmp_A.transpose() * cov_inv * tmp_b; // 10 * 1

        A.block<6, 6>(i * 3, i * 3) += r_A.topLeftCorner<6, 6>();
        b.segment<6>(i * 3) += r_b.head<6>();

        A.bottomRightCorner<4, 4>() += r_A.bottomRightCorner<4, 4>();
        b.tail<4>() += r_b.tail<4>();

        A.block<6, 4>(i * 3, n_state - 4) += r_A.topRightCorner<6, 4>();
        A.block<4, 6>(n_state - 4, i * 3) += r_A.bottomLeftCorner<4, 6>();
    }

    /// 为什么*1000？ 为了算的更精确吗？？？
    A = A * 1000.0;
    b = b * 1000.0;
    x = A.ldlt().solve(b);

    double s = x(n_state - 1) / 100.0; // 尺度，这里除100的目的是把尺度的单位变成cm嘛？？
    g = x.segment<3>(n_state - 4); // 重力加速度
  
    if(fabs(g.norm() - G.norm()) > 1.0 || s < 0)
    {  // 如果g的偏差过大，或者尺度<0，则返false
        return false;
    }

    // 修正g，此函数放下面进行讲解
    RefineGravity(all_image_frame, g, x); 


    s = (x.tail<1>())(0) / 100.0;  
    (x.tail<1>())(0) = s; // 尺度的返回值
   
    if(s < 0.0 )
        return false;   
    else
        return true;
}

3.1.3、优化g，为什么要优化g？因为上面求出的g可能不满足其模长为9.81这个条件，下面图继续引用崔大佬的推导。在这里解释下为什么g的模固定，就只有两个2个自由度了：因为g是个3维向量，有3个自由度，当有一个方向的大小都确定的时候，就固定了一个自由度；如果想要确定g，那么只需要确定另外两个方向的大小就ok。

代码变化不多，上面的代码理解的化，这里应该没问题

void RefineGravity(map &all_image_frame, Vector3d &g, VectorXd &x)
{
    Vector3d g0 = g.normalized() * G.norm(); // 
    Vector3d lx, ly;
    
    int all_frame_count = all_image_frame.size();
    int n_state = all_frame_count * 3 + 2 + 1;

    MatrixXd A{n_state, n_state};
    A.setZero();
    VectorXd b{n_state};
    b.setZero();

    map::iterator frame_i;
    map::iterator frame_j;
    for(int k = 0; k < 4; k++)
    {
        MatrixXd lxly(3, 2);

        lxly = TangentBasis(g0); // 计算b1、b2的方向

        int i = 0;
        for (frame_i = all_image_frame.begin(); next(frame_i) != all_image_frame.end();         
             frame_i++, i++)
        {
            frame_j = next(frame_i);

            MatrixXd tmp_A(6, 9);
            tmp_A.setZero();
            VectorXd tmp_b(6);
            tmp_b.setZero();

            double dt = frame_j->second.pre_integration->sum_dt;


            tmp_A.block<3, 3>(0, 0) = -dt * Matrix3d::Identity();
            tmp_A.block<3, 2>(0, 6) = frame_i->second.R.transpose() * dt * dt / 2 * 
                                      Matrix3d::Identity() * lxly;
            tmp_A.block<3, 1>(0, 8) = frame_i->second.R.transpose() * (frame_j->second.T 
                                      - frame_i->second.T) / 100.0;     
            tmp_b.block<3, 1>(0, 0) = frame_j->second.pre_integration->delta_p + frame_i
                                      ->second.R.transpose() * frame_j->second.R * TIC[0] 
                                      - TIC[0] - frame_i->second.R.transpose() * dt * dt 
                                      / 2 * g0;

            tmp_A.block<3, 3>(3, 0) = -Matrix3d::Identity();
            tmp_A.block<3, 3>(3, 3) = frame_i->second.R.transpose() * frame_j->second.R;
            tmp_A.block<3, 2>(3, 6) = frame_i->second.R.transpose() * dt * 
                                      Matrix3d::Identity() * lxly;
            tmp_b.block<3, 1>(3, 0) = frame_j->second.pre_integration->delta_v - frame_i
                                      ->second.R.transpose() * dt * Matrix3d::Identity() 
                                      * g0;


            Matrix cov_inv = Matrix::Zero();
           
            cov_inv.setIdentity();

            MatrixXd r_A = tmp_A.transpose() * cov_inv * tmp_A;
            VectorXd r_b = tmp_A.transpose() * cov_inv * tmp_b;

            A.block<6, 6>(i * 3, i * 3) += r_A.topLeftCorner<6, 6>();
            b.segment<6>(i * 3) += r_b.head<6>();

            A.bottomRightCorner<3, 3>() += r_A.bottomRightCorner<3, 3>();
            b.tail<3>() += r_b.tail<3>();

            A.block<6, 3>(i * 3, n_state - 3) += r_A.topRightCorner<6, 3>();
            A.block<3, 6>(n_state - 3, i * 3) += r_A.bottomLeftCorner<3, 6>();
        }
            A = A * 1000.0;
            b = b * 1000.0;
            x = A.ldlt().solve(b);
            VectorXd dg = x.segment<2>(n_state - 3);
            g0 = (g0 + lxly * dg).normalized() * G.norm();
            //double s = x(n_state - 1);
    }   
    g = g0;
}

3.2、填充窗口内各图像帧的位姿Ps、Rs，并将其置为关键帧

for (int i = 0; i <= frame_count; i++)
    {   // 遍历窗口内各帧
        Matrix3d Ri = all_image_frame[Headers[i].stamp.toSec()].R;
        Vector3d Pi = all_image_frame[Headers[i].stamp.toSec()].T;
        Ps[i] = Pi;    
        Rs[i] = Ri;
        all_image_frame[Headers[i].stamp.toSec()].is_key_frame = true; // 设为关键帧
    }

3.3、设置特征点深度(特征点在其起始帧的深度)；并根据陀螺仪的偏置bgs[]矩阵，重新计算预积分。需要注意的是，这里求出的深度还是没有尺度的，在3.4中将会给深度加上尺度。

// 将所有特征点的深度置为-1
VectorXd dep = f_manager.getDepthVector();
for (int i = 0; i < dep.size(); i++)
     dep[i] = -1;

f_manager.clearDepth(dep);

Vector3d TIC_TMP[NUM_OF_CAM];
for(int i = 0; i < NUM_OF_CAM; i++)
    TIC_TMP[i].setZero();

ric[0] = RIC[0];
f_manager.setRic(ric);
    
// 三角化重新计算特征点的深度
f_manager.triangulate(Ps, &(TIC_TMP[0]), &(RIC[0]));

double s = (x.tail<1>())(0);

// 重新计算预积分
for (int i = 0; i <= WINDOW_SIZE; i++)
{
     pre_integrations[i]->repropagate(Vector3d::Zero(), Bgs[i]);
}

3.4、更新Ps、Vs、depth

需要注意Ps这个状态量，Ps前后有过三个值：

3.4.1、Ps[i]由imu积分获得，Ps[i] += dt * Vs[i] + 0.5 * dt * dt * un_acc;

3.4.2、Ps[i]变成以c0帧照片为参考坐标系，第i帧照片的位移(简单来说，就是第i帧到第c0帧的向量)

3.4.3、在2的基础上补充尺度信息，也就是下面的代码；

// Ps按尺度缩放，TIC[0]其实为0向量，所以下面代码可以简化成：
// Ps[i] = s * Ps[i]
for (int i = frame_count; i >= 0; i--)
        Ps[i] = s * Ps[i] - Rs[i] * TIC[0] - (s * Ps[0] - Rs[0] * TIC[0]); 
  
// 用前面计算出比较精确的速度代替原有的速度Vs[i]  
// 原来的Vs[i]是加速度*时间算出来的
int kv = -1;
map::iterator frame_i;
for (frame_i = all_image_frame.begin(); frame_i != all_image_frame.end(); frame_i++)
{
    if(frame_i->second.is_key_frame)
      {
          kv++;
          Vs[kv] = frame_i->second.R * x.segment<3>(kv * 3); // Vs为优化得到的速度
      }
}

// 特征点深度按尺度缩放
for (auto &it_per_id : f_manager.feature)
{    
     it_per_id.used_num = it_per_id.feature_per_frame.size();

     if (!(it_per_id.used_num >= 2 && it_per_id.start_frame < WINDOW_SIZE - 2))
            continue;

     it_per_id.estimated_depth *= s; // 特征点深度*尺度
}

3.5、通过将重力旋转到z轴上，得到世界坐标系与摄像机坐标系c0之间的旋转矩阵rot_diff，然后将第i帧图像帧相对于c0图像帧的PVQ转换成相对于世界坐标系的PVQ。

计算旋转矩阵rot_diff的步骤：

3.5.1、先计算（0，0，1）与g之间的旋转矩阵R1

3.5.2、算出这旋转矩阵之后，两个坐标系还没有重合，还存在的偏航角(即两个坐标系z轴重合了，但是其它两轴还没有重合)，所有还需要计算出偏航角，并将其转换成旋转矩阵R2

3.5.3、R2*R1才是旋转矩阵rot_diff。

Matrix3d R0 = Utility::g2R(g);

// 下面两行代码不是太理解，R0已经算出来了，按道理，yaw不是为0嘛，还是说算两遍结果可以更加精确
double yaw = Utility::R2ypr(R0 * Rs[0]).x();
R0 = Utility::ypr2R(Eigen::Vector3d{-yaw, 0, 0}) * R0;
  
g = R0 * g;

// Matrix3d rot_diff = R0 * Rs[0].transpose();
Matrix3d rot_diff = R0;

// 将PVQ从参考坐标系c0旋转到世界坐标系w
for (int i = 0; i <= frame_count; i++)
{
    Ps[i] = rot_diff * Ps[i]; // 第i帧坐标系原点到世界坐标系原点的向量
    Rs[i] = rot_diff * Rs[i]; // 第i帧坐标系到世界坐标系的旋转
    Vs[i] = rot_diff * Vs[i]; // 第i帧图像相对于世界坐标系的速度
}

4、如果前面3步骤中的每一个函数都能正常运行(即都return ture)，那么初始化到这里就已经完成。

4.1、对2.5的问题进行解答：

在初始化时候，如果result = initialStructure()返回的是ture，那么这时候的所有帧(即all_image_fram)就是窗口内的10帧；但是如果result = initialStructure()返回的是false，即初始化的时候有个环节出现错误，那么就会进入slideWindow()函数。在slideWindow()函数中会出现all_image_fram>10的情况。slideWindow()函数相关信息请看4.2。

 if(result)
   { // 初始化成功
     solver_flag = NON_LINEAR;
     solveOdometry();
     slideWindow();
     f_manager.removeFailures();
     ROS_INFO("Initialization finish!");
     last_R = Rs[WINDOW_SIZE];
     last_P = Ps[WINDOW_SIZE];
     last_R0 = Rs[0];
     last_P0 = Ps[0];
                
    }
 else // 初始化失败，移除窗口中的第一帧或者最后一帧，将新帧添加到窗口的最后一帧
     slideWindow();

4.2、滑动窗口函数。滑动窗口函数根据边缘化的不同，分成去除窗口中的第一帧或者去除倒数第二帧两种情况。

4.2.1、marginalization_flag == MARGIN_OLD 清除第一帧，修改特征点的起始帧。因为在此情况下，会清除所有图像帧中的第一帧到窗口中的第一帧之间的帧(读起来有点拗口，其实处理完后就是 all_image_frame的第一帧就是窗口内的第一帧)，所以all_image_frame=10，不会增加all_image_frame的数量。

4.2.2、marginalization_flag == MARGIN_SECOND_NEW 清除倒数第二帧，此时all_image_frame的数量会增加。(2.5的问题到这里才是真正的解决)

void Estimator::slideWindow()
{
    TicToc t_margin;

    // 边缘化第一帧
    if (marginalization_flag == MARGIN_OLD)
    {
        double t_0 = Headers[0].stamp.toSec();
        back_R0 = Rs[0];
        back_P0 = Ps[0];
        if (frame_count == WINDOW_SIZE)
        {
            for (int i = 0; i < WINDOW_SIZE; i++)
            {   // 将后一帧的信息给前一帧
                Rs[i].swap(Rs[i + 1]);
                std::swap(pre_integrations[i], pre_integrations[i + 1]);

                dt_buf[i].swap(dt_buf[i + 1]);
                linear_acceleration_buf[i].swap(linear_acceleration_buf[i + 1]);
                angular_velocity_buf[i].swap(angular_velocity_buf[i + 1]);

                Headers[i] = Headers[i + 1];
                Ps[i].swap(Ps[i + 1]);
                Vs[i].swap(Vs[i + 1]);
                Bas[i].swap(Bas[i + 1]);
                Bgs[i].swap(Bgs[i + 1]);
            }

            // 将原最后一帧的参数信息作为新帧的估计值
            Headers[WINDOW_SIZE] = Headers[WINDOW_SIZE - 1];
            Ps[WINDOW_SIZE] = Ps[WINDOW_SIZE - 1];
            Vs[WINDOW_SIZE] = Vs[WINDOW_SIZE - 1];
            Rs[WINDOW_SIZE] = Rs[WINDOW_SIZE - 1];
            Bas[WINDOW_SIZE] = Bas[WINDOW_SIZE - 1];
            Bgs[WINDOW_SIZE] = Bgs[WINDOW_SIZE - 1];

            delete pre_integrations[WINDOW_SIZE];
            pre_integrations[WINDOW_SIZE] = new IntegrationBase{acc_0, gyr_0,         
                                                Bas[WINDOW_SIZE], Bgs[WINDOW_SIZE]};

            dt_buf[WINDOW_SIZE].clear();
            linear_acceleration_buf[WINDOW_SIZE].clear();
            angular_velocity_buf[WINDOW_SIZE].clear();

            // 这个代码写的有水平
            if (true || solver_flag == INITIAL)
            {
                map::iterator it_0;
                it_0 = all_image_frame.find(t_0); // 寻找窗口中的第一帧
                delete it_0->second.pre_integration;
                it_0->second.pre_integration = nullptr;
 
                for (map::iterator it = all_image_frame.begin(); 
                     it != it_0; ++it)
                {   // 遍历所有图像帧中的第一帧到窗口中的第一帧
                    if (it->second.pre_integration)
                        delete it->second.pre_integration;
                    it->second.pre_integration = NULL;
                }

                // 清除所有图像帧中的第一帧到窗口中的第一帧
                all_image_frame.erase(all_image_frame.begin(), it_0);
                all_image_frame.erase(t_0);

            }
            slideWindowOld();
        }
    }
    else
    {   // 边缘化新帧
        if (frame_count == WINDOW_SIZE)
        {
            for (unsigned int i = 0; i < dt_buf[frame_count].size(); i++)
            {
              double tmp_dt = dt_buf[frame_count][i];
              Vector3d tmp_linear_acceleration = linear_acceleration_buf[frame_count][i];
              Vector3d tmp_angular_velocity = angular_velocity_buf[frame_count][i];

              pre_integrations[frame_count - 1]->push_back(tmp_dt, 
                                          tmp_linear_acceleration, tmp_angular_velocity);

              dt_buf[frame_count - 1].push_back(tmp_dt);
              linear_acceleration_buf[frame_count -1].push_back(tmp_linear_acceleration);
              angular_velocity_buf[frame_count - 1].push_back(tmp_angular_velocity);
            }

            Headers[frame_count - 1] = Headers[frame_count];
            Ps[frame_count - 1] = Ps[frame_count];
            Vs[frame_count - 1] = Vs[frame_count];
            Rs[frame_count - 1] = Rs[frame_count];
            Bas[frame_count - 1] = Bas[frame_count];
            Bgs[frame_count - 1] = Bgs[frame_count];

            delete pre_integrations[WINDOW_SIZE];
            pre_integrations[WINDOW_SIZE] = new IntegrationBase{acc_0, gyr_0, 
                                            Bas[WINDOW_SIZE], Bgs[WINDOW_SIZE]};

            dt_buf[WINDOW_SIZE].clear();
            linear_acceleration_buf[WINDOW_SIZE].clear();
            angular_velocity_buf[WINDOW_SIZE].clear();

            slideWindowNew();
        }
    }
}

你可能感兴趣的:(opencv,计算机视觉,图像处理)

面经总结系列（十六）：元象科技大模型推理优化工程师 GoAI AI面经总结机器学习算法人工智能大模型机器学习深度学习
‍作者简介：CSDN、阿里云人工智能领域博客专家，新星计划计算机视觉导师，百度飞桨PPDE，专注大数据与AI知识分享。✨公众号：GoAI的学习小屋，免费分享书籍、简历、导图等，更有交流群分享宝藏资料，关注公众号回复“加群”或➡️点击链接加群。AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的
paddlepaddle测试安装_python3.7中安装paddleocr及paddlepaddle包的多种方法瓦啦
升级pippip版本必须升级到20.0.4版本才能应用；方法一、在pycharm中对pip进行升级；方法二、通过命令进行升级python3.7-mpipinstall--upgradepip下载paddleOCR下载链接：https://github.com/PaddlePaddle/PaddleOCR打开paddleOCR文件夹中requirements.txt文件，更改文件中opencv-py
【EI会议征稿】2025年第四届计算机视觉与模式分析国际学术大会（ICCPA 2025）
重要信息2025年5月16-18日|中国·鞍山大会官网：www.iccpa.org会议主页：2025年第五届计算机视觉与模式分析国际学术大会（ICCPA2025）_艾思科蓝_学术一站式服务平台接收/拒稿通知：投稿后1周内收录检索：EICompendex，Scopus主办单位辽宁科技大学往届历史ICCPA前四届均已成功举办，并完成EI、Scopus检索（高录用，稳定检索）
【EI会议征稿】东北大学主办第三届机器视觉、图像处理与影像技术国际会议（MVIPIT 2025）诗远Yolanda 图像处理计算机视觉考研视频机器学习论文阅读
一、会议信息大会官网：www.mvipit.org官方邮箱：[email protected]会议地点：辽宁沈阳主办单位：东北大学会议时间：2025年9月27日-9月29日二、征稿主题集中但不限于“机器视觉、图像处理与影像技术”等其他相关主题。机器视觉：视觉中的统计机器学习；立体视觉标定；几何建模与处理；人脸识别与手势识别；早期视觉和生物学启发的视觉；光流法和运动追踪；图像分割和图像分类；基于模型的视觉
YOLOv11革命性升级：基于MobileNetv4的UIB和ExtraDW模块重构C3k2架构，实现移动端推理性能飞跃博导ai君深度学习教学-附源码 YOLO 重构
引言与背景概述在当今人工智能飞速发展的时代，目标检测技术已成为计算机视觉领域的核心技术之一。从自动驾驶汽车到智能安防系统，从移动端AR应用到工业质检，目标检测无处不在。然而，随着应用场景的多样化，特别是移动端和边缘设备的普及，对模型的计算效率提出了更为严苛的要求。YOLO（YouOnlyLookOnce）系列算法作为目标检测领域的领军者，一直在精度与速度之间寻求最佳平衡。从YOLOv1到最新的YO
使用Ultralytics YOLO进行数据增强 alpszero YOLO计算机视觉应用 YOLO 人工智能机器学习
概述数据增强是计算机视觉领域的一项重要技术，它通过对现有图像进行各种转换，人为地扩展训练数据集。在训练深度学习模型时，数据增强有助于提高模型的鲁棒性，减少过拟合，并增强对真实世界场景的泛化。在训练计算机视觉模型的过程中，数据增强具有多种重要作用：扩展数据集：通过创建现有图像的变体，可以有效增加训练数据集的规模，而无需收集新数据。提高泛化能力：模型学会在各种条件下识别物体，使其在实际应用中更加稳健。
PART 7 视频 qq_39717490 音视频 opencv 人工智能
在Debian10上安装OpenCV的两种方法：从存储库和源代码中安装OpenCV_debianopencv-CSDN博客本人的树莓派系统是pi@pi:~$lsb_release-aNoLSBmodulesareavailable.DistributorID:DebianDescription:DebianGNU/Linux12(bookworm)Release:12Codename:bookwo
鸿蒙应用AR开发：增强现实技术实现方案操作系统内核探秘操作系统内核揭秘 OS harmonyos ar 华为 ai
鸿蒙应用AR开发：增强现实技术实现方案关键词：鸿蒙系统、AR开发、增强现实、ARKit、ARCore、3D渲染、计算机视觉摘要：本文将深入探讨如何在鸿蒙操作系统上开发增强现实(AR)应用。我们将从AR技术的基本原理讲起，逐步深入到鸿蒙AR开发框架的具体实现，包括3D模型渲染、空间定位、手势识别等核心技术。文章将提供完整的代码示例和实战项目，帮助开发者快速掌握鸿蒙AR应用开发的核心技能。背景介绍目的
大学专业科普 | 图像处理、智能控制与计算机工程鸭鸭鸭进京赶烤计算机工程
计算机工程专业介绍计算机工程专业是一个非常热门且具有广泛发展前景的领域，它涵盖了计算机硬件、软件以及它们之间的交互等多个方面。以下是对计算机工程专业的详细介绍：专业定义计算机工程专业主要是研究计算机系统的设计、开发、测试和维护。它融合了计算机科学和电子工程的知识，侧重于计算机硬件和软件的协同工作，以及计算机系统在各个领域的应用。课程设置基础课程数学课程物理课程计算机基础课程专业核心课程硬件方向课程
Ultralytics YOLO 库介绍与使用指南东北豆子哥人工智能/机器学习 YOLO
文章目录UltralyticsYOLO库介绍与使用指南主要特点安装基本使用1.使用预训练模型进行推理2.训练自定义模型3.验证模型4.导出模型高级功能1.使用不同任务模型2.使用自定义数据集3.跟踪对象(结合ByteTrack)常见问题解决性能优化技巧UltralyticsYOLO库介绍与使用指南UltralyticsYOLO是一个流行的计算机视觉库，专注于实现和优化YOLO(YouOnlyLoo
KITTI数据集可视化实用教程及源码解析国营窝窝乡蛮大人
本文还有配套的精品资源，点击获取简介：本文详细介绍如何使用源码实现KITTI数据集的可视化，强调数据集可视化在计算机视觉领域的关键作用。重点介绍如何加载、处理和融合KITTI数据集中的图像和激光雷达数据，并通过可视化手段分析结果，包括图像点云投影、坐标转换、颜色映射等技术。读者将通过学习源码深入理解数据结构、文件格式，并定制化工具以满足特定项目需求。1.计算机视觉数据集可视化的重要性在计算机视觉领
DiNA：扩张邻域注意力 Transformer AI专题精讲 Paper阅读 transformer 人工智能
摘要Transformer正迅速成为跨模态、跨领域和跨任务中应用最广泛的深度学习架构之一。在计算机视觉领域，除了持续发展的纯transformer架构，分层transformer也因其优越的性能和在现有框架中易于集成而受到广泛关注。这类模型通常采用局部化的注意力机制，如滑动窗口的NeighborhoodAttention（NA）或SwinTransformer的ShiftedWindowSelfA
python + selenium通过滑块验证 weixin_51144854 python selenium 爬虫 opencv
1、介绍使用python进行自动化操作或者爬虫过程中，可能会遇到需要进行验证的情况。本文介绍了两种通过滑块验证的方法：轮廓检测通过OpenCV进行轮廓检测，找到滑块背景中缺口的位置，计算缺口到滑块的距离。模板匹配通过OpenCV分析滑块背景图与滑块的相似度，找到滑块背景图中与滑块最相似的区域就是缺口的位置，然后计算缺口到滑块的距离。2、轮廓检测测试地址：https://accounts.douba
构建私有视觉搜索应用：多模态大模型的应用实例 2301_80727036 自然语言处理
在当今的科技时代，视觉搜索功能已经不再是新鲜事物，许多智能手机用户都可以通过自然语言搜索照片。随着开源多模态大型语言模型（Multi-modalLLMs）的兴起，我们现在可以为自己构建这种视觉搜索应用，用于管理自己的私人照片收藏。本教程将向您展示如何通过代码示例，使用开源多模态LLM构建私有视觉搜索和问答系统。技术背景介绍多模态大模型结合了文本和图像处理能力，使得我们可以开发更智能的应用程序。通过
AI 技术&AI开发框架 34号树洞人工智能深度学习人工智能机器学习 NLP GAI
目录一、AI技术及其开发框架1.AI技术分类与代表方向2.主流AI开发框架3.AI应用开发流程简述4.补充：基础依赖与生态二、AI技术方向1.机器学习（MachineLearning,ML）✦核心概念：✦关键方法：✦应用案例：2.深度学习（DeepLearning,DL）✦核心概念：✦网络结构举例：✦技术趋势：3.自然语言处理（NLP）✦核心任务：✦代表模型：4.计算机视觉（ComputerVis
NeRF-Pytorch：NeRF神经辐射场复现——Pytorch版全流程分析与测试【Ubuntu20.04】【2025最新版！！！】那就举个栗子！三维重建计算机视觉人工智能
一、引言在计算机视觉和计算机图形学的交叉领域中，视图合成（ViewSynthesis）一直是一个充满挑战的研究方向。传统的三维重建方法往往需要复杂的几何建模和纹理映射过程，而且在处理复杂光照和材质时效果有限。2020年，来自UCBerkeley的研究团队提出了NeuralRadianceFields（NeRF），这一革命性的方法彻底改变了我们对三维场景表示和渲染的理解。NeRF的核心思想是将三维场
Java AI 新纪元：Spring AI 与 Spring AI Alibaba 的崛起小沛9 Spring AI Alibaba Spring AI java 人工智能 spring spring ai SAA
此章节没什么营养，只是一个描述，同时也能看到AI的能力（文章基本都是AI进行生成的），小沛觉得开始不写点引言好像差了点什么东西，好像鱼离开了自行车。引言：AI时代对Java开发者的机遇与挑战，Java在AI领域的现状在当今技术飞速发展的时代，人工智能（AI）已不再是遥不可及的未来概念，而是深刻地融入到我们生活的方方面面，从智能推荐系统到自动驾驶，从自然语言处理到计算机视觉，AI正以前所未有的速度改
图像处理100问-中文版(记录) STO检测王学习
https://gitee.com/mengfansheng163/ImageProcessing100Wen
opencv —— floodFill 漫水填充法实现证件照换背景老干妈就泡面 opencv 人工智能计算机视觉
漫水填充：floodFill函数简单来说，漫水填充就是自动选中与种子像素相连的区域，利用指定颜色进行区域颜色填充。Windows画图工具中的油漆桶功能和Photoshop的魔法棒选择工具，都是漫水填充的改进和延伸。//第一个版本intfloodFill(InputOutputArrayimage,PointseedPoint,ScalarnewVal,Rect*rect=0,ScalarloDif
车牌识别与标注：基于百度OCR与OpenCV的实现（一）喜欢踢足球的老罗大模型应用开发实践之旅 ocr opencv 人工智能
车牌识别与标注：基于百度OCR与OpenCV的实现在计算机视觉领域，车牌识别是一项极具实用价值的技术，广泛应用于交通监控、智能停车场管理等领域。本文将介绍如何在macOS系统下，利用百度OCRAPI进行车牌识别，并结合OpenCV库在图片上绘制标注框和车牌号码，实现一个完整的车牌识别与标注流程。整个工程将使用PyCharm进行组织和开发。一、系统环境与工程结构系统环境操作系统：macOS开发工具：
海思Hi3519DV500方案1200万无人机吊舱套板 weixin_Todd_Wong2010 嵌入式硬件 AI 前端边缘计算图像处理
海思Hi3519DV500方案1200万无人机吊舱套板Hi3519DV500是一颗面向行业市场推出的超高清智能网络摄像头SoC。该芯片最高支持四路sensor输入，支持最高4K@30fps的ISP图像处理能力，支持2FWDR、多级降噪、六轴防抖、全景拼接、多光谱融合等多种传统图像增强和处理算法，支持通过AI算法对输入图像进行实时降躁等处理，为用户提供了卓越的图像处理能力，集成了高效的神经网络推理引
OpenCV实战：图像颜色识别与提取、掩膜制作
前言在计算机视觉和图像处理领域，颜色识别是一项基础而重要的技术。无论是交通标志识别、工业分拣还是美颜滤镜开发，都离不开对特定颜色的处理。本文将带你全面掌握使用OpenCV进行颜色识别的关键技术，包含完整的代码实现和原理讲解。一、颜色空间基础1.1RGB颜色空间在图像处理中，最常见的就是RGB颜色空间。RGB颜色空间是我们接触最多的颜色空间，是一种用于表示和显示彩色图像的一种颜色模型。RGB代表红色
OpenCV图像添加水印
一、前言在数字图像处理中，为图片添加水印是一项常见且重要的技术。无论是版权保护、品牌宣传还是防止未经授权的使用，水印都能发挥重要作用。OpenCV作为一款强大的计算机视觉库，提供了丰富的功能来实现各种水印效果。本教程将详细介绍如何使用OpenCV为图像添加文字水印和图片水印。二、环境准备在开始之前，请确保已安装以下环境：Python3.xOpenCV库（可通过pipinstallopencv-py
OpenCV图像噪点消除五大滤波方法慕婉0307 opencv基础 opencv 人工智能计算机视觉
在数字图像处理中，噪点消除是提高图像质量的关键步骤。本文将基于OpenCV库，详细讲解五种经典的图像去噪滤波方法：均值滤波、方框滤波、高斯滤波、中值滤波和双边滤波，并通过丰富的代码示例展示它们的实际应用效果。一、图像噪点与滤波基础1.1常见图像噪声类型高斯噪声：符合正态分布的随机噪声椒盐噪声：随机出现的黑白像素点泊松噪声：光子计数噪声量化噪声：模拟信号数字化过程中产生1.2滤波方法分类滤波类型特点
浅谈卷积神经网络(CNN) cyc&阿灿 cnn 人工智能神经网络
卷积神经网络(ConvolutionalNeuralNetworks,CNN)作为深度学习领域最具影响力的架构之一，已在计算机视觉、自然语言处理、医学影像分析等领域取得了革命性突破。本文将系统全面地剖析CNN的核心原理、关键组件、经典模型、数学基础、训练技巧以及最新进展，通过理论解析与代码实践相结合的方式，帮助读者深入掌握这一重要技术。一、CNN基础与核心思想1.1传统神经网络的局限性在处理图像等
LSNet: 基于侧向抑制的神经网络碳酸的唐模型养成与叙述有意思的py库神经网络人工智能深度学习
引言在计算机视觉领域，我们一直在寻找灵感来源以提高图像处理和识别的效果。而人类视觉系统作为经过数百万年进化的精密系统，无疑是最好的参考对象之一。今天，我要向大家介绍一个名为LSNet（LateralSuppressionNetwork，侧向抑制网络）的技术，它模拟了人类视觉系统中的侧向抑制机制，为计算机视觉任务带来了新的可能性。什么是侧向抑制？侧向抑制（LateralSuppression），也被
基于OpenCV图像分割与PyTorch的增强图像分类方案从零开始学习人工智能 opencv pytorch 分类
在图像分类任务中，背景噪声和复杂场景常常会对分类准确率产生负面影响。为了应对这一挑战，本文介绍了一种结合OpenCV图像分割与PyTorch深度学习框架的增强图像分类方案。通过先对图像进行分割提取感兴趣区域（RegionofInterest，ROI），再进行分类，可以有效减少背景干扰，突出关键特征，从而提高分类准确率。该方案在多种复杂场景下表现出色，尤其适用于图像背景复杂或包含多个对象的情况。一、
OpenCV 三维重建实战：从工业检测到自动驾驶，3 大场景代码全解析从零开始学习人工智能 opencv 自动驾驶数码相机
：工业零部件三维建模与检测案例背景：在汽车制造工厂，对于复杂形状的发动机零部件质量检测与逆向工程需求，需要高精度的三维模型。传统检测方法效率低且精度有限，而三维重建技术可快速获取零部件三维信息，实现高效检测与设计优化。技术实现：使用多个相机从不同角度拍摄零部件，利用calib3d模块进行相机标定，获取准确的相机内参和外参。通过特征点检测与匹配算法（如SIFT、ORB等）找到不同图像间的对应点，再用
微软人工智能证书AI-102 | 如何快速通过？全球认证考试中心人工智能微软
微软AI-102考试，全称“DesigningandImplementingaMicrosoftAzureAISolution”，是微软推出的用于验证考生在Azure平台上设计和实施AI解决方案核心能力的认证考试。以下是具体介绍：考试描述：考试主要衡量考生实施计划和管理Azure认知服务解决方案、计算机视觉解决方案、自然语言处理解决方案、知识挖掘解决方案、对话式AI解决方案的能力。考试题型通常包括
AEPR人像磨皮润肤美容插件的使用指南觉昧
本文还有配套的精品资源，点击获取简介：AEPR人像磨皮润肤美容插件是一款结合AdobeAfterEffects和Photoshop的专业图像处理工具，用于视频和图像后期制作。该插件简化了人像美容过程，提供美白、磨皮和润色功能，帮助用户获得理想的视觉美感。通过使用该插件，用户能够轻松改善肤色和皮肤质地，而高斯模糊、斑点修复和色彩平衡调整等技术则保证了皮肤质感的自然与细腻。为了实现最佳效果，用户需要遵
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号