十年一梦实验室

【opencv450-samples】digits_svm 手写数字识别SVM vs KNearest （SVM and KNearest digit recognition）

digits.png 样本数据

SVM 和 KNearest 数字识别。

示例从“digits.png”加载手写数字数据集。
然后它训练一个 SVM 和 KNearest 分类器并评估
他们的准确性。

以下预处理应用于数据集：
- 基于矩的图像去偏斜（见去偏斜（））
- 数字图像分为 4 个 10x10 单元和 16 个单元
为每个计算定向梯度的直方图
cell
- 使用 Hellinger 度量将直方图转换为空间（参见 [1] (RootSIFT)）

[1] R. Arandjelovic, A. Zisserman

"Three things everyone should know to improve object retrieval"

http://www.robots.ox.ac.uk/~vgg/publications/2012/Arandjelovic12/arandjelovic12.pdf

#include "opencv2/core.hpp"
#include "opencv2/highgui.hpp"
#include "opencv2/imgcodecs.hpp"
#include "opencv2/imgproc.hpp"
#include "opencv2/ml.hpp"

#include 
#include 
#include 

using namespace cv;
using namespace std;

const int SZ = 20;  // size of each digit is SZ x SZ  每个小数字图像的尺寸
const int CLASS_N = 10;//10类
const char* DIGITS_FN = "digits.png";//样本数字图像

static void help(char** argv)
{
    cout <<
    "\n"
    "SVM 和 KNearest 数字识别SVM and KNearest digit recognition.\n"
    "\n"
    "示例从“digits.png”加载手写数字数据集。Sample loads a dataset of handwritten digits from 'digits.png'.\n"
    "Then it trains a SVM and KNearest classifiers on it and evaluates\n"
    "their accuracy.然后它训练一个 SVM 和 KNearest 分类器并评估它们的准确性。\n"
    "\n"
    "以下预处理应用于数据集：Following preprocessing is applied to the dataset:\n"
    " - 基于矩的图像偏斜Moment-based image deskew (see deskew())\n"
    " - Digit images are split into 4 10x10 cells and 16-bin\n"
    "   histogram of oriented gradients is computed for each\n"
    "   cell数字图像是被分成 4 个区域的 10x10 单元格，并为每个单元格计算 16 位定向梯度直方图\n"
    " - 使用 Hellinger 度量将直方图转换到空间Transform histograms to space with Hellinger metric (see [1] (RootSIFT))\n"
    "\n"
    "\n"
    "[1] R. Arandjelovic, A. Zisserman\n"
    "    \"每个人都应该知道改进对象检索的三件事Three things everyone should know to improve object retrieval\"\n"
    "    http://www.robots.ox.ac.uk/~vgg/publications/2012/Arandjelovic12/arandjelovic12.pdf\n"
    "\n"
    "Usage:\n"
    << argv[0] << endl;
}
//分割图像image，单元大小cell_size，得到小图像集合cells
static void split2d(const Mat& image, const Size cell_size, vector& cells)
{   //源图像尺寸
    int height = image.rows;
    int width = image.cols;
    //小图像尺寸
    int sx = cell_size.width;
    int sy = cell_size.height;

    cells.clear();//清空集合

    for (int i = 0; i < height; i += sy)
    {
        for (int j = 0; j < width; j += sx)
        {
            cells.push_back(image(Rect(j, i, sx, sy)));//取小图像区域
        }
    }
}
//加载样本数字图像fn,分割得到小图像集合digits，以及每个小数字图像对应的标签
static void load_digits(const char* fn, vector& digits, vector& labels)
{
    digits.clear();//单个数字图像集合
    labels.clear();//单个数字图像标签

    String filename = samples::findFile(fn);//数字图像文件

    cout << "Loading " << filename << " ..." << endl;

    Mat digits_img = imread(filename, IMREAD_GRAYSCALE);//读取数字图像 灰度图
    split2d(digits_img, Size(SZ, SZ), digits);//分割数字图像得到单个数字图像

    for (int i = 0; i < CLASS_N; i++)//N分类。每行数字对应标签 0 1 2 3 ……
    {
        for (size_t j = 0; j < digits.size() / CLASS_N; j++)//遍历列
        {
            labels.push_back(i);//第i行所有列（digits.size() / CLASS_N）对应标签i
        }
    }
}
//去歪斜 倾斜矫正
static void deskew(const Mat& img, Mat& deskewed_img)
{
    Moments m = moments(img);//计算图像三阶矩

    if (abs(m.mu02) < 0.01)
    {
        deskewed_img = img.clone();
        return;
    }
    //mu11/mu02来表示图像的斜切系数，因为图像斜切了，所以原本图像的中心点就移动位置了，所以我们需要将图像的中心点再移动回去，
    float skew = (float)(m.mu11 / m.mu02);
    float M_vals[2][3] = {{1, skew, -0.5f * SZ * skew}, {0, 1, 0}};//图像的刚体变换矩阵M
    Mat M(Size(3, 2), CV_32F);

    for (int i = 0; i < M.rows; i++)
    {
        for (int j = 0; j < M.cols; j++)
        {
            M.at(i, j) = M_vals[i][j];
        }
    }
    //仿射变换   去歪斜
    warpAffine(img, deskewed_img, M, Size(SZ, SZ), WARP_INVERSE_MAP | INTER_LINEAR);
}
//马赛克网格  width:一排多少个小数字
static void mosaic(const int width, const vector& images, Mat& grid)
{
    int mat_width = SZ * width;
    int mat_height = SZ * (int)ceil((double)images.size() / width);

    if (!images.empty())
    {
        grid = Mat(Size(mat_width, mat_height), images[0].type());//马赛克网格：测试集小图像拼接成grid

        for (size_t i = 0; i < images.size(); i++)
        {
            Mat location_on_grid = grid(Rect(SZ * ((int)i % width), SZ * ((int)i / width), SZ, SZ));//
            images[i].copyTo(location_on_grid);
        }
    }
}
//评估模型  预测结果，测试集样本，测试集标签，可视化评估图像矩阵
static void evaluate_model(const vector& predictions, const vector& digits, const vector& labels, Mat& mos)
{
    double err = 0;

    for (size_t i = 0; i < predictions.size(); i++)//遍历预测结果集
    {
        if ((int)predictions[i] != labels[i])
        {
            err++;//预测失败次数
        }
    }

    err /= predictions.size();//预测错误百分比

    cout << format("error: %.2f %%", err * 100) << endl;

    int confusion[10][10] = {};//预测结果统计

    for (size_t i = 0; i < labels.size(); i++)//遍历测试集 
    {//测试集第i个样本的标签labels[i]，对应行      第i个样本的预测结果标签 对应列。
        confusion[labels[i]][(int)predictions[i]]++;// 测试样本i，标签实际为labels[i],预测结果为predictions[i]
    }//对角线上的元素为正确预测，非对角线上的元素为错误预测结果

    cout << "confusion matrix:" << endl;
    for (int i = 0; i < 10; i++)
    {
        for (int j = 0; j < 10; j++)
        {
            cout << format("%2d ", confusion[i][j]);//输出预测统计结果
        }
        cout << endl;
    }

    cout << endl;

    vector vis;//测试集小数字图像向量

    for (size_t i = 0; i < digits.size(); i++)//遍历测试集图像
    {
        Mat img;
        cvtColor(digits[i], img, COLOR_GRAY2BGR);//灰度转彩色

        if ((int)predictions[i] != labels[i])//测试集样本预测失败
        {
            for (int j = 0; j < img.rows; j++)
            {
                for (int k = 0; k < img.cols; k++)
                {
                    img.at(j, k)[0] = 0;
                    img.at(j, k)[1] = 0;//前两个通道BG置为0. 显示红色小数字图像
                }
            }
        }

        vis.push_back(img);
    }
    mosaic(25, vis, mos);//拼图小数字图像得到mos（红色为错误预测）
}
//1/4   x:梯度图像方向     梯度图像的幅度值weights，16个方向min_length，部分直方图bins
static void bincount(const Mat& x, const Mat& weights, const int min_length, vector& bins)
{
    double max_x_val = 0;
    minMaxLoc(x, NULL, &max_x_val);//最大梯度方向bin_n

    bins = vector(max((int)max_x_val, min_length));//初始化bins

    for (int i = 0; i < x.rows; i++)
    {
        for (int j = 0; j < x.cols; j++)
        {
            bins[x.at(i, j)] += weights.at(i, j);//方向和幅度相加
        }
    }
}

//处理小数字图像向量，获得hog描述子矩阵   提取梯度方向直方图hog特征
static void preprocess_hog(const vector& digits, Mat& hog)
{//cell数字图像10x10 被分成 4 个  单元格，并为每个单元格计算 16 位定向梯度直方图
    int bin_n = 16;//16 位定向梯度直方图
    int half_cell = SZ / 2;//小数字图像尺寸一半
    double eps = 1e-7;//迭代条件：精度

    hog = Mat(Size(4 * bin_n, (int)digits.size()), CV_32F);//hog描述子矩阵

    for (size_t img_index = 0; img_index < digits.size(); img_index++)//遍历所有小数字图像
    {
        Mat gx;
        Sobel(digits[img_index], gx, CV_32F, 1, 0);//梯度gx

        Mat gy;
        Sobel(digits[img_index], gy, CV_32F, 0, 1);//梯度gy

        Mat mag;
        Mat ang;
        cartToPolar(gx, gy, mag, ang);//笛卡尔转极坐标：幅度、角度 计算每个 2D 向量 (x(I),y(I)) 的幅度、角度或两者：

        Mat bin(ang.size(), CV_32S);// 

        for (int i = 0; i < ang.rows; i++)
        {
            for (int j = 0; j < ang.cols; j++)
            {
                bin.at(i, j) = (int)(bin_n * ang.at(i, j) / (2 * CV_PI));//梯度方向   1 …… bin_n
            }
        }
        //梯度方向图分为  4个bin区域。4个bin区域 组合成10x10像素网格
        Mat bin_cells[] = {
            bin(Rect(0, 0, half_cell, half_cell)),//(0,0,5,5)
            bin(Rect(half_cell, 0, half_cell, half_cell)),//(5,0,5,5)
            bin(Rect(0, half_cell, half_cell, half_cell)),(0,5,5,5)
            bin(Rect(half_cell, half_cell, half_cell, half_cell))(5,5,5,5)
        };
        Mat mag_cells[] = {
            mag(Rect(0, 0, half_cell, half_cell)),
            mag(Rect(half_cell, 0, half_cell, half_cell)),
            mag(Rect(0, half_cell, half_cell, half_cell)),
            mag(Rect(half_cell, half_cell, half_cell, half_cell))
        };//梯度幅度分为四个幅度值单元

        vector hist;//直方图向量   4*16 个
        hist.reserve(4 * bin_n);//reserve的作用是更改vector的容量（capacity），使vector至少可以容纳n个元素。

        for (int i = 0; i < 4; i++)//4部分
        {
            vector partial_hist;//部分直方图：方向bin_n和幅度相加
            bincount(bin_cells[i], mag_cells[i], bin_n, partial_hist);
            hist.insert(hist.end(), partial_hist.begin(), partial_hist.end());
        }

        // transform to Hellinger kernel转换为 Hellinger 核
        //将得到梯度直方图转化为Hellinger Matrix.
        //将梯度直方图Hellinger化，相当于求取了和0向量的海林格距离
        double sum = 0;

        for (size_t i = 0; i < hist.size(); i++)
        {
            sum += hist[i];
        }

        for (size_t i = 0; i < hist.size(); i++)
        {
            hist[i] /= sum + eps;
            hist[i] = sqrt(hist[i]);
        }

        double hist_norm = norm(hist);

        for (size_t i = 0; i < hist.size(); i++)
        {
            hog.at((int)img_index, (int)i) = (float)(hist[i] / (hist_norm + eps));//hog描述子
        }
    }
}
//随机数字-洗牌：  打乱顺序的小数字图像及其标签。  标签与图像保持对应关系。
static void shuffle(vector& digits, vector& labels)
{
    vector shuffled_indexes(digits.size());//随机数字索引向量

    for (size_t i = 0; i < digits.size(); i++)
    {
        shuffled_indexes[i] = (int)i;//初始化shuffled_indexes： 0 1 2 ……digits.size()-1
    }

    randShuffle(shuffled_indexes);//随机打乱索引数组 

    vector shuffled_digits(digits.size());
    vector shuffled_labels(labels.size());

    for (size_t i = 0; i < shuffled_indexes.size(); i++)
    {
        shuffled_digits[shuffled_indexes[i]] = digits[i];//根据打乱的索引数组 生成小数字图像向量
        shuffled_labels[shuffled_indexes[i]] = labels[i];//根据打乱的索引数组 生成小数字图像的标签向量
    }

    digits = shuffled_digits;//更新整体数字图像为打乱顺序的数字图像
    labels = shuffled_labels;//更新标签向量为 打乱顺序的数字图像对应的标签
}

int main(int /* argc */, char* argv[])
{
    help(argv);

    vector digits;
    vector labels;

    load_digits(DIGITS_FN, digits, labels);//加载样本数字图像获得小数字图像集合及分类标签

    cout << "preprocessing..." << endl;

    // 随机数字 shuffle digits
    shuffle(digits, labels);//随机打乱数组元素。  洗牌，保持小数字图像与其标签的对应关系。

    vector digits2;//去歪斜的小数字图像向量

    for (size_t i = 0; i < digits.size(); i++)//遍历小数字图像
    {
        Mat deskewed_digit;
        deskew(digits[i], deskewed_digit);//小数字图像倾斜校正
        digits2.push_back(deskewed_digit);
    }

    Mat samples;//hog描述子样本矩阵

    preprocess_hog(digits2, samples);//计算hog矩阵
    //数据集的划分--训练集、验证集和测试集
    int train_n = (int)(0.9 * samples.rows);//训练数据集 90%样本
    Mat test_set;//测试集

    vector digits_test(digits2.begin() + train_n, digits2.end());//测试集图像向量
    mosaic(25, digits_test, test_set);//测试集图像马赛克：每行25个小数字图像。
    imshow("test set", test_set);//显示测试集图像

    Mat samples_train = samples(Rect(0, 0, samples.cols, train_n));//训练集样本：hog描述子
    Mat samples_test = samples(Rect(0, train_n, samples.cols, samples.rows - train_n));//测试集：hog描述子
    vector labels_train(labels.begin(), labels.begin() + train_n);//训练集标签
    vector labels_test(labels.begin() + train_n, labels.end());//测试集标签

    Ptr k_nearest;//K最近邻(kNN，k-NearestNeighbor)分类算法
    Ptr svm;//支持向量机
    vector predictions;//samples_test的预测结果
    Mat vis;//

    cout << "training KNearest..." << endl;
    k_nearest = ml::KNearest::create();//静态方法创建空的 K Nearest 分类器。  
    k_nearest->train(samples_train, ml::ROW_SAMPLE, labels_train);//使用 StatsModel::train 方法对其进行训练。

    // 通过K近邻预测数字 predict digits with KNearest
    k_nearest->findNearest(samples_test, 4, predictions);//预测
    evaluate_model(predictions, digits_test, labels_test, vis);//评估模型预测情况，得到vis拼图（红色表示错误预测）
    imshow("KNearest test", vis);//显示K近邻预测结果图（红色表示错误预测）
    k_nearest.release();

    cout << "training SVM..." << endl;
    svm = ml::SVM::create();//使用 StatModel::train 训练模型。 由于 SVM 有多个参数，您可能希望为您的问题找到最佳参数，可以使用 SVM::trainAuto 来完成。
    svm->setGamma(5.383);//核函数的参数 gamma。对于 SVM::POLY、SVM::RBF、SVM::SIGMOID 或 SVM::CHI2。 默认值为 1。
    svm->setC(2.67);//SVM 优化问题的参数 C。 对于 SVM::C_SVC、SVM::EPS_SVR 或 SVM::NU_SVR。 默认值为 0。
    svm->setKernel(ml::SVM::RBF);//使用预定义内核之一进行初始化。
    svm->setType(ml::SVM::C_SVC);//SVM 公式的类型。 请参阅 SVM::类型。 默认值为 SVM::C_SVC。
    svm->train(samples_train, ml::ROW_SAMPLE, labels_train);//训练

    //使用SVM预测数字 predict digits with SVM
    svm->predict(samples_test, predictions);//预测测试集样本
    evaluate_model(predictions, digits_test, labels_test, vis);//评估预测结果
    imshow("SVM test", vis);//显示预测结果（红色表示失败）
    cout << "Saving SVM as \"digits_svm.yml\"..." << endl;
    svm->save("digits_svm.yml");//保存SVM参数
    svm.release();

    waitKey();

    return 0;
}

运行结果

preprocessing...
training KNearest...
error: 2.80 %
confusion matrix:
42  1  0  0  0  0  1  0  0  0
 0 45  1  0  0  0  0  0  0  0
 0  0 45  0  0  0  0  0  0  1
 0  0  0 34  0  0  0  0  0  0
 0  0  0  0 43  0  0  0  2  1
 0  0  0  0  0 49  1  0  1  0
 1  0  0  0  0  0 55  0  0  0
 0  0  0  0  0  0  0 55  1  0
 0  0  0  1  0  0  0  0 62  0
 0  0  0  1  0  0  0  0  1 56

training SVM...
error: 2.40 %
confusion matrix:
43  0  0  0  0  0  1  0  0  0
 0 44  1  0  0  0  0  1  0  0
 0  0 45  0  0  0  0  0  0  1
 0  0  0 32  0  0  0  1  0  1
 0  0  0  0 45  0  0  0  1  0
 0  0  0  0  0 50  1  0  0  0
 0  0  0  0  0  0 56  0  0  0
 0  0  0  0  0  0  0 55  1  0
 0  0  0  0  1  0  0  0 62  0
 0  0  1  0  1  0  0  0  0 56

Saving SVM as "digits_svm.yml"...

笔记：

/** @brief 随机打乱数组元素。Shuffles the array elements randomly.

函数 cv::randShuffle 通过随机选择元素对并交换它们来打乱指定的一维数组。 此类交换操作的数量将为 dst.rows\*dst.cols\*iterFactor .
@param dst 输入/输出数字一维数组input/output numerical 1D array.
@param iterFactor scale factor that determines the number of random swap operations (see the details below). 决定随机交换操作数量的比例因子（请参阅下面的详细信息）。
@param rng optional random number generator used for shuffling; if it is zero, theRNG () is used instead. 用于洗牌的可选随机数生成器； 如果为零，则使用 theRNG() 代替。
@sa RNG, sort
*/
CV_EXPORTS_W void randShuffle(InputOutputArray dst, double iterFactor = 1., RNG* rng = 0);

/** @brief 查找近邻并预测输入向量的响应。

    @param samples 按行存储的输入样本。它是一个 ` * k` 大小的单精度浮点矩阵。
    @param k 使用的最近邻居数。应该大于 1。
    @param results 带有每个输入样本的预测结果（回归或分类）的向量。它是一个带有 `` 元素的单精度浮点向量。
    @param neighborResponses 对应邻居的可选输出值。它是一个 ` * k` 大小的单精度浮点矩阵。
    @param dist 从输入向量到相应邻居的可选输出距离。它是一个 ` * k` 大小的单精度浮点矩阵。

    对于每个输入向量（矩阵样本的一行），该方法会找到 k 个最近邻。
    在回归的情况下，预测结果是特定向量的邻居响应的平均值。在分类的情况下，通过投票确定类别。
    对于每个输入向量，邻居按它们到向量的距离排序。
    在 C++ 接口的情况下，您可以使用指向空矩阵的输出指针，函数将自行分配内存。
    如果只传递一个输入向量，则所有输出矩阵都是可选的，并且预测值由方法返回。
    该函数与 TBB 库并行化。
     */
    CV_WRAP virtual float findNearest( InputArray samples, int k,
                               OutputArray results,
                               OutputArray neighborResponses=noArray(),
                               OutputArray dist=noArray() ) const = 0;

/** @brief 计算多边形或光栅化形状的所有三阶矩。Calculates all of the moments up to the third order of a polygon or rasterized shape.

The function computes moments, up to the 3rd order, of a vector shape or a rasterized shape. The results are returned in the structure cv::Moments. 该函数计算向量形状或光栅化形状的最高 3 阶矩。 结果在结构 cv::Moments 中返回。

@param array Raster image (single-channel, 8-bit or floating-point 2D array) or an array (\f$1 \times N\f$ or \f$N \times 1\f$ ) of 2D points (Point or Point2f ). 光栅图像（单通道、8 位或浮点二维数组）或二维点（Point 或 Point2f）的数组（乘 N 或 N 乘 1）。

@param binaryImage If it is true, all non-zero image pixels are treated as 1's. The parameter is used for images only. 如果为真，则所有非零图像像素都被视为 1。 该参数仅用于图像。
@returns moments矩.

@note Only applicable to contour moments calculations from Python bindings: Note that the numpy type for the input array should be either np.int32 or np.float32. 仅适用于 Python 绑定的轮廓矩计算：请注意，输入数组的 numpy 类型应为 np.int32 或 np.float32。

@sa  轮廓区域，弧长contourArea, arcLength
 */
CV_EXPORTS_W Moments moments( InputArray array, bool binaryImage = false );

KNN定义

✔️ K最近邻(kNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一, 通俗理解它，就是近朱者赤，近墨者黑。

KNN原理

✔️ 为了判断未知样本的类别，以所有已知类别的样本作为参照，计算未知样本与所有已知样本的距离，从中选取与未知样本距离最近的K个已知样本，根据少数服从多数的投票法则（majority-voting），将未知样本与K个最邻近样本中所属类别占比较多的归为一类

算法的描述

1）计算测试数据与各个训练数据之间的距离；

2）按照距离的递增关系进行排序；

3）选取距离最小的K个点；

4）确定前K个点所在类别的出现频率；

5）返回前K个点中出现频率最高的类别作为测试数据的预测分类。

优点

1.简单，易于理解，易于实现，无需估计参数，无需训练；

2.适合对稀有事件进行分类；

3.特别适合于多分类问题， kNN比SVM的表现要好。

缺点

1> 当训练数据集很大时，需要大量的存储空间，而且需要计算待测样本和训练数据集中所有样本的距离，所以非常耗时；

2> KNN对于样本不均衡，以及随机分布的数据效果不好。

算法的使用场景：

1、适合用于类别间差异较大，同类别间数据差异较小的场景；

2、对于类别间的界限不清晰的场景，效果好于基于线性分类的逻辑回归；

3、单个测试样本计算都需要计算与训练集中所有训练样本的距离，在数据量较大时会占用非常多的计算力并增加计算时间；

4、对于各个类别中数据数量差异较大的场景效果较差，特别在K取值又较大时，占数量优势的类别对于结果的影响非常明显。

参考：

机器学习算法—KNN算法原理及阿里云PAI平台算法模块参数说明-阿里云开发者社区 (aliyun.com)https://developer.aliyun.com/article/722515?spm=a2c6h.13148508.0.0.45304f0eaHYhmN

OpenCV图像处理-KNN&决策树算法 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/85636009

opencv手写数字识别：SVM和KNearest - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/401039799

基于视觉的特征匹配算法（持续更新） - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/147325381

（四十五）OpenCV中的机器学习-用SVM做图像识别 - 知乎 (zhihu.com)https://zhuanlan.zhihu.com/p/93224022

Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
tiff批量转png 诺有缸的高飞鸟 opencv 图像处理 python opencv 图像处理
目录写在前面代码完写在前面1、本文内容tiff批量转png2、平台/环境opencv,python3、转载请注明出处：https://blog.csdn.net/qq_41102371/article/details/132975023代码importnumpyasnpimportcv2importosdeffindAllFile(base):file_list=[]forroot,ds,fsin
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
windows下python opencv ffmpeg读取摄像头实现rtsp推流拉流图像处理大大大大大牛啊 opencv实战代码讲解视觉图像项目 windows python opencv
windows下pythonopencvffmpeg读取摄像头实现rtsp推流拉流整体流程1.下载所需文件1.1下载rtsp推流服务器1.2下载ffmpeg2.开启RTSP服务器3.opencv读取摄像头并调用ffmpeg进行推流4.opencv进行拉流5.opencv异步拉流整体流程1.下载所需文件1.1下载rtsp推流服务器下载RTSP服务器下载页面https://github.com/blu
c++ opencv4.3 sift匹配图像处理大大大大大牛啊图像处理 opencv实战代码讲解 opencv sift c++opencv4 特征点
c++opencv4.3sift匹配main.cppintmain(){vectorkeypoints1,keypoints2;Matimg1,img2,descriptors1,descriptors2;intnumF
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
ubuntu安装opencv最快的方法 Derek重名了
最快方法，当然不能太多文字$sudoapt-getinstallpython-opencv借助python就可以把ubuntu的opencv环境搞起来，非常快非常容易参考：https://docs.opencv.org/trunk/d2/de6/tutorial_py_setup_in_ubuntu.html
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
使用Python和Playwright破解滑动验证码 asfdsgdf python 开发语言
滑动验证码是一种常见的验证码形式，通过拖动滑块将缺失的拼图块对准原图中的空缺位置来验证用户操作。本文将介绍如何使用Python中的OpenCV进行模板匹配，并结合Playwright实现自动化破解滑动验证码的过程。所需技术OpenCV模板匹配：用于识别滑块在背景图中的正确位置。Python：主要编程语言。Playwright：用于浏览器自动化，模拟用户操作。破解过程概述获取验证码图像：下载背景图和
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
opencv学习：图像旋转的两种方法，旋转后的图片进行模板匹配代码实现夜清寒风学习 opencv 机器学习人工智能计算机视觉
图像旋转在图像处理中，rotate和rot90是两种常见的图像旋转方法，它们在功能和使用上有一些区别。下面我将分别介绍这两种方法，并解释它们的主要区别rot90方法rot90方法是NumPy提供的一种数组旋转函数，它主要用于对二维数组（如图像）进行90度的旋转。这个方法比较简单，只支持90度的倍数旋转，不支持任意角度旋转。使用NumPy进行旋转使用NumPy的rot90函数对模板图像进行旋转操作。
Python OpenCV图像处理：从基础到高级的全方位指南极客代码玩转Python 开发语言 python opencv 图像处理计算机视觉
目录第一部分：PythonOpenCV图像处理基础1.1OpenCV简介1.2PythonOpenCV安装1.3实战案例：图像显示与保存1.4注意事项第二部分：PythonOpenCV图像处理高级技巧2.1图像变换2.2图像增强2.3图像复原第三部分：PythonOpenCV图像处理实战项目3.1图像滤波3.2图像分割3.3图像特征提取第四部分：PythonOpenCV图像处理注意事项与优化策略4
python图像匹配_opencvpython中的图像匹配 weixin_39585675 python图像匹配
我一直在做一个项目，用opencvpython识别相机中显示的标志。我已经尝试过使用surf、颜色直方图匹配和模板匹配。但在这3个问题中，它并不总是返回正确的答案。我现在想要的是，解决我这个问题的最好办法是什么。模板图像示例：以下是摄像头中显示的标志示例。如果这是我想要识别的图像，该怎么用？在更新matchTemplate中的代码flags=["Cambodia.jpg","Laos.jpg","
利用Python+OpenCV实现截图匹配图像，支持自适应缩放、灰度匹配、区域匹配、匹配多个结果 xu-jssy Python自动化脚本 python opencv 开发语言图像处理自动化
可以直接通过pip获取，无需手动安装其他依赖pipinstallxug示例：importxugxug.find_image_on_screen(,,,)=========================================================================一、依赖安装pipinstallopencv-pythonpipinstallpyautogui二、获
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
opencv 学习 1 木木ainiks opencv 计算机视觉 python
opencv学习的第一天#coding:utf-8importcv2ascv#首先读图片src=cv.imread(“img/1.jpg”)#设置图片的名字cv.namedWindow(“1”,cv.WINDOW_AUTOSIZE)#显示图片第一个参数设置图片名，第二个参数图片的地址cv.imshow(“1”,src)cv.waitKey(0)#将图片写入固定位置cv.imwrite(“img/2
OpenCV结构分析与形状描述符（24）检测两个旋转矩形之间是否相交的一个函数rotatedRectangleIntersection()的使用 jndingxin OpenCV opencv 人工智能计算机视觉
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述测两个旋转矩形之间是否存在交集。如果存在交集，则还返回交集区域的顶点。下面是一些交集配置的例子。斜线图案表示交集区域，红色顶点是由函数返回的。rotatedRectangleIntersection()这个函数看起来像是用于检测两个旋转矩形之间是否相交的一个方法。
python-opencv cv2.findContours()函数 fjswcjswzy opencv python笔记 python opencv
示例代码：image,contours,hierarchy=cv2.findContours(contour,cv2.RETR_TREE,cv2.CHAIN_APPROX_SIMPLE)输入：contour：带有轮廓信息的图像；cv2.RETR_TREE：提取轮廓后，输出轮廓信息的组织形式，除了cv2.RETR_TREE还有以下几种选项：cv2.RETR_EXTERNAL：输出轮廓中只有外侧轮廓信
【Python】【Opencv】cv2.findContours()、cv2.drawContours()和cv2.contourArea()函数详解和运行示例木彳 Python学习和使用过程积累 python opencv 开发语言人工智能计算机视觉
为帮助大家理解和使用cv2.findContours()、cv2.drawContours()和cv2.contourArea()函数，本文通过对函数内容进行详解，并通过运行示例更直观表述。函数解析cv2.findContours()cv2.drawContours()cv2.contourArea()运行示例运行示例示例详解函数解析cv2.findContours()cv2.findContou
python如何判断NoneTpye #如花 opencv 人工智能计算机视觉 python
python如何判断NoneTpye最近用python-opencv解析多个视频文件，解析到第一个视频的最后一帧，出现了NoneTpye报错为了让循环继续，需要判断解析出来的图片是否为NoneType。试了几种方法#第一种方法img==None当img为空时，表达式为True。但是当img解析出了图片时，返回的是一个array，大小和img一致。正确写法imgisNone用isNone判断None
三点or多点的变换矩阵求解opencv & eigen 合工大机器人实验室 C++矩阵 opencv 线性代数
《Estimating3-DRigidBodyTransformations:AComparisonofFourMajorAlgorithms》，它使用SVD方法计算T和t。只要算出变换矩阵，就可以算出A坐标系的一个点P在坐标系B里的对应点坐标，即R为3x3的转换矩阵，t为3x1的位移变换向量，这里点坐标均为3x1的列向量（非齐次形式，齐次形式下为4x1列向量，多出的一个元素值补1而已）。理论上只
Python计算机视觉编程第三章图像到图像的映射一只小小程序猿计算机视觉 python opencv
目录单应性变换直接线性变换算法仿射变换图像扭曲图像中的图像分段仿射扭曲创建全景图RANSAC拼接图像单应性变换单应性变换是将一个平面内的点映射到另一个平面内的二维投影变换。在这里，平面是指图像或者三维中的平面表面。单应性变换具有很强的实用性，比如图像配准、图像纠正和纹理扭曲，以及创建全景图像。单应性变换本质上是一种二维到二维的映射，可以将一个平面内的点映射到另一个平面上的对应点。代码如下：impo
DIODE：超高分辨率室内室外数据集（猫脸码客第186期）猫脸码客: catCode2024 开源数据集猫脸码客开源数据集超高分辨率室内室外数据集
亲爱的读者们，您是否在寻找某个特定的数据集，用于研究或项目实践？欢迎您在评论区留言，或者通过公众号私信告诉我，您想要的数据集的类型主题。小编会竭尽全力为您寻找，并在找到后第一时间与您分享。在计算机视觉和深度学习领域，深度信息作为三维空间感知的重要组成部分，对于实现高级视觉任务如场景理解、机器人导航、增强现实等具有至关重要的作用。然而，获取准确且密集的深度数据一直是一个挑战，尤其是在同时涵盖室内和室
逆radon变换matlab,Radon变换及其Matlab代码实现少年商学院逆radon变换matlab
Radon变换和Hough变换类似，最初是用于检测图像中的直线(例如笔直的街道边沿、房屋的边沿、笔直的电线等)。关于Hough变换，可以参考OpenCV中的代码和示例(其实除了HoughLines还有HoughCircles等等变种)，此处不再赘述。关于Radon变换，可以参考wiki或者百科，或者网络上的其他资料介绍。这里做一个简单的总结。首先准备一张灰度化的图像，及黑白图像，然后检测图像的边缘
深度学习入门篇：PyTorch实现手写数字识别 AI_Guru人工智能深度学习 pytorch 人工智能
深度学习作为机器学习的一个分支，近年来在图像识别、自然语言处理等领域取得了显著的成就。在众多的深度学习框架中，PyTorch以其动态计算图、易用性强和灵活度高等特点，受到了广泛的喜爱。本篇文章将带领大家使用PyTorch框架，实现一个手写数字识别的基础模型。手写数字识别简介手写数字识别是计算机视觉领域的一个经典问题，目的是让计算机能够识别并理解手写数字图像。这个问题通常作为深度学习入门的练习，因为
ubuntu opencv 安装科学的发展-只不过是读大自然写的代码 opencv基础 ubuntu opencv linux
1.ubuntuopencv安装在Ubuntu系统中安装OpenCV，可以通过多种方式进行，以下是一种常用的安装方法，包括从源代码编译安装。请注意，安装步骤可能会因OpenCV的版本和Ubuntu系统的具体版本而略有不同。一、安装准备更新系统（确保你的Ubuntu系统是最新的）：sudoaptupdatesudoaptupgrade安装必要的依赖项：sudoaptinstallbuild-esse
结合YOLOv8和OpenCV WeChat QRCode打造一款二维码识别器搜狐技术产品小编2023 YOLO opencv 微信人工智能计算机视觉
本文字数：3876字预计阅读时间：25分钟01引言二维码（QRCode）在现代生活中有广泛应用，从支付系统到信息传递，它们无处不在。本文提出了一种如何识别二维码的方法，主要贡献在于优化处理分辨率较高的图像时，由于二维码在整张图片中占据的比例较小，传统的OpenCVWeChatQRCode的识别方法表现不佳的问题。下面描述详细的优化过程。02OpenCVWeChatQRCodeWeChatQRCod
OpenCV高阶操作富士达幸运星 opencv 人工智能计算机视觉
在图像处理与计算机视觉领域，OpenCV（OpenSourceComputerVisionLibrary）无疑是最为强大且广泛使用的工具之一。从基础的图像读取、1.图片的上下，采样下采样（Downsampling）下采样通常用于减小图像的尺寸，从而减少图像中的像素数。这个过程可以通过多种方法实现，但最常见的是通过图像金字塔中的pyrDown函数（在OpenCV中）或其他类似的滤波器（如平均池化、最
Vue + Django的人脸识别系统 DXSsssss python DRF tensorflow 人脸识别
最近在研究机器学习，刚好最近看了vue+Djangodrf的一些课程，学以致用，做了一个人脸识别系统。项目前端使用Vue框架，用到了elementui组件，写起来真是方便。比之前传统的dtl方便了太多。后端使用了drf，识别知识刚开始打算使用opencv+tensorflow,但是发现吧识别以后的结果返回到浏览器当中时使用opencv比较麻烦（主要是我太菜，想不到比较好的方法），因此最终使用了tf
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D

【opencv450-samples】digits_svm 手写数字识别SVM vs KNearest （SVM and KNearest digit recognition）

你可能感兴趣的:(opencv,opencv,计算机视觉,SVM,KNearest)