易烊千玺铁粉

计算机视觉图像处理常用方法汇总

Opencv图像处理常用算法方法汇总

1.数字图像处理基础
- 1.1 人眼图像的形成
- 1.1 图像数字化
- 1.2 图像的种类
- - 1.2.1 颜色分割
- 1.3 像素之间的关系
- - 1.3.1 领域
  - 1.3.2 连接和连通
2.图像预处理技术
- 2.1 灰度变换
- - 2.1.1 线性变换
  - 2.1.2 对数变换
  - 2.1.3 幂律变换
  - 2.1.4 反转
  - 2.1.5 对比度增强
  - 2.1.6 对比度压缩
  - 2.1.7 伽马矫正
- 2.2 图像直方图
- - 2.2.1 直方图均衡化
- 2.3 空间滤波
- - 2.3.1 均值滤波
  - 2.3.2 方框滤波
  - 2.3.3 高斯滤波
  - 2.3.4 中值滤波
  - 2.3.5 双边滤波
  - 2.3.6 边缘锐化
  - - Sobel算子
    - Robort算子
    - Laplacian算子
- 2.4 坐标变换
- - 2.4.1 图像平移
  - 2.4.2 旋转
  - 2.4.3 缩放
  - 2.4.4 镜像
  - 2.4.5 图像矫正
  - 2.4.6 图像缩放
- 2.5 图像插值
- - 2.5.1 最近邻插值
  - 2.5.2 单线性插值
  - 2.5.3 双线性插值
  - 2.5.4 双三次
- 2.6 仿射变换
- 2.7 数据增强处理
3. 图像特征提取
- 3.1 图像二值化
- - 3.1.1 双峰法
  - 3.1.2 最大类间方差法
- 3.2 形态学处理
- - 3.2.1 开运算&闭运算
- 3.3 特征描述子

1.数字图像处理基础

1.1 人眼图像的形成

光线进入眼睛：当光线从一个物体反射或散射出来，进入人的眼睛时，它们通过角膜和晶状体进入眼球内部。
聚焦光线：角膜和晶状体将光线聚焦在视网膜上。晶状体可以通过调整其形状来调节聚焦距离，使物体的图像清晰地映射在视网膜上。
光敏细胞感受光线：视网膜是一层包含光敏细胞的组织，分为两种类型的细胞：锥状细胞和杆状细胞。锥状细胞负责颜色和明亮度感知，杆状细胞则负责在低光条件下感知。
神经信号传递：光敏细胞受到光线刺激时，会产生神经信号，这些信号随后传递到视神经和大脑。在视神经和视皮层中，这些信号被进一步处理和解释，以形成我们所看到的视觉图像。

1.1 图像数字化

图像数字化是将图像转换为数字信号的过程。数字化图像通常由数字矩阵组成，每个元素表示图像上的一个像素，并用数字表示该像素的颜色和亮度。

数字化图像的过程通常包括以下步骤：

采集：采集图像需要使用一种数字化设备，例如数码相机、扫描仪或摄像机。数字化设备将图像转换为数字信号，这些信号可以由计算机处理。
采样：采样是将连续图像转换为离散像素的过程。数字化设备将图像分成网格，每个网格称为像素，采集每个像素的颜色和亮度信息，例如：一幅640480分辨率的图像，表示这幅图像是由640480=307200个点组成的。
量化：量化是将每个像素的颜色和亮度值转换为数字值的过程。在量化过程中，将连续信号转换为离散信号。量化级别决定了数字图像中可以显示的颜色和亮度的数量。例如：一幅8位的图像，表示每个采样点有 $2^8$ =256级，从最暗到最亮，可以分辨为256个级别
编码：编码是将数字化的像素值储存为数字格式的过程。编码格式通常包括JPEG、PNG、BMP等

对于一张彩色图片，这张图片的内容是由分辨率（示例：1920x1080）数量级的像素组成。类似于淘宝卖的钉子画，就是由1920乘以1080个钉子组成的画，其中每个钉子的颜色，是由三个通道（RGB）共同组成（三种分别叫R、G、B的钉子组成），

这三个通道像是我们学水彩绘画的中心三颜色（红黄蓝），通过这三种颜色可以调出不同的颜色
也可以理解为，三种通道为三种图层，图层与图层之间组成的颜色。

每一个通道下的每一个钉子的颜色，在计算机视角下就表示为一个0～255的值

既然知道了，在计算机科学的视角下，图片就是数值，那所谓的Opencv图像处理，P图，美颜等等功能，其实就是数值的变化，明白其中的数学公式和逻辑，Opencv的常用算法函数就清晰了。所以本文主要从数学线性代数的角度讲解算法方法。

1.2 图像的种类

按照图像在视觉或设备中的成像效果，可以将图像分为：

灰度图：也就是常说的黑白照片，单通道
彩色图像：RGB、HSV、YUV、CMYK、Lab

通常我们做特定颜色检测的时候，一般选择用HSV空间的图像，下面一个实例，可以自我调整HSV的数值，来获取在图像中自己想要的颜色。

1.2.1 颜色分割

做颜色特征检测，需要将我们的图片RGB模式转化为HSV模式，H：色彩，S：饱和度，V：明度

下面的代码，我们可以通过调节滑块中HSV的值来观察图片中的颜色变化。

createTrackbar是Opencv中的API，其可在显示图像的窗口中快速创建一个滑动控件，用于手动调节阈值，具有非常直观的效果
cv2.createTrackbar(trackbarName, windowName, value, count, onChange)创建滑动条函数

trackbarName：滑动空间的名称；
windowName：滑动空间用于依附的图像窗口的名称；
value：初始化阈值；
count：滑动控件的刻度范围；最小值默认为0。
onChange：回调函数（所谓回调函数即每次修改滑动条后，需要传入新变量的函数）的名称

cv2.getTrackbarPos获取滑动条位置处的值

import cv2
import numpy as np

#定义HSV滑块的值
def empty(a):
    h_min = cv2.getTrackbarPos("Hue Min","TrackBars")
    h_max = cv2.getTrackbarPos("Hue Max", "TrackBars")
    s_min = cv2.getTrackbarPos("Sat Min", "TrackBars")
    s_max = cv2.getTrackbarPos("Sat Max", "TrackBars")
    v_min = cv2.getTrackbarPos("Val Min", "TrackBars")
    v_max = cv2.getTrackbarPos("Val Max", "TrackBars")
    print(h_min, h_max, s_min, s_max, v_min, v_max)
    return h_min, h_max, s_min, s_max, v_min, v_max

#图片拼接，将4张图片拼接到一起
def stackImages(scale,imgArray):
    rows = len(imgArray)
    cols = len(imgArray[0])
    rowsAvailable = isinstance(imgArray[0], list)
    width = imgArray[0][0].shape[1]
    height = imgArray[0][0].shape[0]
    if rowsAvailable:
        for x in range ( 0, rows):
            for y in range(0, cols):
                if imgArray[x][y].shape[:2] == imgArray[0][0].shape [:2]:
                    imgArray[x][y] = cv2.resize(imgArray[x][y], (0, 0), None, scale, scale)
                else:
                    imgArray[x][y] = cv2.resize(imgArray[x][y], (imgArray[0][0].shape[1], imgArray[0][0].shape[0]), None, scale, scale)
                if len(imgArray[x][y].shape) == 2: imgArray[x][y]= cv2.cvtColor( imgArray[x][y], cv2.COLOR_GRAY2BGR)
        imageBlank = np.zeros((height, width, 3), np.uint8)
        hor = [imageBlank]*rows
        hor_con = [imageBlank]*rows
        for x in range(0, rows):
            hor[x] = np.hstack(imgArray[x])
        ver = np.vstack(hor)
    else:
        for x in range(0, rows):
            if imgArray[x].shape[:2] == imgArray[0].shape[:2]:
                imgArray[x] = cv2.resize(imgArray[x], (0, 0), None, scale, scale)
            else:
                imgArray[x] = cv2.resize(imgArray[x], (imgArray[0].shape[1], imgArray[0].shape[0]), None,scale, scale)
            if len(imgArray[x].shape) == 2: imgArray[x] = cv2.cvtColor(imgArray[x], cv2.COLOR_GRAY2BGR)
        hor= np.hstack(imgArray)
        ver = hor
    return ver



path = '1.jpg'
cv2.namedWindow("T
# 创建一个窗口，放置6个滑动条rackBars")
cv2.resizeWindow("TrackBars",640,240)
cv2.createTrackbar("Hue Min","TrackBars",0,179,empty)
cv2.createTrackbar("Hue Max","TrackBars",19,179,empty)
cv2.createTrackbar("Sat Min","TrackBars",110,255,empty)
cv2.createTrackbar("Sat Max","TrackBars",240,255,empty)
cv2.createTrackbar("Val Min","TrackBars",153,255,empty)
cv2.createTrackbar("Val Max","TrackBars",255,255,empty)

while True:
    img = cv2.imread(path)
    imgHSV = cv2.cvtColor(img,cv2.COLOR_BGR2HSV)
    # 调用回调函数，获取滑动条的值
    h_min = cv2.getTrackbarPos("Hue Min","TrackBars")
    h_max = cv2.getTrackbarPos("Hue Max", "TrackBars")
    s_min = cv2.getTrackbarPos("Sat Min", "TrackBars")
    s_max = cv2.getTrackbarPos("Sat Max", "TrackBars")
    v_min = cv2.getTrackbarPos("Val Min", "TrackBars")
    v_max = cv2.getTrackbarPos("Val Max", "TrackBars")
    lower = np.array([h_min,s_min,v_min])
    upper = np.array([h_max,s_max,v_max])
    # 获得指定颜色范围内的掩码
    mask = cv2.inRange(imgHSV,lower,upper)
    # 对原图图像进行按位与的操作，掩码区域保留
    imgResult = cv2.bitwise_and(img,img,mask=mask)


    # cv2.imshow("Original",img)
    # cv2.imshow("HSV",imgHSV)
    # cv2.imshow("Mask", mask)
    # cv2.imshow("Result", imgResult)

    imgStack = stackImages(0.6,([img,imgHSV],[mask,imgResult]))
    cv2.imshow("Stacked Images", imgStack)

    cv2.waitKey(1)

1.3 像素之间的关系

数字图像在计算机视觉下，实际上是一个矩阵的形状

像素的下标又被称为坐标(x,y)，我们可以从坐标的信息中发现像素与像素之间存在着一些空间位置的关系

1.3.1 领域

4-领域 ：对于坐标(x,y)的像素P，P有四个水平垂直的相邻像素，称为4-领域 $(x - 1, y), (x + 1, y), (x, y - 1), (x, y + 1)$
对角领域 ：P有四个对角相邻像素， $(x - 1, y - 1), (x - 1, y + 1), (x + 1, y - 1), (x + 1, y + 1)$
8-领域：4-领域和对角领域合称为像素的8-领域

1.3.2 连接和连通

如果两个像素不仅空间上位置上领接，并且其他像素值也符合相似准则，则二个像素是连接的。
像素相似准则，指像素的灰度值相等，或者说像素值都在一个灰度集合中v中。

举例说明，8级灰度，像素值的范围在0～256（ $2^8$ ）,7级灰度的像素值范围在0~128，那7级到8级这128～256范围的像素值就是一个灰度集合。

4-连接 ：像素p,q都在集合v中的取值，并且q,p互为4-领域
8-连接 ：像素p,q都在集合v中的取值，并且q,p互为8-领域
像素连通：就是在连接的基础上，增加的概念。如果说对于同个像素点存在：p和q连接、q和r连接，r和s连接，s和t连接，则p和t连通。
如果说连通的线，形成闭合环的，也可以叫连通域。

图像处理的算法技术，正是运用了像素之间的空间位置关系和像素数值，结合多种数学、线性代数逻辑实现，图像效果变化的。

2.图像预处理技术

图像处理的输入和输出形式，有以下几种形式：

输入	输出
单幅图像	单幅图像
多幅图	单幅图像
单幅图	数字或符号等内容
多幅图	数字或符号等内容

图像预测处理主要目的是消除图像中无关的信息，提取出有用信息（很像做结构数据的特征提取），来增加有关信息的可检测性，最大限度地简化数据，从而改进特征提取，图像分割、匹配和识别的可靠性，并应用到深度学习分析预测中，具体流程可以如下

图像预测处理流程主要包括：灰度变换、几何变换、图像增强、图像滤波等等

2.1 灰度变换

灰度变换是指将一幅图像的像素灰度值进行一定的映射变换，使得图像的亮度、对比度或颜色得到调整，以达到某种特定的视觉效果。

我们记录像素点的原始值为s，灰度变换的映射函数为T(s)，变换后的像素点为d，即：
$d = T (s)$
下面介绍几种常见的图像处理灰度变换方法：

2.1.1 线性变换

线性变换是一种简单的灰度变换方法，它将图像的灰度值进行线性映射，通常用下面的公式来表示：

$g (x, y) = a * f (x, y) + b$

其中， $f (x, y)$ 表示原图像的灰度值， $g (x, y)$ 表示变换后的灰度值，a和b是常数，可以通过调整它们来控制变换的幅度和方向。

2.1.2 对数变换

对数变换可以增强图像的暗部细节，通常用下面的公式来表示：

$g (x, y) = c * l o g (1 + f (x, y))$

其中， $f (x, y)$ 表示原图像的灰度值， $g (x, y)$ 表示变换后的灰度值， $c$ 是常数，可以通过调整它来控制变换的幅度。

2.1.3 幂律变换

幂律变换可以增强图像的亮部细节，通常用下面的公式来表示：

$g(x,y) = c * f(x,y)^γ$

其中， $f (x, y)$ 表示原图像的灰度值， $g (x, y)$ 表示变换后的灰度值， $c$ 和 $γ$ 是常数，可以通过调整它们来控制变换的幅度和方向。

2.1.4 反转

反转是一种简单的灰度变换方法，它可以将图像中亮度值较高的区域变暗，将亮度值较低的区域变亮，从而实现对比度的增强。反转的实现方法很简单，只需要将每个像素的灰度值取反即可。例如，原图像中的像素灰度值为g，反转后的像素灰度值为255-g。

2.1.5 对比度增强

对比度增强是一种将图像中的灰度值重新映射到更广的范围内，从而增加图像的对比度的方法。对比度增强的实现方法有很多种，其中一种常用的方法是灰度拉伸，具体来说：

假设原图像的像素值范围为[a,b]，将其线性拉伸到[0,255]的范围内，拉伸函数可以表示为：

$g(x)=\frac{(x-a)\times255}{b-a}, x\in[a,b]$

其中， $x$ 为原图像的像素值， $g (x)$ 为拉伸后的像素值。

在OpenCV中，也可以使用LUT（查找表）来实现灰度拉伸。

具体步骤如下：
（1）计算拉伸函数 $g (x)$ ，其中 $x\in[a,b]$ ， $a$ 和 $b$ 分别为原图像的最小像素值和最大像素值。 $g(x)=\frac{(x-a)\times255}{b-a}$
（2）创建一个 $256$ 个元素的查找表 $l oo k u p$ ，其中 $l oo k u p (i)$ 表示原图像中像素值为 $i$ 的像素在拉伸后的像素值。
（3）遍历原图像的每个像素，查找表中查找对应的新像素值，将其赋值给输出图像。

下面是使用LUT实现灰度拉伸的代码示例：

import cv2
import numpy as np

# 读取原图像
img = cv2.imread('test.jpg', cv2.IMREAD_GRAYSCALE)

# 计算拉伸函数
a = np.min(img)
b = np.max(img)
g = lambda x: (x-a)*255/(b-a)

# 创建查找表
lookup = np.zeros(256, dtype=np.uint8)
for i in range(256):
    lookup[i] = np.clip(g(i), 0, 255)

# 使用查找表进行灰度拉伸
img_stretched = cv2.LUT(img, lookup)

# 显示原图像和拉伸后的图像
cv2.imshow('Original Image', img)
cv2.imshow('Stretched Image', img_stretched)
cv2.waitKey(0)
cv2.destroyAllWindows()

在这个示例中，我们使用np.clip()函数将像素值限制在 $[0, 255]$ 范围内，以避免输出像素值超出范围的问题。

2.1.6 对比度压缩

对比度压缩是一种将图像中的灰度值重新映射到更窄的范围内，从而减少图像的对比度的方法。对比度压缩的实现方法也有很多种，其中一种常用的方法是对数变换。具体来说，对数变换将图像中的灰度值取对数后再缩放到[0,255]范围内，公式如下：

$g(x)=\frac{(x-a)\times255}{b-a}, x\in[a,b]$ 其中， $x$ 为原图像的像素值， $g (x)$ 为压缩后的像素值。

在OpenCV中，可以使用LUT（查找表）来实现对比度压缩。具体步骤如下：
（1）计算压缩函数 $g (x)$ ，其中 $x\in[a,b]$ ， $a$ 和 $b$ 分别为压缩后的最小像素值和最大像素值。 $g(x)=\frac{(x-a)\times255}{b-a}$
（2）创建一个 $256$ 个元素的查找表 $l oo k u p$ ，其中 $l oo k u p (i)$ 表示原图像中像素值为 $i$ 的像素在压缩后的像素值。
（3）遍历原图像的每个像素，查找表中查找对应的新像素值，将其赋值给输出图像。

下面是使用LUT实现对比度压缩的代码示例：

import cv2
import numpy as np

# 读取原图像
img = cv2.imread('test.jpg', cv2.IMREAD_GRAYSCALE)

# 计算压缩函数
a = 50
b = 200
g = lambda x: (x-a)*255/(b-a)

# 创建查找表
lookup = np.zeros(256, dtype=np.uint8)
for i in range(256):
    lookup[i] = np.clip(g(i), 0, 255)

# 使用查找表进行对比度压缩
img_compressed = cv2.LUT(img, lookup)

# 显示原图像和压缩后的图像
cv2.imshow('Original Image', img)
cv2.imshow('Compressed Image', img_compressed)
cv2.waitKey(0)
cv2.destroyAllWindows()

2.1.7 伽马矫正

伽马矫正是一种通过对图像中的灰度值进行非线性变换，从而调整图像亮度的方法。伽马矫正的原理是通过一个非线性函数来映射原图像中的灰度值，从而使得亮度值更低的区域变暗，亮度值更高的区域变亮。具体来说，伽马矫正使用下面的公式进行灰度值变换：

$g^ = A g^γ$

其中，g表示原图像中的像素灰度值，g’表示伽马矫正后的像素灰度值，A和γ是参数。A控制了灰度值的幅度，通常情况下A=1，γ控制了灰度值变化的速度，通常情况下γ取值范围在[0.5, 2.5]之间。当γ小于1时，图像中的亮度值较低的区域将被放大，从而提高了图像的对比度；当γ大于1时，图像中的亮度值较高的区域将被放大，从而使图像更加明亮。

反转、对比度增强、对比度压缩和伽马矫正是常用的图像灰度变换方法，它们可以用于调整图像的亮度、对比度等属性。根据实际需要选择合适的灰度变换方法可以改善图像的视觉效果，提高图像分析和处理的效果。

2.2 图像直方图

图像直方图：直方图，是指对整个图像在灰度范围内的像素值(0~255)统计出现频率次数，据此生成的直方图，称为图像直方图。直方图反映了图像灰度的分布情况。是图像的统计学特征，

如果我们使用RBG分别对三个通道实现直方图，就那这三个直方图就代表这个图像的特征。

2.2.1 直方图均衡化

直方图均衡化是一种更为高级的增强图像对比度的方法，其基本思想是通过对图像的像素值进行变换，使得像素值在整个灰度范围内分布均匀，从而增强图像的对比度。

均衡化转化

可以看到均衡化，是将直方图中的内容左右拉伸了一下。（让图像中像素领域之间差异显得不大，平衡整个图片的色彩，使我们观察图片，不会发现某个地方色彩对比其他位置突出）

直方图均衡化：直方图均衡化是一种常见的图像增强方法，它通过对图像的灰度直方图进行均衡化，使得图像的亮度分布更加均匀，从而增强图像的对比度和细节。具体实现方法可以参考以下步骤：

（1）计算原图像的灰度直方图；
（2）计算灰度直方图的累积分布函数；
（3）根据累积分布函数对原图像进行灰度值映射；
（4）得到均衡化后的图像。

具体而言，假设原图像的像素值范围为[0,255]，其灰度直方图为 $H(i),i\in[0,255]$ ，CDF为 $C(i),i\in[0,255]$ ，均衡化后的像素值为 $g(i),i\in[0,255]$ ，则有： $C(i)=\sum_{j=0}^i H(j)$ $g(i)=\lfloor \frac{255 \times C(i)}{MN} \rfloor$ 其中， $M$ 和 $N$ 分别为原图像的宽度和高度。在OpenCV中，可以使用equalizeHist()函数来实现直方图均衡化。需要注意的是，直方图均衡化有时会导致图像的噪声增强，因此在实际应用中需要谨慎使用。

2.3 空间滤波

空间滤波是一种基于图像局部邻域像素的图像处理方法，它通过对图像像素周围的邻域像素进行加权平均或其他数学运算来改变图像的特征。

空间滤波在图像去噪、边缘检测、图像增强等方面有着广泛的应用。

常见的空间滤波算法包括均值滤波、中值滤波、高斯滤波等。

均值滤波：将像素点周围的邻域像素的灰度值进行平均，用来减少图像中的噪声。
中值滤波：用邻域像素的中值来代替当前像素值，可以有效地去除图像中的椒盐噪声等非线性噪声。
高斯滤波：将邻域像素的灰度值按照一定的权值进行加权平均，其中权值由高斯函数计算得到，可以有效地平滑图像并保留较好的图像细节。

空间滤波的一般步骤如下：

定义一个固定大小的滤波器（也称为卷积核或模板），滤波器通常是一个矩阵。
将滤波器中心对准当前像素，将滤波器中的所有元素与当前像素的邻域像素进行加权或其他数学运算，得到当前像素的输出值。
移动滤波器，重复步骤2，直到所有像素都被处理过。

使用不同的滤波（卷积核也就是矩阵）来实现图像像素的改变，其中的主要有三功能分别是图像的模糊/去噪、图像梯度/边缘发现、图像锐化/凸图像增强，我这里都把这些功能都看成是图像增强，因为这些操作都是修改了图像的像素。

使用滤波增强强调图像中感兴趣的部分，增强图像的高频成分，可以使图像中物体的轮廓清晰，细节清晰；增强低频分量可以降低图像中噪声的影响，（对图像中的像素值进行处理），也可以是使图像变得模糊。

2.3.1 均值滤波

均值滤波是指用当前像素点周围N*N个像素点的均值来代替当前像素值

$\frac{112*6+110*4+60*8+6*70}{24}=83.33$

2.3.2 方框滤波

方框滤波不会计算像素均值，它可以自由选择是否对均值滤波的结果进行归一化，即可以自由选择滤波结果是邻域像素值之和的平均值，还是邻域像素值之和。

2.3.3 高斯滤波

在进行均值滤波与方框滤波时，其邻域内每个像素的权重是相等的。而高斯滤波会将中心点的权重加大，远离中心点的权重减小，以此来计算邻域内各个像素值不同权重的和。

2.3.4 中值滤波

用邻域内所有像素值的中间值来代替当前像素点的像素值。

2.3.5 双边滤波

双边滤波是一种非线性的滤波方法，它在平滑图像的同时保留了边缘信息。其核心思想是通过对像素点的空间位置和像素值之间的相似度进行加权平均，来达到滤波的效果。

双边滤波公式为：

其中， $I_{filtered}(x,y)$ 表示滤波后的像素值， $I (i, j)$ 表示邻域像素 $(i, j)$ 的灰度值， $f_{p}(i,j)$ 表示像素 $(i, j)$ 与中心像素 $(x, y)$ 的相似度， $w_{s}$ 和 $w_{r}$ 分别表示空间权值和像素值权值， $W_{p}(x,y)$ 是归一化的权值之和，用于保证滤波后像素值的范围在 $[0, 255]$ 之间。

在实际应用中， $f_{p}(i,j)$ 通常使用高斯函数来计算，空间权值 $w_{s}$ 和像素值权值 $w_{r}$ 也可以使用高斯函数来计算，它们的值都取决于两个参数，分别是空间域参数和灰度域参数。空间域参数决定了滤波器的半径，灰度域参数决定了滤波器对灰度差异的敏感程度。

2.3.6 边缘锐化

图像梯度计算的是图像变化的速度

对于图像的边缘部分，其灰度值变化较大，梯度值也较大；相反，对于图像中比较平滑的部分，其灰度值变化较小，相应的梯度值也较小。一般情况下，图像的梯度计算是图像的边缘信息。

其实梯度就是导数，但是图像梯度一般通过计算像素值的差来得到梯度的近似值，也可以说是近似导数。该导数可以用微积分来表示。

在线性代数微积分中，一维函数一阶微分定义：
$\frac{df}{dx}=\lim_{\epsilon\rightarrow 0}\frac{f(x+\epsilon)-f(x)}{\epsilon}$

在图像中就是一个二维函数 $f (x, y)$ ，有二个方向，一个x方向一个y方向，因此需要做偏微分：
$\frac{\partial f(x,y)}{\partial x}=\lim_{\epsilon\rightarrow 0}\frac{f(x+\epsilon,y)-f(x,y)}{\epsilon}$
$\frac{\partial f(x,y)}{\partial y}=\lim_{\epsilon\rightarrow 0}\frac{f(x,y+\epsilon)-f(x,y)}{\epsilon}$

那个这个二维函数总的梯度就为：
$\sqrt{(\frac{\partial f(x,y)}{\partial x})^2+(\frac{\partial f(x,y)}{\partial y})^2}$

每一个像素的梯度是由它周围8个像素共同确定的

要想计算出图像的边缘的基本特征，就需要类似的空间滤波，在这里空间滤波也叫它算子，主要用于计算边缘的算子有Sobel、Robort、Laplacian。

Sobel算子

Sobel X方向算子模版：

$G_x=\left[ \begin{matrix} -1 & 0 & +1\\ -2 & 0 & +2\\ -1 & 0 & +1\\ \end{matrix} \right] \tag{2}$

Sobel y方向算子模版：
$G_y=\left[ \begin{matrix} -1 & -2 & -1\\ 0 & 0 & 0\\ +1 & +2 & +1\\ \end{matrix} \right] \tag{3}$

Robort算子

Robort 算子模版
$G=\left[ \begin{matrix} -1 & 0\\ 0 & 1 \end{matrix} \right] \tag{4}$ $G_=\left[ \begin{matrix} 0 & -1 \\ 1 & 0\end{matrix} \right] \tag{4}$

矩阵与矩阵相乘，比如一个 $m * n$ 和一个 $r * c$ 一定要 $n = r$ 才能发生，
已知我们的算子是 $2 * 2$ ，对应到需要变化的图像上，也一定是取 $m * 2$ 的形状，去算子相乘，但最好是与算子形状相同。

转

Laplacian算子

Laplacian算子是基于二阶微分计算的，其定义如下：

$\frac{\partial^2 f(x,y)}{\partial x^2}+\frac{\partial^2 f(x,y)}{\partial y^2}$

其中：
$\frac{\partial^2 f(x,y)}{\partial x^2}=f(x+1,y)+f(x-1,y)-2f(x,y)$
$\frac{\partial^2 f(x,y)}{\partial y^2}=f(x,y+1)+f(x,y-1)-2f(x,y)$

Laplacian算子模版
$G_=\left[ \begin{matrix} 0 & 1 & 0 \\ 1 & -4 & 1 \\ 0 & 1 &0 \end{matrix} \right] \tag{4}$

2.4 坐标变换

图像的坐标变换又被称为图像的几何计算，常见的基本变换有：图像平移、镜像、缩放、旋转、仿射

常用于深度学习。数据增强

cv2.warpAffine() 仿射变换

dst = cv2.warpAffine(src, M, dsize[, dst[, flags[, borderMode[, borderValue]]]])

src：输入图像
M：2*3 transformation matrix (转变矩阵)
dsize：输出图像的大小，格式为(cols,rows)，width 对应 cols，height 对应 rows
flags：可选参数，插值方法的组合（int 类型），默认值 INTER_LINEAR
borderMode：可选参数，边界像素模式（int 类型），默认值 BORDER_CONSTANT
borderValue：可选参数，边界填充值; 默认情况下，默认值 Scalar()即 0

将图像看成是一个矩阵
warpAffine(img,M,(rows,cols)) 实现基本的仿射变换效果，但是这种情况会出现黑边现象。最后一个参数为 borderValue，边界填充的颜色，默认为黑色，M为一个转换矩阵，Opencv函数通过图像矩阵

2.4.1 图像平移

在图像平移动中 $M$ 是一个转换矩阵： $\left[ \begin{matrix} 1 & 0 & dx\\ 0 & 1 & dy \end{matrix} \right] \tag{3}$

图像平移公式如下：其中 $d x$ , $d y$ 表示在 $(x, y)$ 方向上的位移，如下所示：：

2.4.2 旋转

在图像旋转中 $M$ 是一个转换矩阵： $\left[ \begin{matrix} \cos\theta & -\sin\theta & 0\\ \sin\theta & \cos\theta & 0 \end{matrix} \right] \tag{3}$

2.4.3 缩放

在图像缩放中 $M$ 是一个转换矩阵： $\left[ \begin{matrix} S_x & 0 & 0\\ 0 & S_y & 0 \end{matrix} \right] \tag{3}$

2.4.4 镜像

设图像的大小为 $m * n$

水平镜像，x位置不变，只反转y位置：
$\alpha_{x,y}=\alpha_{x,n-y+1}$

垂直镜像，y位置不变，只反转x位置：
$\alpha_{x,y}=\alpha_{m-x+1,y}$

对角镜像，x，y位置都反转
$\alpha_{x,y}=\alpha_{m-x+1,n-y+1}$

2.4.5 图像矫正

matrix = cv2.getPerspectiveTransform(pts1,pts2)
imgOutput = cv2.warpPerspective(img,matrix,(width,height))

2.4.6 图像缩放

在opencv中我们用图像金字塔用来进行图像缩放的，与resize函数类似
其中图像金字塔根据方法可以分成为：
高斯金字塔：缩小图像也叫下采样，用PryDown函数
拉普斯金字塔：放大图像也叫上采样，用PryUp函数

2.5 图像插值

线性插值法，所有方法都采用同一种插值内核，不用考虑待插像素点所处的位置，这种方法会使用图像中边缘模糊

在对二维数据进行 resize 操作时，经常会将原本的整数坐标变换为小数坐标，对于非整数的坐标值一种直观有效的插值方式为双线性插值。

2.5.1 最近邻插值

算法思想：插值的目的是根据已知的图像的像素值获得未知目标图像的像素值，插值变换过程如下图

假设原始图像（矩阵），每个像素点位置表示为 $src_x,src_y$ ， $tag_x,tag_y$ 表示插值得到的目标像素点位置坐标。

如何得到tag的位置由如下公式：

src图像：
w:193 h:153
tag图像：
w:375 h:284

首先获得原始图像与目标图像的映射关系
$ratio_w = \frac{tag_w}{src_w} = \frac{tag_x}{scr_x}=\frac{375}{193}$
$ratio_h = \frac{tag_h}{src_h} = \frac{tag_y}{scr_y}=\frac{284}{153}$

通过映射值，得到tag的坐标位置
$tag_x = int(src_x*ratio_w)$
$tag_y = int(src_y*ratio_h)$

就可以把 $src_(x,y)$ 位置的像素值赋值给 $tag_(x,y)$

2.5.2 单线性插值

如上图所示，在红色块中间插一个蓝色像素块

二点之间求一条直线，这二点之间任意一点，都落在这个直线上，三点之间任意二点斜率相同

$\frac{y-y_1}{x-x_1}=\frac{y_2-y_1}{x_2-x_1}$

整理一下
$y=\frac{x_2 -x}{x_2 -x_1}y_1+\frac{x -x_1}{x_2-x_1}y_2$

计算蓝色块像素值公式如下：

$f(x,y)=\frac{x_2 -x}{x_2 -x_1}f(x_1,y_1)+\frac{x-x_1}{x_2 -x_1}f(x_2,y_2)$

2.5.3 双线性插值

又上图，解释，我们可以通过红色的像素块，实现线性插值，得到蓝色和绿色的像素块的像素值，具体公式如下：

先计算蓝色像素块的，其中x，x1，x0，就是像素块在矩阵中的位置坐标，y同理也是：

$f(x,y_0)=\frac{x_1-x}{x_1 -x_0}f(x_0,y_0)+\frac{x-x_0}{x_1 - x_0}f(x_1,y_0)$
$f(x,y_1)=\frac{x_1-x}{x_1 -x_0}f(x_0,y_1)+\frac{x-x_0}{x_1 - x_0}f(x_1,y_1)$

再计算绿色块的像素
$f(x,y)=\frac{y_1-y}{y_1 -y_0}f(x,y_0)+\frac{y-y_0}{y_1 - y_0}f(x,y_1)$

2.5.4 双三次

目标图像中每一个像素由原图上相对应点周围的4x4=16个像素的灰度值进行加权，得到一个更接近高分辨率图像的放大效果。

行X轴方向上的4个红色像素块距离绿色像素块距离分别：2，1，-1，-2
行Y轴方向上的4个红色像素块距离绿色像素块距离分别：2，1，-1，-2

如果想得到绿色像素块(x,y)的值，根据源图像距离像素(x,y)最近的16个像素点作为计算绿色像素块(x,y)处像素值的参数，利用BiCubic基函数求出16个像素点的权重，绿色像素(x,y)的值就等于16个像素点的加权叠加。

BiCubic函数中的参数x表示该像素点到目标像素点的距离，例如（x-2,y-2）距离(x,y)的距离为(2,2)，因此(x-2,y-2)的横坐标权重为W(2)，纵坐标权重W(2)。

BiCubic权重公式如下
$\begin{cases} 1-2|x|^2+x^3,\quad |x|<1\\ 4-8|x|+5|x|^2-|x|^3,\quad 1\leq |x|<2 \\ 0, \quad |x|\geq 2 \end{cases} \tag{}$

求(x,y)像素值的公式：

$f(x,y)=ABC^T$
$A = [S (2) S (1) S (- 1) S (- 2)]$
$B = S rc [x - 1 : x + 1, y - 1 : y + 1]$
$C = [S (2) S (1) S (- 1) S (- 2)]$

2.6 仿射变换

图像仿射变换是指将一个二维平面上的点通过一组线性变换映射到另一个二维平面上的点，从而实现对图像的旋转、平移、缩放等操作。它可以表示为如下矩阵形式的线性变换：

2.7 数据增强处理

数据增强是指通过一系列图像处理技术来扩充数据集，从而提高模型的泛化能力和鲁棒性。彩色图像的数据增强一般包括以下几种：

色彩变换：改变图像的颜色，例如改变图像的色调、饱和度和亮度等。色彩变换可以使得模型对颜色的变化更加鲁棒。
几何变换：改变图像的几何结构，例如随机裁剪、旋转、翻转等。几何变换可以使得模型对于物体的位置、角度等变化更加鲁棒。
噪声添加：向图像中添加噪声，例如高斯噪声、椒盐噪声等。噪声添加可以使得模型对于图像噪声的影响更加鲁棒。
图像重构：将图像分解为不同的频率分量，对每个分量进行增强处理，然后将分量合成为一个新的图像。图像重构可以使得模型对于图像的细节和纹理更加鲁棒。
对比度增强：增强图像的对比度，使得图像的亮度和色彩更加鲜明。对比度增强可以使得模型更加容易区分不同的物体。

3. 图像特征提取

图像特征提取是指从图像中提取出有用的、可表示图像的特征。图像特征通常由像素值或像素值的组合构成，例如边缘、角点、纹理等。常用的特征提取方法包括：颜色直方图、梯度直方图、局部二值模式（LBP）等。这些方法都是通过对图像像素值进行统计或计算，从而获得对图像的描述。

与图像预处理相比，特征提取更加注重从图像中提取有用的信息，为后续的图像分类、目标检测、图像识别等任务提供有效的输入。图像预处理主要是对原始图像进行降噪、尺度变换、旋转、裁剪等操作，从而更好地适应于特定的应用场景。

在深度学习中，图像特征提取是一个非常关键的步骤。传统的图像特征提取方法需要手动选择特征，比较依赖于人工经验。而基于深度学习的图像特征提取可以利用卷积神经网络（CNN）等深度学习模型，自动学习图像特征，避免了手动特征选择的过程。这种基于深度学习的图像特征提取方法已经在图像分类、目标检测、图像分割等任务中取得了非常好的效果，并成为当前图像处理领域的研究热点之一。

3.1 图像二值化

图像二值化 (image binarization）是将图像上的像素点的灰度值全部设置为黑色 (0)
或白色（255），也就是将整个图像分割成明显的黑白效果的过程。

其中最常用的是阈值分割，将图像中灰度值大于國值的像素点设置为白色（或黑色），小于國值的点设置为黑色（或白色），阈值（Threshold）通常用T表示。

另外由于阈值选取直接影响了二值化分割效果自适应阈值分割，如何选择合适的阈值是算法的核心，因此有一种通过算法自动计算出分割阈值方法叫自适应阈分割

常见的自适应阈值分割有双峰法和最大类间方差法（OTSU）

3.1.1 双峰法

双峰法假定图像的灰度直方图是由两个峰值组成的。通过寻找直方图的两个峰值点，将它们的中间值作为阈值进行二值化。该方法适用于具有明显双峰分布的图像。

算法步骤：

对图像进行灰度化处理，获取灰度直方图。寻找灰度直方图的两个峰值点。将两个峰值点的中间值作为阈值进行二值化。

公式：
设 $h (i)$ 为灰度值为 $i$ 的像素点个数， $p$ 为灰度值为 $i$ 的像素点占总像素点数的比例，则灰度直方图的均值 $\mu$ 和方差 $\sigma^2$ 可以表示为： $\mu = \sum_{i=0}^{L-1} i \cdot p(i)$ $\sigma^2 = \sum_{i=0}^{L-1} (i-\mu)^2 \cdot p(i)$ 其中， $L$ 表示灰度级数。

3.1.2 最大类间方差法

最大类间方差法是一种自适应阈值的方法，它能够根据图像的局部灰度分布来自动选择合适的阈值。

算法原理：

最大类间方差法的核心思想是将图像分成两类，使得这两类之间的方差最大。方差越大，说明两类之间的差异越明显，因此选择的阈值也越合适。

具体实现步骤如下：

统计图像的灰度直方图，得到每个灰度级的像素数量。
计算每个灰度级的权重，即该灰度级所占总像素数的比例。
从灰度级为1开始，循环计算每个灰度级的类间方差，即用该灰度级将图像分成两类后，两类之间的方差。方差计算公式为： $σ^2=ω_1(μ_1−μ_t)^2+ω^2(μ_2−μ_t)^2σ^2=ω_1(μ_1−μ_t)^2+ω_2(μ_2−μ_t)^2$ 其中， $\omega_1$ 和 $\omega_2$ 分别为两类像素占总像素数的比例， $\mu_1$ 和 $\mu_2$ 分别为两类像素的平均灰度值， $\mu_t$ 为总平均灰度值。
找到类间方差最大的灰度级作为阈值，即为图像的自适应阈值。

公式：

最大类间方差法的计算公式为： $σ^2=ω_1(μ_1−μ_t)^2+ω^2(μ_2−μ_t)^2σ^2=ω_1(μ_1−μ_t)^2+ω_2(μ_2−μ_t)^2$

其中， $\omega_1$ 和 $\omega_2$ 分别为两类像素占总像素数的比例， $\mu_1$ 和 $\mu_2$ 分别为两类像素的平均灰度值， $\mu_t$ 为总平均灰度值。

3.2 形态学处理

腐蚀&膨胀是图像形态学的核心操作

腐蚀：对图像中的内容沿着边界，向内收缩（把图像中的线条变细，去掉一部分线条的像素值）
膨胀：对图像中的内容沿着边界，向内扩展（把图像中的线条变粗，增加一部分线条的像素值）

这两种操作的逻辑和作用都和上篇讲到的使用滤波器做平滑处理有些类似，不同之处在于，腐蚀求的是滤波核内像素的最小值，而膨胀求的是最大值。并将计算出的值复制给锚点位置的像素。

3.2.1 开运算&闭运算

开运算就是将图像先进性腐蚀操作，再进行膨胀操作。其可以用来抹除图像外部的细节(噪声)。

闭运算是先对图像进行膨胀操作，在进行腐蚀操作。其可以用来抹除图像的内部细节(噪声)。

腐蚀和膨胀虽然是逆操作，但是开运算和闭运算都不会使图像恢复原状。

3.3 特征描述子

特征描述子是图像处理和计算机视觉中一种用于描述图像局部特征的算法。它是一种将图像中的特征点表示为数学向量的技术，可以用于图像匹配、目标检测和识别等应用。

特征描述子的算法原理通常包括以下步骤：

特征点检测：首先需要在图像中检测出具有独特性和区分度的局部特征点，例如角点、边缘、斑点等。
特征点描述：对于每个特征点，需要计算其周围像素的特征值或特征向量，例如梯度方向、颜色、纹理等，用于描述该特征点的局部特征。
特征点匹配：通过比较不同图像中的特征点描述子，可以进行特征点的匹配，用于图像配准、目标跟踪和识别等任务。

OpenCV提供了多种图像特征提取算法，并且支持多种特征描述子。
以下是一些常用的特征描述子：

SIFT（Scale-Invariant Feature Transform）：尺度不变特征变换，是一种基于局部特征的描述子。SIFT描述子是通过计算关键点周围的梯度方向直方图来生成的，具有尺度不变性和旋转不变性。
SURF（Speeded Up Robust Features）：SURF是SIFT的加速版，它采用了一些近似算法来加快计算速度，并具有与SIFT类似的尺度不变性和旋转不变性。
ORB（Oriented FAST and Rotated BRIEF）：ORB是一种计算速度较快的特征描述子，它是基于FAST角点检测器和BRIEF二进制描述子的改进版本。ORB描述子具有旋转不变性和尺度不变性。
HOG（Histogram of Oriented Gradients）：HOG是一种用于目标检测和分类的特征描述子。它是通过计算图像中的梯度方向直方图来生成的，具有方向性和尺度不变性。
LBP（Local Binary Patterns）：LBP是一种局部特征描述子，它是通过计算图像中每个像素与其邻域像素之间的差异来生成的。LBP描述子具有旋转不变性和灰度不变性。

你可能感兴趣的:(opencv,图像处理,算法)

《算法二》选择排序算法及它的时间复杂度 code 旭算法选择排序算法算法选择排序时间复杂度
1.选择排序算法选择排序算法的时间复杂度为O(N^2)选择排序算法规则：1.指定位置的数和后面的数比较2.如果指定位置的数大，则两个数交换位置3.向后移动一个位置，和指定位置的数进行比较假设数组大小n,第一轮比较n-1次，最小的数排在了最前面第二轮比较，第一个数已经是最小不用比较，此轮比较n-2次，第二小的排在第二个位置。依次类推，最后一轮，一次比较，最后得出有序的数列1.1和冒泡排序算法相比选择
K-means 算法核心原理 code 旭 AI人工智能学习算法 kmeans 机器学习
一、K-means算法核心原理1.算法目标将n个样本划分到k个簇中，使得每个样本到所属簇中心的距离平方和最小。2.数学公式目标函数（SSE，簇内平方误差）：J=∑i=1k∑x∈Ci∥x−μi∥2J=\sum_{i=1}^k\sum_{x\inC_i}\|x-\mu_i\|^2J=i=1∑kx∈Ci∑∥x−μi∥2其中：CiC_iCi表示第iii个簇μi\mu_iμi表示第iii个簇的质心二、算法步
XGBoost常见面试题（五）——模型对比月亮月亮要去太阳机器学习经验分享
XGBoost与GBDT的区别机器学习算法中GBDT和XGBOOST的区别有哪些？-知乎基分类器：传统GBDT以CART树作为基分类器，xgboost还支持线性分类器，这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归（分类问题）或者线性回归（回归问题）。导数：传统GBDT在优化时只用到一阶导数信息，xgboost则对代价函数进行了二阶泰勒展开，同时用到了一阶和二阶导数。同时xgboo
【算法】BFS(最短路径问题、拓扑排序) 秦jh_ 算法算法数据结构 c++
个人主页：秦jh_-CSDN博客系列专栏：https://blog.csdn.net/qinjh_/category_12862161.html?fromshare=blogcolumn&sharetype=blogcolumn&sharerId=12862161&sharerefer=PC&sharesource=qinjh_&sharefrom=from_link目录边权为1的最短路径问题多源
MPU6050 卡尔曼滤波算法四元数欧拉姿态解算 STM32 CubeMX HAL库 MDKkeil5 零基础移植辛尘大海算法 stm32 嵌入式硬件
文章目录一、在cubemx开启IIC并设置好对应的IIC引脚二、generatecode生成代码三、复制以下的全部代码新建分别保存放到IncSrc文件夹中1.MPU6050.h2.MPU6050.C四、如何使用总结一、在cubemx开启IIC并设置好对应的IIC引脚二、generatecode生成代码（记得生成单个c.h.文件）！！！！！！三、复制以下的全部代码新建分别保存放到IncSrc文件夹中
常用图像增强算法原理及 OpenCV C++ 实现埃菲尔铁塔_CV算法 opencv 计算机视觉人工智能 c++算法机器学习
一、引言图像增强是数字图像处理中的一个重要分支，其目的是改善图像的视觉效果，突出图像中的重要信息，或者将图像转换为更适合人或机器分析处理的形式。在实际应用中，图像增强技术广泛应用于医学影像、遥感图像、安防监控等领域。本文将详细介绍常用的图像增强算法原理，并给出基于OpenCVC++库的实现代码。二、图像增强算法分类图像增强算法可以分为空间域增强和频域增强两大类。空间域增强是直接对图像的像素值进行操
算法与数据结构（回文数） a_j58 数据结构
题目思路对于这个我的第一想法就是转换为字符串然后判断字符串是否为回文，它会消耗额外的地址空间。还有一种想法就是将数字反转并判断是否为回文，但可能需要处理数字溢出的问题。若要避免出现数字溢出的问题，我们可以只反转它的一半，若前半部分和后半部分相同，则说明它是一个回文数。如123321，我们将它的后半部分反转，得到123，它与前半部分相同，说明它是一个回文数。算法首先，我们可以先考虑到它的一些临界情况
垃圾收集算法与收集器 HBryce24 JVM jvm
在JVM中，垃圾收集（GarbageCollection,GC）算法的核心目标是自动回收无用对象的内存，同时尽量减少对应用性能的影响。以下是JVM中主要垃圾收集算法的原理、流程及实际应用场景的详细介绍：一、标记-清除算法（Mark-Sweep）原理标记阶段：从GCRoots（如栈引用、静态变量）出发，遍历对象图，标记所有存活对象。清除阶段：扫描堆内存，回收未被标记的对象所占用的内存（直接释放，不整
【二分算法】-- 三种二分模板总结雨雨雨雨点子算法算法 java 开发语言 leetcode
文章目录1.特点2.学习中的侧重点2.1算法原理2.2模板2.2.1朴素二分模板（easy-->有局限）2.2.2查找左边界的二分模板2.2.3查找右边界的二分模板1.特点二分算法是最恶心，细节最多，最容易写出死循环的算法====但是，一旦掌握了之后，二分算法就是最简单的算法。其实并不是一定要二分，三分，四分也都可以，但是根据概率学中的求期望数学中可知，二分是效率最高的。如果是三分的话，我们就像是
卡尔曼滤波算法从理论到实践：在STM32中的嵌入式实现 DOMINICHZL STM32 算法 stm32 嵌入式硬件
摘要：卡尔曼滤波（KalmanFilter）是传感器数据融合领域的经典算法，在姿态解算、导航定位等嵌入式场景中广泛应用。本文将从公式推导、代码实现、参数调试三个维度深入解析卡尔曼滤波，并给出基于STM32硬件的完整工程案例。一、卡尔曼滤波核心思想1.1什么是卡尔曼滤波？卡尔曼滤波是一种最优递归估计算法，通过融合预测值（系统模型）与观测值（传感器数据），在噪声干扰环境下实现对系统状态的动态估计。其核
递推和递归_一文学会递归递推 HR刀姐递推和递归
递归算法和递推算法无论是在ACM竞赛还是项目工程上都有着极为广泛的应用，但想要完全掌握两者的思想并不容易，对于刚刚接触编程的人来说更是这样，我在初次接触递归递推时就吃了很多的苦头，除了当时对编程语言不太熟悉之外，最大的原因就是难以理解其中的思想，本文将二者结合代码分别讲解，力求以"理论+实践"的方式使读者明白两种算法。一箭双雕，一文双递。一.递归和递推的区别学习递归递推的一个容易遇到的问题就是混淆
opencv借助ffmpeg读取sdp文件进行rtp拉流 20231019 诗筱涵 rtsp 用简单代码实现功能 OpenCV rtp
20231019ffmpeg装起来很快编译命令g++rtp_ffmpeg_test.cpp-ooutput$(pkg-config--libsopencv4)代码如下#include#include#include#includeusingnamespacestd;usingnamespacecv;intmain(intargc,char**argv){cout>frame;if(frame.em
从零手撕 LLaMa3 项目爆火（图解+代码）机器学习社区大模型深度学习大模型算法人工智能 RAG 多模态大模型 Llama 面试题
节前，我们组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。汇总合集《大模型面试宝典》(2024版)发布！一个月前，Meta发布了开源大模型llama3系列，在多个关键基准测试中优于业界SOTA模型，并在代码生成任务上全面领先。此后，开发
从零打造工业级智能二维码识别系统：基于PyQt5与ZXingCpp的实战指南蜡笔小新星 PyQt5 qt 开发语言 python 图像处理经验分享 pyqt 扫码读码解码
文章目录第一章：系统全景解析1.1实时识别工作流图解1.2界面布局与功能分区说明1.3代码文件结构树形图第二章：环境搭建与依赖管理2.1必需组件清单2.2虚拟环境配置步骤2.3摄像头硬件检测方法第三章：多线程视频采集3.1VideoThread类设计剖析3.2图像采集核心循环3.3线程安全停止机制3.4信号槽通信实例第四章：图像预处理流水线4.1预处理方法开关实现4.2自适应二值化算法4.3图像格
递推和递归（C语言）是小万吖算法算法数据结构 c语言
文章目录前言一、递推原理1.递推概念2.递推关系3.递推特点4.递推详例5.解决递推问题的步骤二、递归原理1.递归的概念2.构成递归的条件3.递归的模板4.递归详例三、递推和递归都可实现的算法1.问题描述2.问题分析3.递归实现4.递推实现四、递推和递归的优缺点1.递推的优缺点2.递归的优缺点五、递推和递归的相互转化1.递推转化为递归2.递归转化为递推前言主要探究递推和递归之间的关系提示：以下是本
【OpenCV C++】存图，如何以时间命名，“年月日-时分秒“产生唯一的文件名呢？“年月日-时分秒-毫秒“ 自动检查存储目录，若不存在自动创建存图 R-G-B OpenCV C++C/C++opencv c++人工智能
文章目录1生成文件名（格式:"年月日-时分秒"格式）2生成文件名（格式:"年月日-时分秒-毫秒"）3多模式存图函数4综合调用实例5注意：默认参数只能在头文件中定义，不能在实现中重复默认参数mode==1→“年月日-时分”→YYYYMMDD-HHMM的文件名；例如：20250310-1647mode==2→"年月日-时分秒-毫秒"→YYYYMMDD-HHMMSS-MMM（适用采集存储帧率搞得图片，增
深度学习：CPU和GPU算力壹十壹深度学习深度学习 gpu算力人工智能
一、算力“算力”（ComputingPower）通常是指计算机或计算系统执行计算任务的能力。它是衡量系统处理数据、运行算法以及执行计算任务效率的重要指标。根据上下文，算力可以在以下几种场景中具体化：1.单机算力CPU算力：中央处理器的计算能力，通常用核心数量（cores）、时钟频率（GHz）、以及每秒浮点运算次数（FLOPS）等指标衡量。GPU算力：图形处理单元用于并行处理的能力，尤其是在深度学习
PointPillars:数据预处理壹十壹激光雷达感知深度学习人工智能神经网络 python c++
在PointPillars算法中，将点云划分为点柱（Pillars）是核心步骤之一，用于将稀疏点云数据转换为规则的张量表示，方便后续2D卷积操作。以下是点云划分为点柱的具体方法和实现步骤：1.点云划分为网格将3D空间划分为规则的网格，形成柱状区域（Pillars）。操作步骤：定义网格范围和分辨率：确定点云的空间范围，例如：Xmin,Xmax,Ymin,Ymax,Zmin,ZmaxX_{\text{
SOPHON SDK解码视频流的常见调试方法算能开发者社区 SOPHON SDK常见问题 linux 人工智能
SOPHONSDK解码视频流的常见调试方法1.rtsp连接测试2.判断rtsp是否正常工作3.确认解码器是否能正常工作：（url为文件名或者rtsp连接地址）4.确认解码器和vpp的OpenCV接口是否正常工作5.解码不正确或者无法解码的最终调试手段1.rtsp连接测试ffmpeg-rtsp_transporttcp-iurl-frawvideo-y/dev/null或者ffmpeg-rtsp_t
FFplay文档解读-27-视频过滤器二【零声教育】音视频开发进阶音视频开发程序员编程音视频 ffmpeg 运维 c++android
29.11boxblur将boxblur算法应用于输入视频。它接受以下参数：luma_radius,lrluma_power,lpchroma_radius,crchroma_power,cpalpha_radius,aralpha_power,ap接下来的选项的描述如下:luma_radius,lrchroma_radius,cralpha_radius,ar设置用于模糊相应输入平面的框半径的表
递推算法 aab__ 算法
递推算法递推法的概念递推法是一种重要的数学方法，在数学的各个领域中都有广泛的运用，也是计算机用于数值计算的一个重要算法。这种算法特点是：一个问题的求解需一系列的计算，在已知条件和所求问题之间总存在着某种相互联系的关系，在计算时，如果可以找到前后过程之间的数量关系（即递推式），那么，从问题出发逐步推到已知条件，此种方法叫逆推。无论顺推还是逆推，其关键是要找到递推式。这种处理问题的方法能使复杂运算化为
盲签名算法的原理与C语言实现 c密码学信息安全加密解密
0x01概述盲签名(BlindSignature)是由Chaum,David提出的一种数字签名方式，其中消息的内容在签名之前对签名者是不可见的（盲化）。经过盲签名得到的签名值可以使用原始的非盲消息使用常规数字签名验证的方式进行公开验证。盲签名可以有效的保护隐私，其中签名者和消息作者不同，在电子投票系统和数字现金系统中会被使用。盲签名常常被类比成下面的场景：Alice想让Bob在自己的文件上签名，但
《 YOLOv5、YOLOv8、YOLO11训练的关键文件：data.yaml文件编写全解》空云风语人工智能 YOLO 机器视觉目标跟踪人工智能计算机视觉 YOLO
走进YOLOv5、YOLOv8、YOLO11的data.yaml在计算机视觉领域的广袤星空中，目标检测无疑是一颗璀璨的明星，它广泛应用于自动驾驶、智能安防、工业检测、医疗影像分析等众多关键领域，发挥着不可或缺的作用。而YOLO系列算法，更是以其独特的“一次看全（YouOnlyLookOnce）”理念和卓越的性能，在目标检测领域中独树一帜，成为了众多研究者和开发者的首选工具。从最初的YOLOv1横空
【LLM】从零开始实现 LLaMA3 FOUR_A LLM 人工智能机器学习大模型 llama 算法
分词器在这里，我们不会实现一个BPE分词器（但AndrejKarpathy有一个非常简洁的实现）。BPE（BytePairEncoding，字节对编码）是一种数据压缩算法，也被用于自然语言处理中的分词方法。它通过逐步将常见的字符或子词组合成更长的词元（tokens），从而有效地表示文本中的词汇。在自然语言处理中的BPE分词器的工作原理如下：初始化：首先，将所有词汇表中的单词分解为单个字符或符号。例
CV：图像的直方图均衡化壹十壹 CV opencv 计算机视觉人工智能
均衡化在图像处理中通常指的是直方图均衡化（HistogramEqualization），其主要目的是改善图像的对比度，使图像细节更加明显。以下是对直方图均衡化的详细说明：直方图均衡化原理直方图图像的直方图表示各灰度级在图像中出现的频率。对于对比度较低的图像，直方图可能集中在灰度范围的某一小区间。均衡化目标直方图均衡化通过将原图的灰度分布重新映射，使得输出图像的直方图尽量均匀分布在整个灰度范围内。这
.NET 6 WebApi使用JWT wenqi.xu .net .netcore
JWT（JsonWebToken）jwt是一种用于身份验证的开放标准，他可以在网络之间传递信息，jwt由三部分组成：头部，载荷，签名。头部包含了令牌的类型和加密算法，载荷包含了用户的信息，签名则是对头部和载荷的加密结果。jwt鉴权验证是指在用户登录成功后，服务器生成一个jwt令牌并返回给客户端，客户端在后续的请求中携带该令牌，服务通过令牌的签名来确定用户的身份和权限。这种方式可以避免在每个请求中都
如果，你想找 AI大模型相关的工作，这三个建议你一定要看！我爱学大模型人工智能 chatgpt AI大模型 AI 大模型入门转行程序员
01各种大厂小厂创业团队和AI擦边的面试难度，由难到简单，依次是：大模型算法（⭐⭐⭐⭐⭐）模型部署加速（⭐⭐⭐⭐）RAG等相关技术（⭐⭐⭐）纯应用（⭐⭐）Prompt工程师等其他自媒体（⭐）会简单应用就行02这结果方向，B站找几个视频看看，这里推荐用Qwen7B，开源的模型，一个3060都能跑。例如这个，如何微调Qwen开源模型。https://www.bilibili.com/video/BV1
关联规则算法：揭秘数据中的隐藏关系，从理论到实战秋声studio 机器学习算法详解关联规则算法数据挖掘 Apriori算法 FP-Growth算法大数据优化数据预处理增量式更新
引言在当今数据驱动的时代，如何从海量数据中挖掘出有价值的信息成为了各行各业的核心挑战。关联规则算法作为数据挖掘领域的重要工具，能够帮助我们发现数据中隐藏的关联关系，从而为决策提供支持。无论是电商平台的商品推荐，还是医疗领域的疾病诊断，关联规则算法都展现出了强大的应用潜力。本文将从基础概念出发，逐步深入探讨关联规则算法的核心原理、经典算法及其优化策略。无论你是数据挖掘的初学者，还是希望进一步了解关联
大语言模型(LLM)入门学习路线图_llm教程，从零基础到精通，理论与实践结合的最佳路径！ AGI学习社语言模型学习人工智能 LLM 大模型大数据自然语言处理
Github项目上有一个大语言模型学习路线笔记，它全面涵盖了大语言模型的所需的基础知识学习，LLM前沿算法和架构，以及如何将大语言模型进行工程化实践。这份资料是初学者或有一定基础的开发/算法人员入门活深入大型语言模型学习的优秀参考。这份资料重点介绍了我们应该掌握哪些核心知识，并推荐了一系列优质的学习视频和博客，旨在帮助大家系统性地掌握大型语言模型的相关技术。大语言模型（LargeLanguageM
C 语言中的数组详解 812503533 c语言 java 开发语言
在C语言中，数组是一种非常基础且常用的数据结构。数组是存储一组相同类型元素的集合，允许我们以统一的方式访问和操作这些元素。C语言中的数组不仅在编程中使用广泛，而且它的灵活性和效率使得它成为了许多算法实现的基础。本篇文章将深入分析C语言中的一维数组，包括定义、存储方式、操作方式、常见问题等等，所有的数据结构都可以从这几个方面来学习。1.数组的定义与存储方式1.1一维数组的定义数组的定义方式包括数组大
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方