大黄

计算机视觉（八）：图像分割

一、阈值处理

1. 基础知识
2. 基本的全局阈值处理
3. 用图像平滑改善全局阈值处理
4. 利用边缘改进全局阈值处理

二、基于区域的分割

1. 区域生长
2. 区域分裂与聚合

三、使用GrabCut算法分割图像
四、用形态学分水岭的分割

1. 背景知识
2. 分水岭分割算法

五、代码实现（Python+OpenCV)

一、阈值处理

由于阈值处理直观、实现简单且计算速度快，因此图像阈值处理在图像分割应用中处于核心地位。

1. 基础知识

假设图1(a)中的灰度直方图对应于图像 $f (x, y)$ ，该图像由暗色背景上的较亮物体组成，以这样的组成方式，物体像素和背景像素所具有的灰度值组成了两种支配模式。从背景中提取物体的一种明显方法是，选择一个将这些模式分开的阈值 $T$ 。然后， $f (x, y) > T$ 的任何点 $(x, y)$ 称为一个对象点；否则该点称为背景点。分割后的图像 $g (x, y)$ 由下式给出：
$\begin{cases} 1, & \text{$f(x,y) > T$} \\ 0, & \text{$f(x,y) ≤ T$}\ \ \ \ \ \ \ \ \ \ (1) \end{cases}$ 当 $T$ 是一个适用于整个图像的常数时，上式给出的处理称为全局阈值处理。当 $T$ 值在一幅图像上改变时，我们把该处理称为可变阈值处理（局部阈值处理或区域阈值处理有时用于表示可变阈值处理）。若 $T$ 取决于空间坐标 $(x, y)$ 本身，则可变阈值处理通常称为动态阈值处理或自适应阈值处理。
图1(b)显示了一个更为困难的阈值处理问题，它包含有三个支配模式的直方图。分割的图像由下式给出：
$\begin{cases} a, & \text{$f(x,y) > T_2$} \\ b, & \text{$T_1 < f(x,y) ≤ T_2$} \\ c, & \text{$f(x,y) ≤ T_1$} \end{cases}$ 式中，a、b和c是任意三个不同的灰度值。

图1

2. 基本的全局阈值处理

当物体和背景像素的灰度分布十分明显时，可以用适用于整个图像的单个（全局）阈值。能对每幅图像自动估计阈值的算法如下：
① 为全局阈值 $T$ 选择一个初始估计值。
② 在式(1)中用 $T$ 分割该图像。这将产生两组像素： $G_1$ 由灰度值大于 $T$ 的所有像素组成， $G_2$ 由所有小于等于 $T$ 的像素组成。
③ 对 $G_1$ 和 $G_2$ 的像素分别计算平均灰度值（均值） $m_1$ 和 $m_2$ 。
④ 计算一个新的阈值： ${1\over 2}(m_1+m_2)$
⑤ 重复步骤2到步骤4，直到连续迭代中的 $T$ 值间的差小于一个预定义的参数 $\Delta T$ 为止。
通常， $\Delta T$ 越大，则算法执行的迭代次数越少。所选的初始阈值必须大于图像中的最小灰度级而小于最大灰度级。图像的平均灰度对于 $T$ 来说是较好的初始选择。

3. 用图像平滑改善全局阈值处理

噪声会将简单的阈值处理问题变为不可解决的问题。当噪声不能在源头减少，并且阈值处理又是所选择的分割方法时，通常能增强性能的一种技术是，在阈值处理之前平滑图像。
经平滑和分割后的图像，由于对边界的模糊，会造成物体和背景间的边界稍微有点失真。对一幅图像平滑越多，分割后的结果中的边界误差就越大。

4. 利用边缘改进全局阈值处理

$f (x, y)$ 表示输入图像，利用边缘改进全局阈值处理算法如下：
① 采用特征检测中讨论的任何一种方法来计算一幅边缘图像，无论是 $f (x, y)$ 梯度的幅度还是拉普拉斯的绝对值均可。
② 指定一个阈值 $T$ 。
③ 用步骤2中的阈值对步骤1中的图像进行阈值处理，产生一幅二值图像 $g_T(x,y)$ 。在从 $f (x, y)$ 中选取对应于“强”边缘像素的下一步中，该图像用做一幅模板图像。
④ 仅用 $f (x, y)$ 中对应于 $g_T(x,y)$ 中像素值为1的位置的像素计算直方图。
⑤ 用步骤4中的直方图全局地分割 $f (x, y)$ ，例如使用Ostu 方法。

二、基于区域的分割

本段讨论以直接寻找区域为基础的分割技术。

1. 区域生长

区域生长是根据预先定义的生长准则，将像素或子区域组合为更大区域的过程。基本方法是从一组“种子”点开始，将与种子预先定义的性质相似的那些邻域像素添加到每个种子上，来形成这些生长区域（如特定范围的灰度或颜色）。
令 $f (x, y)$ 表示一个输入图像阵列； $S (x, y)$ 表示一个种子阵列，阵列中种子点位置处为1，其他位置处为0； $Q$ 表示在每个位置 $(x, y)$ 处所用的属性。假设阵列 $f$ 和 $S$ 的尺寸相同。基于8连接的一个基本区域生长算法如下：
① 在 $S (x, y)$ 中寻找所有连通分量，并把每个连通分量腐蚀为一个像素；把找到的所有这种像素标记为1，把 $S$ 中的所有其他像素标记为0.
② 在坐标对 $(x, y)$ 处形成图像 $f_Q$ ：若输入图像在该坐标处满足给定的属性 $Q$ ，则令 $f_Q(x,y) = 1$ ，否则令 $f_Q(x,y) = 0$ 。
③ 令 $g$ 是这样形成的图像：即把 $f_Q$ 中为8连通种子点的所有1值点，添加到 $S$ 中的每个种子点。
④ 用不同的区域标记标出 $g$ 中的每个连通分量。这就是由区域生长得到的分割图像。

2. 区域分裂与聚合

区域分裂与聚合指，首先将一幅图像细分为一组任意的不相交区域，然后聚合和/或分裂这些区域，试图满足我们所需的分割条件。
令 $R$ 表示整幅图像区域，并选择一个属性 $Q$ 。对 $R$ 进行分割的一种方法是，依次将它细分为越来越小的四象限区域，以便对于任何区域 $R_i$ 有 $Q(R_i)=TRUE$ 。具体过程如下：
① 把满足 $Q(R_i) = FALSE$ 的任何区域 $R_i$ 分裂为4个不相交的象限区域。
② 不可能进一步分裂时，对满足条件 $Q(R_j \bigcup R_k) = TRUE$ 的任意两个邻域区域 $R_j$ 和 $R_k$ 进行聚合。
③ 无法进一步聚合时，停止操作。

三、使用GrabCut算法分割图像

GrabCut算法的实现步骤为：
① 在图片中定义含有（一个或多个）物体的矩形。
② 矩形外的区域被自动认为是背景。
③ 对于用户定义的矩形区域，可用背景中的数据来区别它里面的前景和背景区域。
④ 用高斯混合模型来对背景和前景建模，并将未定义的像素标记为可能的前景或背景。
⑤ 图像中的每一个像素都被看作通过虚拟边与周围像素相连接，而每条边都有一个属于前景或背景的概率，这基于它与周围像素颜色上的相似性。
⑥ 每一个像素（即算法中的节点）会与一个前景或背景节点连接。
⑦ 在节点完成连接后（可能与背景或前景连接），若节点之间的边属于不同终端，则会切断它们之间的边，这就能将图像各部分分割出来。

四、用形态学分水岭的分割

1. 背景知识

形态学分水岭分割将前面讨论的分割方法中的许多概念进行了具体化，因此通常会产生更稳定的分割结果，包括连接的分割边界。
分水岭的概念是以三维方式来形象化一幅图像为基础的：两个空间坐标作为灰度的函数，如图2所示。在这种“地形学”解释中，我们考虑三种类型的点：
(a) 属于一个区域最小值的点；
(b) 把一点视为一个水滴，如果把这些点放在任意位置上，水滴一定会下落到某个最小值点；
(c) 处在该点的水会等概率地流向不止一个这样的最小值点。
对于一个特定的区域最小值，满足条件(b)的最小值点的集合称为该最小值的汇水盆地或分水岭。满足条件(c)的点形成地面的峰线，它称为分割线或分水线。

图2

基于这些概念的分割算法的主要目标是找出分水线，其基本思想非常简单。假设在每个区域的最小值上打一个洞，并且让水通过洞以均匀的速率上升，从低到高淹没整个地形。当不同汇水盆地中上升的水聚集时，修建一个水坝来阻止这种聚合。水将达到在水线上只能见到各个水坝的顶部的程度。这些大坝的边界对应于分水岭的分割线。具体见图3。
分水岭分割的主要应用之一是，从背景中提取近乎一致的物体。由变化较小的灰度表征的区域有较小的梯度值。因此，我们经常见到分水岭分割方法用于一幅图像的梯度，而不是图像本身。

图3 (a) 原图像；(b) 地形俯视图；(c)~(d) 被水淹没的两个阶段；(e) 进一步淹没的结果； (f) 来自两个汇水盆地的水开始汇聚（两个汇水盆地之间构筑了一个较短的水坝）；(g) 较长的水坝；(h) 最终的分水（分割）线

2. 分水岭分割算法

      令 $M_1,M_2,...,M_R$ 是梯度图像 $g (x, y)$ 中区域最小值点的坐标集。令 $C(M_i)$ 是与区域最小值 $M_i$ 相关的汇水盆地中的点的坐标集。符号 $m i n$ 和 $m a x$ 表示 $g (x, y)$ 的最小值和最大值。最后，令 $T [n]$ 表示满足 $g (s, t) < n$ 的坐标 $(s, t)$ 的集合，即：
$T[n] = \{(s,t) | g(s,t)<n\}$ 令 $C_n(M_i)$ 表示汇水盆地中与淹没阶段 $n$ 的最小值 $M_i$ 相关联的点的坐标集，即：
$C_n(M_i) = C(M_i) \bigcap T[n]$ 接下来，令 $C [n]$ 表示阶段 $n$ 中已被水淹没的汇水盆地的并集：
$\bigcup_{i=1}^RC_n(M_i)$ 然后，令 $C [m a x + 1]$ 表示所有汇水盆地的并集：
$\bigcup_{i=1}^RC(M_i)$       寻找分水线的算法使用 $C [m i n + 1] = T [m i n + 1]$ 来初始化。然后，该算法进行递归处理，由 $C [n - 1]$ 计算 $C [n]$ 。由 $C [n - 1]$ 求得 $C [n]$ 的过程如下：令 $Q$ 表示 $T [n]$ 中的连通分量的集合。然后，对于每个连通分量 $q\in Q[n]$ ，有如下三种可能性：
① $\bigcap C[n-1]$ 为空集。
② $\bigcap C[n-1]$ 包含 $C [n - 1]$ 的一个连通分量
③ $\bigcap C[n-1]$ 包含 $C [n - 1]$ 的一个以上的连通分量
      由 $C [n - 1]$ 构建 $C [n]$ 取决于这三个条件中的哪个条件成立。
      遇到一个新的最小值时，条件①发生，这种情况下，连通分量 $q$ 并入 $C [n - 1]$ 中形成 $C [n]$ 。
      当 $q$ 位于某些局部最小值的汇水盆地内时，条件②发生，这种情况下， $q$ 并入 $C [n - 1]$ 中形成 $C [n]$ 。
      当遇到全部或部分分隔两个或多个汇水盆地的山脊线时，条件③发生。进一步淹没会导致这些汇水盆地中的水位聚合。因此，必须在 $q$ 内构筑一个水坝（如果涉及两个以上的汇水盆地，就要构筑多个水坝）以阻止汇水盆地间的水溢出。

五、代码实现（Python+OpenCV)

使用GrabCut算法和分水岭算法进行图像分割

1、cv2.grabCut(img,mask,rect,bgdModel,fgdModel,5,cv2.GC_INIT_WITH_RECT)

img：输入图像。
mask：一个指定哪些区域是背景、前景、可能的背景、可能的前景的蒙版图像。它将下面的标志cv2.GC_BGD、cv2.GC_FGD、cv2.GC_PR_BGD、cv2.GC_PR_FGD或简单的0、1、2、3传递给图像。
rect：包含前景对象的矩形的坐标，格式为（x，y，w，h）。
bdgModel 和 fgdModel：这些是内部算法使用的数组，只需创建两个大小为 (1,65) 的 np.float64 类型零数组。
iterCount：算法运行的迭代次数。
mode：值为 cv2.GC_INIT_WITH_RECT 或 cv2.GC_INIT_WITH_MASK 或 它们的组合，决定我们是画矩形还是最后的触点。

2、cv2.threshold(img, T, newValue, method)：两个返回值，第二个就是阈值化后的图像。 

img：输入图像。
T：阈值。
newValue：高于（低于）阈值时赋予的新值。
method：可能的值 cv2.THRESH_BINARY（黑白二值）、cv2.THRESH_BINARY_INV（黑白二值反转）、cv2.THRESH_TRUNC、cv2.THRESH_TOZERO、cv2.THRESH_TOZERO_INV

import cv2
import numpy as np


'''
GrabCut算法
'''
img = cv2.imread('img1.jpg')
mask = np.zeros(img.shape[:2], np.uint8) # 0，表示指定为背景

# 内部算法使用的数组，大小为 (1,65) 的 np.float64 类型零数组
bgdModel = np.zeros((1,65), np.float64)
fgdModel = np.zeros((1,65), np.float64)

rect = (375,235,70,250) # 该矩阵区域包含前景对象
cv2.grabCut(img, mask, rect, bgdModel, fgdModel, 10, cv2.GC_INIT_WITH_RECT)

# mask现在包含0～3之间的值，将值为0、2的转为0，值为1、3的转为1
mask2 = np.where((mask==2)|(mask==0), 0, 1).astype('uint8') 

grab = img*mask2[:,:,np.newaxis] # 使用mask2过滤值为0的像素，保留前景像素
cv2.imwrite('grab.jpg', grab)


'''
分水岭算法
'''
img = cv2.imread('img2.jpg')
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

# 设置阈值，将图像中非白像素转化成黑色像素，并将黑白二值反转
ret, thresh = cv2.threshold(gray,0,255,cv2.THRESH_BINARY_INV+cv2.THRESH_OTSU)
cv2.imwrite('thresh.jpg', thresh)

# 获取前景区域与背景区域
kernel = np.ones((3,3), np.uint8)
opening = cv2.morphologyEx(thresh,cv2.MORPH_OPEN,kernel,iterations = 2) # 通过 morphologyEx 变换去除噪声数据
sure_bg = cv2.dilate(opening,kernel,iterations = 3) # 通过对 morphologyEx 变换之后的图像进行膨胀操作，可以得到大部分都是背景的区域
dist_transform = cv2.distanceTransform(opening,cv2.DIST_L2,5) # 将远离背景区域的边界的点确定为前景
ret, sure_fg = cv2.threshold(dist_transform, 0.7*dist_transform.max(),255,0) # 应用阈值处理使获得确定的前景区域概率更高
cv2.imwrite('sure_bg.jpg', sure_bg)
cv2.imwrite('sure_fg.jpg', sure_fg)

sure_fg = np.uint8(sure_fg)
unknown = cv2.subtract(sure_bg,sure_fg) # sure_bg与sure_fg可能存在重合，可从sure_bg与sure_fg的集合相减得到该不确定区域
ret, markers = cv2.connectedComponents(sure_fg) # 设定“栅栏”阻止水汇聚

# 在背景区域上加1，将unknown区域设为0
markers = markers + 1
markers[unknown==255] = 0

# 最后打开门，让水漫起来并把栅栏绘成青色
markers = cv2.watershed(img, markers)
img[markers == -1] = [255, 255, 0]
cv2.imwrite('water.jpg', img)

以上全部内容参考书籍如下：
冈萨雷斯《数字图像处理（第三版）》
Joe Minichino、Joseph Howse《OpenCV 3计算机视觉Python语言实现（原书第2版）》

格灵深瞳视觉算法面试30问全景精解机＿长算法面试职场和发展
格灵深瞳视觉算法面试30问全景精解——AI感知×智能安防×场景创新：格灵深瞳视觉算法面试核心考点全览前言格灵深瞳（GREATVISION）作为国内领先的人工智能与计算机视觉企业，专注于智慧安防、智能交通、智慧零售等领域，推动视觉算法在大规模城市级场景的落地。格灵深瞳视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在复杂场景下的创新能力与工程实践。本文精选30个高质量面试问题，涵盖基
商汤科技视觉算法面试30问全景精解
商汤科技视觉算法面试30问全景精解——AI赋能×智能视觉×产业创新：商汤科技视觉算法面试核心考点全览前言商汤科技（SenseTime）作为全球领先的人工智能平台公司，专注于计算机视觉、深度学习和智慧城市、智能汽车、智能医疗等领域，推动人脸识别、目标检测、视频分析、自动驾驶等前沿技术的产业化落地。商汤视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、自动驾驶、智慧医疗等复
旷视科技视觉算法面试30问全景精解机＿长科技算法面试深度学习 YOLO
旷视科技视觉算法面试30问全景精解——AI赋能×智能安防×视觉创新：旷视科技视觉算法面试核心考点全览前言旷视科技（Megvii）作为全球领先的人工智能公司，专注于计算机视觉、深度学习和智能安防等领域，推动人脸识别、目标检测、视频分析、工业视觉等前沿技术的产业化落地。旷视视觉算法岗位面试不仅考察候选人对视觉基础理论的扎实掌握，更关注其在大规模安防、工业检测、智慧城市等复杂场景下的创新与工程能力。本文
网络爬虫再深入——对抗指纹检测、分布式架构与智能解析实战 rooney2024 爬虫
目录一、深入反爬：浏览器指纹检测与对抗（配图1）1.高级指纹检测原理2.对抗方案与实战二、分布式爬虫架构深度设计（配图2）1.容错与弹性设计2.智能限流算法三、智能解析：LLM与计算机视觉的融合（配图3）1.LLM解析非结构化文本2.视觉辅助定位元素四、法律与伦理：爬虫工程师的自我修养1.关键法律边界2.道德实践框架五、未来战场：Web3.0时代的爬虫技术演进1.去中心化网络挑战2.AI驱动的自适
计算机视觉：人工智能的“眼睛” 人工智能教程人工智能计算机视觉机器学习算法 pytorch python 数据结构
前言在人工智能的众多领域中，计算机视觉（ComputerVision）无疑是其中最为引人注目的方向之一。它赋予了机器“看”的能力，使计算机能够像人类一样理解和解释视觉信息。从自动驾驶汽车到医疗影像诊断，从安防监控到虚拟现实，计算机视觉的应用场景无处不在，深刻地改变着我们的生活和工作方式。本文将深入探讨计算机视觉的核心技术、应用场景以及未来的发展趋势，帮助您全面了解这一充满活力的领域。一、计算机视觉
计算机视觉：打开机器之眼看世界 LeafyJee_ 人工智能人工智能深度学习计算机视觉
计算机视觉是人工智能领域中备受关注的一部分，它的目标是赋予计算机类似于人类眼睛的功能，让机器能够感知和理解周围的世界。通过图像和视频数据，计算机视觉技术将信息转化为可理解和可操作的数据，为各种应用领域提供了强大的支持。一、计算机视觉的起源和发展计算机视觉起源于20世纪50年代，当时科学家们开始研究如何让计算机能够识别和理解图像。随着技术的不断进步，计算机视觉逐渐发展成为一门独立的学科，并广泛应用于
如何使用 OpenCV 打开指定摄像头
在计算机视觉应用中，经常需要从特定的摄像头设备获取视频流。例如，在多摄像头环境中，当使用OpenCV的cv::VideoCapture类打开摄像头时，如果不指定摄像头的ID，可能会随机打开系统中的某个摄像头，或者按照设备连接的顺序打开第一个可用的摄像头。比如： //打开两个摄像头 cv::VideoCapture cap0(0); if (!cap0.isOpened()){ c
深度学习在环境感知中的应用：案例与代码实现
让机器学会“看”世界：深度学习如何赋能环境感知？关键词深度学习|环境感知|计算机视觉|传感器融合|语义分割|目标检测|自动驾驶摘要环境感知是机器与外界互动的“眼睛和耳朵”——从自动驾驶汽车识别行人，到智能机器人避开障碍物，再到城市监控系统检测异常，所有智能系统都需要先“理解”环境，才能做出决策。传统环境感知方法依赖手工特征提取，难以应对复杂场景；而深度学习通过数据驱动的方式，让机器从大量数据中自动
基于YOLOv8的Web端交互式目标检测系统设计与实现 YOLO实战营 YOLO 前端目标检测人工智能 ui 目标跟踪计算机视觉
1.引言目标检测是计算机视觉领域的一项重要任务，它在安防监控、自动驾驶、医疗影像分析等领域有着广泛的应用。近年来，随着深度学习技术的快速发展，YOLO(YouOnlyLookOnce)系列算法因其出色的速度和精度平衡而备受关注。本文将详细介绍如何基于最新的YOLOv8模型构建一个Web端交互式目标检测系统，包含完整的UI界面设计和数据集处理流程。本系统将实现以下功能：基于YOLOv8的高效目标检测
使用MMDetection中的Mask2Former和X-Decoder训练自定义数据集及结果复现神经网络15044 算法 python 分类矩阵人工智能数据挖掘深度学习
使用MMDetection中的Mask2Former和X-Decoder训练自定义数据集及结果复现前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家，觉得好请收藏。点击跳转到网站。1.引言1.1研究背景实例分割是计算机视觉领域的重要任务，它要求模型不仅要检测图像中的对象，还要精确地分割出每个对象的像素级掩码。近年来，基于Transformer的模型在实例分割任务上取得
OpenCV引擎：驱动实时应用开发的科技狂飙芯作者 DD：计算机科学领域 opencv 计算机视觉
在人工智能与计算机视觉技术迅猛发展的今天，实时图像处理已成为工业自动化、自动驾驶、医疗诊断、增强现实等领域的核心技术需求。而**OpenCV（OpenSourceComputerVisionLibrary）**作为全球最活跃的开源计算机视觉库，正以其强大的算法生态、跨平台兼容性以及持续进化的架构设计，成为驱动实时应用开发的“数字引擎”。本文将深入剖析OpenCV如何通过技术创新突破实时处理的性能极
旋转目标检测：Deep Spatial Feature Transformation for Oriented Aerial Object Detection【方法解析】沉浸式AI 《AI与SLAM论文解析》人工智能计算机视觉旋转目标检测
DeepSpatialFeatureTransformationforOrientedAerialObjectDetection目录DeepSpatialFeatureTransformationforOrientedAerialObjectDetection摘要关键词引言相关工作旋转对齐模块特征对齐方法旋转对齐模块特征选择模块摘要航空图像中的目标检测在计算机视觉领域引起了广泛关注。不同于自然图像
解读一个大学专业——信号与图像处理
专业定义与核心内容维度内容定义研究如何采集、处理、分析和理解一维信号（语音、雷达、脑电）和二维/三维图像（医学、遥感、工业视觉）。关键词数字信号处理（DSP）、图像处理、计算机视觉、模式识别、压缩感知、深度学习、GPU加速、嵌入式系统。技术栈MATLAB/Python+OpenCV/PyTorch+DSP/FPGA+GPU（CUDA）第五届先进算法与信号、图像处理国际学术会议（AASIP2025）
MATLAB在工业缺陷检测中的应用
本文还有配套的精品资源，点击获取简介：缺陷检测、伤痕检测、瑕疵检测和划痕检测是工业自动化和质量控制中至关重要的环节，MATLAB作为一种高级编程环境，在图像处理和计算机视觉任务中扮演了重要角色。本文详细介绍了如何使用MATLAB实现这些检测过程，包括图像采集、预处理、特征提取和决策制定等步骤。通过介绍内置图像处理工具箱中的应用，色彩转换技术、边缘检测算法以及形态学操作等方法，我们阐述了如何识别和处
【缺陷检测】基于计算机视觉实现电路板智能检测系统附Matlab代码 matlab科研助手计算机视觉 matlab 人工智能
✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。往期回顾关注个人主页：Matlab科研工作室个人信条：格物致知,完整Matlab代码及仿真咨询内容私信。内容介绍随着信息技术的飞速发展和电子产品的日益普及，印刷电路板（PCB）作为电子产品的核心组件，其质量直接关系到整个系统的性能和可靠性。传统的电路板检测主要依赖人工目检，存在效率低下
【人工智能99问】卷积神经网络（CNN）的结构和原理是什么？(10/99)
文章目录卷积神经网络（CNN）的结构及原理一、CNN的核心结构1.输入层（InputLayer）2.卷积层（ConvolutionalLayer）2.卷积层的核心机制：局部感受野与权值共享3.池化层（PoolingLayer）4.全连接层（FullyConnectedLayer）5.输出层（OutputLayer）6.辅助层二、CNN的工作原理三、CNN的使用场景1.计算机视觉（最核心场景）2.其
Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring 论文阅读钟屿论文阅读计算机视觉人工智能
用于动态场景去模糊的深度多尺度卷积神经网络摘要针对一般动态场景的非均匀盲去模糊是一个具有挑战性的计算机视觉问题，因为模糊不仅来源于多个物体运动，还来源于相机抖动和场景深度变化。为了去除这些复杂的运动模糊，传统的基于能量优化的方法依赖于简单的假设，例如模糊核是部分均匀或局部线性的。此外，最近的基于机器学习的方法也依赖于在这些假设下生成的合成模糊数据集。这使得传统的去模糊方法在模糊核难以近似或参数化的
YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测
在深度学习领域，手写数字识别是一个经典问题，也是入门计算机视觉的重要案例。本文将介绍一个基于YOLOv8和MNIST数据集的手写数字识别系统，该系统不仅能识别静态图像中的数字，还能通过摄像头实时检测手写数字。个人博客：YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测-iDing's博客项目概述这个项目结合了传统的MNIST数据集和现代的目标检测算法YOLOv8，实现了以下功能：将MN
基于深度学习的手写数字和符号识别系统：YOLOv5/v6/v7/v8/v10模型实现与UI界面集成 YOLO实战营深度学习 YOLO ui 人工智能目标检测计算机视觉
1.引言随着人工智能和深度学习技术的发展，手写数字和符号识别已经成为计算机视觉领域的重要研究方向。手写识别在很多实际应用中扮演着关键角色，例如邮政编码识别、表单自动处理和智能教育系统等。传统的手写识别方法通常依赖于复杂的特征工程，而深度学习则能够自动从数据中学习到特征，极大地提高了识别精度和速度。本文将介绍如何构建一个基于YOLO系列模型（YOLOv5、YOLOv6、YOLOv7、YOLOv8、Y
OpenCV学习（二）-二维、三维识别香蕉可乐荷包蛋 #OpenCV opencv 学习人工智能
OpenCV是一个功能强大的计算机视觉库，可以用于识别和处理二维图像和三维图像。以下是关于二维图像和三维图像识别的基础知识和示例代码。1.二维图像识别二维图像识别通常包括图像分类、对象检测、特征提取等任务。以下是一些常见的操作：1.1图像分类使用预训练模型对图像进行分类，例如使用深度学习模型（如ResNet、MobileNet等）。importcv2#加载预训练的深度学习模型net=cv2.dnn
计算机视觉产品推荐,个性化推荐:人工智能中的计算机视觉、NLP自然语言处理和个性化推荐系统哪个前景更好一些？...
这个问题直接回答的话可能还是有着很强的个人观点，所以不如先向你介绍一些这几个领域目前的研究现状和应用情况(不再具体介绍其中原理)你自己可以斟酌一下哪方面更适合自己个性化推荐。一．所谓计算机视觉，是指使用计算机及相关设备对生物视觉的一种模拟个性化推荐。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息，就像人类和许多其他类生物每天所做的那样[1]。现在人工智能的计算机视觉主要研究
基于深度学习的目标检测：从基础到实践 Blossom.118 机器学习与人工智能深度学习目标检测人工智能音视频语音识别计算机视觉机器学习
前言目标检测（ObjectDetection）是计算机视觉领域中的一个核心任务，其目标是在图像中定位和识别多个对象的类别和位置。近年来，深度学习技术，尤其是卷积神经网络（CNN），在目标检测任务中取得了显著进展。本文将详细介绍如何使用深度学习技术构建目标检测模型，从理论基础到代码实现，带你一步步掌握目标检测的完整流程。一、目标检测的基本概念（一）目标检测的定义目标检测是指在图像中识别和定位多个对象
“显著性”（Saliency）是计算机视觉中的一个重要概念，主要指的是图像或视频中最吸引人注意力的区域或对象步步咏凉天计算机视觉人工智能
“显著性”（Saliency）是计算机视觉中的一个重要概念，主要指的是图像或视频中最吸引人注意力的区域或对象。它模拟的是人类视觉系统对视觉场景中“显著”区域的感知能力。显著性可以用于图像理解、目标检测、图像压缩、图像分割等多个任务。下面是对显著性在计算机视觉中的几个关键方面的解释：一、显著性检测（SaliencyDetection）显著性检测的目标是预测图像中最能吸引人注意的区域，通常输出一个与输
基于YOLOv8的火灾智能检测系统设计与实现斟的是酒中桃深度学习人工智能 pyqt yolo
在各类安全事故中，火灾因其突发性强、破坏力大，一直是威胁人们生命财产安全的重大隐患。传统的火灾检测方式多依赖烟雾传感器、温度传感器等，存在响应滞后、易受环境干扰等问题。随着深度学习技术的飞速发展，基于计算机视觉的火灾检测方法凭借其实时性强、检测范围广等优势，逐渐成为研究热点。本文将简单介绍一款基于深度学习的火灾智能检测系统的设计与实现过程。一、系统整体设计本火灾智能检测系统旨在通过深度学习技术实现
基于NanoDet的健身姿势纠正系统开发 YOLO实战营人工智能 NanoDet 深度学习计算机视觉 ui
1.引言在现代健身行业中，正确的运动姿势至关重要，不仅能提升训练效果，还能预防运动损伤。尤其是在进行一些高强度的力量训练时，如深蹲、俯卧撑等，错误的姿势可能导致肌肉不平衡或关节损伤。传统的健身姿势纠正方式依赖教练的人工指导，但随着人工智能技术的发展，使用计算机视觉和深度学习技术来进行姿势纠正，逐渐成为一种高效且可扩展的解决方案。本文将详细介绍如何基于NanoDet（一个轻量化目标检测模型）开发一个
【AAAI2025】计算机视觉|P-sLSTM:P-sLSTM：让LSTM在时间序列预测领域“重获新生”
论文地址：https://arxiv.org/pdf/2408.10006代码地址：https://github.com/Eleanorkong/P-sLSTM关注UPCV缝合怪，分享最计算机视觉新即插即用模块，并提供配套的论文资料与代码。https://space.bilibili.com/473764881摘要传统的循环神经网络结构，如长短期记忆神经网络(LSTM)，在时间序列预测(TSF)任
【TPAMI2024】计算机视觉|即插即用|FreqFusion:炸裂！告别模糊，精准分割，视觉新高度！爆改模型计算机视觉人工智能
论文地址：https://arxiv.org/pdf/2408.12879代码地址：https://github.com/Linwei-Chen/FreqFusion关注UPCV缝合怪，分享最计算机视觉新即插即用模块，并提供配套的论文资料与代码。https://space.bilibili.com/473764881摘要密集图像预测任务需要在高分辨率下具有强大的类别信息和精确空间边界细节的特征。为
opencv 4.12.0版本发布详解：核心优化与新特性全解析 Risehuxyc #opencv opencv 人工智能计算机视觉
OpenCV4.12.0夏季更新带来核心模块优化、图像处理增强、深度学习支持扩展及新兴硬件适配，全面提升计算机视觉开发效率与性能。引言OpenCV（开源计算机视觉库）作为计算机视觉领域最受欢迎的开源库之一，在2025年7月发布了4.12.0版本。这个夏季更新带来了大量性能优化、新功能和错误修复，覆盖了核心模块、图像处理、3D校准、深度学习等多个领域。本文将详细介绍OpenCV4.12.0的主要更新
使用 C++ 和 OpenCV 进行表面划痕检测 whoarethenext c++opencv 开发语言划痕检测
使用C++和OpenCV进行表面划痕检测在工业自动化生产中，产品表面的质量控制至关重要。划痕作为一种常见的表面缺陷，其检测是许多领域（如金属、玻璃、塑料制造）质量保证流程中的一个关键环节。本文将介绍如何使用C++和强大的计算机视觉库OpenCV来实现一个基本的表面划痕检测算法。核心思路划痕通常在图像中表现为具有以下一个或多个特征的区域：高对比度的线性结构：划痕区域的像素强度通常会与其周围背景有明显
MATLAB 基于图像处理的杂草识别技术鱼弦 matlab 图像处理计算机视觉
MATLAB基于图像处理的杂草识别技术1.系统介绍杂草识别是精准农业中的重要环节，基于图像处理的杂草识别技术利用计算机视觉和机器学习算法，自动识别田间杂草，为精准施药提供决策支持。本系统基于MATLAB实现杂草图像处理，包括图像预处理、特征提取、分类识别等模块。2.应用场景精准农业:自动识别田间杂草，实现精准施药，减少农药使用量。生态监测:监测农田杂草种类和分布，评估生态环境。植物保护:识别有害杂
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置