Lu Zelin

1.图像的基本操作

图像的基本操作（Python）

素材图

P1：die.jpg

P2：cool.jpg

V：rabbit.mp4，下载地址

读取展示-图像

import cv2

img_1 = cv2.imread('./die.jpg')  # default cv2.IMREAD_COLOR
print("die.jpg shape(imread default) : ", img_1.shape)  # 展示图像信息 (行,列,颜色通道数)(h,w,c)
cv2.imshow("die default", img_1)

img_2 = cv2.imread('./die.jpg', cv2.IMREAD_GRAYSCALE)  # 指定为灰度图
print("die.jpg shape(imread gray) : ", img_2.shape)  # 展示图像信息 (行,列,颜色通道数)(h,w,c)
cv2.imshow("die gray", img_2)
cv2.imwrite("./grayscale.jpg", img_2)  # 保存图像信息

img_3 = cv2.imread('./cool.jpg')  # default cv2.IMREAD_COLOR
print("cool.jpg shape(imread default) : ", img_3.shape)  # 展示图像信息 (行,列,颜色通道数)(h,w,c)
cv2.imshow("cool default", img_3)

cv2.waitKey(0)  # 单位是毫秒
cv2.destroyAllWindows()  # 释放所有窗口

cv2.imshow()

原型：cv2.imshow(winname, mat)

参数：

winname（窗口名称）: 字符串，表示显示窗口的名称。
mat（图像矩阵）: 要显示的图像矩阵，通常是一个NumPy数组。

返回值： 无

功能：

cv2.imshow 主要是用于显示图像，而不是播放视频。**当你使用 cv2.imshow 显示视频帧时，它只会显示当前帧，并不会按照视频的原速度播放。**你需要在代码中通过循环读取视频的帧，并将每一帧传递给 cv2.imshow，以模拟视频的播放效果。

注意： 如果两次imshow的winname相同的话，那将自动关闭前一个窗口。

cv2.waitKey()

原型：cv2.waitKey([delay])

参数：

delay（延迟时间）: 表示等待时间的毫秒数，如果设置为0，表示无限等待用户输入。默认值是0。

返回值：

返回按键的 ASCII 值（整数）。如果没有按键被按下，返回-1。

功能：

等待用户按下键盘上的按键。
在指定的延迟时间内等待用户输入，然后继续执行程序。

cv2.destroyAllWindows()

原型：cv2.destroyAllWindows()

参数： 无

返回值： 无

功能：

关闭所有通过 cv2.namedWindow() 或 cv2.imshow() 创建的窗口。通常在程序执行的最后调用这个函数，以确保在程序结束时关闭所有图形界面窗口，防止它们在程序退出后仍然保留。

cv2.imread()

原型：cv2.imread(filename [,flags])

参数：

filename（文件名）: 要读取的图像文件的路径。
flags（标志）: 可选参数，表示如何读取图像。默认值是 cv2.IMREAD_COLOR，表示以彩色图像的形式读取。可以使用以下常量：
- cv2.IMREAD_COLOR: 以彩色图像形式读取（默认值），注：OpenCV读取的图像是BGR格式，而非RGB。
- cv2.IMREAD_GRAYSCALE: 以灰度图像形式读取。
- cv2.IMREAD_UNCHANGED: 读取包括 alpha 通道在内的所有图像信息。

返回值：

读取的图像数据，以 NumPy 数组的形式表示。

功能：

读取指定路径下的图像文件，并将其加载到一个 NumPy 数组中，以便在程序中进行处理和分析。

cv2.imwrite()

原型： cv2.imwrite(filename, img [,params])

参数：

filename（文件名）: 要写入的目标文件的路径。
img（图像数据）: 要写入文件的图像数据，通常是一个 NumPy 数组。
params（可选参数）: 写入文件时的附加参数。可以指定图像质量、压缩格式等。

返回值：

如果成功写入文件，则返回 True；否则返回 False。

功能：

将图像数据写入指定的文件。

读取展示-视频

import cv2

# 打开视频文件
cap = cv2.VideoCapture('./rabbit.mp4')

# 检查视频是否成功打开
if not cap.isOpened():
    print("Error: 无法打开视频文件.")
    opn = 0
else:
    opn = 1

while opn:
    # 读取视频帧
    ret, frame = cap.read()

    # 检查是否成功读取帧(视频播放完成退出)
    if not ret:
        print("Error: 无法读取帧.")
        break

    # 转换为灰度帧
    gray = cv2.cvtColor(frame, cv2.COLOR_BGR2GRAY)

    # 在窗口中显示帧
    cv2.imshow('Video Player', gray)

    # 检查用户是否按下了 'q' 键，如果是则退出循环
    if cv2.waitKey(25) & 0xFF == 27:
        break

# 释放资源
cap.release()
cv2.destroyAllWindows()

cv2.VideoCapture()

原型：cv2.VideoCapture([filename or index, apiPreference])

参数：

filename（可选）: 视频文件的路径。
index（可选）: 摄像头设备的索引号，用于选择要使用的摄像头。通常从0开始递增。
apiPreference（可选）: 指定视频捕获 API 的首选项。可以是 cv2.CAP_ANY、cv2.CAP_V4L2、cv2.CAP_FFMPEG 等。

功能：

打开一个视频文件、摄像头或其他图像来源，准备读取帧。
提供方法用于从视频源中读取帧，获取视频的参数等信息。

返回值：

VideoCapture 对象：一个用于从视频源读取帧的对象。下面介绍该对象常用属性：
1. read()：
  - 读取视频的下一帧。
  - 返回一个布尔值 ret，表示帧是否成功读取，以及帧的图像数据frame(视频帧的 NumPy 数组)。
```
ret, frame = cap.read()
```
2. get(propId)：
  - 获取视频的属性值，例如帧的宽度、高度、帧速率等。
  - propId 是用于指定要获取的属性的标识符。
```
width = int(cap.get(cv2.CAP_PROP_FRAME_WIDTH))
height = int(cap.get(cv2.CAP_PROP_FRAME_HEIGHT))
```
3. set(propId, value)：
  - 设置视频的属性值，例如帧的宽度、高度、帧速率等。
  - propId 是用于指定要设置的属性的标识符，value 是要设置的属性值。
```
cap.set(cv2.CAP_PROP_FRAME_WIDTH, 640)
cap.set(cv2.CAP_PROP_FRAME_HEIGHT, 480)
```
4. release()：
  - 释放 VideoCapture 对象占用的资源，关闭视频源。
```
cap.release()
```
5. isOpened()：
  - 检查 VideoCapture 对象是否成功打开了视频源。
```
if not cap.isOpened():
    print("Error: Could not open video source.")
```

cv2.cvtColor()

原型：cv2.cvtColor(src, code)

参数：

src（源图像）: 要进行颜色空间转换的输入图像，通常是一个 NumPy 数组。
code（颜色空间转换代码）: 指定颜色空间转换的方式，如 cv2.COLOR_BGR2GRAY 表示将 BGR 彩色图转换为灰度图。
还有两个可选参数，用于设置输出图像的尺寸、深度、通道数，这里不进行介绍。

返回值：

转换后的图像，仍是一个 NumPy 数组。

功能：

将输入图像从一个颜色空间转换到另一个颜色空间。

其他：(关于code的其他可选项)

BGR 转灰度：cv2.COLOR_BGR2GRAY
BGR 转HSV：cv2.COLOR_BGR2HSV
BGR 转RGB：cv2.COLOR_BGR2RGB
灰度转BGR：cv2.COLOR_GRAY2BGR
RGB 转BGR：cv2.COLOR_RGB2BGR

ROI(感兴趣的范围——裁剪)

图像数据的表示方式：

用 “:” 表示区间(左闭右开)

import cv2
img = cv2.imread('./die.jpg')
print(img.shape)  #(40, 240, 3)

# 取三维矩阵的前一行、前两列、深度为all
print(img[0:1, 0:2], "\n")
# [[[40 39 83]     [[[BGR][BGR]  ]  ]
#   [39 38 82]]]   三维 —— 图像(r * w) * BGR(h = 3)

# 取三维矩阵的前一行、前两列、深度为0
print(img[0:1, 0:2, 0], "\n")
# [[40 39]]      二维 (r * w)  仅显示BGR其中之一(B)

print(img[0:1, 0:2, 1], "\n")
# [[39 38]]        仅显示(G)

print(img[0:1, 0:2, 2], "\n")
# [[83 82]]        仅显示(R)

查看图像指定区域(imshow时可实现裁剪效果)：

import cv2
img = cv2.imread('./die.jpg')
print(img.shape)

cv2.imshow("image", img)
cv2.imshow("cut", img[50:150, 0:200])

cv2.waitKey(0)
cv2.destroyAllWindows()

提取/合并图像的R、G、B

import cv2

img = cv2.imread('./die.jpg')

# 提取   如果直接show相当于灰度图像，把颜色值当作亮度
img_B = img[:, :, 0]
img_G = img[:, :, 1]
img_R = img[:, :, 2]
# 合并   合并时要注意维度保持一致
img_T = cv2.merge((img_B, img_G, img_R))

置空通道 (e.g只保留R通道)

import cv2

img = cv2.imread('./die.jpg')

img_T = img.copy()

img_T[:, :, 0] = 0  # 置空 B 通道
img_T[:, :, 1] = 1  # 置空 G 通道

cv2.imshow("img_T", img_T)
cv2.waitKey(0)
cv2.destroyAllWindows()

cv2.merge()

原型：cv2.merge(mv[, dst])

参数：

mv：包含要合并的图像通道的序列（例如，一个包含三个通道的元组或列表）。
dst：输出图像，可选。

返回值：

如果指定了 dst 参数，则返回输出图像 dst；否则，返回合并后的图像。

功能：

cv2.merge 函数用于将多个单通道的图像合并成一个多通道的图像。通常，在图像处理中，图像被拆分为单个通道进行处理，然后再合并回来。mv 参数是一个包含要合并的图像通道的序列，通常是一个包含多个单通道图像的元组或列表。在合并时要注意每个通道的尺寸和数据类型保持一致，并注意通道的顺序。

关于dst参数

手动指定 dst 和使用返回值接收的主要区别在于对输出图像的处理和内存管理

手动指定 dst：

如果你手动指定了 dst，则你需要提前创建一个多通道的数组，用于存储合并后的结果。这样可以避免在函数内部创建新的数组，有助于更好地控制内存的分配和释放。
通过手动指定 dst，你可以在函数调用之后继续使用这个数组，而不需要将它的内容复制到其他数组中。

使用返回值接收：

如果你使用返回值接收合并后的结果，那么函数会在内部创建一个新的多通道数组，并将合并后的图像存储在其中。这个新数组将作为函数的返回值返回。
使用返回值接收合并后的图像时，你不需要提前创建输出数组，但需要注意新数组的内存管理。你可能需要确保及时释放不再需要的内存，以避免内存泄漏。

在实际应用中，选择手动指定 dst 还是使用返回值接收通常取决于对内存和代码结构的特定需求。如果你有特定的内存管理需求或者想要更好地控制输出数组的生命周期，那么手动指定 dst 可能更为合适。否则，使用返回值接收通常更为简便。

缩放&融合

import cv2

img1 = cv2.imread('./die.jpg')
img2 = cv2.imread('./cool.jpg')

# 两张图片尺寸不一致不能进行计算(融合)
print(img1.shape)  # (240, 240, 3)
print(img2.shape)  # (1000, 1000, 3)

img2_T = cv2.resize(img2, (240, 240))

res = cv2.addWeighted(img1, 0.4, img2_T, 0.6, 0)

cv2.imshow("blend", res)
cv2.waitKey(0)
cv2.destroyAllWindows()

按缩放因子进行scale

import cv2

img = cv2.imread('./die.jpg')
print(img.shape)  # (240, 240, 3)

# 将y坐标拉伸2倍数，x不变
img_T = cv2.resize(img, (0, 0), fx=1, fy=2)
print(img.shape)  # (240, 240, 3)

cv2.imshow("img", img)
cv2.imshow("scale", img_T)
cv2.waitKey(0)
cv2.destroyAllWindows()

cv2.resize()

原型：cv2.resize(src, dsize[, dst[, fx[, fy[, interpolation]]]])

参数：

src: 输入图像。
dsize: 输出图像的大小，可以是元组 (width, height) 或者 None。
dst: 输出图像，可选。
fx: 沿水平轴的缩放因子，可选。
fy: 沿垂直轴的缩放因子，可选。
interpolation: 插值方法，用于图像的缩放。默认为 cv2.INTER_LINEAR。

常见的插值方法包括：
- cv2.INTER_NEAREST: 最近邻插值
- cv2.INTER_LINEAR: 线性插值（默认）
- cv2.INTER_CUBIC: 三次样条插值
- cv2.INTER_AREA: 区域插值

返回值：

返回缩放后的图像。

功能：

该函数用于调整图像大小，可以进行放大或缩小。可以通过指定输出图像的大小 (dsize) 或者缩放因子 (fx, fy) 来控制缩放的程度。

cv2.addWeighted()

函数原型：cv2.addWeighted(src1, alpha, src2, beta, gamma[, dst[, dtype]])

参数：

src1：第一个输入图像。
alpha：src1 的权重。
src2：第二个输入图像。
beta：src2 的权重。
gamma：添加到每个和的标量值,用于调整输出图像的亮度。
dst：输出图像，可选。
dtype：输出图像的数据类型，可选。

返回值：

如果指定了 dst 参数，则返回输出图像 dst；否则，返回合并后的新图像。

功能：

cv2.addWeighted 函数用于将两个图像线性组合，即按照一定的权重相加。具体而言，它的计算公式为：

$d s t = src 1 \times a lp ha + src 2 \times b e t a + g amma$

这个函数在图像混合、图像融合、对比度调整等方面非常有用。例如，可以使用 cv2.addWeighted 将两个图像按照一定的比例融合，调整图像的对比度和亮度。

数值计算

cv2.add()

img1 = img1 + 5   # 每个像素值都增加了5
imgT = img2 + img1  # img1 的每个像素值都与相应位置上的 img2 的像素值相加

# 因为每个值都是uint8，所以可能会出现越界溢出的情况(%256)
# cv2.add()  可以实现饱和截断(溢出时会保持在255)
cv2.add(img1,img2)

matplotlib.pyplot绘制子图

import cv2
import matplotlib.pyplot as plt
import numpy as np                # 暂时没用到

# 读取图像
img1 = cv2.imread('./die.jpg')
img2 = cv2.imread('./grayscale.jpg')
img3 = cv2.imread('./cool.jpg')

# 使用Matplotlib显示不同边界填充方式的图像(221: 2*2的网格的第1个位置)
plt.subplot(221), plt.imshow(img1), plt.title('die')
plt.subplot(222), plt.imshow(img2), plt.title('grayscale')
plt.subplot(223), plt.imshow(img3), plt.title('cool')

plt.show()
cv2.waitKey(0)
cv2.destroyAllWindows()

边界填充

import cv2
import matplotlib.pyplot as plt
import numpy as np                # 暂时没用到

# 读取图像
img = cv2.imread('./die.jpg')

# 定义上、下、左、右填充的大小
top_size, bottom_size, left_size, right_size = (70, 70, 70, 70)

# 使用不同的边界填充方式生成新的图像
replicate = cv2.copyMakeBorder(img, top_size, bottom_size, left_size, right_size, borderType=cv2.BORDER_REPLICATE)
reflect = cv2.copyMakeBorder(img, top_size, bottom_size, left_size, right_size, cv2.BORDER_REFLECT)
reflect101 = cv2.copyMakeBorder(img, top_size, bottom_size, left_size, right_size, cv2.BORDER_REFLECT_101)
wrap = cv2.copyMakeBorder(img, top_size, bottom_size, left_size, right_size, cv2.BORDER_WRAP)
constant = cv2.copyMakeBorder(img, top_size, bottom_size, left_size, right_size, cv2.BORDER_CONSTANT, value=0)

# 使用Matplotlib显示不同边界填充方式的图像(231: 2*3的网格的第1个位置)
plt.subplot(231), plt.imshow(img), plt.title('ORIGINAL')
plt.subplot(232), plt.imshow(replicate), plt.title('REPLICATE')
plt.subplot(233), plt.imshow(reflect), plt.title('REFLECT')
plt.subplot(234), plt.imshow(reflect101), plt.title('REFLECT_101')
plt.subplot(235), plt.imshow(wrap), plt.title('WRAP')
plt.subplot(236), plt.imshow(constant), plt.title('CONSTANT')

# 显示图像
plt.show()

# 关闭所有OpenCV窗口
cv2.destroyAllWindows()

cv2.copyMakeBorder()

函数原型：cv2.copyMakeBorder(src, top, bottom, left, right, borderType[, dst[, value]])

参数：

src：输入图像。
top、bottom、left、right：指定在每个边界添加的像素数。
borderType：
- BORDER_REPLICATE：复制法，也就是复制最边缘像素。
- BORDER_REFLECT：反射法，对感兴趣的图像中的像素在两边进行复制例如：fedcba|abcdefgh|hgfedcb
- BORDER_REFLECT_101：反射法，也就是以最边缘像素为轴，对称，gfedcb|abcdefgh|gfedcba
- BORDER_WRAP：外包装法cdefgh|abcdefgh|abcdefg
- BORDER_CONSTANT：常量法，常数值填充。
dst：输出图像，可选。
value：当 borderType 为 cv2.BORDER_CONSTANT 时使用的边界常数。

返回值：

如果指定了 dst 参数，则返回输出图像 dst；否则，返回添加边界后的新图像。

功能：

cv2.copyMakeBorder 函数用于在图像的四个边界上添加边界。你可以指定要添加的像素数以及边界的类型。不同的 borderType 选项会导致不同的边界填充方式。
这个函数在图像处理中常用于图像扩展、填充以及处理边界条件的情况，例如在进行卷积运算时。

Numpy

.shape

shape 是 NumPy 数组的一个属性。在 NumPy 中，shape 用于获取数组的维度信息。

示例：array.shape

返回值：

一个元组（tuple），表示数组的维度。

功能：

提供数组的维度信息，以元组的形式返回。
对于二维数组，返回的元组包含两个元素，表示行数和列数；对于三维数组，包含三个元素，以此类推。

.copy()

在NumPy中，copy() 方法用于创建数组的副本（复制）。这个方法返回一个新的数组对象，该对象是原始数组的完整副本，包括数据和属性。这意味着对新数组的任何更改都不会影响原始数组，反之亦然。

你可能感兴趣的:(opencv,opencv,人工智能,计算机视觉)

计算机视觉领域的轻量化模型——GhostNet 模型 DuHz 边缘计算轻量化模型计算机视觉人工智能算法深度学习神经网络边缘计算网络
GhostNet模型详解GhostNet是一个高效的轻量化卷积神经网络模型，专为资源受限的设备（如移动设备和嵌入式系统）设计。它的核心创新是Ghost模块，该模块通过生成更多的特征图来减少计算资源消耗。GhostNet适用于实时计算任务，如图像分类和物体检测，同时在保持较高准确率的基础上，优化了计算效率。目录GhostNet背景Ghost模块概述GhostNet网络架构Ghost模块的数学原理Gh
新春特辑：人工智能专题大复盘互联互通社区人工智能大数据区块链 python 编程语言
播洒一年的阳光，收获一路的辉煌;挥洒一年的汗水，绽放一路的明媚;付出一年的辛苦，装点一路的幸福;感谢一年的努力，创造一路的奇迹。新的一年，愿与你再扬帆济海，创造美好精彩!人工智能：人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来，理论和技术日益成熟
【新春特辑】2025年1月科技浪潮中的AI最新时事与科技趋势我的青春不太冷科技最新时事 AI大爆炸学习
2025年1月科技浪潮中的AI最新时事与科技趋势一、AI科技时事人工智能代理（AIAgent）的发展最新进展：人工智能代理正逐步成为科技领域的新热点。这些代理能够自主执行特定任务，如管理日程、回复邮件等。然而，它们仍面临可靠性、可访问性和安全性等方面的挑战。随着技术的不断进步，这些挑战有望逐步得到解决。未来展望：未来，AI代理将更加智能化，能够更好地理解用户需求并提供个性化服务。同时，它们也将成为
计算机视觉：解锁智能时代的钥匙与实战案例我的运维人生计算机视觉人工智能运维开发技术共享
计算机视觉：解锁智能时代的钥匙与实战案例在人工智能的浩瀚星空中，计算机视觉无疑是最为璀璨的星辰之一。它不仅让机器拥有了“看”的能力，更是推动了自动驾驶、安防监控、医疗影像分析、智能制造等多个领域的革新。本文将深入探讨计算机视觉的核心技术、最新进展，并通过一个具体的代码案例，展示如何在实际项目中应用这些技术。一、计算机视觉概述计算机视觉，简而言之，是指让计算机系统从数字图像或视频中提取有用信息的过程
人工智能导论--第1章-知识点与学习笔记想拿高薪的韭菜人工智能学习笔记
请根据教材内容，完成进行下面的作业任务。必须包含有教材的具体内容，不能是生成式AI系统的生成内容。参考教材1.1节的内容介绍，谈谈你对“智能”的认识。思维能力是智能的重要特征之一，结合教材1.1.2节内容，从思维的定义、分类及其特点等角度，阐述思维的含义。参考教材1.1.3节的内容介绍，名词解析“人工智能”。参考教材1.2节的内容介绍，介绍人工智能的发展简史。参考教材1.3节的内容介绍，人工智能作
Python从0到100（八十一）：神经网络-Fashion MNIST数据集取得最高的识别准确率是Dream呀 python 神经网络开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
老玩童：互联网智慧助老平台——科技赋能银发族，开启智慧养老新生活 IT源码大师科技生活
详细描述：1.引言随着全球老龄化社会的加速到来，老年人的生活质量和社会参与度成为社会关注的焦点。传统的养老服务模式往往存在资源不足、服务单一、效率低下等问题，难以满足老年人日益增长的多样化需求。基于互联网技术的智慧助老平台“老玩童”，通过整合物联网、大数据、人工智能等先进技术，构建了一个全方位、智能化、个性化的助老服务体系，为老年人及其家庭提供了全新的解决方案。本文将深入探讨这一平台的核心理念、技
什么是ROS2 听风胖耗子机器人
ROS是机器人操作系统的简称，它本身并不是一个操作系统，而是可以安装在现在已有的操作系统（Linux、Windows、Mac）上的一组用于构建机器人应用程序的软件库和工具集。ROS包括两个版本ROS1和ROS2，ROS1是在2007年由斯坦福大学人工智能实验室与机器人技术公司WillowGarage为了个人机器人项目的合作而开发的，2008年后由WillowGarage来进行推动，目前由开源机器人
从零开始大模型开发与微调：汉字拼音数据集处理 AGI大模型与大数据研究院大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
从零开始大模型开发与微调：汉字拼音数据集处理1.背景介绍1.1问题的由来在人工智能领域，自然语言处理（NLP）是一项基础且重要的研究方向。随着深度学习技术的飞速发展，大规模语言模型（LargeLanguageModel，LLM）在NLP领域取得了显著的成果。然而，LLM的训练与微调过程往往需要海量的文本数据，而这些数据通常以自然语言形式存在，难以直接用于模型训练。因此，如何从自然语言数据中提取结构
本地部署LLM工具大比拼：谁才是你的智能之选？ Python_金钱豹 microsoft ocr 人工智能 cnn transformer 分类
在人工智能的浪潮中，本地部署LLM工具为我们开启了个性化智能交互的新大门。今天，就带大家深入对比几款热门的本地部署LLM工具：ollama、Llamafile、jan、LLaMa.cpp、GPT4All、LMStudio，从多个关键角度剖析它们的特点与优势，助你挑选出最契合自身需求的智能伙伴。一、安装使用便捷性大排名1.ollama：轻松上手的智能先锋ollama的安装便捷性堪称一流。只需一条简单
2024年开源数据集地址汇总包含最新最全数据集在这你可以找到任何想要数据集萌萌哒240 深度学习目标跟踪人工智能计算机视觉
目标检测数据集和图像分类数据集是计算机视觉领域的两大重要资源，它们为训练和评估各种视觉模型提供了关键的数据支持。目标检测数据集主要用于训练模型以识别和定位图像中的特定物体。这类数据集通常包含大量的标注图像，每张图像中都标记了多个物体的位置和类别。例如，COCO（CommonObjectsinContext）数据集就是一个常用的目标检测数据集，它包含了80个类别的日常物体，如人、车、动物等，并提供了
mpp rtsp 硬解码 AI算法网奇嵌入式 c++入门宝典网络
目录opencv保存mp4linux系统RK3588MPP硬解码rtsp源代码内存泄露问题硬编码和硬解码mpp保存mp4h264格式判断ffmpeg把mp4转为h264裸流有的电脑报错：Unabletofindasuitableoutputformatfor'output.264'ffmpeg_rtsp_mpp:ffmpeg拉取rtsph264流，使用mpp解码，目前在firefly板子上跑通了m
第五章 Opencv图像处理框架实战 5-7图像金字塔与轮廓检测老张谋 AI--深度学习 opencv 图像处理人工智能
1、图像金字塔定义图像金字塔¶高斯金字塔拉普拉斯金字塔高斯金字塔：向下采样方法（缩小）高斯金字塔：向上采样方法（放大）
一张图看懂AI技术架构！开发、训练、部署全链路深度解析！和老莫一起学AI 人工智能数据挖掘学习 llama ai 大模型程序员
人工智能（AI）技术的快速发展，使得企业在AI模型的开发、训练、部署和运维过程中面临前所未有的复杂性。从数据管理、模型训练到应用落地，再到算力调度和智能运维，一个完整的AI架构需要涵盖多个层面，确保AI技术能够高效、稳定地运行。本文将基于AI技术架构全景图，深入剖析AI的开发工具、AI平台、算力与框架、智能运维四大核心部分，帮助大家系统性地理解AI全生命周期管理。一、AI开发工具：赋能高效开发，提
Forbes：2025年人工智能发展前瞻人工智能学家人工智能百度
来源：科技世代千高原克雷格·S·史密斯CraigS.Smith2025年1月7日技术发展速度飞快，转眼间，星辰延伸成星线，我们今天所处的位置与几天前相去甚远。越来越难以预测明天我们会身在何处。有一点是明确的：我们正在进入通用人工智能(AGI)领域，超级人工智能(ASI)现在似乎触手可及。无论如何定义，AGI不会突然出现；它会不断发展，我们已经看到了它逐渐展开的迹象。AGI的曙光AGI一直以来都是我
数字化转型导师坚鹏：AI大模型DEEPSEEK重构人工智能格局的里程碑银行数字化转型导师坚鹏人工智能重构 DEEPSEEK AI
数字化转型导师坚鹏：AI大模型DEEPSEEK重构人工智能格局的里程碑在人工智能领域迅猛发展的浪潮中，每一次重大技术突破都犹如一颗投入平静湖面的巨石，激起千层浪。DEEPSEEK的发布，无疑是近期人工智能领域最受瞩目的事件之一。凭借其独特的技术优势和创新理念，DEEPSEEK迅速在全球人工智能舞台上崭露头角，对现有的人工智能格局产生了多维度、深层次的影响。一、技术突破：从"追赶者"到"规则制定者"
AI：180-如何利用Python进行图像处理和计算机视觉任务一键难忘精通AI实战千例专栏合集 python 图像处理计算机视觉
本文收录于专栏：精通AI实战千例专栏合集https://blog.csdn.net/weixin_52908342/category_11863492.html从基础到实践，深入学习。无论你是初学者还是经验丰富的老手，对于本专栏案例和项目实践都有参考学习意义。每一个案例都附带关键代码，详细讲解供大家学习，希望可以帮到大家。正在不断更新中~一.探索Python在图像处理和计算机视觉任务中的应用随着人
AI在虚拟试衣中的应用：革新在线购物体验 AI大模型应用之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
AI在虚拟试衣中的应用：革新在线购物体验关键词：虚拟试衣,增强现实,在线购物,深度学习,图像识别,人工智能,用户交互1.背景介绍1.1问题由来随着电子商务的迅猛发展，在线购物已经成为人们日常生活的一部分。然而，由于无法亲身试穿，在线购物体验在满足用户个性化需求方面仍存在诸多不足。传统的网页图片展示和文字描述难以真实传达衣物的质地、颜色和尺寸。因此，虚拟试衣技术应运而生，成为电商平台上提升用户体验的
柳暗花明又一村：Seq2Seq编码器解码器架构 AI大模型应用之禅计算机软件编程原理与应用实践 java python javascript kotlin golang 架构人工智能
Seq2Seq,编码器-解码器,自然语言处理,机器翻译,文本生成,循环神经网络,长短期记忆网络1.背景介绍在人工智能领域，自然语言处理(NLP)始终是研究的热点之一。从机器翻译到文本摘要，从对话系统到问答机器人，Seq2Seq编码器-解码器架构在众多NLP任务中展现出强大的能力。传统的机器翻译方法通常依赖于统计模型和规则引擎，难以捕捉语言的复杂性和语义关系。随着深度学习的兴起，Seq2Seq架构为
《C++ 赋能 K-Means 聚类算法：开启智能数据分类之旅》 c++c#
在当今数字化浪潮汹涌澎湃的时代，人工智能无疑是引领科技变革的核心驱动力之一。而在人工智能的广袤天地中，数据分类与聚类作为挖掘数据内在价值、揭示数据潜在规律的关键技术手段，正发挥着前所未有的重要作用。K-Means聚类算法，作为数据聚类领域的经典之作，以其简洁高效的特性而备受瞩目。当我们将目光聚焦于C++这一强大而高效的编程语言时，会发现它与K-Means聚类算法的结合犹如天作之合，能够为数据处理与
《解锁AI黑科技：数据分类聚类与可视化》程序猿阿伟人工智能科技分类
在当今数字化时代，数据如潮水般涌来，如何从海量数据中提取有价值的信息，成为了众多领域面临的关键挑战。人工智能（AI）技术的崛起，为解决这一难题提供了强大的工具。其中，能够实现数据分类与聚类，并以可视化形式展现的AI技术，正逐渐成为各行业数据分析和决策的核心力量。数据分类与聚类：AI的核心技能数据分类是将数据划分到预先定义好的类别中，就像把图书馆里的书籍按照不同学科分类摆放，方便读者查找。比如在垃圾
AI大模型基于LLM的Agent架构图解 AI产品经理人工智能深度学习语言模型学习
Agent定义Agent是什么？Agent是一种能够自主决策、采取行动以达到某种目标的实体。AIAgent的确定义：基于人工智能（尤其是大模型）技术，能够感知和理解环境，并采取行动以完成目标的智能实体。Agent能干什么？AIAgent主要依托LLM模型和具体的业务场景来调用相应的工具来完成任务目标，智能化程度和行业贴合度会更明显。典型案例有什么？智能核保应用，如果解决方案搭载AIAgent能力，
【机器学习与数据挖掘实战】案例11：基于灰色预测和SVR的企业所得税预测分析 Francek Chen 机器学习与数据挖掘实战机器学习数据挖掘灰色预测 SVR 人工智能
【作者主页】FrancekChen【专栏介绍】⌈⌈⌈机器学习与数据挖掘实战⌋⌋⌋机器学习是人工智能的一个分支，专注于让计算机系统通过数据学习和改进。它利用统计和计算方法，使模型能够从数据中自动提取特征并做出预测或决策。数据挖掘则是从大型数据集中发现模式、关联和异常的过程，旨在提取有价值的信息和知识。机器学习为数据挖掘提供了强大的分析工具，而数据挖掘则是机器学习应用的重要领域，两者相辅相成，共同推动
DeepSeek Janus-Pro：多模态AI模型的突破与创新大模型之路大模型（LLM）Deepseek deepseekr1 deepseek LLM 强化学习
近年来，人工智能领域取得了显著的进展，尤其是在多模态模型（MultimodalModels）方面。多模态模型能够同时处理和理解文本、图像等多种类型的数据，极大地扩展了AI的应用场景。DeepSeek(DeepSeek-V3深度剖析：下一代AI模型的全面解读)公司最新发布的Janus-Pro模型，正是在这一领域的一次重大突破。本文将深入探讨Janus-Pro的技术特点、创新之处以及其在多模态任务中的
yolo是什么，有什么优缺点以及YOLO的应用场景？ cesske YOLO
目录前言一、yolo是什么？二、YOLO的优点三、YOLO的缺点四、YOLO的应用场景总结前言这里我们来讲一下yolo是什么，有什么优缺点？一、yolo是什么？“YOLO”在计算机视觉和深度学习领域是一个特定的算法框架，全称是“YouOnlyLookOnce”。这个算法最初由JosephRedmon、SantoshDivvala、RossGirshick和AliFarhadi在2015年提出，旨在
2025年编程AI工具概览 hawkol 人工智能
随着人工智能技术的飞速发展，编程AI工具在2025年已成为程序员和开发者的得力助手。这些工具不仅提高了编程效率，还在代码质量、自动化和创新性方面表现出显著优势。以下是一些在2025年备受推崇的编程AI工具:1.GitHubCopilotGitHubCopilot是由GitHub、OpenAl和Microsoft联合打造的一款高级代码生成和辅助工具。它基于OpenAl的Codex模型，能够理解自然语
简述web3.0前端开发的最简单三个步骤飞机号Mrsfu223 web3 区块链 python java 开发语言
Web3.0是互联网的下一代前沿技术，包括人工智能，大数据和区块链都是这项技术的核心，Web3.0为用户提供了更为智能的互联网服务体验，该技术的核心要素为去中心化，也就是摆脱中心化的权力控制，能够让数据和各项交易通过网络里的各项节点来维护和验证，并不是通过中心化的机构或服务器控制各项节点，Web3有车有中心化，有户权益性，去信任化，互操作性这些特点，可以拥有更大的操作空间和可能性。去中心化是基于区
人机交互：面部识别_14.面部识别在虚拟现实和增强现实中的应用 zhubeibei168 机器人及导航人机交互 vr ar 开发语言机器人导航与定位
14.面部识别在虚拟现实和增强现实中的应用14.1虚拟现实中的面部识别在虚拟现实（VR）环境中，面部识别技术可以显著提升用户体验，使其更加沉浸和自然。通过识别用户的面部表情，VR系统可以实时调整虚拟角色的行为，增强用户与虚拟世界的互动。14.1.1面部表情识别面部表情识别是虚拟现实中最常见的应用之一。通过摄像头捕捉用户的面部图像，使用计算机视觉算法识别出用户的表情，如微笑、惊讶、愤怒等，虚拟角色可
.NET/C#大型项目研发必备(5)--Web服务/WebApi的负载均衡 DeveloperSharp 负载均衡负载均衡器 web api 微服务
前言：本系列文章适合有初/中级.NET知识的同学阅读。（1）本系列文章，旨在讲述研发一个中大型项目所需要了解的一系列“基本构件”，并提供这些“基本构件”的【最简单】、【最快速】使用方法！！（并不深究技术原理）（2）通过阅读本系列文章，能让你在正规“项目研发”方面快速入门+进阶，并能达成“小团队构建大网站”的目的。（3）本系列文章采用的技术，已成功应用到人工智能、产业互联网、社区电商、游戏、金融风控
人工智能在药物研发中的应用 - 从靶点发现和化合物筛选：利用AI深度学习技术加速药物研发流程 AI_DL_CODE 人工智能深度学习药物研发 deep learning
摘要：本文探讨了人工智能（AI）在药物研发中的应用，强调了AI在加速药物发现、降低成本和提高成功率方面的重要性。文章概述了AI在药物靶点识别、化合物筛选、药物设计优化等方面的应用，并详细介绍了机器学习和深度学习的基本原理。通过一个实操案例，展示了如何利用AI技术对化合物数据进行分析，预测潜在的药物候选物。案例包括数据预处理、模型训练、评估和优化等步骤，证明了AI在提高药物研发效率和准确性方面的潜力
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户