vv不说话

树莓派编程基础与硬件控制

1.编程语言

Python 是一种泛用型的编程语言，可以用于大量场景的程序开发中。根据基于谷歌搜

索指数的 PYPL（程序语言流行指数）统计，Python 是 2019 年 2 月全球范围内最为流行

的编程语言

相比传统的 C、Java 等编程语言，Python 具备一些优势。

（1）较强的易读性。Python 是一种高级编程语言，其在设计上更为接近人类使用的

自然语言（英语）。具备英语基础和少许编程基础的人可以很轻松地阅读 Python 代码。

（2）简洁的语法（规则）。Python 语言的设计哲学是“优雅”“明确”和“简单”，

力图用最简洁的方式完成程序内容。相比于传统编程语言，Python 通常可以用更短的语句

执行同样的功能。

（3）强大的可扩展性。由于 Python 是一个完全开放的编程语言环境，其拥有大量强

大的扩展包，例如数学计算包 NumPy、游戏开发包 pygame、机器学习包 TensorFlow 等。

正是因为这一特点，Python 目前是人工智能编程的首选语言。

（4）便利的可移植性。Python 几乎可以运行于任何操作系统，将 Python 代码移植

到 Windows、macOS、Linux 等不同环境中非常便利。

交互式编程是一种非常便利的 Python 编程方式，常用于程序测试的场景。首先通过任

务栏打开树莓派的“终端”，在其中输入“python3”并回车即可进入 Python 3 的交互式

编程环境

用 Geany 编辑器编写 Python 程序

虽然交互式编程环境可以很方便地输出语句的结果，但它并不能将大段的程序内容存

储起来反复运行，因此只适用于程序测试的场景。绝大多数情形下，我们需要将完整的

Python 程序存储为 .py 格式的文件，再调用它进行运行。

可以使用任意的文本编辑器编写 Python 程序。我们在后续的课程中统一使用树莓派系

统预装的轻量级文本编辑器 Geany 来编写 Python 程序。Geany 可在树莓派任务栏的开

始菜单中选择“编程”找到。

使用 Geany 编辑器的图标可以方便地进行文件的新建、打开、保存以及 Python 程序

的运行操作

打开 Geany 后，我们先新建一个空白文档，再单击文档→设置文件类型→脚本语

言→ Python 源文件，将其设为 Python 程序文件

2.树莓派的 GPIO 接口

树莓派 3B+ 主控板可以通过上面的 40 个引脚连接电子设备输入或输出电信号。

3. 点亮一盏小灯

导入 Python 扩展包

要使用 Python 程序对 GPIO 连接的输入 / 输出设备进行控制，需要用到一个名为

RPi.GPIO 的扩展包。在 Python 程序中，许多功能被写在了一些额外的官方或第三方扩展

包中，可以通过如下两种方式导入扩展包。
第一种方式为直接导入，后面的“as 自定义名称”可以不写。不写时，使用“扩展包

名 . 包内的函数或变量名”的形式可以调用包内预先设定好的函数或变量。若设定了自定义

名称，则使用“自定义名称 . 包内的函数或变量名”的形式调用。

第二种导入方式则可以选择性导入包中设定的函数或变量，导入多个函数或变量时需使

用逗号隔开。若使用“import *”则可导入包中的所有函数及变量。用这种方式导入扩展包时，

我们可以直接用导入的函数或变量名来调用它们而不用再写包名。

中除了 1~40 的编号外，每个 GPIO 引脚后面还有另一个编号。在 Python
程序中使用 GPIO 时，需要指定程序应该使用哪一种编号方式。其设定方法是：

树莓派的所有 GPIO 口既可以连接输入设备，也可以连接输出设备，因此需要事先设
定其为输入模式还是输出模式：
模式有两种：gpio.IN 代表这是一个输入设备，gpio.OUT 代表这是一个输出设备。

例如，对 LED 连接的 GPIO 接口进行设定的完整程序如下：设定 GPIO 接口输出高、低电平的语句为：

电平状态只有两种：gpio.HIGH 代表高电平，gpio.LOW 代表低电平。

为了让程序能控制小灯亮灭一段时间，需要引入 Python 中

time 扩展包的 sleep 函数。 sleep 后的参数表示需等待的时间，单位为秒。

4.用按钮控制灯的状态

与 LED 模块类似，我们也要先设定按钮连接的 GPIO 接口的输入 / 输出状态。我们可以通过一个简单的函数来读取接口的电平状态：
这个函数可能得到两个返回值：gpio.HIGH（高电平）或 gpio.LOW（低电平）。我

们可以通过判断按钮的电平状态来执行不同的操作。例如，在按钮被按下时将小灯点亮，否

则将小灯熄灭。
但是这个程序并不能真正实现预想的功能，因为这段程序仅仅在程序刚刚运行的一瞬间

进行按钮按压状态的读取与判断。若要实现持续判断的功能，需要增加一个 while 循环结构。

4.1两个按钮的控制与逻辑运算符

将这个逻辑转化为程序：

但这样编写的程序看上去有一点复杂。在需要同时判断多个条件的真假时，我们可以通

过逻辑运算符来处理它们的关系。

逻辑运算符有 and（与）、or（或）、not（非）三种。

与运算符 and：用 and 连接两个条件，当两个条件都为真时，返回真；有一个为假时，

返回假。等同于我们常说的“并且”。

或运算符 or：用 or连接两个条件，当两个条件有一个为真时，返回真；都为假时，返回假。

等同于我们常说的“或者”。

非运算符 not：在条件前加上 not，可以得到与条件真假相反的结果。等同于对条件加

上了“不”字。

上面程序的功能实质上是：按钮 1 被按下并且按钮 2 被按下时点亮小灯，否则熄灭小灯。

所以可以利用逻辑运算符编写以下程序。

4.2抢答器的完整示例程序

5.机器视觉与图像识别

人工智能系统的一个重要发展方向是对人类机能的模拟，因而学会“看”对人工智能而

言是非常关键的一步。

在分析机器如何“看”之前，我们先简单了解一下人类的视觉机制。我们天生就能使用

眼睛接收光线，从而可以看到五彩斑斓的世界，这是因为人眼的视觉细胞中存在分别对红色、

绿色、蓝色敏感的 3 种细胞，从而可以识别出这 3 种颜色，并可以通过它们的融合识别其

他颜色。

因此，红、绿、蓝 3 种颜色被称为视觉三原色，它们的任意组合可以构成可见光的所

有颜色。

人工智能视觉的关键就在于如何从图像中分析出各种物体的颜色、形状等基本信息，进

而分析它们所蕴含的意义。这个过程就被称为图像识别，或者机器视觉。

6.机器视觉技术的常见应用

1.相似图像搜索

2009—2010 年，谷歌、百度等搜索公司相继推出了以图搜图的图片搜索功能。这一

功能可以分析图片上的特征信息，并从互联网上找到与该图片相似的图片。现在，各类手机

购物 App 也可以以类似的原理实现拍摄商品照片，找到相似商品的功能。

2.文字识别

很多电子设备都可以使用 OCR（光学字符识别）技术识别纸质资料上的文字，目前较

为成熟的 OCR 技术可以以较高的成功率读取手写文字。

3.面部识别

当前的智能手机上大多搭载了利用手机摄像头结合人工智能算法实现的面部识别功能。

结合这一功能，智能手机可以以较高的安全性进行解锁、支付等操作。除此以外，面部识别还被广泛应用于公共安全领域，不单可以在特定场所保护公共安全，还可以帮助侦破刑事案件。

4.目标检测

人工智能图像识别的一个关键是识别图像中的物体并对它们进行分类。现在，随着人工

神经网络技术的发展，我们可以更轻松地使用一些开源的神经网络工具“训练”AI 识别物体。

图 5.8 所示为目标检测工具识别指定种类的物体。

7.认识 OpenCV

通过前面的学习，我们知道，计算机等电子设备中存储的图像信息实质上是以像素排列

的颜色值信息，也就是大量的数据。要从图像信息中得到有意义的信息，就必须对这些数据

进行分析与处理。

计算机科学家和相关领域的从业者在过往几十年时间内发展出了大量用于处理计算机图

像信息的数学方法。开源的计算机视觉库 OpenCV 内置了大量这类数学方法，可以帮助我

们分析图像信息。

7.1OpenCV 简介

英特尔公司于 1999 年发起了一个以计算机图像处理为主题的开源程序库项目OpenCV（开源计算机视觉库），它已成为目前影响力最大的一个开源计算机视觉库。OpenCV 在面部识别、手势识别、目标识别、增强现实（AR）等问题上都能发挥重要的作用。 2009 年，OpenCV 发布了其第一个第二代正式版本。自 2012 年起，一个专门的非营利组织负责 OpenCV 项目的后续支持。OpenCV 2015 年发布其第三代，2018 年发布到第四代。在我们后续的项目中，将使用目前应用最为广泛的 OpenCV 第三代版本。 OpenCV 本体以 C++ 程序语言编写，但也提供了包括 Python 在内的其他编程语言的扩展接口。

视频的帧与分辨率

OpenCV 不单可以用于处理静态的图像信息，其很重要的一个目标是对实时的动态图

像进行处理。

我们可以运用摄像头来捕获动态的视频图像。摄像头的基本成像原理与数码相机完全相

同，只不过它可以实时以较短的时间间隔连续获取图像信息。这些图像信息按时间顺序排列

起来就组成了我们常说的视频。

我们看到的视频实际上都是由若干张静态图片连续播放而成的。人类大

脑的视觉系统会将连续播放的相似图片自动连接成连贯的影像。

视频中每一张静态图片被称为视频的一帧（frame）。视频每秒输出的帧数量是一个很

重要的指标，这被称为帧率（单位为帧 / 秒）。现在主流的视频帧率是 30 帧 / 秒或 60 帧 / 秒。帧率越高，视频越流畅。
一个视频中每一帧图像的像素排列是完全一致的。视频中每帧图片的横轴、纵轴像素的

数量被称为视频的分辨率。以树莓派官方摄像头为例，该摄像头拍摄的图像横轴拥有 640

个像素，而纵轴拥有 480 个像素，所以其分辨率为 640 像素 ×480 像素。
橙色点所示，我们可以将每个像素定位到其在 x 轴（横轴）和 y 轴（纵轴）

方向的位置，并标注为 ( x 坐标， y 坐标 )。

视频的分辨率常以纵轴的像素数量来表示，例如标清视频为 480p，指的是纵轴有 480

个像素。而高清视频为 720p，全高清视频为 1080p，4K 视频则为 2160p。标准视频的横

纵像素比通常为 16 :9或4 :3。显然，分辨率越高，视频越清晰。

7.2opencv安装：

欲哭无泪555555555555555555，走了一天弯路，晕

结果在终端窗口输入sudo apt-get install -y libopencv-dev python3-opencv

sudo pip3 install numpy

输入python3验证

再import cv2没有报错就ok了

7.21用树莓派摄像头调取图像

使用 OpenCV 测试摄像头的完整程序如下。

运行程序后将在弹出的窗口中看到其拍摄到的实时画面。如果未能看到画面，请检查摄

像头的连接。

现在我们来分析一下这段程序代码的运作过程。OpenCV 可以使用 VideoCapture 读

取视频。其后的括号中填写序号“0”将可以读取树莓派的默认摄像头信号。如果连接了其

他摄像头，可以用其他序号来获取。此外，在这里填写视频存储地址，也可以直接读取树莓

派系统中存储的视频。

将读取视频的结果创建为 cap 后，使用 isOpened 函数可以返回其读取视频的结果。

如果读取成功，则返回 True（真），否则返回 False（假）。因此，我们可以将它作为

while 循环的条件实现循环读取视频信号。

对 cap 使用 read 函数将返回视频中一帧的信息，这个函数存在两个返回值：该帧是否

存在以及这一帧的具体信息。我们可以用形如 (ret, frame) = cap.read() 的格式将第一个返

回值存为 ret，第二个返回值存为 frame。

ret 在帧存在时为 True（真），否则为 False（假）。frame 则包含了这一帧中所有像

素点的三原色值信息及其排列方式。OpenCV 读取的帧信息的每一个像素由三原色值按照

B（蓝）、G（绿）、R（红）的顺序排列，每一个值的范围为 0（最暗）~255（最亮）。

使用 imshow 函数可以将图像信息显示为一个窗口中的图像，其格式为：
OpenCV 中使用 imshow 显示图像后必须使用一个 waitKey 函数。函数的参数值为以

毫秒为单位的时间，表示在显示一帧后等待这些时间再继续。

8.用 OpenCV 识别颜色

使用 OpenCV 调取图像的信息只是我们分析图像的第一步，OpenCV 的强大之处在

于它可以通过一些预置函来方便地处理这些信息。机器视觉技术识别物体首先需要确定物体

的位置，勾勒出其轮廓，而区分物体与背景的关键在于颜色的分界。

8.1HSV 颜色空间

OpenCV 读取的图像信息在每一像素上都由 B、G、R 的颜色值排列而成，但事实上

用这 3 个颜色值来区分颜色并不像想象中那么简单：同一物体的三原色值在环境光照变化

的情况下将发生很大的变化，使用一定的颜色区间来锁定特定物体几乎是不可能完成的任务。

为了解决这一问题，我们可以使用另一种描述颜色的方式：HSV 颜色空间。

相比直接用三原色值来表述颜色，使用颜色的另外一些属性来描述它们更符合人眼对颜

色的认知。这些属性包括颜色的色相（Hue）、饱和度（Saturation）、亮度（Value）。

使用这 3 种颜色属性描绘颜色的方法于 1978 年由计算机科学家 Alvy Ray Smith 提出，这

些值可以用三原色值经过简单的数学转换得到。

色相（H）是颜色的基本属性。我们可以将三原色红、绿、蓝置于一个圆盘的 0°、

120°和 240°位置，然后将其他颜色插入排列。

饱和度（S）代表颜色的纯度或“鲜艳程度”。颜色的饱和度越高，则色彩越“纯正”。

亮度（V）代表颜色的明亮程度。亮度越大则颜色越亮，否则越暗。

图 5.13 所示为 HSV 颜色空间的图示，这种描绘颜色的方式相对三原色更接近人的视

觉感受，H、S、V 三种颜色值的变化可以被人眼敏锐地感觉到。通常，色相（H）的取值

范围为 0~360，而饱和度（S）与亮度（V）被划为 100 份，取值范围为 0~100。

在 Geany 中，我们可以单击运行键右侧的按键打开颜色选择器，从这里可以获取不同

颜色的 HSV 值与 RGB 值

OpenCV 中有一个内置函数 cvtColor 可以方便地将图像信息从一个颜色空间转换到另

一个颜色空间，例如：

hsv = cv2.cvtColor(frame, cv2.COLOR_BGR2HSV)

这一语句可以将原本 BGR 颜色空间上的 frame 信息转换为 HSV 颜色空间并存储到

hsv 中。需要注意的是，OpenCV 中 H 值的取值范围是 0~180，S 和 V 值则是 0~255。

若将通常的 HSV 值代入 OpenCV 中分析，须先对 H、S、V 分别按比例转换。

我们常见的颜色都处于 HSV 颜色空间的某个范围内。图 5.15 所示为一些颜色的大致

范围（按照 OpenCV 的取值范围）。

9.图像的二值化

在 HSV 颜色空间中，我们可以设定出待检测物体颜色所在的区间。假定待检测物

体是一个较均匀的黄色物体，其颜色值的范围为：H 值 26~34，S 值 43~255，V 值

46~255。我们可以将这个范围设定一个下限和上限并分别定义：

这种定义方式事实上是建立了元组类型的变量

接下来为了勾勒出这个物体的轮廓，需要先将图像中属于这个区间的像素与不属于这

个区间的像素进行分割。为了方便，我们可以将属于这个区间的像素直接取值为 1，而将

不属于这个区间的像素取值为 0，这样就构成了一个只由 0 和 1 排列的图像信息。使用

OpenCV 中的 inRange 函数可以轻松地完成这一步骤：

函数返回一个 0 和 1 排列而成的图像信息。这种将图像的所有像素用 0 和 1 表示的方

法被称为图像的二值化。二值化是处理计算机图像时常用的一种数学方法。若将值为 0 的

像素用黑色标出，而将 1 用白色标出，inRange 函数可以完成图 5.16 所示的转换。

9.1找到轮廓的位置

接下来我们可以通过二值化图像方便地找出黑、白区域分界线的位置，即待检测物体的

轮廓。寻找二值化图像轮廓可以用 findContours 函数来实现：

这里，我们传入的第一个参数“图像信息”是二值化的图像信息。

第二个参数“输出模式”指定输出轮廓的类型，主要有以下 3 种类型。

cv2.RETR_EXTERNAL：只输出外轮廓。

cv2.RETR_LIST：输出所有轮廓。

cv2.RETR_TREE：输出所有轮廓，并输出轮廓间的包含关系。

第三个参数“输出方法”指的则是输出的轮廓信息所包含的内容，主要有以下两种输出

方法。

cv2.CHAIN_APPROX_SIMPLE：只输出拐角点的坐标。

cv2.CHAIN_APPROX_NONE：输出所有连续点的坐标

在本例中，为简便起见，我们采用 cv2.RETR_EXTERNAL 与 cv2.CHAIN_

APPROX_SIMPLE 两个参数。函数一共存在 3 个连续的返回值：传入的图像信息本身、

轮廓坐标的信息、各个轮廓之间的包含关系。在指定只输出外轮廓的情况下，我们实际上只需要用到其第二个返回值。

将图像进行二值化并寻找外轮廓的完整代码如下

我们首先将图像按照设定的颜色区间转换为二值化图像信息，并用

mask 变量存储。然后，我们寻找图像中的轮廓，并用 cnts 变量存储找到的全部轮廓信息。但是，这样找到的轮廓包含了图像中所有处于该颜色区间中的物体轮廓，例如图 5.16 右侧的一些噪点也会被检测出来。为了只输出待检测物体的轮廓，我们需要找到所有轮廓中面积最大的一个

Python 中存在一个 max 函数，它可以输出一组数据中最大的一个。在本例中，我们

需要输出的数据并非绝对数值最大，而是包围面积最大。这种情况下，在 max 函数中设定

比较方式即可实现：

找最大面积的比较方式在 OpenCV 中被设定为 contourArea，我们可以用下面的语句

将 cnts 中面积最大的轮廓存储在变量 c 中：

最后，我们需要从 c 中得到这个轮廓的具体位置。使用 minEnclosingCircle 函数可以

得到一个轮廓的最小包围圆（指能包围这个轮廓的最小的圆）的圆心坐标和半径。

minEnclosingCircle 函数只有一个参数：轮廓信息。而函数将连续返回两组值：圆心

的坐标（横坐标，纵坐标）、圆的半径。

使用 ((x, y), radius) = cv2.minEnclosingCircle(c) 将可以直接存储这些信息。我们用

变量 x 存储横坐标，变量 y 存储纵坐标，变量 radius 则存储圆的半径。

不过，如果摄像头没有捕捉到任何指定颜色的物体，cnts 将是完全“空”的，这将导

致 max 函数报错。我们可以加入下列判断。

这里 len 可以表示一组数据的“长度”。若 len 大于 0，表示其不为“空”。

len 函数的对象事实上是列表类型

霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
目标检测（object detection）加油吧zkf 目标检测目标检测人工智能计算机视觉
目标检测作为计算机视觉的核心技术，在自动驾驶、安防监控、医疗影像等领域发挥着不可替代的作用。本文将系统讲解目标检测的概念、原理、主流模型、常见数据集及应用场景，帮助读者构建对这一技术的完整认知。一、目标检测的核心概念目标检测（ObjectDetection）是指在图像或视频中自动定位并识别出所有感兴趣的目标的技术。它需要解决两个核心问题：分类（Classification）：确定图像中每个目标的类
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
OpenCV图片操作100例：从入门到精通指南（1）总有刁民想爱朕ha opencv 计算机视觉人工智能
OpenCV图片操作100例：从入门到精通指南本文整理了100个OpenCV实用技巧，涵盖图像处理各个领域，助你轻松掌握计算机视觉核心技能！一、入门必备：基础操作1.图像读写与显示importcv2#读取图像（BGR格式）img=cv2.imread('image.jpg')#显示图像cv2.imshow('示例图片',img)cv2.waitKey(0)#按任意键退出cv2.destroyAll
OpenCV图片操作100例：从入门到精通指南（3）总有刁民想爱朕ha opencv 人工智能计算机视觉
高效学习路径：1️⃣分阶段学习：入门：1-20例（基础操作）进阶：21-50例（图像处理）高级：51-100例（计算机视觉）2️⃣项目驱动学习：证件照背景替换（1-15例）停车场车位检测（30-45例）视频运动追踪（70-85例）3️⃣性能优化技巧：#使用UMat加速图像处理umat_img=cv2.UMat(img)processed=cv2.GaussianBlur(umat_img,(5,5
OpenCV入门到精通：AI视觉处理的完整指南 AI云原生与云计算技术学院人工智能 opencv 计算机视觉 ai
OpenCV入门到精通：AI视觉处理的完整指南关键词：OpenCV、计算机视觉、图像预处理、目标检测、AI视觉应用摘要：本文是一份面向AI视觉爱好者的OpenCV完整学习指南。从OpenCV的核心概念讲起，结合生活案例、代码示例和项目实战，逐步拆解图像读取/显示、灰度化、边缘检测、目标检测等关键技术。无论你是想入门计算机视觉的新手，还是希望用OpenCV解决实际问题的开发者，都能通过本文掌握从理论
CNN 猫狗识别：从理论到实战的深度解析爱熬夜的小古 cnn 深度学习人工智能
在计算机视觉领域，卷积神经网络（ConvolutionalNeuralNetwork，CNN）凭借其强大的特征提取和模式识别能力，成为图像分类任务的主流技术。猫狗识别作为经典的图像分类问题，不仅能帮助我们理解CNN的工作原理，还能为实际应用提供技术支持。本文将深入探讨CNN在猫狗识别中的应用，从理论基础到实战代码，带你全面掌握这项技术。一、CNN基础理论概述（一）CNN的核心组件卷积层：是CNN的
OpenCV入门到精通：从基础到实战的全面指南
摘要：本文旨在为初学者和有一定经验的开发者提供OpenCV从入门到精通的全面指南。文章首先介绍了OpenCV的基本概念和安装方法，然后深入讲解了图像处理基础、特征检测与匹配、视频处理与分析等核心内容，最后通过实战案例展示了OpenCV在计算机视觉任务中的应用。关键词：OpenCV；图像处理；特征检测；视频分析；实战案例引言OpenCV（OpenSourceComputerVisionLibrary
【人工智能面经第五期：模型训练与优化核心面试深度问答】码上有前 Pytorch Python 深度学习人工智能面试职场和发展
作者：“码上有前”文章简介：人工智能面经欢迎小伙伴们点赞、收藏⭐、留言模型训练与优化核心面试深度问答摘要围绕模型训练与优化的训练技巧（正则化、迁移学习）和数据工程（数据增强、标注质量）展开，通过20个关键问题，解析正则化协同策略、迁移学习适配场景、数据增强实践等核心要点，助力读者掌握人工智能与计算机视觉岗位面试中模型训练优化的知识体系，明晰技术原理与实际应用的关联。目录训练技巧-正则化策略相关问题
机器学习手写字体识别系统：技术演进与应用实践万能小贤哥机器学习人工智能
引言：手写字体识别的技术定位与价值在信息处理领域，人工录入手写文本的低效性与机器识别的高效性形成鲜明对比。例如，医疗处方的人工处理需约5分钟/张，而采用手写字体识别技术可将时间缩短至10秒/张，显著提升处理效率。作为计算机视觉与人工智能的重要分支，手写字体识别技术通过将手写文本转换为可编辑电子文本，不仅大幅减少人工输入时间和错误，降低人工处理成本，还能在大量数据处理时保持高于人工录入的准确性，是人
【论文阅读笔记】TimesURL: Self-supervised Contrastive Learning for Universal Time Series 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
TimesURL:Self-supervisedContrastiveLearningforUniversalTimeSeriesRepresentationLearning摘要学习适用于多种下游任务的通用时间序列表示，并指出这在实际应用中具有挑战性但也是有价值的。最近，研究人员尝试借鉴自监督对比学习（SSCL）在计算机视觉（CV）和自然语言处理（NLP）中的成功经验，以解决时间序列表示的问题。
异物检测的计算机视觉算法技术路线思绪漂移计算机视觉算法人工智能
异物检测的计算机视觉算法技术路线在现代智能监测系统中，异物检测有着其必要性和运维重要性，通过计算机视觉算法，可以实时识别各种异常物体，为设备安全运行提供有力保障。本文将介绍异物检测的主要技术路线。一、分类识别适应场景分类识别技术主要适用于已知目标类别的异物检测场景。在运维环境中，这类场景包括：固定区域内的障碍物监测（如轨道区域的石块、工具、动物等）关键部件的异物附着检测（如固定装置上的杂物）安全通
【AI大模型】深入解析预训练：大模型时代的核心引擎我爱一条柴ya 学习AI记录深度学习人工智能 ai python AI编程算法
预训练已成为现代人工智能，尤其是自然语言处理和计算机视觉领域的基石技术。它彻底改变了模型开发范式，催生了BERT、GPT等革命性模型。本文将系统阐述预训练的核心概念、原理、方法、应用及挑战。一、预训练的本质：为何需要它？核心问题：数据标注的瓶颈监督学习依赖海量高质量标注数据，获取成本极高（时间、金钱、专业知识）。对于复杂任务（如理解语义、生成文本），标注难度呈指数级上升。标注数据稀缺导致模型泛化能
OpenCvSharp 实现环形文字识别OCR实例（C#） XisVisual_Basic ocr c#计算机视觉 C#
近年来，随着计算机视觉和图像处理的不断发展，光学字符识别（OCR）技术也变得愈发成熟。OCR技术可以将图像中的文字转换为可编辑和可搜索的文本，为人们带来了极大的便利。在本篇文章中，我们将介绍如何使用OpenCvSharp库来实现环形文字的识别。首先，在使用OpenCvSharp之前，我们需要确保已经在项目中引用了该库，并添加相应的命名空间。usingOpenCvSharp;接下来，我们需要准备一张
Python|OpenCV-实现识别弧形文字(17) 写python的鑫哥 OpenCV入门与进阶 python opencv 人工智能计算机视觉弧形文字环形文字识别
前言本文是该专栏的第19篇，后面将持续分享OpenCV计算机视觉的干货知识，记得关注。我们知道，OCR可以识别文字方面的需求，但是如果遇到那些目标文字是“弧形文字”，需要怎么去识别呢？遇到想要识别“弧形文字”的需求，这个时候你可以借助于Opencv+OCR技术来实现。而本文，笔者将针对上述问题需求，利用OpenCV结合OCR来实现“弧形文字”的识别。废话不多说，具体的细节部分以及详细的解决方案，跟
【小白入门必看】一文读懂深度学习计算机视觉技术及学习路线
一、什么是计算机视觉？计算机视觉，其实就是教机器怎么像我们人一样，用摄像头看看周围的世界，然后理解它。比如说，它能认出这是个苹果，或者那边有辆车。除此之外，还能把拍到的照片或者视频转换成有用的信息，帮我们做决定。整个过程就是为了让机器能看懂图像，然后根据这些图像来做出聪明的选择。二、计算机视觉实现起来难吗？人类依赖视觉，找辆汽车轻而易举，毕竟汽车那么大，一眼就能看出来，所以常误以为计算机视觉简单，
计算机视觉：Transformer的轻量化与加速策略 xcLeigh 计算机视觉CV 计算机视觉 transformer 人工智能 AI 策略
计算机视觉：Transformer的轻量化与加速策略一、前言二、Transformer基础概念回顾2.1Transformer架构概述2.2自注意力机制原理三、Transformer轻量化策略3.1模型结构优化3.1.1减少层数和头数3.1.2优化Patch大小3.2参数共享与剪枝3.2.1参数共享3.2.2剪枝3.3知识蒸馏四、Transformer加速策略4.1模型量化4.2.2TPU加速4.
【机器学习】解密计算机视觉：CNN、目标检测与图像识别核心技术（第25天）吴师兄大模型 0基础实现机器学习入门到精通机器学习计算机视觉 cnn 人工智能目标检测图像识别 pytorch
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
人体坐姿检测系统开发实战（YOLOv8+PyTorch+可视化） Loving_enjoy 计算机学科论文创新点人工智能深度学习迁移学习经验分享
本文将手把手教你构建智能坐姿检测系统，结合目标检测与姿态估计技术，实现不良坐姿的实时识别与预警###一、项目背景与价值现代人每天平均坐姿时间超过8小时，不良坐姿会导致：-脊椎压力增加300%-颈椎病发病率提升45%-腰椎间盘突出风险增加60%本系统通过计算机视觉技术实时监测坐姿状态，对驼背、侧倾、前倾等不良姿势进行智能识别和预警。相较于传统传感器方案，我们的视觉方案具有非接触、低成本、易部署的优势
魔都AI医疗哪家强？全景揭秘科技创新与未来钱景！
引言上海作为中国科技创新的先锋城市，正在AI医疗领域崭露头角。根据2024年12月的数据，上海拥有34家专注于AI药物研发的公司，占全国预临床研究的60%和临床试验的47%。这些公司利用深度学习、大语言模型（LLM）和计算机视觉等技术，革新药物发现、医疗影像分析和数据治理，推动医疗行业的智能化转型。从全球首个人工智能医院“AgentHospital”到AI驱动的诊断系统，上海的AI医疗生态正在重塑
语义分割模型的轻量化与准确率提升研究 pk_xz123456 仿真模型深度学习算法 transformer 深度学习人工智能算法数据结构
语义分割模型的轻量化与准确率提升研究1.引言语义分割是计算机视觉领域的核心任务之一，它要求模型为图像中的每个像素分配一个类别标签。随着深度学习的发展，语义分割模型在多个领域得到了广泛应用，如自动驾驶、医学影像分析、遥感图像解译等。然而，现有的语义分割模型往往面临两个主要挑战：模型复杂度高导致难以部署在资源受限的设备上，以及准确率仍有提升空间以满足实际应用需求。本文将从模型轻量化和准确率提升两个角度
Python深度学习实践：建立端到端的自动驾驶系统 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：建立端到端的自动驾驶系统1.背景介绍自动驾驶系统是当今科技领域最具挑战性和前景的应用之一。它融合了计算机视觉、深度学习、规划与控制等多个领域的先进技术,旨在实现车辆的自主感知、决策和操控。随着人工智能技术的不断发展,越来越多的公司和研究机构投入了大量资源来开发自动驾驶系统。Python作为一种高效、易学且开源的编程语言,在这一领域扮演着重要角色。本文将探讨如何利用Pyth
从0开始学习计算机视觉--Day08--卷积神经网络
之前我们提到，神经网络是通过全连接层对输入做降维处理，将输入的向量通过矩阵和激活函数进行降维，在神经元上输出激活值。而卷积神经网络中，用卷积层代替了全连接层。不同的是，这里的输入不再需要降维，而是可以保留输入的空间结构，例如输入的是32×32×3的图片，在全连接层中是3072×1的向量，而卷积层里则保持不变。这里的改变的地方是对于同样的WX的函数形式，这里是把5×5×3的权重矩阵（也叫卷积核）向量
Python打卡：Day40
#先继续之前的代码importtorchimporttorch.nnasnnimporttorch.optimasoptimfromtorch.utils.dataimportDataLoader,Dataset#DataLoader是PyTorch中用于加载数据的工具fromtorchvisionimportdatasets,transforms#torchvision是一个用于计算机视觉的库，
BigQuery对象引用（ObjectRef）全面指南：一站式整合结构化与非结构化多模态数据分析
引言企业需要同时管理有组织表格中的结构化数据，以及日益增长的非结构化数据（如图片、音频和文档）。传统上，联合分析这些多样化数据类型非常复杂，通常需要使用不同的工具。非结构化媒体通常需要导出到专门的服务进行处理（如图片分析需计算机视觉服务，音频需语音转文本引擎），这会造成数据孤岛，阻碍全局分析视角的建立。以虚构的电商支持系统为例：结构化的工单信息存储在BigQuery表中，而相关的支持通话录音或损坏
【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析智算菩萨人工智能深度学习
引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域。对于初入此领域的新手而言，理解这棵技能树的生长规律，掌握其形成过程中的关键节点和发展阶段，将直接决定其在人工智能道路上能够走多远、攀多高。技能树的概念源于游戏设计，但在学习深度学习
多模态大模型的技术应用与未来展望：重构AI交互范式的新引擎 zhaoyi_he 重构人工智能
一、引言：为什么多模态是AI发展的下一场革命？过去十年，深度学习推动了计算机视觉和自然语言处理的飞跃，但两者的发展路径长期割裂。随着生成式AI和大模型时代的到来，**多模态大模型（MultimodalFoundationModels）**以统一的建模方式处理图像、文本、音频、视频等多源数据，重塑了“感知-认知-决策”链条，为AGI迈出关键一步。OpenAI的GPT-4o、Google的Gemini
OpenCV 图像操作：颜色识别、替换与水印添加
目录引言代码实现1.导入必要的库2.图像加法3.图像直接相加4.颜色加权加法5.HSV颜色空间转换概念作用6.查找颜色范围对应的像素点7.与运算-生成掩膜8.添加水印9.主函数总结引言在计算机视觉领域，OpenCV是一个强大的库，提供了丰富的图像操作功能。本文将详细介绍如何使用OpenCV进行图像加法、颜色加权加法、HSV颜色空间转换、颜色范围查找、与运算生成掩膜以及添加水印等操作，并给出相应的P
YOLO学习笔记｜从YOLOv5到YOLOv11：技术演进与核心改进北斗猿 YOLO学习从零到1 YOLO 目标检测算法 python 计算机视觉
从YOLOv5到YOLOv11：技术演进与核心改进深度解析一、YOLO系列发展概述YOLO（YouOnlyLookOnce）目标检测算法自2016年诞生以来，凭借其"单次检测"的独特理念和卓越的实时性能，持续引领着计算机视觉领域的技术革新。从JosephRedmon的初代YOLO到AlexeyBochkovskiy的YOLOv4，再到Ultralytics团队的YOLOv5及后续系列，这一算法家族
《卷积神经网络到Vision Transformer：计算机视觉的十年架构革命》 HeartException 人工智能学习
前言前些天发现了一个巨牛的人工智能免费学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站题目《卷积神经网络到VisionTransformer：计算机视觉的十年架构革命》展开深度解析，全文采用技术演进史+架构对比+产业影响的三段式结构，附关键数据与趋势预测：卷积神经网络到VisionTransformer：计算机视觉的十年架构革命副标题：从局部感知到全局建模，一场改变AI视觉基石的
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，