w冷淡

yolo-pose标注

前言
支持的操作
- 普通标注下
- 关键点标注下
缺点
优点
标注 YOLO格式的数据集
- 加载本地标签，并标注
- - 运行程序
  - 切换到下一张图片
  - 显示类别的框的颜色
  - 显示类别的文本
  - 对已有标签的修改
  - 删除已有标签
  - 新增标签
- 从0标注（本地没有标签）
标注 YOLO关键点检测格式的数据集
- 加载本地标签
- 从0标注（本地没有标签）
- 一个图中标注多个框和关键点
最终代码

前言

本篇文章介绍的标注工具是本人自己编写，针对YOLO系列的数据标注以及关键点标注应该是能满足需求的。

整体比较乱，但是可以更改的地方已经全放到代码的开头了。
代码放到了文章末尾，以及百度云下载链接
首先放一段实际操作的视频展示

yolov5数据集标注，yolo-pose数据集标注

支持的操作

这里先简单说明下支持的操作

普通标注下

按Q切换到下一张图像
按T总退出（完成标注后先按下Q切换到下一张图再按T总的退出，不会丢失数据）
按R将已有内容隐藏，继续标注，标注完成和原来的内容合并
双击框上的点切换到删除状态，按下E不做操作，按下W删除
鼠标左键点击框上的点，拖拽会移动框

关键点标注下

按Q切换到下一张图像
按T总退出
按R将已有内容隐藏，继续标注，标注完成和原来的内容合并
双击关键点切换关键点的可见状态（0 1 2）
鼠标左键点击框或者关键点移动
双击空白区域，从键盘输入两次0-9数字，索引对应关键点，例如0和8索引为8，将8对应的点移动到鼠标左键双击的位置

缺点

不支持滚轮放大图片操作
不支持随意切换要标注的图片
只支持yolo格式的标注
当物体较小，或者较为密集的时候，不方便操作

优点

使用简单，安装opencv即可
操作逻辑简单
对关键点格式的标注支持友好

标注 YOLO格式的数据集

首先需要把22行的代码的初始值从True改为None，表示不标注关键点
更换图像所在的路径和保存路径，保存路径中可以不放任何内容

然后这里说一下，如果本地已经存在标签了，如果除了后缀前缀都是相同的，则优先加载本地文件夹到图像上，这里分别展示

加载本地标签，并标注

本地存放了三张测试图像和测试标签，设置路径为这两个文件夹

运行程序

切换到下一张图片

可以看到本地标签已经加载到图像上面了，可以把键盘切换为字母大写的状态，然后点击Q切换到下一张图像

显示类别的框的颜色

不同类别展示用的颜色也不相同，如果需要更改颜色需要更改的是这段代码，这里预先设置好了10种类别的颜色，是因为opencv可以从键盘获取的数字中0-9最容易。也可以设置其他类别，只是需要用到字母

box_color = {
    0: (0, 0, 0),
    1: (0, 0, 0),
    2: (0, 255, 0),
    3: (255, 0, 0),
    4: (0, 255, 255),
    5: (255, 255, 0),
    6: (255, 0, 255),
    7: (0, 125, 125),
    8: (125, 125, 125),
    9: (125, 0, 125)
}  # 每个不同类别框的颜色

显示类别的文本

每个框上面都存在一个名字，因为YOLO的标签格式就是数字表示的，所以这里就用数字了，如何想要展示成英文单词，需要更改下下面的代码

扩充字典，把value替换为自己的类别名

my_cls = {
    0: '0',
    1: 'other',
    2: 'person'
}  # 添加自己的框的标签，如果没有就用i:'i'替代

然后显示的就是对应的类别名字了，这里的文本颜色我没有提供修改方式，有兴趣再label_show函数中修改

对已有标签的修改

应该容易发现再矩形框的四个顶点以及四条边的中心处显示了9个点，这里是参照make-sense做的，当鼠标放置于这9个点附近时

就会在鼠标周围显示绿色的空心圈，提示可以对已经存在的框做一些操作了

按下鼠标的左键，不松手，移动即可使标签位置发生移动

当松开鼠标的左键的时候即可完成本次修改，本地标签也会同时完成修改

删除已有标签

当鼠标放置于9个点附近时，显示绿色空心圈的时候，双击鼠标左键，可以发现框从实线转为虚线，并且提示W和E，从键盘按下E即可退出该状态

按下E不会进行任何操作

如何按下W则会删除该标签

新增标签

当鼠标不放在已有标签的9个点附近时，按住左键，一直移动即可看到一个变化的矩形框，当松下左键的时候即完成一次框的增加操作

此时会提示选择自己的类别，这里显示的只是自己设置的名字，0-9都是可以选择的，这里新增两个框，分别选择为0和6

选则0和6

然后本地标签就会同时保存

从0标注（本地没有标签）

如果本地没有标签

直接运行

开始标注

同时本地会生成对应的标签

到这里基础的标注功能展示完毕

标注 YOLO关键点检测格式的数据集

首先需要把22行的代码的初始值改为True，表示标注关键点，并且设置好相应的key_point_num # 关键点个数，要和本地标签中关键点数目相同，一般关键点标注也只需要一类，所以这里也只要求可以出现一个框，不能增删，关键点个数也不能增删，因为键盘能输入的数字只有0-9，所以做了这样的限制。

加载本地标签

本地已经存放了三个标签

直接运行程序，可以正确加载本地的标签，和普通标注一样，鼠标放矩形框的8个点以及关键点附近鼠标周围都会出现绿色空心圈

当出现空心圈之后就可以拖动关键点和框了

和普通标注不同的是这里双击矩形框不会出现任何操作，表示你不可以删除矩形框，只能移动，也不可以删除关键点，也只能移动，但是关键点除了拖动也可以通过双击和键盘输入移动

可以鼠标左键双击关键点

因为关键点有0 1 2三种状态，可见等状态
然后从键盘输入0或者1或者2

设为1仅仅是标志位从2->1，显示颜色发生改变，设置为2因为之前的状态就是2，所以看起来没有变化，设置为0，除了把状态变为0，还要把相应的坐标（x ，y）设置为0 0
如果只是想要把状态设置为0，坐标不变，需要注释掉481和482行的代码

        elif key_insert is not None and key == ord('0'):
            with open(label_path, 'r') as f:
                label_temp = f.read()
                str_temp = label_temp.split(' ')
                str_temp[3 * int(key_insert) + 7] = '0'
                #str_temp[3 * int(key_insert) + 7 - 1] = '0'
                #str_temp[3 * int(key_insert) + 7 - 2] = '0'

如果想把状态为0的点改回来需要把鼠标放到左上角，双击，或者先拖拽到其他显眼区域

接下来选择前三个点展示起始标签和更改完后的标签

初始标签

0 0.477661 0.495117 0.895264 0.702474 0.69458 0.65625 2.0 0.895019 0.810872 2.0 0.572509 0.643229 2.0 0.745117 0.577473 2.0 0.642822 0.57194 2.0 0.74707 0.429361 2.0 0.641601 0.431315 2.0 0.748535 0.267252 2.0 0.64624 0.260742 2.0 0.279296 0.255859 2.0 0.050292 0.253906 2.0

前三个关键点标志位都是2

分别将0 1 2对应的关键点状态设置为0 1 2

本地状态也分别为0 1 2以及0对应坐标设置为0

从0标注（本地没有标签）

然后直接运行，可以发现已经生成好了一个框和key_point_num个关键点，本地同时生成了相应的标签
这是因为如果不预先生成一个框和key_point_num个关键点，处理起来会相当复杂，而且当关键点数量多余10个也不好处理，因此预先生成关键点和框，关键点的状态为2，可以自行修改
标注的时候把框和点拖拽到相应的位置，把关键点状态设为所需的即可

拖动关键点和框的位置，对于关键点也可以采用另一种标注方式
双击不存在关键点和框的9个点的区域

双击完成后会提示选则本0-10，因为这里关键点一共11个，从键盘输入两次，都要输入0-9的数字才行，如果像选中个位关键点例如0-9则第一次输入0，第二次输入关键点索引

例如要操作8号关键点，第一次输入0第二次输入8，可以看到关键点跑到了鼠标双击的位置

当该图标注完成，点击Q切换，都完成后可以看到本地相应的生成了对应的关键点标签，按T就是总退出

标注的时候也可以拉伸窗口，不影响标注结果，总之注意不要叉掉窗口或者强制退出，尽量还是按Q退出

一个图中标注多个框和关键点

虽然预先生成了一个框和n个关键点，但是比如一个图里面有多个人，比如有两个人，那就需要把两个人都标注在图像中，为了处理这种情况

首先先正常标注

然后这时候不要按Q退出，如果你想标注第二个人，这时候按住R

然后继续标注即可

如果你还想要继续标注就继续按住W，直到你所有的都完成后按住Q切换到下一个图，当所有的都完成之后，可以看到本地中的标签文件中，已经成功的添加了两个标注物体

此时我们再重新运行程序，可以看到已经成功标注了
但是需要注意的是，这种一个图中含有多个框的，就不要做任何操作了，比如点击，移动之类的，就是只可以看，如果你操作了，只会保留标签中第一行，其余的都会被删掉

最终代码

import math
import os
import cv2

"""
标注关键点只能存在一个框和多个点，并且不能删除点和删除框，读取本地文件的关键点要保证其中的关键点
数和key_point_num的值是一样的，本地标签中如果只存在框的信息就不要使用该脚本标注，不然会出错，
本地文件夹中可以有标签，如果有会优先加载本地标签，没有才会创建一个
"""
draw_line_circle = True  # True/None 是否在框上绘制点（8个点）
key_point_is = None  # 是否标记关键点 设置为None标注普通yolo标签
#  可以自定义得参数
label_path = R'C:\Users\lengdan\Desktop\data\2'  # 标注完成保存到的文件夹
image_path = R'C:\Users\lengdan\Desktop\data\1'  # 要标注的图像所在文件夹
circle_distance = 10  # 半径范围:鼠标进入点的半径范围内会出现光圈
key_point_num = 5  # 关键点个数
box_thickness = 1  # 框的粗细
small_box_thickness = 1  # 框的8个点的粗细
label_thickness = 1  # 框上面的类别字体的粗细
label_fontScale = 0.4  # 框上面的类别字体的倍数
key_thick = -1  # 关键点的粗细
key_text_thick = 2  # 关键点上文字粗细
key_text_scale = 0.6  # 关键点上文字的放大倍数
key_radius = 4  # 关键点绘制半径
dot = 6  # 选择保留几位小数

key_color = {
    0: (0, 0, 200),
    1: (255, 0, 0),
    2: (0, 222, 0)
}  # 关键点的颜色
key_text_color = {
    0: (0, 100, 200),
    1: (255, 0, 0),
    2: (0, 255, 125)
}  # 关键点上文本的颜色
box_color = {
    0: (255, 225, 125),
    1: (0, 0, 0),
    2: (0, 255, 0),
    3: (255, 0, 0),
    4: (0, 255, 255),
    5: (255, 255, 0),
    6: (255, 0, 255),
    7: (0, 125, 125),
    8: (125, 125, 125),
    9: (125, 0, 125)
}  # 每个不同类别框的颜色
my_cls = {
    0: '0',
    1: 'other',
    2: 'person'
}  # 添加自己的框的标签，如果没有就用i:'i'替代
final_class = {
    i: my_cls[i] if i in my_cls else str(i) for i in range(10)
}  # 框的默认名字

# 不要修改的参数
position = None  # 这里判断鼠标放到了哪个点上，方便后面移动的时候做计算
label = None  # 操作图像对应的标签
img = None  # 操作的图像
Mouse_move = None  # 选择移动框的标志位
label_index = None  # 鼠标选中的框在标签中的位置
label_index_pos = None  # 记录选中了框的8个点位的哪一个
Mouse_insert = None  # 用来记录是否进入删除状态
draw_rectangle = None  # 用来记录开始添加新框
end_draw_rectangle = None  # 用来记录结束绘制新框
append_str_temp = None  # 用来保存新增加的框的信息
empty_label = None  # 本地是否存在标签文件标志
# 关键点相关的参数
key_points = None
key_points_move = None
key_x = None  # 移动关键点的时候记录其每个关键点的x
key_y = None  # 移动关键点的时候记录其每个关键点的y
key_v = None  # 移动关键点的时候记录其每个关键点的状态
key_box = None
box_move = None  # 移动的是框的时候的标志位
key_insert = None  # 对某个关键点双击，切换其状态
move_key_point = None  # 把其他位置的关键点移动到这个地方
la_path = None
key_point_one = None  # 使用双击移动关键点的时候，记录第一个按下的键
key_point_two = None  # 使用双击移动关键点的时候，记录第二个按下的键
append_new_key_point = None  # 增加第二个关键点
append_new_key_point_index = 0  # 增加第二个关键点
window_w = None  # 获取创建窗口的宽度
window_h = None  # 获取创建窗口的高度


def flag_init():
    #  初始化下参数
    global position, label, img, Mouse_insert, Mouse_move, label_index, draw_rectangle, end_draw_rectangle, append_str_temp, empty_label, \
        label_index_pos, key_v, key_x, key_y, key_x, key_box, key_points_move, key_points, box_move, move_key_point, window_w, window_h
    position = None
    Mouse_move = None
    label_index = None
    label_index_pos = None
    Mouse_insert = None
    draw_rectangle = None
    end_draw_rectangle = None
    append_str_temp = None
    empty_label = None
    key_points = None
    key_points_move = None
    key_x = None
    key_y = None
    key_v = None
    key_box = None
    box_move = None
    move_key_point = None
    window_w = None
    window_h = None


# 用来绘制小的填充矩形框
def draw_rect_box(img, center, length_1, color=(0, 0, 255)):
    x1, y1 = center[0] - length_1, center[1] - length_1
    x2, y2 = center[0] + length_1, center[1] + length_1
    cv2.rectangle(img, (x1, y1), (x2, y2), color, thickness=-1)


# 用来读取本地图像
def img_read(img_path, scale_):
    global window_w, window_h
    # scale_填写屏幕的最小尺寸
    image = cv2.imread(img_path)
    scale_x, scale_y, _ = image.shape
    if max(scale_x, scale_y) > scale_ and window_w is None:
        scale = max(scale_x, scale_y) / scale_
        image = cv2.resize(image, (int(image.shape[1] / scale), int(image.shape[0] / scale)))
    if window_w is not None:
        image = cv2.resize(image, (window_w, window_h))
    return image


# 判断两点的间距，用来判断鼠标所在位置是否进入了8个点所在的区域
def distance(p1, p2):
    global circle_distance
    if math.sqrt((p2[0] - p1[0]) ** 2 + (p2[1] - p1[1]) ** 2) < circle_distance:
        return True
    else:
        return False


# 绘制虚线矩形框，当切换到删除时，由实线框转为虚线框
def draw_dotted_rectangle(img, pt1, pt2, length_1=5, gap=6, thick=2, color=(100, 254, 100)):
    (x1, y1), (x2, y2) = pt1, pt2
    temp1, temp2 = x1, y1
    while x1 + length_1 < x2:
        cv2.line(img, (x1, y1), (x1 + length_1, y1), color, thickness=thick)
        cv2.line(img, (x1, y2), (x1 + length_1, y2), color, thickness=thick)
        x1 += length_1 + gap
    while y1 + length_1 < y2:
        cv2.line(img, (temp1, y1), (temp1, y1 + length_1), color, thickness=thick)
        cv2.line(img, (x1, y1), (x1, y1 + length_1), color, thickness=thick)
        y1 += length_1 + gap


# 把本地标签展示到图像中
def label_show(img1, label_path, index):
    global small_box_thickness, box_thickness, label_fontScale, label_thickness, key_point_is, key_points, \
        key_radius, key_color, key_thick, key_text_scale, key_text_thick, key_text_color, label, draw_line_circle
    with open(la_path) as f:
        label = f.readlines()
    if len(label) == 0:
        return
    for i, points in enumerate(label):
        if key_point_is:
            # 获取关键点参数
            key_points = points.split(' ')[5:]
        points = points.split(' ')[0:5]
        classify = int(float(points[0]))
        points.pop(0)
        point = [float(s.strip('\n')) for s in points]
        # point = list(map(float, points))
        scale_y, scale_x, _ = img1.shape
        x, y, w, h = int((point[0] - point[2] / 2) * scale_x), int(
            (point[1] - point[3] / 2) * scale_y), int(
            point[2] * scale_x), int(point[3] * scale_y)
        if i == index:
            draw_dotted_rectangle(img1, (x, y), (x + w, y + h), box_thickness)
        else:
            cv2.rectangle(img1, (x, y), (x + w, y + h), box_color[classify], thickness=box_thickness)
        if draw_line_circle:
            # 绘制边上中心点，与四个顶点,矩形框中心点
            draw_rect_box(img1, (x, int(0.5 * (y + y + h))), length_1=small_box_thickness)
            draw_rect_box(img1, (x + w - 1, int(0.5 * (y + y + h))), length_1=small_box_thickness)
            draw_rect_box(img1, (int(0.5 * (x + x + w)), y), length_1=small_box_thickness)
            draw_rect_box(img1, (int(0.5 * (x + x + w)), y + h), length_1=small_box_thickness)
            draw_rect_box(img1, (x, y), length_1=small_box_thickness)
            draw_rect_box(img1, (x + w, y), length_1=small_box_thickness)
            draw_rect_box(img1, (x + w, y + h), length_1=small_box_thickness)
            draw_rect_box(img1, (x, y + h), length_1=small_box_thickness)
            draw_rect_box(img1, (int(x + 0.5 * w), int(y + 0.5 * h)), length_1=small_box_thickness)
            cv2.putText(img1, str(final_class[classify]), (x, y - 10), cv2.FONT_HERSHEY_SIMPLEX, label_fontScale,
                        (255, 0, 255), label_thickness)
        if key_point_is:
            # 依次获取每个关键点
            key_x = [float(i) for i in key_points[::3]]
            key_y = [float(i) for i in key_points[1::3]]
            key_v = [int(float(i)) for i in key_points[2::3]]
            index = 0
            key_point = zip(key_x, key_y)
            for p in key_point:
                cv2.circle(img, (int(p[0] * scale_x), int(p[1] * scale_y)), key_radius, key_color[key_v[index]],
                           thickness=key_thick,
                           lineType=cv2.LINE_AA)
                cv2.putText(img, str(index), (int(p[0] * scale_x - 5), int(p[1] * scale_y - 10)),
                            cv2.FONT_HERSHEY_SIMPLEX,
                            key_text_scale, key_text_color[key_v[index]], key_text_thick)
                index += 1
            key_points = None


# 回调函数，用于记录鼠标操作
def mouse_event(event, x, y, flag, param):
    global label, img, position, Mouse_move, label_index, label_index_pos, dot, Mouse_insert, draw_rectangle, \
        end_draw_rectangle, key_points, key_v, key_x, key_y, key_x, key_box, key_points_move, box_move, \
        key_insert, label_path, move_key_point
    scale_y, scale_x, _ = img.shape
    # 鼠标如果位于8个点左右，即通过position记录当前位置，通过主函数在鼠标附近绘制空心圈
    # 通过label_index记录鼠标选择了第几个框，通过label_index_pos记录该框第几个点被选中了
    with open(la_path) as f:
        label = f.readlines()
    if move_key_point is None and key_insert is None and Mouse_insert is None and empty_label is None and event == cv2.EVENT_MOUSEMOVE and img is not None and label is not None and \
            Mouse_move is None:
        for i, la in enumerate(label):
            la = la.strip('\n').split(' ')
            if key_point_is:
                key_points = list(map(float, la))[5:]
            la = list(map(float, la))[0:5]
            x1, y1 = int((la[1] - la[3] / 2) * scale_x), int((la[2] - la[4] / 2) * scale_y)
            x2, y2 = x1 + int(la[3] * scale_x), y1 + int(la[4] * scale_y)
            # 这里判断鼠标放到了哪个点上，方便后面移动的时候做计算
            if distance((x, y), (x1, y1)):
                label_index_pos = 0
                position = (x, y)
                label_index = i
                box_move = True
                key_points_move = None
                break
            elif distance((x, y), (x2, y2)):
                label_index_pos = 1
                position = (x, y)
                label_index = i
                box_move = True
                key_points_move = None
                break
            elif distance((x, y), (x1, int(0.5 * y1 + 0.5 * y2))):
                label_index_pos = 2
                position = (x, y)
                label_index = i
                box_move = True
                key_points_move = None
                break
            elif distance((x, y), (int((x1 + x2) / 2), y2)):
                label_index_pos = 3
                position = (x, y)
                label_index = i
                box_move = True
                key_points_move = None
                break
            elif distance((x, y), (int((x1 + x2) / 2), y1)):
                label_index_pos = 4
                position = (x, y)
                label_index = i
                box_move = True
                key_points_move = None
                break
            elif distance((x, y), (x2, int(0.5 * y1 + 0.5 * y2))):
                label_index_pos = 5
                position = (x, y)
                label_index = i
                box_move = True
                key_points_move = None
                break
            elif distance((x, y), (x1, y2)):
                label_index_pos = 6
                position = (x, y)
                label_index = i
                box_move = True
                key_points_move = None
                break
            elif distance((x, y), (x2, y1)):
                label_index_pos = 7
                position = (x, y)
                label_index = i
                box_move = True
                key_points_move = None
                break
            elif distance((x, y), ((x1 + x2) / 2, (y1 + y2) / 2)):
                # 框中心
                label_index_pos = 8
                position = (x, y)
                label_index = i
                box_move = True
                key_points_move = None
                break
            else:
                label_index_pos = None
                position = None
                label_index = None
            if key_point_is:
                # 判断鼠标是不是放到了关键点上
                key_x = [float(i) for i in key_points[::3]]
                key_y = [float(i) for i in key_points[1::3]]
                key_v = [float(i) for i in key_points[2::3]]  # 能见度
                if len(key_x) == len(key_v) and len(key_x) == len(key_y):
                    for index, key_ in enumerate(key_x):
                        if distance((x, y), (int(key_ * scale_x), int(key_y[index] * scale_y))):
                            position = (x, y)
                            label_index, label_index_pos = i, index
                            key_box = la
                            key_points_move = True
                            box_move = None
                            break

    #  这里到下一个注释都是为了移动已有的框做准备
    if position is not None and event == cv2.EVENT_LBUTTONDOWN:
        Mouse_move = True
        position = None

    # 首先判断鼠标选择了该框的第几个点，然后移动鼠标的时候只负责移动该点
    if Mouse_move and box_move:
        # 先把要移动的框的标签记录下来，然后删除，添加到末尾，不断修改末尾标签来达到移动框的目的
        # temp_label用来记录标签
        temp_label = label[label_index]
        label.pop(label_index)
        temp_label = temp_label.strip('\n').split(' ')
        temp_label = [float(i) for i in temp_label]
        x_1, y_1 = (temp_label[1] - 0.5 * temp_label[3]), (temp_label[2] - 0.5 * temp_label[4])
        x_2, y_2 = x_1 + temp_label[3], y_1 + temp_label[4]
        # 判断移动的是8个点中的哪个
        if label_index_pos == 0:
            x_1, y_1 = x / scale_x, y / scale_y
        elif label_index_pos == 1:
            x_2, y_2 = x / scale_x, y / scale_y
        elif label_index_pos == 2:
            x_1 = x / scale_x
        elif label_index_pos == 3:
            y_2 = y / scale_y
        elif label_index_pos == 4:
            y_1 = y / scale_y
        elif label_index_pos == 5:
            x_2 = x / scale_x
        elif label_index_pos == 6:
            x_1, y_2 = x / scale_x, y / scale_y
        elif label_index_pos == 7:
            y_1, x_2 = y / scale_y, x / scale_x
        elif label_index_pos == 8:
            x_1, y_1 = x / scale_x - (abs(temp_label[3]) / 2), y / scale_y - (abs(temp_label[4]) / 2)
            x_2, y_2 = x / scale_x + (abs(temp_label[3]) / 2), y / scale_y + (abs(temp_label[4]) / 2)
        # 把移动后的点信息保存下来添加到标签中，以此形成动态绘制一个框的效果
        temp_label[0], temp_label[1], temp_label[2], temp_label[3], temp_label[4] = str(
            round((int(temp_label[0])), dot)), \
            str(round(((x_1 + x_2) * 0.5), dot)), str(round(((y_1 + y_2) * 0.5), dot)), str(
            round((abs(x_1 - x_2)), dot)), str(round((abs(y_1 - y_2)), dot))
        temp_label = [str(i) for i in temp_label]
        str_temp = ' '.join(temp_label) + '\n'
        label.append(str_temp)
        label_index = len(label) - 1
    elif Mouse_move and key_points_move:
        label.pop(label_index)
        key_x[label_index_pos] = round(x / scale_x, dot)
        key_y[label_index_pos] = round(y / scale_y, dot)
        key_box[0] = int(key_box[0])
        str_temp = ' '.join([str(j) for j in key_box])
        for index, kx in enumerate(key_x):
            str_temp += ' ' + str(kx) + ' ' + str(key_y[index]) + ' ' + str(int(key_v[index]))
        label.append(str_temp)
        label_index = len(label) - 1

    if Mouse_move and event == cv2.EVENT_LBUTTONUP:
        flag_init()

    # 这里是为了删除框
    if key_point_is is None and Mouse_insert is None and position is not None and event == cv2.EVENT_LBUTTONDBLCLK and Mouse_move is None:
        Mouse_insert = label_index

    if key_point_is and event == cv2.EVENT_LBUTTONDBLCLK and Mouse_move is None and key_points_move and box_move is None:
        key_insert = label_index_pos

    if key_point_is and event == cv2.EVENT_LBUTTONDBLCLK and Mouse_insert is None and key_insert is None and position is None:
        move_key_point = (x, y)

    # 这里是为了增加新的框
    if key_point_is is None and Mouse_insert is None and position is None and Mouse_move is None and event == cv2.EVENT_LBUTTONDOWN and end_draw_rectangle is None:
        draw_rectangle = [(x, y), (x, y)]

    # 如果鼠标左键一直没有松开，则不断更新第二个点的位置
    elif Mouse_insert is None and draw_rectangle is not None and event == cv2.EVENT_MOUSEMOVE and end_draw_rectangle is None:
        draw_rectangle[1] = (x, y)

    # 鼠标松开了，最后记录松开时鼠标的位置，现在则记录了开始和松开鼠标的两个位置
    # 如果两个位置太近，则不添加
    elif Mouse_insert is None and draw_rectangle is not None and event == cv2.EVENT_LBUTTONUP:
        if end_draw_rectangle is None:
            draw_rectangle[1] = (x, y)
        if not distance(draw_rectangle[0], draw_rectangle[1]):
            end_draw_rectangle = True
        else:
            draw_rectangle = None


def create_file_key(img_path, label_path):
    empty_la = None
    if not os.path.exists(label_path):
        with open(label_path, 'w') as f:
            pass
        empty_la = True
    with open(label_path) as f:
        label_ = f.readlines()
    if len(label_) == 0 or label_[0] == '\n':
        empty_la = True
    img_s = img_read(img_path, 950)  # 950调整图像的大小
    if key_point_is and empty_la:
        box_create = '0 0.5 0.5 0.3 0.3 '
        len_t = img_s.shape[1] // key_point_num
        key_num_x = [str(round((i * len_t + 20) / img_s.shape[1], dot)) + ' ' + str(0.5) + ' ' + '2' for i in
                     range(key_point_num)]
        with open(label_path, 'w') as f:
            f.write(box_create + ' '.join(key_num_x))


def main(img_path, label_path):
    global img, position, label, Mouse_insert, draw_rectangle, end_draw_rectangle, append_str_temp, empty_label, \
        Mouse_move, dot, box_move, key_insert, key_point_one, key_point_two, key_x, key_y, key_v, \
        move_key_point, append_new_key_point, append_new_key_point_index, window_w, window_h
    # 判断本地是否存在文件，或者文件中是否为空或者存在一个换行符，就先把标签删除，添加'0 0 0 0 0\n'
    # 如果不预先添加一个处理起来有点麻烦，这里就先加一个，然后后面删掉就行了
    if not os.path.exists(label_path):
        empty_label = True
        with open(label_path, 'w') as f:
            pass
    with open(label_path) as f:
        label = f.readlines()
    if len(label) == 0 or label[0] == '\n':
        empty_label = True
    # 这里的2是将原图缩小为2分之一
    img_s = img_read(img_path, 900)
    if key_point_is and empty_label:
        box_create = '0 0.5 0.5 0.3 0.3 '
        len_t = img_s.shape[1] // key_point_num
        key_num_x = [str(round((i * len_t + 20) / img_s.shape[1], dot)) + ' ' + str(0.5) + ' ' + '2' for i in
                     range(key_point_num)]
        with open(label_path, 'w') as f:
            f.write(box_create + ' '.join(key_num_x))
            label = box_create + ' '.join(key_num_x)
    # 创建回调函数，绑定窗口
    cv2.namedWindow('image', cv2.WINDOW_NORMAL)
    _, _, window_w, window_h = cv2.getWindowImageRect('image')
    cv2.resizeWindow('image', img_s.shape[1], img_s.shape[0])
    cv2.setMouseCallback('image', mouse_event)
    # 刷新图像的地方
    while True:
        # 首先读取下标签，用来初始化显示
        with open(label_path, 'w') as f:
            for i in label:
                f.write(i)
        # 如果鼠标选中了框的8个点之一，就在鼠标周围绘制空心圈
        if Mouse_insert is None and draw_rectangle is None and position is not None and key_insert is None:
            img = img_s.copy()
            label_show(img, label_path, Mouse_insert)
            cv2.circle(img, position, 10, (0, 255, 100), 2)
        # 如果选择开始增加新的框，则不断绘制鼠标起始点和移动过程之间形成的框
        elif draw_rectangle is not None and end_draw_rectangle is None:
            img = img_s.copy()
            label_show(img, label_path, Mouse_insert)
            cv2.rectangle(img, draw_rectangle[0], draw_rectangle[1], color=box_color[1], thickness=2)
        # 当松开鼠标后，记录两点位置，并提示选择类别
        elif draw_rectangle is not None and end_draw_rectangle:
            scale_y, scale_x, _ = img.shape
            x1, y1 = draw_rectangle[0]
            x2, y2 = draw_rectangle[1]
            w1, h1 = abs(x2 - x1), abs(y2 - y1)
            append_str_temp = str(round((x1 + x2) / 2 / scale_x, dot)) + ' ' + str(
                round((y1 + y2) / 2 / scale_y, dot)) + ' ' + \
                              str(round((w1 / scale_x), dot)) + ' ' + str(round((h1 / scale_y), dot)) + '\n'
            cv2.putText(img, 'choose your classify', (0, img.shape[0] // 2 - 30),
                        cv2.FONT_HERSHEY_SIMPLEX,
                        0.7, (255, 0, 255), 2)
            cv2.putText(img, ' '.join([str(i) + ':' + my_cls[i] for i in my_cls]), (0, img.shape[0] // 2 + 30),
                        cv2.FONT_HERSHEY_SIMPLEX,
                        0.7, (100, 255, 255), 2)
        elif key_insert is not None:
            position, Mouse_move, box_move = None, None, None  # 禁用其他操作
            cv2.putText(img, 'Switching visibility: 0     1    2', (0, img.shape[0] // 2 - 30),
                        cv2.FONT_HERSHEY_SIMPLEX,
                        1, (100, 255, 255), 2,
                        lineType=cv2.LINE_AA)
        elif move_key_point is not None:
            position, Mouse_move, box_move = None, None, None  # 禁用其他操作
            cv2.putText(img, 'choose point: 0 - {}'.format(key_point_num - 1), (0, img.shape[0] // 2 - 30),
                        cv2.FONT_HERSHEY_SIMPLEX,
                        1, (100, 255, 255), 2,
                        lineType=cv2.LINE_AA)
        # 如果什么标志都没有，就正常显示一个图
        else:
            img = img_s.copy()
            if Mouse_insert is not None:
                position, Mouse_move = None, None
                cv2.putText(img, 'delete: W, exit: E', (0, img.shape[0] // 2 - 30),
                            cv2.FONT_HERSHEY_SIMPLEX,
                            1, (100, 255, 255), 2,
                            lineType=cv2.LINE_AA)
            label_show(img, label_path, Mouse_insert)
        cv2.imshow('image', img)

        # key用来获取键盘输入
        key = cv2.waitKey(10)
        # 输入为Q则退出
        if key == ord('Q'):
            append_new_key_point = None
            # 退出按键
            break
        if move_key_point is not None and key_point_one is None and 48 <= key <= 57:
            key_point_one = int(chr(key))
            key = 0
        if move_key_point is not None and key_point_two is None and 48 <= key <= 57:
            key_point_two = int(chr(key))
            key = 0
        if (move_key_point is not None) and (key_point_one is not None) and (key_point_two is not None):
            with open(la_path) as f:
                label = f.readlines()
            for i, la in enumerate(label):
                la = la.strip('\n').split(' ')
                key_points_ = list(map(float, la))[5:]
                key_box_ = list(map(float, la))[0:5]
                key_x_ = [float(i) for i in key_points_[::3]]
                key_y_ = [float(i) for i in key_points_[1::3]]
                key_v_ = [float(i) for i in key_points_[2::3]]  # 能见度
                key_box_[0] = int(key_box_[0])
                index_ = key_point_one * 10 + key_point_two
                if index_ >= key_point_num:
                    break
                key_x_[index_] = round(move_key_point[0] / img.shape[1], dot)
                key_y_[index_] = round(move_key_point[1] / img.shape[0], dot)
                str_temp = ' '.join([str(j) for j in key_box_])
                for index, kx in enumerate(key_x_):
                    str_temp += ' ' + str(kx) + ' ' + str(key_y_[index]) + ' ' + str(int(key_v_[index]))
                    label = str_temp
                with open(la_path, 'w') as f:
                    f.write(str_temp)
                move_key_point, key_point_one, key_point_two = None, None, None
                break
            move_key_point, key_point_one, key_point_two = None, None, None
        # 如果按键输入为W则删除选中的框
        if Mouse_insert is not None and key == ord('W'):
            label.pop(Mouse_insert)
            Mouse_insert = None
        elif key_insert is not None and key == ord('0'):
            with open(label_path, 'r') as f:
                label_temp = f.read()
                str_temp = label_temp.split(' ')
                str_temp[3 * int(key_insert) + 7] = '0'
                str_temp[3 * int(key_insert) + 7 - 1] = '0'
                str_temp[3 * int(key_insert) + 7 - 2] = '0'
            with open(label_path, 'w') as f:
                f.write(' '.join(str_temp))
                label = ' '.join(str_temp)
                key_insert = None
        elif key_insert is not None and key == ord('1'):
            with open(label_path, 'r') as f:
                label_temp = f.read()
                str_temp = label_temp.split(' ')
                str_temp[3 * int(key_insert) + 7] = '1'
            with open(label_path, 'w') as f:
                f.write(' '.join(str_temp))
                label = ' '.join(str_temp)
                key_insert = None
        elif key_insert is not None and key == ord('2'):
            with open(label_path, 'r') as f:
                label_temp = f.read()
                str_temp = label_temp.split(' ')
                str_temp[3 * int(key_insert) + 7] = '2'
            with open(label_path, 'w') as f:
                f.write(' '.join(str_temp))
                label = ' '.join(str_temp)
                key_insert = None
        # 如果输入为E则从选中框的状态退出
        elif key == ord('E'):
            Mouse_insert = None
        # 通过键盘获取输入的类别
        elif Mouse_move is None and Mouse_insert is None and draw_rectangle is not None and end_draw_rectangle is not None \
                and 48 <= key <= 57:
            str_temp = str(chr(key)) + ' ' + append_str_temp
            label.append(str_temp)
            append_str_temp, draw_rectangle, end_draw_rectangle, empty_label = None, None, None, None
        elif key == ord('R'):
            flag_init()
            append_new_key_point = True
            break
        elif key == ord('T'):
            exit(0)


def delete_line_feed(label_path):
    # 去掉最后一行的换行符'\n'，保存的时候需要
    if os.path.exists(label_path):
        with open(label_path) as f:
            label_ = f.read()
        label_ = label_.rstrip('\n')
        with open(label_path, 'w') as f:
            f.write(label_)


def append__line_feed(label_path):
    # 加上最后一行的换行符'\n'，标注的时候增加新的框的时候需要
    with open(label_path) as f:
        label_ = f.read()
    if len(label_) < 4:
        with open(label_path, 'w') as f:
            pass
        return
    label_ = label_.rstrip('\n') + '\n'
    with open(label_path, 'w') as f:
        f.write(label_)


def key_check(label_path):
    # 检查开启关键点之后本地标签是否满足要求, 如果本地标签中和预设关键点数不等以及关键点数量不是3的倍数都会将原有标签重置
    if os.path.exists(label_path):
        with open(label_path) as f:
            label_ = f.readlines()
        for label_ in label_:
            label_ = label_.strip('\n').split(' ')
            if ((len(label_) - 5) % 3) or ((len(label_) - 5) // 3 - key_point_num):
                with open(label_path, 'w') as f:
                    pass


def label_check(label_path):
    # 检查普通标签,判断每行是包含5个数值
    if os.path.exists(label_path):
        with open(label_path) as f:
            label_ = f.readlines()
        for i in label_:
            i = i.strip('\n').split(' ')
            if len(i) - 5 != 0:
                with open(label_path, 'w') as f:
                    pass


def merge_file_key(la_path, index):
    with open(la_path) as f:
        text = f.read().strip('\n')
    for i in range(index):
        with open(la_path.split('.')[0] + str(i) + '.txt') as f:
            text += '\n' + f.read().strip('\n')
        os.remove(la_path.split('.')[0] + str(i) + '.txt')
    with open(la_path, 'w') as f:
        f.write(text)


if __name__ == '__main__':
    image_ = os.listdir(image_path)
    for im in image_:
        flag_init()
        im_path = os.path.join(image_path, im)
        la_path = os.path.join(label_path, im.split('.')[0] + '.txt')
        if key_point_is:
            key_check(la_path)  # 检查本地标签的关键点数量是否和预设的关键点数量相等，以及去除框的5点后点数是否满足为3的倍数
            create_file_key(im_path, la_path)
        else:
            delete_line_feed(la_path)
            label_check(la_path)
        if os.path.exists(la_path):
            # 先增加一个换行符为了后面的增加框的操作
            append__line_feed(la_path)
        while True:
            main(im_path, la_path)
            if append_new_key_point is None:
                break
            else:
                la_path = os.path.join(label_path, im.split('.')[0] + str(append_new_key_point_index) + '.txt')
                with open(la_path, 'w') as f:
                    pass
                if key_point_is:
                    key_check(la_path)  # 检查本地标签的关键点数量是否和预设的关键点数量相等，以及去除框的5点后点数是否满足为3的倍数
                    create_file_key(im_path, la_path)
                else:
                    delete_line_feed(la_path)
                    label_check(la_path)
                append_new_key_point_index += 1
        if append_new_key_point_index != 0:
            merge_file_key(os.path.join(label_path, im.split('.')[0] + '.txt'), append_new_key_point_index)
            append_new_key_point_index = 0
        if os.path.exists(la_path):
            # 去掉最后一行的换行符
            delete_line_feed(la_path)

你可能感兴趣的:(YOLO,计算机视觉,opencv,目标检测)

opencv 自适应阈值虚假程序设计 opencv 人工智能计算机视觉
需要安装扩展库opencv-contrib-pythonCV_class.pyimportcv2importnumpyasnp#importserialimportos,sysfromdatetimeimportdatetimeimport_threadimportthreadingimporttimeimportwin32ui#只有windows能用.#fromCV_classimport*de
OpenCV开源机器视觉软件视觉人机器视觉杂说 opencv 开源人工智能
OpenCV（OpenSourceComputerVisionLibrary）是一个开源的计算机视觉和机器学习软件库，广泛应用于实时图像处理、视频分析、物体检测、人脸识别等领域。它由英特尔实验室于1999年发起，现已成为计算机视觉领域最流行的工具之一，支持多种编程语言（如C++、Python、Java）和操作系统（Windows、Linux、macOS、Android、iOS）。核心功能图像处理基
大模型专栏博文汇总和索引 Donvink 大模型 transformer 深度学习人工智能语言模型
大模型专栏主要是汇总了我在学习大模型相关技术期间所做的一些总结和笔记，主要包括以下几个子专栏：DeepSeek-R1AIGC大模型实践Transformer多模态系统视频理解对比学习目标检测目标跟踪图神经网络大模型专栏汇总了以上所有子专栏的论文，目前暂时先按照不同的技术领域划分子专栏，子专栏之间的内容可能会有交集，不完全是独立的。为了方便查阅相关模块的内容，故以此文章进行汇总与索引。一、DeepS
【openCV-89】人脸检测华东算法王华东算法王-opencv opencv 人工智能计算机视觉
人脸检测简介人脸检测是计算机视觉中的一个重要任务，旨在从图像或视频中识别并定位出人脸的位置。人脸检测不仅是人脸识别、表情分析、面部特征点检测等高级任务的前置步骤，而且在安防监控、智能家居、自动驾驶等多个领域都具有广泛应用。人脸检测的目标人脸检测的目标是从输入的图像或视频流中自动检测出所有人脸的区域，通常用矩形框（boundingbox）表示人脸的位置。人脸检测不仅要识别图像中的人脸，还要在各种条件
YOLOv11改进 | 检测头改进篇 | 利用ASFF改进YOLOv11检测头，自适应空间特征融合模块，在所有的目标检测上均有大幅度的涨点效果 Ai缝合怪YOLO涨点改进 YOLO 目标检测计算机视觉深度学习 YOLOv11 YOLOv8 YOLOv10
YOLOv8v10v11专栏限时199元订阅链接:限时199元去b站关注：AI缝合怪订阅YOLOv8v10v11创新改进高效涨点+持续改进500多篇（订阅的小伙伴，终身免费享有后续YOLOv12或是其他版本的改进专栏）目录一、ASFF模块介绍ASFF网络结构图：ASFF的创新点主要包括：作用原理优势二、核心代码三、手把手教你添加v11Detect_ASFFHead检测头模块1.首先在ultraly
ASFF改进YOLOv8检测头：提升目标检测精度与效率的创新方法【YOLOv8】步入烟尘 YOLO系列创新涨点超专栏 YOLO 目标检测目标跟踪 ASFF YOLOv8
本专栏专为AI视觉领域的爱好者和从业者打造。涵盖分类、检测、分割、追踪等多项技术，带你从入门到精通！后续更有实战项目，助你轻松应对面试挑战！立即订阅，开启你的YOLOv8之旅！专栏订阅地址：https://blog.csdn.net/mrdeam/category_12804295.html文章目录ASFF改进YOLOv8检测头：提升目标检测精度与效率的创新方法【YOLOv8】1.背景介绍1.1Y
AWS Security Finding Format (ASFF) 与 yolov3 with mobilenet v2 的集成教程侯忱励
AWSSecurityFindingFormat(ASFF)与yolov3withmobilenetv2的集成教程ASFFyolov3withmobilenetv2andASFF项目地址:https://gitcode.com/gh_mirrors/as/ASFF1.项目介绍ASFF，全称是AWSSecurityFindingFormat，是由AWS设计的一种标准安全发现格式，用于在Securit
实现红外触感按键扫描函数平凡灵感码头 stm32项目实现 stm32
函数目标检测GPIOC第8号引脚的电平状态（假设低电平触发），实现按键消抖和状态锁定，返回键值5表示按键被按下，未按下时返回0xff。代码逐行解析1.变量定义u8ir_value=0xff;//默认返回未按下状态（0xff）staticu8ir_flag=1;//状态锁存标志，初始为1（允许检测）ir_value：存储按键返回值，初始化0xff表示未按下。ir_flag：静态变量（保持状态跨函数调
基于MPDIoU与InnerMPDIoU的YOLOv8细节捕捉能力优化探讨向哆哆 YOLO创新涨点系列 YOLO 目标跟踪人工智能 yolov8
文章目录一、损失函数在YOLO中的作用二、MPDIoU：Multi-partDistanceIntersectionoverUnionMPDIoU的基本概念MPDIoU公式MPDIoU代码实现解释三、InnerMPDIoU：InnerMulti-partDistanceIoUInnerMPDIoU的基本概念InnerMPDIoU公式InnerMPDIoU代码实现解释五、MPDIoU与InnerMP
yolo格式 ZHOU_WUYI ultralytics YOLO 人工智能
目录yolo格式yolo格式与coco格式的区别1.数据结构2.标注内容3.文件格式4.扩展性5.应用场景总结：yolo格式YOLO（YouOnlyLookOnce）格式通常用于目标检测任务中的标注数据格式。YOLO的标注格式包括每个目标的类别和其在图像中的位置（boundingbox）。YOLO格式的标注文件是一个文本文件，每一行表示一个目标，内容包括目标类别的编号和该目标在图像中的位置（相对于
【保姆级视频教程（二）】YOLOv12训练数据集构建：标签格式转换-划分-YAML 配置避坑指南 | 小白也能轻松玩转目标检测！一只云卷云舒 YOLOv12保姆级通关教程 YOLO 目标检测人工智能 Ultralytics 数据集 YOLOv12 小白教程
【2025全站首发】YOLOv12训练数据集构建：标签格式转换-划分-YAML配置避坑指南|小白也能轻松玩转目标检测！文章目录1.数据集准备1.1标签格式转换1.2数据集划分1.3yaml配置文件创建2.训练验证1.数据集准备示例数据集下载链接：PKU-Market-PCB数据集1.1标签格式转换cursorprompt请撰写一个py脚本。将@Annotations文件夹下的所有类别的xml格式的
DCMNet一种用于目标检测的轻量级骨干结构模型详解及代码复现清风AI 深度学习算法详解及代码复现深度学习机器学习计算机视觉人工智能算法目标检测
模型背景在深度学习技术快速发展的背景下，目标检测领域取得了显著进展。早期的手工特征提取方法如Viola-Jones和HOG逐渐被卷积神经网络（CNN）取代，其中AlexNet在2012年的ILSVRC比赛中表现突出，推动了CNN在计算机视觉中的广泛应用。然而，这些早期模型在精度和效率方面仍存在不足，尤其是在处理复杂场景和小目标时表现不佳。这为DCMNet等新型轻量化目标检测模型的出现提供了契机，旨
YOLOv11-ultralytics-8.3.67部分代码阅读笔记-results.py 红色的山茶花 YOLO 笔记深度学习
results.pyultralytics\engine\results.py目录results.py1.所需的库和模块2.classBaseTensor(SimpleClass):3.classResults(SimpleClass):4.classBoxes(BaseTensor):5.classMasks(BaseTensor):6.classKeypoints(BaseTensor):7.
DeepSeek全栈接入指南：从零到生产环境的深度实践量子纠缠BUG DeepSeek部署 AI DeepSeek 人工智能深度学习机器学习
第一章：DeepSeek技术体系全景解析1.1认知DeepSeek技术生态DeepSeek作为新一代人工智能技术平台，构建了覆盖算法开发、模型训练、服务部署的全链路技术栈。其核心能力体现在：1.1.1多模态智能引擎自然语言处理：支持文本生成（NLG）、语义理解（NLU）、情感分析等计算机视觉：提供图像分类、目标检测、OCR识别等CV能力语音交互：包含语音识别（ASR）、语音合成（TTS）及声纹识别
在 Centos7 上部署 ASP.NET 8.0 + YOLOv11 的踩坑实录 Rverdoser asp.net YOLO 后端
在CentOS7上部署ASP.NET8.0应用（实际上截至目前最新的稳定版本是ASP.NETCore6，ASP.NET8.0目前并不存在，可能是指ASP.NETCore8.0，但考虑到您的问题，我将假定您指的是ASP.NETCore6）并结合YOLOv11模型进行图像识别，确实会遇到一些技术挑战。下面我将分步骤介绍如何配置环境、安装必要的组件以及解决可能遇到的问题。步骤1:安装.NETCore首先
【CodeBlocks】搭建OpenCV环境指南万众珩
【CodeBlocks】搭建OpenCV环境指南CodeBlocks搭建OpenCV环境项目地址:https://gitcode.com/Resource-Bundle-Collection/e1e1a本资源提供了详细的教程，帮助您在CodeBlocks集成开发环境中顺利搭建OpenCV环境。OpenCV是一个开源的计算机视觉和机器学习软件库，广泛应用于图像处理和视频分析领域。通过这篇指南，即便是
注意力机制（Attention Mechanism）详细分类与介绍 Jason_Orton 分类数据挖掘人工智能
注意力机制（AttentionMechanism）是近年来在深度学习中非常流行的一种技术，特别是在自然语言处理（NLP）、计算机视觉等任务中，具有显著的效果。它的核心思想是模仿人类在处理信息时的注意力分配方式，根据不同部分的重要性给予不同的关注程度。1.注意力机制的背景与动机在传统的深度学习模型（如RNN、CNN等）中，信息处理通常是按照固定的规则和结构进行的，模型对输入的各个部分给予相同的关注。
VIT（Vision Transformer）【超详细 pytorch实现周玄九计算机视觉 transformer 深度学习人工智能
CNN的局限性：传统的CNN通过局部卷积核提取特征，虽然可以通过堆叠多层卷积扩大感受野，但仍然依赖于局部信息的逐步聚合，难以直接建模全局依赖关系。ViT的优势：ViT使用自注意力机制（Self-Attention），能够直接捕捉图像中所有patch（图像块）之间的全局关系。这种全局建模能力在处理需要长距离依赖的任务（如图像分类、目标检测）时表现更好。全流程图像预处理+分块图像尺寸标准化，如(224
VS C++通过路径遍历文件夹图片并生成xml文件并调用贫僧这就还俗、 c++xml
记录一下(每次用到的时候还得去找...)：网上c++生成xml的方法有很多，这里简单介绍以下opencv自带的FileStorage函数使用方法，1、生成xml文件：#include#includeusingnamespacecv;usingnamespacestd;voidimg_save_xml(Stringimg_path,Stringxml_name){FileStoragefile_st
模式识别课程设计：人脸识别背景与问题引入之问题描述 XLYcmy 模式识别网络安全人工智能课程设计模式识别人脸识别 PCA LLM
1.2问题描述通过之前的背景介绍可以知道人脸识别技术作为计算机视觉和模式识别领域的重要研究方向，已广泛应用于身份验证、安全监控、智能家居等多个领域。随着计算机硬件性能的不断提升和深度学习技术的成熟，人脸识别的精度和应用场景不断扩展。本研究设计了一种基于主成分分析（PCA）[7]和K-L变换的人脸识别系统，利用ORL人脸数据库作为数据源，对输入的人脸图像进行识别，并输出与其特征最相似的人脸。该系统的
Accord.NET框架功能介绍绀目澄清 Accord.NET Accord.NET
机器学习组件Accord.NET框架功能介绍1.基本功能与介绍Accord.NET为.NET应用程序提供了统计分析、机器学习、图像处理、计算机视觉相关的算法。Accord.NET框架扩展了AForge.NET框架，提供了一些新功能。同时为.NET环境下的科学计算提供了一个完整的开发环境。该框架被分成了多个程序集，可以直接从官网下载安装文件或者使用NuGet得到。可以参考以下链接:https://g
基于matlab的帧间差法进行视频目标检测系统挂科边缘 MATLAB项目实战 matlab 人工智能计算机视觉
文章目录前言一、理论基础1.帧间差分法2.背景差分法3.光流法二、程序实现总结源码下载前言运动目标自动检测是对运动目标进行检测、提取、识别和跟踪的技术。基于视频序列的运动目标检测，一直以来都是机器视觉、智能监控系统、视频跟踪系统等领域的研究重点，是整个计算机视觉的研究难点之一。运动目标检测的结果正确性对后续的图像处理、图像理解等工作的顺利开展具有决定性的作用，所以能否将运动物体从视频序列中准确地检
计算机视觉：经典数据格式(VOC、YOLO、COCO)解析与转换(附代码) 全栈你个大西瓜人工智能计算机视觉 YOLO 目标跟踪人工智能数据标注目标检测 COCO
第一章：计算机视觉中图像的基础认知第二章：计算机视觉：卷积神经网络(CNN)基本概念(一)第三章：计算机视觉：卷积神经网络(CNN)基本概念(二)第四章：搭建一个经典的LeNet5神经网络(附代码)第五章：计算机视觉：神经网络实战之手势识别(附代码)第六章：计算机视觉：目标检测从简单到容易(附代码)第七章：MTCNN人脸检测技术揭秘：原理、实现与实战(附代码)第八章：探索YOLO技术：目标检测的高
深度学习的前沿与挑战：从基础到最新进展 Jason_Orton 深度学习人工智能数据挖掘机器学习
目录引言什么是深度学习？深度学习的工作原理深度学习的关键技术1.卷积神经网络（CNN）2.循环神经网络（RNN）3.生成对抗网络（GAN）4.变分自编码器（VAE）5.自注意力机制与Transformer深度学习的应用1.计算机视觉2.自然语言处理（NLP）3.语音识别与合成4.推荐系统5.医学影像分析深度学习面临的挑战结语引言深度学习（DeepLearning）近年来成为人工智能领域的核心技术之
基于特征提取的方法实现对心室视频的追踪阿蛋会代码音视频 python 开发语言 opencv 目标检测计算机视觉
一、特征提取的方法本代码实现了一套基于计算机视觉的心脏运动定量分析系统，通过特征点追踪技术对超声心动图视频进行动态解析。核心技术采用ORB(OrientedFASTandRotatedBRIEF)特征检测算法，在每帧图像中提取具有旋转不变性的显著斑点特征，构建包含位置和方向信息的特征描述子。通过暴力匹配器(BFMatcher)进行跨帧特征点匹配，结合汉明距离阈值筛选出可信度高的空间对应点对。系统以
【openCV-66】内参矩阵和外参矩阵华东算法王华东算法王-opencv opencv 矩阵人工智能
外参矩阵与内参矩阵在计算机视觉、相机标定和三维重建等领域，内参矩阵和外参矩阵是描述相机如何将三维世界映射到二维图像的重要工具。它们分别描述了相机的内部特性和外部位置，是相机标定的核心组成部分。1.内参矩阵（IntrinsicMatrix）内参矩阵描述了相机内部的几何特性，主要涉及焦距、光心和像素的比例等参数。它通常是一个3x3的矩阵，用来将相机的归一化坐标系转换为像素坐标系。1.1内参矩阵的组成内
【目标检测JP】番茄植株叶片病害数据集4280张8类病害YOLO+VOC（含增强）不会仰游的河马君数据集目标检测 YOLO 番茄叶片病害
【目标检测JP】番茄植株叶片病害数据集4280张8类病害YOLO+VOC（含增强）数据集格式：VOC格式+YOLO格式压缩包内含：3个文件夹，分别存储图片、xml、txt文件JPEGImages文件夹中jpg图片总计：4280Annotations文件夹中xml文件总计：4280labels文件夹中txt文件总计：4280标签种类数：8标签名称:["BacterialSpot","EarlyBli
基于 YOLO 进行车道线检测与目标检测算法研究及开发的一般步骤 pk_xz123456 python 算法深度学习 YOLO 目标检测算法
基于深度学习的车道线检测与目标检测在自动驾驶等领域有着重要应用，使用YOLO（YouOnlyLookOnce）进行开发是一种常见且高效的方式。以下是关于基于YOLO进行车道线检测与目标检测算法研究及开发的一般步骤和相关内容：1.环境搭建首先确保你的开发环境安装了必要的软件和库，推荐使用Python语言，以下是一些关键库：PyTorch：YOLO通常基于PyTorch实现，安装适合你系统的PyTor
YOLO11的单独推理程序 AIOT魔法师 YOLOv5和YOLOv11 python 开发语言
YOLO11的单独推理程序，可以实例化加载一次多次推理。YOLO11的单独推理程序，可以实例化加载一次多次推理。YOLO11的单独推理程序，可以实例化加载一次多次推理。YOLO11的单独推理程序，可以实例化加载一次多次推理。YOLO11的单独推理程序，可以实例化加载一次多次推理。YOLO11的单独推理程序，可以实例化加载一次多次推理。importcv2importnumpyasnpimportra
YOLOv8、v9、v10、v11-Ultralytics框架加入C2f_Repghost AIOT魔法师 YOLOv5和YOLOv11 YOLO
1、创建一个RepGhost.py:importcopyimportnumpyasnpimporttorchimporttorch.nnasnnimporttorch.nn.functionalasFdef_make_divisible(v,div
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt

yolo-pose标注

目录

前言

支持的操作

普通标注下

关键点标注下

缺点

优点

标注 YOLO格式的数据集

加载本地标签，并标注

运行程序

切换到下一张图片

显示类别的框的颜色

显示类别的文本

对已有标签的修改

删除已有标签

新增标签

从0标注（本地没有标签）

标注 YOLO关键点检测格式的数据集

加载本地标签

从0标注（本地没有标签）

一个图中标注多个框和关键点

最终代码

你可能感兴趣的:(YOLO,计算机视觉,opencv,目标检测)