hello_dear_you

labelme目标检测数据类型转换

1. labelme数据类型

LabelMe是一个开源的在线图像标注工具，旨在帮助用户创建和标记图像数据集。它提供了一个用户友好的界面，让用户可以直观地在图像上绘制标记框、多边形、线条等，以标识和注释图像中的对象或区域。
GitHub：https://github.com/wkentaro/labelme

labelme格式

经过labelme标注工具对图像中的目标进行标注之后，可以得到如下的标注json文件。
在这里我们主要关注目标框的格式，其中shapes字段中包含所有的目标内容，每个目标框的位置信息可以通过points字段进行获取，是一个两行两列的二维数组，如同:

[
	[a,b],
	[c,d]
]

其中a,b代表左上角点位置，c,d表示右下角点位置，如下图所示。

目标框可视化

对于labelme格式的数据，可以直接使用labelme标注工具打开进行查看，同样这里也给出python的可视化代码，方便大家直接画图进行查看。


import numpy as np
import os
import cv2
import json

def display(img_path, bboxes, save_path,opencv=True):
    """_summary_

    Args:
        img_path (str): 图像路径
        bboxes (numpy): 二维数组,其中每一行表示一个目标框，顺序为(xmin, ymin, xmax, ymax)
        opencv (bool): 是否使用opencv
    """
    
    if opencv:
        color = (0, 0, 255)
        img_data = cv2.imread(img_path)
        for box in bboxes:
            xmin, ymin, xmax, ymax = np.array(box, dtype=np.int32)
            cv2.rectangle(img_data, (xmin, ymin), (xmax, ymax),color, 2)
        cv2.imwrite(save_path, img_data)
    else:
        from PIL import Image, ImageDraw
        color = (255, 0, 0)
        img_data = Image.open(img_path).convert("RGB")
        
        draw = ImageDraw.Draw(img_data)
        for box in bboxes:
            xmin, ymin, xmax, ymax = np.array(box, dtype=np.int32)
            draw.rectangle([xmin, ymin, xmax, ymax], outline=color)
        img_data.save(save_path)
        
        
def vis_labelme(img_root, json_root, save_root):
    """_summary_

    Args:
        img_root (str): 图像数据的主路径
        json_root (str): 标签数据的主路径
        save_root (str): 可视化图像保存路径
    """
    from pathlib import Path
    
    json_files = Path(json_root).glob("./*.json")
    
    for json_path in json_files:
        anno= json.load(open(str(json_path), "r", encoding="utf-8"))
        shapes = anno['shapes']
        
        name = json_path.stem
        
        img_path = Path(img_root) / f"{name}.jpg"
        if img_path.is_file():
            bboxes = list()
            for s in shapes:
                pts = s['points']
                x1, y1 = pts[0]
                x2, y2 = pts[1]
                bboxes.append([x1, y1, x2, y2])
            save_path = os.path.join(save_root, img_path.name)
            display(str(img_path), bboxes, save_path)
            

if __name__ == "__main__":
    img_root = "labelme"
    json_root = "labelme"
    save_root = "vis_labelme"
    vis_labelme(img_root, json_root, save_root)

2. 与yolo之间的转换

YOLO（You Only Look Once）是一种流行的目标检测算法，其特点是能够实时地识别图像中的目标物体。YOLO格式是指用于标注目标检测数据集的标签格式。

在YOLO格式中，每个图像的标签数据通常存储在一个单独的文本文件中，与图像文件具有相同的名称。

yolo格式

每个标签文件包含一行或多行文本，每行描述一个目标物体的位置和类别。每行的格式如下：

表示目标物体的类别，通常是一个整数。例如，如果数据集包含车辆、行人和自行车三个类别，可以用0表示车辆，1表示行人，2表示自行车。
和是目标物体边界框的中心坐标，相对于图像的宽度和高度。这些值的范围是0到1之间，表示相对位置。
和是目标物体边界框的宽度和高度，相对于图像的宽度和高度。同样，这些值的范围也是0到1之间。

例如，假设我们有一个图像中包含一辆车的标签数据，车辆在图像中的位置为（100，200），宽度为50，高度为30。如果图像的宽度是500，高度是400，那么对应的YOLO格式标签数据将是：

0 0.25 0.5 0.1 0.075

使用YOLO格式的标签数据可以方便地与YOLO模型进行训练和推断，从而实现目标检测任务。

labelme转yolo

以下是labelme转换yolo格式的脚本，需要制定labelme和yolo数据集的主路径，此外还需要一个数据集类别的txt文件。

import os
import json
import shutil
import numpy as np
from pathlib import Path


def get_categories(cls_path):
    assert(os.path.exists(cls_path)), f"cannot find classes file"

    with open(cls_path) as f:
        data = f.readlines()
    name2idx = dict()
    for idx, cls in enumerate(data):
        name2idx[cls.strip()] = idx
    
    return name2idx

def labelme2yolo_single(label_file, cls2id):
    anno= json.load(open(label_file, "r", encoding="utf-8"))
    shapes = anno['shapes']
    w0, h0 = anno['imageWidth'], anno['imageHeight']
    image_path = os.path.basename(anno['imagePath'])
    labels = []
    for s in shapes:
        pts = s['points']
        x1, y1 = pts[0]
        x2, y2 = pts[1]
        x = (x1 + x2) / 2 / w0 
        y = (y1 + y2) / 2 / h0
        w  = abs(x2 - x1) / w0
        h  = abs(y2 - y1) / h0
        cid = cls2id[s['label']]        
        labels.append([cid, x, y, w, h])
    return labels, image_path
 
def labelme2yolo(labelme_dir, yolo_dir, cls_path):
    labelme_img_dir = Path(labelme_dir) 
    labelme_label_dir = Path(labelme_dir)
    
    
    yolo_img_dir = Path(yolo_dir) / "images/"
    yolo_label_dir = Path(yolo_dir) / 'labels/'

    if not yolo_img_dir.exists():
        yolo_img_dir.mkdir(parents=True, exist_ok=True)
    if not yolo_label_dir.exists():
        yolo_label_dir.mkdir(parents=True, exist_ok=True)
 
    json_files = labelme_label_dir.glob("./*.json")
    cls2id = get_categories(cls_path)
    for ijf, jf in enumerate(json_files):
        
        filename = jf.stem
        labels, image_path = labelme2yolo_single(jf, cls2id)
        # if len(labels) > 0:
        # np.savetxt(yolo_label_dir + filename + '.txt', labels)
        shutil.copy(str(labelme_img_dir / image_path), str(yolo_img_dir / image_path))
        txt_path = str(yolo_label_dir / f"{filename}.txt")
        with open(txt_path, 'w') as f:
            for cls, *xywhn in reversed(labels):
                line = (cls, *xywhn)
                f.write(('%g ' * len(line)).rstrip() % line + '\n')
        print(f" {ijf} {str(jf)}")
    print('Completed!')
    
if __name__ == '__main__':
    labelme_root = r'labelme'
    yolo_root = r'yolo'
    cls_path = "yolo/classes.txt"
    labelme2yolo(labelme_root, yolo_root, cls_path)

yolo转labelme

同样，有时候我们可以以labelme数据格式作为中间格式，然后把labelme格式转换为其他格式，或者我们需要对yolo目标检测算法的结果进行微调，因此，这里也提供了yolo转labelme的脚本。

import cv2
import os
import json
import shutil
import numpy as np
 
def get_categories(cls_path):
    assert(os.path.exists(cls_path)), f"cannot find classes file"

    with open(cls_path) as f:
        data = f.readlines()
    idx2name = dict()
    for idx, cls in enumerate(data):
        idx2name[idx] = cls.strip()
    
    return idx2name
 
def xyxy2labelme(labels, w, h, image_path, save_dir, id2cls):
    if not os.path.exists(save_dir):
        os.makedirs(save_dir)
    label_dict = {}
    label_dict['version'] = '5.0.1'
    label_dict['flags'] = {}
    label_dict['imageData'] = None
    label_dict['imagePath'] = image_path
    label_dict['imageHeight'] = h
    label_dict['imageWidth'] = w
    label_dict['shapes'] = []
    for l in labels:
        tmp = {}
        tmp['label'] = id2cls[int(l[0])]
        tmp['points'] =[[l[1], l[2]], [l[3], l[4]]]
        tmp['group_id']= None
        tmp['shape_type'] = 'rectangle'
        tmp['flags'] = {}
        label_dict['shapes'].append(tmp)    
    fn = os.path.join(save_dir,image_path.rsplit('.', 1)[0]+'.json')
    with open(fn, 'w') as f:
        json.dump(label_dict, f, ensure_ascii=False, indent=2)
 
def yolo2labelme(yolo_dir, save_dir, cls_path):
    yolo_image_dir = os.path.join(yolo_dir, "images")
    yolo_label_dir = os.path.join(yolo_dir, "labels")
    id2cls = get_categories(cls_path)
    image_files = os.listdir(yolo_image_dir)
    for iimgf, imgf in enumerate(image_files):
        print(iimgf+1, '/', len(image_files), imgf)
        fn = imgf.rsplit('.', 1)[0]
        
        image = cv2.imread(os.path.join(yolo_image_dir, imgf))
        h,w = image.shape[:2]
        shutil.copyfile(os.path.join(yolo_image_dir, imgf), os.path.join(save_dir, imgf))
        if not os.path.exists(os.path.join(yolo_label_dir, fn + '.txt')):
            continue
        labels = np.loadtxt(os.path.join(yolo_label_dir, fn + '.txt')).reshape(-1, 5)
        if len(labels) < 1:
            pass
        else:
            labels[:,1::2] = w * labels[:, 1::2]
            labels[:,2::2] = h * labels[:, 2::2]
            labels_xyxy = np.zeros(labels.shape)
            labels_xyxy[:, 1] = np.clip(labels[:, 1] - labels[:, 3]/2, 0, w)
            labels_xyxy[:, 2] = np.clip(labels[:, 2] - labels[:, 4]/2, 0, h)
            labels_xyxy[:, 3] = np.clip(labels[:, 1] + labels[:, 3]/2, 0, w)
            labels_xyxy[:, 4] = np.clip(labels[:, 2] + labels[:, 4]/2, 0, h)
        xyxy2labelme(labels_xyxy, w, h, imgf, save_dir, id2cls)
    print('Completed!')
 
if __name__ == '__main__':
    yolo_dir = "yolo"
    save_dir = "labelme"
    cls_path = "yolo/classes.txt"
    yolo2labelme(yolo_dir, save_dir, cls_path)

可视化

与labelme可视化一样，只需要解析yolo格式的标签文件，然后传入到display函数中即可。


import numpy as np
import os
import cv2
from pathlib import Path
import copy


def display(img_path, bboxes, save_path,opencv=True):
    """_summary_

    Args:
        img_path (str): 图像路径
        bboxes (numpy): 二维数组,其中每一行表示一个目标框，顺序为(xmin, ymin, xmax, ymax)
        opencv (bool): 是否使用opencv
    """
    
    if opencv:
        color = (0, 0, 255)
        img_data = cv2.imread(img_path)
        for box in bboxes:
            xmin, ymin, xmax, ymax = np.array(box, dtype=np.int32)
            cv2.rectangle(img_data, (xmin, ymin), (xmax, ymax),color, 2)
        cv2.imwrite(save_path, img_data)
    else:
        from PIL import Image, ImageDraw
        color = (255, 0, 0)
        img_data = Image.open(img_path).convert("RGB")
        
        draw = ImageDraw.Draw(img_data)
        for box in bboxes:
            xmin, ymin, xmax, ymax = np.array(box, dtype=np.int32)
            draw.rectangle([xmin, ymin, xmax, ymax], outline=color)
        img_data.save(save_path)

def xywhn2xyxy(x, w=640, h=640, padw=0, padh=0):
    # Convert nx4 boxes from [x, y, w, h] normalized to [x1, y1, x2, y2] where xy1=top-left, xy2=bottom-right
    y = copy.deepcopy(x)
    y[0] = w * (x[0] - x[2] / 2) + padw  # top left x
    y[1] = h * (x[1] - x[3] / 2) + padh  # top left y
    y[2] = w * (x[0] + x[2] / 2) + padw  # bottom right x
    y[3] = h * (x[1] + x[3] / 2) + padh  # bottom right y
    return y        
        
def vis_yolo(yolo_dir, save_root):
    """_summary_

    Args:
        yolo_dir (str): yolo数据集路径
        save_root (str): 图像保存路径
    """
    yolo_img_dir = Path(yolo_dir) / "images/"
    yolo_label_dir = Path(yolo_dir) / 'labels/'

    txt_files = yolo_label_dir.glob("./*.txt")
    for txt_path in txt_files:
        with open(txt_path, "r") as f:
            label_data = f.readlines()

        name = txt_path.stem
        img_path = yolo_img_dir / f"{name}.jpg"
        if img_path.is_file():
            img_data = cv2.imread(str(img_path))
            h0, w0, _ = img_data.shape
            bboxes = list()
            for bbox in label_data:
                bbox = bbox.split(" ")
                xywh = [float(x) for x in bbox[1:]]
                xyxy = xywhn2xyxy(xywh, w=w0, h=h0)
                bboxes.append(xyxy)
            save_path = os.path.join(save_root, img_path.name)
            display(str(img_path), bboxes, save_path)
            

if __name__ == "__main__":
    yolo_root = "yolo"
    save_root = "vis_yolo"
    vis_yolo(yolo_root, save_root)

3. 与coco之间的转换

COCO（Common Objects in Context）是一个常用的目标检测、语义分割和图像标注任务的数据集格式。COCO数据集是一个大规模的图像数据集，包含了多个类别的目标物体和对应的标注信息。

COCO数据集的标注信息以JSON格式存储，其中包含了图像的信息、目标物体的类别、边界框的位置、分割掩码等。

coco格式

COCO数据集的每个图像对应一个JSON文件，其中的主要字段包括：

“info”: 数据集的相关信息，如版本、作者等。
“licenses”: 数据集的许可证信息。
“images”: 图像的信息，包括图像ID、文件名、宽度、高度等。
“annotations”: 目标物体的标注信息，包括目标ID、类别ID、边界框位置、分割掩码等。
“categories”: 目标类别的信息，包括类别ID和类别名称。

具体而言，每个标注信息的格式如下：

{
    "id": <annotation_id>,
    "image_id": <image_id>,
    "category_id": <category_id>,
    "bbox": [x, y, width, height],
    "segmentation": <segmentation_data>,
    "area": <area>,
    "iscrowd": <iscrowd>
}

"id" 表示标注的唯一ID。
"image_id" 表示对应图像的ID。
"category_id" 表示目标物体所属的类别ID。
"bbox" 表示目标物体的边界框位置，由左上角顶点的坐标 (x, y) 和宽度、高度 (width, height) 组成。
"segmentation" 表示目标物体的分割掩码，可以是多边形或二进制掩码。
"area" 表示目标物体的面积。
"iscrowd" 表示目标物体是否是密集分布的群体。

COCO数据集提供了丰富的目标检测和分割任务所需的信息，使得研究者和开发者能够更好地进行算法的训练和评估。

labelme转coco

labelme和coco之间的转换脚本如下：

import os
import json
from tqdm import tqdm
from pathlib import Path
import shutil

def read_json(json_path):
    with open(json_path) as f:
        json_data = json.load(f)
        
    return json_data

def get_categories(cls_path):
    assert(os.path.exists(cls_path)), f"cannot find classes file"

    with open(cls_path) as f:
        data = f.readlines()
    res = list()
    name2idx = dict()
    for idx, cls in enumerate(data):
        res.append({"id":idx + 1, "name": cls.strip()})
        name2idx[cls.strip()] = idx + 1
    
    return res, name2idx

def get_image(json_data, image_id):
    image_dict = {}
    image_dict['height'] = json_data["imageHeight"]
    image_dict['width'] = json_data["imageWidth"]
    image_dict['id'] = image_id
    image_dict['file_name'] = json_data["imagePath"]
    return image_dict

def construct_annotation(img_id, ann_id, category_id, bbox, area, iscrowd=0):
    annotation = {}
    annotation['id'] = ann_id
    annotation['image_id'] = img_id
    annotation['category_id'] = category_id
    annotation['bbox'] = bbox
    annotation['area'] = area
    annotation['iscrowd'] = iscrowd
    annotation['segmentation'] = []
    
    return annotation

def get_annotation(objects, image_id, annotation_id, name2idx):
    
    annotation_list = []
    for item in objects:
        points = item["points"]
        # points = [round(x, 2) for x in points]      # [x1, y1, x2, y2]
        x1, y1 = points[0]
        x2, y2 = points[1]
        
        box_w = abs(x2 - x1)
        box_h = abs(y2 - y1)
        points = [x1, y1, box_w, box_h]
        tagtype = item["label"]   

        category_id = name2idx[tagtype]
        area = box_w * box_h   
                
        annotation_list.append(construct_annotation(image_id, annotation_id, category_id, points, area))
        annotation_id += 1
    return annotation_list, annotation_id

def save_coco_json(instance, save_path):
    import io
    with io.open(save_path, 'w', encoding="utf-8") as outfile:
        my_json_str = json.dumps(instance, ensure_ascii=False, indent=1)
        outfile.write(my_json_str)


def construct_coco(labelme_root, coco_img_root, coco_anno_root, cls_path):
    # 1. 构建COCO格式结构
    instance = {}
    instance['info'] = 'spytensor created'
    instance['license'] = ['license']
    # 2. 获取类别信息
    instance['categories'], name2idx =  get_categories(cls_path)

    images_all = []
    image_id = 1
    annotations_all = []
    annotation_id = 1
    json_files = Path(labelme_root).glob("./*.json")
    
    for json_path in tqdm(json_files):   
        
        json_data = read_json(json_path)
        img_name = json_data["imagePath"]
        objects = json_data['shapes']
        if not os.path.exists(os.path.join(labelme_root, img_name)): continue
        if len(objects)==0 :
            print(f"no object existed in {img_name}")
            # continue
        else:
            # 处理标注数据内容
            annotation_list, annotation_id = get_annotation(objects, image_id, annotation_id, name2idx)
            annotations_all.extend(annotation_list)
            
        img_dict = get_image(json_data, image_id)
        images_all.append(img_dict)
        image_id += 1
        
        shutil.copyfile(os.path.join(labelme_root, img_name), os.path.join(coco_img_root, img_name))
    
    instance['images'] = images_all
    instance['annotations'] = annotations_all
    save_coco_json(instance, coco_anno_root)

if __name__ == "__main__":
    labelme_root = "labelme"
    coco_img_root = "coco/train"
    coco_anno_path = "coco/annotations/train.json"
    cls_path  = "coco/classes.txt"
    construct_coco(labelme_root, coco_img_root, coco_anno_path, cls_path)

可视化

coco格式数据可视化需要安装pycocotools库，脚本需要指定coco数据集的图像位置和json位置，以及最后可视化结果保存位置。

from pycocotools.coco import COCO
from PIL import Image, ImageDraw
import os

def display(coco, img_id, img_root, save_root, cat_ids=None):
    """
    基于给定的img_id, 可视化其标注内容
    """
    # 获取images字段内容
    images = coco.loadImgs(ids=[img_id])[0]
    
    # 获取到annotation结构体
    annotation_id = coco.getAnnIds(imgIds=images['id'], catIds=cat_ids, iscrowd=None)
    # 加载对应的annotation结构体内容
    annotations = coco.loadAnns(annotation_id)
    print(annotations)
    file_path = os.path.join(img_root, images["file_name"])
    # print(file_path)
    img_data = Image.open(file_path).convert("RGB")

    draw = ImageDraw.Draw(img_data)
    for anno in annotations:
        bbox = anno["bbox"]
        x1, y1, box_w, box_h = bbox
        x2, y2 = x1 + box_w, y1 + box_h
        x1, y1, x2, y2 = int(x1), int(y1), int(x2), int(y2)

        draw.rectangle([x1,y1,x2,y2], outline=(255, 0,0 ))
    img_data.save(os.path.join(save_root, os.path.basename(images["file_name"])))

if __name__ == "__main__":
    annFile="coco/annotations/train.json"
    # 初始化标注数据的 COCO api 
    coco=COCO(annFile)
    # 获取COCO数据集所有的类别ID
    class_ids = coco.getCatIds()
    # 获取catIds对应的所有image_id
    imgIds = coco.getImgIds(catIds=class_ids )
    img_ids = imgIds
    for id in img_ids:
        display(coco, img_id=id, cat_ids=[1], img_root="coco/train", save_root="vis_coco/")

总结

本文中，主要介绍了labelme在目标检测任务中的用法，以及对应的数据格式。重点在于给出了labelme与常见目标检测数据格式yolo和coco之间相互转换的脚本，并提供各自的可视化脚本用于检查转换后格式是否正确。

【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
钢筋长度超限检测检数据集VOC+YOLO格式215张1类别 futureflsl 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：215标注数量(xml文件个数)：215标注数量(txt文件个数)：215标注类别数：1标注类别名称:["iron"]每个类别标注的框数：iron框数=215总框数：215使用标注工具：labelImg标注规则：对类别进
COCO 格式的数据集转化为 YOLO 格式的数据集 QYQY77 YOLO python
"""--json_path输入的json文件路径--save_path保存的文件夹名字，默认为当前目录下的labels。"""importosimportjsonfromtqdmimporttqdmimportargparseparser=argparse.ArgumentParser()parser.add_argument('--json_path',default='./instances
yolov5＞onnx＞ncnn＞apk 图像处理大大大大大牛啊 opencv实战代码讲解 yolo onnx ncnn 安卓
一.yolov5pt模型转onnx条件：colabnotebookyolov51.安装环境!pipinstallonnx>=1.7.0#forONNXexport!pipinstallcoremltools==4.0#forCoreMLexport!pipinstallonnx-simplifier2.修改common.py在classFocus下面
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
[数据集][目标检测]汽车头部尾部检测数据集VOC+YOLO格式5319张3类别 FL1623863129 数据集目标检测汽车 YOLO
数据集制作单位：未来自主研究中心(FIRC)版权单位：未来自主研究中心(FIRC)版权声明：数据集仅仅供个人使用，不得在未授权情况下挂淘宝、咸鱼等交易网站公开售卖,由此引发的法律责任需自行承担数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：5319标注数量(xml文件
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
遥感图像分割系统：融合空间金字塔池化（FocalModulation)改进YOLOv8 xuehaisj YOLO 人工智能计算机视觉 yolov8
1.研究背景与意义项目参考AAAIAssociationfortheAdvancementofArtificialIntelligence研究背景与意义遥感图像分割是遥感技术领域中的一个重要研究方向，它的目标是将遥感图像中的不同地物或地物类别进行有效的分割和识别。随着遥感技术的不断发展和遥感图像数据的大规模获取，遥感图像分割在农业、城市规划、环境监测等领域具有广泛的应用前景。然而，由于遥感图像的特
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
Jacoco的XML报告详解 CrissChan 自动化测试持续交付和持续测试 jacoco 测试
使用jacococli完成jacoco测试报告生成后，会看到有一个.xml结尾的文件，这个就是xml格式的覆盖率报告。除了xml还有csv、html格式的报告，本文进介绍xml报告。DTD文件在介绍jacoco的xml报告之前，我们应该先看一下对应的DTD文件的内容。(DTD的全称为DocumentTypeDefinition，是一种文件定义格式，它规定了XML文件结构为XML文件提供了语法与规则
如何理解深度学习的训练过程奋斗的草莓熊深度学习人工智能 python scikit-learn virtualenv numpy pandas
文章目录1.训练是干什么？2.预训练模型进行训练，主要更改的是预训练模型的什么东西？1.训练是干什么？以yolov5为例子，训练的目的是把一组输入猫狗图像放到神经网络中，得到一个输出模型，这个模型下次可以直接用来识别哪个是猫，哪个是狗2.预训练模型进行训练，主要更改的是预训练模型的什么东西？超参数（Hyperparameters）：这是模型结构中定义的参数，比如：卷积核大小（kernel_size
基于YOLOV5人脸检测打上码赛克 Deep-white YOLO 人工智能深度学习
还在为自己的隐私而烦恼吗，还在为拍摄的视频因不想露脸而无法发布吗。yolov5检测人脸，并打上马赛克，保护自己的隐私。只需下载代码，解压缩后就可以传入你想要打马赛克的视频或者图片了。这个是需要你对代码有一些了解的，等我开发一下使大家都可以用。里面权重已经训练好了，也有一些人脸的数据集，数据量不多，训练完的权重不是很好，但是给自己的视频打上马赛克足够了。大家要是想去增加数据集，可以使用里面的权重利用
Cocos2d、Cocos2dx、Cocos Creator、Cocos Studio的区别 Thomas游戏圈
一、Cocos2d和Cocos2dx的区别【开发语言】：Cocos2d是Object-C写的，Cocos2dx是C++写的，支持使用C++、Lua或Java进行开发。【运行平台】：Cocos2d只能在IOS下运行，Cocos2dx是跨平台的，适配iOS、Android、HTML5、Windows和Mac系统，功能侧重于原生移动平台。点击链接加入群聊【Unity/Cocos交流群】【国籍】：Coco
Python计算机视觉编程第三章图像到图像的映射一只小小程序猿计算机视觉 python opencv
目录单应性变换直接线性变换算法仿射变换图像扭曲图像中的图像分段仿射扭曲创建全景图RANSAC拼接图像单应性变换单应性变换是将一个平面内的点映射到另一个平面内的二维投影变换。在这里，平面是指图像或者三维中的平面表面。单应性变换具有很强的实用性，比如图像配准、图像纠正和纹理扭曲，以及创建全景图像。单应性变换本质上是一种二维到二维的映射，可以将一个平面内的点映射到另一个平面上的对应点。代码如下：impo
DIODE：超高分辨率室内室外数据集（猫脸码客第186期）猫脸码客: catCode2024 开源数据集猫脸码客开源数据集超高分辨率室内室外数据集
亲爱的读者们，您是否在寻找某个特定的数据集，用于研究或项目实践？欢迎您在评论区留言，或者通过公众号私信告诉我，您想要的数据集的类型主题。小编会竭尽全力为您寻找，并在找到后第一时间与您分享。在计算机视觉和深度学习领域，深度信息作为三维空间感知的重要组成部分，对于实现高级视觉任务如场景理解、机器人导航、增强现实等具有至关重要的作用。然而，获取准确且密集的深度数据一直是一个挑战，尤其是在同时涵盖室内和室
yolov5单目测距+速度测量+目标跟踪 cv_2025 YOLO 目标跟踪人工智能计算机视觉机器学习图像处理 opencv
要在YOLOv5中添加测距和测速功能，您需要了解以下两个部分的原理：单目测距算法单目测距是使用单个摄像头来估计场景中物体的距离。常见的单目测距算法包括基于视差的方法（如立体匹配）和基于深度学习的方法（如神经网络）。基于深度学习的方法通常使用卷积神经网络（CNN）来学习从图像到深度图的映射关系。单目测距代码单目测距涉及到坐标转换，代码如下：defconvert_2D_to_3D(point2D,R,
粉尘识别数据集——工地/矿下粉尘数据识别，数据集已划分，YOLO格式-有权重，相关指数，map相当高毕设宇航 YOLO 机器学习目标跟踪
数据集名称粉尘识别数据集数据集描述这是一个专门针对工地或矿下粉尘识别设计的数据集，包含了大量的高清图像，用于识别施工或采矿环境中产生的粉尘。数据集已经按照标准的数据划分方法分为训练集、验证集和测试集，并且以YOLO格式进行了标注。此外，数据集中还包含了预训练的模型权重和相关性能指标，如mAP（MeanAveragePrecision），表明模型在粉尘识别任务上的表现优异。数据集特点高清图像：所有图
YOLOV8改进-C2f添加Deformable Conv V2 森爱。 YOLOV8改进 YOLO
目录1DeformableConvV2介绍2YOLOV8添加DeformableConvV22.1代码添加到Blocks2.1.1C2f_DCN代码2.1.2加入_all_导入2.1.3加入modules导入2.2添加至运行模块tasks2.2.1导入包2.2.2解析参数添加2.3在_init_中增加名称2.4模型配置文件yaml替换1DeformableConvV2介绍论文地址:https://
swift和python语法区别_Swift 基本语法碧色将逝
Swift基本语法在上一章节中我们已经讲到如何创建Swift语言的"Hello,World!"程序。现在我们来复习下。如果创建的是OSXplayground需要引入Cocoa：importCocoa/*我的第一个Swift程序*/varmyString="Hello,World!"print(myString)如果我们想创建iOSplayground则需要引入UIKit:importUIKitva
深度学习入门篇：PyTorch实现手写数字识别 AI_Guru人工智能深度学习 pytorch 人工智能
深度学习作为机器学习的一个分支，近年来在图像识别、自然语言处理等领域取得了显著的成就。在众多的深度学习框架中，PyTorch以其动态计算图、易用性强和灵活度高等特点，受到了广泛的喜爱。本篇文章将带领大家使用PyTorch框架，实现一个手写数字识别的基础模型。手写数字识别简介手写数字识别是计算机视觉领域的一个经典问题，目的是让计算机能够识别并理解手写数字图像。这个问题通常作为深度学习入门的练习，因为
结合YOLOv8和OpenCV WeChat QRCode打造一款二维码识别器搜狐技术产品小编2023 YOLO opencv 微信人工智能计算机视觉
本文字数：3876字预计阅读时间：25分钟01引言二维码（QRCode）在现代生活中有广泛应用，从支付系统到信息传递，它们无处不在。本文提出了一种如何识别二维码的方法，主要贡献在于优化处理分辨率较高的图像时，由于二维码在整张图片中占据的比例较小，传统的OpenCVWeChatQRCode的识别方法表现不佳的问题。下面描述详细的优化过程。02OpenCVWeChatQRCodeWeChatQRCod
OpenCV高阶操作富士达幸运星 opencv 人工智能计算机视觉
在图像处理与计算机视觉领域，OpenCV（OpenSourceComputerVisionLibrary）无疑是最为强大且广泛使用的工具之一。从基础的图像读取、1.图片的上下，采样下采样（Downsampling）下采样通常用于减小图像的尺寸，从而减少图像中的像素数。这个过程可以通过多种方法实现，但最常见的是通过图像金字塔中的pyrDown函数（在OpenCV中）或其他类似的滤波器（如平均池化、最
VOC数据集转换为CoCo数据集（亲测有效）情书学长人工智能学习笔记图像处理
#VOC数据集格式VOC格式的数据集分为3部分，Annotations、ImageSets、JPEGImages。（一）Annotations：存放数据标注的xml文件，格式如下：CUMID_train0001.pngC:\Users\86182\Desktop\CUMID_train\0001.pngUnknown2040136830MachineUnspecified0011933491451
深入掌握大模型精髓：《实战AI大模型》带你全面理解大模型开发！努力的光头强人工智能 langchain prompt transformer 深度学习
今天，人工智能技术的快速发展和广泛应用已经引起了大众的关注和兴趣，它不仅成为技术发展的核心驱动力，更是推动着社会生活的全方位变革。特别是作为AI重要分支的深度学习，通过不断刷新的表现力已引领并定义了一场科技革命。大型深度学习模型（简称AI大模型）以其强大的表征能力和卓越的性能，在自然语言处理、计算机视觉、推荐系统等领域均取得了突破性的进展。尤其随着AI大模型的广泛应用，无数领域因此受益。AI大模型
【目标检测数据集】番茄叶片病害数据集13940张9类VOC+YOLO格式熬夜写代码的平头哥∰ 数据集目标检测 YOLO 目标跟踪
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：13946标注数量(xml文件个数)：13946标注数量(txt文件个数)：13946标注类别数：9标注类别名称:["EarlyBlight","Healthy","LateBlight","LeafMiner","Le
计算机视觉—照相机（下） zidea
封面焦距(FieldofView)同一位置相机用不同焦距，28mmFieldofView就变小，85mm时候的Fieldofview也就是只有28度视野，每一个物体在通常尺寸的胶片上像素也就是越多，chromaticAberration焦距和是波长相关，不同颜色光聚焦在不同位置。这种现象在物体边缘尤为明显。颜色颜色说简单也简单，说复杂也复杂，我们在高中物理已经知道可见光是电磁波，不同颜色对应不同波
YOLOv8数据增强热心小张研究生 yolov8
1.找到augment.py（ultralytics/data/augment.py），修改对应内容#TransformsT=[A.Blur(p=0.01),A.MedianBlur(p=0.01),A.ToGray(p=0.01),A.CLAHE(p=0.01),A.RandomBrightnessContrast(p=0.0),A.RandomGamma(p=0.0),A.ImageCompr
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f