Mr-MegRob

保姆级 Keras 实现 YOLO v3 二

一. 数据准备
二. 从 xml 或者 json 文件中读出标注信息
三. K-Means 计算 anchor box 聚类尺寸
- 读出所有标注框尺寸
- K-Means 聚类
四. 代码下载

上一篇文章中, 我们完成了 YOLO v3 的网络定义, 相当于完成了前向计算功能, 但此时网络中的参数处于随机状态, 预测并没有任何意义. 接下来的工作就是要从头开始训练, 让网络调整其参数以达到预期的效果

这里需要定义一些常量, 因为后面的函数会用到, 训练自己的数据集时也需要修改的

# 模型配置
LONG_SIDE = 416        # 输入图像缩放长边尺寸
STRIDES = (8, 16, 32)  # 每种特征图的下采样倍数
CLUSTER_K = 9          # anchor box 聚类中心数量
NEG_THRES = 0.4        # 负样本阈值, 这个值按你喜欢的来改
POS_THRES = 0.7        # 正样本阈值, 这个是为了增加更多的正样本而设置, 后面会有解释

# 类别列表, 不分先后
CATEGORIES = ("aeroplane", "bicycle", "bird", "boat", "bottle",
              "bus", "car", "cat", "chair", "cow",
              "diningtable", "dog", "horse", "motorbike", "person",
              "pottedplant", "sheep", "sofa", "train", "tvmonitor")

DATA_PATH = "data_set" # 这样写表示相对路径, 也可以写成绝对路径, 你喜欢就好

一. 数据准备

一般我们都是为了训练自己的数据集, 这就涉及到做标签的问题, 不过这不是本文的重点, 可以参考《保姆级 Keras 实现 Faster R-CNN 一》, 里面有说明如何标注. 标注完成后, 图像和标签文件放到同一个目录中, 方便处理. 假设放到了 data_set 中

如果是使用已经标注好的数据, 那就不用再标注, 只是要理解标注文件中的信息, 像 VOC2007 标注文件是 xml 格式的, 什么格式无所谓, 只要能读出来就行. 我们关注的是标注文件中目标框的坐标和类别.《保姆级 Keras 实现 Faster R-CNN 二》中也有相应的说明, 这里就不再重复讲了. 也一样将图像和对应的标注文件放到一个文件夹中, 假设放到了 data_set 中, 如下图这样

因为我们把图像和对应的标注文件放到了同一个文件夹中, 接下就就需要将各个图像和标注文件的路径列出来, 再划分训练集和验证集

# 取得图像和标注文件路径
# data_set_path: 数据集所在路径
# split_rate: 这些文件中用于训练, 验证, 测试所占的比例
#             如果为 None, 则不区分, 直接返回全部
#             如果只写一个小数, 如 0.8, 则表示 80% 为训练集, 20% 为验证集, 没有测试集
#             如果是一个 tuple 或 list, 只有一个元素的话, 同上面的一个小数的情况
# shuffle_enable: 是否要打乱顺序
# 返回训练集, 验证集和验证集路径列表
def get_data_set(data_set_path, split_rate = (0.7, 0.2, 0.1), shuffle_enable = True):
    data_set = []
    files = os.listdir(data_set_path)
    
    for f in files:
        ext = osp.splitext(f)[1]
        if ext in (".jpg", ".png", ".bmp"):            
            img_path = osp.join(data_set_path, f)
            
            ann_type = "" # 标注文件类型
            ann_path = img_path.replace(ext, ".json")
            
            if osp.exists(ann_path):
                ann_type = "json"
            else:
                ann_path = img_path.replace(ext, ".xml")
                if osp.exists(ann_path):
                    ann_type = "xml"
                
            if "" == ann_type:
                continue
                
            data_set.append((img_path, ann_path, ann_type))
        
    if shuffle_enable:
        shuffle(data_set)
        
    if None == split_rate:
        return data_set

    total_num = len(data_set)

    if isinstance(split_rate, float) or 1 == len(split_rate):
        if isinstance(split_rate, float):
            split_rate = [split_rate]
        train_pos = int(total_num * split_rate[0])
        train_set = data_set[: train_pos]
        valid_set = data_set[train_pos: ]

        return train_set, valid_set

    elif isinstance(split_rate, tuple) or isinstance(split_rate, list):
        list_len = len(split_rate)
        assert(list_len > 1)

        train_pos = int(total_num * split_rate[0])
        valid_pos = int(total_num * (split_rate[0] + split_rate[1]))

        train_set = data_set[0: train_pos]
        valid_set = data_set[train_pos: valid_pos]
        test_set = data_set[valid_pos: ]

        return train_set, valid_set, test_set

上面的函数中, 区分了标注文件的类型, VOC2007 是 xml, 如何使用 Labelme 标注的话, 标注文件则是 json, 下面测试一下

# 取得目录
train_set, valid_set, test_set = get_data_set(DATA_PATH, split_rate = (0.8, 0.1, 0.1))

print("Total number:", len(train_set) + len(valid_set) + len(test_set),
      " Train number:", len(train_set),
      " Valid number:", len(valid_set),
      " Test number:", len(test_set))

# 输出第一个元素
print("First element:", train_set[0])

输出如下

Total number: 5010  Train number: 4008  Valid number: 501  Test number: 501
First element: ('data_set\\003885.jpg', 'data_set\\003885.xml', 'xml')

因为 YOLO 的性能已经经过了验证, 所以其实不需要测试集, 这样参与训练的图像就会多一点, 训练出来的模型也会好一点, 划分是就可以这样

# 取得目录
train_set, valid_set, test_set = get_data_set(DATA_PATH, split_rate = 0.95)

就像征性的留一点用作验证集了

二. 从 xml 或者 json 文件中读出标注信息

前面讲过, 我们需要的是标注框的坐标和类别, 所以只需要从标注文件中读取相关信息即可

# 从 xml 或 json 文件中读出 ground_truth
# data_set: get_data_set 函数返回的列表
# categories: 类别列表
# file_type: 标注文件类型
# 返回 ground_truth 坐标与类别
def get_ground_truth(label_path, file_type, categories):
    ground_truth = []
    with open(label_path, 'r', encoding = "utf-8") as f:
        if "json" == file_type:
            jsn = f.read()
            js_dict = json.loads(jsn)        
            shapes = js_dict["shapes"] # 取出所有图形

            for shape in shapes:
                if shape["label"] in categories:                
                    pts = shape["points"]
                    x1 = round(pts[0][0])
                    x2 = round(pts[1][0])
                    y1 = round(pts[0][1])
                    y2 = round(pts[1][1])

                    # 防止有些人标注的时候喜欢从右下角拉到左上角
                    if x1 > x2:
                        x1, x2 = x2, x1
                    if y1 > y2:
                        y1, y2 = y2, y1
                        
                    bnd_box = [x1, y1, x2, y2]
                    cls_id = categories.index(shape["label"])

                    # 把 bnd_box 和 cls_id 组合在一起, 后面可有会用得上
                    ground_truth.append([bnd_box, cls_id])
        elif "xml" == file_type:
            tree = et.parse(f)
            root = tree.getroot()
            for obj in root.iter("object"):

                cls_id = obj.find("name").text
                cls_id = categories.index(cls_id) # 类别 id

                bnd_box = obj.find("bndbox")
                bnd_box = [int(bnd_box.find("xmin").text),
                           int(bnd_box.find("ymin").text),
                           int(bnd_box.find("xmax").text),
                           int(bnd_box.find("ymax").text)]

                # 把 bnd_box 和 cls_id 组合在一起, 后面可有会用得上
                ground_truth.append([bnd_box, cls_id])
            
    return ground_truth

在返回的数据中, 包含的是目标框左上角和右下角的坐标, 还有目标类别序号, 接下来测试 get_ground_truth 函数

# 测试 get_ground_truth
test_idx = random.randint(0, len(train_set)) # 测试图像的序号
label_data = train_set[test_idx] # train_set 上面已经定义过了
gts = get_ground_truth(label_data[1], label_data[2], CATEGORIES)

image = cv.imread(label_data[0])
img_copy = image.copy()
print(img_copy.shape)

for gt in gts:    
    print(gt, "class:", CATEGORIES[gt[1]])
    cv.rectangle(img_copy, (gt[0][0], gt[0][1]), (gt[0][2], gt[0][3]),
                 (0, random.randint(128, 256), 0), 2)
    
plt.figure("label_box", figsize = (6, 3))
plt.imshow(img_copy[..., : : -1])
plt.show()

(334, 500, 3)
[[28, 44, 91, 113], 1] class: aeroplane
[[47, 151, 111, 212], 1] class: aeroplane
[[65, 239, 127, 299], 1] class: aeroplane
[[189, 143, 255, 205], 1] class: aeroplane
[[164, 29, 228, 96], 1] class: aeroplane
[[397, 15, 462, 83], 1] class: aeroplane

这样看是没有问题, 但是考虑到网络的输入尺寸是 $416 \times 416$ , 所以需要对图像进行缩放, 那标注框也需要进行相应的缩放. 我的做法是保持图像比例, 将图像长边变成 $416$ , 短边进行填充, 这样可以保证目标不会因为图像缩放而变形. 现修改 get_ground_truth 函数如下, 增加了对坐标的缩放和偏移, 还返回了图像的缩放系数与填充尺寸, 方便后面的函数操作

# 从 xml 或 json 文件中读出 ground_truth
# data_set: get_data_set 函数返回的列表
# categories: 类别列表
# file_type: 标注文件类型
# 返回 缩放系数, 填充尺寸, ground_truth 坐标与类别
def get_ground_truth(label_path, file_type, categories):
    ground_truth = []    
    scale = 1.0  # 缩放比例
    pad_size = 0 # 填充尺寸
    with open(label_path, 'r', encoding = "utf-8") as f:
        if "json" == file_type:
            jsn = f.read()
            js_dict = json.loads(jsn)        
            shapes = js_dict["shapes"] # 取出所有图形
            
            # 增加对图像尺寸的判断
            image_rows = js_dict["imageHeight"]
            image_cols = js_dict["imageWidth"]
            
            if image_rows < image_cols:
                scale = LONG_SIDE / image_cols
                pad_size = (LONG_SIDE - image_rows * scale) / 2
            else:
                scale = LONG_SIDE / image_rows
                pad_size = (LONG_SIDE - image_cols * scale) / 2
                
            for shape in shapes:
                if shape["label"] in categories:                
                    pts = shape["points"]
                    x1 = round(pts[0][0])
                    x2 = round(pts[1][0])
                    y1 = round(pts[0][1])
                    y2 = round(pts[1][1])

                    # 防止有些人标注的时候喜欢从右下角拉到左上角
                    if x1 > x2:
                        x1, x2 = x2, x1
                    if y1 > y2:
                        y1, y2 = y2, y1
                    
                    bnd_box = [x1, y1, x2, y2]
                    
                    if image_rows < image_cols:
                        bnd_box[0] = round(bnd_box[0] * scale)
                        bnd_box[2] = round(bnd_box[2] * scale)
                        bnd_box[1] = round(bnd_box[1] * scale + pad_size)
                        bnd_box[3] = round(bnd_box[3] * scale + pad_size)
                    else:
                        bnd_box[0] = round(bnd_box[0] * scale + pad_size)
                        bnd_box[2] = round(bnd_box[2] * scale + pad_size)
                        bnd_box[1] = round(bnd_box[1] * scale)
                        bnd_box[3] = round(bnd_box[3] * scale)
                        
                    cls_id = categories.index(shape["label"])

                    # 把 bnd_box 和 cls_id 组合在一起, 后面可有会用得上
                    ground_truth.append([bnd_box, cls_id])
        elif "xml" == file_type:
            tree = et.parse(f)
            root = tree.getroot()
            
            # 增加对图像尺寸的判断
            image_shape = root.find("size")
            image_rows = int(image_shape.find("height").text)
            image_cols = int(image_shape.find("width").text)
            
            if image_rows < image_cols:
                scale = LONG_SIDE / image_cols
                pad_size = (LONG_SIDE - image_rows * scale) / 2
            else:
                scale = LONG_SIDE / image_rows
                pad_size = (LONG_SIDE - image_cols * scale) / 2
            
            for obj in root.iter("object"):
                cls_id = obj.find("name").text
                cls_id = categories.index(cls_id) # 类别 id

                bnd_box = obj.find("bndbox")
                bnd_box = [int(bnd_box.find("xmin").text),
                           int(bnd_box.find("ymin").text),
                           int(bnd_box.find("xmax").text),
                           int(bnd_box.find("ymax").text)]

                if image_rows < image_cols:
                    bnd_box[0] = round(bnd_box[0] * scale)
                    bnd_box[2] = round(bnd_box[2] * scale)
                    bnd_box[1] = round(bnd_box[1] * scale + pad_size)
                    bnd_box[3] = round(bnd_box[3] * scale + pad_size)
                else:
                    bnd_box[0] = round(bnd_box[0] * scale + pad_size)
                    bnd_box[2] = round(bnd_box[2] * scale + pad_size)
                    bnd_box[1] = round(bnd_box[1] * scale)
                    bnd_box[3] = round(bnd_box[3] * scale)
                        
                # 把 bnd_box 和 cls_id 组合在一起, 后面可有会用得上
                ground_truth.append([bnd_box, cls_id])
            
    return scale, pad_size, ground_truth

测试函数也增加相应的缩放与图像填充

# 测试 get_ground_truth
test_idx = random.randint(0, len(train_set)) # 测试图像的序号
label_data = train_set[test_idx] # train_set 上面已经定义过了
# 增加了返回的缩放系数与填充尺寸
scale, pad_size, gts = get_ground_truth(label_data[1], label_data[2], CATEGORIES)

image = cv.imread(label_data[0])
img_copy = cv.resize(image, (round(image.shape[1] * scale), round(image.shape[0] * scale)),
                     interpolation = cv.INTER_LINEAR)

if img_copy.shape[0] < img_copy.shape[1]:
    img_copy = cv.copyMakeBorder(img_copy, round(pad_size), round(pad_size), 0, 0, cv.BORDER_CONSTANT, (0, 0, 0))
else:
    img_copy = cv.copyMakeBorder(img_copy, 0, 0, round(pad_size), round(pad_size), cv.BORDER_CONSTANT, (0, 0, 0))

print(img_copy.shape)

for gt in gts:
    print(gt, "class:", CATEGORIES[gt[1]])
    cv.rectangle(img_copy, (gt[0][0], gt[0][1]), (gt[0][2], gt[0][3]),
                 (0, random.randint(128, 256), 0), 2)
    
plt.figure("label_box", figsize = (6, 3))
plt.imshow(img_copy[..., : : -1])
plt.show()

效果如下, 图像的尺寸变成了 $416 \times 416)$

(416, 416, 3)
[[23, 106, 76, 163], 0] class: aeroplane
[[39, 195, 92, 245], 0] class: aeroplane
[[54, 268, 106, 318], 0] class: aeroplane
[[157, 188, 212, 240], 0] class: aeroplane
[[136, 93, 190, 149], 0] class: aeroplane
[[330, 82, 384, 138], 0] class: aeroplane

三. K-Means 计算 anchor box 聚类尺寸

上面已经可以读出标签文件中的各目标框的坐标, 那接下为就可以用这些坐标来计算我们想要的 $k$ 种 anchor box 尺寸了, 这里 $k = 9$ , 所以聚类个数为 $9$

读出所有标注框尺寸

因为在聚类的时候, 距离公式是 $1 - I o U$ , 而各标注框位置是随机的, 所以需要将标注框左上角移动到相同的位置, 这样才有计算的基准, 这个相同位置最简单的就是 $(0, 0)$ , 所以读出来的标注框就可在简化成为 $(w, h)$

# 读出所有标注框
all_boxes = []

for s in (train_set, valid_set, test_set):
    for each in s:
        _, __, gts = get_ground_truth(each[1], each[2], CATEGORIES)
        for box, _ in gts:
            all_boxes.append((box[2] - box[0], box[3] - box[1]))

print("box_num:", len(all_boxes))
print(all_boxes[: 4])

box_num: 15658
[(254, 228), (306, 383), (56, 45), (59, 110)]

K-Means 聚类

既然要用 $I o U$ 计算距离, 那就要先定义计算 $I o U$ 的函数

# 计算聚类 IoU
# box: 单个真实框 (w, h)
# clusters: 聚类中心的 (w, h)
# 返回标注框和所有聚类中心的 IoU 值
def cluster_iou(box, clusters):
    # 交集
    x = np.minimum(box[0], clusters[:, 0])
    y = np.minimum(box[1], clusters[:, 1])    
    intersection = x * y
    
    # 并集
    area_box = box[0] * box[1]
    area_cluster = clusters[:, 0] * clusters[:, 1]    
    union = area_box + area_cluster - intersection
    
    return intersection / union

现在就可以定义一个函数来聚类 anchor box 了

# 使用 k-means 聚类算法和 1-IoU 距离函数来确定 anchor box
# boxes: 标注框 (w, h)
# k: 聚类的数量
# 返回聚类中心
def kmeans_anchor(boxes, k):
    n = boxes.shape[0]
    distances = np.empty((n, k))
    last_clusters = np.zeros((n,))
    
    # 随机初始化聚类中心
    np.random.seed(0)
    clusters = boxes[np.random.choice(n, k, replace = False)]

    while True:
        for i, box in enumerate(boxes):
            distances[i] = 1 - cluster_iou(box, clusters)
        
        nearest_clusters = np.argmin(distances, axis = 1)
        
        if (last_clusters == nearest_clusters).all():
            break
        
        # 更新聚类中心
        for cluster in range(k):
            clusters[cluster] = np.median(boxes[nearest_clusters == cluster], axis = 0)
        
        last_clusters = nearest_clusters

    return clusters

上面的函数中, 更新聚类中心用的是中值(np.median), 也可以使用平均值 (np.mean), 只是平均值容易受距离较远点的影响, 接下来调用函数得到 $k$ 个 anchor box 尺寸

# 聚类 k 个 anchor box 尺寸
cluster_anchors = kmeans_anchor(np.array(all_boxes), CLUSTER_K)
# 计算矩形面积从小到大排序
areas = cluster_anchors[:, 0] * cluster_anchors[:, 1]
sorted_indices = np.argsort(areas)
cluster_anchors = cluster_anchors[sorted_indices]
print(cluster_anchors)

[[ 16  22]
 [ 26  58]
 [ 48  34]
 [ 53  87]
 [118  85]
 [ 85 160]
 [245 134]
 [156 228]
 [310 263]]

上面的 $9$ 个尺寸便是图像缩放后的聚类尺寸, 你运行的代码结果可能和我的不一样, 因为聚类算法会受初始值的影响, 不过也差不多

四. 代码下载

示例代码可下载 Jupyter Notebook 示例代码

上一篇: 保姆级 Keras 实现 YOLO v3 一
下一篇: 保姆级 Keras 实现 YOLO v3 三

Pytorch实现之利用特征分布的差异来指导GAN的训练这张生成的图像能检测吗优质GAN模型训练自己的数据集 GAN系列 pytorch 生成对抗网络人工智能神经网络深度学习计算机视觉机器学习
简介简介：FIDGAN通过将FID损失引入GAN的训练过程，显著提升了生成图像的质量。其核心思想是利用特征分布的差异来指导生成器的训练，同时通过使用轻量级的MobileNet-v3提高了计算效率。这种方法在图像生成任务中具有广泛的应用前景。论文题目：FIDGAN:AGenerativeAdversarialNetworkwithAnInceptionDistance（FIDGAN：具有初始距离的生
C++ STL容器大全 string vector stack queue list priority_queue set map pair luckyyunji C++数据结构 c++
数据结构(容器)string类Vectorvector向量->不定长数组#include定义vector方法一vectorv1;vector>v2;vector>>v3;方法二vectorv1(5,10);vector>v2(5,vector(5,10));vector>>v3(5,vector(5,vector(5,10)))尾插尾删尾插v.push_back(123);尾删v.pop_back
yolov5 python API（供其他程序调用） m0_67401499 面试学习路线阿里巴巴 python 深度学习计算机视觉机器学习 sklearn
你的yolov5??是否只局限于detect.py？如果其他程序要调用yolov5，就需要制作一个detect.py的pythonAPI。python无处不对象，制作detectAPI实际上就是制作detect类。目录前言一、总体思路二、制作detect类二、调用detect类结语前言yolov5源码版本：截止2022.2.3链接：https://github.com/ultralytics/yo
本地部署SenceVoice（超简单） A97139012 语音识别 python
1.下载源代码：gitclonehttps://github.com/FunAudioLLM/SenseVoice.git，或者去https://github.com/FunAudioLLM/SenseVoice这个网址下载zip文件，解压，这两种方式一样，选一种即可；2.为节省时间可以在下载过程中创建虚拟环境：python-mvenvsencevoicevenv3.激活虚拟环境：进入到sence
python环境的yolov11.rknn物体检测子正问题建模 #AI自由行部署 YOLO 机器学习运维
1.首先是我手里生成的一个yolo11的.rknn模型：2.比对一下yolov5的模型：2.1yolov5模型的后期处理：outputs=rknn.inference(inputs=[img2],data_format=['nhwc'])np.save('./onnx_yolov5_0.npy',outputs[0])np.save('./onnx_yolov5_1.npy',outputs[1]
详解多模态（红外-可见光图像）目标检测模型SuperYOLO源码，真正搞清代码逻辑！弗兰随风小欢目标检测实验系列深度学习目标检测 YOLO 计算机视觉多模态目标检测视觉检测人工智能
目录1.文章主要内容2.相关说明3.基于SuperYOLO的多模态目标检测3.1详解代码流程（重点）3.1.1train.py文件（入口）3.1.2SRyolo.py文件3.1.3datasets.py文件3.1.4再次回到train.py文件3.1.5再次回到SRyolo.py文件3.总结1.文章主要内容本文主要是详细分析SuperYOLO多模态源代码，包括如何启动，以及详细代码部分如何改进，从
YOLOv11算法与改进版YOLOv11算法对比：性能提升与优化 m0_54717829 YOLO 算法目标跟踪
YOLOv11算法与改进版YOLOv11算法对比：性能提升与优化提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录YOLOv11算法与改进版YOLOv11算法对比：性能提升与优化前言一、YOLOv11算法概述二、训练步骤2.验证数据的数据代码2.改进版YOLOv11算法的创新a.改进的特征提取网络b.多通道特征融合机制c.自适应损失函数d.动态推理优化3.改进版YOLOv11
【深度学习】计算机视觉（CV）-目标检测-DETR（DEtection TRansformer）—— 基于 Transformer 的端到端目标检测 IT古董深度学习人工智能深度学习计算机视觉目标检测
1.什么是DETR？DETR（DEtectionTRansformer）是FacebookAI（FAIR）于2020年提出的端到端目标检测算法，它基于Transformer架构，消除了FasterR-CNN、YOLO等方法中的候选框（AnchorBoxes）和非极大值抑制（NMS）机制，使目标检测变得更简单、高效。论文：End-to-EndObjectDetectionwithTransforme
火山引擎 DataWind ChatBI 适配 DeepSeek-R1 及 DeepSeek-V3 大数据
2025年2月，火山引擎智能数据洞察DataWind旗下AI助手ChatBI宣布实现对DeepSeek-R1及DeepSeek-V3的适配。通过融合豆包、DeepSeek等主流大模型的先进能力，ChatBI正在为企业用户带来精准、智能的数据分析体验。作为Data+AI领域的先行者，DataWind一直致力于帮助业务达到最好的实践成果，DataWind对主流大模型始终保持高效的开放探索态度，融合前沿
吸烟YOLO数据集，COCO格式鳄鱼的眼药水 YOLO 人工智能深度学习
抽烟吸烟数据集,标签txt，图像已经分好了测试集，验证集，训练集1️⃣可以直接导入YOLO进行训练，没有细分类，里面有的类，闲鱼9.9解君愁，明人不说暗话闲鱼搜索莓格米米私聊
记录小报错：“解决 LabelImg 软件闪退及 FileNotFoundError 错误：如何创建和配置 classes.txt 文件” oiol 深度学习人工智能
解决FileNotFoundError错误：在Ubuntu上使用LabelImg时创建classes.txt文件在使用LabelImg进行图像标注时，用户可能会遇到类似以下的错误信息：FileNotFoundError:[Errno2]没有那个文件或目录:'/home/lix/yolo5/yolov5-mask-42/U/train/classes.txt'这个错误意味着LabelImg在加载YO
AI大模型对决：DeepSeek与Grok 3，谁才是真王者？广拓科技人工智能
（一）性能对比在性能方面，Grok3和DeepSeek各有千秋。在数学任务的AIME'24数学能力测试中，Grok3取得了52分，而DeepSeek-V3仅获得39分，Grok3展现出更强的数学推理能力；在GPQA科学知识评估中，Grok3以75分领先于DeepSeek-V3的65分，在科学专业知识的理解和应用上更胜一筹。在编程任务中，Grok3的表现也较为出色，能够生成逻辑清晰、效率较高的代码，
mongodb分片集群搭建不会写诗的程序猿 mongodb 数据库大数据
环境准备操作系统：centos6.5mongodb版本：v3.6.23三台阿里云服务器：10.168.2.138、10.168.4.204、10.168.4.205搭建目标两个分片复制集（ShardedReplicaSet）分片集群1:（10.168.2.138:27011、10.168.4.204:27011、10.168.4.205:27011）分片集群2:(10.168.2.138:2701
DeepSeek-V3的混合专家（MoE）架构阿湯哥架构微服务云原生
DeepSeek-V3的混合专家（MoE）架构具有多方面的创新设计，以下是详细介绍：架构原理模块构成：MoE架构核心是在前馈网络（FFN）中采用专家混合模型。将模型划分为多个专家网络，每个专家可看作一个子模型，负责处理特定类型的任务或数据模式。如在语言翻译中，有专门处理中文语法的专家，也有负责生成英文句子结构的专家。DeepSeek-V3包含大量专家，如256个专家模型，总参数量达6710亿。动态
yolov5 pt-＞onnx-＞om yolov5模型转onnx转om模型转换 qq_43650438 笔记深度学习 tensorflow 人工智能
yolov5pt->onnx->omyolov5-6.1版本models/yolo.pyDetect函数修改classDetect(nn.Module):defforward(self,x):z=[]#inferenceoutputforiinrange(self.nl):x[i]=self.m[i](x[i])#convbs,_,ny,nx=x[i].shape#x(bs,255,20,20)t
云贝餐饮连锁V3独立版全开源+vue源码 kaui52066 kaui52066精品源码开源 uni-app 小程序 php 源码下载微信小程序
一.介绍云贝餐饮连锁V3独立版，作为一款全开源、全插件的源码部署系统，其在餐饮行业软件系统中独树一帜。该系统不仅功能全面，涵盖了餐饮连锁企业的日常运营、财务管理、库存管理、会员管理等多个方面，而且框架结构清晰，模块化设计使得系统易于扩展和定制，满足不同餐饮企业的个性化需求。在实用性方面，云贝餐饮连锁V3独立版通过智能化的订单处理、菜品管理、报表分析等功能，大大提高了餐饮企业的运营效率和服务质量。同
云贝餐饮最新v3全开源独立版源码 kaui52066 php python java 开源开源软件
云贝餐饮v3连锁独立版本全新UI后台运营独立版无bug最新适配头像昵称接口有视频安装教程安装环境：PHP8.0MySQL5.6-5.7
Qwen 2.5-Max + Cline 组合，真的能替代 DeepSeek V3 和 R1 吗？实测见真章！ surfirst LLM 编程工具大模型 AI编程
1.背景近年来，AI代码编辑器如Cursor和Windsurf在国内市场颇受欢迎，而开源方案Cline+DeepSeekV3也随着DeepSeekV3和R1的崛起逐步被开发者接受。然而，2025年1月29日，阿里正式推出了Qwen2.5-Max，这款模型在各大评测基准上展现了全球领先的能力。其编程实战能力是否能匹敌DeepSeekV3、GPT-4o甚至Claude3.5Sonnet？本文将重点探讨
【有啥问啥】DeepSeek 技术原理详解有啥问啥大模型深度学习
DeepSeek技术原理详解DeepSeek是一款具有突破性技术的大型语言模型，其背后的技术原理涵盖了多个方面，以下是对其主要技术原理的详细介绍：架构创新多头潜在注意力机制（MLA）传送门链接:DeepSeekV3中的Multi-HeadLatentAttention(MLA)：技术解析与应用DeepSeek引入了多头潜在注意力机制（Multi-headLatentAttention,MLA），这
CVPR‘24 | 百度开源DETRs在实时目标检测中胜过YOLOs 3Ｄ视觉工坊 3D视觉从入门到精通百度目标检测人工智能计算机视觉
点击下方卡片，关注「3D视觉工坊」公众号选择星标，干货第一时间送达来源：3D视觉工坊添加小助理：dddvision，备注：目标检测，拉你入群。文末附行业细分群论文题目：DETRsBeatYOLOsonReal-timeObjectDetection作者：WenyuLv,YianZhao等作者机构：BaiduInc.论文链接：https://arxiv.org/pdf/2304.08069.pdf代
智能化工具软件在教育领域的革命性应用：InsCode AI IDE引领编程教育新时代 InsCode AI IDE inscode 人工智能 ide
智能化工具软件在教育领域的革命性应用：InsCodeAIIDE引领编程教育新时代最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE引言随着信息技术的飞速发展，编程技能已经成为现代社会不可或缺的一部分。无论是计算机科学专业的学生，还是希望掌握编程技能以提升就业竞争力的职场人士，编程教育的重要性日益凸显。然而，对于许多初学者来说，编程学习往往充满了挑战和困惑。如何让编程变得更
Vue3CompositionAPI jpruby vue
Vue3CompositionAPI第一章最终效果演示1.下载依赖npminstall2.启动前端npmrundev3.启动数据json-server--watchdata/db.json--port=3003第二章创建项目1.vite创建项目npminitvite@latestvite-blog----templatevue2.App.vueApp.vue3.Home.vue1.测试setup的
地平线x5下运行yolo11s-seg模型 zgrobot 机器人 yolo11 实例分割地平线x5
经过地瓜机器人工作人员（感谢吴超同学）的及时技术支持，整体比较顺利的跑起来了yolo11s-seg分割模型。将一些经验记录下来：首先下载使用docker镜像：https://developer.d-robotics.cc/forumDetail/228559182180396619https://developer.d-robotics.cc/forumDetail/251934919646096
【YOLOv11改进- 主干网络】YOLOv11+CSWinTransformer: 交叉窗口注意力Transformer助力YOLOv11有效涨点；算法conv_er YOLOv11目标检测改进 YOLO 目标跟踪人工智能目标检测深度学习 transformer 计算机视觉
YOLOV11目标检测改进实例与创新改进专栏专栏地址：YOLOv11目标检测改进专栏，包括backbone、neck、loss、分配策略、组合改进、原创改进等本文介绍发paper，毕业皆可使用。本文给大家带来的改进内容是在YOLOv11中更换主干网络为CSWinTransformer，助力YOLOv11有效涨点，通过创新性地开发了十字形窗口自注意力机制。该机制通过将输入特征分割为等宽条纹，在水平与
【YOLO模型】（1）--YOLO是什么方世恩 YOLO YOLO 人工智能目标检测
一、什么是YOLOYOLO（YouOnlyLookOnce）是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。1.核心思想它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位置。2.原理YOLO算法将输入图像分成SxS个网格，每个网格负责预测该网格内是否存在目标以及目标的类别和位置信息。此外，YOLO算法还采用了多尺度特征融合的技术
10分钟搭建钉钉DeepSeek AI助手：无代码实现智能对话 ivwdcwso 运维钉钉人工智能运维 DeepSeek AI
引言DeepSeek最近发布了两款先进的AI模型：V3和R1。其中V3适用于对话AI和内容生成等通用场景，R1则专注于编程和数学等推理任务。借助阿里云百炼提供的DeepSeek模型API，我们可以轻松实现与DeepSeek的对话功能。本文将详细介绍如何使用阿里云AppFlow在钉钉中快速配置DeepSeekAI助手，整个过程无需编写代码，10分钟即可完成。一、创建钉钉应用©ivwdcwso(ID:
DeepSeek：国产AI的荣耀之光晚风る AI人工智能人工智能
DeepSeek：国产AI的荣耀之光在国产AI领域，DeepSeek（深度求索）犹如一颗璀璨的新星，以其卓越的技术实力和创新精神，迅速成为行业的焦点，被誉为“国产之光”。本文将深入探讨DeepSeek的技术亮点、市场表现以及其对行业的深远影响。一、技术突破：创新与高效并存1.混合专家架构（MoE）DeepSeek-V3采用了自主研发的混合专家架构（MoE），模型参数高达6710亿，激活参数为370
Alpine 安装应用错误 ERROR: unable to select packages seojava linux 运维服务器
/#apkaddcurlfetchhttps://dl-cdn.alpinelinux.org/alpine/v3.19/community/x86_64/x86_64/APKINDEX.tar.gzWARNING:updatingandopeninghttps://dl-cdn.alpinelinux.org/alpine/v3.19/community/x86_64/:Nosuchfileor
v3-electron-vite项目快速入门指南罗昭贝Lovely
v3-electron-vite项目快速入门指南v3-electron-vite⭐Avue3electronadmintemplate,basedon'vite'项目地址:https://gitcode.com/gh_mirrors/v3e/v3-electron-vite本指南旨在帮助您了解并快速上手un-pany/v3-electron-vite这一基于Vue3与Vite的Electron管理
腾讯云目前支持4种DeepSeek开源大模型部署方案 szqcloud database
企业级的应用，光有大模型能力还不够，推理引擎以外，应用经验、各类原子化能力和现成的应用经验不可或缺。欢迎交流#deepseek腾讯云目前支持4种DeepSeek开源大模型部署方案1、面向开发者开箱即用的HAI方式1）参考：https://mp.weixin.qq.com/s/kZLPfXv3b1sxLSwyRVsEsg2）优势：支持R1，免除购买资源部署的过程，直接开箱使用；参数规模支持1.5B、
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round

保姆级 Keras 实现 YOLO v3 二

保姆级 Keras 实现 YOLO v3 二

一. 数据准备

二. 从 xml 或者 json 文件中读出标注信息

三. K-Means 计算 anchor box 聚类尺寸

读出所有标注框尺寸

K-Means 聚类

四. 代码下载

你可能感兴趣的:(#,YOLO,v3,Keras,YOLOV3,Keras)