南妮儿

目标检测-yolov1的详细理解（代码和原理）

目标检测算法，主要分为两类：

一类是以R-CNN为代表的两阶段检测算法，将目标检测任务分为边界框回归和物体分类两个模块
二是yolo系列算法，是将目标检测任务看作是回归任务。

原理

yolov1将图像划分为S*S的网格，如果检测物体落到网格中心，那么就由这个网络来预测该物体。

每个网格预测B个边界框和那些边界框的置信度。置信度反映了该边界框是否包含目标且包含目标的准确度。置信度的定义：

左边表示概率，右边表示IOU。如果该网格中不存在检测物体，那么置信度为0.如果存在检测物体，那么置信度为预测框和真实框的IOU。

每个边界框有五个数字组成，分别为：x,y,w,h,置信度。（x,y）是边界框中心坐标相较于网格的坐标。h,w,是预测框相较于整个图像的高和宽。也就是说这里的x,y,w,h都是真实值，而是相对值，分别相较于网格和整个图像。最后置信度表示预测框和真实框的IOU.

每个网络还负责预测C个类条件概率。定义为：

这里只是预测每个网络含有每类物体的概率，不是每个预测框。

在测试的时候，将类条件概率和单个框的置信度相乘，就得到了每个边界框关于某个类别的置信度。该置信度表示了该类目标出现在该边界框的概率和该预测框和真实边界框的拟合程度。

比如说yolov1在PASCAL VOC数据集，S=7,B=2(即每个网络预测两个边界框)。PASCAL VOC有20个类别，所以C=20.所以最后的输出张量是7*7*30的形状。

网络设计

网络有24个卷积层和2个全连接层。受GoogleNet启发，在3*3卷积之后接1*1卷积。

训练

在Imagenet上预训练所有的卷积层。

在最后一层预测类别和边界框坐标。

用图像的宽和高来归一化边界框的宽度和高度，是坐标落在0和1之间。

将边界框x和y坐标参数化为特定网格的偏移量，因此也被限制在0-1之间。

像素坐标转yolo

def coordinates2yolo(xmin,ymin,xmax,ymax,img_w,img_h):
    """
    输入左上角、右下角坐标和图像宽、高 ：xmin, ymin, xmax, ymax, img_w, img_h
    输出归一化后yolo坐标格式  ：中心点坐标，宽、高：x, y, w1, h1
    """
    # 保留6位小数
    x = round((xmin+xmax)/(2.0*img_w),6)
    y = round((ymin+ymax)/(2.0*img_h),6)
    w1 = round((xmax-xmin)/(1.0*img_w),6)
    h1 = round((ymax-ymin)/(1.0*img_h),6)
    print( x,y,w1,h1)
    return x,y,w1,h1

yolo坐标转像素坐标

"""
输入yolo坐标和图像宽、高 ：中心点坐标，宽、高：x, y, w1, h1, img_w, img_h
输出左上角、右下角坐标：xmin, ymin, xmax, ymax
"""
def yolo2coordinates(x,y,w1,h1,img_w,img_h):
    xmin = round(img_w*(x-w1/2.0))
    xmax = round(img_w*(x+w1/2.0))
    ymin = round(img_h*(y-h1/2.0))
    ymax = round(img_h*(y+h1/2.0))
    print(xmin,ymin, xmax, ymax)
    return xmin, ymin, xmax,ymax

YOLO　边框预测中的坐标系转换详解_ANTennaaa的博客-CSDN博客_yolo坐标

在最后一层使用线性激活函数，其他所有层使用leark relu

损失函数使用平方损失。使用平方误差是因为比较好优化，但是这并不符合最大化map的目的。这将定位误差和分类误差同等对待，这并不是最好的。而且，在每个图像中，许多网格可能并不包含任何对象。对与那些网格不包含检测物体的网格，置信度等于0。这导致模型训练不稳定。为了解决这一问题，增加了边界框坐标损失，减少了不包含物体的框的置信度的损失。我们使用两个参数λcoord和λnoobj来实现这一点。我们设λcoord = 5，λnoobj = .5。

平方和误差也同样对待大边界框和小边界框中的误差。误差度量应该反映出大边界框中的小偏差比小盒子中的小偏差影响更小。为了解决这个问题，我们预测边界框宽度和高度的平方根，而不是直接预测宽度和高度。

YOLOv1，每个网格预测多个边界框。在训练的时候，希望每一个边界框只负责预测一个检测物体。这里边界框的选取是基于IOU来进行选择的，判断预测的边界框和真实的边界框是最大的。

损失函数：

如果物体存在网格中，则损失函数仅惩罚分类错误。如果边界框对于真实边界框是可靠的，那么损失函数仅惩罚坐标误差。

损失函数的第一部分计算预测边界框和真实边界框中心点之间的误差
计算预测边界框和真实边界框宽高损失
第三部分和第四部分表示预测边界框的置信度和预测
最后一部分计算类概率损失

为了避免过拟合，使用了dropout和数据增强。

推理

在PASCAL VOC上，每个图像预测98个边界框和每个边界框的类概率。

通常情况下，一个物体只落在一个网格（grid cell）中，而且每个物体只有一个边界框（bounding boxes）。

对于一些大物体，或靠近多个网格的物体可以被多个物体很好的定位检测。

这时NMS(非极大抑制)可以用于修正这些多重检测。

yolov1的局限性：

yolov1对边界框的预测施加了很强的空间约束，因为每个网格只能预测两个框并且只能包含一个物体类别。这限制了预测的数量，比如成群的鸟都无法预测。
模型是从数据集中，学习边界框，所以很难检测不同长宽比的对象。
损失函数同等对待小边界框的误差和大边界框的误差。大边界框的偏移是相对来说微小的，但是小边界框的偏移是巨大的。

代码

准备数据

这里使用pascal voc2012数据集进行训练。

数据集的详细介绍：PASCAL VOC2012数据集介绍_太阳花的小绿豆的博客-CSDN博客_voc2012数据集

"""
数据准备，将数据处理为两个文件，一个是train.csv,另一个是train.txt。同理也会有test.csv, test.txt
train.csv: 每一行是一张图片的标签，具体储存情况根据不同任务的需求自行设定
train.txt: 每一行是图片的路径，该文件每行的图片和train.csv的每一行标注应该是一一对应的
另外，根据需要将图片稍微离线处理一下，比如将原图片裁剪出训练使用的图片(resize成训练要求大小)后，保存在自定义文件夹中，train.txt里的路径应与自定义文件夹相同
"""
import xml.etree.ElementTree as ET
import numpy as np
import cv2
import random
import os

GL_CLASSES = ['person', 'bird', 'cat', 'cow', 'dog', 'horse', 'sheep',
           'aeroplane', 'bicycle', 'boat', 'bus', 'car', 'motorbike', 'train',
           'bottle', 'chair', 'diningtable', 'pottedplant', 'sofa', 'tvmonitor']
GL_NUMBBOX = 2
GL_NUMGRID = 7
STATIC_DATASET_PATH = r'./VOCdevkit/VOC2012/'
STATIC_DEBUG = False  # 调试用

def convert(size, box):
    """将bbox的左上角点、右下角点坐标的格式，转换为bbox中心点+bbox的w,h的格式
    并进行归一化"""
    dw = 1. / size[0]
    dh = 1. / size[1]
    x = (box[0] + box[1]) / 2.0
    y = (box[2] + box[3]) / 2.0
    w = box[1] - box[0]
    h = box[3] - box[2]
    x = x * dw
    w = w * dw
    y = y * dh
    h = h * dh
    return (x, y, w, h)

def convert_annotation(anno_dir, image_id, labels_dir):
    """把图像image_id的xml文件转换为目标检测的label文件(txt)
    其中包含物体的类别，bbox的左上角点坐标以及bbox的宽、高
    并将四个物理量归一化"""
    in_file = open(os.path.join(anno_dir, 'Annotations/%s' % (image_id)))
    image_id = image_id.split('.')[0]
    tree = ET.parse(in_file)
    root = tree.getroot()
    size = root.find('size')
    w = int(size.find('width').text)
    h = int(size.find('height').text)

    for obj in root.iter('object'):
        difficult = obj.find('difficult').text
        cls = obj.find('name').text
        if cls not in GL_CLASSES or int(difficult) == 1:
            continue
        cls_id = GL_CLASSES.index(cls)
        xmlbox = obj.find('bndbox')
        points = (float(xmlbox.find('xmin').text), float(xmlbox.find('xmax').text), float(xmlbox.find('ymin').text),
             float(xmlbox.find('ymax').text))
        bb = convert((w, h), points)
        with open(os.path.join(labels_dir, '%s.txt' % (image_id)), 'a') as out_file:
            out_file.write(str(cls_id) + " " + " ".join([str(a) for a in bb]) + '\n')

def make_label_txt(anno_dir, labels_dir):
    """在labels文件夹下创建image_id.txt，对应每个image_id.xml提取出的bbox信息"""
    filenames = os.listdir(os.path.join(anno_dir,'Annotations'))[:13]
    for file in filenames:
        convert_annotation(anno_dir, file, labels_dir)

def img_augument(img_dir, save_img_dir, labels_dir):
    imgs_list = [x.split('.')[0]+".jpg" for x in os.listdir(labels_dir)]
    for img_name in imgs_list:
        print("process %s"%os.path.join(img_dir, img_name))
        img = cv2.imread(os.path.join(img_dir, img_name))
        h, w = img.shape[0:2]
        input_size = 448  # 输入YOLOv1网络的图像尺寸为448x448
        # 因为数据集内原始图像的尺寸是不定的，所以需要进行适当的padding，将原始图像padding成宽高一致的正方形
        # 然后再将Padding后的正方形图像缩放成448x448
        padw, padh = 0, 0  # 要记录宽高方向的padding具体数值，因为padding之后需要调整bbox的位置信息
        if h > w:
            padw = (h - w) // 2
            img = np.pad(img, ((0, 0), (padw, padw), (0, 0)), 'constant', constant_values=0)
        elif w > h:
            padh = (w - h) // 2
            img = np.pad(img, ((padh, padh), (0, 0), (0, 0)), 'constant', constant_values=0)
        img = cv2.resize(img, (input_size, input_size))
        cv2.imwrite(os.path.join(save_img_dir, img_name), img)
        # 读取图像对应的bbox信息，按1维的方式储存，每5个元素表示一个bbox的(cls,xc,yc,w,h)
        with open(os.path.join(labels_dir,img_name.split('.')[0] + ".txt"), 'r') as f:
            bbox = f.read().split('\n')
        bbox = [x.split() for x in bbox]
        bbox = [float(x) for y in bbox for x in y]
        if len(bbox) % 5 != 0:
            raise ValueError("File:"
                             + os.path.join(labels_dir,img_name.split('.')[0] + ".txt") + "——bbox Extraction Error!")

        # 根据padding、图像增广等操作，将原始的bbox数据转换为修改后图像的bbox数据
        if padw != 0:
            for i in range(len(bbox) // 5):
                bbox[i * 5 + 1] = (bbox[i * 5 + 1] * w + padw) / h
                bbox[i * 5 + 3] = (bbox[i * 5 + 3] * w) / h
                if STATIC_DEBUG:
                    cv2.rectangle(img, (int(bbox[1] * input_size - bbox[3] * input_size / 2),
                                        int(bbox[2] * input_size - bbox[4] * input_size / 2)),
                                  (int(bbox[1] * input_size + bbox[3] * input_size / 2),
                                   int(bbox[2] * input_size + bbox[4] * input_size / 2)), (0, 0, 255))
        elif padh != 0:
            for i in range(len(bbox) // 5):
                bbox[i * 5 + 2] = (bbox[i * 5 + 2] * h + padh) / w
                bbox[i * 5 + 4] = (bbox[i * 5 + 4] * h) / w
                if STATIC_DEBUG:
                    cv2.rectangle(img, (int(bbox[1] * input_size - bbox[3] * input_size / 2),
                                        int(bbox[2] * input_size - bbox[4] * input_size / 2)),
                                  (int(bbox[1] * input_size + bbox[3] * input_size / 2),
                                   int(bbox[2] * input_size + bbox[4] * input_size / 2)), (0, 0, 255))
        # 此处可以写代码验证一下，查看padding后修改的bbox数值是否正确，在原图中画出bbox检验
        if STATIC_DEBUG:
            cv2.imshow("bbox-%d"%int(bbox[0]), img)
            cv2.waitKey(0)
        with open(os.path.join(labels_dir, img_name.split('.')[0] + ".txt"), 'w') as f:
            for i in range(len(bbox) // 5):
                bbox = [str(x) for x in bbox[i*5:(i*5+5)]]
                str_context = " ".join(bbox)+'\n'
                f.write(str_context)

def convert_bbox2labels(bbox):
    """将bbox的(cls,x,y,w,h)数据转换为训练时方便计算Loss的数据形式(7,7,5*B+cls_num)
    注意，输入的bbox的信息是(xc,yc,w,h)格式的，转换为labels后，bbox的信息转换为了(px,py,w,h)格式"""
    gridsize = 1.0/GL_NUMGRID
    labels = np.zeros((7,7,5*GL_NUMBBOX+len(GL_CLASSES)))  # 注意，此处需要根据不同数据集的类别个数进行修改
    for i in range(len(bbox)//5):
        gridx = int(bbox[i*5+1] // gridsize)  # 当前bbox中心落在第gridx个网格,列
        gridy = int(bbox[i*5+2] // gridsize)  # 当前bbox中心落在第gridy个网格,行
        # (bbox中心坐标 - 网格左上角点的坐标)/网格大小  ==> bbox中心点的相对位置
        gridpx = bbox[i * 5 + 1] / gridsize - gridx
        gridpy = bbox[i * 5 + 2] / gridsize - gridy
        # 将第gridy行，gridx列的网格设置为负责当前ground truth的预测，置信度和对应类别概率均置为1
        labels[gridy, gridx, 0:5] = np.array([gridpx, gridpy, bbox[i * 5 + 3], bbox[i * 5 + 4], 1])
        labels[gridy, gridx, 5:10] = np.array([gridpx, gridpy, bbox[i * 5 + 3], bbox[i * 5 + 4], 1])
        labels[gridy, gridx, 10+int(bbox[i*5])] = 1
    labels = labels.reshape(1, -1)
    return labels

def create_csv_txt(img_dir, anno_dir, save_root_dir, train_val_ratio=0.9, padding=10, debug=False):
    """
    TODO:
    将img_dir文件夹内的图片按实际需要处理后，存入save_dir
    最终得到图片文件夹及所有图片对应的标注(train.csv/test.csv)和图片列表文件(train.txt, test.txt)
    """
    labels_dir = os.path.join(anno_dir, "labels")
    if not os.path.exists(labels_dir):
        os.mkdir(labels_dir)
        make_label_txt(anno_dir, labels_dir)
        print("labels done.")
    save_img_dir = os.path.join(os.path.join(anno_dir, "voc2012_forYolov1"), "img")
    if not os.path.exists(save_img_dir):
        os.mkdir(save_img_dir)
        img_augument(img_dir, save_img_dir, labels_dir)
    imgs_list = os.listdir(save_img_dir)
    n_trainval = len(imgs_list)
    shuffle_id = list(range(n_trainval))
    random.shuffle(shuffle_id)
    n_train = int(n_trainval*train_val_ratio)
    train_id = shuffle_id[:n_train]
    test_id = shuffle_id[n_train:]
    traintxt = open(os.path.join(save_root_dir, "train.txt"), 'w')
    traincsv = np.zeros((n_train, GL_NUMGRID*GL_NUMGRID*(5*GL_NUMBBOX+len(GL_CLASSES))),dtype=np.float32)
    for i,id in enumerate(train_id):
        img_name = imgs_list[id]
        img_path = os.path.join(save_img_dir, img_name)+'\n'
        traintxt.write(img_path)
        with open(os.path.join(labels_dir,"%s.txt"%img_name.split('.')[0]), 'r') as f:
            bbox = [float(x) for x in f.read().split()]
            traincsv[i,:] = convert_bbox2labels(bbox)
    np.savetxt(os.path.join(save_root_dir, "train.csv"), traincsv)
    print("Create %d train data." % (n_train))

    testtxt = open(os.path.join(save_root_dir, "test.txt"), 'w')
    testcsv = np.zeros((n_trainval - n_train, GL_NUMGRID*GL_NUMGRID*(5*GL_NUMBBOX+len(GL_CLASSES))),dtype=np.float32)
    for i,id in enumerate(test_id):
        img_name = imgs_list[id]
        img_path = os.path.join(save_img_dir, img_name)+'\n'
        testtxt.write(img_path)
        with open(os.path.join(labels_dir,"%s.txt"%img_name.split('.')[0]), 'r') as f:
            bbox = [float(x) for x in f.read().split()]
            testcsv[i,:] = convert_bbox2labels(bbox)
    np.savetxt(os.path.join(save_root_dir, "test.csv"), testcsv)
    print("Create %d test data." % (n_trainval-n_train))

if __name__ == '__main__':
    random.seed(0)
    np.set_printoptions(threshold=np.inf)
    img_dir = os.path.join(STATIC_DATASET_PATH, "JPEGImages")  # 原始图像文件夹
    anno_dirs = [STATIC_DATASET_PATH]  # 标注文件
    save_dir = os.path.join(STATIC_DATASET_PATH, "voc2012_forYolov1")  # 保存处理后的数据(图片+标签)的文件夹
    if not os.path.exists(save_dir):
        os.mkdir(save_dir)
    # 分别处理
    for anno_dir in anno_dirs:
        create_csv_txt(img_dir, anno_dir, save_dir, debug=False)

dataset

from torch.utils.data import Dataset, DataLoader
import numpy as np
import os
import random
import torch
from PIL import Image
import torchvision.transforms as transforms

class MyDataset(Dataset):
    def __init__(self, dataset_dir, seed=None, mode="train", train_val_ratio=0.9, trans=None):
        """
        :param dataset_dir: 数据所在文件夹
        :param seed: 打乱数据所用的随机数种子
        :param mode: 数据模式，"train", "val", "test"
        :param train_val_ratio: 训练时，训练集:验证集的比例
        :param trans:  数据预处理函数

        TODO:
        1. 读取储存图片路径的.txt文件，并保存在self.img_list中
        2. 读取储存样本标签的.csv文件，并保存在self.label中
        3. 如果mode="train"， 将数据集拆分为训练集和验证集，用self.use_ids来保存对应数据集的样本序号。
            注意，mode="train"和"val"时，必须传入随机数种子，且两者必须相同
        4. 保存传入的数据增广函数
        """
        if seed is None:
            seed = random.randint(0, 65536)
        random.seed(seed)
        self.dataset_dir = dataset_dir
        self.mode = mode
        if mode=="val":
            mode = "train"
        img_list_txt = os.path.join(dataset_dir, mode+".txt").replace('\\','/')  # 储存图片位置的列表
        label_csv = os.path.join(dataset_dir, mode+".csv").replace('\\','/')  # 储存标签的数组文件
        self.img_list = []
        self.label = np.loadtxt(label_csv)  # 读取标签数组文件
        # 读取图片位置文件
        with open(img_list_txt, 'r') as f:
            for line in f.readlines():
                self.img_list.append(line.strip())
        # 在mode=train或val时， 将数据进行切分
        # 注意在mode="val"时，传入的随机种子seed要和mode="train"相同
        self.num_all_data = len(self.img_list)
        all_ids = list(range(self.num_all_data))
        num_train = int(train_val_ratio*self.num_all_data)
        if self.mode == "train":
            self.use_ids = all_ids[:num_train]
        elif self.mode == "val":
            self.use_ids = all_ids[num_train:]
        else:
            self.use_ids = all_ids

        # 储存数据增广函数
        self.trans = trans

    def __len__(self):
        """获取数据集数量"""
        return len(self.use_ids)

    def __getitem__(self, item):
        """
        TODO:
        1. 按顺序依次取出第item个训练数据img及其对应的样本标签label
        2. 图像数据要进行预处理，并最终转换为(c, h, w)的维度，同时转换为torch.tensor
        3. 样本标签要按需要转换为指定格式的torch.tensor
        """
        id = self.use_ids[item]
        label = torch.tensor(self.label[id, :])
        img_path = self.img_list[id]
        img = Image.open(img_path)
        if self.trans is None:
            trans = transforms.Compose([
                # transforms.Resize((112,112)),
                transforms.ToTensor(),
            ])
        else:
            trans = self.trans
        img = trans(img)  # 图像预处理&数据增广
        # transforms.ToPILImage()(img).show()  # for debug
        # print(label)
        return img, label

if __name__ == '__main__':
    # 调试用，依次取出数据看看是否正确
    dataset_dir = "./VOCdevkit/VOC2012/voc2012_forYolov1"
    dataset = MyDataset(dataset_dir)
    image,label=dataset[1]
    print(image.shape)
    print(label.shape)
    # dataloader = DataLoader(dataset, 1)
    # for i in enumerate(dataloader):
    #     input("press enter to continue")

网络结构

import torch
import torch.nn as nn
import torchvision.models as tvmodel

GL_CLASSES = ['person', 'bird', 'cat', 'cow', 'dog', 'horse', 'sheep',
           'aeroplane', 'bicycle', 'boat', 'bus', 'car', 'motorbike', 'train',
           'bottle', 'chair', 'diningtable', 'pottedplant', 'sofa', 'tvmonitor']
GL_NUMBBOX = 2
GL_NUMGRID = 7

def calculate_iou(bbox1, bbox2):
    """计算bbox1=(x1,y1,x2,y2)和bbox2=(x3,y3,x4,y4)两个bbox的iou"""
    if bbox1[2]<=bbox1[0] or bbox1[3]<=bbox1[1] or bbox2[2]<=bbox2[0] or bbox2[3]<=bbox2[1]:
        return 0  # 如果bbox1或bbox2没有面积，或者输入错误，直接返回0

    intersect_bbox = [0., 0., 0., 0.]  # bbox1和bbox2的重合区域的(x1,y1,x2,y2)

    intersect_bbox[0] = max(bbox1[0],bbox2[0])
    intersect_bbox[1] = max(bbox1[1],bbox2[1])
    intersect_bbox[2] = min(bbox1[2],bbox2[2])
    intersect_bbox[3] = min(bbox1[3],bbox2[3])

    w = max(intersect_bbox[2] - intersect_bbox[0], 0)
    h = max(intersect_bbox[3] - intersect_bbox[1], 0)
    area1 = (bbox1[2] - bbox1[0]) * (bbox1[3] - bbox1[1])  # bbox1面积
    area2 = (bbox2[2] - bbox2[0]) * (bbox2[3] - bbox2[1])  # bbox2面积
    area_intersect = w * h  # 交集面积
    iou = area_intersect / (area1 + area2 - area_intersect + 1e-6)  # 防止除0
    # print(bbox1,bbox2)
    # print(intersect_bbox)
    # input()
    return iou

class MyNet(nn.Module):

    def __init__(self):
        """
        :param args: 构建网络所需要的参数

        TODO:
        在__init__()函数里，将网络框架搭好，并存在self里
        """
        super(MyNet, self).__init__()
        resnet = tvmodel.resnet34(pretrained=True)  # 调用torchvision里的resnet34预训练模型
        resnet_out_channel = resnet.fc.in_features  # 记录resnet全连接层之前的网络输出通道数，方便连入后续卷积网络中
        self.resnet = nn.Sequential(*list(resnet.children())[:-2])  # 去除resnet的最后两层
        # 以下是YOLOv1的最后四个卷积层
        self.Conv_layers = nn.Sequential(
            nn.Conv2d(resnet_out_channel, 1024, 3, padding=1),
            nn.BatchNorm2d(1024),  # 为了加快训练，这里增加了BN层，原论文里YOLOv1是没有的
            nn.LeakyReLU(inplace=True),
            nn.Conv2d(1024, 1024, 3, stride=2, padding=1),
            nn.BatchNorm2d(1024),
            nn.LeakyReLU(inplace=True),
            nn.Conv2d(1024, 1024, 3, padding=1),
            nn.BatchNorm2d(1024),
            nn.LeakyReLU(inplace=True),
            nn.Conv2d(1024, 1024, 3, padding=1),
            nn.BatchNorm2d(1024),
            nn.LeakyReLU(inplace=True),
        )
        # 以下是YOLOv1的最后2个全连接层
        self.Conn_layers = nn.Sequential(
            nn.Linear(GL_NUMGRID * GL_NUMGRID * 1024, 4096),
            nn.LeakyReLU(inplace=True),
            nn.Linear(4096, GL_NUMGRID * GL_NUMGRID * (5*GL_NUMBBOX+len(GL_CLASSES))),
            nn.Sigmoid()  # 增加sigmoid函数是为了将输出全部映射到(0,1)之间，因为如果出现负数或太大的数，后续计算loss会很麻烦
        )

    def forward(self, inputs):

        x = self.resnet(inputs)
        x = self.Conv_layers(x)
        x = x.view(x.size()[0], -1)
        x = self.Conn_layers(x)
        self.pred = x.reshape(-1, (5 * GL_NUMBBOX + len(GL_CLASSES)), GL_NUMGRID, GL_NUMGRID)  # 记住最后要reshape一下输出数据
        return self.pred

    def calculate_loss(self, labels):
        """
        TODO: 根据labels和self.outputs计算训练loss
        :param labels: (bs, n), 对应训练数据的样本标签
        :return: loss数值
        """
        self.pred = self.pred.double()
        labels = labels.double()
        num_gridx, num_gridy = GL_NUMGRID, GL_NUMGRID  # 划分网格数量
        noobj_confi_loss = 0.  # 不含目标的网格损失(只有置信度损失)
        coor_loss = 0.  # 含有目标的bbox的坐标损失
        obj_confi_loss = 0.  # 含有目标的bbox的置信度损失
        class_loss = 0.  # 含有目标的网格的类别损失
        n_batch = labels.size()[0]  # batchsize的大小

        # 可以考虑用矩阵运算进行优化，提高速度，为了准确起见，这里还是用循环
        for i in range(n_batch):  # batchsize循环
            for n in range(num_gridx):  # x方向网格循环
                for m in range(num_gridy):  # y方向网格循环
                    if labels[i, 4, m, n] == 1:  # 如果包含物体
                        # 将数据(px,py,w,h)转换为(x1,y1,x2,y2)
                        # 先将px,py转换为cx,cy，即相对网格的位置转换为标准化后实际的bbox中心位置cx,xy
                        # 然后再利用(cx-w/2,cy-h/2,cx+w/2,cy+h/2)转换为xyxy形式，用于计算iou
                        bbox1_pred_xyxy = ((self.pred[i, 0, m, n] + n) / num_gridx - self.pred[i, 2, m, n] / 2,
                                           (self.pred[i, 1, m, n] + m) / num_gridy - self.pred[i, 3, m, n] / 2,
                                           (self.pred[i, 0, m, n] + n) / num_gridx + self.pred[i, 2, m, n] / 2,
                                           (self.pred[i, 1, m, n] + m) / num_gridy + self.pred[i, 3, m, n] / 2)
                        bbox2_pred_xyxy = ((self.pred[i, 5, m, n] + n) / num_gridx - self.pred[i, 7, m, n] / 2,
                                           (self.pred[i, 6, m, n] + m) / num_gridy - self.pred[i, 8, m, n] / 2,
                                           (self.pred[i, 5, m, n] + n) / num_gridx + self.pred[i, 7, m, n] / 2,
                                           (self.pred[i, 6, m, n] + m) / num_gridy + self.pred[i, 8, m, n] / 2)
                        bbox_gt_xyxy = ((labels[i, 0, m, n] + n) / num_gridx - labels[i, 2, m, n] / 2,
                                        (labels[i, 1, m, n] + m) / num_gridy - labels[i, 3, m, n] / 2,
                                        (labels[i, 0, m, n] + n) / num_gridx + labels[i, 2, m, n] / 2,
                                        (labels[i, 1, m, n] + m) / num_gridy + labels[i, 3, m, n] / 2)
                        iou1 = calculate_iou(bbox1_pred_xyxy, bbox_gt_xyxy)
                        iou2 = calculate_iou(bbox2_pred_xyxy, bbox_gt_xyxy)
                        # 选择iou大的bbox作为负责物体
                        if iou1 >= iou2:
                            coor_loss = coor_loss + 5 * (torch.sum((self.pred[i, 0:2, m, n] - labels[i, 0:2, m, n]) ** 2) \
                                        + torch.sum((self.pred[i, 2:4, m, n].sqrt() - labels[i, 2:4, m, n].sqrt()) ** 2))
                            obj_confi_loss = obj_confi_loss + (self.pred[i, 4, m, n] - iou1) ** 2
                            # iou比较小的bbox不负责预测物体，因此confidence loss算在noobj中，注意，对于标签的置信度应该是iou2
                            noobj_confi_loss = noobj_confi_loss + 0.5 * ((self.pred[i, 9, m, n] - iou2) ** 2)
                        else:
                            coor_loss = coor_loss + 5 * (torch.sum((self.pred[i, 5:7, m, n] - labels[i, 5:7, m, n]) ** 2) \
                                        + torch.sum((self.pred[i, 7:9, m, n].sqrt() - labels[i, 7:9, m, n].sqrt()) ** 2))
                            obj_confi_loss = obj_confi_loss + (self.pred[i, 9, m, n] - iou2) ** 2
                            # iou比较小的bbox不负责预测物体，因此confidence loss算在noobj中,注意，对于标签的置信度应该是iou1
                            noobj_confi_loss = noobj_confi_loss + 0.5 * ((self.pred[i, 4, m, n] - iou1) ** 2)
                        class_loss = class_loss + torch.sum((self.pred[i, 10:, m, n] - labels[i, 10:, m, n]) ** 2)
                    else:  # 如果不包含物体
                        # hh=self.pred[i,[4,9],m,n]**2  ## 4 和 9 说明只有置信度损失参与计算，边界框损失和类别损失不参与计算
                        noobj_confi_loss = noobj_confi_loss + 0.5 * torch.sum(self.pred[i, [4, 9], m, n] ** 2)

        loss = coor_loss + obj_confi_loss + noobj_confi_loss + class_loss

        return loss / n_batch

    def calculate_metric(self, preds, labels):
        """
        TODO: 根据preds和labels，以及指定的评价方法计算网络效果得分， 网络validation时使用
        :param preds: 预测数据
        :param labels: 预测数据对应的样本标签
        :return: 评估得分metric
        """
        preds = preds.double()
        labels = labels[:, :(self.n_points*2)]
        l2_distance = torch.mean(torch.sum((preds-labels)**2, dim=1))
        return l2_distance


if __name__ == '__main__':
    # 自定义输入张量，验证网络可以正常跑通，并计算loss，调试用
    x = torch.zeros(5,3,448,448)
    net = MyNet()
    a = net(x)
    # labels = torch.zeros(5, 30, 7, 7)
    labels=torch.ones(5,30,7,7)
    loss = net.calculate_loss(labels)
    print(loss)
    print('a shape',a.shape)

训练

import os
import datetime
import time
import torch
from torch.utils.data import DataLoader

from model import MyNet
from data import MyDataset
from my_arguments import Args
from prepare_data import GL_CLASSES, GL_NUMBBOX, GL_NUMGRID
from util import labels2bbox


class TrainInterface(object):
    """
    网络训练接口，
    __train(): 训练过程函数
    __validate(): 验证过程函数
    __save_model(): 保存模型函数
    main(): 训练网络主函数
    """
    def __init__(self, opts):
        """
        :param opts: 命令行参数
        """
        self.opts = opts
        print("=======================Start training.=======================")

    @staticmethod
    def __train(model, train_loader, optimizer, epoch, num_train, opts):
        """
        完成一个epoch的训练
        :param model: torch.nn.Module, 需要训练的网络
        :param train_loader: torch.utils.data.Dataset, 训练数据集对应的类
        :param optimizer: torch.optim.Optimizer, 优化网络参数的优化器
        :param epoch: int, 表明当前训练的是第几个epoch
        :param num_train: int, 训练集数量
        :param opts: 命令行参数
        """
        model.train()
        device = opts.GPU_id
        avg_metric = 0.  # 平均评价指标
        avg_loss = 0.  # 平均损失数值
        # log_file是保存网络训练过程信息的文件，网络训练信息会以追加的形式打印在log.txt里，不会覆盖原有log文件
        log_file = open(os.path.join(opts.checkpoints_dir, "log.txt"), "a+")
        localtime = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S")  # 打印训练时间
        log_file.write(localtime)
        log_file.write("\n======================training epoch %d======================\n"%epoch)
        for i,(imgs, labels) in enumerate(train_loader):
            labels = labels.view(1, GL_NUMGRID, GL_NUMGRID, 30)
            labels = labels.permute(0,3,1,2)
            if opts.use_GPU:
                imgs = imgs.to(device)
                labels = labels.to(device)
            preds = model(imgs)  # 前向传播
            loss = model.calculate_loss(labels)  # 计算损失
            optimizer.zero_grad()  # 梯度清零
            loss.backward()  # 反向传播
            optimizer.step()  # 优化网络参数
            # metric = model.calculate_metric(preds, labels)  # 计算评价指标
            # avg_metric = (avg_metric*i+metric)/(i+1)
            avg_loss = (avg_loss*i+loss.item())/(i+1)
            if i % opts.print_freq == 0:  # 根据打印频率输出log信息和训练信息
                print("Epoch %d/%d | Iter %d/%d | training loss = %.3f, avg_loss = %.3f" %
                      (epoch, opts.epoch, i, num_train//opts.batch_size, loss.item(), avg_loss))
                log_file.write("Epoch %d/%d | Iter %d/%d | training loss = %.3f, avg_loss = %.3f\n" %
                      (epoch, opts.epoch, i, num_train//opts.batch_size, loss.item(), avg_loss))
                log_file.flush()
        log_file.close()

    @staticmethod
    def __validate(model, val_loader, epoch, num_val, opts):
        """
        完成一个epoch训练后的验证任务
        :param model: torch.nn.Module, 需要训练的网络
        :param _loader: torch.utils.data.Dataset, 验证数据集对应的类
        :param epoch: int, 表明当前训练的是第几个epoch
        :param num_val: int, 验证集数量
        :param opts: 命令行参数
        """
        model.eval()
        log_file = open(os.path.join(opts.checkpoints_dir, "log.txt"), "a+")
        log_file.write("======================validate epoch %d======================\n"%epoch)
        preds = None
        gts = None
        avg_metric = 0.
        with torch.no_grad():  # 加上这个可以减少在validation过程时的显存占用，提高代码的显存利用率
            for i,(imgs, labels) in enumerate(val_loader):
                if opts.use_GPU:
                    imgs = imgs.to(opts.GPU_id)
                pred = model(imgs).cpu().squeeze(dim=0).permute(1,2,0)
                pred_bbox = labels2bbox(pred)  # 将网络输出经过NMS后转换为shape为(-1, 6)的bbox
            metric = model.calculate_metric(preds, gts)
            print("Evaluation of validation result: average L2 distance = %.5f"%(metric))
            log_file.write("Evaluation of validation result: average L2 distance = %.5f\n"%(metric))
            log_file.flush()
            log_file.close()
        return metric

    @staticmethod
    def __save_model(model, epoch, opts):
        """
        保存第epoch个网络的参数
        :param model: torch.nn.Module, 需要训练的网络
        :param epoch: int, 表明当前训练的是第几个epoch
        :param opts: 命令行参数
        """
        model_name = "epoch%d.pth" % epoch
        save_dir = os.path.join(opts.checkpoints_dir, model_name)
        torch.save(model, save_dir)


    def main(self):
        """
        训练接口主函数，完成整个训练流程
        1. 创建训练集和验证集的DataLoader类
        2. 初始化带训练的网络
        3. 选择合适的优化器
        4. 训练并验证指定个epoch，保存其中评价指标最好的模型，并打印训练过程信息
        5. TODO: 可视化训练过程信息
        """
        opts = self.opts
        if not os.path.exists(opts.checkpoints_dir):
            os.mkdir(opts.checkpoints_dir)
        random_seed = opts.random_seed
        train_dataset = MyDataset(opts.dataset_dir, seed=random_seed, mode="train", train_val_ratio=0.9)
        val_dataset = MyDataset(opts.dataset_dir, seed=random_seed, mode="val", train_val_ratio=0.9)
        train_loader = DataLoader(train_dataset, opts.batch_size, shuffle=True, num_workers=opts.num_workers)
        val_loader = DataLoader(val_dataset, batch_size=1, shuffle=False, num_workers=opts.num_workers)
        num_train = len(train_dataset)
        num_val = len(val_dataset)

        if opts.pretrain is None:
            model = MyNet()
        else:
            model = torch.load(opts.pretrain)
        if opts.use_GPU:
            model.to(opts.GPU_id)
        optimizer = torch.optim.SGD(model.parameters(), lr=opts.lr, momentum=0.9, weight_decay=opts.weight_decay)
        # optimizer = torch.optim.Adam(model.parameters(), lr=opts.lr, weight_decay=opts.weight_decay)

        best_metric=1000000
        for e in range(opts.start_epoch, opts.epoch+1):
            t = time.time()
            self.__train(model, train_loader, optimizer, e, num_train, opts)
            t2 = time.time()
            print("Training consumes %.2f second\n" % (t2-t))
            with open(os.path.join(opts.checkpoints_dir, "log.txt"), "a+") as log_file:
                log_file.write("Training consumes %.2f second\n" % (t2-t))
            if e % opts.save_freq==0 or e == opts.epoch+1:
                # t = time.time()
                # metric = self.__validate(model, val_loader, e, num_val, opts)
                # t2 = time.time()
                # print("Validation consumes %.2f second\n" % (t2 - t))
                # with open(os.path.join(opts.checkpoints_dir, "log.txt"), "a+") as log_file:
                #     log_file.write("Validation consumes %.2f second\n" % (t2 - t))
                # if best_metric>metric:
                #     best_metric = metric
                #     print("Epoch %d is now the best epoch with metric %.4f\n"%(e, best_metric))
                #     with open(os.path.join(opts.checkpoints_dir, "log.txt"), "a+") as log_file:
                #         log_file.write("Epoch %d is now the best epoch with metric %.4f\n"%(e, best_metric))
                self.__save_model(model, e, opts)


if __name__ == '__main__':
    # 训练网络代码
    args = Args()
    args.set_train_args()  # 获取命令行参数
    train_interface = TrainInterface(args.get_opts())
    train_interface.main()  # 调用训练接口

参考文献：

lavendelion/YOLOv1-from-scratch: YOLOv1-from-scratch (github.com)

你可能感兴趣的:(经典的神经网络结构,目标检测,深度学习,人工智能)

uni-app 多端开发中 AI 的集成与适配：一次开发，智能多端运行欧阳天羲大前端与 AI 的深度融合 #AI 与大前端框架结合篇 uni-app 人工智能前端
一、引言：uni-app与AI多端集成的背景在当今跨平台开发趋势下，uni-app凭借"一次编写，多端运行"的特性成为企业级应用开发的首选框架之一。随着人工智能技术的普及，将AI能力集成到多端应用中已成为提升用户体验的关键需求。然而，小程序、APP、Web等不同端的运行环境差异显著，如何实现AI功能的统一集成与高效适配成为开发难点。本文将系统讲解在uni-app框架中集成AI能力的完整方案，涵盖跨
大语言模型技术系列讲解：大模型应用了哪些技术知世不是芝士语言模型人工智能自然语言处理 chatgpt 大模型
为了弄懂大语言模型原理和技术细节，笔者计划展开系列学习，并将所学内容从简单到复杂的过程给大家做分享，希望能够体系化的认识大模型技术的内涵。本篇文章作为第一讲，先列出大模型使用到了哪些技术，目的在于对大模型使用的技术有个整体认知。后续我们讲一一详细讲解这些技术概念并解剖其背后原理。正文开始大语言模型（LLMs）在人工智能领域通常指的是参数量巨大、能够处理复杂任务的深度学习模型。这些模型使用的技术主要
免费学中医，这些优质资源不容错过少林659 零基础学中医免费学中医
零基础学中医，学中医如何入门免费学中医！问止精一书院链接：https://tool.nineya.com/qrcode/1iv54b4ts想入门中医却担心成本太高？其实有不少免费又优质的学习资源，问止中医的系列免费课程就是其中的佼佼者，涵盖理论与实操，满足不同学习者的需求。问止中医旗下的精一书院，是免费学中医的绝佳平台。由问止中医联合创始人林大栋博士主讲，课程聚焦中医结构分析、人工智能中医大脑技术
思维树(Tree of Thoughts): 超越链式思维的AI推理新范式司南锤 LLM 人工智能
引言在人工智能快速发展的今天，大语言模型(LLM)的推理能力一直是研究的热点。从最初的直接问答，到链式思维(ChainofThoughts,CoT)的出现，再到如今的思维树(TreeofThoughts,TOT)，AI的推理方式正在变得越来越接近人类的思维过程。思维树作为一种全新的推理框架，不仅继承了链式思维的优势，更通过树状结构的探索和回溯机制，实现了更加复杂和深入的推理过程。本文将深入探讨TO
【深度学习-Day 33】从零到一：亲手构建你的第一个卷积神经网络（CNN）吴师兄大模型深度学习入门到精通深度学习 cnn 人工智能 python 大模型卷积神经网络（CNN）机器学习
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
AttributeError: module ‘openai‘ has no attribute ‘ChatCompletion‘解决方案爱编程的喵喵 Python基础课程 python AttributeError openai ChatCompletion 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了AttributeError:mod
RAG技术全面对比研究：探索最优检索增强生成策略
检索增强生成（RAG）技术全景解析：从基础到前沿在当今信息爆炸的时代，如何从海量数据中快速准确地获取所需信息，是人工智能领域的一大挑战。Retrieval-AugmentedGeneration（RAG，检索增强生成）技术应运而生，它结合了检索和生成的优势，通过从大量文档中检索相关信息，再利用这些信息生成高质量的回答。本文将系统性地介绍18种RAG技术，通过概念解析、代码示例和实际应用场景分析，帮
目标检测数据集——交通信号灯红绿灯检测数据集
在智能交通系统迅速发展的背景下，准确且实时地识别交通信号灯的状态对于提升道路安全和优化交通流量管理至关重要。无论是自动驾驶汽车还是辅助驾驶技术，可靠地检测并理解交通信号灯的指示——特别是红灯与绿灯的区别——是确保交通安全、避免交通事故的关键环节之一。然而，复杂的光照条件、不同的天气状况以及信号灯被遮挡等情况都给交通信号灯的识别带来了不小的挑战。这是专门针对交通信号灯（尤其是红绿灯）检测的数据集，旨
基于深度学习的草莓成熟度检测系统：YOLOv5 + UI界面 + 数据集 YOLO实战营深度学习YOLO实战项目深度学习 YOLO ui 人工智能目标跟踪
引言随着农业科技的发展，智能化的农业生产方式正逐步替代传统农业。果实的成熟度检测对于农业生产的管理至关重要，尤其是在果蔬的采摘、分拣和运输过程中。草莓作为一种广泛种植且受消费者喜爱的水果，其成熟度检测一直是农业智能化的重要研究方向。传统的草莓成熟度检测方法大多依赖人工经验，劳动强度大且容易出现误差，因此，基于计算机视觉和深度学习的草莓成熟度自动检测系统成为了一种理想选择。深度学习技术，尤其是卷积神
【DP动态规划】最大字段和深海潜水员动态规划算法
最大字段和算法：DP动态规划题目描述最大子段和问题是一个经典的算法问题，它要求在一个可能包含负整数的序列中找到一个连续子段，使得这个子段的整数和最大。例如，序列(-2,11,-4,13,-5,-2)的最大子段和是{11,-4,13}，其和为20。主要思想：DP的最核心的思想就是到目前为止的最优解：那么当前的最优解就等于上一个的最优解加上当前的值（如果值为正的话）当前的最优解dp到目前为止的最优解a
【人工智能】 AI的进化之路：大模型如何重塑技术格局蒙娜丽宁 Python杂谈人工智能人工智能 python
《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！解锁Python编程的无限可能：《奇妙的Python》带你漫游代码世界本文深入探讨了人工智能大模型的进化历程及其对技术格局的深远影响。从早期神经网络到现代大模型的突破，文章分析了关键技术进步，如Transformer架构、预训练机制和分布式计算。结合数学公式和代码示例，详细阐述了大模型的训练原理、优化方法及实际应用场景。文
数字人矩阵源码--基于深度学习的数字人面部表情合成我~18339948121 数字人源码数字人矩阵源码 123数字人源码矩阵深度学习线性代数人工智能 flask tornado python
AI正在席卷全球，数字人市场需求增长，用AI数字分身一天就能生产出几十条高质量短视频，你只需要上传一段视频，甚至都不用开口说话，直接复制粘贴文案，就能得到一个属于你的数字分身。深度学习数字人面部表情合成的关键技术3D面部建模与参数化建立高精度3D面部模型是表情合成的基础，常用Blendshape或面部动作编码系统（FACS）作为参数化控制方法。Blendshape通过线性组合基础表情形状生成新表情
数字人视频剪辑与数字人分身源码开发的的核心技术解析微~18339948121 数字人分身源码数字人剪辑源码数字人源码 django pygame virtualenv plotly scikit-learn flask tornado
数字人视频剪辑与分身的核心技术解析数字人视频剪辑和分身技术是近年来人工智能与计算机视觉领域的热点，涉及虚拟形象生成、动作驱动、语音合成等多项技术。以下从技术实现、应用场景和工具选择三个方面展开分析。数字人视频剪辑的关键技术视频剪辑中数字人的核心在于动态形象的生成与编辑。基于深度学习的生成对抗网络（GAN）和3D建模技术可实现高保真虚拟形象构建。典型流程包括：人物建模：通过多视角图像或视频数据重建3
探秘AI的秘密：leaked-system-prompts 人工智能我来了人工智能 AI 人工智能
揭秘：揭秘系统提示合集背后的秘密在当今这个人工智能技术迅速发展的时代，了解和使用大型语言模型（LLM）已成为技术爱好者、开发者和研究人员的共同目标。而作为核心组成部分，系统提示（systemprompts）的设计和应用直接影响了LLM的表现和功能。今天，我们将为大家揭示一个神秘而又充满吸引力的项目——“leaked-system-prompts”。这个项目为我们打开了一扇窥探这些大型语言模型系统提
代码探秘人工智能万能小贤哥人工智能
当你在手机上用语音发送消息，当短视频平台精准推送你感兴趣的内容，当智能音箱陪你聊天解闷，背后都有一位“隐形伙伴”——人工智能。它就像从科幻电影中走出的神奇力量，正悄然改变着我们的生活。今天，就让我们借助简单的Python代码，开启一场探索人工智能奥秘的奇妙之旅！人工智能：计算机的“超能力大脑”想象一下，如果给计算机装上“大脑”，让它学会像人类一样思考、学习和解决问题，会发生什么？这就是人工智能（A
以智能楼宇自动化控制系统为基石，构筑绿色建筑节能增效新标杆 ctrlworks 楼宇自控康沃思物联楼宇自控系统厂家 ba系统厂商建筑管理系统厂家 ibms系统厂家
在全球“双碳”目标加速推进与能源危机日益凸显的背景下，建筑行业作为能源消耗与碳排放的重点领域，正面临从传统建造向绿色智能化转型的迫切需求。数据显示，我国建筑运行阶段能耗占全社会总能耗超30%，碳排放占比达21.9%，而传统建筑管理模式下设备低效运行、能源浪费等问题普遍存在。智能楼宇自动化控制系统（BACS）凭借物联网、大数据、人工智能等技术，通过对建筑设备的精准监控、智能调度与协同管理，成为破解绿
探索生成式 AI Agent：12类，40+个AI Agent实例应用场景的宝藏库和老莫一起学AI 人工智能产品经理职场和发展面试自然语言处理 ai 大模型
在人工智能的璀璨星空中，生成式AI智能体（GenAIAgents）无疑是最耀眼的星辰之一，正以前所未有的速度改变着我们与技术互动的方式。今天，我将分享GitHub上一个宝藏级的项目——“NirDiamant/GenAI_Agents”，这里汇聚了从基础到高级的各种GenAI智能体技术教程与实现案例，堪称一座智能体开发的知识宝库。1.适合初学者的智能体简单会话智能体概览通过集成语言模型、提示模板和历
VSCode-Copilot的系统提示词 youngqqcn AI vscode copilot ide
title:VSCode-Copilot系统提示词date:2025-07-0211:05categories:技术tags:AI人工智能LLM大语言模型提示词Microsoft开源了VSCodeCopilotChat,以下是其系统提示词的摘录。https://github.com/microsoft/vscode-copilot-chat/blob/main/src/extension/prom
pytorch官方文档60分钟入门笔记 xiaodidadada 机器学习
文章目录1.张量（Tensors）定义张量张量操作2.自动求导（autograd）变量Variable3.神经网络4.训练一个分类器载入数据5.数据并行day63参考：官方文档https://blog.csdn.net/u014630987/article/details/786690511.张量（Tensors）tensors和numpy的ndarray类似,但是tensors可以使用GPU加快
边缘人工智能与医疗AI融合发展路径：技术融合与应用前景（下） Allen_Lyb 数智化医院2025 人工智能健康医疗数据库矩阵
医疗边缘AI的市场趋势医疗边缘AI市场正经历着显著的增长，根据市场研究公司的数据，2024年的边缘AI市场价值为125亿美元，估计在2025至2034年之间，由于各部门越来越多地采用边缘装置，CAGR为24.8%。保健、制造业、零售业和汽车业的企业拥有综合边缘计算解决方案[36]。这一增长趋势表明，边缘AI技术正在各行各业得到广泛应用，其中医疗保健是一个重要的应用领域。2023年全球边缘人工智能市
AI 编程对决：Gemini CLI vs Claude Code，谁是最佳 AI 编码工具？ charieli-fh 人工智能大模型
1.引言：AI编码工具的崛起在软件开发的快节奏世界中，人工智能（AI）工具正迅速从辅助角色转变为不可或缺的伙伴。它们不再仅仅是提供代码补全，而是能够理解复杂上下文、执行多步骤任务，甚至自动化整个工作流的智能代理。这种转变正在重塑开发者的日常工作，提高生产力，并加速创新。在众多涌现的AI编码工具中，Google的GeminiCLI和Anthropic的ClaudeCode脱颖而出，各自代表了AI辅助
百度颠覆了自己，飞算JavaAI造福了中国程序员！飞算JavaAI开发助手百度
在当今这个科技日新月异的时代，企业纷纷寻求技术突破，以期在激烈的市场竞争中脱颖而出。百度，作为中国互联网行业的领军企业之一，凭借其强大的科技实力和创新能力，在人工智能等多个领域取得了显著成就，并正在逐步颠覆自身的传统形象。百度自成立之初，就将技术创新视为企业的生命线。从最初的搜索引擎技术，到如今的深度学习、自然语言处理、计算机视觉等前沿领域，百度始终走在技术革新的前沿。其自主研发的飞桨深度学习平台
Java AI 开发智能体：从入门到实践培风图南以星河揽胜 java java 人工智能开发语言
在人工智能（AI）技术蓬勃发展的今天，智能体作为AI领域的核心概念之一，正逐渐渗透到各个行业与应用场景。而Java凭借其跨平台性、丰富的类库和强大的生态系统，成为开发智能体的热门选择。本文将深入探讨如何使用Java进行AI开发智能体，从基础概念到实践应用，解答常见问题，为你揭开JavaAI开发智能体的神秘面纱。一、Java在AI开发中的优势1.跨平台性Java的“一次编写，到处运行”特性，使得基于
ollama v0.9.4 详解：联网功能、模型目录自定义及macOS性能优化全面升级
近年来，随着人工智能技术的快速发展，模型管理与调用变得尤为重要。作为一款备受关注的本地AI模型管理工具，Ollama在最新发布的v0.9.4版本中带来了多项重磅改进和全新功能，提升了用户体验和应用场景的灵活性。本文将深入解析Ollamav0.9.4版本的功能亮点、技术改进以及实用操作指南，帮助广大开发者和AI爱好者全面掌握这款工具的最新动态。一、版本概述Ollamav0.9.4版本于2025年7月
【深度学习:进阶篇】--4.2.词嵌入和NLP 西柚小萌新吖(●ˇ∀ˇ●) #深度学习深度学习自然语言处理人工智能
在RNN中词使用one_hot表示的问题假设有10000个词每个词的向量长度都为10000，整体大小太大没能表示出词与词之间的关系例如Apple与Orange会更近一些，Man与Woman会近一些，取任意两个向量计算内积都为0目录1.词嵌入1.1.特点1.3.word2vec介绍1.3.Word2Vec案例1.3.1.训练语料1.3.2.步骤1.3.3.代码2.测试代码1.词嵌入定义：指把一个维数
【深度学习】卷积神经网络(CNN)原理 chaser&upper 深度学习神经网络卷积计算机视觉
【深度学习】卷积神经网络原理1.卷积神经网络的组成2.卷积层2.1卷积运算过程3.padding-零填充3.1ValidandSame卷积3.2奇数维度的过滤器4.stride-步长5.多通道卷积5.1多卷积核（多个Filter）6.卷积总结7.池化层(Pooling)8.全连接层9.总结1.卷积神经网络的组成定义卷积神经网络由一个或多个卷积层、池化层以及全连接层等组成。与其他深度学习结构相比，卷
深度学习学习经验——卷积神经网络（CNN） Linductor 深度学习学习经验深度学习学习 cnn
卷积神经网络卷积神经网络（CNN）1.卷积神经网络的基本组成2.卷积操作3.激活函数（ReLU）4.池化操作5.全连接层6.卷积神经网络的完整实现项目示例项目目标1.加载数据2.卷积层：图像的特征探测器2.1第一个卷积层3.激活函数：增加非线性4.池化层：信息压缩器5.多层卷积和池化：逐层提取更高层次的特征6.全连接层：分类器7.模型训练和测试完整的项目示例代码总结卷积神经网络（CNN）卷积神经网
用鸿蒙打造真正的跨设备数据库：从零实现分布式存储网罗开发 HarmonyOS 实战源码实战 harmonyos 数据库分布式
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
Python Day53 别勉. python机器学习 python 开发语言
Task：1.对抗生成网络的思想：关注损失从何而来2.生成器、判别器3.nn.sequential容器：适合于按顺序运算的情况，简化前向传播写法4.leakyReLU介绍：避免relu的神经元失活现象1.对抗生成网络的思想：关注损失从何而来这是理解GANs的关键！传统的神经网络训练中，我们通常会直接定义一个损失函数（如均方误差MSE、交叉熵CE），然后通过反向传播来优化这个损失。这个损失的“来源”
成为高级Python开发人员的完整学习路线与核心知识体系
引言Python已成为全球最受欢迎的编程语言之一，其简洁的语法和强大的生态系统使其在数据科学、Web开发、自动化、人工智能等领域占据重要地位。然而，从初级Python程序员到真正的高级开发人员，需要掌握一系列深入的知识点和实践经验。本文将详细介绍成为高级Python开发人员必备的核心知识体系，并提供系统化的学习资源，帮助你规划专业发展路径。第一部分：Python语言基础进阶1.Python语言特性
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23