嗯~啥也不会

YOLO V1代码

参考：YOLOV1（pytorch）代码讲解

1、数据集分析和处理

首先分析要处理的数据，由于个人电脑内存有限，处理数据，只选取VOC 2007数据集中的6张图片。主要目的是理解YOLO V1的工作原理。

下面是000015.xml的内容：

     
   VOC2007   
   
   000015.jpg
   
   
      The VOC2007 Database  
      PASCAL VOC2007
       
      flickr
      328420077
   
   
   
      toxan
      ?
   
    
   
      500
      375
      3
   
    
   0

目标框的定义方式

目标检测中，目标的标签需要包含两类信息：

目标类别

目标的位置信息（也就是目标的外接矩形bounding box, 简称为bbox)

用来表达bbox的格式通常有两种，(x1, y1, x2, y2) 和 (c_x, c_y, w, h) ，

（x1，y1）表示左上角坐标，（x2，y2）表示右下角坐标

（c_x，c_y）表示bbox中心点坐标，（w，h）表示bbox的宽高

2、画出数据集中某一个标注好的图片及其标注框

内有详细注释

import mxnet as mx
import xml.etree.ElementTree as ET
import matplotlib.pyplot as plt
# 在图像中绘制方框
from matplotlib.patches import Rectangle
import random
import cv2

# 测试图像的标注文件和图像
xml_path = 'VOCdevkit/VOC2007/Annotations/000015.xml'
img_path = 'VOCdevkit/VOC2007/JPEGImages/000015.jpg'

bbox = []
tree = ET.parse(xml_path) #生成一个总目录名为tree
root = tree.getroot()
objects = root.findall('object') #在总目录下找到object，名为objects
for object in objects:
    # 根据找出的object再进一步找出图像中的类别名
    name = object.find('name').text
    # xml中的标记信息中的bndbox
    bndbox = object.find('bndbox')

    # 对应坐标
    xmin = int(bndbox.find('xmin').text)
    ymin = int(bndbox.find('ymin').text)
    xmax = int(bndbox.find('xmax').text)
    ymax = int(bndbox.find('ymax').text)

    # 格式：类名:name+[坐标]
    bbox_i = [name, xmin, ymin, xmax, ymax]
    bbox.append(bbox_i)

print(bbox)

#将作为二进制字符串加载的图像转换为numpy数组
image_string = open(img_path, 'rb').read() #读取的是二进制字符串
#cv2.imdecode()函数从指定的内存缓存中读取数据，
#并把数据转换(解码)成图像格式;主要用于从网络传输数据中恢复出图像。
#展示的是原始图片的大小
image = mx.image.imdecode(image_string, flag=1).asnumpy()
# 显示原图
#它是用来创建 总画布/figure“窗口”的，
# 有figure就可以在上边（或其中一个子网格/subplot上）作图了，（fig：是figure的缩写）。
fig, ax = plt.subplots()
plt.imshow(image)

#colors为字典形式
colors = dict()
for bbox_i in bbox:
    class_name = bbox_i[0]
    if class_name not in colors:
        # 随机生成颜色或者自己指定也可以
        #{'bicycle': (0.46746658758487813, 0.38011471681747944, 0.038329821431872024)}
        colors[class_name] = (random.random(), random.random(), random.random())
    xmin = bbox_i[1]
    ymin = bbox_i[2]
    xmax = bbox_i[3]
    ymax = bbox_i[4]

    #rectangle函数是用来绘制一个矩形框的，通常用在图片的标记上。
    #Rectangle(xy=(77, 136), width=283, height=222, angle=0)
    rect = Rectangle(xy=(xmin, ymin), width=xmax - xmin,
                     height=ymax - ymin,
                     edgecolor=colors[class_name],
                     facecolor='None',
                     linewidth=3.5  #线条宽度
                     )
    #给图形添加标签
    plt.text(xmin, ymin - 6, '{:s}'.format(class_name),
             bbox=dict(facecolor=colors[class_name],
                       alpha=0.5))
    ##添加到图版中
    ax.add_patch(rect)
    plt.axis('off')
    plt.savefig('VOC_image_draw/000015_groundtruth')

3、文件

此文件的主要任务是，读取文件夹内所有的xml文件及其信息，然后将其信息（name,bbox,class）写入一个txt文件，在此阶段训练集以及测试集被划分开来这里是按照7：3的比例进行划分，后续的数据集处理需要用到这些信息。

import xml.etree.ElementTree as ET
import os
import random

VOC_CLASSES = (  # 定义所有的类名
    'aeroplane', 'bicycle', 'bird', 'boat',
    'bottle', 'bus', 'car', 'cat', 'chair',
    'cow', 'diningtable', 'dog', 'horse',
    'motorbike', 'person', 'pottedplant',
    'sheep', 'sofa', 'train', 'tvmonitor')   # 使用其他训练集需要更改

# 定义一些参数
#训练数据集
train_set = open('voctrain.txt', 'w')
#测试数据集
test_set = open('voctest.txt', 'w')
#数据集存放路径
Annotations = 'VOCdevkit//VOC2007//Annotations//'
#方法用于返回指定的文件夹包含的文件或文件夹的名字的列表
#['000015.xml', '000018.xml', '000022.xml', '000025.xml', '000027.xml', '000028.xml']
xml_files = os.listdir(Annotations)
random.shuffle(xml_files)  # 打乱数据集
train_num = int(len(xml_files) * 0.7)  # 训练集数量
#['000025.xml', '000027.xml', '000018.xml', '000028.xml']
train_lists = xml_files[:train_num]   # 训练列表
#['000015.xml', '000022.xml']
test_lists = xml_files[train_num:]    # 测试列表

#函数的功能:读取xml文件信息，
# 在"object"目录下查看"difficult"值是否为1，
# 若不为1则在名为"obj_struct"的字典中存入"bbox"和"name"的信息，
# 再将这个字典作为名为"objects"的列表的元素，最终输出这个列表。
# 所以这个名为"objects"的列表中的每一个元素都是一个字典。

#'VOCdevkit//VOC2007//Annotations//000027.xml'
def parse_rec(filename):  # 输入xml文件名
    tree = ET.parse(filename) # 生成一个总目录名为tree
    objects = []
    for obj in tree.findall('object'):  ## 在总目录下找到'object'目录 名为 obj
        obj_struct = {} #obi_struct={'name':'cow'}
        difficult = int(obj.find('difficult').text) #若此目录没有下一层目录则用find而不用findall
        if difficult == 1:  # 若为1则跳过本次循环
            continue
        obj_struct['name'] = obj.find('name').text #obj_struct['name']='cat'
        bbox = obj.find('bndbox')
        #当前类别预测框的信息
        obj_struct['bbox'] = [int(float(bbox.find('xmin').text)),
                              int(float(bbox.find('ymin').text)),
                              int(float(bbox.find('xmax').text)),
                              int(float(bbox.find('ymax').text))]
        objects.append(obj_struct)

    return objects

#在划分好训练集以及测试集后，
# 生成voctrain.txt以及voctest.txt，
# 并且输入以下信息: 图片文件名（带后缀），bbox的四个角坐标，
# 类名代号（数字0~19），这四个信息，
# 图片内的信息都在一行内输入完成，所以有多少张图片文件就有多少行。
def write_txt():
    count = 0
    #文件名称 train_list= '000025.xml'
    for train_list in train_lists: # 生成训练集txt
        count += 1
        # image_name='000025.jpg'，图片名称
        image_name = train_list.split('.')[0] + '.jpg'  # 图片文件名
        #result= [{'name': 'cow', 'bbox': [2, 84, 59, 248]}, {'name': 'cow', 'bbox': [68, 115, 233, 279]}, {'name': 'cow', 'bbox': [64, 173, 377, 373]}, {'name': 'person', 'bbox': [320, 2, 496, 375]}, {'name': 'person', 'bbox': [221, 4, 341, 374]}, {'name': 'person', 'bbox': [135, 14, 220, 148]}, {'name': 'cow', 'bbox': [69, 43, 156, 177]}, {'name': 'person', 'bbox': [58, 54, 104, 139]}, {'name': 'person', 'bbox': [279, 1, 331, 86]}, {'name': 'person', 'bbox': [320, 22, 344, 96]}]
        results = parse_rec(Annotations + train_list) #Annotations + train_list是xml文件名
        if len(results) == 0:
            print(train_list)
            continue
        #000025.jpg
        train_set.write(image_name)
        #result={'name': 'cow', 'bbox': [2, 84, 59, 248]}
        for result in results:
            class_name = result['name'] #class_name=cow,20种类别
            bbox = result['bbox']  #bbox=[2,84,59,248]
            class_name = VOC_CLASSES.index(class_name) #class_name = 9
            train_set.write(' ' + str(bbox[0]) +
                            ' ' + str(bbox[1]) +
                            ' ' + str(bbox[2]) +
                            ' ' + str(bbox[3]) +
                            ' ' + str(class_name))
        train_set.write('\n')
    train_set.close()

    for test_list in test_lists:   # 生成测试集txt
        count += 1
        image_name = test_list.split('.')[0] + '.jpg'  # 图片文件名
        results = parse_rec(Annotations + test_list) #Annotations + train_list是xml文件名
        if len(results) == 0:
            print(test_list)
            continue
        test_set.write(image_name)
        for result in results:
            class_name = result['name']
            bbox = result['bbox']
            class_name = VOC_CLASSES.index(class_name)
            test_set.write(' ' + str(bbox[0]) +
                            ' ' + str(bbox[1]) +
                            ' ' + str(bbox[2]) +
                            ' ' + str(bbox[3]) +
                            ' ' + str(class_name))
        test_set.write('\n')
    test_set.close()


if __name__ == '__main__':
    write_txt()

最终的部分结果如上图所示，一张图片可能含有多个框所以按照顺序依次排列，以000018.jpg为例30，31，358，279 为bbox信息，11为类别信息按照定义的元组11代表dog，从下图可以证实代码的正确性。

4、文件

此文件主要任务就是根据txt文件内的信息制作ground truth，并且还会进行一定的数据增强。最终输出一个7*7*30的张量。在（train.py中会用到）

以下为文件的主要结构

class yoloDataset(Dataset):
    def __init__(self, img_root, list_file, train, transform)：
    def __getitem__(self, idx)：
    def __len__(self)：
    def encoder(self, boxes, labels): # 输出ground truth （一个7*7*30的张量）
    # 以下都是数据增强操作
    def random_flip(self, im, boxes): # 随机翻转
    def randomScale(self, bgr, boxes): # 随机伸缩变换
    def randomBlur(self, bgr): # 随机模糊处理
    def RandomBrightness(self, bgr): # 随机调整图片亮度
    def randomShift(self, bgr, boxes, labels): # 平移变换

首先是 __init__ 部分，大致的操作为：逐行读取生成的文本文件的内容，然后对其进行分类，将信息保存在fnames，boxes，labels三个列表中，以下为需要用到的函数

file_txt = open(list_file) # os模块函数，用于打开文件
lines = file_txt.readlines() # 读取txt文件每一行
splited = line.strip().split()
'''
strip() # 移除首位的换行符号
split() # 以空格为分界线，将所有元素组成一个列表
'''
fnames = splited[0]
x_max = splited[1 + 5*i] # i 表示bbox的个数，隔5个数，即为下一个bbox的横坐标
y_max = splited[2 + 5*i]
x_min = splited[3 + 5*i]
y_min = splited[4 + 5*i]

下面是完整的def __init__部分：

def __init__(self, img_root, list_file, train, transform):   # list_file为txt文件  img_root为图片路径
    self.root = img_root
    self.train = train
    self.transform = transform
    # 后续要提取txt文件信息，分类后装入以下三个列表
    self.fnames = []
    self.boxes = []
    self.labels = []

    self.S = 7   # YOLOV1
    self.B = 2   # 相关
    self.C = CLASS_NUM  # 参数
    self.mean = (123, 117, 104)  # RGB

    #首先是 __init__ 部分，大致的操作为：逐行读取生成的文本文件的内容，
    # 然后对其进行分类，将信息保存在fnames，boxes，labels三个列表中，
    # 以下为需要用到的函数

    file_txt = open(list_file)
    lines = file_txt.readlines()   # 读取txt文件每一行
    for line in lines:   # 逐行开始操作
        splited = line.strip().split() # 移除首位的换行符号再生成一张列表
        self.fnames.append(splited[0])  # 存储图片的名字
        num_boxes = (len(splited) - 1) // 5  # 每一幅图片里面有多少个bbox
        box = []
        label = []
        for i in range(num_boxes): # bbox四个角的坐标
            x = float(splited[1 + 5 * i])  #隔5个数，即为下一个bbox的横坐标
            y = float(splited[2 + 5 * i])
            x2 = float(splited[3 + 5 * i])
            y2 = float(splited[4 + 5 * i])
            c = splited[5 + 5 * i]  # 代表物体的类别，即是20种物体里面的哪一种  值域 0-19
            box.append([x, y, x2, y2])
            label.append(int(c))
        self.boxes.append(torch.Tensor(box))
        self.labels.append(torch.LongTensor(label))
    self.num_samples = len(self.boxes)

其次是 __getitem__ 部分，此为python类中专有的方法，其功能是按照索引获取值，大致的操作为：先对图片进行一些数据增强，再对坐标进行归一化处理（归一化处理是横坐标除以宽度，纵坐标除以长度），最后通过 encoder 方法得到ground truth。最后对每一张图片都返回预处理后的图片以及他的ground truth。

def __getitem__(self, idx):
    fname = self.fnames[idx]
    img = cv2.imread(os.path.join(self.root + fname))
    boxes = self.boxes[idx].clone()
    labels = self.labels[idx].clone()
    if self.train:  # 数据增强里面的各种变换用torch自带的transform是做不到的，因为对图片进行旋转、随即裁剪等会造成bbox的坐标也会发生变化，所以需要自己来定义数据增强
        img, boxes = self.random_flip(img, boxes)
        img, boxes = self.randomScale(img, boxes)
        img = self.randomBlur(img)
        img = self.RandomBrightness(img)
        # img = self.RandomHue(img)
        # img = self.RandomSaturation(img)
        img, boxes, labels = self.randomShift(img, boxes, labels)
        # img, boxes, labels = self.randomCrop(img, boxes, labels)
    h, w, _ = img.shape
    boxes /= torch.Tensor([w, h, w, h]).expand_as(boxes)  # 坐标归一化处理，为了方便训练（归一化处理是横坐标除以宽度，纵坐标除以长度）
    img = self.BGR2RGB(img)  # because pytorch pretrained model use RGB
    img = self.subMean(img, self.mean)  # 减去均值
    img = cv2.resize(img, (self.image_size, self.image_size))  # 将所有图片都resize到指定大小
    target = self.encoder(boxes, labels)  # 将图片标签编码到7x7*30的向量

    for t in self.transform:
        img = t(img)

    return img, target

最后是encoder方法，它需要输入bbox以及labels信息最终输出一个7*7*30的tensor作为ground truth。值得注意的是bbox的坐标信息中的 x 与 y 含义是左上角顶点坐标相对与中心点坐标（xc,yc）的偏移是一个小于1的数，因此在进行预测的时候还需要进行解码。（这也是比较重要的一部分）

-----------------------------------------------

5、文件

文件的任务如文件名所示，即定义损失函数供训练时使用。本文件结构如下

 __init__ 部分没什么好说的，定义一些必要的参数。

forward ：在创建对象时会自动调用，这部分计算全部损失函数，此函数会自动进行前向传播因为此类继承了（nn.Module），所以去需要在对象中传入两个参数（对应train.py），下面解释以下代码的逻辑：传入的两个参数格式为(batch_size*7*7*30)的张量，前者将图片输入神经网络得到的输出值，后者就是上面制作的target也就是ground truth。需要提取ground truth与pred_target的bbox信息，置信度信息以及类别信息，求取损失函数。可以参考此博客
目标检测模型YOLO-V1损失函数详解

def forward(self, pred_tensor, target_tensor):
    '''
    pred_tensor: (tensor) size(batchsize,7,7,30)
    target_tensor: (tensor) size(batchsize,7,7,30) --- ground truth
    '''
    N = pred_tensor.size()[0]  # batchsize
    coo_mask = target_tensor[:, :, :, 4] > 0  # 具有目标标签的索引值 true batchsize*7*7
    noo_mask = target_tensor[:, :, :, 4] == 0  # 不具有目标的标签索引值 false batchsize*7*7
    coo_mask = coo_mask.unsqueeze(-1).expand_as(target_tensor)  # 得到含物体的坐标等信息,复制粘贴 batchsize*7*7*30
    noo_mask = noo_mask.unsqueeze(-1).expand_as(target_tensor)  # 得到不含物体的坐标等信息 batchsize*7*7*30

    coo_pred = pred_tensor[coo_mask].view(-1, int(CLASS_NUM + 10))  # view类似于reshape
    box_pred = coo_pred[:, :10].contiguous().view(-1, 5)  # 塑造成X行5列（-1表示自动计算），一个box包含5个值
    class_pred = coo_pred[:, 10:]  # [n_coord, 20]

    coo_target = target_tensor[coo_mask].view(-1, int(CLASS_NUM + 10))
    box_target = coo_target[:, :10].contiguous().view(-1, 5)
    class_target = coo_target[:, 10:]

    # 不包含物体grid ceil的置信度损失
    noo_pred = pred_tensor[noo_mask].view(-1, int(CLASS_NUM + 10))
    noo_target = target_tensor[noo_mask].view(-1, int(CLASS_NUM + 10))
    noo_pred_mask = torch.ByteTensor(noo_pred.size()).bool()
    noo_pred_mask.zero_()
    noo_pred_mask[:, 4] = 1
    noo_pred_mask[:, 9] = 1
    noo_pred_c = noo_pred[noo_pred_mask]  # noo pred只需要计算 c 的损失 size[-1,2]
    noo_target_c = noo_target[noo_pred_mask]
    nooobj_loss = F.mse_loss(noo_pred_c, noo_target_c, size_average=False)  # 均方误差

    # compute contain obj loss
    coo_response_mask = torch.ByteTensor(box_target.size()).bool()  # ByteTensor 构建Byte类型的tensor元素全为0
    coo_response_mask.zero_()  # 全部元素置False                            bool:将其元素转变为布尔值

    no_coo_response_mask = torch.ByteTensor(box_target.size()).bool()  # ByteTensor 构建Byte类型的tensor元素全为0
    no_coo_response_mask.zero_()  # 全部元素置False                            bool:将其元素转变为布尔值

    box_target_iou = torch.zeros(box_target.size())

    # box1 = 预测框  box2 = ground truth
    for i in range(0, box_target.size()[0], 2):  # box_target.size()[0]：有多少bbox，并且一次取两个bbox
        box1 = box_pred[i:i + 2]  # 第一个grid ceil对应的两个bbox
        box1_xyxy = Variable(torch.FloatTensor(box1.size()))
        box1_xyxy[:, :2] = box1[:, :2] / float(self.S) - 0.5 * box1[:, 2:4]  # 原本(xc,yc)为7*7 所以要除以7
        box1_xyxy[:, 2:4] = box1[:, :2] / float(self.S) + 0.5 * box1[:, 2:4]
        box2 = box_target[i].view(-1, 5)
        box2_xyxy = Variable(torch.FloatTensor(box2.size()))
        box2_xyxy[:, :2] = box2[:, :2] / float(self.S) - 0.5 * box2[:, 2:4]
        box2_xyxy[:, 2:4] = box2[:, :2] / float(self.S) + 0.5 * box2[:, 2:4]
        iou = self.compute_iou(box1_xyxy[:, :4], box2_xyxy[:, :4])
        max_iou, max_index = iou.max(0)
        max_index = max_index.data
        coo_response_mask[i + max_index] = 1  # IOU最大的bbox
        no_coo_response_mask[i + 1 - max_index] = 1  # 舍去的bbox
        # confidence score = predicted box 与 the ground truth 的 IOU
        box_target_iou[i + max_index, torch.LongTensor([4])] = max_iou.data

    box_target_iou = Variable(box_target_iou)
    # 置信度误差（含物体的grid ceil的两个bbox与ground truth的IOU较大的一方）
    box_pred_response = box_pred[coo_response_mask].view(-1, 5)
    box_target_response_iou = box_target_iou[coo_response_mask].view(-1, 5)
    # IOU较小的一方
    no_box_pred_response = box_pred[no_coo_response_mask].view(-1, 5)
    no_box_target_response_iou = box_target_iou[no_coo_response_mask].view(-1, 5)
    no_box_target_response_iou[:, 4] = 0  # 保险起见置0（其实原本就是0）

    box_target_response = box_target[coo_response_mask].view(-1, 5)

    # 含物体grid ceil中IOU较大的bbox置信度损失
    contain_loss = F.mse_loss(box_pred_response[:, 4], box_target_response_iou[:, 4], size_average=False)
    # 含物体grid ceil中舍去的bbox损失
    no_contain_loss = F.mse_loss(no_box_pred_response[:, 4], no_box_target_response_iou[:, 4], size_average=False)
    # bbox坐标损失
    loc_loss = F.mse_loss(box_pred_response[:, :2], box_target_response[:, :2], size_average=False) + F.mse_loss(
        torch.sqrt(box_pred_response[:, 2:4]), torch.sqrt(box_target_response[:, 2:4]), size_average=False)

    # 类别损失
    class_loss = F.mse_loss(class_pred, class_target, size_average=False)

    return (self.l_coord * loc_loss + contain_loss + self.l_noobj * (nooobj_loss + no_contain_loss) + class_loss) / N

解释一下部分代码的含义及其用法：

unsqueeze()：增加一个维度

expand_as(tensor)：将原本的张量扩充，一般是将通道数扩充，扩充的部分就是将原来的部分复制粘贴。

coo_pred = pred_tensor[coo_mask].view(-1, 30)：其中coo_mask必须为一个布尔值张量，它与pred_tensor的size一致，若coo_mask的某一位置为True则提取pred_tensor对应位置的信息。而view就相当于resize用于改变张量的形状。

noo_pred_mask = torch.ByteTensor(noo_pred.size()).bool()：创建一个Byte类型的张量，形状与noo_pred一致，然后将所有的参数转化为布尔值。

noo_pred_mask.zero_()：将参数全部置0，也就是False

compute_iou ：输入两个box，输出IOU。IOU指的时交并比，即（交集/并集）。计算公式：
iou = inter / (area1 + area2 - inter)

上文提到过，bbox的四个信息为（xc,yc,w,h），（xc，yc）是基于7*7网格的，而（w，h）是基于1*1的网格。而我们计算IOU需要知道bbox的四个顶点的坐标（相对于grid ceil的坐标而不是坐标轴），通过以下公式进行换算。参照对应代码。

计算完IOU之后需要在一个grid ceil中挑选出IOU最大的bbox用于计算置信度损失，另外一个就舍去。然后再去计算坐标损失，置信度损失（含物体grid ceil和不含物体grid ceil）还有类别损失，最后相加即可。

def compute_iou(self, box1, box2):  # box1(2,4)  box2(1,4)
    N = box1.size(0)  # 2
    M = box2.size(0)  # 1

    lt = torch.max(  # 返回张量所有元素的最大值
        # [N,2] -> [N,1,2] -> [N,M,2]
        box1[:, :2].unsqueeze(1).expand(N, M, 2),
        # [M,2] -> [1,M,2] -> [N,M,2]
        box2[:, :2].unsqueeze(0).expand(N, M, 2),
    )

    rb = torch.min(
        # [N,2] -> [N,1,2] -> [N,M,2]
        box1[:, 2:].unsqueeze(1).expand(N, M, 2),
        # [M,2] -> [1,M,2] -> [N,M,2]
        box2[:, 2:].unsqueeze(0).expand(N, M, 2),
    )

    wh = rb - lt  # [N,M,2]
    wh[wh < 0] = 0  # clip at 0
    inter = wh[:, :, 0] * wh[:, :, 1]  # [N,M]  重复面积

    area1 = (box1[:, 2] - box1[:, 0]) * (box1[:, 3] - box1[:, 1])  # [N,]
    area2 = (box2[:, 2] - box2[:, 0]) * (box2[:, 3] - box2[:, 1])  # [M,]
    area1 = area1.unsqueeze(1).expand_as(inter)  # [N,] -> [N,1] -> [N,M]
    area2 = area2.unsqueeze(0).expand_as(inter)  # [M,] -> [1,M] -> [N,M]

    iou = inter / (area1 + area2 - inter)
    return iou  # [2,1]

6、文件

先说明以下代码的结构，一共分为三个类和一个函数。

首先是  Bottleneck 类 ：定义一个基本块，会根据参数downsample的取值不同可以变为Conv Block和Identity Block。

class Bottleneck(nn.Module):  # 定义基本块
    def __init__(self, in_channel, out_channel, stride, downsample):
        super(Bottleneck, self).__init__()
        self.relu = nn.ReLU(inplace=True)
        self.downsample = downsample
        self.in_channel = in_channel
        self.out_channel = out_channel
        self.bottleneck = Sequential(

            Conv2d(in_channel, out_channel, kernel_size=1, stride=stride[0], padding=0, bias=False),
            BatchNorm2d(out_channel),
            ReLU(inplace=True),

            Conv2d(out_channel, out_channel, kernel_size=3, stride=stride[1], padding=1, bias=False),
            BatchNorm2d(out_channel),
            ReLU(inplace=True),

            Conv2d(out_channel, out_channel * 4, kernel_size=1, stride=stride[2], padding=0, bias=False),
            BatchNorm2d(out_channel * 4),
        )
        if self.downsample is False:  # 如果 downsample = True则为Conv_Block 为False为Identity_Block
            self.shortcut = Sequential()
        else:
            self.shortcut = Sequential(
                Conv2d(self.in_channel, self.out_channel * 4, kernel_size=1, stride=stride[0], bias=False),
                BatchNorm2d(self.out_channel * 4)
            )

    def forward(self, x):
        out = self.bottleneck(x)
        out += self.shortcut(x)
        out = self.relu(out)
        return out

其次是  output_net 类 ：配合后续的代码将网络的输出调整为7*7*30的格式

class output_net(nn.Module):
    # no expansion
    # dilation = 2
    # type B use 1x1 conv
    expansion = 1

    def __init__(self, in_planes, planes, stride=1, block_type='A'):
        super(output_net, self).__init__()
        self.conv1 = nn.Conv2d(in_planes, planes, kernel_size=1, bias=False)
        self.bn1 = nn.BatchNorm2d(planes)
        self.conv2 = nn.Conv2d(planes, planes, kernel_size=3, stride=stride, padding=2, bias=False, dilation=2)
        self.bn2 = nn.BatchNorm2d(planes)
        self.conv3 = nn.Conv2d(planes, self.expansion * planes, kernel_size=1, bias=False)
        self.bn3 = nn.BatchNorm2d(self.expansion * planes)
        self.downsample = nn.Sequential()
        self.relu = nn.ReLU(inplace=True)
        if stride != 1 or in_planes != self.expansion * planes or block_type == 'B':
            self.downsample = nn.Sequential(
                nn.Conv2d(
                    in_planes,
                    self.expansion * planes,
                    kernel_size=1,
                    stride=stride,
                    bias=False),
                nn.BatchNorm2d(self.expansion * planes))

    def forward(self, x):
        out = self.relu(self.bn1(self.conv1(x)))
        out = self.relu(self.bn2(self.conv2(out)))
        out = self.bn3(self.conv3(out))
        out += self.downsample(x)
        out = self.relu(out)
        return out

最后是  ResNet 类 ：这个类内置了两个主要的方法分别是_make_layer以及_make_output_layer，前者定义的ResNet50的主要部分，后者将前者输出的张量转化为YOLOV1损失函数需要的张量格式（7*7*30）

class ResNet50(nn.Module):
    def __init__(self, block):
        super(ResNet50, self).__init__()
        self.block = block
        self.layer0 = Sequential(
            Conv2d(3, 64, kernel_size=7, stride=2, padding=3, bias=False),
            BatchNorm2d(64),
            ReLU(inplace=True),
            MaxPool2d(kernel_size=3, stride=2, padding=1)
        )
        self.layer1 = self.make_layer(self.block, channel=[64, 64], stride1=[1, 1, 1], stride2=[1, 1, 1], n_re=3)
        self.layer2 = self.make_layer(self.block, channel=[256, 128], stride1=[2, 1, 1], stride2=[1, 1, 1], n_re=4)
        self.layer3 = self.make_layer(self.block, channel=[512, 256], stride1=[2, 1, 1], stride2=[1, 1, 1], n_re=6)
        self.layer4 = self.make_layer(self.block, channel=[1024, 512], stride1=[2, 1, 1], stride2=[1, 1, 1], n_re=3)
        self.layer5 = self._make_output_layer(in_channels=2048)
        self.avgpool = nn.AvgPool2d(2)  # kernel_size = 2  , stride = 2
        self.conv_end = nn.Conv2d(256, int(CLASS_NUM + 10), kernel_size=3, stride=1, padding=1, bias=False)
        self.bn_end = nn.BatchNorm2d(int(CLASS_NUM + 10))

    def make_layer(self, block, channel, stride1, stride2, n_re):
        layers = []
        for num_layer in range(0, n_re):
            if num_layer == 0:
                layers.append(block(channel[0], channel[1], stride1, downsample=True))
            else:
                layers.append(block(channel[1]*4, channel[1], stride2, downsample=False))
        return Sequential(*layers)

    def _make_output_layer(self, in_channels):
        layers = []
        layers.append(
            output_net(
                in_planes=in_channels,
                planes=256,
                block_type='B'))
        layers.append(
            output_net(
                in_planes=256,
                planes=256,
                block_type='A'))
        layers.append(
            output_net(
                in_planes=256,
                planes=256,
                block_type='A'))
        return nn.Sequential(*layers)

    def forward(self, x):
        # print(x.shape) # 3*448*448
        out = self.layer0(x)
        # print(out.shape) # 64*112*112
        out = self.layer1(out)
        # print(out.shape)  # 256*112*112
        out = self.layer2(out)
        # print(out.shape) # 512*56*56
        out = self.layer3(out)
        # print(out.shape) # 1024*28*28
        out = self.layer4(out)  # 2048*14*14
        out = self.layer5(out)  # batch_size*256*14*14
        out = self.avgpool(out)  # batch_size*256*7*7
        out = self.conv_end(out)  # batch_size*30*7*7
        out = self.bn_end(out)
        out = torch.sigmoid(out)
        out = out.permute(0, 2, 3, 1)  # bitch_size*7*7*30
        return out

最后通过 resnet50 函数 return网络结构。在后续训练的时候只需要调用这个函数即可。

7、文件

1、要将数据集用于训练，首先得将数据集打包为训练集以及测试集，此操作之前已经定义过，为yoloData.py内的yoloDataset类以及DaraLoader类实现。

train_dataset = yoloDataset(img_root=file_root, list_file='voctrain.txt', train=True, transform=[transforms.ToTensor()])
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True, num_workers=0)
test_dataset = yoloDataset(img_root=file_root, list_file='voctest.txt', train=False, transform=[transforms.ToTensor()])
test_loader = DataLoader(test_dataset, batch_size=batch_size, shuffle=True, num_workers=0)

2、根据定义的网络导入权重参数，因之前定义的网络后面一部分与ResNet50的结构略有差异，所以并不能完全使用使用torchvision的models库中的resnet50导入权重参数。需要对其权重参数进行一定的筛选。

权重参数导入方法：自己定义的网络以及models库内的网络各自创建一个对象。接着使用state_dict()导入各自的权重参数。网络结构相同的部分将new_state_dict的值赋给op。但是如果自己定义的网络结构的键值与torch自带的库不一直的话，导入权重参数会稍微麻烦一点。这里给出了一种解决办法，参考代码。

注意：

state_dict():返回一个类（若直接输出其格式类似与字典）

enumerate: for循环中经常用到，既可以遍历元素又可以遍历索引。

3、定义损失函数优化器并开始训练，网络结构，损失函数以及train_loader返回的图片以及target最后通过torch.save保存模型参数。

criterion = yoloLoss(7, 2, 5, 0.5)
criterion = criterion.to(device)
net.train()  # 训练前需要加入的语句

params = []  # 里面存字典
params_dict = dict(net.named_parameters()) # 返回各层中key(只包含weight and bias) and value
for key, value in params_dict.items():
    params += [{'params': [value], 'lr':learning_rate}]  # value和学习率相加

optimizer = torch.optim.SGD(    # 定义优化器  “随机梯度下降”
    params,   # net.parameters() 为什么不用这个???
    lr=learning_rate,
    momentum=0.9,   # 即更新的时候在一定程度上保留之前更新的方向  可以在一定程度上增加稳定性，从而学习地更快
    weight_decay=5e-4)     # L2正则化理论中出现的概念
# torch.multiprocessing.freeze_support()  # 多进程相关 猜测是使用多显卡训练需要

for epoch in range(num_epochs):
    net.train()
    if epoch == 60:
        learning_rate = 0.0001
    if epoch == 80:
        learning_rate = 0.00001
    for param_group in optimizer.param_groups:   # 其中的元素是2个字典；optimizer.param_groups[0]： 长度为6的字典，包括[‘amsgrad’, ‘params’, ‘lr’, ‘betas’, ‘weight_decay’, ‘eps’]这6个参数；
                                                # optimizer.param_groups[1]： 好像是表示优化器的状态的一个字典；
        param_group['lr'] = learning_rate      # 更改全部的学习率
    print('\n\nStarting epoch %d / %d' % (epoch + 1, num_epochs))
    print('Learning Rate for this epoch: {}'.format(learning_rate))

    total_loss = 0.
    for i, (images, target) in enumerate(train_loader):
        images, target = images.to(device), target.to(device)
        pred = net(images)
        loss = criterion(pred, target)
        total_loss += loss.item()

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        if (i + 1) % 5 == 0:
            print('Epoch [%d/%d], Iter [%d/%d] Loss: %.4f, average_loss: %.4f' % (epoch +1, num_epochs,
                                                                                 i + 1, len(train_loader), loss.item(), total_loss / (i + 1)))
    validation_loss = 0.0
    net.eval()
    for i, (images, target) in enumerate(test_loader):  # 导入dataloader 说明开始训练了  enumerate 建立一个迭代序列
        images, target = images.to(device), target.to(device)
        pred = net(images)    # 将图片输入
        loss = criterion(pred, target)
        validation_loss += loss.item()   # 累加loss值  （固定搭配）
    validation_loss /= len(test_loader)  # 计算平均loss

    best_test_loss = validation_loss
    print('get best test loss %.5f' % best_test_loss)
    torch.save(net.state_dict(), 'yolo.pth')

8、文件

此为预测代码，执行此代码可以通过输入图片得到识别的结果。从上文可知，将图片输入神经网络会输出一个7*7*30的张量，我们需要对其进行分析得到很多个bbox包括坐标信息以及对应的物体类别信息，最终进行NMS非极大值抑制对bbox进行筛选得到最终结果。

以下为NMS的步骤：

(1)对于类别1，从概率最大的bbox F开始，分别判断A、B、C、D、E与F的IOU是否大于设定的阈值。

(2) 假设B、D与F的重叠度超过阈值，那么就扔掉B、D（将其置信度置0），然后保留F。

(3) 从剩下的矩形框A、C、E中，选择概率最大的E，然后判断A、C与E的重叠度，重叠度大于一定的阈值，那么就扔掉；并标记E是我们保留下来的第二个矩形框。

(4) 重复这个过程，找到此类别所有被保留下来的矩形框。

(5) 对于类别2，类别3等等...都要重复以上4个步骤。

首先需要导入模型以及参数，并且设置好有关NMS的两个参数：置信度以及IOU最大值。然后就可以开始预测了。首先需要通过opencv读取图片并且将其resize为448*448的RGB图像，将其进行均值处理后输入神经网络得到7*7*30的张量。

然后运行 decode 方法：因为一个grid ceil只预测一个物体，而一个grid ceil生成两个bbox。这里对grid ceil进行以下操作。

1、选择置信度较高的bbox。

2、选择20种类别概率中的最大者作为这个grid ceil预测的类别。

3、置信度乘以物体类别概率作为物体最终的概率。

最终输入一个7*7*6的张量，7*7代表grid ceil 。6=bbox的4个坐标信息+类别概率+类别代号

最后运行 NMS 方法对bbox进行筛选：因为bbox的4个坐标信息为（xc,yc,w,h）需要将其转化为（x,y,w,h）后才能进行非极大值抑制处理。

# target 7*7*30  值域为0-1
class Pred():
    def __init__(self, model, img_root):
        self.model = model
        self.img_root = img_root

    def result(self):
        img = cv2.imread(self.img_root)
        h, w, _ = img.shape
        print(h, w)
        image = cv2.resize(img, (448, 448))
        img = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
        mean = (123, 117, 104)  # RGB
        img = img - np.array(mean, dtype=np.float32)
        transform = ToTensor()
        img = transform(img)
        img = img.unsqueeze(0)  # 输入要求是4维的
        Result = self.model(img)   # 1*7*7*30
        bbox = self.Decode(Result)
        bboxes = self.NMS(bbox)    # n*6   bbox坐标是基于7*7网格需要将其转换成448
        if len(bboxes) == 0:
            print("未识别到任何物体")
            print("尝试减小 confident 以及 iou_con")
            print("也可能是由于训练不充分，可在训练时将epoch增大")        
        for i in range(0, len(bboxes)):    # bbox坐标将其转换为原图像的分辨率
            bboxes[i][0] = bboxes[i][0] * 64
            bboxes[i][1] = bboxes[i][1] * 64
            bboxes[i][2] = bboxes[i][2] * 64
            bboxes[i][3] = bboxes[i][3] * 64

            x1 = bboxes[i][0].item()    # 后面加item()是因为画框时输入的数据不可一味tensor类型
            x2 = bboxes[i][1].item()
            y1 = bboxes[i][2].item()
            y2 = bboxes[i][3].item()
            class_name = bboxes[i][5].item()
            print(x1, x2, y1, y2, VOC_CLASSES[int(class_name)])

            cv2.rectangle(image, (int(x1), int(y1)), (int(x2), int(y2)), (144, 144, 255))   # 画框

        cv2.imshow('img', image)

        cv2.waitKey(0)

    def Decode(self, result):  # x -> 1**7*30
        result = result.squeeze()   # 7*7*30
        grid_ceil1 = result[:, :, 4].unsqueeze(2)  # 7*7*1
        grid_ceil2 = result[:, :, 9].unsqueeze(2)
        grid_ceil_con = torch.cat((grid_ceil1, grid_ceil2), 2)  # 7*7*2
        grid_ceil_con, grid_ceil_index = grid_ceil_con.max(2)    # 按照第二个维度求最大值  7*7   一个grid ceil两个bbox，两个confidence
        class_p, class_index = result[:, :, 10:].max(2)   # size -> 7*7   找出单个grid ceil预测的物体类别最大者
        class_confidence = class_p * grid_ceil_con   # 7*7   真实的类别概率
        bbox_info = torch.zeros(7, 7, 6)
        for i in range(0, 7):
            for j in range(0, 7):
                bbox_index = grid_ceil_index[i, j]
                bbox_info[i, j, :5] = result[i, j, (bbox_index * 5):(bbox_index+1) * 5]   # 删选bbox 0-5 或者5-10
        bbox_info[:, :, 4] = class_confidence
        bbox_info[:, :, 5] = class_index
        print(bbox_info[1, 5, :])
        return bbox_info  # 7*7*6    6 = bbox4个信息+类别概率+类别代号

    def NMS(self, bbox, iou_con=iou_con):
        for i in range(0, 7):
            for j in range(0, 7):
                # xc = bbox[i, j, 0]        # 目前bbox的四个坐标是以grid ceil的左上角为坐标原点 而且单位不一致
                # yc = bbox[i, j, 1]         # (xc,yc) 单位= 7*7   (w,h) 单位= 1*1
                # w = bbox[i, j, 2] * 7
                # h = bbox[i, j, 3] * 7
                # Xc = i + xc
                # Yc = j + yc
                # xmin = Xc - w/2     # 计算bbox四个顶点的坐标（以整张图片的左上角为坐标原点）单位7*7
                # xmax = Xc + w/2
                # ymin = Yc - h/2
                # ymax = Yc + h/2     # 更新bbox参数  xmin and ymin的值有可能小于0
                xmin = j + bbox[i, j, 0] - bbox[i, j, 2] * 7 / 2     # xmin
                xmax = j + bbox[i, j, 0] + bbox[i, j, 2] * 7 / 2     # xmax
                ymin = i + bbox[i, j, 1] - bbox[i, j, 3] * 7 / 2     # ymin
                ymax = i + bbox[i, j, 1] + bbox[i, j, 3] * 7 / 2     # ymax

                bbox[i, j, 0] = xmin
                bbox[i, j, 1] = xmax
                bbox[i, j, 2] = ymin
                bbox[i, j, 3] = ymax

        bbox = bbox.view(-1, 6)   # 49*6
        bboxes = []
        ori_class_index = bbox[:, 5]
        class_index, class_order = ori_class_index.sort(dim=0, descending=False)
        class_index = class_index.tolist()   # 从0开始排序到7
        bbox = bbox[class_order, :]  # 更改bbox排列顺序
        a = 0
        for i in range(0, CLASS_NUM):
            num = class_index.count(i)
            if num == 0:
                continue
            x = bbox[a:a+num, :]   # 提取同一类别的所有信息
            score = x[:, 4]
            score_index, score_order = score.sort(dim=0, descending=True)
            y = x[score_order, :]   # 同一种类别按照置信度排序
            if y[0, 4] >= confident:    # 物体类别的最大置信度大于给定值才能继续删选bbox，否则丢弃全部bbox
                for k in range(0, num):
                    y_score = y[:, 4]   # 每一次将置信度置零后都重新进行排序，保证排列顺序依照置信度递减
                    _, y_score_order = y_score.sort(dim=0, descending=True)
                    y = y[y_score_order, :]
                    if y[k, 4] > 0:
                        area0 = (y[k, 1] - y[k, 0]) * (y[k, 3] - y[k, 2])
                        for j in range(k+1, num):
                            area1 = (y[j, 1] - y[j, 0]) * (y[j, 3] - y[j, 2])
                            x1 = max(y[k, 0], y[j, 0])
                            x2 = min(y[k, 1], y[j, 1])
                            y1 = max(y[k, 2], y[j, 2])
                            y2 = min(y[k, 3], y[j, 3])
                            w = x2 - x1
                            h = y2 - y1
                            if w < 0 or h < 0:
                                w = 0
                                h = 0
                            inter = w * h
                            iou = inter / (area0 + area1 - inter)
                            # iou大于一定值则认为两个bbox识别了同一物体删除置信度较小的bbox
                            # 同时物体类别概率小于一定值则认为不包含物体
                            if iou >= iou_con or y[j, 4] < confident:
                                y[j, 4] = 0
                for mask in range(0, num):
                    if y[mask, 4] > 0:
                        bboxes.append(y[mask])
            a = num + a
        return bboxes

你可能感兴趣的:(代码理解,目标检测)

joint_info smpl AI算法网奇 python基础计算机视觉人工智能
生成代码：出处：https://github.com/DART-Lab-LLUI/Metrabs_PoseEstimationdefget_joint_info():joint_names_smpl=('pelv,lhip,rhip,bell,lkne,rkne,spin,lank,rank,thor,ltoe,rtoe,neck,lcla,rcla,head,lsho,''rsho,lelb,r
ImportError: cannot import name ‘Mapping‘ from ‘collections‘ AI算法网奇 python基础前端 javascript 数据库
ImportError:cannotimportname'Mapping'from'collections'解决方法：fromcollections.abcimportMapping#正确导入Mappingdefprocess_mapping(data):ifisinstance(data,Mapping):#使用Mapping进行类型检查#处理映射类型的代码pass测试命令：python-c"f
Go Web 开发基础：从入门到实战一小路一掌握 Go 语言：编程世界的进阶钥匙 golang 前端面试后端服务器
GoWeb开发基础：从入门到实战Go语言因其高效性和简洁性，成为了后端开发的热门选择之一。Go的net/http包提供了强大的Web服务功能，可以帮助我们快速搭建Web应用。本文将带领你从基础开始，逐步了解如何使用Go创建Web服务、处理路由、使用模板引擎、提供静态文件服务，并与数据库进行交互。文章内容包含常见的错误示例和面试题，帮助你更好地理解GoWeb开发。1.使用net/http创建一个简单
【深度解析】最短路径算法：Dijkstra与Floyd-Warshall 吴师兄大模型算法数据结构 python 最短路径算法 Dijkstra算法 Floyd-Warshall 开发语言
系列文章目录01-从零开始掌握Python数据结构：提升代码效率的必备技能！02-算法复杂度全解析：时间与空间复杂度优化秘籍03-线性数据结构解密：数组的定义、操作与实际应用04-深入浅出链表：Python实现与应用全面解析05-栈数据结构详解：Python实现与经典应用场景06-深入理解队列数据结构：从定义到Python实现与应用场景07-双端队列（Deque）详解：Python实现与滑动窗口应
贪心之P8669 [蓝桥杯 2018 省 B] 乘积最大筏.k 刷题小记蓝桥杯贪心算法 c++
文章目录前言一、例题二、题目分析三、代码解答前言分享每日一题之洛谷P8669[蓝桥杯2018省B]乘积最大提示：以下是本篇文章正文内容，下面案例可供参考一、例题二、题目分析题意：在N个数中取K个数，使这K个数的乘积最大，答案对1000000009取模看到这题，首先想到贪心，第一是因为要求乘积最大，第二是因为数据不是特别大，遇到求一个极值的东西可以想想贪心，但也要结合题意和数据范围来具体判断到底用哪
141，【1】buuctf web [SUCTF 2019]EasyWeb rzydal web 安全
进入靶场代码审计18){die('Oneinchlong,oneinchstrong!');}//使用正则表达式检查$hhh是否包含特定字符集（包括一些常见字符和控制字符等），如果包含则终止脚本执行if(preg_match('/[\x00-0-9A-Za-z\'"\`~_&.,|=[\x7F]+/i',$hhh))die('Trysomethingelse!');//获取$hhh中使用到的字符，
ruoyi java
代码报错总结java.lang.IllegalStateException详细logCausedby:java.lang.IllegalStateException:Ambiguousmapping.Cannotmap'nursingProjectPlanController'methodcom.zzyl.nursing.controller.NursingProjectPlanControlle
代码签名证书申请全攻略代码规范前端
代码签名证书是提供给软件开发者，对其开发的软件代码进行数字签名的数字证书，用于验证开发者身份真实性、保护代码的完整性。以下是代码签名证书申请的全攻略：一、准备阶段确定证书类型：OV代码签名证书：满足基本的安全认证需求，能向用户表明软件来源可靠，未被篡改。EV代码签名证书：对于开发驱动程序、内核模块等涉及系统底层关键组件的开发者，需申请更为严格的EV（ExtendedValidation）代码签名证
全网最全！DeepSeek 新手入门教程合集人工智能deepseek
如果你是初次接触DeepSeek的普通用户或开发者，面对海量教程却无从下手？别担心！本文为你整理全网最易懂、最实用的DeepSeek学习资源，涵盖快速上手、编程实战、系统手册等，附直达链接，收藏这一篇就够了！一、快速入门指南《DeepSeek入门教程》-博客园亮点：手把手教你注册账号、获取APIKey，并提供Python调用多轮对话的代码示例，适合初级开发者。直达链接：点击查看核心内容：API调用
集中式架构vs分布式架构谦亨有终架构架构分布式
一、集中式架构如何准确理解集中式架构1.集中式架构的定义集中式架构是一种将系统的所有计算、存储、数据处理和控制逻辑集中在一个或少数几个节点上运行的架构模式。这些中央节点（服务器或主机）作为系统的核心，负责处理所有用户请求和业务逻辑，客户端只负责请求和展示。2.核心特性单一控制中心：所有服务和资源都由中央节点统一管理。资源集中管理：数据和计算资源位于同一位置，便于维护和扩展。高一致性：由于资源集中管
【Python】Python入门——判断语句 zhoushanguhe Python python 编程开发语言
Python入门——判断语句。内容包括if语句、条件表达式、三元运算、match语句等。目录一、if语句1.基本if-else语句2.常用比较运算符3.if-else连写4.pass语句5.变量的作用域二、条件表达式三、三元运算四、match语句五、其他一、if语句1.基本if-else语句当条件成立时，执行某些语句；否则执行另一些语句。注意：if和else后需要加上冒号:if语句的代码块需要缩进
MyBatis-Plus结合Spring Boot实现数据权限
一、场景介绍在开发过程中很多时候我们需要根据某些条件去做数据权限，比如：A组织只能看见A组织及其下属组织的数据，B部门只能看见自己的数据、等等，此时如果每次都去自己写SQL进行校验就会显得代码非常臃肿，因为就产生了自己去定义一套全局公用的数据权限过滤方式。二、实现思路借助于Spring的拦截器或过滤器，当请求进入到Controller时，将该用户的数据权限信息存入数据权限上下文中，在MyBatis
兄弟们，我的deepseek终于可以控制浏览器了：Part 1/n，含代码几道之旅 Dify：智能体（Agent）工作流知识库全搞定几道之旅AI专栏VVVIP 人工智能
文章目录前言helloworld前言其实，deepseek控制浏览器咱之前就发过，只不过当时没有想到这么好的标题，哈哈。所依赖的，依然是BrowserUse这个项目BrowserUse项目官网helloworld按照官网配置好环境后，只需新建一个python文件（例如，叫main.py?）然后运行即可。fromlangchain_openaiimportChatOpenAIfrombrowser_
深入解析 TensorFlow 1.15 “Cannot convert a symbolic Tensor to a numpy array” 错误 Crazy learner C++与python编程 tensorflow numpy 人工智能
目录1.错误来源分析2.可能的原因**原因1：初始状态或输入数据的形状不匹配****原因2：TensorFlow和NumPy的版本兼容性问题****原因3：EagerExecution的影响**3.解决方法**方法1：检查输入形状和初始状态****方法2：降级NumPy版本****方法3：禁用EagerExecution****方法4：升级到TensorFlow2.x****方法5：调整代码生成初
【Java】代理模式非白代理模式 java 开发语言
代理模式代理模式是指给某一个对象提供一个代理，并由代理对象来控制对真实对象的访问代理模式是一种结构型设计模式背景如果不采用代理，对一个类的多个方法进行监控时，重复的代码总是重复出现，不但破坏了原方法，如果要实现多个监控，将会对代码造成大量冗余。同时，还导致业务代码，与非业务的监控代码掺杂在一起，不利于扩展和维护。代理类在无限制膨胀，就需要无限的修改业务代码。而采用代理后，原方法不需要做任何改动，操
1-刷力扣问题记录 leaf_leaves_leaf 算法数据结构
25.1.191.size()和.length()有什么区别2.result.push_back({nums[i],nums[left],nums[right]});为什么用大括号？使用大括号{}是C++11引入的初始化列表语法，它允许我们在构造或初始化对象时直接传入一组值。大括号的使用在许多情况下都能让代码更加简洁和直观。{nums[i],nums[left],nums[right]}是一个初始
国外7个最佳大语言模型 (LLM) API推荐程序员后端
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
[QT] 断点调试天生爱打工 qt qt 开发语言
目录一设置断点二调试窗口信息2.1默认窗口2.2详细窗口属性三调试方法和技巧一设置断点在QtCreator中我们有两种方式添加断点。用鼠标直接点击代码编辑窗口中的某一行按下F9添加/取消断点(操作的是当前鼠标光标所在的代码行)二调试窗口信息2.1默认窗口这里列出几个默认的窗口红色圆点表示断点,黄色箭头表示当前程序运行位置。stack:堆栈表示当前函数之间的调用关系，比如位于哪个函数体中。Local
百度地图显示多个infoWindow信息窗口时只展示最后一条数据射手buff 前端百度
这两天遇到一个问题，百度地图在循环加载多个信息窗口的时候所有的窗口显示的都是最后一条数据的内容效果如下：如图所示两个信息窗口都是一样的值，代码如下$.ajax({type:"POST",url:"../api/zhandian.json",success:function(res){vardata=res.data;for(vari=0;i联系电话："+data[i].phone,opts);//
责任链模式原理详解和源码实例以及Spring AOP拦截器链的执行源码如何使用责任链模式？一个儒雅随和的男子 spring 设计模式责任链模式 spring java
前言本文首先介绍了责任链的基本原理，并附带一个例子说明责任链模式，确保能够理解责任链的前提下，在进行SpringAOP执行责任链的源码分析。责任链模式允许将多个处理对象连接成链，请求沿着链传递，直到被处理或结束。每个处理者可以选择处理请求或传递给下一个。 SpringAOP的拦截器链，拦截器或者过滤器链，都是典型的责任链应用。比如，当一个方法被调用时，多个拦截器按顺序执行，每个拦截器可以决定
【部署】Ktransformer是什么、如何利用单卡24GB显存部署Deepseek-R1 和 Deepseek-V3 仙人掌_lz 人工智能人工智能 AI 部署自然语言处理
简介KTransformers是一个灵活的、以Python为中心的框架，旨在通过先进的内核优化和放置/并行策略提升HuggingFaceTransformers的使用体验。它具有高度的可扩展性，用户可通过单行代码注入优化模块，获得兼容Transformers的接口、符合OpenAI和Ollama的RESTfulAPI，甚至简化的ChatGPT风格的WebUI。KTransformers的性能优化基
技术分享：MyBatis SQL 日志解析脚本￡漫步云端彡运维趣分享 sql java mybatis 日志解析
技术分享：MyBatisSQL日志解析脚本1.脚本功能概述2.实现细节2.1HTML结构2.2JavaScript逻辑3.脚本代码4.使用方法4.1示例5.总结在日常开发中，使用MyBatis作为持久层框架时，我们经常需要查看SQL日志以调试和优化查询。然而，MyBatis的日志输出通常包含占位符和参数信息，这使得直接执行这些SQL语句变得困难。为了解决这个问题，我们开发了一个简单的HTML和Ja
技术爱好者不容错过！探秘 Thrive 现代化博客管理系统秋野酱前端课程设计 java 开源 java spring boot vue.js 课程设计
探索ThriveX：现代化博客管理系统的技术与实现在当今数字化时代，知识的分享与交流变得愈发重要。对于技术爱好者和从业者而言，一个优质的博客管理系统不仅是知识输出的窗口，更是思想碰撞的平台。今天，让我们一同走进ThriveX，领略其独特的魅力。一、开源助力，点亮项目之星开源的道路充满艰辛与挑战，每一段代码都凝聚着开发者的心血。如果您在了解ThriveX的过程中有所收获，不妨花费短短10秒钟，为这个
对于一个程序员来说，电脑的内存需要多大？ c++服务器开发电脑
1、程序员电脑内存有多大内存够用足够了，纯写代码的编程对电脑要求不高，尤其对显卡几乎没有要求，一般编程可能开的任务窗口比较多，所以只要cpu和内存大点就可以了一般来说，处理器确实比显卡来得重要一些，因为我们的电脑中只配备了一块处理器，而处理器内置正正好有内置了一个核心显卡，如果没有特别需求我们无需再次购买独立显卡，但是对于游戏玩家来说，独立显卡显得重要一些，有的人甚至不惜下血本去配备多块显卡。2、
释放 DeepSeek 的力量：像专家一样本地安装与探索！ guzhoumingyue AI python
要在本地运行DeepSeek，您需要遵循以下步骤。请确保您的计算机上已安装Python和Git，并且满足DeepSeek的依赖项。步骤1:安装依赖项安装Python和pip确保您已安装Python（建议使用Python3.6及以上版本）。您可以通过在终端/命令提示符中输入以下命令来检查Python是否已安装：bash复制代码python--version或者bash复制代码python3--ver
Unity3D使用鼠标旋转缩放平移视角肚皮朝上的刺猬 unity3D Unity3D视角变换实现
Unity使用鼠标旋转缩放平移视角用代码在Game界面完美实现Scene界面的操作方法。使用方法：把脚本挂在相机上，把跟踪的target拖到脚本上。视角跟踪的是一个空物体，当然如果你是做RPG游戏需要跟踪某一角色的视角，那就不需要中键平移功能，把空物体换成角色就行。代码主要是分三部分功能进行实现。右键拖动控制视角的旋转；滚轮旋转控制视角的缩放；中键拖动控制视角的平移。右键拖动控制旋转主要是用Get
游戏引擎学习第112天虾球xz 游戏引擎学习 java
黑板：优化今天的内容是关于优化的，主要讨论了如何在开发中提高代码的效率，尤其是当游戏的帧率出现问题时。优化并不总是要将代码做到最快，而是要确保代码足够高效，以避免性能问题。优化的过程是一个反复迭代的过程，目标是找到一个“足够好”的解决方案，而不是追求极致优化。优化的第一步并不是直接优化代码，而是要进行测量和分析。这一步很重要，因为只有了解代码的表现和瓶颈，才能有效地进行优化。测量代码的性能，确定哪
Kate文本编辑器 v24.12.9013 开源高级文本代码编辑器 SSASASA11 编辑器
链接：https://pan.quark.cn/s/5577e74ab648Kate是一个可以跨平台使用的免费高级文本编辑器，支持标签页、代码高亮、显示行号、显示缩略图的滚动条、多文件查找、横向或者纵向显示多个视图等众多高级特性。软件功能1、双击当前标签页创建新标签页。2、支持启用/禁用自动换行。3、强大的多文件查找和替换功能。利用这个功能可以一键查找/替换所有已打开的文本中的内容。支持正则表达式
扫雷游戏升级版含递归链式展开(一次展开一片区域) 代码详细解读 C语言 C r a z y c语言游戏游戏 c语言算法 java 游戏程序 python c++
1、前言：我看了CSDN有很多小伙伴也写了扫雷小游戏但是大部分写的代码都是一次输入坐标只能展开一个位置并没有还原我们小时候最初始的游戏玩法可玩性很低我在这用函数递归链式展开一片还原最初始游戏提高可玩性先放效果图↓2、建议：一个程序代码的实现并不是只靠看能看会的而是要落实到敲代码可以先靠自己画导图根据导图敲出代码敲代码的过程中难免会有些错误解决它这都将成为你宝贵的知识*在看的过程也可以拿出稿纸和笔来
教你本地复现Deep Research：DeepSeek R1+ LangChain+Milvus 大模型入门教程 langchain 人工智能大模型学习大模型 DeepSeek AI大模型大模型教程
金融机构、律所、科研党的福音来了！不久前，OpenAI新推出了一项名叫DeepResearch（深度研究）的功能，迅速风靡全球。我们可以将其理解为大模型+超级搜索+研究助理的三合一。在这项功能里，用户输入查询问题后，只需要选择DeepResearch选项，OpenAIo3就能自动查找分析数百优质在线资源，并对其进行综合整理并加工，为用户生成一份具备专业分析师水准的综合报告。不仅内容生成更加详实，而
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&