【机器学习小记】【YOLO】deeplearning.ai course4 3rd week programming

卷积神经网络-车辆识别

模型
加载模型
一些其他的问题
- tf.boolean_mask
- tf.image.non_max_suppression
- tf.keras.backend.gather
- ValueError: bad marshal data (unknown type code)
- yolo_head出现错误

目标：
	1. 学习使用YOLO(you only look once)算法
	修改【参考文章】的代码，使用tensorflow2实现

参考自：
1.【中文】【吴恩达课后编程作业】Course 4 - 卷积神经网络 - 第三周作业 - 车辆识别
2.吴恩达深度学习课后作业tensorflow2实现

确保先安装了keras，tf.keras不顶用
pip install keras

模型

输入的图片是(m,608,608,3)
经过一个CNN（Convolutional Neural Network）之后，输出(m,19,19,5,85)
也就是把原本的图片分成了19x19的小格子，每个格子上有5个锚框（anchor boxes），每个锚框都包含了
(可能是该分类的概率（置信度）p，
物体中心的x坐标，
物体中心的y坐标，
物体高度h，
物体宽度w，
每个分类的概率c（共有80个分类）)

实际上，为了方便数据的操作，最后CNN输出的是(m,19,19,425)的向量

每个小格子预测一种类型的物体，将置信度p*每个分类的概率c，然后取p*c的最大值，就得到了该小格子最大可能是什么物体。

将CNN输出的(m,19,19,425)向量进行分类，分成3类方便之后的操作。

（1）box_confidnce:(m,19,19,5,1)，包含每个小格子的置信度 p
（2）boxes:(m,19,19,5,4)，包含每个格子预测物体的位置 $p_x,p_y,p_h,p_w）$
（3）box_classes_probs:(m,19,19,5,80)，包含每个格子预测物体种类的概率

根据阈值 threshold舍弃掉一些锚框

def yolo_filter_boxes(box_confidence,boxes,box_class_probs,threshold=0.6):
    """
    通过阈值来过滤对象和分类的置信度。

    参数：
        box_confidence  - tensor类型，维度为（19,19,5,1）,包含19x19单元格中每个单元格预测的5个锚框中的所有的锚框的pc （一些对象的置信概率）。
        boxes - tensor类型，维度为(19,19,5,4)，包含了所有的锚框的（px,py,ph,pw ）。
        box_class_probs - tensor类型，维度为(19,19,5,80)，包含了所有单元格中所有锚框的所有对象( c1,c2,c3，···，c80 )检测的概率。
        threshold - 实数，阈值，如果分类预测的概率高于它，那么这个分类预测的概率就会被保留。

    返回：
        scores - tensor 类型，维度为(None,)，包含了保留了的锚框的分类概率。
        boxes - tensor 类型，维度为(None,4)，包含了保留了的锚框的(b_x, b_y, b_h, b_w)
        classess - tensor 类型，维度为(None,)，包含了保留了的锚框的索引

    注意："None"是因为你不知道所选框的确切数量，因为它取决于阈值。
          比如：如果有10个锚框，scores的实际输出大小将是（10,）
    """

    # 第一步，计算锚框的得分
    box_scores = box_confidence * box_class_probs
    # out: (19,19,5,80)

    # 第二步，找到最大值锚框的索引，[以及]对应最大值锚框的分数
    box_classes = tf.argmax(box_scores,axis=-1)
    # out: (19,19,5)
    box_class_scores = tf.reduce_max(box_scores,axis=-1)
    # out: (19,19,5)

    # 第三步，根据阈值 创建掩码
    filtering_mask = box_class_scores >= threshold
    # out: (19,19,5)的boolean数组

    # 对scores,boxes以及classes使用掩码
    # boolean_mask如果axis不写，则从第一个维度开始
    # boolean_mask每次执行的结果，放进一个数组
    scores = tf.boolean_mask(box_class_scores,filtering_mask)
    # out: (1786,) 消失了一部分数据
    boxes = tf.boolean_mask(boxes,filtering_mask)
    # out: (1786,4)
    classes = tf.boolean_mask(box_classes,filtering_mask)
    # out: (1786,)

    return scores,boxes,classes

测试：

box_confidence = tf.random.normal([19, 19, 5, 1], mean=1, stddev=4, seed=1)
boxes = tf.random.normal([19, 19, 5, 4], mean=1, stddev=4, seed=1)
box_class_probs = tf.random.normal([19, 19, 5, 80], mean=1, stddev=4, seed=1)
scores, boxes, classes = yolo_filter_boxes(box_confidence, boxes, box_class_probs, threshold=0.5)

print("scores[2] = " + str(scores[2].numpy()))
print("boxes[2] = " + str(boxes[2].numpy()))
print("classes[2] = " + str(classes[2].numpy()))
print("scores.shape = " + str(scores.shape))
print("boxes.shape = " + str(boxes.shape))
print("classes.shape = " + str(classes.shape))

输出：

scores[2] = 16.064978
boxes[2] = [ 1.0273384 -2.1178942  4.8872733 -4.0143332]
classes[2] = 78
scores.shape = (1786,)
boxes.shape = (1786, 4)
classes.shape = (1786,)

由于非最大值抑制输入的boxes的格式是对角线的两个顶点作为定位的，这里需要转换一下。
原来的图像可能也不是608x608的，这里也需要缩放一下boxes，然后再进行非最大值抑制。
对上面的输出进行非最大值抑制/非极大值抑制NMS(Non-Maximum Suppression)

IoU = 交集的面积/并集的面积

非最大值抑制

流程：

根据置信度p对边框进行排序
选择置信度最高的box_max添加到输出列表，并将其从边框列表中删除
计算所有边框的面积
计算box_max与其他边框的IoU
删除IoU小于阈值的边框
重复以上过程，直至边框列表为空

(所以，非最大值抑制，还是可以有部分交集的，但是不能太多）

def yolo_non_max_suppression(scores,boxes,classes,max_boxes=10,iou_threshold=0.5):
    """
    为锚框实现非最大值抑制（ Non-max suppression (NMS)）

    参数：
        scores - tensor类型，维度为(None,)，yolo_filter_boxes()的输出，每个小框的分数
        boxes - tensor类型，维度为(None,4)，yolo_filter_boxes()的输出，每个小框的位置
        classes - tensor类型，维度为(None,)，yolo_filter_boxes()的输出，每个小框预测的物体类别
        max_boxes - 整数，预测的锚框数量的最大值
        iou_threshold - 实数，交并比阈值。

    返回：
        scores - tensor类型，维度为(None,)，每个锚框的预测的可能值
        boxes - tensor类型，维度为(None,4)，预测的锚框的坐标
        classes - tensor类型，维度为(None,)，每个锚框的预测的分类

    注意："None"是明显小于max_boxes的，这个函数也会改变scores、boxes、classes的维度，这会为下一步操作提供方便。

    """

    # 使用使用tf.image.non_max_suppression()来获取与我们保留的框相对应的索引列表
    # 返回分数最高的max_boxes个边框的【索引值】
    nms_indices = tf.image.non_max_suppression(boxes=boxes,
                                               scores=scores,
                                               max_output_size=max_boxes,
                                               iou_threshold=iou_threshold)

    # 使用keras.backend.gather()根据索引选择对应的分数、位置和分类
    scores = tf.keras.backend.gather(reference=scores,indices=nms_indices)
    boxes = tf.keras.backend.gather(boxes,nms_indices)
    classes = tf.keras.backend.gather(classes,nms_indices)

    return scores,boxes,classes

测试：

scores = tf.random.normal([54, ], mean=1, stddev=4, seed=1)
boxes = tf.random.normal([54, 4], mean=1, stddev=4, seed=1)
classes = tf.random.normal([54, ], mean=1, stddev=4, seed=1)
scores, boxes, classes = yolo_non_max_suppression(scores, boxes, classes)

print("scores[2] = " + str(scores[2].numpy()))
print("boxes[2] = " + str(boxes[2].numpy()))
print("classes[2] = " + str(classes[2].numpy()))
print("scores.shape = " + str(scores.numpy().shape))
print("boxes.shape = " + str(boxes.numpy().shape))
print("classes.shape = " + str(classes.numpy().shape))

输出：

scores[2] = 6.938395
boxes[2] = [ 3.4738503 -0.2052151  1.9243622  1.6695945]
classes[2] = 0.59752893
scores.shape = (10,)
boxes.shape = (10, 4)
classes.shape = (10,)

将上面的操作，合并一下

def yolo_eval(yolo_outputs,image_shape=(720.,1280.),max_boxes=10,
              score_threshold=0.6,iou_threshold=0.5):
    """
    将YOLO编码的输出（很多锚框）转换为预测框以及它们的分数，框坐标和类。

    参数：
        yolo_outputs - 编码模型的输出（对于维度为（608,608,3）的图片），包含4个tensors类型的变量：
                        box_confidence ： tensor类型，维度为(19, 19, 5, 1)
                        box_xy         ： tensor类型，维度为(19, 19, 5, 2)
                        box_wh         ： tensor类型，维度为(19, 19, 5, 2)
                        box_class_probs： tensor类型，维度为(19, 19, 5, 80)
        image_shape - tensor类型，维度为（2,），包含了输入的图像的维度，这里是(608.,608.)
        max_boxes - 整数，预测的锚框数量的最大值
        score_threshold - 实数，可能性阈值。
        iou_threshold - 实数，交并比阈值。

    返回：
        scores - tensor类型，维度为(None,4)，每个锚框的预测的可能值
        boxes - tensor类型，维度为(None,4)，预测的锚框的坐标
        classes - tensor类型，维度为(None,)，每个锚框的预测的分类
    """

    # 获取YOLO CNN模型的输出
    box_confidence,box_xy,box_wh,box_class_probs = yolo_outputs

    # 中心点转换为边角
    boxes = yolo_utils.yolo_boxes_to_corners(box_xy,box_wh)

    # 可信度分值过滤
    scores,boxes,classes = yolo_filter_boxes(box_confidence,
                                             boxes,
                                             box_class_probs,
                                             score_threshold)
    # 缩放锚框，以适应图像
    boxes = yolo_utils.scale_boxes(boxes,image_shape)

    # 使用非最大值抑制
    scores,boxes,classes = yolo_non_max_suppression(scores,
                                                    boxes,
                                                    classes,
                                                    max_boxes,
                                                    iou_threshold)

    return scores,boxes,classes

测试：

yolo_outputs = (tf.random.normal([19, 19, 5, 1], mean=1, stddev=4, seed=1),
                tf.random.normal([19, 19, 5, 2], mean=1, stddev=4, seed=1),
                tf.random.normal([19, 19, 5, 2], mean=1, stddev=4, seed=1),
                tf.random.normal([19, 19, 5, 80], mean=1, stddev=4, seed=1))
scores, boxes, classes = yolo_eval(yolo_outputs)

print("scores[2] = " + str(scores[2].numpy()))
print("boxes[2] = " + str(boxes[2].numpy()))
print("classes[2] = " + str(classes[2].numpy()))
print("scores.shape = " + str(scores.numpy().shape))
print("boxes.shape = " + str(boxes.numpy().shape))
print("classes.shape = " + str(classes.numpy().shape))

输出：

scores[2] = 138.6871
boxes[2] = [-3737.2234  2206.7576 -1381.3837  2188.9182]
classes[2] = 60
scores.shape = (10,)
boxes.shape = (10, 4)
classes.shape = (10,)

加载模型

def predict(yolo_model,image_file,is_show_info=True,is_plot=True):
    """
    运行存储在sess的计算图以预测image_file的边界框，打印出预测的图与信息。

    参数：
        sess - 包含了YOLO计算图的TensorFlow/Keras的会话。
        image_file - 存储在images文件夹下的图片名称
    返回：
        out_scores - tensor类型，维度为(None,)，锚框的预测的可能值。
        out_boxes - tensor类型，维度为(None,4)，包含了锚框位置信息。
        out_classes - tensor类型，维度为(None,)，锚框的预测的分类索引。
    """
    class_names = yolo_utils.read_classes("model_data/coco_classes.txt")
    anchors = yolo_utils.read_anchors("model_data/yolo_anchors.txt")
    image_shape = (720., 1280.)
    # 图像预处理
    image, image_data = yolo_utils.preprocess_image("images/"+image_file,model_image_size=(608,608))

    # 预测图像，结果为（None，19，19，425）
    yolo_model_output = yolo_model.predict(image_data)
    print("yolo_model_output.shape",yolo_model_output.shape)

    # yolo_head将yolo模型的输出进行转换为各个各自种每个锚框的（坐标、宽高、预测值、分类值）
    yolo_outputs = yolo_head(yolo_model_output,anchors,len(class_names))

    scores, boxes, classes = yolo_eval(yolo_outputs, image_shape)

    # 打印预测信息
    if is_show_info:
        print("在" + str(image_file) + "中找到了" + str(len(boxes)) + "个锚框。")

    # 指定要绘制的边框的颜色
    colors = yolo_utils.generate_colors(class_names)

    # 绘制边界并保存图片
    yolo_utils.draw_boxes(image,scores,boxes,classes,class_names,colors)
    image.save(os.path.join("out",image_file),quality=100)

    # 打印出已经绘制了边界框的图
    if is_plot:
        output_image = plt.imread(os.path.join("out",image_file))
        plt.imshow(output_image)
        plt.show()

    return scores,boxes,classes

yolo_utils.preprocess_image进行图片的预处理：缩放图片，归一化图片
yolo_head将CNN的输出(1,19,19,425)，转换成

yolo_outputs:{
	box_confidence(19,19,5,1) 置信度
	box_xy(19,19,5,2) 方框的xy坐标
	box_wh(19,19,5,2) 方框的宽度w和高度h
	box_class_probs(19,19,5,80) 方框每个锚框的每个物体种类的预测概率
}

ps: 将model当作参数传入后，在批量predict的时候，就不用重复加载了

def batchPredict():
    # 获得模型
    yolo_model = tf.keras.models.load_model("model_data/yolo.h5")
    for i in range(1,121):
        num_fill = int(len("0000") - len(str(1))) + 1
        filename = str(i).zfill(num_fill) + ".jpg"
        print("当前文件：" + str(filename))

        # 开始预测
        predict(yolo_model=yolo_model,
                image_file=filename,
                is_show_info=False,
                is_plot=False)

    print("预测完成")

一些其他的问题

tf.boolean_mask

tf.boolean_mask(
	tensor,
	mask=,
	axis=None,
	name,
)

boolean_mask如果axis不写，则从第一个维度开始
boolean_mask每次执行的结果，放进一个数组

tf.image.non_max_suppression

tf.image.non_max_suppression(
	boxes, 由边框对角线的两个坐标(y1,x1,y2,x2)组成
	scores, 每个边框的分数
	max_output_size, 最多输出多少个边框
	iou_threshold=0.5, 交并比的阈值
)

tf.keras.backend.gather

传入索引值数组，获得对应的元素列表

tf.keras.backend.gather(
	reference, 原数组
	indices 索引值数组
)

var = tf.keras.backend.variable([[1, 2, 3], [4, 5, 6]])
var_gathered = tf.keras.backend.gather(var, [0,1,0])
输出：
var_gathered =  array([[1., 2., 3.],
				       [4., 5., 6.],
				       [1., 2., 3.]], dtype=float32)

ValueError: bad marshal data (unknown type code)

load_model时候发生错误，参考

关于吴恩达车辆识别代码出错的问题

yolo_head出现错误

def yolo_head(feats, anchors, num_classes):
    """Convert final layer features to bounding box parameters.

    Parameters
    ----------
    feats : tensor
        Final convolutional layer features.
    anchors : array-like
        Anchor box widths and heights.
    num_classes : int
        Number of target classes.

    Returns
    -------
    box_xy : tensor
        x, y box predictions adjusted by spatial location in conv layer.
    box_wh : tensor
        w, h box predictions adjusted by anchors and conv spatial resolution.
    box_conf : tensor
        Probability estimate for whether each box contains any object.
    box_class_pred : tensor
        Probability distribution estimate for each box over class labels.
    """
    num_anchors = len(anchors)
    # Reshape to batch, height, width, num_anchors, box_params.
    anchors_tensor = K.reshape(K.variable(anchors), [1, 1, 1, num_anchors, 2])
    # Static implementation for fixed models.
    # TODO: Remove or add option for static implementation.
    # _, conv_height, conv_width, _ = K.int_shape(feats)
    # conv_dims = K.variable([conv_width, conv_height])

    # Dynamic implementation of conv dims for fully convolutional model.
    conv_dims = K.shape(feats)[1:3]  # assuming channels last
    # In YOLO the height index is the inner most iteration.
    conv_height_index = K.arange(0, stop=conv_dims[0])
    conv_width_index = K.arange(0, stop=conv_dims[1])
    conv_height_index = K.tile(conv_height_index, [conv_dims[1]])

    # TODO: Repeat_elements and tf.split doesn't support dynamic splits.
    # conv_width_index = K.repeat_elements(conv_width_index, conv_dims[1], axis=0)
    conv_width_index = K.tile(K.expand_dims(conv_width_index, 0), [conv_dims[0], 1])
    conv_width_index = K.flatten(K.transpose(conv_width_index))
    conv_index = K.transpose(K.stack([conv_height_index, conv_width_index]))
    conv_index = K.reshape(conv_index, [1, conv_dims[0], conv_dims[1], 1, 2])
    conv_index = K.cast(conv_index, feats.dtype) # 原本是K.dtype(feats),但是不知道为什么报错
    
    feats = K.reshape(feats, [-1, conv_dims[0], conv_dims[1], num_anchors, num_classes + 5])
    conv_dims = K.cast(K.reshape(conv_dims, [1, 1, 1, 1, 2]), K.dtype(feats))

    # Static generation of conv_index:
    # conv_index = np.array([_ for _ in np.ndindex(conv_width, conv_height)])
    # conv_index = conv_index[:, [1, 0]]  # swap columns for YOLO ordering.
    # conv_index = K.variable(
    #     conv_index.reshape(1, conv_height, conv_width, 1, 2))
    # feats = Reshape(
    #     (conv_dims[0], conv_dims[1], num_anchors, num_classes + 5))(feats)

    box_confidence = K.sigmoid(feats[..., 4:5])
    box_xy = K.sigmoid(feats[..., :2])
    box_wh = K.exp(feats[..., 2:4])
    box_class_probs = K.softmax(feats[..., 5:])

    # Adjust preditions to each spatial grid point and anchor size.
    # Note: YOLO iterates over height index before width index.
    box_xy = (box_xy + conv_index) / conv_dims
    box_wh = box_wh * anchors_tensor / conv_dims

    return box_confidence, box_xy, box_wh, box_class_probs

【深度学习实战】行人检测追踪与双向流量计数系统【python源码+Pyqt5界面+数据集+训练代码】YOLOv8、ByteTrack、目标追踪、双向计数、行人检测追踪、过线计数阿_旭 AI应用软件开发实战深度学习实战深度学习 python 行人检测行人追踪过线计数
《博主简介》小伙伴们好，我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。✌更多学习资源，可关注公-仲-hao:【阿旭算法与机器学习】，共同学习交流~感谢小伙伴们点赞、关注！《------往期经典推荐------》一、AI应用软件开发实战专栏【链接】项目名称项目名称1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】3.【手势识别系统开发】4.【人脸面部活体
【PyTorch】使用容器(Containers)进行网络层管理(Module) 遥感小萌新深度学习 python pytorch 人工智能 python 深度学习
文章目录前言一、Sequential二、ModuleList三、ModuleDict四、ParameterList&ParameterDict总结前言当深度学习模型逐渐变得复杂，在编写代码时便会遇到诸多麻烦，此时便需要Containers的帮助。Containers的作用是将一部分网络层模块化，从而更方便地管理和调用。本文介绍PyTorch库常用的nn.Sequential，nn.ModuleLi
深度学习之sigmoid函数介绍 yueguang8 人工智能深度学习人工智能
1.基本概念Sigmoid函数，也称为Logistic函数，是一种常用的数学函数，其数学表达式为：其中，e是自然对数的底数，Zj是输入变量。Sigmoid函数曲线如下所示：计算示例：原始输出结果Zj：[-0.6,1.4,2.5]使用Sigmoid函数后输出为：[0.35,0.8,0.92]2.Sigmoid函数特点Sigmoid函数具有以下特点：值域限定在(0,1)之间：Sigmoid函数的输出范
Deep learning for Computer Vision with Python（1）从零开始入门计算机视觉 Hazelyu27 计算机视觉大数据计算机视觉深度学习
本书的内容分成三个部分：1.初始阶段初始阶段学习：机器学习、神经网络、卷积神经网络、建立数据集。2.实践阶段实践阶段：深入学习深度学习，理解先进技术，发现最佳实践方式。3.图像网络阶段完成计算机视觉领域的经验积累。使用大规模数据集和真实图片案例作为数据集，包括年龄和性别预测，交通工具模型识别。本书提供了对应网站：http://pyimg.co/fnkxk本文介绍前两章内容：基本介绍和深度学习简介。
使用matlab的热门问题七十二五值得关注 matlab 开发语言青少年编程算法经验分享
MATLAB广泛应用于科学计算、数据分析、信号处理、图像处理、机器学习等多个领域，因此热门问题也涵盖了这些方面。以下是一些可能被认为当前最热门的MATLAB问题：深度学习与神经网络：如何使用MATLAB的深度学习工具箱（DeepLearningToolbox）来构建和训练神经网络？如何利用MATLAB进行图像识别、语音识别或自然语言处理等深度学习应用？数据分析与可视化：如何使用MATLAB进行大数
深度学习目标检测入门COCO数据集日暮途远z 深度学习目标检测人工智能
常见数据集类型：COCO数据集：Pytorch加载COCO数据集：COCO数据集的读取COCO_dataset=torchvision.datasets.CocoDetection(root="./dataset/val2017",annFile="./instances_val2017/instances_val2017.json")root(strorpathlib.Path)–Rootdir
【数据获取与读取】JSON & CSV yogurt=b 数据分析 json python
数据分析流程获取数据-读取数据-评估数据-清洗数据-整理数据-分析数据-可视化数据公开数据集飞桨（百度旗下深度学习平台）数据集：https:/aistudio.baidu.com/aistudio/datasetoverview天池（阿里云旗下开发者竞赛平台）:https:/tianchiaiyun.com/dataset/和鲸社区（数据科学开源社区）数据集：htps://www.heywhale
DL参考资源（二） antkillerfarm 深度学习
DL参考资源推荐系统https://zhuanlan.zhihu.com/p/26237106深度学习在推荐算法上的应用进展http://i.dataguru.cn/mportal.php?mod=view&aid=11463深度学习在推荐领域的应用https://mp.weixin.qq.com/s/hGvQvddD3i858XSK4z08Ug主要推荐系统算法总结及Youtube深度学习推荐算法
COI实验室技能：图像到图像的深度学习开发框架（pytorch版）山颠海涯深度学习 pytorch 人工智能
Basicdeeplearningframeworkforimage-to-image这个开发框架旨在帮助科研人员快速地实现图像到图像之间的模型开发。github连接：https://github.com/SituLab/Basic-deep-learning-framework-for-image-to-image目录1模型开发1-1克隆项目到本地1-2深度学习开发2环境配置2-1安装conda
大模型面试通关指南：常见问题与答案解析史上最全超详细收藏我这一篇就够了程序员辣条面试职场和发展大模型人工智能 AI大模型
大模型相关的面试问题通常涉及模型的原理、应用、优化以及面试者对于该领域的理解和经验。以下是一些常见的大模型面试问题以及建议的回答方式：请简述什么是大模型，以及它与传统模型的主要区别是什么？回答：大模型通常指的是参数数量巨大的深度学习模型，如GPT系列。它们与传统模型的主要区别在于规模：大模型拥有更多的参数和更复杂的结构，从而能够处理更复杂、更广泛的任务。此外，大模型通常需要更多的数据和计算资源进行
自动编码器 - Autoencoder hellozhxy 深度学习人工智能机器学习
文章目录一、自编码器（Autoencoder）简单模型介绍二、神经网络自编码模型三、神经网络自编码器三大特点四、自编码器（Autoencoder）搭建五、几种常见编码器1.堆栈自动编码器2.欠完备自编码器3.正则自编码器4.噪自编码器（denoisingautoencoder,DAE）参考链接一、自编码器（Autoencoder）简单模型介绍暂且不谈神经网络、深度学习等，仅仅是自编码器的话，其原理
Autoencoder chuange6363 人工智能 python
自编码器Autoencoder稀疏自编码器SparseAutoencoder降噪自编码器DenoisingAutoencoder堆叠自编码器StackedAutoencoder本博客是从梁斌博士的博客上面复制过来的，本人利用Tensorflow重新实现了博客中的代码深度学习有一个重要的概念叫autoencoder，这是个什么东西呢，本文通过一个例子来普及这个术语。简单来说autoencoder是一
深度学习部署：Triton（Triton inference server）【旧称：TensorRT serving，专门针对TensorRT设计的服务器框架，后来变为Triton，支持其他推理后端】 u013250861 #LLM/部署深度学习人工智能
triton作为一个NVIDIA开源的商用级别的服务框架，个人认为很好用而且很稳定，API接口的变化也不大，我从2020年的20.06切换到2022年的22.06，两个大版本切换，一些涉及到代码的工程变动很少，稍微修改修改就可以直接复用，很方便。本系列讲解的版本也是基于22.06。本系列讲解重点是结合实际的应用场景以及源码分析，以及写一些triton周边的插件、集成等。非速成，适合同样喜欢深入的小
微积分在神经架构搜索中的应用光剑书架上的书深度强化学习原理与实战元学习原理与实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
微积分在神经架构搜索中的应用1.背景介绍随着深度学习技术的飞速发展,神经网络模型的复杂度也在不断提高,从最初的简单全连接网络,到如今的卷积神经网络、循环神经网络、注意力机制等各种复杂的神经网络架构。这些先进的神经网络架构大大提高了深度学习模型的性能,但同时也给神经网络的设计和调优带来了巨大的挑战。手工设计神经网络架构通常需要大量的专业知识和经验积累,过程繁琐复杂,难以推广。为了解决这一问题,神经架
理性拥抱机器学习热潮：ML祖师爷Tom Mitchell最新洞见「已注销」
来源：雷锋网作者：杨晓凡本文共3484字，建议阅读7分钟。本文与你分享TomMitchell教授的最新洞见。编者按：上个月，全球移动互联网大会GMIC2018在北京开幕。此次主题为"AI生万物，谐音爱生万物，科学技术要有人文的温度，机器有爱，真芯英雄"的大会上，全球人工智能领袖汇聚全球业界顶尖领袖，探讨在基础硬件、大数据与开源平台、深度学习为代表的算法等人工智能领域的最新洞见，是年度行业发展的风向
当NAS遭遇鲁棒性：寻找对抗攻击的坚固架构甄如冰Lea
当NAS遭遇鲁棒性：寻找对抗攻击的坚固架构RobNets项目地址:https://gitcode.com/gh_mirrors/ro/RobNets在当今深度学习的浪潮中，模型的安全性和鲁棒性日益成为研究的热点。本文将为您揭开一款开源项目——《当NAS遇见鲁棒性：对抗攻击下可搜索的鲁棒架构》的神秘面纱。该项目源自CVPR2020的一篇论文，并提供了详细的实现代码和实验指南，致力于探索在网络架构设计
深度学习速通系列:鲁棒性和稳定性 Ven% 深度学习速通系列深度学习自然语言处理人工智能 python nlp
在机器学习中，鲁棒性和稳定性是评估模型性能的两个关键指标，它们对于确保模型在实际应用中的可靠性至关重要。鲁棒性（Robustness）定义：鲁棒性指的是模型对于输入数据的扰动、噪声、异常值或对抗性攻击的抵抗能力。一个鲁棒的模型能够在面对这些不利因素时保持其性能。提高鲁棒性的方法：数据增强：通过对训练数据进行变换（如旋转、缩放、裁剪等），使模型能够更好地泛化到未见过的数据。对抗训练：在训练过程中引入
基于深度学习的对抗样本生成与防御 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的对抗样本生成与防御是当前人工智能安全领域的关键研究方向。对抗样本是通过对输入数据进行微小扰动而产生的，能够导致深度学习模型做出错误预测。这对图像分类、自然语言处理、语音识别等应用构成了严重威胁，因此相应的防御措施也在不断发展。1.对抗样本生成对抗样本生成的方法主要有两大类：基于梯度的方法和基于优化的方法。1.1基于梯度的方法这些方法利用模型的梯度信息，通过细微的扰动来生成对抗样本，迫
深度学习思考夜雪朝歌
神经网络如果能了解每一层输出的意义，就可以避免end－to－end的黑箱理论，对理论话深度学习很有意义，一个思路是经验值，将每一层在特定任务下都有输出，对结果作经验总结，比方说浅层输出低层次的几何轮廓特征，高层输出语意特征，我曾经在objecttracking用过这样的方法,在大数据集测试，每一层都输出结果，并且和handcraftfeature做比较，发现浅层的效果不如handcraftfeat
基于实时深度学习的推荐系统架构设计和技术演进阿里云云栖号云栖号技术分享架构阿里巴巴
简介：整理自5月29日阿里云开发者大会，秦江杰和刘童璇的分享，内容包括实时推荐系统的原理以及什么是实时推荐系统、整体系统的架构及如何在阿里云上面实现，以及关于深度学习的细节介绍本文整理自5月29日阿里云开发者大会，大数据与AI一体化平台分论坛，秦江杰和刘童璇带来的《基于实时深度学习的推荐系统架构设计和技术演进》。分享内容如下：实时推荐系统的原理以及什么是实时推荐系统整体系统的架构及如何在阿里云上面
目标检测-YOLOv1 wydxry 深度学习目标检测 YOLO 人工智能
YOLOv1介绍YOLOv1（YouOnlyLookOnceversion1）是一种用于目标检测的深度学习算法，由JosephRedmon等人于2016年提出。它基于单个卷积神经网络，将目标检测任务转化为一个回归问题，通过在图像上划分网格并预测每个网格中是否包含目标以及目标的位置和类别来实现目标检测。YOLOv1的主要特点包括：快速的检测速度：相比于传统的目标检测算法，YOLOv1具有更快的检测速
深度学习框架人工智能操作系统训练&前向推理 PyTorch Tensorflow MindSpore caffe 张量加速引擎TBE 深度学习编译器多面体 polyhedral AI集群框架 EwenWanW 深度学习人工智能 pytorch 深度学习编译器
深度学习框架人工智能操作系统训练&前向推理深度学习框架发展到今天，目前在架构上大体已经基本上成熟并且逐渐趋同。无论是国外的Tensorflow、PyTorch，亦或是国内最近开源的MegEngine、MindSpore，目前基本上都是支持EagerMode和GraphMode两种模式。AI嵌入式框架OneFlow&清华计图Jittor&华为深度学习框架MindSpore&旷视深度学习框架MegEn
基于深度学习的结构优化与生成 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的结构优化与生成技术应用于多种领域，例如建筑设计、机械工程、材料科学等。该技术通过使用深度学习模型分析和优化结构形状、材料分布、拓扑结构等因素，旨在提高结构性能、减少材料浪费、降低成本、并加快设计流程。1.结构优化与生成的核心概念结构优化：涉及通过调整结构设计参数（如形状、材料、厚度等）来改善其特定性能指标，如强度、刚度、重量、成本或安全性。传统的优化方法依赖于数值仿真和数学优化算法，
深度学习回归任务训练代码模版槐月初叁深度学习深度学习回归人工智能
深度学习回归任务训练代码模版文章目录深度学习回归任务训练代码模版参数设置功能函数数据加载自定义数据集加载类特征选择（可选）数据读取定义模型训练模型训练迭代＋验证迭代使用`tensorboard`输出模型训练过程和指标可视化(可选)结果预测参考参数设置超参设置：config包含所有训练需要的超参数（便于后续的调参），以及模型需要存储的位置device='cuda'iftorch.cuda.is_av
深度学习与遗传算法的碰撞——利用遗传算法优化深度学习网络结构（详解与实现） 2401_84003733 程序员深度学习人工智能
self.model.add(layers.Dense(10,activation=‘relu’))self.model.build(input_shape=(4,28*28))self.model.summary()self.model.compile(optimizer=optimizers.Adam(lr=0.01),loss=losses.CategoricalCrossentropy(f
Python实用技巧: 获取后缀名(扩展名) 或文件名高斯小哥 Python基础【高质量合集】python 开发语言 str 扩展名后缀名
Python实用技巧:获取后缀名(扩展名)或文件名个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文章目录一、引言二、获取文件名三、获取文件扩展名四、实战案例五、总结六、最后一、引言
YOLOv9独家原创改进|使用可改变核卷积AKConv改进RepNCSPELAN4 今天炼丹了吗 YOLOv9涨点改进专栏人工智能机器学习 python 深度学习 YOLO 目标检测
专栏介绍：YOLOv9改进系列|包含深度学习最新创新，主力高效涨点！！！一、改进点介绍AKConv是一种具有任意数量的参数和任意采样形状的可变卷积核，对不规则特征有更好的提取效果。RepNCSPELAN4是YOLOv9中的特征提取模块，类似YOLOv5和v8中的C2f与C3模块。二、RepNCSPELAN4-AKConv模块详解2.1模块简介RepNCSPELAN4-AKConv的主要思想：使用A
基于深度学习的动态场景理解 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的动态场景理解是一种通过计算机视觉技术自动分析和解释动态环境中物体、事件和交互的能力。该技术在自动驾驶、智能监控、机器人导航、增强现实等领域有着广泛应用，通过深度学习模型，特别是卷积神经网络（CNNs）、递归神经网络（RNNs）、图神经网络（GNNs）等，对复杂动态场景进行实时解读。1.动态场景理解的核心技术1.1卷积神经网络（CNNs）**卷积神经网络（CNNs）**擅长处理图像数据
《学习共同体走向深度学习》促进学生深度学习的课堂变革方案11--18 吉林付巍巍
深度学习是一种高度沉浸，不断持续深化、不断拓展延伸的学习方式。1.课堂愿景的确立：保证每一位学生都能投入高品质的深度学习让每一个学生都拥有真实的、高品质的学习权利。课堂是学生学习和发展的重要场地，我们要为学生提供安心和适宜的学习环境，并通过高品质的学习设计及协同合作的学习关系的建立，从根本上提升学生的学习品质。高品质的学习设计，我们可以通过课前的预习单指导学生高效的预习。在课堂上给多数孩子提供思考
HALCON 错误代码 #7709 聪明不喝牛奶 Halcon+CSharp 深度学习 halcon 深度学习
前言最近在研究halcon的深度学习，在环境配置上花了不少的功夫搞定，结果正要开始训练分类的第二个train文件就出现了一个错误，报7709，折腾了三天才解决。原因报7709主要的原因有如下几个原因：1、就是你选的cuda版本和cudnn的不匹配，这个原因应该大家在选择的时候注意一下版本对比的话可以避免，基本上不是这个原因造成的。2、显卡的驱动版本的过低，需要下载一个驱动精灵升级一下显卡的驱动，但
eclipse maven IXHONG eclipse
eclipse中使用maven插件的时候，运行run as maven build的时候报错 -Dmaven.multiModuleProjectDirectory system propery is not set. Check $M2_HOME environment variable and mvn script match. 可以设一个环境变量M2_HOME指
timer cancel方法的一个小实例 alleni123 多线程 timer
package com.lj.timer; import java.util.Date; import java.util.Timer; import java.util.TimerTask; public class MyTimer extends TimerTask { private int a; private Timer timer; pub
MySQL数据库在Linux下的安装 ducklsl mysql
1.建好一个专门放置MySQL的目录 /mysql/db数据库目录 /mysql/data数据库数据文件目录 2.配置用户，添加专门的MySQL管理用户 >groupadd mysql ----添加用户组 >useradd -g mysql mysql ----在mysql用户组中添加一个mysql用户 3.配置，生成并安装MySQL >cmake -D
spring------>>cvc-elt.1: Cannot find the declaration of element Array_06 spring bean
将-------- <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3
maven发布第三方jar的一些问题 cugfy maven
maven中发布第三方jar到nexus仓库使用的是 deploy:deploy-file命令有许多参数，具体可查看 http://maven.apache.org/plugins/maven-deploy-plugin/deploy-file-mojo.html 以下是一个例子： mvn deploy:deploy-file -DgroupId=xpp3
MYSQL下载及安装 357029540 mysql
好久没有去安装过MYSQL，今天自己在安装完MYSQL过后用navicat for mysql去厕测试链接的时候出现了10061的问题，因为的的MYSQL是最新版本为5.6.24，所以下载的文件夹里没有my.ini文件，所以在网上找了很多方法还是没有找到怎么解决问题，最后看到了一篇百度经验里有这个的介绍，按照其步骤也完成了安装，在这里给大家分享下这个链接的地址
ios TableView cell的布局张亚雄 tableview
cell.imageView.image = [UIImage imageNamed:[imageArray objectAtIndex:[indexPath row]]]; CGSize itemSize = CGSizeMake(60, 50); &nbs
Java编码转义 adminjun java 编码转义
import java.io.UnsupportedEncodingException; /** * 转换字符串的编码 */ public class ChangeCharset { /** 7位ASCII字符，也叫作ISO646-US、Unicode字符集的基本拉丁块 */ public static final Strin
Tomcat 配置和spring aijuans spring
简介 Tomcat启动时，先找系统变量CATALINA_BASE，如果没有，则找CATALINA_HOME。然后找这个变量所指的目录下的conf文件夹，从中读取配置文件。最重要的配置文件：server.xml 。要配置tomcat，基本上了解server.xml，context.xml和web.xml。 Server.xml -- tomcat主
Java打印当前目录下的所有子目录和文件 ayaoxinchao 递归 File
其实这个没啥技术含量，大湿们不要操笑哦，只是做一个简单的记录，简单用了一下递归算法。 import java.io.File; /** * @author Perlin * @date 2014-6-30 */ public class PrintDirectory { public static void printDirectory(File f
linux安装mysql出现libs报冲突解决 BigBird2012 linux
linux安装mysql出现libs报冲突解决安装mysql出现 file /usr/share/mysql/ukrainian/errmsg.sys from install of MySQL-server-5.5.33-1.linux2.6.i386 conflicts with file from package mysql-libs-5.1.61-4.el6.i686
jedis连接池使用实例 bijian1013 redis jedis连接池 jedis
实例代码： package com.bijian.study; import java.util.ArrayList; import java.util.List; import redis.clients.jedis.Jedis; import redis.clients.jedis.JedisPool; import redis.clients.jedis.JedisPoo
关于朋友 bingyingao 朋友兴趣爱好维持
成为朋友的必要条件：志相同，道不合，可以成为朋友。譬如马云、周星驰一个是商人，一个是影星，可谓道不同，但都很有梦想，都要在各自领域里做到最好，当他们遇到一起，互相欣赏，可以畅谈两个小时。志不同，道相合，也可以成为朋友。譬如有时候看到两个一个成绩很好每次考试争做第一，一个成绩很差的同学是好朋友。他们志向不相同，但他
【Spark七十九】Spark RDD API一 bit1129 spark
aggregate package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} //测试RDD的aggregate方法 object AggregateTest { def main(args: Array[String]) { val conf = new Spar
ktap 0.1 released bookjovi kernel tracing
Dear, I'm pleased to announce that ktap release v0.1, this is the first official release of ktap project, it is expected that this release is not fully functional or very stable and we welcome bu
能保存Properties文件注释的Properties工具类 BrokenDreams properties
今天遇到一个小需求：由于java.util.Properties读取属性文件时会忽略注释，当写回去的时候，注释都没了。恰好一个项目中的配置文件会在部署后被某个Java程序修改一下，但修改了之后注释全没了，可能会给以后的参数调整带来困难。所以要解决这个问题。 &nb
读《研磨设计模式》-代码笔记-外观模式-Facade bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 百度百科的定义： * Facade（外观）模式为子系统中的各类（或结构与方法）提供一个简明一致的界面， * 隐藏子系统的复杂性，使子系统更加容易使用。他是为子系统中的一组接口所提供的一个一致的界面 * * 可简单地
After Effects教程收集 cherishLC After Effects
1、中文入门 http://study.163.com/course/courseMain.htm?courseId=730009 2、videocopilot英文入门教程（中文字幕） http://www.youku.com/playlist_show/id_17893193.html 英文原址： http://www.videocopilot.net/basic/ 素
Linux Apache 安装过程 crabdave apache
Linux Apache 安装过程下载新版本： apr-1.4.2.tar.gz（下载网站：http://apr.apache.org/download.cgi） apr-util-1.3.9.tar.gz（下载网站：http://apr.apache.org/download.cgi） httpd-2.2.15.tar.gz（下载网站：http://httpd.apac
Shell学习之变量赋值和引用 daizj shell 变量引用赋值
本文转自：http://www.cnblogs.com/papam/articles/1548679.html Shell编程中，使用变量无需事先声明，同时变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）中间不能有空格，可以使用下划线（_）不能使用标点符号不能使用bash里的关键字（可用help命令查看保留关键字）需要给变量赋值时，可以这么写：
Java SE 第一讲（Java SE入门、JDK的下载与安装、第一个Java程序、Java程序的编译与执行） dcj3sjt126com java jdk
Java SE 第一讲： Java SE：Java Standard Edition Java ME: Java Mobile Edition Java EE：Java Enterprise Edition Java是由Sun公司推出的（今年初被Oracle公司收购）。收购价格：74亿美金 J2SE、J2ME、J2EE JDK：Java Development
YII给用户登录加上验证码 dcj3sjt126com yii
1、在SiteController中添加如下代码： /** * Declares class-based actions. */ public function actions() { return array( // captcha action renders the CAPTCHA image displ
Lucene使用说明 dyy_gusi Lucene search 分词器
Lucene使用说明 1、lucene简介 1.1、什么是lucene Lucene是一个全文搜索框架，而不是应用产品。因此它并不像baidu或者googleDesktop那种拿来就能用，它只是提供了一种工具让你能实现这些产品和功能。 1.2、lucene能做什么要回答这个问题，先要了解lucene的本质。实际
学习编程并不难,做到以下几点即可! gcq511120594 数据结构编程算法
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
Java面试十问之三：Java与C++内存回收机制的差别 HNUlanwei java C++finalize()堆栈内存回收
大家知道， Java 除了那 8 种基本类型以外，其他都是对象类型（又称为引用类型）的数据。 JVM 会把程序创建的对象存放在堆空间中，那什么又是堆空间呢？其实，堆（ Heap）是一个运行时的数据存储区，从它可以分配大小各异的空间。一般，运行时的数据存储区有堆（ Heap）和堆栈（ Stack），所以要先看它们里面可以分配哪些类型的对象实体，然后才知道如何均衡使用这两种存储区。一般来说，栈中存放的
第二章 Nginx+Lua开发入门 jinnianshilongnian nginx lua
Nginx入门本文目的是学习Nginx+Lua开发，对于Nginx基本知识可以参考如下文章： nginx启动、关闭、重启 http://www.cnblogs.com/derekchen/archive/2011/02/17/1957209.html agentzh 的 Nginx 教程 http://openresty.org/download/agentzh-nginx-tutor
MongoDB windows安装基本命令 liyonghui160com
windows安装安装目录： D:\MongoDB\ 新建目录 D:\MongoDB\data\db 4.启动进城： cd D:\MongoDB\bin mongod -dbpath D:\MongoDB\data\db &n
Linux下通过源码编译安装程序 pda158 linux
一、程序的组成部分　　Linux下程序大都是由以下几部分组成：　　二进制文件：也就是可以运行的程序文件　　库文件：就是通常我们见到的lib目录下的文件　　配置文件：这个不必多说，都知道　　帮助文档：通常是我们在linux下用man命令查看的命令的文档　　二、linux下程序的存放目录　　linux程序的存放目录大致有三个地方：　　/etc, /b
WEB开发编程的职业生涯４个阶段 shw3588 编程 Web 工作生活
觉得自己什么都会 2007年从学校毕业，凭借自己原创的ASP毕业设计，以为自己很厉害似的，信心满满去东莞找工作，找面试成功率确实很高，只是工资不高，但依旧无法磨灭那过分的自信，那时候什么考勤系统、什么OA系统、什么ERP，什么都觉得有信心，这样的生涯大概持续了约一年。根本不是自己想的那样 2008年开始接触很多工作相关的东西，发现太多东西自己根本不会，都需要去学，不管是asp还是js，
遭遇jsonp同域下变作post请求的坑 vb2005xu jsonp 同域post
今天迁移一个站点时遇到一个坑爹问题,同一个jsonp接口在跨域时都能调用成功,但是在同域下调用虽然成功,但是数据却有问题. 此处贴出我的后端代码片段 $mi_id = htmlspecialchars(trim($_GET['mi_id '])); $mi_cv = htmlspecialchars(trim($_GET['mi_cv '])); 贴出我前端代码片段: $.aj