Alex_996

目标检测（Object Detection）

目标检测基本概念+Yolo介绍

原文地址：https://www.yuque.com/huoxiangshouxiangwanghuo/xg3nah/giwl7l

目标检测（Object Detection）

在计算机视觉众多的技术领域中，目标检测（Object Detection）也是一项非常基础的任务，图像分割、物体追踪、关键点检测等通常都要依赖于目标检测。
在目标检测时，由于每张图像中物体的数量、大小及姿态各有不同，也就是非结构化的输出，这是与图像分类非常不同的一点，并且物体时常会有遮挡截断，所以物体检测技术也极富挑战性，从诞生以来始终是研究学者最为关注的焦点领域之一。
在计算机视觉中，图像分类、目标检测和图像分割都属于最基础、也是目前发展最为迅速的3个领域，我们可以看一下这几个任务之间的区别。

图像分类：输入图像往往仅包含一个物体，目的是判断每张图像是什么物体，是图像级别的任务，相对简单，发展也最快。
目标检测：输入图像中往往有很多物体，目的是判断出物体出现的位置与类别，是计算机视觉中非常核心的一个任务。 ·
图像分割：输入与物体检测类似，但是要判断出每一个像素属于哪一个类别，属于像素级的分类。图像分割与物体检测任务之间有很多联系，模型也可以相互借鉴。

目标检测发展历程

在利用深度学习做物体检测之前，传统算法对于目标检测通常分为3个阶段：区域选取、特征提取和体征分类。

区域选取：首先选取图像中可能出现物体的位置，由于物体位置、大小都不固定，因此传统算法通常使用滑动窗口（Sliding Windows）算法，但这种算法会存在大量的冗余框，并且计算复杂度高。

特征提取：在得到物体位置后，通常使用人工精心设计的提取器进行特征提取，如SIFT和HOG等。由于提取器包含的参数较少，并且人工设计的鲁棒性较低，因此特征提取的质量并不高。
特征分类：最后，对上一步得到的特征进行分类，通常使用如SVM、AdaBoost的分类器。

深度学习火了之后，神经网络的大量参数可以提取出鲁棒性和语义性更好的特征，并且分类器性能也更优越，从此便拉开了深度学习做目标检测的序幕。

目标检测基本概念

目标检测技术，通常是指在一张图像中检测出物体出现的位置及对应的类比，我们要求检测器输出5个value：物体类别class、bounding box左上角x坐标x、bounding box左上角y坐标y、bounding box右下角x坐标x、bounding box右下角y坐标y。

边界框（Bounding Box）

检测任务需要同时预测物体的类别和位置。类别好说，就是一个数字，比如我们可以用1代表dog，2代表bicycle，3代表truck。物体的位置通常使用边界框（Bounding Box）来表示，边界框是一个正好能包含物体的矩形框，可以由矩形左上角的x和y轴坐标与右下角的x和y轴坐标确定。图片坐标的原点在左上角，x轴向右为正方向，y轴向下为正方向。
一般来说这些数据在我们训练的时候都会提供好，比如我们可以看一下VOC数据集中的第一个标注文件：

<annotation>
	<folder>VOC2012folder>
	<filename>2007_000027.jpgfilename>
	<source>
		<database>The VOC2007 Databasedatabase>
		<annotation>PASCAL VOC2007annotation>
		<image>flickrimage>
	source>
	<size>
		<width>486width>
		<height>500height>
		<depth>3depth>
	size>
	<segmented>0segmented>
	<object>
		<name>personname>
		<pose>Unspecifiedpose>
		<truncated>0truncated>
		<difficult>0difficult>
		<bndbox>
			<xmin>174xmin>
			<ymin>101ymin>
			<xmax>349xmax>
			<ymax>351ymax>
		bndbox>
		<part>
			<name>headname>
			<bndbox>
				<xmin>169xmin>
				<ymin>104ymin>
				<xmax>209xmax>
				<ymax>146ymax>
			bndbox>
		part>
		<part>
			<name>handname>
			<bndbox>
				<xmin>278xmin>
				<ymin>210ymin>
				<xmax>297xmax>
				<ymax>233ymax>
			bndbox>
		part>
		<part>
			<name>footname>
			<bndbox>
				<xmin>273xmin>
				<ymin>333ymin>
				<xmax>297xmax>
				<ymax>354ymax>
			bndbox>
		part>
		<part>
			<name>footname>
			<bndbox>
				<xmin>319xmin>
				<ymin>307ymin>
				<xmax>340xmax>
				<ymax>326ymax>
			bndbox>
		part>
	object>
annotation>

它对应的图像如下所示：

我们可以通过编写一个函数来将读取的标注文件中bounding box的坐标绘制到image上，这样我们就能更加清晰的看出标注文件和image之间的关联了。

def plotBox(x, img, color=None, label=None, line_thickness=None):
    # Plots one bounding box on image img
    tl = line_thickness or round(0.002 * (img.shape[0] + img.shape[1]) / 2) + 1  # line/font thickness
    color = color or [random.randint(0, 255) for _ in range(3)]
    c1, c2 = (int(x[0]), int(x[1])), (int(x[2]), int(x[3]))
    cv2.rectangle(img, c1, c2, color, thickness=tl, lineType=cv2.LINE_AA)
    if label:
        tf = max(tl - 1, 1)  # font thickness
        t_size = cv2.getTextSize(label, 0, fontScale=tl / 3, thickness=tf)[0]
        c2 = c1[0] + t_size[0], c1[1] - t_size[1] - 3
        cv2.rectangle(img, c1, c2, color, -1, cv2.LINE_AA)  # filled
        cv2.putText(img, label, (c1[0], c1[1] - 2), 0, tl / 3, [225, 255, 255], thickness=tf, lineType=cv2.LINE_AA)

image = transforms.functional.to_pil_image(inputs)
width = int(targets["annotation"]["size"]["width"])
height = int(targets["annotation"]["size"]["height"])
image = image.resize((width, height))
image = cv2.cvtColor(np.asarray(image), cv2.COLOR_RGB2BGR)

for obj in targets["annotation"]["object"]:
    bndbox = obj["bndbox"]
    x0, y0, x1, y1 = bndbox["xmin"], bndbox["ymin"], bndbox["xmax"], bndbox["ymax"]
    plotBox([x0, y0, x1, y1], image, label=obj["name"])
plt.imshow(image)
plt.show()

通常有三种格式来表示bounding box的位置：

xyxy，即(_x_1, _y_1, _x_2, _y_2)，其中(_x_1, _y_1)是bounding box左上角的坐标，(_x_2,_y_2)是bounding box右下角的坐标；
xywh，即(x, y, w, h)，其中(x, y)是bounding box左上角的坐标，w是矩形框的宽度，h是矩形框的高度；
cxcywh，即(c_x_, c_y_, w, h)，其中(x, y)是bounding box中心点的坐标，w是矩形框的宽度，h是矩形框的高度。

在检测任务中，训练数据集的标签里会给出目标物体真实边界框所对应的(_x_1,_y_1,_x_2,_y_2)，这样的边界框也被称为真实框（ground truth box），我们训练出的模型会对目标物体可能出现的位置进行预测，由模型预测出的边界框则称为预测框（prediction box）。

要完成一项检测任务，我们通常希望模型能够根据输入的图片，输出一些预测的边界框，以及边界框中所包含的物体的类别或者说属于某个类别的概率，例如这种格式: [L, P, _x_1, _y_1, _x_2, _y_2]，其中_L_是类别标签，_P_是物体属于该类别的概率。一张输入图片可能会产生多个预测框，我们就根据预测出的prediction box和ground truth box计算损失值来定义损失函数。

锚框（Anchor Box）

Anchor Box是学习目标检测过程中最重要且最难理解的一个概念。这个概念最初是在Faster R-CNN中提出，此后在SSD、YOLOv2、YOLOv3等优秀的目标识别模型中得到了广泛的应用。

为什么提出 Anchor Box ？以往的模型一个窗口只能预测一个目标，把窗口输入到分类网络中，最终得到一个预测概率，这个概率偏向哪个类别则把窗口内的目标预测为相应的类别，例如在图中回归得到的行人概率更大，则认为这个目标为人。
那么，anchor到底是什么呢？如果我们用一句话概括——就是在图像上预设好的不同大小，不同长宽比的参照框。

Anchor Box跟传统目标检测中使用的“Sliding Windows”差不多，只不过并不是固定死的，在输入图像中采样的时候，每个黑色方框代表图像特征提取过程中某个特征图上的特征，以每一个box为中心生成多个大小和宽高比不同的bounding box，这些边界框就是Anchor Box。
对于不同的任务，需要检测的目标也是不同的，相应Anchor的选取大小也是不一样的，比如对于自动驾驶任务中，需要检测车辆，Anchor的大小就可以选取的大一些，而对于昆虫检测任务，Anchor的大小就得选取的小一些。所以Anchor的大小是非常重要的，我们可以在训练前通过在训练集中使用K-Means聚类算法来得到适合训练集的Anchor。

评价指标

对于一个检测器，我们需要指定一定的规则来评价其好坏。目标检测模型的输出是非结构化的，事先无法得知输出物体的数量、位置、大小等，因此目标检测的评价算法就稍微复杂一些。

IoU

对于具体的某个事物来讲，我们可以从prediction box与ground truth box的贴合程度来判断检测的质量，通常使用IoU（Intersection of Union）来量化贴合程度，作为衡量指标。
IoU的概念来源于数学中的集合，用来描述两个集合A和B之间的关系，它等于两个集合的交集里面所包含的元素个数除以并集里面所包含的元素个数，具体的计算公式： $U=\frac{A \cap B}{A \cup B}$ 。
我们将用这个概念来描述两个框之间的重合度。两个框可以看成是两个像素的集合，它们的IoU等于两个框重合部分的面积除以它们合并起来的面积。下图“交集”中青色区域是两个框的重合面积，图“并集”中蓝色区域是两个框的相并面积，用这两个面积相除即可得到它们之间的IoU。

假设两个矩形框A和B的位置分别为： $\begin{array}{l} A:\left[x_{a 1}, y_{a 1}, x_{a 2}, y_{a 2}\right] \\ B:\left[x_{b 1}, y_{b 1}, x_{b 2}, y_{b 2}\right] \end{array}$
位置关系如图所示：

如果二者有相交部分，则相交部分左上角坐标为： $x_{1}=\max \left(x_{a 1}, x_{b 1}\right), \quad y_{1}=\max \left(y_{a1}, y_{b 1}\right)$
相交部分右下角坐标为： $x_{2}=\min \left(x_{a2}, x_{b2}\right), \quad y_{2}=\min \left(y_{a2}, y_{b2}\right)$
计算先交部分面积： $\text { intersection }=\max \left(x_{2}-x_{1},0\right) \cdot \max \left(y_{2}-y_{1},0\right)$
矩形框A和B的面积分别是： $\begin{array}{l} S_{A}=\left(x_{a2}-x_{a1}\right) \cdot\left(y_{a2}-y_{a1}\right) \\ S_{B}=\left(x_{b2}-x_{b1}\right) \cdot\left(y_{b2}-y_{b1}\right) \end{array}$
计算相并部分面积： $\text { union }=S_{A}+S_{B}-\text { intersection }$
计算IoU： $U=\frac{\text { intersection }}{\text { union }}$

def iou(box1, box2):
    """
    计算两个 box 的 IoU，box 的坐标形式为 xyxy
    """
    x1, y1 = max(box1[0], box2[0]), max(box1[1], box2[1])
    x2, y2 = max(box1[2], box2[2]), max(box1[3], box2[3])
    intersection = max(x2 - x1, 0) * max(y2 - y1, 0)
    s1 = (box1[2] - box1[0]) * (box1[3] - box1[1])
    s2 = (box2[2] - box2[0]) * (box2[3] - box2[1])
    union = s1 + s2 - intersection
    return intersection / union

bbox1 = [100, 100, 200, 200]
bbox2 = [120, 120, 200, 200]
print(f"Iou = {iou(bbox1, bbox2)}")

![image.png](https://img-blog.csdnimg.cn/img_convert/13edb5e00874f46be66199a6ac2b9e20.png#align=left&display=inline&height=160&margin=[object Object]&name=image.png&originHeight=160&originWidth=456&size=6780&status=done&style=none&width=456)
为了直观的展示交并比的大小跟重合程度之间的关系，下图示意了不同交并比下两个框之间的相对位置关系，从 IoU = 0.95 到 IoU = 0。

对于IoU而言，我们通常会选取一个阈值，比如0.5，来确定prediction box是正确的还是错误的，当两个框的IoU大于0.5时，我们认为prediction box才是一个有效的检测，否则属于无效的匹配。

mAP

对于一个检测器，通常使用mAP（mean Average Precision）这一指标来评价一个模型的好坏，AP指的是一个类别的检测精度，mAP则是多个类别的平均精度。
评测需要每张图片的prediction和target，对于某一个实例，我们首先将所有的prediction box按照得分从高到底进行排序（因为得分越高的box对于ground truth的概率往往越大），然后从高到低遍历prediction box。
对于遍历中的某一个prediction box，计算其与该图中同一类别的所有ground truth box的IoU，并选取拥有最大IoU的ground truth作为当前prediction box的匹配对象，如果该IoU小于阈值，则将当前prediction box标记为误检框。
如果IoU大于阈值，还要看对应的ground truth box是否被访问过，如果前面已经有得分更高的prediction box与该ground truth对应了，即使现在的IoU大于阈值，也会被标记为误检框，如果没有被访问过，则将当前prediction box标记为正检框，并将该ground truth box标记为访问过，以防止后面还有prediction box与其对应。在遍历完所有的prediction box之后，我们会得到每一个prediction box的属性，即正检框和误检框。

遍历过程中，我们可以通过当前正检框的数量来计算模型的召回率（Recall），即当前一共检测出的ground truth与所有ground truth的比值。除了召回率，还有一个重要指标是准确率（Precision），即当前遍历过的预测框中，属于正检框的比值。
遍历到每一个prediction box的时候，都可以生成一个对应的Precision和Recall，这两个值可以组成一个点（P，R），将所有的点绘制成曲线，就形成了P-R曲线。

即使有了P-R曲线，评价模型仍然不直观，如果直接取曲线上的点，在哪里取都不合适，因为一般Recall高的时候Precision会很低，Precision高的时候往往Recall又很低。这时，我们直接使用积分的方式来计算P-R曲线与坐标轴围成的面积： $P=\int_{0}^{1} P(r) d r$ 来综合考量不同召回率下的准确率，不会对Precision和Recall有任何偏好。每个类别的AP是相互独立的，将每个类别的AP进行平均，就得到了mAP。

非极大值抑制（Non-Maximum-Suppression，NMS）

在模型预测阶段，我们先为图像生成多个锚框，并为这些锚框一一预测类别和偏移量。随后，我们根据锚框及其预测偏移量得到预测边界框。当锚框数量较多时，同一个目标上可能会输出较多相似的预测边界框。为了使结果更加简洁，我们可以移除相似的预测边界框。常用的方法叫作非极大值抑制（non-maximum suppression，NMS）。

我们来描述一下非极大值抑制的工作原理。对于一个预测边界框B，模型会计算各个类别的预测概率。设其中最大的预测概率为p，该概率所对应的类别即B的预测类别。我们也将p称为预测边界框B的置信度。在同一图像上，我们将预测类别非背景的预测边界框按置信度从高到低排序，得到列表L。从L中选取置信度最高的预测边界框B1作为基准，将所有与B1的交并比大于某阈值的非基准预测边界框从L中移除。这里的阈值是预先设定的超参数。此时，L保留了置信度最高的预测边界框并移除了与其相似的其他预测边界框。接下来，从L中选取置信度第二高的预测边界框B2作为基准，将所有与B2的交并比大于某阈值的非基准预测边界框从L中移除。重复这一过程，直到L中所有的预测边界框都曾作为基准。此时L中任意一对预测边界框的交并比都小于阈值。最终，输出列表L中的所有预测边界框。

YOLO（Ｙｏｕ　Ｏｎｌｙ　Ｌｏｏｋ　Ｏｎｃｅ）

You only look once（YOLO）意思是只需要浏览一次就可以识别出图中的物体的类别和位置，是一种先进的实时目标检测系统，在2016年被提出，发表在计算机视觉顶会CVPR(Computer Vision and Pattern Recognition)上，我们可以看一下YOLO可以达到什么样的效果。

原理

在开始真正coding之前，我们先了解一下YOLO的原理，我们的目的是在一张图片中找出物体，并给出它的类别和位置。目标检测是基于监督学习的，每张图片的监督信息是它所包含的N个物体，每个物体的信息有五个，分别是物体的中心位置(x,y)和它的高(h)和宽(w)，最后是它的类别。
YOLO 的预测是基于整个图片的，并且它会一次性输出所有检测到的目标信息，包括类别和位置。先假设我们处理的图片是一个正方形。YOLO的第一步是分割图片，它将图片分割为 S2 个grid，每个grid的大小都是相等的，像这样：

如果物体的中心点落在某个ｂｏｘ内，那么这个ｂｏｘ就负责预测这个物体。具体怎么实现呢？我们要让这个个框每个都预测出B个bounding boxs，这个bounding boxs有5个量，分别是物体的中心位置(x,y)和它的高(h)和宽(w)，以及这次预测的置信度，表示这个bounding box有多大把握保证当前grid有物体。每个框框不仅只预测B个bounding boxs，它还要负责预测这个框框中的物体是什么类别的，这里的类别用one-hot编码表示，也就是说，如果我们有个框框，每个框框的bounding boxes个数为B，分类器可以识别出C种不同的物体，那么整个image的prediction为：。

在上面的例子中，图片被分成了49个框，每个框预测2个bounding boxs，因此上面的图中有98个bounding boxs。可以看到大致上每个框里确实有两个bounding boxs。可以看到这些BOX中有的边框比较粗，有的比较细，这是置信度不同的表现，置信度高的比较粗，置信度低的比较细。

网络虽然预测出来那么多bounding box，但实际的标注文件中只有三个：狗、自行车、小汽车，其它地方都是背景。对于整个image得到的所有bounding box来说，要删除大部分，首先，在背景部分的bounding box要删除，本来这里就没有物体你算出来的也不对；其次，置信度低于阈值的要删除，我们会设置置信度阈值超参数，如果某box的置信度低于阈值我们也不考虑；最后，还会通过非极大值抑制（NMS）删除几乎重叠的bounding box，对于NMS的阈值也会设置一个超参数。

网络模型

![image.png](https://img-blog.csdnimg.cn/img_convert/933b8a860c2258ef089de25351a209c7.png#align=left&display=inline&height=432&margin=[object Object]&name=image.png&originHeight=864&originWidth=1536&size=630795&status=done&style=none&width=768)
Yolo-V1的特征提取层借助于训练好的图像分类神经网络——GoogLeNet，这个网络先在ImageNet数据集上进行1000类分类训练，再迁移到当前标注数据集上训练，可以在不同级别的卷积神经网络中提取不同尺寸目标的信息。一般来说，图像分类神经网络前几层的神经网络代表的是局域的特征，因此可以获取尺寸比较小的物体的信息；中间几层则可以获取中等尺寸物体的信息；最后几层则可以获取大尺寸物体的信息。每个特征提取层提取得到的特征会分别送入目标选框的回归层和分类层，其中回归层负责根据输入的特征预测目标选框在图像中的位置，分类层则根据输入的特征预测目标选框代表了物体种类。

损失函数

这是Yolo-V1的损失函数，相比于V2和V3版本好理解一些，我们基于它来分析一下。损失函数分为三个部分：位置大小损失，confidence损失和类别损失，计算损失的大题思路是，用预测值与真实值的差的平方求和，三部分损失加权求和得到总损失。

位置损失

对一张图片，我们只关注负责检测标注物体的那个bbox，计算它与标注的ground truth的(x, y, w, h)值差异。

这里计算w和h时开了根号的原因在于，bbox与ground truth在w h上的相同差异，对大框的影响应该小于小框，因此不应该等同看待。比如我们有bbox1和truth1，二者的宽度分别为200和150；另外还有bbox2和truth2，二者的宽度分别为20和15。我们应该让bbox2的损失更大一些，因为按照比例来说它偏差的比较多，但是直接相减的做法会让它们的损失相同，而取根号再相减可以达到这个效果。

置信度损失

confidence用于判断这个bbox中是否含有待标注物体，因此对含有的bbox要进行惩罚，对不含有的bbox也要进行惩罚。confidence的预测值就是我们算出来的c了，而confidence的真实值是需要计算的。
对于那些不负责物体的bbox，confidence的真实值是0；对于那些负责物体的bbox，confidence的真实值是1。

分类损失

因为YOLOv1中是每个cell只能预测一种类别（而不是每个bbox），所以我们只要考虑负责物体的cell的类别损失。直接使用条件概率值作为预测的类别值，因为负责即表示有物体；对于真实值，则在真实类别上值为1，错误类别上值为0。

【Swift开发】屏蔽NSSecureCoding频繁警告 Jaaaaaaaaaaaaa swift 开发语言 ios
解决iOS开发中NSSecureCoding警告的最佳实践问题背景在开发Mac应用时，我遇到了一个令人困扰的问题：Xcode控制台不断输出NSSecureCodingallowedclasseslistcontains[NSObjectclass]相关的警告信息。这些警告虽然不影响应用功能，但严重干扰了开发调试过程，让真正重要的日志信息淹没在系统警告中。***-[NSXPCDecodervalid
TensorRT-LLM：大模型推理加速引擎的架构与实践
前言：技术背景与发展历程：随着GPT-4、LLaMA等千亿级参数模型的出现，传统推理框架面临三大瓶颈：显存占用高（单卡可达80GB）、计算延迟大（生成式推理需迭代处理）、硬件利用率低（Transformer结构存在计算冗余）。根据MLPerf基准测试，原始PyTorch推理的token生成速度仅为12.3tokens/s（A100显卡）。一、TensorRT-LLM介绍：TensorRT-LLM是
Pod调度、嵌入式脚本、Pod标签管理 yanjiaweiya 云原生 kubernetes 容器
多容器Pod案例3排错[root@master~]#vimweb2.yaml---kind:PodapiVersion:v1metadata:name:web2namespace:defaultspec:containers:-name:nginximage:myos:nginx-name:apacheimage:myos:httpdstatus:{}[root@master~]#kubectla
【Tailwind CSS】bg-red-50 和 bg-blue-50 的用法详解
文章目录一、TailwindCSS中的颜色背景类1.背景颜色的命名规则2.bg-red-50和bg-blue-50的颜色特点二、bg-red-50和bg-blue-50的基本用法示例三、bg-red-50和bg-blue-50的设计理念1.bg-red-50的使用场景2.bg-blue-50的使用场景四、实际应用场景解析1.信息提示框的使用2.页面分区的背景色3.使用交替背景色提升阅读性五、配合其
【Tailwind CSS】font-light 和 my-4 的样式详解 Peter-Lu #Tailwind css 前端 react.js javascript typescript
文章目录一、`font-light`与字体粗细的控制1.`font-light`的作用2.`font-weight`的等级划分3.使用示例二、`my-4`与垂直外边距的控制1.`my-4`的作用2.Tailwind的边距控制系统3.使用示例三、`font-light`和`my-4`的实际应用场景1.用于标题和描述文本的排版2.用于卡片组件的内容分隔3.用于导航菜单的轻量提示四、设计风格的提升：使用
Tesla的FSD 架构设计 WSSWWWSSW 智能驾驶汽车人工智能 FSD
特斯拉的FSD（完全自动驾驶）架构设计以端到端神经网络为核心，结合专用硬件加速、海量数据训练和持续OTA迭代，形成了一套高度集成的系统。以下从硬件、软件、算法、数据处理和安全机制五个维度展开分析：一、硬件架构：从HW3.0到AI5的算力跃迁HW3.0基础设计采用三星14nm工艺的定制SoC，包含12个Cortex-A72CPU核心、2个NPU（合计73.7TOPS算力）和Mali-G71GPU，支
2025 年前端主流框架对比和竞争格局及趋势发展
2025年前端框架的竞争格局呈现出主流框架稳定演进、新兴技术快速渗透的特点，同时全栈整合、跨端效能、AI集成成为核心发展方向。以下是基于最新行业动态和技术实践的深度解析：一、主流框架竞争态势与核心能力1.React：企业级生态的持续统治力市场地位：全球使用率超40%，尤其在金融、社交等数据密集型场景占据主导。字节跳动、腾讯等大厂的复杂Web应用仍以React为首选。技术突破：并发模式（Concur
深入解读MaaS技术架构：从模型服务到智能部署的全流程分析 Cc不爱吃洋葱架构人工智能大语言模型大模型智能部署 MaaS技术架构 LLM
随着人工智能（AI）的迅速发展，MaaS（ModelasaService，模型即服务）技术架构应运而生。它通过将复杂的AI模型封装为标准化服务，降低了模型的开发和部署门槛，帮助企业快速实现业务场景的智能化升级。本文将深入解析MaaS技术架构，详细阐述其各个组成部分以及如何在实际应用中高效发挥其功能。一、使用方层：从应用接入到业务赋能MaaS技术架构的顶层是使用方层，它主要面向第三方应用，是企业与M
企业级多模型服务架构（MaaS）私有部署实战指南：统一调度、模型隔离与服务编排全路径解析观熵架构人工智能私有化部署
企业级多模型服务架构（MaaS）私有部署实战指南：统一调度、模型隔离与服务编排全路径解析关键词：多模型服务架构、MaaS、私有化部署、模型管理、推理调度、模型编排、TritonInferenceServer、DeepSeek、模型隔离、企业级AI平台摘要：随着企业对多任务、多模型能力的需求日益增长，MaaS（Model-as-a-Service）架构已成为私有部署中的关键支撑技术之一。该文聚焦当前
StringBuilder练习项目代码及相关知识点
1.动态字符串操作需求：编写一个程序，接收用户输入的多个单词，并将它们组合成一个完整的句子，同时支持以下功能：动态添加单词删除某些单词将句子反转importjava.util.Scanner;publicclassStringBuilderDemo{publicstaticvoidmain(String[]args){StringBuildersb=newStringBuilder();Scann
ThinkPHP 如何在生产环境中配置日志？深山技术宅 PHP 经验数据库 php 后端 ThinkPHP
在ThinkPHP生产环境中配置日志时，需要重点关注稳定性、性能和安全。以下是最佳实践配置方案：生产环境推荐配置(config/log.php)return['default'=>env('log.channel','stack'),'channels'=>[//组合通道（核心配置）'stack'=>['type'=>'stack','channels'=>['daily','error_file
STM32的ADC校准过程
以下是STM32ADC校准的详细技术说明，包含实际操作步骤和注意事项：一、ADC校准的必要性误差来源分析：零点偏移误差（OffsetError）：输入0V时输出不为0增益误差（GainError）：满量程时的线性偏差非线性误差（DNL/INL）：转换曲线的阶梯偏差温度漂移（典型值±2℃时±4LSB）校准目标：12位ADC的有效精度达到±1LSB减少芯片个体差异影响补偿供电电压波动带来的误差二、ST
AI智能体——实现关键技术
1、CoT思维链CoT（Chainof‏Thought）思维链是一种让AI像人类一؜样“思考”的技术，帮助AI在处理复杂问题时能够按步骤思考。对于复杂的推理类问题，先思考后‌执行，效果往往更好。而且还可以让模型在生成答案时‏展示推理过程，便于我们理解和优化AI。CoT的实现方式其实很简单‏，可以在输入Prompt时，给模型提供额外的提示或؜引导，比如“让我们一步一步思考这个问题”，让模型以逐步推理
存储延时数据，帮你选数据库和缓存架构呢喃coding 系统架构设计架构
1.理解存储媒介量化延时类别描述延时缓存/内存L1cachereference1ns缓存/内存L2cachereference4ns缓存/内存Mainmemoryreference（DDR4，5-10ns为补充说明）100ns网络传输SendpacketCA->Netherlands->CA150,000,000ns（150ms）磁盘存储HDD(HardDiskDrive)读写1-10ms磁盘存储
网络与磁盘：Java架构师必知的系统“血管”和“仓库”
网络与磁盘：Java架构师必知的系统“血管”和“仓库”作为Java架构师，网络和磁盘是系统数据流动的“血管”与“仓库”。网络决定数据传输的快慢，磁盘影响数据存储的效率，直接关系系统性能和用户体验。一、网络：数据传输的“高速公路”以下是网络相关关键指标的整理表格：网络指标详细说明对Java架构的影响与实践建议万兆带宽实际速度万兆带宽（单位为bit），实际下载/上传速度为1250MB/s（因1字节=8
SpringCloudAlibaba网关聚合微服务swagger
微服务swagger配置引入依赖io.springfoxspringfox-swagger22.9.2io.springfoxspringfox-swagger-ui2.9.2配置swaggerimportio.swagger.annotations.ApiOperation;importorg.springframework.context.annotation.Bean;importorg.s
全球86%企业已启程：SNP零中断迁移方案护航S/4HANA转型 snpgroupcn 云计算数据仓库运维
目录如何在RISE项目中取得成功全程赋能：SNP为RISE项目打造的六大核心优势1、更快实现价值2、更高的灵活性3、降低成本4、风险可控5、更高的用户接受度3、近乎零中断客户评价实践见证：全球领先企业的成功典范1、IBM2、Pfizer辉瑞3、Coop超越迁移：构建数据驱动型业务的未来在SNP，我们已成功指导数百家企业完成复杂的SAP系统迁移项目。这些经验已融入我们的软件和转型方法论，使您的迁移之
ERROR: failed to solve: failed to read dockerfile: open Dockerfile: no such file or directory Upper999 Docker 运维 linux docker
1通过Dockerfile方式，生成镜像时报错（如下）[zxx@192~]$dockerbuild-tmy_first_build_image.[+]Building0.1s(1/1)FINISHEDdocker:default=>[internal]loadbuilddefinitionfromDockerfile0.0s=>=>transferringdockerfile:2B0.0sERRO
Spark运行架构 EmoGP Spark spark 架构大数据
Spark框架的核心是一个计算引擎，整体来说，它采用了标准master-slave的结构如下图所示，它展示了一个Spark执行时的基本结构，图形中的Driver表示master，负责管理整个集群中的作业任务调度，图形中的Executor则是slave，负责实际执行任务。由上图可以看出，对于Spark框架有两个核心组件：DriverSpark驱动器节点，用于执行Spark任务中的main方法，负
什么是DO、DTO、VO、BO、AO，还在傻傻分不清？今天一文带你了解这些概率 Gq.xxu java 系统架构
在分层架构的Java应用中，DO、DTO、VO、BO、AO等概念用于解耦不同层级的数据传递和业务逻辑。它们分别承担不同职责，以下是对这些概念的详细解释：1.DO（DataObject/DomainObject）定义：与数据库表结构直接映射的对象，通常由DAO层操作。用途：在数据访问层（DAO）中承载数据库查询结果，如UserDO对应user表字段。特点：属性与数据库字段一一对应。仅包含数据，不包含
「源力觉醒创作者计划」_以FastDeploy为例部署ERNIE-4.5-21B大模型全流程实践 cooldream2009 大模型基础 AI技术文心大模型 FastDeploy
目录前言1环境准备与依赖安装1.1硬件要求1.2Python环境与pip升级2下载ERNIE-4.5模型权重2.1安装HuggingFaceCLI工具2.2设置国内镜像加速（可选）2.3下载模型文件3安装FastDeploy与Paddle推理引擎3.1安装PaddlePaddle-GPU版本3.2安装FastDeploy-GPU4启动ERNIE-4.5本地服务4.1启动OpenAI兼容API服务4
Ubuntu下搜狗输入法安装记录（解决安装好后仍旧无法输入中文的问题）
主要参考为博客https://blog.csdn.net/fangshuo_light/article/details/123634224以及搜狗官方给到的安装指南https://shurufa.sogou.com/linux/guide遇到问题使用dpkg安装在搜狗官网下载的Linuxdeb安装包sudodpkg-isogoupinyin_4.2.1.145_amd64.deb此时，按照官方的安
llamaindex SimpleDirectoryReader的使用需要重新演唱 Loading llamaindex RAG llamaindex
SimpleDirectoryReader概念解释SimpleDirectoryReader是LlamaIndex中加载本地文件数据的最简单方式。对于生产用例，你可能更倾向于使用LlamaHub上提供的众多读取器之一，但SimpleDirectoryReader是开始使用的好方法。支持的文件类型默认情况下，SimpleDirectoryReader会尝试读取它找到的任何文件，并将它们都视为文本文件
Python打卡：Day46 剑桥折刀s python打卡 python
importtorchimporttorch.nnasnnimporttorch.optimasoptimimporttorchvisionfromtorchvisionimportdatasets,transformsfromtorch.utils.dataimportDataLoaderfromtorch.utils.tensorboardimportSummaryWriterimportnu
AI初学者如何对大模型进行微调？——零基础保姆级实战指南
仅需8GB显存，三步完成个人专属大模型训练四步实战：从环境配置到模型发布步骤1：云端环境搭建（10分钟）推荐使用阿里魔塔ModelScope免费GPU资源：#注册后执行环境初始化pip3install--upgradepippip3installbitsandbytes>=0.39.0gitclone--depth1https://github.com/hiyouga/LLaMA-Factory.
技术解析｜可灵AI全球首部AI单元剧《新世界加载中》工作流揭秘：提示词工程如何解决口型同步/复杂动作生成？
昨天，在北京首映礼的暗场中，一段黏土风格的荒诞喜剧画面投映在银幕上：一根「宇宙肥肠」在太空中漂浮，讽刺着人类对虚假进步的盲目崇拜。这便是快手可灵AI与异类Outliers团队共同推出的《新世界加载中》，全球首部AI单元剧集。这部与传统短剧不同的全新作品，用全新的呈现方式为观众带来了更具视觉冲击力的视觉效果和观影体验，成为AIGC领域的创新之作。然而，涵盖7个不同题材的单元剧集，必定涉及复杂的人物表
从0开始学习R语言--Day41--Moran‘s I Chef_Chen 学习
在处理带有空间特征的数据，我们往往都直接一股脑地处理数据点，但很多时候，空间上的信息对于处理后续衍生出来的问题会有很大帮助，例如对于城市里大小县城的发展情况，只知道单一县城的经济发展曲线，很难解释一些拐点和突然的攀升，而如果知道相邻县城存在经济发展飞快的例子，可能就是被带动了经济水平；亦或者是在处理社交网络的好有问题时，只知道谁和谁是朋友（类似于空间矩阵），是无法推断出经济收入相似的推论的，所以说
Spark 各种配置项 zhixingheyi_tian 大数据 spark Spark Conf spark jvm java
/bin/spark-shell--masteryarn--deploy-modeclient/bin/spark-shell--masteryarn--deploy-modeclusterTherearetwodeploymodesthatcanbeusedtolaunchSparkapplicationsonYARN.Inclustermode,theSparkdriverrunsinside
扣子智能体5：使用Python异步执行工作流并获取执行结果呆萌的代Ma 大模型 python 扣子
使用python异步执行工作流的步骤有3步：异步执行工作流，获取工作流的execute_id，之后就能根据这个id查询工作流的执行情况如果execute_id=“Success”，就表示工作流执行完毕执行完毕后，打印output，就是大模型最后的全部示例代码fromloguruimportloggerimportrequestsimportjsondefrun_coze_ai(coze_api_t
二进制部署Kubernetes1.32.4最新版本高可用集群及附加组件 Nova_CaoFc 容器云技术专栏 kubernetes 容器云原生
一、前言在云原生技术席卷全球的今天，Kubernetes（K8s）已成为容器编排领域的事实标准。当大家都习惯了kubeadm、kubeasz等自动化工具一键部署的便利时，选择通过二进制方式手动搭建K8s集群更像是一场"知其然亦知其所以然"的深度修行。这种方式将带您穿透抽象层，直面etcd的分布式存储机制、kube-apiserver的RESTful接口设计、kubelet与CRI的交互细节，以及各
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。

目标检测（Object Detection）

目标检测（Object Detection）

目标检测发展历程

目标检测基本概念

边界框（Bounding Box）

锚框（Anchor Box）

评价指标

IoU

mAP

非极大值抑制（Non-Maximum-Suppression，NMS）

YOLO（Ｙｏｕ Ｏｎｌｙ Ｌｏｏｋ Ｏｎｃｅ）

原理

网络模型

损失函数

位置损失

置信度损失

分类损失

你可能感兴趣的:(AI,master's,Road)

YOLO（Ｙｏｕ　Ｏｎｌｙ　Ｌｏｏｋ　Ｏｎｃｅ）