红鲤鱼遇绿鲤鱼

yolov2 论文笔记

摘要部分

real-time object detection system that can detect over 9000 object categories.
之所以叫yolo 9000 是因为可以检测9000个目标。

Using a novel, multi-scale training method the same YOLOv2 model can run at varying sizes, offering an easy tradeoff between speed and accuracy.
使用了一个新颖的多尺度训练的方法，使yolov2模型可以在不同尺寸的输入图像上运行，并在速度和准确率上有不错的平衡。

Finally we propose a method to jointly train on object detection and classification. Using this method we train YOLO9000 simultaneously on the COCO detection dataset and the ImageNet classification dataset. Our joint training allows YOLO9000 to predict detections for object classes that don’t have labelled detection data.

作者提出一个联合训练目标检测与目标分类的方法。使用这个方法在coco的目标检测数据集和imagenet的分类数据集上联合训练，使得yolo9000能够使检测网络在没有标注为检测目标的数据上执行目标检测任务。

better

YOLO has relatively low recall compared to region proposal-based methods. Thus we focus mainly on improving recall and localization while maintaining classification accuracy.

yolo算法的召回率对比RPN的方法太低了，因此作者主要专注于提高召回和定位的准确率，同时保持分类的准确率。

BN:
使用bn层实现对网络的正则化，并去掉dropout

高分辨率分类器:

The original YOLO trains the classifier network at 224 × 224 and increases the resolution to 448 for detection. This means the network has to simultaneously switch to learning object detection and adjust to the new input resolution.

原始yolo在224大小的分辨率图像下训练分类器，但是在448分辨率大小的图像上进行目标检测。

For YOLOv2 we first fine tune the classification network at the full 448 × 448 resolution for 10 epochs on ImageNet. This gives the network time to adjust its filters to work better on higher resolution input.

yolov2首先在448大小的图像上迭代10个epochs，对分类器进行微调。使网络能够对448大小的输入数据能够有更好预学习效果。

卷积生成anchor：

YOLO predicts the coordinates of bounding boxes directly using fully connected layers on top of the convolutional feature extractor.

原始的yolo网络是直接在backbone的卷积结构后面接上一个全连接层，直接用来生成目标的location信息（x, y, w, h)，confidence（default box里面是否包含目标）以及类别概率。

与yolo不同，faster rcnn使用RPN，并结合人工设计anchor的尺度和大小生成default box，而且预测的是生成好的default box的相对于真实位置的偏移量，并非是直接预测default box最后真实位置。

Predicting offsets instead of coordinates simplifies the problem and makes it easier for the network to learn.

学习偏移量要比直接学习目标的具体位置要简单多了。

去掉全连接层，改用全卷积的结构可以使网络支持任意大小的输入图像。

作者做了如下的一些改进：

去掉全连接层，改用anchor的方式预测。精度小有降低，但是召回率大大提高。
去掉一个pooling层，提高分辨率。
把网络的输入尺寸由448改成416，这样最后用来设置anchor的特征图的大小就是一个奇数，如13×13（图像的降采样因子是32，416/32=13），奇数的特征图可以找到一个确定的中间位置，大目标出现在中间位置的概率更高。
预测内容包括，目标位置（学习default box的偏移）,目标置信度（default box中是否有目标），目标的分类概率。

确定anchor的尺度：

faster rcnn的anchor的尺度信息是手动设定的，比如长宽比有1比2，2比1;anchor的大小也有一系列数值。
手动设定的依赖经验信息，作者使用聚类算法来计算anchor的尺度。注意，是计算anchor的尺度。
如，在生成的13×13的特征图上，每个特征图上的cell生成k个尺度的anchor，这k个尺度的anchor分别是多少？作者用kmeans聚类算法解决。

kmeans算法很简单，是一种无监督的算法，输入n个数据点和一个k值，对n个数据点分成k类。
根据kmeans算法的原理，计算n个数据点属于哪一类，需要一个度量标准，比如使用欧式距离来计算两个数据点之间的关系，根据这个关系的远近判断两个点是否属于同一类点。

在计算anchor的尺度过程中，使用的度量距离是IOU。
论文中的公式如下：

$d (b o x, c e n t r o i d) = 1 / I O U (b o x, c e n t r o i d)$

kmeans算法使用迭代运算，直到运算收敛。
centroid是某一次迭代的某一个类别的聚类中心点，box是需要待判断的box。

输入的n个数据的boxes就是训练数据中的ground truth boxes

作者实验了一些度量方法和不同的k值，最后得出使用上面的公式效果最好，k值最好设置为5.

位置预测：

yolov2借鉴RPN网络使用anchor boxes来预测bounding box相对先验框的offsets。

预测的bounding box的中心位置为 $(x, y)$ ，设置的先验框的宽高为 $w_a, h_a)$ ，中心位置为 $x_a, y_a)$ ，网络学习到的偏移量是 $t_x,t_y)$

那么，最后预测框的位置 $(x, y)$ 计算公式为：
$x = (t_x*w_a)+x_a$
$y = (t_y*h_a)+y_a$

上面公式与原论文的公式不一样，后面两个减法应该是加法（很多博主都是这样认为）

但是使用上面计算公式会有这样的一个问题：
假如当前正则计算左上角的bounding box的位置信息，如果计算出的offset的值非常大，那么可能左上角预测的bounding box加入offset以后，就有可能跑出左上角特征图cell所指定的grid（参见yolov1)。所以，需要将学习到的offset值做一个限制，使得当前cell所计算的bounding box的偏移量被限制在当前cell所指定的grid里面。

如文章中所述
For example, a prediction of tx = 1 would shift the box to the right by the width of the anchor box, a prediction of tx = =1 would shift it to the left by the same amount.

预测的边界框很容易向任何方向偏移，如当 $t_x=1$ 时边界框将向右偏移先验框的一个宽度大小，而当 $t_x=-1$ 时边界框将向左偏移先验框的一个宽度大小，因此每个位置预测的边界框可以落在图片任何位置，这导致模型的不稳定性，在训练时需要很长时间来预测出正确的offsets。

作者最终使用如下的策略来避免上述问题：
在每个gird cell当中（gird cell就是特征图上的每个点映射会原始图像后得到的网格），将anchor设置在gird cell的左上角，坐标位置为 $c_x, c_y)$ ，预测的bounding box的宽高为 $p_w, p_h)$ 。那么，公式如下：
$b_x = σ(t_x) + c_x$
$b_y = σ(t_y) + c_y$
$b_w = p_w^{e^{t_w}}$
$b_h = p_h^{e^{t_h}}$

$Pr(object) ∗ IOU(b, object) = σ(t_o)$

其中 $t_x, t_y, t_w, t_h, t_o$ 分别表示中心位置x,y的偏移量，宽高的尺度偏移以及目标概率值。预测的偏移量是相对于gird cell左上角的偏移量。相当于每个anchor被限制预测当前gird cell对应的区域。

$σ$ 为sigmoid函数，这样可以将 $t_x,t_y$ 等值限制在[0,1]，就可以解决anchor加上偏移量跑飞的问题。
如下图：
上图的虚线框是 $p_w,p_y)$ 表示anchor设置 box的大小，蓝色框是经过 $t_w,t_y)$ 偏移计算以后得到的预测bounding box大小。

精细化特征：
We take a different approach, simply adding a passthrough layer that brings features from an earlier layer at 26 × 26 resolution.

为了更好的检测小目标，作者使用了一个passthrough层，将顶层的一个26×26的特征图与当前的13×13的特征图执行concat操作。

原始的yolov2有5个pooling操作，将输入的416大小的图像最后变成了13×13。26×26大小的特征图是最后一个pooling操作的输入特征。

这里借用B站上一个up主中视频的图

可以看到passthrough层上面还有一个1×1×64的卷积操作，将26×26×512的特征图变成26×26×64大小的特征图。

然后是passthrough层，passthrough的操作方式，同样借用B站UP主的一张视频截图。
可以看到，输入大小为(W,H,C)的特征图，经过passthrough层以后，会变成(W/2, H/2, C×4）大小的特征图。具体做法如上，将特征图分成2×2份，每一份的第一个cell组成一个特征图，同理第2，3，4.如图中，相同颜色的cell放在一起。

ps: 不明白为什么要这样搞，说是有利于小目标的检测，但是理由是什么啊？在知乎上找到一个说法，这东西也没法证明，愁人=_=

本质其实就是特征重排，2626512的feature map分别按行和列隔点采样，可以得到4幅1313512的特征，把这4张特征按channel串联起来，就是最后的13132048的feature map.还有就是，passthrough layer本身是不学习参数的，直接用前面的层的特征重排后拼接到后面的层，越在网络前面的层，感受野越小，有利于小目标的检测。

多尺度训练：

since our model only uses convolutional and pooling layers it can be resized on the fly.

作者使用全卷积的网络，因此不受尺度限制。

Every 10 batches our network randomly chooses a new image dimension size. Since our model downsamples by a factor of 32, we pull from the following multiples of 32: {320,352,…,608}. Thus the smallest option is 320 × 320 and the largest is 608 × 608.

作者每10个batches重新随机选取新的输入图像尺寸，尺寸的变化以32为步长，从320大小到608大小。

faster

训练策略：

ps:一下来自知乎

YOLOv2的训练主要包括三个阶段。

第一阶段就是先在ImageNet分类数据集上预训练Darknet-19，此时模型输入为 224×224 ，共训练160个epochs。

然后第二阶段将网络的输入调整为 448×448，继续在ImageNet数据集上finetune分类模型，训练10个epochs，此时分类模型的top-1准确度为76.5%，而top-5准确度为93.3%。

第三个阶段就是修改Darknet-19分类模型为检测模型，并在检测数据集上继续finetune网络。网络修改包括（网路结构可视化）：移除最后一个卷积层、global avgpooling层以及softmax层，并且新增了三个3×3×1024卷积层，同时增加了一个passthrough层，最后使用1×1 卷积层输出预测结果，输出的channels数为： number_anchor×(5 + number_class) ，和训练采用的数据集有关系。由于anchors数为5，对于VOC数据集输出的channels数就是125，而对于COCO数据集则为425。

相当于每一个anchor预测自己的位置信息（×4），目标置信度（×1）以及类别概率（×number_class)

训练数据的预处理与yolov1相同，将判断label落在哪个cell对应的grid当中，那么该cell负责预测这个目标。每个cell会根据kmeans生成5个anchor，那么在训练的时候会选区IOU最大的计算loss。

ps:论文里面没写怎么计算Loss，真诡异，看知乎上博主的分析如下。

上面的图是知乎上博主总结的，省去我硬扒别人代码的时间，tql！

我们来一点点解释，首先（W,H)分别指的是特征图(13,13)的宽与高，而A指的是先验框数目（这里是5），各个 λ值是各个loss部分的权重系数。

第一项loss是计算background的置信度误差，但是哪些预测框来预测背景呢，需要先计算各个预测框和所有ground truth的IOU值，并且取最大值Max_IOU，如果该值小于一定的阈值（YOLOv2使用的是0.6），那么这个预测框就标记为background，需要计算noobj的置信度误差。

第二项是计算先验框与预测框的坐标误差，但是只在前12800个iterations间计算，我觉得这项应该是在训练前期使预测框快速学习到先验框的形状。

ps:应该是为了训练kmeans挑选合适先验框的尺寸

第三大项计算与某个ground truth匹配的预测框各部分loss值，包括坐标误差、置信度误差以及分类误差。先说一下匹配原则，对于某个ground truth，首先要确定其中心点要落在哪个cell上，然后计算这个cell的5个先验框与ground truth的IOU值（YOLOv2中bias_match=1），计算IOU值时不考虑坐标，只考虑形状，所以先将先验框与ground truth的中心点都偏移到同一位置（原点），然后计算出对应的IOU值，IOU值最大的那个先验框与ground truth匹配，对应的预测框用来预测这个ground truth。在计算obj置信度时，target=1，但与YOLOv1一样而增加了一个控制参数rescore，当其为1时，target取预测框与ground truth的真实IOU值（cfg文件中默认采用这种方式）。对于那些没有与ground truth匹配的先验框（与预测框对应），除去那些Max_IOU低于阈值的，其它的就全部忽略，不计算任何误差。这点在YOLOv3论文中也有相关说明：YOLO中一个ground truth只会与一个先验框匹配（IOU值最好的），对于那些IOU值超过一定阈值的先验框，其预测结果就忽略了。这和SSD与RPN网络的处理方式有很大不同，因为它们可以将一个ground truth分配给多个先验框。尽管YOLOv2和YOLOv1计算loss处理上有不同，但都是采用均方差来计算loss。另外需要注意的一点是，在计算boxes的宽和高误差时，YOLOv1中采用的是平方根以降低boxes的大小对误差的影响，而YOLOv2是直接计算，但是根据ground truth的大小对权重系数进行修正：l.coord_scale * (2 - truth.w*truth.h)（这里w和h都归一化到(0,1))，这样对于尺度较小的boxes其权重系数会更大一些，可以放大误差，起到和YOLOv1计算平方根相似的效果

stronger

作者使用检测数据和分类数据进行联合训练，策略如下：

During training we mix images from both detection and classification datasets. When our network sees an image labelled for detection we can backpropagate based on the full YOLOv2 loss function. When it sees a classification image we only backpropagate loss from the classification-
specific parts of the architecture.
在训练的过程中，混合检测数据和分类数据。当网络发现一个图片有检测的标注，那么就是用yolov2的loss函数进行计算。当发现图片是分类的数据集时，计算loss的时候仅对分类的部分进行反向传播。

在coco和imagetnet的数据集上，有很多类别不是互斥的，比如“狗”和“柯基”的关系，实际上“柯基”属于“狗”这个类别。因此，作者使用了一种层级分类的方法。

WordNet is structured as a directed graph, not a tree, because language is complex.
作者使用了一种“wordNet"有向图结构（树）。根节点节点为physical object，然后根据类别依次设计对象的属性，如是否时动物，如果时动物，是猫，狗还鱼等等，最后得到更加具体的目标类别。比如，上面提到的“柯基”犬。

引用知乎上的解释

整个WordTree中的对象之间不是互斥的关系，但对于单个节点，属于它的所有子节点之间是互斥关系。比如terrier节点之下的Norfolk terrier、Yorkshire terrier、Bedlington terrier等，各品种的terrier之间是互斥的，所以计算上可以进行softmax操作。

wordtree的构建：

引用知乎上的解释

构建好的WordTree有9418个节点（对象类型），包括ImageNet的Top
9000个对象，COCO对象，以及ImageNet对象检测挑战数据集中的对象，以及为了添加这些对象，从WordNet路径中提取出的中间对象。

构建WordTree的步骤是：①检查每一个将用于训练和测试的ImageNet和COCO对象，在WordNet中找到对应的节点，如果该节点到WordTree根节点（physical
object）的路径只有一条（大部分对象都只有一条路径），就将该路径添加到WrodTree。②经过上面操作后，剩下的是存在多条路径的对象。对每个对象，检查其额外路径长度（将其添加到已有的WordTree中所需的路径长度），选择最短的路径添加到WordTree。这样就构造好了整个WordTree。

表达对象类别：
To perform classification with WordTree we predict conditional probabilities at every node for the probability of each hyponym of that synset given that synset.
作者使用条件概率的方式来表达目标的类别概率。

如：
Pr(Norfolk terrier|terrier)
Pr(Yorkshire terrier|terrier)
Pr(Bedlington terrier|terrier)

If we want to compute the absolute probability for a particular node we simply follow the path through the tree to the root node and multiply to conditional probabilities.
如果想要计算一个具体节点的概率，可以简单的将节点所在路径到根节点的条件概率值相乘。

如：

P(Norfolk terrier) = P(Norfolk terrier|terrier) * P(terrier|hunting dog) * P(hunting dog|dog) … P(animal|physical object) * P(physical object)

实际中并不计算出所有节点的绝对概率。而是采用一种比较贪婪的算法。从根节点开始向下遍历，对每一个节点，在它的所有子节点中，选择概率最大的那个（一个节点下面的所有子节点是互斥的），一直向下遍历直到某个节点的子节点概率低于设定的阈值（意味着很难确定它的下一层对象到底是哪个），或达到叶子节点，那么该节点就是该WordTree对应的对象。

在wordtree中，计算概率的方式使用的是softmax，但是要注意。同一个根节点下的子节点，使用一个softmax。如下图：
可以看到，上图

联合训练：

imagenet样本比coco多，所以对coco样本会多做一些采样（oversampling），适当平衡一下样本数量，使两者样本数量比为4:1。
对于分类样本，则只计算分类误差。YOLO9000总共会输出13133=507个预测框（预测对象），计算它们对样本标签的预测概率，选择概率最大的那个框负责预测该样本的对象，即计算其WrodTree的误差。

参考：
https://zhuanlan.zhihu.com/p/47575929
https://zhuanlan.zhihu.com/p/35325884
https://www.bilibili.com/video/BV1yi4y1g7ro?p=2
感谢以上博主

《AI医疗系统开发实战录》第6期——智能导诊系统实战骆驼_代码狂魔程序员的法宝人工智能 django python neo4j 知识图谱
关注我，后期文章全部免费开放，一起推进AI医疗的发展核心主题：如何构建95%准确率的智能导诊系统？技术突破：结合BERT+知识图谱的混合模型设计一、智能导诊架构设计python基于BERT的意图识别模型（PyTorch）fromtransformersimportBertTokenizer,BertForSequenceClassificationimporttorchclassTriageMod
Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
【论文阅读】Persistent Homology Captures the Generalization of Neural Networks Without A Validation Set 开心星人论文阅读论文阅读
将神经网络表征为加权的无环图，直接根据模型的权重矩阵构造PD。计算相邻batch的权重矩阵PD之间的距离。比较同调收敛性与神经网络的验证精度变化趋势摘要机器学习从业者通常通过监控模型的某些指标来估计其泛化误差，并在训练数值收敛之前停止训练，以防止过拟合。通常，这种误差度量或任务相关的指标是通过一个验证集（holdoutset）来计算的。因为这些数据没有直接用于更新模型参数，通常假设模型在验证集上的
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
深度学习 | pytorch + torchvision + python 版本对应及环境安装 zfgfdgbhs 深度学习 python pytorch
目录一、版本对应二、安装命令（pip）1.版本（1）v2.5.1~v2.0.0（2）v1.13.1~v1.11.0（3）v1.10.1~v1.7.02.安装全过程（1）选择版本（2）安装结果参考文章一、版本对应下表来自pytorch的github官方文档：pytorch/vision:Datasets,TransformsandModelsspecifictoComputerVisionpytor
卷积神经网络 - 理解卷积核的尺寸 k×k×Cin 谦亨有终 AI学习笔记 cnn 人工智能神经网络深度学习机器学习
卷积神经网络中，每个卷积核的尺寸为k×k×Cin，这一设计的核心原因在于多通道输入的数据结构和跨通道特征整合的需求。以下是详细解释：1.输入数据的结构输入形状：假设输入数据为三维张量，形状为H×W×Cin，其中：H：高度（Height）W：宽度（Width）Cin：通道数（Channelsin）多通道的物理意义：对于RGB图像，Cin=3（红、绿、蓝三通道）。对于中间层的特征图，Cin可能为64、
PyTorch核心基础知识点 niuTaylor 编程区 pytorch 人工智能 python
PyTorch核心基础知识点，结合最新特性与工业级实践，按优先级和逻辑关系分层解析：▍核心基石：张量编程（TensorProgramming）1.张量创建（8种生产级初始化）#设备自动选择（2024最佳实践）device="cuda"iftorch.cuda.is_available()else"mps"iftorch.backends.mps.is_available()else"cpu"#关键
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
Linux部署模型报错OSError: Error no file named pytorch_model.bin, tf_model.h5, model.ckpt.index or flax_mod dkgee linux pytorch 运维
报错内容：OSError:Errornofilenamedpytorch_model.bin,tf_model.h5,model.ckpt.indexorflax_model.msgpackfoundindirectory主要原因是transformer版本不对，需要升级pipinstall--upgradehuggingface_hubpipinstalltransformers[torch]其
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
模型优化驱动产业应用创新智能计算研究中心其他
内容概要当前模型优化技术的迭代正沿着多维路径快速演进，其核心驱动力在于突破算法性能与产业需求间的适配瓶颈。以自适应学习机制与迁移学习框架为基础的优化策略，显著提升了模型在跨场景应用中的泛化能力，而超参数自动调优技术则通过PyTorch、TensorFlow等主流框架的接口标准化，降低了复杂模型的开发门槛。在部署层面，边缘计算与联邦学习的协同应用不仅缩短了金融预测、医疗影像分析等场景的响应延迟，更通
【第1章＞第6节】CMAC小脑模型神经网络的理论学习与MATLAB仿真 fpga和matlab #第1章·神经网络学习 matlab CMAC 小脑模型神经网络人工智能
目录1.使用软件和版本2.CMAC小脑模型神经网络概述2.1CMAC网络结构2.2CMAC地址映射2.3学习过程3.CMAC网络的MATLAB编程实现4.分辨率，重叠度，学习率对CMAC网络的训练性能影响分析4.1分辨率4.2重叠度4.3学习率5.视频操作步骤演示欢迎订阅FPGA/MATLAB/Simulink系列教程《★教程1:matlab入门100例》《★教程2:fpga入门100例》《★教程
基于roop/insightface将视频中包含指定人脸的视频片段提取并合并成新视频阆遤 python roop pytorch insightface
利用insightface.app.FaceAnalysis提最一个视频中包含指定人脸的视频片段，并将其合并成一个新视频，使用“buffalo_l”模型，模型需安装在代码当前目录下的.\models中。需要roop或其他支持pytorch、insightface、moviepy的环境。pytorch安装请见我其他文章。#cython:language_level=3str#-*-coding:ut
关于pytorch3d的安装诚威_lol_中大努力中人工智能 pytorch 人工智能 python
更新1：2025_2_04今天发现，原来的pytorch3d不见了，在我的aaa1环境中。重新安装，我发现最好用的还是去github下载最新的pytorch3d的zip，unzip之后，进去pipinstall-e.然后安装成功！1、参考文章1：windows安装PyTorch3D详细指南-哔哩哔哩(bilibili.com)这篇文章巨好2、参考文章2：pytorch3d/INSTALL.mdat
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
深度学习 Deep Learning 第8章深度学习优化 odoo中国 AI编程人工智能深度学习人工智能优化
深度学习第8章深度学习的优化章节概述本章深入探讨了深度学习中的优化技术，旨在解决模型训练过程中面临的各种挑战。优化是深度学习的核心环节，直接关系到模型的训练效率和最终性能。本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。此外，还探讨了参数初始化策略、自适应学习率方法以及二阶优
【零基础入门】一篇弄懂nn.Sequential以及ModuleList的使用（呕心沥血版）十二月的猫 PyTorch深度学习 pytorch 零基础入门
个人主页：十二月的猫-CSDN博客系列专栏：《PyTorch科研加速指南：即插即用式模块开发》CSDN博客十二月的寒冬阻挡不了春天的脚步，十二点的黑夜遮蔽不住黎明的曙光目录1.前言2.Sequential类的使用2.1序列容器简单注入2.2序列容器字典注入2.3序列容器函数注入2.4序列容器修改2.5序列容器删除3.nn.ModuleList()的使用3.1定义模型3.2使用模型4.总结1.前言《
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
深度学习篇---对角矩阵&矩阵的秩&奇异矩阵 Ronin-Lotus 程序代码篇深度学习篇深度学习矩阵人工智能线性代数
文章目录前言一、对角矩阵（DiagonalMatrix）1.1定义1.2特性行列式运算简化1.3应用领域深度学习信号处理量子力学经济学二、矩阵的秩（RankofaMatrix）2.1定义2.2特性满秩降秩影响2.3应用领域深度学习图像压缩推荐系统控制理论三、奇异矩阵（SingularMatrix）3.1定义3.2特性秩不足行列式为零3.3应用领域深度学习正则化损失函数结构工程统计学数值计算四、跨领
DeepSeek、Grok 与 ChatGPT 三巨头：技术架构与应用场景的全方位解析云策量化 Deepseek chatgpt deepseek grok
前言在当今人工智能领域，DeepSeek、Grok和ChatGPT作为语言模型的三巨头，各自凭借独特的技术架构和广泛的应用场景，在自然语言处理领域占据着重要地位。本文将对这三款模型的技术架构和应用场景进行全方位解析，以期为读者提供深入的了解和有价值的参考。一、技术架构（一）DeepSeekDeepSeek是由DeepSeek团队开发的一款大型语言模型，其技术架构基于深度学习中的Transforme
OpenCV 4.2.0与扩展模块安装与应用指南土城三富
本文还有配套的精品资源，点击获取简介：OpenCV4.2.0是一个先进的计算机视觉库，包含了图像处理、计算机视觉和机器学习算法。本压缩包包含OpenCV核心库和扩展模块（opencv_contrib），版本均为4.2.0。该版本引入了性能增强、API优化以及对深度学习框架和硬件加速技术的更新支持。扩展模块提供了额外的实验性算法和功能，有助于研究和开发新算法。指南详细介绍了如何安装和配置这些库，并提
OpenCV ML 模块使用指南 ice_junjun OpenCV opencv 人工智能计算机视觉
一、模块概述OpenCV的ML模块提供了丰富的机器学习算法，可用于解决各种计算机视觉和数据分析问题。本指南将详细介绍该模块中主要的机器学习算法，包括支持向量机（SVM）、K均值聚类（K-Means）和神经网络（ANN），并结合图像分类和聚类分析这两个典型应用场景进行代码实现与解释。二、主要函数及类详解（一）支持向量机（SVM）：cv.ml.SVM_create()功能支持向量机（SVM）是一种强大
强化学习中策略网络模型设计与优化技巧数字扫地僧计算机视觉深度学习
I.引言强化学习（ReinforcementLearning,RL）是一种通过与环境交互，学习如何采取行动以最大化累积奖励的机器学习方法。策略网络（PolicyNetwork）是强化学习中一种重要的模型，它直接输出动作的概率分布或具体的动作。本篇博客将深入探讨策略网络的设计原则、优化技巧，并结合具体实例展示其应用。II.策略网络的基本概念A.策略网络的定义策略网络是一种神经网络，它接受当前状态作为
介于YOLOv5的裂缝识别系统程序员～小强 YOLO
介于YOLOv5的裂缝识别系统在现代工业中，裂缝监测是的保障设施安全的重要环节。我们公司的新项目——基于YOLOv5的裂缝识别系统，将为您提供高效、精准的解决方案，助力各类工程项目的质量管理。系统优势我们的裂缝识别系统借助YOLOv5进行深度学习，经过精心训练，拥有强大的图像识别能力。只需简单的步骤，您就能将复杂的裂缝检测转化为轻松的操作，让分析变得更加简单、高效。核心功能图片上传与场景选择用户可
pytorch v1.4.0安装问题大柠丶 pytorch 人工智能 python
直接使用conda安装报错：(CenterNet)C:\Users\16323>condainstallpytorch==1.4.0torchvision==0.5.0cudatoolkit=10.1-cpytorch-cconda-forgeChannels:-pytorch-conda-forge-defaultsPlatform:win-64Collectingpackagemetadata
Vision mamba(mamba_ssm)安装踩坑指南 ggitjcg 深度学习 python
在这篇博客中，我将分享我在linux环境安装和使用VisionMamba（mamba_ssm）过程中遇到的一些问题和解决方法。前置检查：PyTorch和Python版本在安装mamba_ssm前，请确保你的PyTorch和Python环境版本正确。以下代码可用来检查环境信息：importtorchprint("PyTorchVersion:{}".format(torch.__version__)
关于forward函数 oioz 深度学习
定义forward函数是模型的核心前向传播逻辑，定义了输入数据如何在模型中传递和计算。它将输入数据通过模型的各层（如卷积层、全连接层等），计算出模型的输出。作用负责模型的主要计算逻辑。在训练和验证过程中都会被调用。特点必须实现：在PyTorch中，forward函数是模型的核心部分，必须显式定义。灵活性高：可以根据模型需要，自由定义forward函数的内容，包括各种计算操作。示例（PyTorch）
卷积神经网络Batch Normalization的作用 arron8899 cnn batch 人工智能
BatchNormalization的作用（通俗版）1.像“稳定器”一样校准每层输入想象你在烤多层蛋糕，每层蛋糕的烘烤温度不同（相当于神经网络的每一层数据分布不同）。没有BN时，烤箱温度忽高忽低，导致有的层烤焦（梯度爆炸），有的层不熟（梯度消失）。BN的作用相当于给每一层装了一个自动温度调节器，实时将输入数据调整到标准温度（均值为0，方差为1），保证每层都能均匀受热，训练更稳定。2.让模型训练“少
java数字签名三种方式知了ing java jdk
以下3钟数字签名都是基于jdk7的 1，RSA String password="test"; // 1.初始化密钥 KeyPairGenerator keyPairGenerator = KeyPairGenerator.getInstance("RSA"); keyPairGenerator.initialize(51
Hibernate学习笔记 caoyong Hibernate
1>、Hibernate是数据访问层框架，是一个ORM(Object Relation Mapping)框架，作者为:Gavin King 2>、搭建Hibernate的开发环境 a>、添加jar包: aa>、hibernatte开发包中/lib/required/所
设计模式之装饰器模式Decorator（结构型）漂泊一剑客 Decorator
1. 概述若你从事过面向对象开发，实现给一个类或对象增加行为，使用继承机制，这是所有面向对象语言的一个基本特性。如果已经存在的一个类缺少某些方法，或者须要给方法添加更多的功能（魅力），你也许会仅仅继承这个类来产生一个新类—这建立在额外的代码上。
读取磁盘文件txt，并输入String 一炮送你回车库 String
public static void main(String[] args) throws IOException { String fileContent = readFileContent("d:/aaa.txt"); System.out.println(fileContent);
js三级联动下拉框 3213213333332132 三级联动
//三级联动省/直辖市<select id="province"></select> 市/省直辖<select id="city"></select> 县/区 <select id="area"></select>
erlang之parse_transform编译选项的应用 616050468 parse_transform 游戏服务器属性同步 abstract_code
最近使用erlang重构了游戏服务器的所有代码，之前看过C++/lua写的服务器引擎代码，引擎实现了玩家属性自动同步给前端和增量更新玩家数据到数据库的功能，这也是现在很多游戏服务器的优化方向，在引擎层面去解决数据同步和数据持久化，数据发生变化了业务层不需要关心怎么去同步给前端。由于游戏过程中玩家每个业务中玩家数据更改的量其实是很少
JAVA JSON的解析 darkranger java
// { // “Total”：“条数”， // Code: 1, // // “PaymentItems”:[ // { // “PaymentItemID”:”支款单ID”, // “PaymentCode”:”支款单编号”, // “PaymentTime”:”支款日期”, // ”ContractNo”:”合同号”， //
POJ-1273-Drainage Ditches aijuans ACM_POJ
POJ-1273-Drainage Ditches http://poj.org/problem?id=1273 基本的最大流，按LRJ的白书写的 #include<iostream> #include<cstring> #include<queue> using namespace std; #define INF 0x7fffffff int ma
工作流Activiti5表的命名及含义 atongyeye 工作流 Activiti
activiti5 - http://activiti.org/designer/update在线插件安装 activiti5一共23张表 Activiti的表都以ACT_开头。第二部分是表示表的用途的两个字母标识。用途也和服务的API对应。 ACT_RE_*: 'RE'表示repository。这个前缀的表包含了流程定义和流程静态资源（图片，规则，等等）。 A
android的广播机制和广播的简单使用百合不是茶 android 广播机制广播的注册
Android广播机制简介在Android中，有一些操作完成以后，会发送广播，比如说发出一条短信，或打出一个电话，如果某个程序接收了这个广播，就会做相应的处理。这个广播跟我们传统意义中的电台广播有些相似之处。之所以叫做广播，就是因为它只负责“说”而不管你“听不听”，也就是不管你接收方如何处理。另外，广播可以被不只一个应用程序所接收，当然也可能不被任何应
Spring事务传播行为详解 bijian1013 java spring 事务传播行为
在service类前加上@Transactional，声明这个service所有方法需要事务管理。每一个业务方法开始时都会打开一个事务。 Spring默认情况下会对运行期例外(RunTimeException)进行事务回滚。这
eidtplus operate 征客丶 eidtplus
开启列模式: Alt+C 鼠标选择 OR Alt+鼠标左键拖动列模式替换或复制内容(多行): 右键-->格式-->填充所选内容-->选择相应操作 OR Ctrl+Shift+V(复制多行数据,必须行数一致) -------------------------------------------------------
【Kafka一】Kafka入门 bit1129 kafka
这篇文章来自Spark集成Kafka(http://bit1129.iteye.com/blog/2174765)，这里把它单独取出来，作为Kafka的入门吧下载Kafka http://mirror.bit.edu.cn/apache/kafka/0.8.1.1/kafka_2.10-0.8.1.1.tgz 2.10表示Scala的版本，而0.8.1.1表示Kafka
Spring 事务实现机制 BlueSkator spring 代理事务
Spring是以代理的方式实现对事务的管理。我们在Action中所使用的Service对象，其实是代理对象的实例，并不是我们所写的Service对象实例。既然是两个不同的对象，那为什么我们在Action中可以象使用Service对象一样的使用代理对象呢？为了说明问题，假设有个Service类叫AService，它的Spring事务代理类为AProxyService，AService实现了一个接口
bootstrap源码学习与示例：bootstrap-dropdown（转帖） BreakingBad bootstrap dropdown
bootstrap-dropdown组件是个烂东西，我读后的整体感觉。一个下拉开菜单的设计： <ul class="nav pull-right"> <li id="fat-menu" class="dropdown">
读《研磨设计模式》-代码笔记-中介者模式-Mediator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* * 中介者模式（Mediator）：用一个中介对象来封装一系列的对象交互。 * 中介者使各对象不需要显式地相互引用，从而使其耦合松散，而且可以独立地改变它们之间的交互。 * * 在我看来，Mediator模式是把多个对象（
常用代码记录 chenjunt3 UI Excel J#
1、单据设置某行或某字段不能修改 //i是行号,"cash"是字段名称 getBillCardPanelWrapper().getBillCardPanel().getBillModel().setCellEditable(i, "cash", false); //取得单据表体所有项用以上语句做循环就能设置整行了 getBillC
搜索引擎与工作流引擎 comsci 算法工作搜索引擎网络应用
最近在公司做和搜索有关的工作，(只是简单的应用开源工具集成到自己的产品中)工作流系统的进一步设计暂时放在一边了，偶然看到谷歌的研究员吴军写的数学之美系列中的搜索引擎与图论这篇文章中的介绍，我发现这样一个关系(仅仅是猜想) -----搜索引擎和流程引擎的基础--都是图论，至少像在我在JWFD中引擎算法中用到的是自定义的广度优先
oracle Health Monitor daizj oracle Health Monitor
About Health Monitor Beginning with Release 11g, Oracle Database includes a framework called Health Monitor for running diagnostic checks on the database. About Health Monitor Checks Health M
JSON字符串转换为对象 dieslrae java json
作为前言,首先是要吐槽一下公司的脑残编译部署方式,web和core分开部署本来没什么问题,但是这丫居然不把json的包作为基础包而作为web的包,导致了core端不能使用,而且我们的core是可以当web来用的(不要在意这些细节),所以在core中处理json串就是个问题.没办法,跟编译那帮人也扯不清楚,只有自己写json的解析了.
C语言学习八结构体，综合应用，学生管理系统 dcj3sjt126com C语言
实现功能的代码： # include <stdio.h> # include <malloc.h> struct Student { int age; float score; char name[100]; }; int main(void) { int len; struct Student * pArr; int i,
vagrant学习笔记 dcj3sjt126com vagrant
想了解多主机是如何定义和使用的, 所以又学习了一遍vagrant 1. vagrant virtualbox 下载安装 https://www.vagrantup.com/downloads.html https://www.virtualbox.org/wiki/Downloads 查看安装在命令行输入vagrant 2.
14.性能优化-优化-软件配置优化 frank1234 软件配置性能优化
1.Tomcat线程池修改tomcat的server.xml文件： <Connector port="8080" protocol="HTTP/1.1" connectionTimeout="20000" redirectPort="8443" maxThreads="1200" m
一个不错的shell 脚本教程入门级 HarborChung linux shell
一个不错的shell 脚本教程入门级建立一个脚本　　Linux中有好多中不同的shell，但是通常我们使用bash (bourne again shell) 进行shell编程，因为bash是免费的并且很容易使用。所以在本文中笔者所提供的脚本都是使用bash（但是在大多数情况下，这些脚本同样可以在 bash的大姐，bourne shell中运行）。　　如同其他语言一样
Spring4新特性——核心容器的其他改进 jinnianshilongnian spring 动态代理 spring4 依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
Linux设置tomcat开机启动 liuxingguome tomcat linux 开机自启动
执行命令sudo gedit /etc/init.d/tomcat6 然后把以下英文部分复制过去。（注意第一句#!/bin/sh如果不写，就不是一个shell文件。然后将对应的jdk和tomcat换成你自己的目录就行了。 #!/bin/bash # # /etc/rc.d/init.d/tomcat # init script for tomcat precesses
第13章 Ajax进阶（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Troubleshooting Crystal Reports off BW blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Troubleshooting+Crystal+Reports+off+BW#TroubleshootingCrystalReportsoffBW-TracingBOE Quite useful, especially this part: SAP BW connectivity For t
Java开发熟手该当心的11个错误 tomcat_oracle java jvm 多线程单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
正则表达式大全 yang852220741 html 编程正则表达式
今天向大家分享正则表达式大全，它可以大提高你的工作效率正则表达式也可以被当作是一门语言，当你学习一门新的编程语言的时候，他们是一个小的子语言。初看时觉得它没有任何的意义，但是很多时候，你不得不阅读一些教程，或文章来理解这些简单的描述模式。一、校验数字的表达式数字：^[0-9]*$ n位的数字：^\d{n}$ 至少n位的数字：^\d{n,}$ m-n位的数字：^\d{m,n}$

yolov2 论文笔记

摘要部分

better

faster

stronger

你可能感兴趣的:(论文学习,深度学习,pytorch,神经网络)