麦兜ppig

yolo2

出处：https://zhuanlan.zhihu.com/p/25167153分析的比较细致，直接看原文，图不完整

本文是对 YOLO9000: Better, Faster, Stronger （项目主页）的翻译。加了个人理解和配图。内容参考了 YOLOv2 论文笔记 - Jesse_Mx 。水平有限，错误之处欢迎指正。

1. 概述

YOLO2主要有两个大方面的改进：

使用一系列的方法对YOLO进行了改进，在保持原有速度的同时提升精度得到YOLOv2。
提出了一种目标分类与检测的联合训练方法，同时在COCO和ImageNet数据集中进行训练得到YOLO9000，实现9000多种物体的实时检测。

2 更精确（Better）

batch normalization

神经网络学习过程本质就是为了学习数据分布,一旦训练数据与测试数据的分布不同,那么网络的泛化能力也大大降低;另外一方面，一旦每批训练数据的分布各不相同(batch 梯度下降),那么网络就要在每次迭代都去学习适应不同的分布,这样将会大大降低网络的训练速度。（引用自 Implementation of Batch Normalization Layer）

解决办法之一是对数据都要做一个归一化预处理。YOLOv2网络通过在每一个卷积层后添加batch normalization，极大的改善了收敛速度同时减少了对其它regularization方法的依赖（舍弃了dropout优化后依然没有过拟合），使得mAP获得了2%的提升。

参考：Implementation of Batch Normalization LayerBatch Normalization导读

High Resolution Classiﬁer

所有state-of-the-art的检测方法基本上都会使用ImageNet预训练过的模型（classifier）来提取特征，例如AlexNet输入图片会被resize到不足256 * 256，这导致分辨率不够高，给检测带来困难。所以YOLO(v1)先以分辨率224*224训练分类网络，然后需要增加分辨率到448*448，这样做不仅切换为检测算法也改变了分辨率。所以作者想能不能在预训练的时候就把分辨率提高了，训练的时候只是由分类算法切换为检测算法。

YOLOv2首先修改预训练分类网络的分辨率为448*448，在ImageNet数据集上训练10轮（10 epochs）。这个过程让网络有足够的时间调整filter去适应高分辨率的输入。然后fine tune为检测网络。mAP获得了4%的提升。

Convolutional With Anchor Boxes.

YOLO(v1)使用全连接层数据进行bounding box预测（要把1470*1的全链接层reshape为7*7*30的最终特征），这会丢失较多的空间信息定位不准。YOLOv2借鉴了Faster R-CNN中的anchor思想：简单理解为卷积特征图上进行滑窗采样，每个中心预测9种不同大小和比例的建议框。由于都是卷积不需要reshape，很好的保留的空间信息，最终特征图的每个特征点和原图的每个cell一一对应。而且用预测相对偏移（offset）取代直接预测坐标简化了问题，方便网络学习。

总的来说就是移除全连接层（以获得更多空间信息）使用 anchor boxes 取预测 bounding boxes。具体做法如下：

去掉最后的池化层确保输出的卷积特征图有更高的分辨率。
缩减网络，让图片输入分辨率为416 * 416，目的是让后面产生的卷积特征图宽高都为奇数，这样就可以产生一个center cell。因为作者观察到，大物体通常占据了图像的中间位置，可以只用一个中心的cell来预测这些物体的位置，否则就要用中间的4个cell来进行预测，这个技巧可稍稍提升效率。
使用卷积层降采样（factor 为32），使得输入卷积网络的416 * 416图片最终得到13 * 13的卷积特征图（416/32=13）。
把预测类别的机制从空间位置(cell)中解耦，由anchor box同时预测类别和坐标。因为YOLO是由每个cell来负责预测类别，每个cell对应的2个bounding box 负责预测坐标（回想YOLO中最后输出7*7*30的特征，每个cell对应1*1*30，前10个主要是2个bounding box用来预测坐标，后20个表示该cell在假设包含物体的条件下属于20个类别的概率，具体请参考图解YOLO 的图示）。YOLOv2中，不再让类别的预测与每个cell（空间位置）绑定一起，而是让全部放到anchor box中。下面是特征维度示意图（仅作示意并非完全正确）

加入了anchor boxes后，可以预料到的结果是召回率上升，准确率下降。我们来计算一下，假设每个cell预测9个建议框，那么总共会预测13 * 13 * 9 = 1521个boxes，而之前的网络仅仅预测7 * 7 * 2 = 98个boxes。具体数据为：没有anchor boxes，模型recall为81%，mAP为69.5%；加入anchor boxes，模型recall为88%，mAP为69.2%。这样看来，准确率只有小幅度的下降，而召回率则提升了7%，说明可以通过进一步的工作来加强准确率，的确有改进空间。 YOLOv2 论文笔记 - Jesse_Mx的博客 - 博客频道 - CSDN.NET

Dimension Clusters（维度聚类）

使用anchor时，作者发现Faster-RCNN中anchor boxes的个数和宽高维度往往是手动精选的先验框（hand-picked priors)，设想能否一开始就选择了更好的、更有代表性的先验boxes维度，那么网络就应该更容易学到准确的预测位置。解决办法就是统计学习中的K-means聚类方法，通过对数据集中的ground true box做聚类，找到ground true box的统计规律。以聚类个数k为anchor boxs个数，以k个聚类中心box的宽高维度为anchor box的维度。

如果按照标准k-means使用欧式距离函数，大boxes比小boxes产生更多error。但是，我们真正想要的是产生好的IOU得分的boxes（与box的大小无关）。因此采用了如下距离度量：

聚类结果如下图：

上面左图：随着k的增大，IOU也在增大（高召回率），但是复杂度也在增加。所以平衡复杂度和IOU之后，最终得到k值为5。上面右图：5聚类的中心与手动精选的boxes是完全不同的，扁长的框较少瘦高的框较多（这就是统计规律的力量）。

作者做了对比实验，5种boxes的Avg IOU(61.0)就和Faster R-CNN的9种Avg IOU(60.9)相当。说明K-means方法的生成的boxes更具有代表性，使得检测任务更好学习。

Direct location prediction

使用anchor boxes的另一个问题是模型不稳定，尤其是在早期迭代的时候。大部分的不稳定现象出现在预测box的（x,y）坐标时。

在区域建议网络（RPN）中会预测坐标就是预测tx，ty。对应的中心点（x,y）按如下公式计算：

可见预测tx=1就会把box向右移动anchor box的宽度，预测tx=-1就会把box向左移动相同的距离。

PS: YOLOv2论文中写的是) 个人觉得这是错误的，因为Faster-RCNN论文里写的是下图：

这个公式没有任何限制，无论在什么位置进行预测，任何anchor boxes可以在图像中任意一点。模型随机初始化之后将需要很长一段时间才能稳定预测敏感的物体偏移。因此作者没有采用这种方法，而是预测相对于grid cell的坐标位置，同时把ground truth限制在0到1之间（利用logistic激活函数约束网络的预测值来达到此限制）。

最终，网络在特征图（13 *13 ）的每个cell上预测5个bounding boxes，每一个bounding box预测5个坐标值：tx，ty，tw，th，to。如果这个cell距离图像左上角的边距为（cx，cy）以及该cell对应的box维度（bounding box prior）的长和宽分别为（pw，ph），那么对应的box为：

约束了位置预测的范围，参数就更容易学习，模型就更稳定。使用Dimension Clusters和Direct location prediction这两项anchor boxes改进方法，mAP获得了5%的提升。

Fine-Grained Features（细粒度特征）

修改后的网络最终在13 * 13的特征图上进行预测，虽然这足以胜任大尺度物体的检测，如果用上细粒度特征的话可能对小尺度的物体检测有帮助。Faser R-CNN和SSD都在不同层次的特征图上产生区域建议以获得多尺度的适应性。YOLOv2使用了一种不同的方法，简单添加一个 passthrough layer，把浅层特征图（分辨率为26 * 26）连接到深层特征图。

passthroughlaye把高低分辨率的特征图做连结，叠加相邻特征到不同通道（而非空间位置）
，类似于Resnet中的identity mappings。这个方法把26 * 26 * 512的特征图叠加成13 * 13 * 2048的特征图，与原生的深层特征图相连接。

YOLOv2的检测器使用的就是经过扩展后的的特征图，它可以使用细粒度特征，使得模型的性能获得了1%的提升。

Multi-ScaleTraining

原始YOLO网络使用固定的448 * 448的图片作为输入，加入anchor boxes后输入变成416 * 416，由于网络只用到了卷积层和池化层，就可以进行动态调整（检测任意大小图片）。为了让YOLOv2对不同尺寸图片的具有鲁棒性，在训练的时候也考虑了这一点。

不同于固定网络输入图片尺寸的方法，每经过10批训练（10 batches）就会随机选择新的图片尺寸。网络使用的降采样参数为32，于是使用32的倍数{320,352，…，608}，最小的尺寸为320 * 320，最大的尺寸为608 * 608。调整网络到相应维度然后继续进行训练。

这种机制使得网络可以更好地预测不同尺寸的图片，同一个网络可以进行不同分辨率的检测任务，在小尺寸图片上YOLOv2运行更快，在速度和精度上达到了平衡。

在低分辨率图片检测中，YOLOv2是检测速度快（计算消耗低），精度较高的检测器。输入为228 * 228的时候，帧率达到90FPS，mAP几乎和Faster R-CNN的水准相同。使得其更加适用于低性能GPU、高帧率视频和多路视频场景。

在高分辨率图片检测中，YOLOv2达到了先进水平（state-of-the-art），VOC2007 上mAP为78.6%，而且超过实时速度要求。下图是YOLOv2和其他网络在VOC2007上的对比：

3.更快速（Faster）

为了精度与速度并重，作者在速度上也作了一些改进措施。

大多数检测网络依赖于VGG-16作为特征提取网络，VGG-16是一个强大而准确的分类网络，但是确过于复杂。224 * 224的图片进行一次前向传播，其卷积层就需要多达306.9亿次浮点数运算。

YOLO使用的是基于Googlenet的自定制网络，比VGG-16更快，一次前向传播仅需85.2亿次运算，不过它的精度要略低于VGG-16。224 * 224图片取 single-crop, top-5 accuracy，YOLO的定制网络得到88%（VGG-16得到90%）。

Darknet-19

YOLOv2使用了一个新的分类网络作为特征提取部分，参考了前人的工作经验。类似于VGG，网络使用了较多的3 * 3卷积核，在每一次池化操作后把通道数翻倍。借鉴了network in network的思想，网络使用了全局平均池化（global average pooling）做预测，把1 * 1的卷积核置于3 * 3的卷积核之间，用来压缩特征。使用batch normalization稳定模型训练，加速收敛，正则化模型。

最终得出的基础模型就是Darknet-19，包含19个卷积层、5个最大值池化层（max pooling layers ）。Darknet-19处理一张照片需要55.8亿次运算，imagenet的top-1准确率为72.9%，top-5准确率为91.2%。

Training for classiﬁcation

作者使用Darknet-19在标准1000类的ImageNet上训练了160次，用随机梯度下降法，starting learning rate 为0.1，polynomial rate decay 为4，weight decay为0.0005 ，momentum 为0.9。训练的时候仍然使用了很多常见的数据扩充方法（data augmentation），包括random crops, rotations, and hue, saturation, and exposure shifts。（参数都是基于作者的darknet框架）

初始的224 * 224训练后把分辨率上调到了448 * 448，使用同样的参数又训练了10次，学习率调整到了。高分辨率下训练的分类网络top-1准确率76.5%，top-5准确率93.3%。

Training for detection

为了把分类网络改成检测网络，去掉原网络最后一个卷积层，增加了三个 3 * 3 （1024 ﬁlters）的卷积层，并且在每一个卷积层后面跟一个1 * 1的卷积层，输出维度是检测所需数量。

对于VOC数据集，预测5种boxes，每个box包含5个坐标值和20个类别，所以总共是5 * （5+20）= 125个输出维度。

也添加了passthrough layer，从最后3 * 3 * 512的卷积层连到倒数第二层，使模型有了细粒度特征。

学习策略是：先以的初始学习率训练了160次，在第60次和第90次的时候学习率减为原来的十分之一。weight decay为0.0005，momentum为0.9，以及类似于Faster-RCNN和SSD的数据扩充（data augmentation）策略： random crops, color shifting, etc。使用相同的策略在 COCO 和VOC上训练。

PS：下面的部分是在YOLOv2的基础上得到YOLO9000。

4. 更强大（Stronger）

作者提出了一种在分类数据集和检测数据集上联合训练的机制。使用检测数据集的图片去学习检测相关的信息，例如bounding box 坐标预测，是否包含物体以及属于各个物体的概率。使用仅有类别标签的分类数据集图片去扩展可以检测的种类。

训练过程中把监测数据和分类数据混合在一起。当网络遇到一张属于检测数据集的图片就基于YOLOv2的全部损失函数（包含分类部分和检测部分）做反向传播。当网络遇到一张属于分类数据集的图片就仅基于分类部分的损失函数做反向传播。

这种方法有一些难点需要解决。检测数据集只有常见物体和抽象标签（不具体），例如 “狗”，“船”。分类数据集拥有广而深的标签范围（例如ImageNet就有一百多类狗的品种，包括 “Norfolk terrier”, “Yorkshire terrier”, and “Bedlington terrier”等. ）。必须按照某种一致的方式来整合两类标签。

大多数分类的方法采用softmax层，考虑所有可能的种类计算最终的概率分布。但是softmax假设类别之间互不包含，但是整合之后的数据是类别是有包含关系的，例如 “Norfolk terrier” 和 “dog”。所以整合数据集没法使用这种方式（softmax 模型），

作者最后采用一种不要求互不包含的多标签模型（multi-label model）来整合数据集。这种方法忽略了数据集的结构（例如 COCO数据集的所有类别之间是互不包含的）

Hierarchical classiﬁcation（层次式分类）

ImageNet的标签参考WordNet（一种结构化概念及概念之间关系的语言数据库）。例如：很多分类数据集采用扁平化的标签。而整合数据集则需要结构化标签。

WordNet是一个有向图结构（而非树结构），因为语言是复杂的（例如“dog”既是“canine”又是“domestic animal”），为了简化问题，作者从ImageNet的概念中构建了一个层次树结构（hierarchical tree）来代替图结构方案。

创建层次树的步骤是：

遍历ImageNet的所有视觉名词
对每一个名词，在WordNet上找到从它所在位置到根节点（“physical object”）的路径。许多同义词集只有一条路径。所以先把这些路径加入层次树结构。
然后迭代检查剩下的名词，得到路径，逐个加入到层次树。路径选择办法是：如果一个名词有两条路径到根节点，其中一条需要添加3个边到层次树，另一条仅需添加一条边，那么就选择添加边数少的那条路径。

最终结果是一颗 WordTree （视觉名词组成的层次结构模型）。用WordTree执行分类时，预测每个节点的条件概率。例如：在“terrier”节点会预测：

如果想求得特定节点的绝对概率，只需要沿着路径做连续乘积。例如如果想知道一张图片是不是“Norfolk terrier ”需要计算：分类时假设图片包含物体：Pr(physical object) = 1.

为了验证这种方法作者在WordTree（用1000类别的ImageNet创建）上训练了Darknet-19模型。为了创建WordTree1k作者天添加了很多中间节点，把标签由1000扩展到1369。训练过程中ground truth标签要顺着向根节点的路径传播：例如如果一张图片被标记为“Norfolk terrier”它也被标记为“dog” 和“mammal”等。为了计算条件概率，模型预测了一个包含1369个元素的向量，而且基于所有“同义词集”计算softmax，其中“同义词集”是同一概念的下位词。

使用相同的训练参数，层次式Darknet-19获得71.9%的top-1精度和90.4%top-5精度。尽管添加了369个额外概念，且让网络去预测树形结构，精度只有略微降低。按照这种方式执行分类有一些好处，当遇到新的或未知物体类别，预测精确度降低的很温和（没有突然巨幅下降）。例如：如果网络看到一张狗的图片，但是不确定狗的类别，网络预测为狗的置信度依然很高，但是，狗的下位词（“xx狗”）的置信度就比较低。

这个策略野同样可用于检测。不在假设每一张图片都包含物体，取而代之使用YOLOv2的物体预测器（objectness predictor）得到Pr(physical object)的值。检测器预测一个bounding box和概率树（WordTree）。沿着根节点向下每次都走置信度最高的分支直到达到某个阈值，最终预测物体的类别为最后的节点类别。

Dataset combination with WordTree

可以使用WordTree把多个数据集整合在一起。只需要把数据集中的类别映射到树结构中的同义词集合（synsets）。使用WordTree整合ImageNet和COCO的标签如下图：
joint classification and detection(联合训练分类和检测)

使用WordTree整合了数据集之后就可以在数据集（分类-检测数据）上训练联合模型。我们想要训练一个检测类别很大的检测器所以使用COCO检测数据集和全部ImageNet的前9000类创造一个联合数据集。为了评估我们使用的方法，也从ImageNet detection challenge 中向整合数据集添加一些还没有存在于整合数据集的类别。相应的WordTree有9418个类别。由于ImageNet是一个非常大的数据集，所以通过oversampling COCO数据集来保持平衡，使ImageNet：COCO = 4：1。

使用上面的数据集训练YOLO9000。采用基本YOLOv2的结构，anchor box数量由5调整为3用以限制输出大小。

当网络遇到一张检测图片就正常反向传播。其中对于分类损失只在当前及其路径以上对应的节点类别上进行反向传播。

当网络遇到一张分类图片仅反向传播分类损失。在该类别对应的所有bounding box中找到一个置信度最高的（作为预测坐标），同样只反向传播该类及其路径以上对应节点的类别损失。反向传播objectness损失基于如下假设：预测box与ground truth box的重叠度至少0.31IOU。

采用这种联合训练，YOLO9000从COCO检测数据集中学习如何在图片中寻找物体，从ImageNet数据集中学习更广泛的物体分类。

作者在ImageNet detection task上评估YOLO9000。ImageNet detection task和COCO有44个物体类别是相同的。这意味着YOLO9000只从大多数测试数据集中看到过分类数据而非检测数据。最终整体精度为19.7mAP，在从未见过的156个物体检测数据类别上精度为16.0mAP。这个结果高于DPM，但是YOLO9000是在不同数据集上进行半监督训练。而且YOLO9000可以同时实时检测9000多种其它物体类别。

作者也分析了YOLO9000在ImageNet上的性能，发现可以学习新的动物表现很好，但是学习衣服和设备这类物体则不行。因为从COCO数据集上动物类别那里学习到的物体预测泛化性很好。但是COCO数据集并没有任何衣服类别的标签数据（只有"人"类别），所以YOLO9000很难对“太阳镜”，“游泳裤”这些类别建模。

预测导管原位癌浸润性复发的深度学习：利用组织病理学图像和临床特征浪漫的诗人论文深度学习人工智能
文章目录研究内容目的方法数据集模型开发模型训练与评估外部验证统计分析研究结果模型性能风险分层外部验证特征重要性原文链接原文献：Deeplearningforpredictinginvasiverecurrenceofductalcarcinomainsitu:leveraginghistopathologyimagesandclinicalfeatures研究背景【DCIS与IBC的关联】乳腺导管
ER综述论文阅读-Emotion recognition in EEG signals using deep learning methods: A review 今天早睡了情绪识别Emotion Recognition 论文阅读深度学习人工智能
EmotionrecognitioninEEGsignalsusingdeeplearningmethods:AreviewQ1期刊，2023论文链接：https://d1wqtxts1xzle7.cloudfront.net/105887899/emotionreview-libre.pdf?1695460941=&response-content-disposition=inline%3B+f
深度学习前置知识全面解析：从机器学习到深度学习的进阶之路
一、引言：人工智能时代的核心技术在当今这个数据爆炸的时代，人工智能(AI)已经成为推动社会进步的核心技术之一。作为AI领域最重要的分支，深度学习(DeepLearning)在计算机视觉、自然语言处理、语音识别等领域取得了突破性进展，彻底改变了我们与机器交互的方式。本教案将从机器学习的基础知识出发，系统性地介绍深度学习的核心概念、数学基础、网络架构和训练方法，为读者构建完整的知识体系框架。无论你是刚
提升自动驾驶导航能力：基于深度学习的场景理解技术星辰和大海都需要门票路径规划算法自动驾驶深度学习人工智能
EnhancingAutonomousVehicleNavigationUsingDeepLearning-BasedSceneUnderstanding提升自动驾驶导航能力：基于深度学习的场景理解技术摘要-为应对复杂环境下的自动驾驶导航，系统高度依赖场景理解的准确性。本研究提出一种基于深度学习的新方法，将目标识别、场景分割、运动预测与强化学习相结合以提升导航性能。该方法首先采用U-Net架构分解
AI 技术&AI开发框架 34号树洞人工智能深度学习人工智能机器学习 NLP GAI
目录一、AI技术及其开发框架1.AI技术分类与代表方向2.主流AI开发框架3.AI应用开发流程简述4.补充：基础依赖与生态二、AI技术方向1.机器学习（MachineLearning,ML）✦核心概念：✦关键方法：✦应用案例：2.深度学习（DeepLearning,DL）✦核心概念：✦网络结构举例：✦技术趋势：3.自然语言处理（NLP）✦核心任务：✦代表模型：4.计算机视觉（ComputerVis
基于级联深度学习算法在双参数MRI中检测前列腺病变的评估| 文献速递-AI辅助的放射影像疾病诊断有Li 人工智能深度学习算法
Title题目EvaluationofaCascadedDeepLearning–basedAlgorithmforProstateLesionDetectionatBiparametricMRI基于级联深度学习算法在双参数MRI中检测前列腺病变的评估Background背景MultiparametricMRI(mpMRI)improvesprostatecancer(PCa)detectionc
和李沐老师学深度学习--2.数据操作部分代码实现（学习笔记）
大家对代码有不懂地方都可以上网去查找，最好是有一定的数据分析基础比较容易理解，李沐老师课程视频链接我放在这里了大家有不懂都可以观看课程进行学习04数据操作+数据预处理【动手学深度学习v2】_哔哩哔哩_bilibili深度学习课程电子书：大家可以使用翻译插件观看书的内容Preface—DiveintoDeepLearning1.0.3documentation深度学习github项目：https:/
深度学习详解：通过案例了解机器学习基础 beist 深度学习机器学习人工智能
引言机器学习（MachineLearning，ML）和深度学习（DeepLearning，DL）是现代人工智能领域中的两个重要概念。通过让机器具备学习的能力，机器可以从数据中自动找到函数，并应用于各种任务，如语音识别、图像识别和游戏对战等。在这篇笔记中，我们将通过一个简单的案例，逐步了解机器学习的基础知识。1.1机器学习案例学习1.1.1回归问题与分类问题在机器学习中，根据所要解决的问题类型，任务
深度学习学习指南努力的Lorre 深度学习人工智能
本帖子将以本书的逻辑和顺序做一个梳理：CS基础->AI算法->模型压缩->异构计算->AI框架->AI编译器《DeepLearningSystems》(https://deeplearningsystems.ai/)CS基础推荐书单所需的编程语言(C/C++、Python)就不多讲了，数据结构算法也是大学基础课程，不多赘述。对于操作系统需要多了解，推荐多看一看《深入理解计算机系统》(传说中的面试圣
目标检测——YOLO11算法解读 lishanlu136 #目标检测目标检测 YOLO11 YOLO系列算法解读
作者：Ultralytics公司代码：https://github.com/ultralytics/ultralyticsYOLO系列算法解读：YOLOv1通俗易懂版解读、SSD算法解读、YOLOv2算法解读、YOLOv3算法解读、YOLOv4算法解读、YOLOv5算法解读、YOLOR算法解读、YOLOX算法解读、YOLOv6算法解读、YOLOv7算法解读、
（二十一）YOLO 全解析：从实时目标检测到多任务视觉智能只有左边一个小酒窝深度学习 YOLO 目标检测人工智能深度学习计算机视觉
1YOLO的发展脉络与技术定位1.1发展脉络YOLOv1（2015年）：将目标检测重新定义为单一回归问题，把输入图像划分为S×S网格，每个网格单元负责预测固定数量的边界框及对应的类别概率，直接从像素回归预测物体的边界框坐标和类别概率。但存在小目标检测能力弱、定位精度不足等局限。YOLOv2（2016年）：引入批量归一化、锚框、维度集群等技术，还提出了高分辨率分类器、直接位置预测、细粒度特征融合、多
Java全栈AI平台实战：从模型训练到部署的革命性突破——Spring AI+Deeplearning4j+TensorFlow Java API深度解析墨夶 Java学习资料3 java 人工智能 spring
一、背景与需求：为什么需要Java驱动的AI平台？某医疗影像公司面临以下挑战：多语言开发混乱：Python训练模型，C++部署推理，Java调用服务，导致维护成本高昂部署效率低下：PyTorch模型需手动转换ONNX格式，TensorRT优化耗时2小时/模型实时性不足：视频流分析延迟达3秒，无法满足急诊场景需求通过Java全栈AI平台，我们实现了：端到端开发：Java调用PyTorch训练模型，直
YOLO的作者们小远披荆斩棘 YOLOv8 v9 v10等实验与论文总结 YOLO
YOLO之父JesephRedmon，他创建了yolov1、yolov2、yolov3三个版本，但是在2020年2月份却宣布退出CV学术界、停止一切关于计算机视觉的研究、原因是自己的开源算法已经用在军事和隐私问题上，这对他的道德造成了巨大的考验，他拒绝AI算法用于军事和隐私窥探。而在这2个月之后，另一位曾经参与YOLO项目维护的大神AlexeyBochkovskiy，在arXiv上提交了YOLOv
大规模胰腺癌检测通过非对比增强CT和深度学习| 文献速递-视觉通用模型与疾病诊断有Li 深度学习人工智能
Title题目Large-scalepancreaticcancerdetectionvianon-contrastCTanddeeplearning大规模胰腺癌检测通过非对比增强CT和深度学习01文献速递介绍胰腺导管腺癌（PDAC）是最致命的实体恶性肿瘤，通常在晚期和不可手术的阶段被检测到。早期或偶然发现与延长生存期相关，但使用单一测试筛查无症状个体的PDAC仍然不可行，因为假阳性的潜在危害和低
文献速递：深度学习乳腺癌诊断---使用深度学习改善乳腺癌诊断的MRI技术有Li 深度学习人工智能
Title题目ImprovingbreastcancerdiagnosticswithdeeplearningforMRI使用深度学习改善乳腺癌诊断的MRI技术01文献速递介绍乳腺磁共振成像（MRI）是一种高度敏感的检测乳腺癌的方式，报道的敏感性超过80%。传统上，其在筛查中的使用被限制在高风险患者身上。新的证据支持在中等风险和普通风险女性中进行筛查MRI的作用4）。诊断MRI对于额外的指示也很有
《基于超声的深度学习模型用于降低BI-RADS 4A乳腺病变的恶性率》论文笔记 MobileNet 往事随风、、论文笔记机器学习深度学习论文阅读人工智能机器学习健康医疗
《APPLICATIONOFDEEPLEARNINGTOREDUCETHERATEOFMALIGNANCYAMONGBI-RADS4ABREASTLESIONSBASEDONULTRASONOGRAPHY》《基于超声的深度学习模型用于降低BI-RADS4A乳腺病变的恶性率》原文地址：链接文章目录摘要简介方法患者图像获取与处理深度学习模型统计分析结果讨论结论摘要本研究旨在开发一个基于超声（US）图像
YOLO进化史：从v1到v12的注意力革命 —— 实时检测的“快”与“准”如何兼得？摘取一颗天上星️ YOLO
⚙️一、初代奠基：打破两阶段检测的垄断（2016-2018）YOLOv1（2016）：首次提出“单次检测”范式，将目标检测转化为回归问题。7×7网格+30维向量输出，实现45FPS实时检测，但小目标漏检严重。YOLOv2（2017）：引入锚框（AnchorBoxes），通过k-means聚类确定先验框尺寸新增高分辨率微调（448×448输入）使用Darknet-19主干，速度达67FPSYOLOv
YOLOv3 正负样本划分详解要努力啊啊啊计算机视觉 YOLO 目标检测深度学习计算机视觉目标跟踪
✅YOLOv3正负样本划分详解一、前言在目标检测任务中，正负样本的划分是训练过程中的关键环节。它决定了哪些预测框参与位置回归、分类损失和置信度损失。YOLOv3在YOLOv2的基础上引入了多尺度预测和更精细的AnchorBoxes匹配策略，使得正样本的选择更加合理，提高了模型的召回率和定位精度。本文将基于以下来源进行解析：YOLOv3:AnIncrementalImprovement(论文原文)A
YOLOv2 中非极大值抑制（NMS）机制详解与实现要努力啊啊啊计算机视觉 YOLO 目标跟踪人工智能计算机视觉深度学习
YOLOv2中NMS的详解一、什么是NMS？定义：NMS（非极大值抑制）是一种目标检测中的后处理技术，用于去除重复预测的边界框，保留置信度最高且不重叠的边界框。目标：提高检测结果的准确性；避免同一物体被多次检测；减少误检和冗余框；二、YOLOv1中的NMS实现来源依据：来自YouOnlyLookOnce:Unified,Real-TimeObjectDetection(CVPR2016)输出结构回
SAE层、BPNN层结合的深度学习模型 sbc-study 深度学习人工智能机器学习
EarlyFaultDetectionofMachineToolsBasedonDeepLearningandDynamicIdentificationBoLuo,HaotingWang,HongqiLiu,BinLi,andFangyuPengIEEETRANSACTIONSONINDUSTRIALELECTRONICS,VOL.66,NO.1,JANUARY2019一SAE层(栈式自编码器层-
多标签分类的激活函数和损失函数通过幸福的路唯有奋斗深度学习
刚入门DeepLearning不久，前一段时间一直在学习cifar10的分类，突然最近要做一个多标签的任务，突然有点不知所措，不知从何下手了。于是查阅了一些资料，了解一下多分类任务与多标签分类任务的异同。-多分类任务：只有一个标签，但是标签有多种类别。-多标签分类任务：一条数据可能有一个或者多个标签，比如一个病人的眼底检测报告，它可能被标记患有糖尿病、高血压多个标签。多标签分类任务的特点：1.类别
Deep Lake 简介
DeepLake简介DeepLake是由Activeloop开发的一款开源深度学习数据湖（DeepLearningDataLake），专为人工智能时代设计，旨在解决深度学习项目中数据管理的复杂性与低效问题。核心特点特性说明多模态数据支持支持图像、视频、音频、文本、点云等多种数据类型，适用于各类AI场景。张量存储数据以张量格式存储，兼容主流深度学习框架（如PyTorch、TensorFlow）。数据
【深度学习】自编码器：数据压缩与特征学习的神经网络引擎瑶光守护者深度学习学习神经网络人工智能机器学习强化学习
作者选择了由IanGoodfellow、YoshuaBengio和AaronCourville三位大佬撰写的《DeepLearning》(人工智能领域的经典教程，深度学习领域研究生必读教材),开始深度学习领域学习，深入全面的理解深度学习的理论知识。之前的文章参考下面的链接：【深度学习】线性因子模型：数据降维与结构解析的数学透镜【学习笔记】强化学习：实用方法论【学习笔记】序列建模：递归神经网络（RN
aws flask_如何将屏幕日志记录添加到Flask应用程序并将其部署在AWS Elastic Beanstalk上... weixin_26742939 java python linux mysql leetcode
awsflaskAttheendof2019Deeplearning.aireportedthatonly22%ofcompaniesthatusemachinelearningactuallydeployedamodel.Mostcompaniesdonotgetbeyondaproofofconcept,oftenbymeansofamodelinaJupyterNotebooks.Asare
GeoTorchAI 项目使用与配置指南尤贝升Sherman
GeoTorchAI项目使用与配置指南GeoTorchAIGeoTorchAI:AFrameworkforTrainingandUsingSpatiotemporalDeepLearningModelsatScale项目地址:https://gitcode.com/gh_mirrors/ge/GeoTorchAI1.项目目录结构及介绍GeoTorchAI的目录结构如下：GeoTorchAI/├──
Dive-into-DL-PyTorch项目解析：目标检测中的R-CNN系列算法演进陆或愉
Dive-into-DL-PyTorch项目解析：目标检测中的R-CNN系列算法演进Dive-into-DL-PyTorch本项目将《动手学深度学习》(DiveintoDeepLearning)原书中的MXNet实现改为PyTorch实现。项目地址:https://gitcode.com/gh_mirrors/di/Dive-into-DL-PyTorch引言目标检测是计算机视觉领域的核心任务之一
Java 人工智能应用：使用 DL4J 实现深度学习算法向哆哆 Java入门到精通人工智能 java 深度学习
Java人工智能应用：使用DL4J实现深度学习算法在当今数字化时代，人工智能技术正以前所未有的速度改变着各个行业的发展格局。而Java作为一种广泛应用于企业级开发的编程语言，在人工智能领域也发挥着越来越重要的作用。其中，深度学习作为人工智能的核心技术之一，为解决复杂问题提供了强大的能力。本篇文章将深入探讨如何使用Java深度学习库DL4J（Deeplearning4j）实现深度学习算法，助力开发者
学习笔记--Structural-RNN: Deep Learning on Spatio-Temporal Graphs Giving_Kore CV论文笔记 Structural RNN RNN CV spatiotemporal
论文链接：https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Jain_Structural-RNN_Deep_Learning_CVPR_2016_paper.pdf此为原创笔记，如需转载请注明Structural-RNN:DeepLearningonSpatio-TemporalGraphs [–AsheshJai
《Transformer如何进行图像分类：从新手到入门》机器学习司猫白深度学习 transformer 分类深度学习图像分类
引言如果你对人工智能（AI）或深度学习（DeepLearning）感兴趣，可能听说过“Transformer”这个词。它最初在自然语言处理（NLP）领域大放异彩，比如在翻译、聊天机器人和文本生成中表现出色。但你知道吗？Transformer不仅能处理文字，还能用来分类图像！这听起来是不是有点神奇？别担心，这篇博客将带你从零开始，了解Transformer的基本概念、它如何被应用到图像分类，以及通过
Transformer 架构在目标检测中的应用：YOLO 系列模型解析水花花花花花 transformer 架构目标检测
目录Transformer架构在目标检测中的应用：YOLO系列模型解析一、YOLO模型概述二、YOLO模型的核心架构（一）主干网络（二）颈部结构（三）头部结构三、YOLO模型的工作原理（一）输入图像预处理（二）特征提取与融合（三）边界框预测与类别分类（四）损失函数计算与优化（五）非极大值抑制（NMS）后处理四、YOLO模型的版本演进（一）YOLOv1：开启实时目标检测之门（二）YOLOv2和YOL
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本

yolo2

1. 概述

2 更精确（Better）

3.更快速（Faster）

4. 更强大（Stronger）

你可能感兴趣的:(Deeplearning,yolov2)