AndyLiu1997

（YOLO v1）You Only Look Once: Unified, Real-Time Object Detection论文阅读笔记

文章目录

（YOLO）You Only Look Once: Unified, Real-Time Object Detection论文阅读笔记2016
- Abstract
- 1. Introduction
- 2. Unified Detection
- - 2.1 Network Design
  - 2.2 Training
  - 2.3 Inference
  - 2.4 Limitations of YOLO
- 3. Comparison to Other Detection Systems
- 4. Experiments
- - 4.1 Comparison to Other Real-Time Systems
  - 4.2 VOC 2007 Error Analysis
  - 4.3 Combining Fast R-CNN and YOLO
  - 4.4 VOC 2012 Results
  - 4.5 Generalizability: Person Detection in Artwork
- 5. Real-Time Detection In The Wild
- 6. Conclusion

（YOLO）You Only Look Once: Unified, Real-Time Object Detection论文阅读笔记2016

Abstract

我们提出了一种新的目标检测方法：YOLO。之前目标检测上的一些工作使用分类器来进行检测，而我们把目标检测任务当作一个对空间上分开的bbox和其对应的class概率的回归问题。只使用一个神经网络来直接一次对整张图像预测bbox和它的class概率。

我们的方法特别快，基础的YOLO模型可以实时处理图像达到45帧每秒。更轻小的模型，Fast YOLO，可以达到155 fps，同时还可以取得其他实时方法的两倍的mAP。与其他的SOTA检测方法相比，YOLO虽然有更多的定位误差，但是对于背景有更少的假阳性，并且可以学习到目标的非常general的特征表示。且当进行迁移学习（从自然图像转换到其他domain）时，效果较好。

1. Introduction

人类只需要看一下图像就可以立即直到图像中有什么目标以及位置。目前的检测系统使用分类器来进行检测。为了检测到目标，系统使用分类器对图像多个位置和尺度进行检测分类。R-CNN使用区域proposal方法生成bbox然后使用分类器对这些bbox进行分类，后续处理对bbox进行回归，消除重复的检测结果，最后输出结果。这个过程很复杂，优化起来比较难。

我们把目标检测当作一个回归问题，直接从图像像素出发来得到bbox坐标以及class probabilities。我们的方法，只需要看一次图像，因此叫做YOLO。

YOLO十分简单，如图1所示。一个卷积网络同时预测多个bbox以及它们的class概率。YOLO在整张图像上进行训练，直接优化检测表现，相比传统方法有以下几个优点。

首先，YOLO非常快，因为我们没有使用复杂的pipeline。基础的YOLO模型可以实时处理图像达到45帧每秒。更轻小的模型，Fast YOLO，可以达到155 fps，同时还可以取得其他实时方法的两倍的mAP。
其次，在预测时候，YOLO是全局地对图像进行预测的。与其他滑窗或region-baesd的方法，YOLO可以“看到”整张图像，所以包含了contextual information。Fast R-CNN因为无法看到更大的context，会把背景块当作目标，YOLO减少了近一半这种假阳性。
第三，**YOLO学到目标的更generalizable（更概括）的表示。**当迁移学习到其他domain时，效果更好。

YOLO在准确率上落后与SOTA，对小目标效果较差，然而它可以快速找到图像中的目标。

2. Unified Detection

我们把目标检测的几个分离部分整合到了一起，我们的网络使用来自整张图像的特征预测每个bbox，同时也预测所有class的bbox。这意味着我们的网络是对整张图像全局预测的，考虑到了图像中的所有目标。

我们网络将输入图像分成S * S个网格，如果目标的中心落在某个网格中，这个网格就负责检测这个目标。

每个网格cell预测B个bbox以及这些bbox的置信度。置信度反映了模型对这个box含有目标的信心以及它认为它预测的这个box有多准确。

我们将置信度定义为：
$Pr(Object)*IOU^{truth}_{pred}$
Pr(Object)表示这个box存在目标的概率，不管目标是哪类。如果这个格子不存在目标，那么置信分数为0，否则把Pr(Object)置为1，置信度就为预测bbox和ground truth的IoU。

每个bbox包含5个参数，x,y,w,h和置信度confidence。(x,y)表示bbox的中心相对于单元格坐标的offset，我们在x方向进行解释，如果原来中心在x1（这里x1为单元格坐标），预测后在x2（像素坐标），将x2转换为单元格的坐标（带小数的），那么最后的预测结果就是x=（x2-x1），如果中心在预测前后都在一个cell内，那么预测的x和y都在(0,1)范围内。w，h表示bbox的宽度和高度相对于整张图像的比例。这几个参数范围都在(0,1)中，更方便进行回归。

每个grid cell也预测了C个条件概率， $Pr(Class_i|Object)$ 。对于每个cell，我们只考虑一组class概率，不管box的数量B。

测试阶段，我们有如下公式：

给出了每个box的class-specific置信度。这些置信度既包含对应class目标出现的可能性，又包含了bbox定位的准确性。

在PASCAL VOC上，我们使用S=7，B=2。数据集有20类，所以C=20，最后的预测是一个7 * 7 * 30的张量。(B*5是B个bbox的坐标，C表示这个cell对于C类的probability)

2.1 Network Design

我们在PASCAL VOC上进行使用，开始的卷积层进行特征提取，后面的FC层预测输出的可能性和坐标。我们的网络结构受到GoogLeNet的启发，有24层卷积层和2层FC层，与Inception不同，我们简单地使用1 * 1的卷积在3 * 3之后，用于降维，网络结构如图3所示。

我们还训练了一个简易版本，Fast YOLO，它仅有9层conv，且每层的通道数更少，除此之外根普通的YOLO一样。

2.2 Training

我们在ImageNet上进行了预训练，使用的是前20层conv，后面接一个平均池化和fc。转向检测训练时，我们增加了剩下的四个conv，然后随机初始化两个fc，然后将网络的输入分辨率从分类的224 * 224提升到448 * 448。上面讲解到w和h在范围(0,1)内，x,y改变前后在同一个cell中时，也在范围(0,1)内。

每一层的激活函数我们使用leaky ReLU：

我们对模型输出的平方误差进行优化，因为优化容易，但是通过它得到的可能不是最好的结果（使mAP最大），因为它将定位误差与分类误差平等看待，这可能不是最佳的。而且，图像中有许多cell是不包含目标的，这样置信度为0，混合之后它们占据了梯度的主导，会导致训练很早就发散了。

为了弥补这个，我们提升了bbox坐标预测的loss，降低了对不含目标的boxes的置信度预测的loss。我们使用了两个参数来实现，λcoord=5，λnoobj=0.5。

平方误差同样对大的box和小的box的误差平等看待，我们的误差尺度应该时，对于小的box中的一些误差比大的box的同样误差更重要。为了部分解决这个问题，我们使用bbox的w和h的平方根进行计算。

YOLO对每个grid cell预测多个bbox。训练阶段我们只希望每个目标仅由一个bbox预测来负责，我们选择与ground truth的IOU最大的bbox负责这个目标。这提升了总体的召回率。

训练期间，我们使用下面的loss进行优化：

我们训练过程使用batchsize = 64，动量0.9，decay0.0005。学习率刚开始逐渐从0.001提升到0.01，因为如果刚开始使用大学习率模型可能会发散。最后降低到0.0001训练。

避免过拟合，我们使用了0.5的dropout以及其他的数据增强方法。数据增强使用了随机尺度缩放，最大超过原尺寸的20%。我们还在HSV颜色空间中将图像的曝光和饱和度随机调整至1.5倍。

2.3 Inference

测试阶段，我们的网络对测试图像也只需要一次评估。PASCAL VOC数据集上，网络对每张图像预测98个bbox，以及每个bbox的概率，速度非常快。

通常情况下，哪个网格中有目标是很明显的，网络对于每个目标只预测一个box。然而一些大的目标或者接近网格边界的目标可能会被多个cell定位。我们使用NMS来修正这些对于一个目标的多个bbox，但是提升效果没有R-CNN中明显，它提升了2-3%的mAP。

2.4 Limitations of YOLO

YOLO限制了每个cell只预测两个bbox，而且只能有一类。当小目标群体出现时，比如一群鸟，我们的效果很差。
我们的模型从data中学习，对于新的、不常见的长宽比以及环境的目标，较难泛化。因为网络结构对输入图像下采样很多次，预测bbox的特征相对来说较粗糙。
计算loss的时候，对于小bbox和大bbox中的误差不够差异对待，大box中的小误差是不那么重要的。小box中的误差影响更大。

3. Comparison to Other Detection Systems

**Deformable parts model。**DPM分别使用几个pipeline来进行静态特征提取、区域分类、bbox预测。我们的方法将这几个部分整合到了一起，效果更快更好。

**R-CNN。**R-CNN系列使用区域建议来找到图像中的目标。同样分为好几步，而且比较慢。YOLO在网格上的空间限制减少了对同一目标的多次检测，YOLO提出的bbox比SS少得多。Faster R-CNN尽管使用CNN替代了SS，提升了速度和mAP，但是还达不到实时检测。

**OverFeat。**同样作为one-stage的CNN，OverFeat仍不是一个joint system。而且它优化的是定位，而不是检测的表现，当预测是定位器只能看到local information，不能看到global context。

4. Experiments

首先我们在PASCAL VOC2007上与其他实时检测系统比较，同时比较了YOLO和Fast R-CNN的errors，并且发现YOLO可以用来对Fast R-CNN的检测进行rescore，减少了背景假阳性的错误。我们同样比较了VOC2012的效果。最后我们在两个artwork数据集上发现YOLO对新domain的泛化能力更好。

4.1 Comparison to Other Real-Time Systems

Fast YOLO是目前PASCAL 上最快的目标检测方法，可以取得52.7%的mAP。YOLO可以取得63.4%mAP，仍能保持实时检测。

我们同样使用VGG16训练了YOLO，这个模型更加准确，但是比YOLO慢。

R-CNN minus R使用静态bbox proposal取代了SS，这样网络更快，但是仍不是实时检测，且使得mAP下降。

对于Faster R-CNN，VGG16版本比YOLO高10%的准确率，但是慢了6倍。

（YOLO v1）You Only Look Once: Unified, Real-Time Object Detection论文阅读笔记_第5张图片

4.2 VOC 2007 Error Analysis

下面对Fast R-CNN和YOLO进行错误分析。

对于每一类，测试阶段我们只考虑这一类的top-N预测。每个预测按照下面分类：

correct：分类正确，且IoU大于0.5
Localization：分类正确，IoU在0.1和0.5之间
Similar：分类相似，IoU大于0.1
Other：分类错误，IoU大于0.1
Background：IoU<0.1

如图4所示，YOLO主要的难点在于定位的准确性，定位错误占主要部分。Fast R-CNN定位错误更少，但是背景错误很多，13.6%的top检测为假阳性（不包含任何目标）。

4.3 Combining Fast R-CNN and YOLO

由于上面的特点，我们使用YOLO来消除Fast R-CNN的假阳性，得到了一个显著提升。对于R-CNN预测的每个bbox，我们检查，来看是否YOLO可以预测一个相似的bbox。如果可以，我们按照YOLO预测的可能性以及两个boxes的重叠来对这个prediction进行一个boost。

效果如表2所示。

来自YOLO的提升不是简单的组合模型的提升，因为组合一些其他的R-CNN模型得到的提升很有限。而且，由于更增加了运行时间，丢失了实时性，所以这个发现用处不大。

4.4 VOC 2012 Results

在VOC2012测试集上，YOLO取得57.9%的mAP，比SOTA低，与使用VGG16的R-CNN相近，见表3。相比之下，YOLO在小目标上表现不佳。我们的Fast R-CNN+YOLO组合模型效果很好。

4.5 Generalizability: Person Detection in Artwork

我们在两个artwork数据集Picasso和People-Art上来比较不同的网络在艺术品中检测人的泛化能力。

如图5所示，YOLO取得了最好的泛化能力，在迁移到这两个数据集上，准确率与召回率下降的最少，效果最好。这是因为YOLO考虑到了目标之间的context信息，artwork与自然图像在像素上可能很不同，但是在目标尺寸和形状等方面很相似，因此YOLO仍能取得很好的效果。

5. Real-Time Detection In The Wild

我们将YOLO连接到一个webcam上，验证了它的实时性，包含了将图像送入网络以及展示检测结果的时间，仍可以做到实时。

6. Conclusion

我们提出了YOLO，一个用于目标检测的整合模型。我们的模型很容易构建，直接在整张图像上处理。不像其他基于分类器的方法，YOLO直接使用一个关联检测的loss函数进行训练，整个模型是一次训练的（jointly），不是分步的。

Fast YOLO是最快的检测模型，YOLO推动了SOTA实时的目标检测。YOLO对于新的domains的泛化能力很好。

Swift：KeyPath 陌上心 Swift swift
Swift中可以使用KeyPath来获取属性值，语法为\Type.property.property.....。官方给出的示例：classAnimal:NSObject{@objcvarname:Stringinit(name:String){self.name=name}}letllama=Animal(name:"Llama")letnameAccessor=\Animal.nameletna
Apache Struts 存在远程代码执行漏洞(CVE-2024-53677) 缘梦未来漏洞复现 apache struts web安全安全
免责声明:本文旨在提供有关特定漏洞的深入信息，帮助用户充分了解潜在的安全风险。发布此信息的目的在于提升网络安全意识和推动技术进步，未经授权访问系统、网络或应用程序，可能会导致法律责任或严重后果。因此，作者不对读者基于本文内容所采取的任何行为承担责任。读者在使用本文信息时，必须严格遵循适用的法律法规及服务协议，自行承担一切风险与责任。如涉及侵权，请及时与我们联系，我们将尽快处理并删除相关内容。0x0
集成测试总结文档脚本之家集成测试
1.集成测试的定义集成测试（IntegrationTesting）是在单元测试之后，将多个独立的软件模块或组件组合在一起进行测试的过程，目的是验证这些模块之间的接口、数据传递、协作逻辑是否符合设计要求，并发现因集成引发的缺陷。2.集成测试的核心目标检测模块/组件间的接口错误（如参数传递错误、数据格式不一致）。验证集成后的功能是否符合系统设计预期。确保全局数据结构在跨模块使用时的一致性。发现资源冲突
国外7个最佳大语言模型 (LLM) API推荐程序员后端
大型语言模型(LLM)API将彻底改变我们处理语言的方式。在深度学习和机器学习算法的支持下，LLMAPI提供了前所未有的自然语言理解能力。通过利用这些新的API，开发人员现在可以创建能够以前所未有的方式理解和响应书面文本的应用程序。下面，我们将比较从Bard到ChatGPT、PaLM等市场上顶级LLMAPI。我们还将探讨整合这些LLM的潜在用例，并考虑其对语言处理的影响。什么是大语言模型(LLM)
Ubuntu22.4.03服务器版安装及搭建深度学习环境的问题总结蜡笔小祎在线学习问题集合深度学习人工智能
Ubuntu22.4.03服务器版安装流程整个流程已经有很多分享帖了，这里概述一下：下载iso制作启动U盘，按f2进入安装，选择语言，键盘布局english，ubuntuserver安装，DHCP自动配置网络（问题1），代理服务器我们没填，配置阿里云镜源http://mirrors.aliyun.com/ubuntu/，磁盘分区（问题2），设置服务器密码，安装ssh远程工具，重启reboot。可参
Vision Transformer（ViT）：用 Transformer 颠覆图像识别金外飞176 论文精读 transformer 深度学习人工智能
VisionTransformer（ViT）：用Transformer颠覆图像识别在计算机视觉领域，卷积神经网络（CNN）长期以来一直是图像识别任务的主流架构。然而，近年来，自然语言处理（NLP）领域中大放异彩的Transformer架构也开始在图像识别中崭露头角。今天，我们将深入探讨一种创新的架构——VisionTransformer（ViT），它将Transformer的强大能力直接应用于图像
基于Transformer的YOLOv8检测头架构改进：提升目标检测精度的全新突破（YOLOv8）步入烟尘 transformer YOLO 目标检测
本专栏专为AI视觉领域的爱好者和从业者打造。涵盖分类、检测、分割、追踪等多项技术，带你从入门到精通！后续更有实战项目，助你轻松应对面试挑战！立即订阅，开启你的YOLOv8之旅！专栏订阅地址：https://blog.csdn.net/mrdeam/category_12804295.html文章目录基于Transformer的YOLOv8检测头架构改进：提升目标检测精度的全新突破什么是DAtten
【深度学习目标检测|YOLO算法5-1-1】YOLO家族进化史：从YOLOv1到YOLOv11的架构创新、性能优化与行业应用全解析... 985小水博一枚呀论文解读深度学习目标检测 YOLO 人工智能算法架构网络
【深度学习目标检测|YOLO算法5-1-1】YOLO家族进化史：从YOLOv1到YOLOv11的架构创新、性能优化与行业应用全解析…【深度学习目标检测|YOLO算法5-1-1】YOLO家族进化史：从YOLOv1到YOLOv11的架构创新、性能优化与行业应用全解析…文章目录【深度学习目标检测|YOLO算法5-1-1】YOLO家族进化史：从YOLOv1到YOLOv11的架构创新、性能优化与行业应用全解
Java中的static关键字 WZMeiei Java java 开发语言
static是Java中的一个关键字，主要用于修饰类成员（变量和方法），以表示这个成员属于类本身，而不是类的实例1.静态变量（StaticVariables）类级属性：静态变量也称为类变量或静态属性，它们在类加载时初始化，并且只有一份拷贝，被所有该类的对象共享。这意味着无论创建多少个对象，静态变量的内存空间只有一处。生命周期长：静态变量的生命周期与类相同，只要应用运行，它们就存在。访问方式：可以直
YOLOv8到YOLOv11：深度解析目标检测架构的演进金外飞176 技术前沿目标跟踪人工智能计算机视觉目标检测 YOLO 神经网络深度学习
YOLOv8到YOLOv11：深度解析目标检测架构的演进在计算机视觉领域，YOLO（YouOnlyLookOnce）系列模型一直是实时目标检测领域的佼佼者。从2015年的YOLOv1到2024年的YOLOv11，这一系列模型经历了快速的迭代和发展，不断刷新着目标检测的性能和效率。然而，由于部分YOLO版本缺乏详细的学术论文和架构图，研究人员和开发者在理解这些模型的工作原理时往往面临挑战。最近，一篇
Python从0到100（三十九）：数据提取之正则（文末免费送书）是Dream呀 python mysql 开发语言
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
深度学习环境配置——Anaconda安装 tyyhmtyyhm 深度学习环境配置深度学习人工智能
目录Ⅰ.Windows系统安装Anaconda1.1下载安装Ⅱ.Linux系统安装Anaconda（适用于服务器安装）2.1下载2.2安装操作系统：windows11/ubuntu20/ubuntu18更新时间：20240221Ⅰ.Windows系统安装Anaconda1.1下载安装https://www.anaconda.com/download默认安装即可。Ⅱ.Linux系统安装Anacond
深度学习工厂的蓝图：拆解CUDA驱动、PyTorch与OpenCV的依赖关系时光旅人01号深度学习 pytorch opencv
想象一下，你正在建造一座深度学习工厂，这座工厂专门用于高效处理深度学习任务（如训练神经网络）和计算机视觉任务（如图像处理）。为了让工厂顺利运转，你需要搭建基础设施、安装设备、设置生产线，并配备控制台来管理整个生产过程。以下是这座工厂的详细构建过程：1.工厂的基础设施：Ubuntu比喻：Ubuntu是工厂所在的土地和建筑，提供了基础设施和运行环境。作用：提供操作系统环境，支持安装和运行各种工具和框架
java实现，使用向量相似度输入字符串，在定义好的字符串集合中根据语义匹配出最准的一个。 melck 1024程序员节
以下是完整的Java示例代码，包括字符串集合的定义和根据输入字符串匹配最相似字符串的逻辑：importjava.util.*;publicclassSemanticMatching{publicstaticvoidmain(String[]args){//定义字符串集合ListstringCollection=Arrays.asList("Whereistherestroom?","Canyout
FakeApp 技术浅析（一）爱研究的小牛 AIGC—深度伪造虚拟现实人工智能 AIGC 深度学习机器学习
FakeApp是一款早期的深度伪造（Deepfake）工具，最初于2018年发布，用于生成和编辑换脸视频。尽管FakeApp已经不再更新，但它在深度伪造技术的发展中起到了重要作用。1.技术背景与理论基础1.1生成对抗网络（GANs）生成对抗网络（GANs）是深度学习领域中的一种重要模型，由生成器（Generator）和判别器（Discriminator）组成。生成器负责生成逼真的数据（如图像、视频
DeepSeek 赋能工业软件之全流程方案爱吃青菜的大力水手人工智能自动化持续部署语言模型开源
deepseek赋能工业软件之全流程方案之侧重半导体FABdeepseek在工业软件中的应用场景“deepseek”大模型在工业软件领域拥有广泛的应用场景，包括以下几个方面：智能调度：利用深度学习和优化算法，根据实时数据动态调整生产计划和资源分配。它可以综合考虑订单需求、设备状态和产能限制，智能生成最优的生产排程方案，减少等待时间和切换成本。例如在汽车制造工厂，deepseek可根据订单需求和设备
UDP通信开发 Charary udp 网络
开发流程：UDP本身不考虑链接，不存在客户和服务器的概念，UDP开发只有三步：创建UDP的套接字socket(AF_INET,SOCK_DGRAM,0)绑定自己的属性bindUDP随意的发送和接收数据sendto/recvfromUDP接口函数：sendto()函数功能：UDP专用的发送函数函数原型：ssize_tsendto(intsockfd,//套接字constvoid*buf,//待发送的
在瑞芯微RK3588平台上使用RKNN部署YOLOv8Pose模型的C++实战指南机＿长 YOLO系列模型有效涨点改进深度学习落地实战 YOLO c++开发语言
在人工智能和计算机视觉领域，人体姿态估计是一项极具挑战性的任务，它对于理解人类行为、增强人机交互等方面具有重要意义。YOLOv8Pose作为YOLO系列中的新成员，以其高效和准确性在人体姿态估计任务中脱颖而出。本文将详细介绍如何在瑞芯微RK3588平台上，使用RKNN（RockchipNeuralNetworkToolkit）框架部署YOLOv8Pose模型，并进行C++代码的编译和运行。注本文全
深度学习之目标检测的常用标注工具铭瑾熙人工智能机器学习深度学习深度学习目标检测目标跟踪
1LabelImgLabelImg是一款开源的图像标注工具，标签可用于分类和目标检测，它是用Python编写的，并使用Qt作为其图形界面，简单好用。注释以PASCALVOC格式保存为XML文件，这是ImageNet使用的格式。此外，它还支持COCO数据集格式。2labelmelabelme是一款开源的图像/视频标注工具，标签可用于目标检测、分割和分类。灵感是来自于MIT开源的一款标注工具Label
34、深度学习-自学之路-深入理解-NLP自然语言处理-RNN一个简单的程序，可以从程序中理解RNN的基本思想。小宇爱深度学习-自学之路深度学习自然语言处理 rnn
importsys,random,mathfromcollectionsimportCounterimportnumpyasnpf=open('tasks_1-20_v1/en/qa1_single-supporting-fact_train.txt','r')raw=f.readlines()f.close()tokens=list()forlineinraw[0:1000]:tokens.ap
DeepSeek-R1 技术全景解析：从原理到实践的“炼金术配方” ——附多阶段训练流程图与核心误区澄清... 雪停时偶遇一叶春流程图
合集-人工智能(5)1.如何改进AI模型在特定环境中的知识检索2024-09-242.深度学习与统计学中的时间序列预测2024-10-033.《使用coze搭建一个会搜索、写ppt、思维导图的Agent》2024-10-294.深入浅出：Agent如何调用工具——从OpenAIFunctionCall到CrewAI框架01-145.DeepSeek-R1技术全景解析：从原理到实践的“炼金术配方”—
【CUDA】Pytorch_Extensions joker D888 深度学习 pytorch python cuda c++深度学习
【CUDA】Pytorch_Extensions为什么要开发CUDA扩展？当我们在PyTorch中实现自定义算子时，通常有两种选择：使用纯Python实现（简单但效率低）使用C++/CUDA扩展（高效但需要编译）对于计算密集型的操作（如神经网络中的自定义激活函数），使用CUDA扩展可以获得接近硬件极限的性能。本文将以实现一个多项式激活函数x²+x+1为例，展示完整的开发流程。完整CUDA扩展代码解
Transformer 模型架构 2401_89793006 热门话题 transformer 深度学习人工智能
Transformer是一种模型架构（ModelArchitecture），而不是一个软件框架（Framework）。它的定位更接近于一种设计蓝图，类似于建筑中的结构设计方案。以下是详细解释：1.架构vs框架的区别概念定义示例模型架构定义神经网络的结构设计Transformer、CNN、RNN开发框架提供实现模型的工具和库PyTorch、TensorFlow2.Transformer作为架构的核心
使用Python和OpenCV实现图像像素压缩与解压东方佑量子变法 python opencv 开发语言
在本文中，我们将探讨如何使用Python和OpenCV库来实现一种简单的图像像素压缩算法。我们将详细讨论代码的工作原理，并提供一个具体的示例来演示该过程。1.引言随着数字媒体的普及，图像处理成为了一个重要的领域。无论是为了减少存储空间还是加快网络传输速度，图像压缩技术都扮演着至关重要的角色。这里，我们提出了一种基于像素重复模式的简单压缩算法，它适用于具有大量连续相同像素值的图像。2.技术栈介绍2.
改进YOLO系列 | YOLOv5/v7 引入 Dynamic Snake Convolution | 动态蛇形卷积 wei子 YOLO 目标跟踪人工智能
改进YOLO系列：动态蛇形卷积（DynamicSnakeConvolution，DSC）简介YOLO系列目标检测算法以其速度和精度著称，但对于细长目标例如血管、道路等，其性能仍有提升空间。动态蛇形卷积（DSC）是YOLOv5/v7中引入的一种改进，旨在更好地处理细长目标。DSC原理DSC的核心思想是使用类似蛇形运动的卷积核来提取细长目标的特征。具体来说，DSC卷积核沿着一系列控制点移动，并根据每个
【干货】视频文件抽帧（opencv和ffmpeg方式对比） zkFun 超硬干货 Python opencv ffmpeg 人工智能
1废话不多说，直接上代码opencv方式importtimeimportsubprocessimportcv2,osfrommathimportceildefextract_frames_opencv(video_path,output_folder,frame_rate=1):"""使用OpenCV从视频中抽取每秒指定帧数的帧,并保存到指定文件夹。如果视频长度不是整数秒,则会在最后一帧时补充空白
《神经网络与深度学习》(邱锡鹏) 内容概要【不含数学推导】 code_stream #机器学习神经网络
第1章绪论基本概念：介绍了人工智能的发展历程及不同阶段的特点，如符号主义、连接主义、行为主义等。还阐述了深度学习在人工智能领域的重要地位和发展现状，以及其在图像、语音、自然语言处理等多个领域的成功应用。术语解释人工智能：旨在让机器模拟人类智能的技术和科学。深度学习：一种基于对数据进行表征学习的方法，通过构建具有很多层的神经网络模型，自动从大量数据中学习复杂的模式和特征。第2章机器学习概述基本概念：
BP 神经网络在考古数据分析中的应用 fanxbl957 人工智能理论与实践神经网络数据分析人工智能
BP神经网络在考古数据分析中的应用摘要：本文深入探讨了BP神经网络在考古数据分析领域的应用。首先阐述了考古数据分析的重要性以及传统分析方法的局限性。随后详细介绍了BP神经网络的结构、原理与训练算法。通过丰富的代码示例展示了如何运用BP神经网络进行考古文物的分类鉴定、年代预测以及遗址空间分布分析等任务，涵盖数据预处理、网络构建、模型训练与评估等关键环节。分析了该应用的优势与局限性，并对其在考古数据分
图像识别与应用狂踹瘸子那条好脚 python
图像识别作为人工智能领域的重要分支，近年来取得了显著进展，其中卷积神经网络（CNN）功不可没。CNN凭借其强大的特征提取能力，在图像分类、目标检测、人脸识别等任务中表现出色，成为图像识别领域的核心技术。一、卷积神经网络：图像识别的利器CNN是一种专门处理网格状数据的深度学习模型，其结构设计灵感来源于生物视觉系统。与全连接神经网络不同，CNN通过卷积层、池化层等结构，能够有效提取图像的局部特征，并逐
大模型如何改变教育？典型应用场景的探究与展望！ AGI大模型学习大模型应用人工智能 AI产品经理 llama 大模型 AI 大模型教程
目前，大模型在教育领域的应用主要体现在个性化学习助手、智能问答系统、内容生成与创作辅助、智能写作评估、跨语言学习支持、数学解题辅助等几个方面。大模型技术在教育领域凭借卓越的数据处理能力和深度学习技术，极大推动了教育质量的提升与教育公平的实现。分级分类的教育数据助力大模型发展在构建与优化大模型的过程中，教育数据能够帮助我们更精准地理解教育现象，更有质量地辅助教学。教育数据涵盖广泛，包括但不限于学生的
Java序列化进阶篇 g21121 java序列化
1.transient 类一旦实现了Serializable 接口即被声明为可序列化，然而某些情况下并不是所有的属性都需要序列化，想要人为的去阻止这些属性被序列化，就需要用到transient 关键字。
escape()、encodeURI()、encodeURIComponent()区别详解 aigo JavaScript Web
原文：http://blog.sina.com.cn/s/blog_4586764e0101khi0.html JavaScript中有三个可以对字符串编码的函数，分别是： escape,encodeURI,encodeURIComponent，相应3个解码函数：,decodeURI,decodeURIComponent 。下面简单介绍一下它们的区别 1 escape()函
ArcgisEngine实现对地图的放大、缩小和平移 Cb123456 添加矢量数据对地图的放大、缩小和平移 Engine
ArcgisEngine实现对地图的放大、缩小和平移: 个人觉得是平移，不过网上的都是漫游，通俗的说就是把一个地图对象从一边拉到另一边而已。就看人说话吧. 具体实现: 一、引入命名空间 using ESRI.ArcGIS.Geometry; using ESRI.ArcGIS.Controls; 二、代码实现.
Java集合框架概述天子之骄 Java集合框架概述
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
旗正4.0页面跳转传值问题何必如此 java jsp
跳转和成功提示 a) 成功字段非空forward 成功字段非空forward，不会弹出成功字段，为jsp转发，页面能超链接传值,传输变量时需要拼接。接拼接方式list.jsp?test="+strweightUnit+"或list.jsp?test="+weightUnit+&qu
全网唯一:移动互联网服务器端开发课程 cocos2d-x小菜 web开发移动开发移动端开发移动互联程序员
移动互联网时代来了！ App市场爆发式增长为Web开发程序员带来新一轮机遇，近两年新增创业者，几乎全部选择了移动互联网项目！传统互联网企业中超过98%的门户网站已经或者正在从单一的网站入口转向PC、手机、Pad、智能电视等多端全平台兼容体系。据统计，AppStore中超过85%的App项目都选择了PHP作为后端程
Log4J通用配置|注意问题笔记 7454103 DAO apache tomcat log4j Web
关于日志的等级那些去百度就知道了！这几天要搭个新框架配置了日志记下来！做个备忘！ #这里定义能显示到的最低级别,若定义到INFO级别,则看不到DEBUG级别的信息了~! log4j.rootLogger=INFO,allLog # DAO层 log记录到dao.log 控制台和总日志文件 log4j.logger.DAO=INFO,dao,C
SQLServer TCP/IP 连接失败问题 ---SQL Server Configuration Manager darkranger sql c windows SQL Server XP
当你安装完之后,连接数据库的时候可能会发现你的TCP/IP 没有启动.. 发现需要启动客户端协议 : TCP/IP 需要打开 SQL Server Configuration Manager... 却发现无法打开 SQL Server Configuration Manager..?? 解决方法: C:\WINDOWS\system32目录搜索framedyn.
[置顶] 做有中国特色的程序员 aijuans 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有些技术书读得可
document.domain 跨域问题 avords document
document.domain用来得到当前网页的域名。比如在地址栏里输入：javascript:alert(document.domain); //www.315ta.com我们也可以给document.domain属性赋值，不过是有限制的，你只能赋成当前的域名或者基础域名。比如：javascript:alert(document.domain = "315ta.com");
关于管理软件的一些思考 houxinyou 管理
工作好多看年了,一直在做管理软件,不知道是我最开始做的时候产生了一些惯性的思维,还是现在接触的管理软件水平有所下降.换过好多年公司,越来越感觉现在的管理软件做的越来越乱. 在我看来,管理软件不论是以前的结构化编程,还是现在的面向对象编程,不管是CS模式,还是BS模式.模块的划分是很重要的.当然,模块的划分有很多种方式.我只是以我自己的划分方式来说一下. 做为管理软件,就像现在讲究MVC这
NoSQL数据库之Redis数据库管理(String类型和hash类型) bijian1013 redis 数据库 NoSQL
一.Redis的数据类型 1.String类型及操作 String是最简单的类型，一个key对应一个value，string类型是二进制安全的。Redis的string可以包含任何数据，比如jpg图片或者序列化的对象。 Set方法：设置key对应的值为string类型的value
Tomcat 一些技巧征客丶 java tomcat dos
以下操作都是在windows 环境下一、Tomcat 启动时配置 JAVA_HOME 在 tomcat 安装目录，bin 文件夹下的 catalina.bat 或 setclasspath.bat 中添加 set JAVA_HOME=JAVA 安装目录 set JRE_HOME=JAVA 安装目录/jre 即可；二、查看Tomcat 版本在 tomcat 安装目
【Spark七十二】Spark的日志配置 bit1129 spark
在测试Spark Streaming时，大量的日志显示到控制台，影响了Spark Streaming程序代码的输出结果的查看(代码中通过println将输出打印到控制台上)，可以通过修改Spark的日志配置的方式，不让Spark Streaming把它的日志显示在console 在Spark的conf目录下，把log4j.properties.template修改为log4j.p
Haskell版冒泡排序 bookjovi 冒泡排序 haskell
面试的时候问的比较多的算法题要么是binary search，要么是冒泡排序，真的不想用写C写冒泡排序了，贴上个Haskell版的，思维简单，代码简单，下次谁要是再要我用C写冒泡排序，直接上个haskell版的，让他自己去理解吧。 sort [] = [] sort [x] = [x] sort (x:x1:xs) | x>x1 = x1:so
java 路径配置文件读取 bro_feng java
这几天做一个项目，关于路径做如下笔记，有需要供参考。取工程内的文件，一般都要用相对路径，这个自然不用多说。在src统计目录建配置文件目录res,在res中放入配置文件。读取文件使用方式： 1. MyTest.class.getResourceAsStream("/res/xx.properties") 2. properties.load(MyTest.
读《研磨设计模式》-代码笔记-简单工厂模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 个人理解：简单工厂模式就是IOC; * 客户端要用到某一对象，本来是由客户创建的，现在改成由工厂创建，客户直接取就好了 */ interface IProduct {
SVN与JIRA的关联 chenyu19891124 SVN
SVN与JIRA的关联一直都没能装成功，今天凝聚心思花了一天时间整合好了。下面是自己整理的步骤：一、搭建好SVN环境，尤其是要把SVN的服务注册成系统服务二、装好JIRA，自己用是jira-4.3.4破解版三、下载SVN与JIRA的插件并解压，然后拷贝插件包下lib包里的三个jar，放到Atlassian\JIRA 4.3.4\atlassian-jira\WEB-INF\lib下，再
JWFDv0.96 最新设计思路 comsci 数据结构算法工作企业应用公告
随着工作流技术的发展，工作流产品的应用范围也不断的在扩展，开始进入了像金融行业(我已经看到国有四大商业银行的工作流产品招标公告了)，实时生产控制和其它比较重要的工程领域，而
vi 保存复制内容格式粘贴 daizj vi 粘贴复制保存原格式不变形
vi是linux中非常好用的文本编辑工具，功能强大无比，但对于复制带有缩进格式的内容时，粘贴的时候内容错位很严重，不会按照复制时的格式排版，vi能不能在粘贴时，按复制进的格式进行粘贴呢？答案是肯定的，vi有一个很强大的命令可以实现此功能。在命令模式输入:set paste，则进入paste模式，这样再进行粘贴时
shell脚本运行时报错误：/bin/bash^M: bad interpreter 的解决办法 dongwei_6688 shell脚本
出现原因：windows上写的脚本，直接拷贝到linux系统上运行由于格式不兼容导致解决办法： 1. 比如文件名为myshell.sh，vim myshell.sh 2. 执行vim中的命令 : set ff?查看文件格式，如果显示fileformat=dos，证明文件格式有问题 3. 执行vim中的命令 :set fileformat=unix 将文件格式改过来就可以了，然后:w
高一上学期难记忆单词 dcj3sjt126com word english
honest 诚实的；正直的 argue 争论 classical 古典的 hammer 锤子 share 分享；共有 sorrow 悲哀；悲痛 adventure 冒险 error 错误；差错 closet 壁橱；储藏室 pronounce 发音；宣告 repeat 重做；重复 majority 大多数；大半 native 本国的，本地的，本国
hibernate查询返回DTO对象，DTO封装了多个pojo对象的属性 frankco POJO hibernate查询 DTO
DTO-数据传输对象；pojo-最纯粹的java对象与数据库中的表一一对应。简单讲：DTO起到业务数据的传递作用，pojo则与持久层数据库打交道。有时候我们需要查询返回DTO对象，因为DTO
Partition List hcx2013 partition
Given a linked list and a value x, partition it such that all nodes less than x come before nodes greater than or equal to x. You should preserve the original relative order of th
Spring MVC测试框架详解——客户端测试 jinnianshilongnian
上一篇《Spring MVC测试框架详解——服务端测试》已经介绍了服务端测试，接下来再看看如果测试Rest客户端，对于客户端测试以前经常使用的方法是启动一个内嵌的jetty/tomcat容器，然后发送真实的请求到相应的控制器；这种方式的缺点就是速度慢；自Spring 3.2开始提供了对RestTemplate的模拟服务器测试方式，也就是说使用RestTemplate测试时无须启动服务器，而是模拟一
关于推荐个人观点 liyonghui160com 推荐系统关于推荐个人观点
回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的w
不间断旋转的动画 pangyulei 动画
CABasicAnimation* rotationAnimation; rotationAnimation = [CABasicAnimation animationWithKeyPath:@"transform.rotation.z"]; rotationAnimation.toValue = [NSNumber numberWithFloat: M
自定义annotation sha1064616837 java enum annotation reflect
对象有的属性在页面上可编辑，有的属性在页面只可读，以前都是我们在页面上写死的，时间一久有时候会混乱，此处通过自定义annotation在类属性中定义。越来越发现Java的Annotation真心很强大，可以帮我们省去很多代码，让代码看上去简洁。下面这个例子主要用到了 1.自定义annotation：@interface，以及几个配合着自定义注解使用的几个注解 2.简单的反射 3.枚举
Spring 源码 up2pu spring
1.Spring源代码 https://github.com/SpringSource/spring-framework/branches/3.2.x 注：兼容svn检出 2.运行脚本 import-into-eclipse.bat 注：需要设置JAVA_HOME为jdk 1.7 build.gradle compileJava { sourceCompatibilit
利用word分词来计算文本相似度 yangshangchuan word word分词文本相似度余弦相似度简单共有词
word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity 用法如下： String text1 = "我爱购物"; String text2 = "我爱读书"; String text3 =