爱吃面的猫

04深度学习-目标检测-深度学习方法详解-Two-stage的目标检测算法

一、深度学习目标检测算法介绍

第二篇我们介绍了目标检测中传统的算法和目标检测的方式，第三篇我们对传统的目标检测算法和深度学习目标检测算法简单做了比较，此篇记录了深度学习目标检测算法内容，深入讲述一下深度学习算法在目标检测的原理和效果。而深度学习算法在目标检测分为类两个阶段：

One-stage（YOLO和SSD系列）：直接回归目标位置。
Two-stage（Faster RCNN系列）：利用RPN网络对候选区域进行推荐，即通过一个完整的卷积神经网完成检测过程。

我们首先对Two-stage进行介绍。

二、基于Two-stage的目标检测算法

Two-stage的目标检测算法主要是通过一个完整的卷积神经网络
来完成目标检测的过程，进行目标检测时用到的特征就是CNN的特征，也就是通过一个CNN卷积神经网来提取对候选区域目标的特征的描述。

对于Two-stage的目标检测算法最典型的代表就是2014年提出的提出R-CNN到faster RCNN的一系列算法。

在训练过程中需要两个步骤：训练RPN网络、目标区域的网络训练。相对于传统的目标检测算法，不需要再进行训练分类器，不需要再做特征表示这个过程。整个过程都是从A到B的一个完整的卷积神经网络完成，同时精度得到提升。不过相比于one-stage慢些。

上述描述可以总结为以下几点：

CNN卷积特征
R. Girshick et al., 2014提出R-CNN到faster RCNN
端到端的目标检测(RPN网络)
准确度高、速度相对one-stage慢

三、Two-stage基本流程

输入图片------对图片进行深度特征的提取（主干神经网络）------RPN网络完成滑动窗口所完成的任务，也就是产生候选区域，完成候选区域分类（背景和目标）对目标的位置进行初步定位-------为了不重复的计算CNN特征，通过roi_pooling完成抠图操作-----fc全连接层对候选区域进行表示----分类和回归对候选目标的类别判定和位置精修（得到物体的真实类别）

详细流程：

首先输入一张图片，然后图片进行深度特征提取，也就是一幅图作为输入经过一个卷积神经网络，通常将其称为主干网络，典型的主干网络包括VGG、ResNet等一些经典的卷积神经网络，再然后通过一个RPN网络来完成传统目标检测算法中滑动窗口所完成的任务，也就是产生候选区域。在进行候选框区域提取的同时对候选框区域分类（分类过程中将候选框区域分类为背景和目标两种不同类别）。在RPN网络产生候选区域的时候也会对目标的位置进行初步的预测，意味着RPN网络同时完成区域分类和位置精修两个环节。在得到候选区域之后，通过roi_pooling层对候选区域进一步精确进行位置回归和修正，可以将roi_pooling理解为抠图，接下来得到候选目标对应到feature map上的特征后，会通过一个fc层，来进一步对候选区域的特征进行表示，接下来通过分类和回归来分别完成对候选目标的类别的判定以及候选目标位置的精修，这里的类别不同于RPN网络的类别，这里通常会得到物体真实的类别，回归主要得到当前目标具体的坐标位置，通常表示为一个矩形框，即四个值(x,y,w,h)。

四、Two-stage常见算法

RCNN
Fast RCNN
Faster RCNN
Faster RCNN变种

五、Two-stage核心组件

1、Two-stage的两个核心组件

Two-stage有两个重要的核心组件是：

CNN网络（主干网络）
RPN网络

2、主干CNN网络设计原则

从简单到复杂，再从复杂到简单的卷积神经网络

简单的网络结构：比较经典的就是LeNet（具有一个输入层，两个卷积层，两个池化层，3个全连接层，但LeNet在大规模的任务中网络表达能力和抽象能力就相对弱一些）

复杂的网络结构：经过LeNet又出现了LSNet、Resnet、Vgg等复杂的网络结构，这些网路结构往往是用来增加网络的深度，因为网络越深，非线性表达能力越强，得到物体更加抽象的表达，对于图像的变化敏感度越不敏感，鲁棒性越强，解决非线性任务能力越强，同时也会导致梯度消失或梯度弥散。其中最典型的是Resnet可是达到100多层的深度，再经典的就是GoogleNet。

多尺度特征融合的网络
更轻量级的CNN网络

在设计时候考虑性能和模型大小，此时就需要用到轻量级的CNN网络，如经典的ShuffleNet、MobileNet等。

三、RPN网络

在了解RPN网络前我们先了解一些相关概念区域推荐（Anchor机制）。

1、区域推荐（Anchor机制）

1.1 问题的引入

往往，图片上的每一处位置都有可能出现目标物体，并且目标的大小是不确定的。那有什么办法能检出所有的物体呢？最容易想到的办法就是，以一个像素为中心截取很多个不同宽高比和大小的小块，每个小块都检测一下包不包含物体，如果包含物体，该物体的位置就是刚刚截取的这个小块的位置，同时再预测一下它的类别是什么。这样就可以做到不漏掉当前这个像素上的任何宽高比和大小的物体了；那刚刚截取的这个小块就是一个anchor box。

为了检出图像中不同位置的物体，使用滑动窗口的方式，从左到右，从上到下，把图像扫描一遍，每个像素点上都取很多小块进行检测，这样就可以保证不同位置、不同大小的物体都不漏掉了。Fig. 1是一个扫描检查的示例。

这种方法容易理解并且确实有效，但是缺点也是突出的----计算量太大了。假如一张图片的特征图大小为640*640，在图像中每一个像素上取10个不同宽高比不同大小的框做检测，则需要检测的框就会有640 x 640 x 10 = 4096000，太多了，如下图。那怎么改进呢？

其实，对于上面的问题有两个明显可以改善的点：

一是4096000个扫描框重叠(overlap)太多了
一是这些框里有很多框是背景，不包含物体，没有检测的必要。

所以，设法在保证覆盖整张图的基础上，略去重叠太严重的框，避开背景框，找高质量的、可能包含目标物体的候选框进行检测就显得尤为重要，可以以此来降低运算量，提高检测速度。

anchor boxes就是我们在检测之前确定的一系列候选框。我们默认，图片上会出现的所有物体，都会被我们设定的anchor boxes所覆盖。anchor box选择的好坏直接关系到两个方面：

一是能不能很好的覆盖整张图
一是能不能框住图片中可能出现的每个物体

所以anchor box的设定非常重要，既关系到精度的好坏，又关系到速度的快慢（速度仅就以上所说的扫描法而言）。

1.2 解决方案-设定的anchor boxes

使用设定的anchor boxes进行降低运算量，提高检测速度。anchor boxes如何设定呢？我们通过以下步骤完成：

高宽比（aspect ratio）的确定
尺度(scale)的确定
anchor boxes数量的确定

举例来说明：假如要在一个数据集上做物体检测，该数据集的图片分辨率均为256 x 256 ，数据集里绝大多数数目标物体的尺寸为 40 x 40或80 x 40。

高宽比（aspect ratio）的确定

因为绝大多数数据集里目标物体的尺寸为 40 *40或80* 40，这说明数据集中绝大多数物体的真值边框的高宽比为1:1和2:1。根据这个信息就可以确定锚框的高宽比信息，为这个数据集设计anchor boxes时其高宽比至少需要包括1:1和2:1。这里举例为方便就只取1:1和2:1。

尺度(scale)的确定

尺度是指物体的高或宽与图片的高或宽之间的比值。例如图片的宽为256px，图片中物体的宽为40px，则该物体的尺度为40/256=0.15625，也就是说该物体占了图片15.62%的宽度。

为了选一组能更好的代表数据集里目标的尺度，我们应该以数据集中目标物体的最大尺度值和最小尺度值为上下限。如，数据集中物体的尺度的最小值和最大值分别为0.15625和0.3125，我们准备在这个范围内设置3种scale，则可以选择 {0.15625, 0.234375, 0.3125}。

anchor boxes数量的确定

我们的scales（尺度）为 {0.15625, 0.234375, 0.3125}，高宽比 aspect ratios为{1:1, 2:1}, 则每一个锚点上的一组锚框的数量为3x2 = 6个。如下图所示，即有3种{0.15625, 0.234375, 0.3125}大小，每一种大小都有两种高宽比{1:1, 2:1}。

按照以上方法所说，锚点是指256x256图像中的每一个像素，按基于anchor的神经网络目标检测来讲，锚点为网络最终输出特征图上的每一个点。

1.3 Anchor 的在目标检测中是怎么用的

在网络中anchor boxes是被用来编码目标物体的位置。目标检测一般是不会直接检测物体边框的绝对坐标的，而是检测其相对某一个锚框的偏移量，如下图中绿色真值框对蓝色边框的偏移。数据集中所有的目标均会被编码成对anchor boxes的偏移。如1.1问题引入中的图片, 锚框有非常多个，对一张图片来说，可能包含多个物体，有非常多个anchor boxes，那怎么用anchor boxes对真值进行编码呢？

anchor boxes对真值bounding box编码的步骤

a. 对每一个anchor box，算出其和哪一个真值bounding box的交并比（intersection over union score）最大
b. 如果交并比>50%，则当前anchor box负责当前真值bounding box对应物体的检测，求真值bounding box对该anchor box的偏移
c. 如果交并比介于40%与50%之间，不能确定该anchor是不是包含该物体，属于含糊框。
d. 如果交并比<40%,则认为该anchor框到的都是背景，将该anchor划分为背景类。
除了被分配物体的锚框外，对只含背景的锚框和含糊框，偏移赋0，分类赋背景。

编码之后，物体检测类网络的回归目标变成回归编码好的偏移量了。网络的输入为图片，输出为每一锚框的分类和偏移量。网络最终输出的特征图上的每一个像素都有一组锚框（假如一组锚框的数量为6个，宽高比为2:1和1:1, 尺度为0.15625, 0.234375, 0.3125，如图），设网络最终输出的特征图分辨率为7*7，则该回归网络中的锚框数量总数为7x7x6=296个。网络接收到的真值为这296个anchor box是否为背景的分类信息（如果包含物体，则分离为物体类别）和每个anchor到目标物体bounding box的偏移量（含糊框和背景框的偏移量为0），网络的输出为296个框的偏移量和分类信息。

对一个训练好的网络，其输出中，只包含背景的锚框的分类为背景，偏移为0；包含物体的锚框，其分类为物体的类别，偏移为锚框与物体真实边框之间的偏移

为什么要回归偏移量而不是绝对坐标

神经网络的特性之一是位移不变性。例如对一张包含树的照片，不管树在这张图片的左上角还是右下角，网络输出的分类都是树，分类结果不会因为树在照片中位置的变化而变化。所以，对于一棵树，不管它在图片中的位置是什么，回归网络都偏向于为它输出相同的位置坐标，可见位移不变性和我们需要的位置坐标变化是冲突的，这显然是不行的。转而回归偏移的话，不管树在图像中的什么位置，其对它所在的锚框的偏移量基本是一致的，更加适合神经网络回归。

输出特征图和锚框有什么关系

锚框不是应该放在输入图上吗，为什么说输出特征图上的每一个点一组锚框？

如图所示，输出特征图(最右边3 x 3的小特征图)上的任何一个点都可以映射到输入图片上（感受野的意思），也就是说按照比例和网络的下采样，对输出特征图上的任意一点，在输入图片上都可以成比例找到它的对应位置。例如，在输出特征图上（0, 0）的点在输入图片上的对应位置为(2, 2)，网络的输出特征维度为3 3 84 （ = 3 3 6 14）,则输出特征图上点（0, 0）处的84个通道对应的值为输入图（2, 2）位置上6个锚框的偏移量和分类值。3 3 84 = 3 3 6 14中的6为6个anchor box， 14中的4为(x,y,w,h)的偏移量，14中的10为类别数。

通过这样的隐式映射关系，将所有的anchor box都放在了输入图片上。

1.3 Anchor 的本质

Anchor 的本质是 SPP(spatial pyramid pooling) 思想的逆向。而SPP本身是将不同尺寸的输入 resize 成为相同尺寸的输出，所以SPP的逆向就是，将相同尺寸的输出，倒推得到不同尺寸的输入。

区域推荐：称为Anchor机制，即n*c*w*h ，其中n代表样本数，c代表通道数，w和h代表图像高度和宽度
将w*h区域内的每个1个点作为候选区域中心点，进行提取候选区域，这样的每个点都称为Anchor。
       以某个点为候选区域中心点进行提取候选区域时候，通常会按照一定的比例来提取。例如fastRCN中每个中心点提取9个候选区域。因此1个w*h的区域需要提取候选区域为 w*h*9个。
       针对这些候选区域和真值（GT），利用真值来对这些后续区域进行筛选，经过筛选后得到正负样本，
       其中正样本就是包含了候选目标的区域，而是否包含则通常是通过IOU进行判断，即真值与候选区域的重叠的覆盖面积判断，
       如果真值和后续区域重叠的面积超过70%，就是正样本。如果小于30%就是负样本。

这里的0.7和0.3都是超参，可自行设定。

RPN网络对主干网络（VGG、ResNet等其中之一）输出的feature map进行处理，产生多个可能含有目标的建议区域。它由两个卷积分支构成，其中一个分支通过对坐标的回归，定位目标在图片中的大概位置，另一个分支通过二分类处理，找出包含目标的前景区域。RPN的网络结构如图所示：

RPN的输入特征图就是图1中由主干网络提取的Feature Maps，也称共享Feature Maps，其尺度为H（高）× W（宽）× C（通道数）。在这个特征参数的基础上，通过一个3×3的滑动窗口，在这个H×W的区域上进行滑动，可以得到H×W个3×3的窗口。每个3×3的窗口的中心点都对应原始图片中一个目标区域的中心点。

然后对每个特征向量做两次全连接操作，一个分支得到2个分数（前景和背景的置信度），另一个分支得到4个坐标（目标的坐标框信息），4个坐标是指针对原图坐标的偏移。由于要对每个向量做同样的全连接操作，等同于对整个特征图做两次1 × 1的卷积，得到一个2 × H × W和一个4 × H × W大小的特征图。最终再结合预先定义的Anchors，完成后处理操作，得到候选框。

整体上RPN客户以整理成以下几点：

区域推荐（Anchor机制）
ROI Pooling
分类和回归

spring mvc java 8 rest idea_springmvc学习笔记---面向移动端支持REST API 射命丸咲 spring mvc java 8 rest idea
前言:springmvc对注解的支持非常灵活和飘逸,也得web编程少了以往很大一坨配置项.另一方面移动互联网的到来,使得RESTAPI变得流行,甚至成为主流.因此我们来关注下springmvc对restapi的支持程度,以及需要做的工作评估.样例设计和准备:springmvc学习笔记系列的文章目录:•idea创建springmvc项目RESTAPI的设计原则遵循之前的博文来实现•移动互联网实战--
Python语言的安全开发慕璃嫣包罗万象 golang 开发语言后端
Python语言的安全开发引言在信息技术迅速发展的今天，网络安全问题愈发凸显。随着Python语言的广泛应用，尤其是在数据分析、人工智能、Web开发等领域，其安全问题越来越受到重视。Python作为一门高效且易于学习的编程语言，虽然在开发过程中为我们提供了很多便利，但如果忽视了安全性，将可能导致严重的安全漏洞和数据泄露等问题。因此，本文将围绕Python语言的安全开发展开讨论，重点分析常见的安全问
C++ unordered_map和unordered_set的使用，哈希表的实现英雄不问出处～散列表 c++哈希算法
文章目录unordered_map，unorder_set和map，set的差异哈希表的实现概念直接定址法哈希冲突哈希冲突举个例子负载因子将关键字转为整数哈希函数除法散列法/除留余数法哈希冲突的解决方法开放定址法线性探测二次探测开放定址法代码实现哈希表的代码unordered_map，unorder_set和map，set的差异unordered_map，unordered_set在功能方面和ma
获取PPT中的MSO格式图片报错 ♢.＊ ppt python
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！image.ext的报错ValueEr
知识图谱技术剖析 ♢.＊人工智能知识图谱大数据
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！一、引言在当今数字化信息爆炸的时代，如
Deepseek技术浅析（一）爱研究的小牛 AIGC—概述大模型 AIGC 人工智能深度学习自然语言处理
DeepSeek是北京深度求索人工智能基础技术研究有限公司推出的人工智能技术品牌，专注于大语言模型（LLM）的研发与应用。其技术涵盖了从模型架构、训练方法到应用部署的多个层面，展现出强大的创新能力和应用潜力。以下将详细介绍DeepSeek的核心技术、工作原理以及具体实现方式。一、核心技术1.大语言模型（LLM）DeepSeek的核心产品是自研的大语言模型，其主要特点包括：(1)基于Transfor
Synthesia技术浅析（四）：自然语言处理爱研究的小牛 AIGC—视频 AIGC—虚拟现实 AIGC—自然语言处理自然语言处理人工智能 AIGC
Synthesia的自然语言处理（NLP）模块是其核心技术之一，涵盖了文本转语音（TTS）、情感分析以及多语言支持等多个方面。一、文本转语音（TTS）1.关键组件Synthesia的TTS系统主要依赖于Tacotron2和WaveGlow模型。这些模型共同作用，将文本转换为高质量的语音。2.过程模型详解2.1文本预处理文本预处理是TTS的第一步，包括分词、标点符号处理、数字和日期格式转换等。分词（
启元世界（Inspir.ai）技术浅析（一）爱研究的小牛 AIGC—游戏制作人工智能机器学习 AIGC 深度学习
启元世界（Inspir.ai）作为全球领先的通用人工智能平台公司，自2017年成立以来，一直致力于通过人工智能技术提升产业效能和生活体验。公司汇聚了来自全球顶尖公司和高等学府的技术专家，专注于深度强化学习、推荐算法以及机器学习系统平台等前沿领域，并成功将人工智能技术应用于数字娱乐、智能决策和机器人等多个领域。一、核心技术启元世界在人工智能领域取得了多项突破性进展，其核心技术涵盖了以下几个方面：1.
Lumen5——AI视频制作，提取关键信息生成带有视觉效果的视频爱研究的小牛 AIGC—视频人工智能 AIGC 深度学习
一、Lumen5介绍Lumen5是一款基于人工智能的自动化视频制作平台，专为非专业用户设计，帮助其将博客、文章、新闻等文字内容快速转换为视频。Lumen5的目标是简化视频制作流程，让内容创作者、市场营销人员、社交媒体团队等无需视频制作经验即可轻松制作吸引观众的高质量视频。二、Lumen5的主要功能文字转视频Lumen5最具特色的功能是通过AI自动将文本转化为视频。用户可以输入一段文字或直接粘贴文章
python神经网络框架有哪些,python调用神经网络模型小明技术分享 python 神经网络深度学习
人工智能Python深度学习库有哪些由于Python的易用性和可扩展性，众多深度学习框架提供了Python接口，其中较为流行的深度学习库如下：第一：CaffeCaffe是一个以表达式、速度和模块化为核心的深度学习框架，具备清晰、可读性高和快速的特性，在视频、图像处理方面应用较多。Caffe中的网络结构与优化都以配置文件形式定义，容易上手，无须通过代码构建网络;网络训练速度快，能够训练大型数据集与S
【c语言】【c++】for循环对比吃掉你也没关系吧数据结构与算法 c语言 c++
C++中的for(constauto&pair:anagramMap)是基于**范围-basedforloop（范围循环）**的语法，主要用于遍历容器或序列，和C语言中的传统for循环相比，差异在语法、功能、适用场景等方面。以下对两者进行详细对比。1.语法和适用场景C语言的传统for循环使用控制变量（如整数索引）结合条件判断和增量操作实现循环。通常用来遍历数组或实现重复逻辑。语法灵活，但不够简洁，
人工智能的前景与未来就业市场：机遇、挑战与社会影响苹果酱0567 面试题汇总与解析 java 开发语言中间件 spring boot 后端
随着科技的飞速发展，人工智能（AI）已经逐渐渗透到我们生活的方方面面，它不仅引领着技术革新的浪潮，更在无声中重塑着我们的就业市场和社会结构。站在这个时代的交汇点上，我们不禁要问：人工智能将如何影响我们的未来就业市场？它带来的究竟是机遇还是挑战？回望过去，每一次科技革命都伴随着就业市场的剧烈震荡。而今，人工智能作为第四次工业革命的核心驱动力，正以前所未有的速度改变着劳动力市场的格局。从自动化生产线上
Python实现复原毫米波雷达呼吸波形的示例 go5463158465 python 算法机器学习 python 开发语言
以下是一个使用Python实现复原毫米波雷达呼吸波形的示例，该示例将涉及模型算法在重建损失和KL（Kullback-Leibler）损失之间的平衡问题。我们将使用深度学习中的变分自编码器（VAE）作为模型来进行呼吸波形的复原，因为VAE可以很好地处理重建和潜在空间分布的问题。步骤概述数据准备：生成或加载毫米波雷达的呼吸波形数据。定义VAE模型：包括编码器和解码器。定义损失函数：结合重建损失和KL损
对话系统(Chatbots) 原理与代码实例讲解 AI天才研究院 AI大模型企业级应用开发实战大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1对话系统的发展历程对话系统，又称聊天机器人(Chatbots)，是模拟人类对话的计算机程序。从早期的基于规则的系统到如今基于深度学习的智能体，对话系统经历了漫长的发展历程。第一阶段：基于规则的系统(1960s-1990s)早期的对话系统主要基于预先定义的规则和模板。例如，ELIZA(1966)是一个模拟心理治疗师的程序，通过模式匹配和关键词识别来生成回复。这些系统只能处理有限的对
如何使用深度学习中的 Transformer 算法进行视频目标检测 go5463158465 python 算法深度学习 python 开发语言
以下将介绍如何使用深度学习中的Transformer算法进行视频目标检测，并给出一个复现相关论文思路及示例代码。这里以DETR（End-to-EndObjectDetectionwithTransformers）为基础进行说明，它是将Transformer引入目标检测领域的经典论文。步骤概述环境准备：安装必要的库，如PyTorch、torchvision等。数据准备：使用公开的视频目标检测数据集，
探索SakuraLLM：轻小说与Galgame翻译的新纪元蒋素萍Marilyn
探索SakuraLLM：轻小说与Galgame翻译的新纪元SakuraLLM适配轻小说/Galgame的日中翻译大模型项目地址:https://gitcode.com/gh_mirrors/sa/SakuraLLM在人工智能的浪潮中，SakuraLLM以其独特的魅力和强大的功能，成为了日中翻译领域的一颗璀璨明星。本文将深入介绍SakuraLLM项目，分析其技术特点，探讨其应用场景，并揭示其与众不同
APL语言的正则表达式慕璃嫣包罗万象 golang 开发语言后端
APL语言中的正则表达式引言APL（AProgrammingLanguage）是一种高层次的编程语言，以其简洁的符号和强大的数组处理能力著称。虽然其主要用途通常集中在数值计算和数据处理，但APL也提供了对字符串操作的支持。在这方面，正则表达式作为一种强大的字符串处理工具，能够帮助程序员更高效地进行模式匹配和文本处理。因此，了解APL语言中的正则表达式的使用方法，对于从事数据分析、文本处理等工作的程
大模型问答机器人的智能化程度 AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
大模型、问答机器人、智能化程度、自然语言处理、深度学习、Transformer模型、知识图谱、推理能力、对话系统1.背景介绍近年来，人工智能技术取得了飞速发展，特别是深度学习的兴起，为自然语言处理（NLP）领域带来了革命性的变革。其中，大模型问答机器人作为一种新型的智能交互系统，凭借其强大的语言理解和生成能力，在客服、教育、娱乐等领域展现出广阔的应用前景。问答机器人是指能够理解用户自然语言问题并给
微信小程序上传图片使用compressImage压缩前端搬砖达人微信小程序小程序
在上传图片时，如果太大体积得图片，往往会上传很慢，而且还加大服务器的压力，所以在性能考虑方面来说，可以处理上传图片时先压缩再传给后端目前原生小程序开发有两种方式进行压缩（原生方法，不排除有第三方接入，但是我目前没找到第三方插件，有找到的大佬们分享一下）这篇先写官方api压缩compressImage压缩这个是官方api压缩方法，但是偶现兼容问题，仅对jpg图片有效1、选择图片使用wx.choose
Redis与MySql的区别 GugarF95 redis mysql 数据库
Redis和MySQL是两种不同类型的数据库系统，它们在数据存储方式、性能特点、适用场景等方面存在诸多区别，以下是详细介绍：数据存储类型MySQL：是一种关系型数据库管理系统（RDBMS），以表格的形式组织数据，表由行和列组成，每行代表一个记录，每列代表一个属性。通过定义表结构，包括字段类型、长度、是否为主键等约束条件，来存储结构化数据，如用户信息表、订单表等。支持复杂的数据关系，如一对一、一对多
SpringBoot中运行Yolov5程序 eqa11 spring boot YOLO 后端
文章目录SpringBoot中运行Yolov5程序一、引言二、环境搭建1、SpringBoot项目创建2、YOLOv5环境配置三、SpringBoot与YOLOv5集成1、创建Python服务2、SpringBoot调用Python服务四、使用示例1、创建控制器五、总结SpringBoot中运行Yolov5程序一、引言在人工智能领域，目标检测是一个热门且实用的技术。YOLOv5作为目标检测算法中的
大语言模型原理与工程实践：残差连接与层归一化 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着自然语言处理（NLP）的发展，深度学习在过去几年中取得了令人瞩目的成果。其中，循环神经网络（RNN）和卷积神经网络（CNN）在图像和文本分类、语义角色标注、机器翻译等领域表现出色。然而，这些网络在训练过程中经常遭遇梯度消失和梯度爆炸的问题。为了解决这些问题，我们引入了残差连接（ResidualConnections）和层归一化（BatchNormalization）来改善模型性能。
有道子曰推理模型“子曰-o1”发布即开源，14B小参数复现OpenAI o1强推理效果百态老人笔记
根据我搜索到的资料，网易有道于2025年1月22日正式发布了国内首个输出分步式讲解的推理模型“子曰-o1”，并宣布其开源。这一模型以14B（140亿）参数规模为基础，支持在消费级显卡上部署，采用思维链技术，能够提供详细且逻辑严密的解题过程，显著提升了推理能力和准确性，尤其是在中文逻辑推理方面表现突出。“子曰-o1”复现了OpenAI发布的o1模型的单模型推理能力，但通过更轻量级的设计实现了在低算力
阿里巴巴Qwen团队发布AI模型，可操控PC和手机新加坡内哥谈技术人工智能深度学习语言模型学习
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/这周，科技界的目光几乎都被DeepSeek的R1模型吸引，但阿里巴巴并没有袖手旁观。1月
对比DeepSeek、ChatGPT和Kimi的学术写作摘要能力 AIWritePaper官方账号 DeepSeek AIWritePaper ChatGPT 人工智能 chatgpt llama 数据分析论文阅读
摘要摘要是文章的精华，通常在200-250词左右。要包括研究的目的、方法、结果和结论。让AI工具作为某领域内资深的研究专家，编写摘要需要言简意赅，直接概括论文的核心，为读者提供快速了解的窗口。下面我们使用DeepSeek、ChatGPT4以及Kimi辅助编写摘要。提示词：你现在是一名[计算机理论专家]，研究方向集中在[人工智能、大模型、数据挖掘等计算机相关方向]。我现在需要撰写一篇围绕[人工智能在
Transformer架构的GPU并行和之前的NLP算法并行有什么不同？ AI大模型学习不迷路 transformer 自然语言处理大模型深度学习 NLP LLM 大语言模型
1.什么是GPU并行计算？GPU并行计算是一种利用图形处理单元（GPU）进行大规模并行数据处理的技术。与传统的中央处理单元（CPU）相比，GPU拥有更多的核心，能够同时处理数千个线程，这使得GPU在处理高度并行的任务时表现出色。在深度学习中，GPU并行计算被广泛应用于训练神经网络，加速模型训练过程。在2017年之前，自然语言处理（NLP）领域的研究者们通常会从头开始训练模型，那时能够利用GPU进行
计算机视觉：解锁未来智能的钥匙及其代码实践我的运维人生计算机视觉人工智能运维开发技术共享
计算机视觉：解锁未来智能的钥匙及其代码实践在当今这个数据爆炸的时代，计算机视觉作为人工智能的一个重要分支，正以前所未有的速度推动着科技的边界。它不仅让机器“看懂”世界，更在自动驾驶、医疗影像分析、智能制造、安防监控等众多领域展现出巨大的应用潜力。本文将深入探讨计算机视觉的核心技术、最新进展，并通过一个具体的代码案例，展示如何在实践中应用这些技术，旨在为读者提供一个理论与实践相结合的全面视角。一、计
ImportError: DLL load failed while importing _rust: 找不到指定的程序的解决方案爱编程的喵喵 Python基础课程 python ImportError DLL load failed _rust 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ImportError:DLLloa
《向量数据库指南》——MoE应用：解锁深度学习新境界的钥匙大禹智库《实战AI智能体》《向量数据库指南》深度学习人工智能向量数据库大禹智库低代码 MoE模型
在深度学习的广阔天地里，混合专家（MoE）模型如同一把锐利的钥匙，正逐步解锁着各种复杂应用场景的新境界。作为大禹智库的向量数据库高级研究员，同时也是《向量数据库指南》的作者，我深感MoE模型在推动AI技术向前发展中所扮演的重要角色。今天，我将带大家深入探讨MoE模型在自然语言处理、计算机视觉以及多模态学习等领域的应用，并巧妙引导大家通过《向量数据库指南》获取更多干货和深度实战经验。一、自然语言处理
小南每日 AI 资讯 | 国产AI之光DeepSeek暴击硅谷？？？ | 25/01/29 小南AI学院人工智能
1.中国AI模型震惊硅谷：DeepSeek为何一夜火出圈？国产AI大模型DeepSeek迅速崛起，引发硅谷关注。2.中国银行支持AI产业：1万亿元金融扶持助推智能化升级中国银行宣布提供1万亿元资金支持人工智能产业链发展，助力智能化升级。3.国产AI大模型DeepSeek惊艳全球：游戏科学冯骥称其为“国运级别科技成果”DeepSeek的AI模型引起全球关注，游戏科学的冯骥高度评价其意义。4.AI产业
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen