LoveMIss-Y

一文看懂RCNN、Fast RCNN、Faster RCNN基本思想

进入正文

全文摘要

前面讲了计算机视觉的5大研究领域，本文针对其中的目标检测进行讲解，将着重介绍当前在目标检测领域所广泛使用的一些原理方法，包括R-CNN，fast R-CNN，faster R-CNN，SSD算法等，本文只是着重介绍相关的思想原理，关于后面的具体实现代码，会在后面的文章中分享给大家。本文内容较长，阅读全文大约30min。

目标检测算法原理

基于“区域Region”的目标检测算法

Region Proposal（候选区域），就是预先找出图中目标可能出现的位置，通过利用图像中的纹理、边缘、颜色等信息，保证在选取较少窗口（几千个甚至几百个）的情况下保持较高的召回率（IoU，Intersection-over-Union）。

Region Proposal方法比传统的滑动窗口方法获取的质量要更高。比较常用的Region Proposal方法有：SelectiveSearch(SS，选择性搜索)、Edge Boxes（EB）。

基于Region Proposal目标检测算法的步骤如下：

边框回归（Bouding Box Regression）：是对RegionProposal进行纠正的线性回归算法，目的是为了让Region Proposal提取到的窗口与目标窗口（Ground Truth）更加吻合。

R-CNN、fast R-CNN、faster R-CNN

三者比较

使用方法

缺点

改进

R-CNN

(Region-based Convolutional

Neural Networks)

1、SS提取RP；

2、CNN提取特征；

3、SVM分类；

4、BB盒回归。

1、训练步骤繁琐（微调网络+训练SVM+训练bbox）；

2、训练、测试均速度慢；

3、训练占空间

1、从DPM HSC的34.3%直接提升到了66%（mAP）；

2、引入RP+CNN

Fast R-CNN

(Fast Region-based Convolutional

Neural Networks)

1、SS提取RP；

2、CNN提取特征；

3、softmax分类；

4、多任务损失函数边框回归。

1、依旧用SS提取RP(耗时2-3s，特征提取耗时0.32s)；

2、无法满足实时应用，没有真正实现端到端训练测试；

3、利用了GPU，但是区域建议方法是在CPU上实现的。

1、由66.9%提升到70%；

2、每张图像耗时约为3s。

Faster R-CNN

(Fast Region-based Convolutional

Neural Networks)

1、RPN提取RP；

2、CNN提取特征；

3、softmax分类；

4、多任务损失函数边框回归。

1、还是无法达到实时检测目标；

2、获取region proposal，再对每个proposal分类计算量还是比较大。

1、提高了检测精度和速度；

2、真正实现端到端的目标检测框架；

3、生成建议框仅需约10ms。

每日简单的生活，静静行走尘间，家日琐事，也会忙的焦头烂额，生活仍在平淡中循环，不起半点波浪，我来由转去。这个冬季，想你多年的温暖，厚厚的光阴，寄满了给我的挂牵。

NO.2.1

R-CNN的基本流程

NO.2.2

fast R-CNN的基本流程

注意：Fast R-CNN的RegionProposal是在feature map之后做的，这样可以不用对所有的区域进行单独的CNN Forward步骤。

Fast R-CNN框架如下图：

Fast R-CNN框架与R-CNN有两处不同：

① 最后一个卷积层后加了一个ROI pooling layer；

② 损失函数使用了multi-task loss（多任务损失）函数，将边框回归直接加到CNN网络中训练。分类Fast R-CNN直接用softmax替代R-CNN用的SVM进行分类。

Fast R-CNN是端到端（end-to-end）的。

具体可参考http://blog.csdn.net/shenxiaolu1984/article/details/51036677

详解faster R-CNN

NO.3.1

fast R-CNN的基本思想

Faster R-CNN可以简单地看做“区域生成网络RPNs + Fast R-CNN”的系统，用区域生成网络代替FastR-CNN中的Selective Search方法。Faster R-CNN这篇论文着重解决了这个系统中的三个问题：

在整个Faster R-CNN算法中，有三种尺度：

2. 归一化尺度：输入特征提取网络的大小，在测试时设置，源码中opts.test_scale=600。anchor在这个尺度上设定。这个参数和anchor的相对大小决定了想要检测的目标范围。

NO.3.2

fast R-CNN的框架介绍

Faster-R-CNN算法由两大模块组成：

1.PRN候选框提取模块；

2.Fast R-CNN检测模块。

其中，RPN是全卷积神经网络，用于提取候选框；Fast R-CNN基于RPN提取的proposal检测并识别proposal中的目标。

NO.3.3

RPN介绍

3.3 RPN介绍

3.3.1 RPN的背景

目前最先进的目标检测网络需要先用区域建议算法推测目标位置，像SPPnet和Fast R-CNN这些网络虽然已经减少了检测网络运行的时间，但是计算区域建议依然耗时较大。所以，在这样的瓶颈下，RBG和Kaiming He一帮人将Region Proposal也交给CNN来做，这才提出了RPN（Region Proposal Network）区域建议网络用来提取检测区域，它能和整个检测网络共享全图的卷积特征，使得区域建议几乎不花时间。

RCNN解决的是，“为什么不用CNN做classification呢？”

Fast R-CNN解决的是，“为什么不一起输出bounding box和label呢？”

Faster R-CNN解决的是，“为什么还要用selective search呢？”

3.3 RPN介绍

3.3.2 RPN的核心思想

RPN的核心思想是使用CNN卷积神经网络直接产生Region Proposal，使用的方法本质上就是滑动窗口（只需在最后的卷积层上滑动一遍），因为anchor机制和边框回归可以得到多尺度多长宽比的Region Proposal。

RPN网络也是全卷积网络（FCN，fully-convolutional network），可以针对生成检测建议框的任务端到端地训练，能够同时预测出object的边界和分数。只是在CNN上额外增加了2个卷积层（全卷积层cls和reg）。

①将每个特征图的位置编码成一个特征向量（256dfor ZF and 512d for VGG）。

②对每一个位置输出一个objectness score和regressedbounds for k个region proposal，即在每个卷积映射位置输出这个位置上多种尺度（3种）和长宽比（3种）的k个（3*3=9）区域建议的物体得分和回归边界。

RPN网络的输入可以是任意大小（但还是有最小分辨率要求的，例如VGG是228*228）的图片。如果用VGG16进行特征提取，那么RPN网络的组成形式可以表示为VGG16+RPN。

VGG16中用于特征提取的部分是13个卷积层（conv1_1---->conv5.3），不包括pool5及pool5后的网络层次结构。

因为我们的最终目标是和Fast R-CNN目标检测网络共享计算，所以假设这两个网络共享一系列卷积层。在论文的实验中，ZF有5个可共享的卷积层， VGG有13个可共享的卷积层。

RPN的具体流程如下：使用一个小网络在最后卷积得到的特征图上进行滑动扫描，这个滑动网络每次与特征图上n*n（论文中n=3）的窗口全连接（图像的有效感受野很大，ZF是171像素，VGG是228像素），然后映射到一个低维向量（256d for ZF / 512d for VGG），最后将这个低维向量送入到两个全连接层，即bbox回归层（reg）和box分类层（cls）。sliding window的处理方式保证reg-layer和cls-layer关联了conv5-3的全部特征空间。

reg层：预测proposal的anchor对应的proposal的（x,y,w,h）

cls层：判断该proposal是前景（object）还是背景（non-object）。

在图5中，要注意，3*3卷积核的中心点对应原图（re-scale，源代码设置re-scale为600*1000）上的位置（点），将该点作为anchor的中心点，在原图中框出多尺度、多种长宽比的anchors。所以，anchor不在conv特征图上，而在原图上。

原图600*1000经CNN卷积后，在CNN最后一层（conv5）得出的是40*60大小的特征图，对应文中说的典型值为2400。若特征图大小为W*H，则需要W*H*K个anchor，本文中需要40*60*9≈2k个。

在RPN网络中，我们需要重点理解其中的anchors概念，Loss fucntions计算方式和RPN层训练数据生成的具体细节。

3.3 RPN介绍

3.3.3 RPN的平移不变性

在计算机视觉中的一个挑战就是平移不变性:比如人脸识别任务中，小的人脸(24*24的分辨率)和大的人脸(1080*720)如何在同一个训练好权值的网络中都能正确识别。若是平移了图像中的目标，则建议框也应该平移，也应该能用同样的函数预测建议框。

传统有两种主流的解决方式：

但Faster R-CNN解决该问题的具体实现是：通过卷积核中心(用来生成推荐窗口的Anchor)进行尺度、宽高比的采样，使用3种尺度和3种比例来产生9种anchor。

3.3 RPN介绍

3.3.4 窗口分类和损失精修

分类层（cls_score）输出每一个位置上，9个anchor属于前景和背景的概率。

窗口回归层（bbox_pred）输出每一个位置上，9个anchor对应窗口应该平移缩放的参数（x,y,w,h）。

对于每一个位置来说，分类层从256维特征中输出属于前景和背景的概率；窗口回归层从256维特征中输出4个平移缩放参数。

需要注意的是：并没有显式地提取任何候选窗口，完全使用网络自身完成判断和修正。

3.3 RPN介绍

3.3.5 损失函数

3.3.5.1 标签分类规定

为了训练RPN，需要给每个anchor分配的类标签{目标、非目标}。对于positive label（正标签），论文中给了如下规定（满足以下条件之一即可判为正标签）：

注意，一个GT包围盒可以对应多个anchor，这样一个GT包围盒就可以有多个正标签。

事实上，采用第②个规则基本上可以找到足够的正样本，但是对于一些极端情况，例如所有的Anchor对应的anchor box与groud truth的IoU不大于0.7,可以采用第一种规则生成。

negative label（负标签）：与所有GT包围盒的IoU都小于0.3的anchor。

对于既不是正标签也不是负标签的anchor，以及跨越图像边界的anchor我们给予舍弃，因为其对训练目标是没有任何作用的。

3.3.5.2 多任务损失（来自Fast R-CNN）

图8 multi-task数据结构

Fast R-CNN网络有两个同级输出层（cls score和bbox_prdict层），都是全连接层，称为multi-task。

① clsscore层：用于分类，输出k+1维数组p，表示属于k类和背景的概率。对每个RoI（Region of Interesting）输出离散型概率分布

通常，p由k+1类的全连接层利用softmax计算得出。

② bbox_prdict层：用于调整候选区域位置，输出bounding box回归的位移，输出4*K维数组t，表示分别属于k类时，应该平移缩放的参数。

k表示类别的索引，是指相对于objectproposal尺度不变的平移，是指对数空间中相对于objectproposal的高与宽。

loss_cls层评估分类损失函数。由真实分类u对应的概率决定：

loss_bbox评估检测框定位的损失函数。比较真实分类对应的预测平移缩放参数和

真实平移缩放参数为的差别：

其中，smooth L1损失函数为：

smooth L1损失函数曲线如下图9所示，作者这样设置的目的是想让loss对于离群点更加鲁棒，相比于L2损失函数，其对离群点、异常值（outlier）不敏感，可控制梯度的量级使训练时不容易跑飞。

最后总损失为（两者加权和，如果分类为背景则不考虑定位损失）：

规定u=0为背景类（也就是负标签），那么艾弗森括号指数函数[u≥1]表示背景候选区域即负样本不参与回归损失，不需要对候选区域进行回归操作。λ控制分类损失和回归损失的平衡。Fast R-CNN论文中，所有实验λ=1。

艾弗森括号指数函数为：

源码中bbox_loss_weights用于标记每一个bbox是否属于某一个类。

3.3.5.3 Faster R-CNN损失函数

遵循multi-task loss定义，最小化目标函数，FasterR-CNN中对一个图像的函数定义为：

其中：

R-CNN中的boundingbox回归

NO.4.1

为什么要做boundingbox回归

绿色的框为飞机的Ground Truth，红色的框是提取的Region Proposal。那么即便红色的框被分类器识别为飞机，但是由于红色的框定位不准(IoU<0.5)，那么这张图相当于没有正确的检测出飞机。如果我们能对红色的框进行微调，使得经过微调后的窗口跟Ground Truth更接近，这样岂不是定位会更准确。确实，Bounding-box regression 就是用来微调这个窗口的。

NO.4.2

回归/微调的对象是什么

NO.4.3

bounding-box regression 边框回归

那么经过何种变换才能从图11中的窗口P变为窗口呢？比较简单的思路就是：

注意：只有当Proposal和Ground Truth比较接近时（线性问题），我们才能将其作为训练样本训练我们的线性回归模型，否则会导致训练的回归模型不work（当Proposal跟GT离得较远，就是复杂的非线性问题了，此时用线性回归建模显然不合理）。这个也是G-CNN: an Iterative Grid Based Object Detector多次迭代实现目标准确定位的关键。

线性回归就是给定输入的特征向量X，学习一组参数W，使得经过线性回归后的值跟真实值Y(Ground Truth)非常接近。即。那么Bounding-box中我们的输入以及输出分别是什么呢？

输入：这个是什么？输入就是这四个数值吗？其实真正的输入是这个窗口对应的CNN特征，也就是R-CNN中的Pool5feature（特征向量）。(注：训练阶段输入还包括 Ground Truth，也就是下边提到的)

输出：需要进行的平移变换和尺度缩放，或者说是。我们的最终输出不应该是Ground Truth吗？是的，但是有了这四个变换我们就可以直接得到Ground Truth，这里还有个问题，根据上面4个公式我们可以知道，P经过，得到的并不是真实值G，而是预测值。

的确，这四个值应该是经过 Ground Truth 和Proposal计算得到的真正需要的平移量和尺度缩放。

这也就是R-CNN中的：

那么目标函数可以表示为是输入Proposal的特征向量，是要学习的参数（*表示，也就是每一个变换对应一个目标函数），是得到的预测值。我们要让预测值跟真实值差距最小，得到损失函数为：

函数优化目标为：

利用梯度下降法或者最小二乘法就可以得到。

NO.4.4

测试阶段

根据3我们学习到回归参数，对于测试图像，我们首先经过 CNN 提取特征，预测的变化就是，最后根据以下4个公式对窗口进行回归：

3.6.5 Faster R-CNN中的bounding box回归

其中：

※注意：计算regression loss需要三组信息：

1) 预测框，即RPN网络测出的proposa；

2) 锚点anchor box：之前的9个anchor对应9个不同尺度和长宽比的anchorbox；

3) GroundTruth：标定的框。

训练RPN

RPN通过反向传播（BP，back-propagation）和随机梯度下降（SGD，stochastic gradient descent）进行端到端（end-to-end）训练。依照FastR-CNN中的“image-centric”采样策略训练这个网络。每个mini-batch由包含了许多正负样本的单个图像组成。我们可以优化所有anchor的损失函数，但是这会偏向于负样本，因为它们是主要的。

采样

每一个mini-batch包含从一张图像中随机提取的256个anchor（注意，不是所有的anchor都用来训练），前景样本和背景样本均取128个，达到正负比例为1:1。如果一个图像中的正样本数小于128，则多用一些负样本以满足有256个Proposal可以用于训练。

初始化

新增的2层参数用均值为0，标准差为0.01的高斯分布来进行初始化，其余层（都是共享的卷积层，与VGG共有的层）参数用ImageNet分类预训练模型来初始化。

参数化设置（使用caffe实现）

在PASCAL数据集上：

前60k个mini-batch进行迭代，学习率设为0.001；

后20k个mini-batch进行迭代，学习率设为0.0001；

设置动量momentum=0.9，权重衰减weightdecay=0.0005。

3.8 非极大值抑制法

训练时（eg：输入600*1000的图像），如果anchor box的边界超过了图像边界，那这样的anchors对训练loss也不会产生影响，我们将超过边界的anchor舍弃不用。一幅600*1000的图像经过VGG16后大约为40*60，则此时的anchor数为40*60*9，约为20k个anchor boxes，再去除与边界相交的anchor boxes后，剩下约为6k个anchor boxes，这么多数量的anchorboxes之间肯定是有很多重叠区域，因此需要使用非极大值抑制法（NMS，non-maximum suppression）将IoU＞0.7的区域全部合并，最后就剩下约2k个anchor boxes（同理，在最终检测端，可以设置将概率大约某阈值P且IoU大约某阈值T的预测框采用NMS方法进行合并，注意：这里的预测框指的不是anchor boxes）。NMS不会影响最终的检测准确率，但是大幅地减少了建议框的数量。NMS之后，我们用建议区域中的top-N个来检测（即排过序后取N个）。

RPN与fast R-CNN特征共享

Faster-R-CNN算法由两大模块组成：

1.PRN候选框提取模块；

2.Fast R-CNN检测模块。

我们已经描述了如何为生成区域建议训练网络，而没有考虑基于区域的目标检测CNN如何利用这些建议框。对于检测网络，我们采用Fast R-CNN，现在描述一种算法，学习由RPN和Fast R-CNN之间共享的卷积层。

RPN和Fast R-CNN都是独立训练的，要用不同方式修改它们的卷积层。因此需要开发一种允许两个网络间共享卷积层的技术，而不是分别学习两个网络。注意到这不是仅仅定义一个包含了RPN和Fast R-CNN的单独网络，然后用反向传播联合优化它那么简单。原因是Fast R-CNN训练依赖于固定的目标建议框，而且并不清楚当同时改变建议机制时，学习Fast R-CNN会不会收敛。

RPN在提取得到proposals后，作者选择使用Fast-R-CNN实现最终目标的检测和识别。RPN和Fast-R-CNN共用了13个VGG的卷积层，显然将这两个网络完全孤立训练不是明智的选择，作者采用交替训练（Alternating training）阶段卷积层特征共享：

第一步，我们依上述训练RPN，该网络用ImageNet预训练的模型初始化，并端到端微调用于区域建议任务；

第二步，我们利用第一步的RPN生成的建议框，由Fast R-CNN训练一个单独的检测网络，这个检测网络同样是由ImageNet预训练的模型初始化的，这时候两个网络还没有共享卷积层；

第三步，我们用检测网络初始化RPN训练，但我们固定共享的卷积层，并且只微调RPN独有的层，现在两个网络共享卷积层了；

第四步，保持共享的卷积层固定，微调Fast R-CNN的fc层。这样，两个网络共享相同的卷积层，构成一个统一的网络。

注意：第一次迭代时，用ImageNet得到的模型初始化RPN和Fast-R-CNN中卷积层的参数；从第二次迭代开始，训练RPN时，用Fast-R-CNN的共享卷积层参数初始化RPN中的共享卷积层参数，然后只Fine-tune不共享的卷积层和其他层的相应参数。训练Fast-RCNN时，保持其与RPN共享的卷积层参数不变，只Fine-tune不共享的层对应的参数。这样就可以实现两个网络卷积层特征共享训练。相应的网络模型请参考https://github.com/rbgirshick/py-faster-rcnn/tree/master/models/pascal_voc/VGG16/faster_rcnn_alt_opt

往期回顾

●

2018/11/16

Friday

小伙伴们，这篇文章看起来可能有点晦涩难懂，但是如果坚持看完一定能够有所收获哦，虽然阅读完之后距离真正的目标检测实战还有一段距离，但是，基本的理论体系和理论框架还是应该先搭建起来的，后面会有关于目标检测的详细代码实现，有兴趣的小伙伴请持续关注！

你可能感兴趣的:(一文看懂RCNN、Fast RCNN、Faster RCNN基本思想)

三大师传 beca酱
巴尔扎克的作品被誉为“法国社会的一面镜子”。文学大师维克多·雨果对巴尔扎克的评价是：“在最伟大的人物中间，巴尔扎克是名列前茅者；在最优秀的人物中间，巴尔扎克是佼佼者之一。”一个原本寂寂无名的小人物，从地中海的某个海岛上，只身一人来到巴黎，没有朋友，也没有名望。作为一个一文不名的外乡人，凭着赤手空拳赢得了巴黎，征服了整个法兰西，并且赢得了世界。这个人就是十九世纪法国伟大的军事家、政治家，法兰西第一帝
2022-04-18 Apbenz
语重心长的和我说，不要老是说不行，人至而立之年危机四伏，内在的，外在的，感觉就是心力憔悴，让人无所适从。面对职场的无情，突然好羡慕干体力劳动的外卖小哥。难道命运是想让我去送外卖了吗？干体力活才能让我活下去？fastadmin打卡成功,淘宝金币任务完成。ㅏㅓㅗㅜㅡㅣㅐㅔㅑㅕㅛㅠㅢㅒㅖY行。야자여자요리우유의사얘기예
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
100天持续行动—Day01 Richard_DL
今天开始站着学习，发现效率大幅提升。把fast.ai的Lesson1的后半部分和Lesson2看完了。由于Keras版本和视频中的不一致，运行notebook时经常出现莫名其妙的错误，导致自己只动手实践了视频中的一小部分内容。为了赶时间，我打算先把与CNN相关的视频过一遍。然后尽快开始做自己的项目。明天继续加油，争取把Lesson3和Lesson4看完。
7号卢秀梅《给教师的建议》第6篇读后感星辰85
思考中获得活的知识一一《知识既是目的又是手段》读后感学生掌握的知识越多，学习就应该越省劲。可惜实际情况往往相反:总有些学生的学习一年比一年困难。苏霍姆林斯基在《知识既是目的又是手段》一文中分析说:知识对有些学生来说成了滞销的货物，得不到运用。知识似乎与学生的精神生活和智力兴趣不相干。掌握知识对学生来说变成了讨厌的事，学生没有了兴趣，更缺乏思考。我们教师要努力使学生把获得知识不当成最终目的，而当成一
一文让你彻底搞懂什么是VR、AR、AV、MR 码上飞扬 vr ar mr av
随着科技的飞速发展，现实世界与虚拟世界的界限变得越来越模糊。各种与现实增强相关的技术如雨后春笋般涌现，令人眼花缭乱。本文将为你详细解读四种常见的现实增强技术：虚拟现实（VR）、增强现实（AR）、混合现实（MR）和增强虚拟（AV），让你彻底搞懂它们之间的区别与联系。一、虚拟现实（VR）1.什么是VR？虚拟现实（VirtualReality，简称VR）是一种通过计算机模拟生成的三维环境，使用户能够沉浸
每日一题《leetcode--LCR 022.环形链表||》 Peace & Love487 题目分享 leetcode 链表算法笔记数据结构
https://leetcode.cn/problems/c32eOV/我们使用两个指针，fast与slow。它们起始都位于链表的头部。随后slow指针每次向后移动一个位置，而fast指针向后移动两个位置。如果链表中存在环，则fast指针最终将再次与slow指针在环中相遇。structListNode*detectCycle(structListNode*head){structListNode*
第616期【随文写作（3）】三人行语文工作室
七年级上第二单元随文写作梳理文/张永刚七年级上册语文第二单元由一组以亲情为主题的文章构成，在教学时，我重点讲授了莫怀戚的《散步》一文，然后把《金色花》《荷叶·母亲》《秋天的怀念》做了群文设计，以《母爱》为题目，模仿《乡愁》创作了一首课堂诗，作为贯穿课堂的点睛之笔，最后要求学生根据自己对母爱的理解，再续写一个小节——小时候我化作一朵金色花和母亲嬉戏、玩耍我对母亲的依恋就好像藤儿牵着瓜长大后我成了一朵
腾讯发表多模态综述，一文详解多模态大模型存内计算开发者社区多模态大模型人工智能 chatgpt AIGC 量子计算 AI-native gpt agi
多模态大语言模型（MLLM）是近年来兴起的一个新的研究热点，它利用强大的大语言模型作为大脑来执行多模态任务。MLLM令人惊讶的新兴能力，如基于图像写故事和无OCR的数学推理，在传统方法中是罕见的，这表明了一条通往人工通用智能的潜在道路。在本文中，追踪多模态大模型最新热点，讨论多模态关键技术以及现有在情绪识别上的应用。腾讯AILab发表了一篇关于多模态大模型的最新综述《MM-LLMs:RecentA
2018-04-19 Vivian匀小咩
即使你现在哭得像个懦夫，也依然要自己擦干眼泪，一步一步往前走。要知道，你的眼泪对于其他人来说，一文不值……
从单体到微服务：FastAPI ‘挂载’子应用程序的转变黑金IT fastapi 微服务 fastapi 架构
在现代Web应用开发中，模块化架构是一种常见的设计模式，它有助于将大型应用程序分解为更小、更易于管理的部分。FastAPI，作为一个高性能的PythonWeb框架，提供了强大的支持来实现这种模块化设计。通过“挂载”子应用程序，我们可以为不同的功能区域（如前端接口、管理员接口和用户中心）创建独立的应用程序，并将它们整合到一个主应用程序中。本文将详细介绍如何在FastAPI中使用“挂载”子应用程序的方
利用frp实现内网穿透（需要云主机） heiyumiao 网络工具 github windows linux
详细实现教程：https://www.iplaysoft.com/frp.htmlhttps://blog.csdn.net/u013144287/article/details/78589643/项目官网地址：https://github.com/fatedier/frp/releases按照系统下载相应的程序包什么是frp内网穿透工具有很多，其中Frp(FastReverseProxy)是比较
梦幻西游：老王最辉煌时刻！4500块买个宝宝，一本书下去卖3万？变态手游
其实很多时候，我们不得不去承认，梦幻西游这就是一个玩几率的游戏。当然了，这尤其体现在你在给召唤兽打书的时候，就比如原本是个须弥宠，能值很多钱，而你一本大法将须弥拍了下去，好吧，一文不值。而当然了，其实咱们接下来要说的就是，一次很成功的几率游戏。这要怎么说呢？那就是老王在直播的时候，直接就是花了4500人民币买了这样的一只召唤兽，接下来不妨给各位一起欣赏下，那就是一只带有死亡召唤与法术防御的幽灵。感
Three.js AnimationUtils 和 AnimationObjectGroup 灵魂清零 three 前端 web3 javascript
AnimationObjectGroup接收共享动画状态的一组对象。在使用手册的“下一步”章节中，“动画系统”一文对three.js动画系统中的不同元素作出了概述用法:将本来要作为根对象传入构造器或者动画混合器(AnimationMixer)的clipAction方法中的对象加入组中，并将这个组对象作为根对象传递。注意，这个类的实例作为混合器中的一个对象，因此，必须对组内的单个对象做缓存控制。限制
科普阅读两不误，这才是儿童科普阅读的正确打开方式麦麦安
"孩子数学不好，根源在于语文没学好"，这一观点已经被越来越多的老师和家长接受。虽然阅读理解力看上去只和语文有关，事实上，它是所有学科的根基。比如一道数学应用题，只有正确地看懂了各种条件，才能把答案快速地解出来。在美国的小学教育体系中，很重要的一项任务是帮助儿童进行大量阅读，从而培养出理解及思考的能力。这种说法虽然正确，但很多孩子也会存在这样一个问题：绘本故事类的阅读量不小，看小说听故事几乎可以独立
用了这么多年的PCA可视化竟然是错的！！！生信宝典
本文启发于上周开的单细胞转录组课程，本次课程由资深单细胞算法研究者戴老师主讲，深入浅出，各部分分析原理从理论到应用层面解释透彻，最新流程，最新代码，绝对值得学习。课程尚未结束，我就迫不及待向一位未能安排出时间参加此课程的老友及时安利了视频课。言归正传，介绍培训课程的一张幻灯片：很多PCA可视化结果都是不合适的。PCA或PCoA是常用的降维工具，之前有几篇文章介绍PCA的原理和可视化。一文看懂PCA
FastCGI结合docker下的Nginx执行shell脚本南波波 nginx docker
1使用docker下载Nginx下面展示一些内联代码片。a.#dockerpullnginx#dockerrun--namerunoob-php-nginx-p8088:80-d\-v~/nginx/www:/usr/share/nginx/html:ro\-v~/nginx/conf/conf.d:/etc/nginx/conf.d:ro\nginxb.在~/nginx/conf/conf.d创
“ 中国天眼”一个值得来的地方！小杰带你游
乘着这个暑假，我带着孩子一起去平塘看天眼！平塘天眼，它是世界上最大单口径射电望远镜-500米口径球面射电望远镜FAST，它是中国探索宇宙奥秘的一只大眼睛，相当于30个足球场大小。它的外形就像在大山深处的腹地中间放了一口巨大的锅，周围一座座青山环抱着。我从贵阳开车大约150公里左右，2个小时就到达了！图片发自App图片发自App图片发自App我们先去大厅购票，天眼是不收门票的，但需要购买进山的摆渡车
ResNet的半监督和半弱监督模型 Valar_Morghulis
Billion-scalesemi-supervisedlearningforimageclassificationhttps://arxiv.org/pdf/1905.00546.pdfhttps://github.com/facebookresearch/semi-supervised-ImageNet1K-models/权重在timm中也有：https://hub.fastgit.org/r
一文搞懂应用架构的3个核心概念公众号-架构师汤师爷后端架构设计 Java SaaS
如果你是一名业务开发，你可能要说，我整天就是做CRUD（增删改查），哪里需要了解什么应用架构设计？经常有人说，程序员35岁之后很容易陷入瓶颈，被行业淘汰，我觉得原因其实就在此。有些朋友在写代码的时候，可能没有太多考虑非功能性的需求、扩展性，只是完成功能，觉得能用就好。做事情的时候，也没有长远的规划，只是把眼前的事情做好就满足了。我面试过很多大龄候选人，他们的简历长达十几页，项目经历有几十个。然而，
2022年技术胖私藏工具分享 300+编程实用工具 wudongyu
2022年技术胖私藏工具分享300+编程实用工具Javascript工具Underscore.js一套完善的函数式编程的接口，更方便地在JavaScript中实现函数式编程https://underscorejs.org/fastclick用于消除物理点击和click移动浏览器上事件触发之间的300毫秒延迟https://github.com/ftlabs/fastclickLodash一致性、模
【提示词】浅谈GPT等大模型中的Prompt 有梦想的程序星空深入浅出讲解自然语言处理 gpt prompt 人工智能自然语言处理
Prompt是人工智能（AI）提示词，是一种利用自然语言来指导或激发人工智能模型完成特定任务的方法。在AI语境中，Prompt是一种自然语言输入，通常指的是向模型提出的一个请求或问题，这个请求或问题的形式和内容会影响模型的输出。Promptengineering（提示工程）是一种技术，用于设计和优化用于训练AI模型的Prompt。Prompt技术的基本思想是：通过给模型提供一个或多个提示词或短语，
云南印象一玉龙雪山把日子过成诗吧
一顿饱眠后，兴冲冲前往玉龙雪山，为了预防高反，提前数日已服红景天，又买了氧气瓶，心理上安心多了。第一站，观看印象丽江，满满的男子汉气息扑面而来，谁说现在的男人越来越娘，这里的男子个个演的豪情万丈，满足了女性视觉感受。节目是否精彩，因人而异，看懂了等于了解了少数民族的风土人情，看不懂就是一帮群众演员在闹腾。这种表演风格，场面壮观，红色情怀，老谋子的最爱，不深评。图片发自App表演毕，前往玉龙雪山，人
一文读懂ZGC w_rcss 垃圾回收 JVM ZGC 垃圾回收器 gc jvm G1
ZGC（TheZGarbageCollector）前言ZGC是G1后新推出的垃圾回收器，jdk11仅支持linux，jdk14增加了对windows，macOS的支持。本文将通过对比G1来简单介绍ZGC。什么是ZGC？ZGC（TheZGarbageCollector）是标记-整理算法的并发垃圾回收器，官方解释ZGC只是个名字，没有意义。//开启ZGC-XX:+UnlockExperimentalV
夜色匆忙，暮暮是你一诗一文
一诗一文每一天的原创诗歌和梦想，不要再和我擦肩而过得有那么一件事，你热爱，你坚持，你的人生有奔头，生活因此而紧凑。当趣味塞满你生活的角落，你也无暇去孤独。所以，如果可以，不妨寻找一件事，丰沛生命，把自己还给自己。——叶萱《南街廊桥》文/苏州姚群这是江南小镇的廊桥边，斜阳照在桥边斑驳的老墙上，木廊顶上覆盖着黛青小瓦，我看见三三两两的游人，肩膀抖落着几分疏离和淡漠。-身在南街，不起眼的廊桥，破旧衰败仿
一文理解 Python 中的环境变量简讯Alfred 和我一起零基础学 Python 简明python教程零基础学python python 环境变量
你好，我是简讯！一枚野生程序员。热爱编程，但目前的工作与编程毫无关系。正在尝试各种副业，目前有做：红包封面商城：如何利用红包封面打造副业购物平台赚取佣金：利用淘宝京东等平台优惠券赚取佣金编辑器使用Neovim多一点，如果你也喜欢使用Nvim，我们可以一起交流。我的Nvim配置：https://github.com/alpha87/nvim。个人公众号经常会分享一些编程相关的文章，还有一些我已经操作
一文说清GO环境变量-GO111MODULE、GOROOT、GOPATH、GOBIN、GOPRIVATE kkmoreTech golang golang 开发语言后端
文章目录Go的开发模式-GO111MODULE从GOPATH开发模式到gomodule开发模式Go程序安装路径-GOROOTGo工作区-存放第三方包代码GOPATHGo可执行程序-引用包路径GOBIN第三方私有包下载路径-GORIVATEGO环境变量的设置参考资料搭建环境：macOS（linux系统类似）goversion:1.16Go的开发模式-GO111MODULE介绍GO环境变量之前，必须先
老王出品：一文读懂证券业第三方存管和证券托管模式 webhaifeng 券商
文章来源：https://zhuanlan.zhihu.com/p/65443891开过证券账户的读者一定都听说过存管银行，在证券开户时就必须绑定一家存管银行作为资金出入账户。各位有所不知的是，这个存管银行在证券业还有个更重要的作用：监督投资者资金在券商的封闭运行。这么说，大家可能不太理解，不要急，老王这就带大家一起读懂证券业。本文目录：几个基础概念介绍证券托管模式介绍“第三方存管”模式证券业发展
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后