Iron_lyk

HRNet论文笔记及代码详解

《Deep High-Resolution Representation Learning for Visual Recognition》

0. 前置知识
- 1）图像语义信息理解
- 2）特征金字塔网络（Feature Pyramid Networks，FPN）
- 3）图像插值算法
- 4）Bottleneck 与 Basicblock
1. 摘要(Abstract)
2. 动机（Motivation）
3. 网络结构(Network Architecture)
- 1）多分辨率平行支流架构设计( Parallel Multi-Resolution Convolution)
- 2）融合模块(FuseLayer)
- 3）过渡层（TransitionLayer）
- 4）表征头设计（Representation Head）
- 5）源码解析
参考目录

paper: Arxiv 、CVPR2019、TPAMI2020
code: 项目主页、Human-Pose-Estimation、Face-Alignment、Image-Classification、Semantic-Segmentation、Object-Detection
Author: 中科大、微软亚研院

0. 前置知识

1）图像语义信息理解

在计算机视觉领域中，一张图像的语义信息通俗的理解就是该图像中包含的人类能定义的一些特征，比如该图像的纹理，颜色，以及图像中目标的眼睛、鼻子、类别、性别，和这张图片想要表达的意思是什么等等。另外，语义信息也有高低之分，更强的语义信息即包含了图片中更多的语义，有人按照其强度的大小将其分为视觉层、对象层和概念层[1]。

视觉层指一张图片中包含的底层语义特征，包含轮廓、边缘、颜色、纹理和形状等特征。如果使用CNN对图像的语义特征进行提取，从CNN各层输出的角度来看的话，底层语义特征就是靠近输入的 （浅层）卷积层提取的feature map 。这类特征分辨率较高，包含更多的位置、细节信息，但是由于经过的卷积较少，提取的feature map中语义信息较少，噪声较多。
对象层即中间层，通常包含了属性特征等，就是某一对象在某一时刻的状态；
概念层即图片中的高层语义特征， 是图像表达出的最接近人类理解的东西。高层语义特征即靠近输出的 （深层）卷积层提取的feature map 。由于随着卷积层的不断增加，feature map映射到原图中的感受野逐渐增大，提取的特征越来越抽象，因此这类特征包含的语义信息更加丰富，分辨率较低，但同时对局部的位置、细节信息感受相对也就更差。

有一个更加通俗的例子，假如一张图上有沙子，蓝天，海水等，视觉层是一块块的区分，对象层是沙子、蓝天和海水这些，概念层就是海滩，这是这张图表现出的语义。

总的来讲，底层语义特征和高层语义特征各有各的用处。比如在关键点检测、目标检测、分割等对位置信息较敏感的视觉任务中，底层语义特征更为重要；在物体分类、人脸识别、情绪识别等对位置信息不敏感但需要较大的感受野和更抽象特征的任务中，高层语义特征更为重要。

2）特征金字塔网络（Feature Pyramid Networks，FPN）

FPN主要是为了在增加极小计算量的情况下，处理好目标检测中多尺度变化的问题（尤其是对于小目标检测）。为了进行目标检测，很多网络都是利用多层卷积+下采样操作来提取图片中的强语义信息[2]，然后利用单个高层特征进行检测。但是这样有一个缺陷，即小物体本身具有的像素信息较少，在下采样中极易丢失，并且高层特征的位置信息也很少。针对这个问题，经典的方法有以下几种：

基于图像金字塔的特征金字塔。 先构造图像金字塔，然后将这些图像输入至神经网络中提取特征，然后在每一个feature map上做预测，最后综合所有预测计算结果。这种优点是能够产生多尺度的强语义的特征表示，但缺点也很明显，推理速度慢，占用内存巨大等。
利用单个高层特征做预测。这种方法常见于目前的目标检测网络中，比如Faster R-CNN中，使用神经网络最后一层的feature map来进行预测。这种高层特征具有强语义信息，但是相应的位置信息是很少的。
特征金字塔。使用不同层级的特征（feature map）进行预测，然后对所有的预测进行融合，比如SSD中采用的就是这种多尺度融合的方法。但是这种方法的缺陷就是底层特征图的语义信息不强，并且分辨率也不够高。比如在SSD中为了避免使用低层特征图，是从网络的高层开始构建金字塔（例如，VGG网络的Conv4之后，再添加几个新的卷积层），因此，SSD并没有使用具有高分辨的底层特征图，即没有充分利用到低层特征图中的空间信息(这些信息对小物体的检测十分重要)。

针对以上问题，文章《Feature Pyramid Networks for Object Detection》提出了FPN网络，使得能够在增加较少计算量的前提下，融合低分辨率（空间信息少）但语义信息较强的特征图和高分辨率（空间信息丰富）但语义信息较弱的特征图。FPN的思想就是把高层的特征传下来，补充低层的语义，这样就可以获得高分辨率、强语义的特征，有利于小目标的检测。网络结构示意图如下，输入一张图片，首先经历左边的resnet结构（自底向上）不断提取特征，然后针对最高层的特征，再经历右边结构（自顶向下）传下来，每向下传一层就是经历一次上采样来增大一次分辨率。在向下传递的过程中还有一个横向连接操作，即使左侧与上采样后分辨率相同的特征图进行一次1x1卷积来对齐通道数，再将二者相加在一起（融合），这时就得到了下一层的结果。横向连接的目的主要是为了融合进低层特征中的定位细节信息。最后对右边结构中的每一层特征图做预测，然后融合预测的结果，即得到最终输出。

3）图像插值算法

插值 (Interpolation)，通常指内插，既是离散数学名词，也是图像处理术语（图像插值也可称为上采样（upsampling）），二者的联系十分密切。作为图像放缩 (Scale) 的方法，常见的插值方法有：最近邻插值 (Nearest Neighbour Interpolation)、线性插值(Linear Interpolation)、双线性插值 (Bilinear Interpolation)、双三次插值 (Bicubic interpolation) 等乃至更高阶插值。插值的本质是利用已知数据估计未知位置数值，类似于拟合问题，二者均为函数逼近或数值逼近的重要组成部分。但不同之处在于，对于给定的函数，插值要求离散点“坐落在”函数曲线上从而满足约束；而拟合则希望离散点尽可能地“逼近”函数曲线。
推荐一篇博客：https://www.codenong.com/cs105796249/

上采样的目的是为了放大图像，除了内插值的方法外，也可以通过反卷积（通过转置卷积核的方法来实现卷积的逆过程）、反池化（在池化过程，比如max-pooling时，要记录下每个元素对应kernel中的坐标。反池化时即将每一个元素根据坐标填写，其余位置补0.）的方法实现。

4）Bottleneck 与 Basicblock

Bottleneck最先出现于2014年的GooggleNet中，它的主要目的是进行特征的降维，从而减少计算量。为什么称之为Bottleneck（瓶颈层），有种解释是它长得像一个瓶颈，示意图如下。

Bottleneck本质上是一种将信息压缩再放大的神经网络结构，直观讲就是将输入降维之后再升维。为什么要这样做呢？主要有两点原因。

为了进行信息的损失。可能有人会疑惑，难道对于模型而言不是信息越多越好吗，但其实答案并不是的。在AI领域中，输入至网络的是一张图像或一段音频，它们本质上都是信号，为了能够保证包含所需信息，在采样时的范围都会很广。比如图像有三个通道，但人脸识别只需一个通道，声音包括高中低频，但支部宝声纹支付只需要高频，其他剩余的信息在这些任务中都属于是噪声（但如果换种任务的话，比如说饮料种类识别，剩余的两个通道（剩余信息）就又变得有用了，不再属于噪声）。因此一张图片中包含的信息多种多样，对我们任务有用的只占部分，也就是说数据中有用的信息只占少数，绝大多数都属于是冗余的噪声，无用信息的损失是必要的。因此通过Bottelneck这种降维之后再升维的网络，可以对实现对无用的信息进行损失。
为了精简网络规模，减少参数量。经典的案例就是ResNet50、ResNet101、ResNet152这些深层网络中使用的Bottleneck结构。它相较于ResNet-34中的Basicblock模块，最核心的就是使用了1×1卷积层。如输入通道数为256，1×1卷积层会将通道数先降为64，经过3×3卷积层后，再将通道数升为256。1×1卷积层的优势是在更深的网络中，用较小的参数量处理通道数很大的输入。

Basicblock一般指的是ResNet中的Basicblock模块。下图左边是Basicblock模块，右边是Bottleneck模块。Basicblock包含了两个3 x 3卷积层和一个残差连接，这种模块在ResNet18, ResNet34中被使用，但是当网络的层数变得更深时，其参数量变得很大，对算力的要求变得较高，也就促使了Bottleneck的出现，被应用于ResNet50、ResNet101、ResNet152这些深层网络中。

1. 摘要(Abstract)

高分辨率表征对于像人体姿态估计、语义分割、目标检测等对位置信息敏感的视觉任务极其重要。现有的SOTA框架（比如ResNet、VGGNet）首先通过串联的高分辨率卷积至低分辨率卷积子网络将输入的图像编码为低分辨率表征，然后从已编码的低分辨率表征中回复高分辨率表征。与此相反，本文提出的High-Resolution Network (HRNet), 在整个过程中都保持高分辨率的表征。它有两个重要特点：1）并行连接高低分辨率的卷积流分支；2）不断进行不同分支间的信息交互。通过这两个特点，HRNet同时达到了强语义信息和精准位置信息的目的。本文也展示了HRNet在人体姿态估计、语义分割、目标检测等多种任务中具有强大的优势。

2. 动机（Motivation）

深度卷积神经网络（DCNNs）之所以在众多计算机视觉任务中取得卓越效果，是因为它能学习到相较于传统手工特征更加丰富的表征。最近的分类网络像AlexNet、VGGNet、GoogleNet、ResNet、DenseNet等都遵循了LeNet-5的设计准则，就是如下图（a）所示，逐渐减小特征图的空间大小，将卷积层从高分辨率到低分辨率串联起来，然后产生低分辨率的表征（通过下采样得到）进一步用于分类。

下图是依赖于高到低、低到高分辨率的几个代表性的姿态估计网络。(a)Hourglass;（b)Cascaded pyramid networks; © SimpleBaseline; (d) Combination with dilated convolutions; 在Hourglass、级联金字塔网络中，高到低与低到高过程中同样分辨率的层进行跳跃连接，目的是融合低级和高级的特征。在级联金字塔网络中，通过卷积操作来融合低级和高级特征。

对位置敏感的视觉任务，如语义分割、人体姿态估计和目标检测等，高分辨率表征是重要的。先前的SOTA方法采用的是高分辨率恢复方法来获取高分辨率表征，即像上图（b）所示从分类网络中的低分辨率表征中提高表征的分辨率（一般使用上采样），比如Seg-Net，DeconvNet，U-Net，SimpleBaseline和encoder-decoder等。也有一些网络（DeepLab，PSPNet）使用膨胀卷积来去除一些下采样层从而得到中等分辨率的表征。

本文提出了一个名为HRNet的架构，它能够在整个过程中保持高分辨率的表征。该网络从一个高分辨率的卷积流开始，逐步逐个添加高到低分辨率的卷积流，并且并行连接这些多分辨率的卷积流。最终的网络包含n个阶段，第n个阶段包含n个卷积流，也就对应了n个类别的分辨率。然后作者在这些并行流之间不断地交互信息来进行分辨率融合的操作。

因此HRNet学习到的高分辨率特征不仅具有强语义还具有精准的空间信息。作者称这来自于两个方面：1）HRNet的方法是将高分辨率与低分辨率卷积流并行连接，而不是像以往一样串联连接。因此能够保持高分辨率，而不是从低分辨率中恢复高分辨率，从而使学习到的表征在空间上更精确。2）现今大多数融合策略来聚合高分辨率的低级、高级表征是通过对低分辨率表征进行上采样得到的。但相反，HRNet是在每个阶段都进行高低分辨率融合来互相增强高分辨率、低分辨率的表征。因此在每个阶段的高、低分辨率表征都是具有强语义的。

对于作者的这两点贡献，最有新意的是第一点，就是将不同分辨率的卷积流并行化，然后不同分辨率分支的表征进行信息交互，从而达到了从头到尾都是具有强语义的高分辨率表征。第二点信息交互其实很多网络都已实现过。

本文共推出了两个版本的网络：HRNet-V1、HRNet-V2。HRNet-V1只将高分辨率卷积流计算的高分辨率表征输出，在COCO人体姿态估计任务上的表现优于HRNet-V2。HRNet-V2将所有从高到底分辨率分支计算的表征结合之后作为输出，在语义分割任务上优于HRNet-V1。此外，作者还从HRNet-V2的高分辨率表征中构建了一个多级别表征，应将它应用于SOTA目标检测框架（Faster R-CNN, Cascade R-CNN, FCOS, CenterNet等）、SOTA联合目标检测和实例分割框架（Mask R-CNN, Cascade Mask R-CNN, Hybride Task Cascade等）。最后结果显示该方法提高了检测性能，特别是对小物体的性能显著提高。

3. 网络结构(Network Architecture)

1）多分辨率平行支流架构设计( Parallel Multi-Resolution Convolution)

下图是HRNet的整体架构，水平和垂直方向分别代表了网络的深度和feature map的尺度。整个网络由四个阶段的子网络组成，每个阶段都比上一个阶段新增一条支流，新增的支流比上层的支流分辨率减半，但通道数增加一倍。
在第一个阶段只有一条卷积流，分辨率为最高，进入下一阶段后新增一条更低分辨率支流，并将他们平行化。下图是架构示意图，第一个下标表示第几阶段，第二个阶段表示第几种分辨率，第r种分辨率的大小是1/2(r-1)倍的初始分辨率。

在项目主页作者给出的预训练模型中的有两种：HRNet-W32和HRNet-W48。32和48表示最高分辨率的这条支流在最后三个阶段的通道数分别是32和48。其他三条平行支流的通道数分别是（64，128，256）和（96，192，384）。每新增一条平行直流，分辨率减半，通道数增加一倍。

2）融合模块(FuseLayer)

融合模块的目的是每个阶段的每条支流的输出都能从其他并行支流的输出中接收信息。以3个表征的融合模块为例，如下图所示，输入是三个表征：

输出也是3个表征：

r是第i个表征，i表示输入，o表示输出。每个输出的表征都是3个输入表征经过变换后再相加起来的结果，计算公式为

其中f_xr(·)是转换函数，第一个下标x对应第x个输入，第二个下标r对应第r个输出。当x=r时，也就是下图中黑色框的情况 ，对表征不做任何转换，f_xr( R)=R。当x，f_xr( R)表示使R经过（r-s）个步长为2的3x3卷积层，来达到降采样的目的。当x>r时，也就是下图中蓝色框中的情况，f_xr( R)表示使R先经过一个双线性上采样使分辨率增加，然后再通过一个1x1的卷积层来对齐通道数。

代码如下

def _make_fuse_layers(self): fuse_layers = [] for post_index, out_channel in enumerate(self.out_channels[:len(self.in_channels)]): fuse_layer = [] for pre_index, in_channel in enumerate(self.in_channels): if pre_index > post_index: fuse_layer.append(nn.Sequential( nn.Conv2d(in_channel, out_channel, 1, 1, 0, bias=False), nn.BatchNorm2d(out_channel, momentum=0.1), nn.Upsample(scale_factor=2**(pre_index-post_index), mode='nearest'))) elif pre_index < post_index: conv3x3s = [] for cur_index in range(post_index - pre_index): out_channels_conv3x3 = out_channel if cur_index == post_index - pre_index - 1 else in_channel conv3x3 = nn.Sequential( nn.Conv2d(in_channel, out_channels_conv3x3, 3, 2, 1, bias=False), nn.BatchNorm2d(out_channels_conv3x3, momentum=0.1) ) if cur_index < post_index - pre_index - 1: conv3x3.add_module('relu_{}'.format(cur_index), nn.ReLU(False)) conv3x3s.append(conv3x3) fuse_layer.append(nn.Sequential(*conv3x3s)) else: fuse_layer.append(None) fuse_layers.append(nn.ModuleList(fuse_layer)) return nn.ModuleList(fuse_layers) def forward(self, x): x_fuse = [] for post_index in range(len(self.fuse_layers)): y = 0 for pre_index in range(len(self.fuse_layers)): if post_index == pre_index: y += x[pre_index] else: y += self.fuse_layers[post_index][pre_index](x[pre_index]) x_fuse.append(self.relu(y))

3）过渡层（TransitionLayer）

TransitionLayer是通过一个步长为2的3x3卷积层（两倍下采样）来生成一个分辨率减半的feature map，以当作下个阶段新增加支流的输出，在源码中它的位置位于fuselayer之后。并且不同于原文中将上个阶段所有支流的输出进行下采样之后相加，源码中只对上个阶段最低分辨率支流的输出进行下采样，得到feature map。源码如下。

def _make_transition_layer( self, num_channels_pre_layer, num_channels_cur_layer): # 以self.transition1为例，num_channels_pre_layer=[256], num_channels_cur_layer=[18,36] num_branches_cur = len(num_channels_cur_layer) # 过渡后阶段包含的branch数 num_branches_pre = len(num_channels_pre_layer) # 过渡前阶段包含的branch数 transition_layers = [] for i in range(num_branches_cur): # 对后一个阶段每一个branch进行遍历 if i < num_branches_pre: # 后一阶段branch索引小于前一阶段branch索引时 if num_channels_cur_layer[i] != num_channels_pre_layer[i]: # 过渡后该branch通道与过渡前该branch通道不一致时， # 则增加一个卷积层将通道数从256降维至18，同时stride=1不改变尺寸。 transition_layers.append(nn.Sequential( nn.Conv2d(num_channels_pre_layer[i], num_channels_cur_layer[i], 3, 1, 1, bias=False), BatchNorm2d( num_channels_cur_layer[i], momentum=BN_MOMENTUM), nn.ReLU(inplace=True))) else: transition_layers.append(None) else: # 后一阶段branch索引大于等于前一阶段branch索引时 conv3x3s = [] for j in range(i + 1 - num_branches_pre): inchannels = num_channels_pre_layer[-1] # 当两者是一个branch时，输出与输入维度相同，都为前一个阶段的最后branch输出的维度 # 否则输出维度为后一阶段当前branch的维度 outchannels = num_channels_cur_layer[i] \ if j == i - num_branches_pre else inchannels # 步长为2，下采样，尺寸缩小两倍 conv3x3s.append(nn.Sequential( nn.Conv2d( inchannels, outchannels, 3, 2, 1, bias=False), BatchNorm2d(outchannels, momentum=BN_MOMENTUM), nn.ReLU(inplace=True))) transition_layers.append(nn.Sequential(*conv3x3s)) return nn.ModuleList(transition_layers) def forward(self, x): x_trans = [] for branch_index, transition_layer in enumerate(self.transition_layers): if branch_index < len(self.transition_layers) - 1: if transition_layer: x_trans.append(transition_layer(x[branch_index])) else: x_trans.append(x[branch_index]) else: x_trans.append(transition_layer(x[-1]))

4）表征头设计（Representation Head）

在TPAMI2020版本的文章中，作者在原有的基础上进行了改进，加上初始版本，共有三种表征头以用于不同的任务。可视化图如下所示。V1版本的输出只来自于最高分辨率卷积流的输出，适用于人体姿态估计任务。V2版本的输出， 首先将3个低分辨率支流的输出通过双线性插值放大到最大分辨率的尺度，注意此时没有使用卷积层，因此各个表征的通道数不变，然后将他们拼接在一起之后，再经过一个1x1的卷积层混合四种表征，然后输出，这个版本 适用于语义分割任务。V2p版本的输出是对V2输出的改进，它对V2的输出进行了多层降采样来构建多级别的输出，这个版本的输出适用于目标检测任务。

5）源码解析

对于输入的一张图片，在网络的头部首先是一个stem net，用于将输入的image(尺寸为256)简要处理成尺寸为C(64)特征图，在此之后的四个阶段，每个阶段的最高分辨率branch都保持C尺寸。第一个阶段的网络包含了四个残差单元，每个单元用的是Bottelneck。第2-4个阶段的子网络分别用了1，4，3个模块化的HR模块，在2-4阶段的每一个模块化的HR模块均由4个Basicblock构成。这个HR模块是源码中的核心代码，相当于是一个已经模块化好的类，重复调用即可用于搭建第2-4阶段的子网络。

Bottelneck和Basicblock代码如下，跟Resnet中的代码一样。

class BasicBlock(nn.Module): expansion = 1 def __init__(self, inplanes, planes, stride=1, downsample=None): super(BasicBlock, self).__init__() self.conv1 = conv3x3(inplanes, planes, stride) self.bn1 = BatchNorm2d(planes, momentum=BN_MOMENTUM) self.relu = nn.ReLU(inplace=True) self.conv2 = conv3x3(planes, planes) self.bn2 = BatchNorm2d(planes, momentum=BN_MOMENTUM) self.downsample = downsample self.stride = stride def forward(self, x): residual = x out = self.conv1(x) out = self.bn1(out) out = self.relu(out) out = self.conv2(out) out = self.bn2(out) if self.downsample is not None: residual = self.downsample(x) out += residual out = self.relu(out) return out class Bottleneck(nn.Module): expansion = 4 def __init__(self, inplanes, planes, stride=1, downsample=None): super(Bottleneck, self).__init__() self.conv1 = nn.Conv2d(inplanes, planes, kernel_size=1, bias=False) self.bn1 = BatchNorm2d(planes, momentum=BN_MOMENTUM) self.conv2 = nn.Conv2d(planes, planes, kernel_size=3, stride=stride, padding=1, bias=False) self.bn2 = BatchNorm2d(planes, momentum=BN_MOMENTUM) self.conv3 = nn.Conv2d(planes, planes * self.expansion, kernel_size=1, bias=False) self.bn3 = BatchNorm2d(planes * self.expansion, momentum=BN_MOMENTUM) self.relu = nn.ReLU(inplace=True) self.downsample = downsample self.stride = stride def forward(self, x): residual = x out = self.conv1(x) out = self.bn1(out) out = self.relu(out) out = self.conv2(out) out = self.bn2(out) out = self.relu(out) out = self.conv3(out) out = self.bn3(out) if self.downsample is not None: residual = self.downsample(x) out += residual out = self.relu(out) return out

以用于人脸关键点检测的HRNet版本为例，核心代码如下。

class HighResolutionNet(nn.Module): def __init__(self, config, **kwargs): self.inplanes = 64 extra = config.MODEL.EXTRA super(HighResolutionNet, self).__init__() # stem net 在网络的头部，用于将输入的image(尺寸为256)简要处理成尺寸为C(64)特征图。 # 在此之后的四个阶段，每个阶段的最高分辨率branch都保持C尺寸。 self.conv1 = nn.Conv2d(3, 64, kernel_size=3, stride=2, padding=1, bias=False) self.bn1 = BatchNorm2d(64, momentum=BN_MOMENTUM) self.conv2 = nn.Conv2d(64, 64, kernel_size=3, stride=2, padding=1, bias=False) self.bn2 = BatchNorm2d(64, momentum=BN_MOMENTUM) self.relu = nn.ReLU(inplace=True) self.sf = nn.Softmax(dim=1) self.layer1 = self._make_layer(Bottleneck, 64, 64, 4) # 使用Bottleneck搭建第一阶段 self.stage2_cfg = extra['STAGE2'] num_channels = self.stage2_cfg['NUM_CHANNELS'] # [18,36] block = blocks_dict[self.stage2_cfg['BLOCK']] # "BASIC" , 此时使用BasicBlock模块搭建剩余3个阶段 num_channels = [ num_channels[i] * block.expansion for i in range(len(num_channels))] # Basicblock.expansion = 1 self.transition1 = self._make_transition_layer( [256], num_channels) self.stage2, pre_stage_channels = self._make_stage( self.stage2_cfg, num_channels) self.stage3_cfg = extra['STAGE3'] num_channels = self.stage3_cfg['NUM_CHANNELS'] block = blocks_dict[self.stage3_cfg['BLOCK']] num_channels = [ num_channels[i] * block.expansion for i in range(len(num_channels))] self.transition2 = self._make_transition_layer( pre_stage_channels, num_channels) self.stage3, pre_stage_channels = self._make_stage( self.stage3_cfg, num_channels) self.stage4_cfg = extra['STAGE4'] num_channels = self.stage4_cfg['NUM_CHANNELS'] block = blocks_dict[self.stage4_cfg['BLOCK']] num_channels = [ num_channels[i] * block.expansion for i in range(len(num_channels))] self.transition3 = self._make_transition_layer( pre_stage_channels, num_channels) self.stage4, pre_stage_channels = self._make_stage( self.stage4_cfg, num_channels, multi_scale_output=True) final_inp_channels = sum(pre_stage_channels) self.head = nn.Sequential( nn.Conv2d( in_channels=final_inp_channels, out_channels=final_inp_channels, kernel_size=1, stride=1, padding=1 if extra.FINAL_CONV_KERNEL == 3 else 0), BatchNorm2d(final_inp_channels, momentum=BN_MOMENTUM), nn.ReLU(inplace=True), nn.Conv2d( in_channels=final_inp_channels, out_channels=config.MODEL.NUM_JOINTS, kernel_size=extra.FINAL_CONV_KERNEL, stride=1, padding=1 if extra.FINAL_CONV_KERNEL == 3 else 0) ) def _make_transition_layer( self, num_channels_pre_layer, num_channels_cur_layer): # 以self.transition1为例，num_channels_pre_layer=[256], num_channels_cur_layer=[18,36] num_branches_cur = len(num_channels_cur_layer) # 过渡后阶段包含的branch数 num_branches_pre = len(num_channels_pre_layer) # 过渡前阶段包含的branch数 transition_layers = [] for i in range(num_branches_cur): # 对后一个阶段每一个branch进行遍历 if i < num_branches_pre: # 后一阶段branch索引小于前一阶段branch索引时 if num_channels_cur_layer[i] != num_channels_pre_layer[i]: # 过渡后该branch通道与过渡前该branch通道不一致时， # 则增加一个卷积层将通道数从256降维至18，同时stride=1不改变尺寸。 transition_layers.append(nn.Sequential( nn.Conv2d(num_channels_pre_layer[i], num_channels_cur_layer[i], 3, 1, 1, bias=False), BatchNorm2d( num_channels_cur_layer[i], momentum=BN_MOMENTUM), nn.ReLU(inplace=True))) else: transition_layers.append(None) else: # 后一阶段branch索引大于等于前一阶段branch索引时 conv3x3s = [] for j in range(i + 1 - num_branches_pre): inchannels = num_channels_pre_layer[-1] # 当两者是一个branch时，输出与输入维度相同，都为前一个阶段的最后branch输出的维度 # 否则输出维度为后一阶段当前branch的维度 outchannels = num_channels_cur_layer[i] \ if j == i - num_branches_pre else inchannels # 步长为2，下采样，尺寸缩小两倍 conv3x3s.append(nn.Sequential( nn.Conv2d( inchannels, outchannels, 3, 2, 1, bias=False), BatchNorm2d(outchannels, momentum=BN_MOMENTUM), nn.ReLU(inplace=True))) transition_layers.append(nn.Sequential(*conv3x3s)) return nn.ModuleList(transition_layers) def _make_layer(self, block, inplanes, planes, blocks, stride=1): # 该函数也是ResNet中对bottleneck模块使用的代码 # inplanes是输入特征图的维度，输出特征图的维度是planes * block.expansion # block.expansion是bottleneck的类属性，此处定义为4，表示通过卷积层扩展特征维度的倍数。 # 当输入输出的维度不一致时，shortcut存在，也就是downsample，内部的操作是一个卷积层加一个BN，目的是增加特征维度以用于残差连接 downsample = None if stride != 1 or inplanes != planes * block.expansion: downsample = nn.Sequential( nn.Conv2d(inplanes, planes * block.expansion, kernel_size=1, stride=stride, bias=False), BatchNorm2d(planes * block.expansion, momentum=BN_MOMENTUM), ) layers = [] layers.append(block(inplanes, planes, stride, downsample)) # 第一个unit输入输出维度不同(输入64维，输出256维)，有shotcut inplanes = planes * block.expansion for i in range(1, blocks): layers.append(block(inplanes, planes)) # 第2-4个unit输入输出维度相同(输入256维，输出256维)，无shotcut return nn.Sequential(*layers) def _make_stage(self, layer_config, num_inchannels, multi_scale_output=True): # num_modules表示该阶段使用了多少个模块化的HR模块，第2，3，4阶段的num_modules分别是1，4，3 # 第2，3，4阶段的每一个模块化的HR模块均有4个Basicblock构成 num_modules = layer_config['NUM_MODULES'] num_branches = layer_config['NUM_BRANCHES'] num_blocks = layer_config['NUM_BLOCKS'] num_channels = layer_config['NUM_CHANNELS'] block = blocks_dict[layer_config['BLOCK']] fuse_method = layer_config['FUSE_METHOD'] modules = [] for i in range(num_modules): # multi_scale_output is only used last module if not multi_scale_output and i == num_modules - 1: reset_multi_scale_output = False else: reset_multi_scale_output = True modules.append( HighResolutionModule(num_branches, block, num_blocks, num_inchannels, num_channels, fuse_method, reset_multi_scale_output) ) num_inchannels = modules[-1].get_num_inchannels() # 该阶段最后一个module各支流的输入的通道数 return nn.Sequential(*modules), num_inchannels def forward(self, x): # h, w = x.size(2), x.size(3) x = self.conv1(x) x = self.bn1(x) x = self.relu(x) x = self.conv2(x) x = self.bn2(x) x = self.relu(x) # (bs, 64, 64, 64) x = self.layer1(x) # (bs, 64, 64, 256) x_list = [] for i in range(self.stage2_cfg['NUM_BRANCHES']): self.stage2_cfg['NUM_BRANCHES']==2 if self.transition1[i] is not None: x_list.append(self.transition1[i](x)) else: x_list.append(x) y_list = self.stage2(x_list) x_list = [] for i in range(self.stage3_cfg['NUM_BRANCHES']): if self.transition2[i] is not None: x_list.append(self.transition2[i](y_list[-1])) else: x_list.append(y_list[i]) y_list = self.stage3(x_list) x_list = [] for i in range(self.stage4_cfg['NUM_BRANCHES']): if self.transition3[i] is not None: x_list.append(self.transition3[i](y_list[-1])) else: x_list.append(y_list[i]) x = self.stage4(x_list) # Head Part height, width = x[0].size(2), x[0].size(3) # 线性插值之后再拼接在一起，完成强语义且高分辨率的特征提取。 x1 = F.interpolate(x[1], size=(height, width), mode='bilinear', align_corners=False) x2 = F.interpolate(x[2], size=(height, width), mode='bilinear', align_corners=False) x3 = F.interpolate(x[3], size=(height, width), mode='bilinear', align_corners=False) x = torch.cat([x[0], x1, x2, x3], 1) x = self.head(x) # 检测头 return x

参考目录

[1] https://blog.csdn.net/qq_30121457/article/details/108918519
[2] https://zhuanlan.zhihu.com/p/397293649

计算机视觉算法实战——驾驶员玩手机检测（主页有源码）喵了个AI 计算机视觉实战项目计算机视觉算法智能手机
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.领域简介：玩手机检测的重要性与技术挑战驾驶员玩手机检测是智能交通安全领域的核心课题。根据NHTSA数据，美国每年因手机使用导致的交通事故超过3000起，中国公安部的统计显示开车使用手机的事故率是正常驾驶的23倍。该技术通过实时监测驾驶员手部动作和视线方向，识别非法使用手机行为，在以
目标检测中衡量模型速度和精度的指标：FPS和mAP asdfg1258963 目标检测_ai 目标检测人工智能
“FPS”和“mAP”分别衡量了模型的速度和精度。FPS（FramesPerSecond）定义：FPS是“每秒传输帧数”的缩写，用于衡量计算机视觉系统（如目标检测、图像识别等）的实时性能。它表示系统每秒钟能够处理的图像或视频帧的数量。重要性：在实时应用中，如自动驾驶、视频监控等，FPS是一个关键指标。高FPS意味着系统能够快速处理输入的图像数据，实现实时响应。计算方式：FPS可以通过以下公式计算：
CIR-DFENet：结合跨模态图像表示和双流特征增强网络进行活动识别是Dream呀神经网络计算机视觉人工智能神经网络深度学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学业升学和求职工作的先行者！【优惠信息】•新专栏订阅前200名享9.9元优惠•订阅量破200
cv君独家视角 | AI内幕系列七：EfficientViT模型：基于多尺度线性注意力模块，实现高效的高分辨率密集预测 cv君 cv君独家视角 AI内幕系列原创项目级实战项目深度学习与计算机视觉精品 1024程序员节 EfficientViT 高分辨率密集预测任务高分辨率视觉模型 Transformer 人工智能计算机视觉
专题概况cv君独家视角|AI内幕系列是一个专注于人工智能领域的深度专题，旨在为读者揭开AI所有领域技术的神秘面纱，展示其背后的科学原理和实际应用。通过一系列精心策划的文章，我们将带您深入了解AI的各个领域，从计算机视觉到文本语音等多模态领域，从基础理论到前沿技术，从行业应用到未来趋势。无论您是AI领域的工程师或者专家，还是对这一领域充满好奇的读者，这个系列都将为您提供高价值的见解和启发，为您带来横
YOLOv12模型详解及代码复现清风AI 深度学习算法详解及代码复现计算机视觉 YOLO 人工智能机器学习神经网络 python 算法
算法背景在计算机视觉领域不断发展壮大的背景下，YOLOv12算法应运而生。这一突破性成果源自JosephRedmon和AliFarhadi等研究人员在华盛顿大学的开创性工作。他们的目标是解决实时物体检测这一关键问题，在速度和精度之间寻求最佳平衡。YOLOv12延续了前作YOLOv1的成功理念，将其定位为一种回归问题，而非传统的区域提议+分类方法。这种创新方法不仅简化了整个检测过程，还显著提高了处理
深度学习项目--基于DenseNet网络的“乳腺癌图像识别”，准确率90%+，pytorch复现羊小猪~~ 深度学习网络 pytorch 人工智能 python 机器学习分类
本文为365天深度学习训练营中的学习记录博客原作者：K同学啊前言如果说最经典的神经网络，ResNet肯定是一个，从ResNet发布后，很多人做了修改，denseNet网络无疑是最成功的一个，它采用密集型连接，将通道数连接在一起；本文是基于上一篇复现DenseNet121模型，做一个乳腺癌图像识别，效果还行，准确率0.9+;CNN经典网络之“DenseNet”简介，源码研究与复现(pytorch)：
人工智能概念 zhangpeng455547940 计算机人工智能
机器学习、深度学习、大模型机器学习提供框架，使得系统可以从数据中学习算法：线性回归、逻辑回归、支持向量机、决策树、随机森林、K近邻算法深度学习是实现这一目标的工具，模仿人脑，使用多层神经网络进行学习算法：多层感知器、卷积神经网络、循环神经网络、长短期记忆网络大模型指参数量巨大的深度学习模型人工智能应用：自然语言处理、图像识别与生成、语音识别、政务与企业服务...
机器学习(二) 本文(2.5万字) | KNN算法原理及Python复现 | 小酒馆燃着灯机器学习算法 k近邻算法
文章目录一KNN算法原理二KNN三要素三机器学习中标准化四KNN分类预测规则五KNN回归预测规则六KNN算法实现方式七KDTree7.1构造KDtree7.2KDtree查找最近邻八KNN特点九KNN算法实现案例一案例二1.机器学习2.深度学习与目标检测3.YOLOv54.YOLOv5改进5.YOLOv8及其改进6.Python与PyTorch7.工具8.小知识点9.杂记一KNN算法原理K近邻分类
AI大模型推理加速：技术与实践详解 AI大模型学习者人工智能
近年来，AI大模型在自然语言处理、计算机视觉等领域取得了突破性进展。然而，大模型的推理速度却成为其落地应用的瓶颈。本文将详细探讨AI大模型推理加速的技术手段和实践经验，并结合具体案例进行分析。一、挑战与机遇1.1挑战庞大的参数量:大模型通常拥有数十亿甚至数千亿个参数，例如GPT-3拥有1750亿个参数。如此庞大的参数量导致模型文件体积巨大，加载和推理都需要消耗大量的内存和计算资源。复杂的计算图:大
基于分组 NMS 的检测模型后处理改进 Lunar* 目标检测算法与优化目标检测深度学习 python
引言在目标检测任务中，后处理阶段的非极大值抑制（Non-MaximumSuppression,NMS）是至关重要的一环，主要用于去除高度重叠的冗余预测框。然而，在某些场景中，不同类别的目标可能会被网络同时预测为多个相近的类别，例如：交通工具检测场景：同一辆车可能被误检测为“自行车”和“电动车”。动物检测场景：同一只动物可能被误检测为“狼”和“狗”。家电检测场景：同一台设备可能被误检测为“微波炉”和
OpenCV图像基础天行者@ opencv 人工智能计算机视觉
OpenCV其实就是一堆C和C++语言的源代码文件,这些源代码文件中实现了许多常用的计算机视觉算法。OpenCV的全称是OpenSourceComputerVisionLibrary,是一个开放源代码的计算机视觉库OpenCV最初由英特尔公司发起并开发,以BSD许可证授权发行,可以在商业和研究领域中免费使用,现在美国WillowGarage为OpenCV提供主要的支持OpenCV可用于开发实时的图
卷积神经网络可视化天行者@ cnn 人工智能神经网络
卷积神经网络（CNN）的可视化是理解模型行为、调试性能和解释预测结果的重要工具。以下从技术原理、实现方法和应用场景三个维度，系统梳理CNN可视化的核心技术，并提供代码示例和前沿方向分析：一、CNN可视化的核心维度1.卷积核可视化原理：提取卷积层的权重，将其转换为图像形式，观察滤波器学习到的模式。实现步骤：提取卷积层权重（形状为[out_channels,in_channels,kernel_siz
大模型（DeepSeek等）是否会动摇AI工程师的工作？点我头像干啥 Ai 深度学习人工智能 AI编程计算机视觉
引言近年来，人工智能（AI）领域取得了突飞猛进的发展，尤其是大模型（如GPT-3、BERT、DeepSeek等）的出现，极大地推动了自然语言处理（NLP）、计算机视觉（CV）等领域的进步。大模型凭借其强大的泛化能力和广泛的应用场景，逐渐成为AI领域的核心技术之一。然而，随着大模型的普及，一个备受关注的问题浮出水面：大模型是否会动摇AI工程师的工作？本文将从多个角度探讨这一问题，分析大模型对AI工程
3.13 YOLO V3 不要不开心了机器学习 pytorch 深度学习
今天的内容为YOLO-V3YOLO系列-YOLO-V3，最大的改进就是网络结构，使其更适合小目标检测。-特征做得更细致，融入多持续特征图信息来预测不同规格物体。-先验框更丰富了，3种scale，每种3个规格，一共9种。-softmax改进，预测多标签任务。-多scale-为了能检测到不同大小的物体，设计了3个scale。-scale变换经典方法-左图：图像金字塔；右图：单一的输入。-scale变换
Java线程协作式中断机制超人汪小建(seaboat) 线程协作式中断机制 jvm
跟着作者的65节课彻底搞懂Java并发原理专栏，一步步彻底搞懂Java并发原理。作者简介：笔名seaboat，擅长工程算法、人工智能算法、自然语言处理、计算机视觉、架构、分布式、高并发、大数据和搜索引擎等方面的技术，大多数编程语言都会使用，但更擅长Java、Python和C++。平时喜欢看书写作、运动、画画。崇尚技术自由，崇尚思想自由。出版书籍：《Tomcat内核设计剖析》、《图解数据结构与算法》
Python与人工智能：为何它们是天作之合？纪至训至 python 人工智能开发语言
引言在人工智能（AI）飞速发展的今天，Python已成为这一领域的“明星语言”。从机器学习到深度学习，从自然语言处理到计算机视觉，Python的身影无处不在。那么，Python究竟为何能成为AI开发的首选工具？本文将探讨Python与AI之间的深度关联，并解析其背后的原因。1.Python的简洁性与可读性AI开发的核心在于快速迭代和实验，而Python以其简洁的语法和直观的代码结构著称。开发者无需
基于YOLOv5的车牌识别系统：从数据集到UI界面的实现深度学习&目标检测实战项目 YOLOv5实战项目 YOLO ui 分类数据挖掘目标跟踪
1.引言随着智能交通系统的发展，车牌识别技术已成为交通管理、停车场自动化、路面监控等应用中的关键技术之一。车牌识别系统（LicensePlateRecognition,LPR）主要用于识别车辆的车牌号码，并将其转化为可以进一步处理的数据。车牌识别系统通常由图像处理、字符识别、目标检测等多种技术组成。近年来，随着深度学习技术的飞速发展，基于卷积神经网络（CNN）的目标检测算法，如YOLO（YouOn
Python深度学习033：Python、PyTorch、CUDA和显卡驱动之间的关系若北辰 Python深度学习 python 深度学习 pytorch
Python、PyTorch、CUDA和显卡驱动之间的关系相当紧密，它们共同构成了一个能够执行深度学习模型的高效计算环境。下面是它们之间关系的简要概述：PythonPython是一种编程语言，广泛用于科学计算、数据分析和机器学习。它是开发和运行PyTorch代码的基础环境。PyTorchPyTorch是一个开源的机器学习库，用于应用如自然语言处理和计算机视觉的深度学习模型。它提供了丰富的API，使
AI基于深度学习的代码搜索案例（一）人工智能MOS 人工智能深度学习机器学习
1.背景近年来，人工智能逐渐进入各个领域并展现出了强大的能力。在计算机视觉领域，以ImageNet为例，计算机的图像分类水平已经超过了人类。在自然语言处理(NLP)领域，BERT、XLNet以及MASS也一遍遍的刷新着任务榜单。当人工智能进入游戏领域，也取得了惊人的成绩，在Atari系列游戏中，计算机很容易超过了大部分人类，在围棋比赛中，AlphaGo和AlphaZero也已经超越了人类顶尖棋手。
Anaconda与VS Code wei099
最近在学习机器学习和计算机视觉，使用GoogleColab来运行网上的示例代码。考虑到网页上写代码效率太低，没有代码补全功能，没有函数提示，不利于对代码的了解，于是还是决定折腾一下在自己的Windows本上安装工作环境。想要学习机器学习的技能，不可避免要具备熟练使用Python编程的能力。Anaconda是Python软件包管理器，可以大大减少使用者安装各种包的麻烦，提高工作效率。我先后安装了An
使用Python进行火焰检测与识别：从基础理论到高级实现的全面指南快撑死的鱼 python算法解析 python 开发语言
使用Python进行火焰检测与识别：从基础理论到高级实现的全面指南火灾是一种常见而危险的自然灾害，在工业、家庭和公共场所中，实时检测火焰并做出响应是保障安全的重要手段。随着计算机视觉技术的发展，使用图像处理和机器学习的方法进行火焰检测已经成为可能。Python作为一种功能强大且广泛使用的编程语言，提供了丰富的库和工具，能够有效地实现火焰检测和识别。在本文中，我们将深入探讨如何使用Python进行火
Diffusion Transformer与Differential Transformer：技术创新与应用前景 AI大模型learner 深度学习人工智能机器学习
引言Transformer架构已成为自然语言处理（NLP）和计算机视觉（CV）领域的主流技术。随着技术的不断发展，DiffusionTransformer和DifferentialTransformer等新型架构逐步涌现，为生成模型和注意力机制带来了突破性的进展。本文旨在从科学视角探讨这两种模型的核心原理、技术特点及应用前景。DiffusionTransformer概念与原理DiffusionTr
计算机视觉算法实战——车道线检测喵了个AI 计算机视觉实战项目计算机视觉
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨车道线检测是计算机视觉领域的一个重要研究方向，尤其在自动驾驶和高级驾驶辅助系统（ADAS）中具有广泛应用。本文将深入探讨当前主流的车道线检测算法，选择性能最好的算法进行详细介绍，并涵盖数据集、代码实现、优秀论文、具体应用以及未来的研究方向和改进方向。1.当前相关的算法✨✨车道线检测算法
Vision Transformer (ViT)：将Transformer带入计算机视觉的革命性尝试（代码实现）阿正的梦工坊 Deep Learning DL Papers transformer 计算机视觉深度学习
VisionTransformer(ViT)：将Transformer带入计算机视觉的革命性尝试作为一名深度学习研究者，如果你对自然语言处理（NLP）领域的Transformer架构了如指掌，那么你一定不会对它在序列建模中的强大能力感到陌生。然而，2021年由GoogleResearch团队在ICLR上发表的论文《ANIMAGEISWORTH16x16WORDS:TRANSFORMERSFORIM
图像去雾常见数据集梦姐的编程日志图像处理深度学习人工智能
近年来，随着深度学习技术的快速发展，图像去雾任务成为计算机视觉领域的重要研究方向之一。高质量的数据集是算法研究的基础，本文将介绍一些常用的图像去雾数据集，包括其特点、应用场景以及下载地址。1.RESIDE数据集RESIDE（REalisticSingleImageDEhazing）数据集是目前最常用的图像去雾数据集之一。该数据集提供了多种规模的子数据集，主要分为以下几部分：IndoorTraini
卷积神经网络中的卷积操作 m0_61360701 深度学习 cnn 深度学习人工智能
1.什么是卷积操作？在卷积神经网络（CNN）中，卷积操作是一种数学运算，它的目的是从图像（或其他数据）中提取局部特征。简单来说，卷积就像是用一个小的“扫描仪”在图像上滑动，每次扫描一小块区域，并从中提取有用的信息。2.卷积操作的类比：印章想象你有一张纸和一个印章。印章是一个小的图案，比如一个简单的形状（圆形、方形等）。当你把印章按在纸上时，印章会与纸上的内容接触，并留下一个印记。然后你移动印章，重
点云从入门到精通技术详解100篇-基于激光雷达点云的三维目标检测格图素书目标检测人工智能计算机视觉
目录前言图像目标检测算法研究现状点云目标检测算法研究现状基于投影图的方法基于体素的方法基于点云的多模态融合方法2地面点云滤波及神经网络2.1目标检测数据集及采集设备2.1.1KITTI数据集2.1.2车载激光雷达2.2地面点云滤波算法2.2.1RANSAC算法2.2.2CSF算法本文篇幅较长，分为上下两篇，下篇详见基于激光雷达点云的三维目标检测（续）前言近几年来，在计算机视觉领域，利用深度学习卷积
探索水下视觉新境界：基于Retinex理论的水下图像增强项目葛冉忱Edith
探索水下视觉新境界：基于Retinex理论的水下图像增强项目【下载地址】基于ace-urcp-retinex的水下图像增强代码本资源文件提供了一个基于Retinex理论的水下图像增强方法的代码实现。该方法旨在消除水下图像捕捉过程中产生的色彩失真和光线散射问题，从而显著提高水下图像的可视性。Retinex理论是一种模拟人类视觉系统处理图像的计算机视觉概念。它认为，人类视觉系统通过分离物体表面反射的光
卷积神经网络（CNN）详解：从原理到应用的全景解析彩旗工作室人工智能 cnn 人工智能神经网络卷积神经网络
一、定义与核心特征卷积神经网络（ConvolutionalNeuralNetwork,CNN）是一种专为处理网格状数据（如图像、视频）设计的深度前馈神经网络，其核心特征包括：局部连接：卷积层神经元仅与输入数据的局部区域连接，减少参数数量；权重共享：同一卷积核在整个输入数据上滑动，增强平移不变性；层级特征提取：从低级特征（边缘、纹理）到高级特征（物体部件）的逐层抽象。二、历史演进与关键突破1960年
【AIGC】计算机视觉-YOLO系列家族 LeeZhao@ 计算机视觉 AIGC 计算机视觉 YOLO
YOLO系列家族（1）YOLO发展史（2）YOLOX（3）YOLOv6（4）YOLOv7（5）YOLOv8（6）YOLOv9（7）YOLOv10（8）YOLOv11（9）YOLOv12（1）YOLO发展史YOLO(YouOnlyLookOnce）是一种流行的物体检测和图像分割模型，由华盛顿大学的约瑟夫-雷德蒙（JosephRedmon）和阿里-法哈迪（AliFarhadi）开发。YOLO于2015
ViewController添加button按钮解析。（翻译）张亚雄 c
<div class="it610-blog-content-contain" style="font-size: 14px"></div>// ViewController.m // Reservation software // // Created by 张亚雄 on 15/6/2.
mongoDB 简单的增删改查开窍的石头 mongodb
在上一篇文章中我们已经讲了mongodb怎么安装和数据库/表的创建。在这里我们讲mongoDB的数据库操作在mongo中对于不存在的表当你用db.表名他会自动统计下边用到的user是表明，db代表的是数据库添加(insert):
log4j配置 0624chenhong log4j
1) 新建java项目 2) 导入jar包，项目右击，properties—java build path—libraries—Add External jar，加入log4j.jar包。 3) 新建一个类com.hand.Log4jTest package com.hand; import org.apache.log4j.Logger; public class
多点触摸(图片缩放为例) 不懂事的小屁孩多点触摸
多点触摸的事件跟单点是大同小异的，上个图片缩放的代码，供大家参考一下 import android.app.Activity; import android.os.Bundle; import android.view.MotionEvent; import android.view.View; import android.view.View.OnTouchListener
有关浏览器窗口宽度高度几个值的解析换个号韩国红果果 JavaScript html
1 元素的 offsetWidth 包括border padding content 整体的宽度。 clientWidth 只包括内容区 padding 不包括border。 clientLeft = offsetWidth -clientWidth 即这个元素border的值 offsetLeft 若无已定位的包裹元素
数据库产品巡礼：IBM DB2概览蓝儿唯美 db2
IBM DB2是一个支持了NoSQL功能的关系数据库管理系统，其包含了对XML，图像存储和Java脚本对象表示（JSON）的支持。DB2可被各种类型的企业使用，它提供了一个数据平台，同时支持事务和分析操作，通过提供持续的数据流来保持事务工作流和分析操作的高效性。 DB2支持的操作系统 DB2可应用于以下三个主要的平台: 工作站，DB2可在Linus、Unix、Windo
java笔记5 a-john java
控制执行流程： 1，true和false 利用条件表达式的真或假来决定执行路径。例：（a==b）。它利用条件操作符“==”来判断a值是否等于b值，返回true或false。java不允许我们将一个数字作为布尔值使用，虽然这在C和C++里是允许的。如果想在布尔测试中使用一个非布尔值，那么首先必须用一个条件表达式将其转化成布尔值，例如if(a!=0)。 2，if-els
Web开发常用手册汇总 aijuans PHP
一门技术，如果没有好的参考手册指导,很难普及大众。这其实就是为什么很多技术，非常好，却得不到普遍运用的原因。正如我们学习一门技术，过程大概是这个样子： ①我们日常工作中，遇到了问题，困难。寻找解决方案，即寻找新的技术； ②为什么要学习这门技术？这门技术是不是很好的解决了我们遇到的难题，困惑。这个问题，非常重要，我们不是为了学习技术而学习技术，而是为了更好的处理我们遇到的问题，才需要学习新的
今天帮助人解决的一个sql问题 asialee sql
今天有个人问了一个问题，如下： type AD value A
意图对象传递数据百合不是茶 android 意图Intent Bundle对象数据的传递
学习意图将数据传递给目标活动; 初学者需要好好研究的 1,将下面的代码添加到main.xml中 <?xml version="1.0" encoding="utf-8"?> <LinearLayout xmlns:android="http:/
oracle查询锁表解锁语句 bijian1013 oracle object session kill
一.查询锁定的表如下语句，都可以查询锁定的表语句一： select a.sid, a.serial#, p.spid, c.object_name, b.session_id, b.oracle_username, b.os_user_name from v$process p, v$s
mac osx 10.10 下安装 mysql 5.6 二进制文件［tar.gz］征客丶 mysql osx
场景：在 mac osx 10.10 下安装 mysql 5.6 的二进制文件。环境：mac osx 10.10、mysql 5.6 的二进制文件步骤：[所有目录请从根“/”目录开始取，以免层级弄错导致找不到目录] 1、下载 mysql 5.6 的二进制文件，下载目录下面称之为 mysql5.6SourceDir；下载地址：http://dev.mysql.com/downl
分布式系统与框架 bit1129 分布式
RPC框架 Dubbo 什么是Dubbo Dubbo是一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含: 远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。集群容错: 提供基于接
那些令人蛋痛的专业术语白糖_ spring Web SSO IOC
spring 【控制反转(IOC)/依赖注入(DI)】：由容器控制程序之间的关系，而非传统实现中，由程序代码直接操控。这也就是所谓“控制反转”的概念所在：控制权由应用代码中转到了外部容器，控制权的转移，是所谓反转。简单的说：对象的创建又容器(比如spring容器)来执行，程序里不直接new对象。 Web 【单点登录(SSO)】：SSO的定义是在多个应用系统中，用户
《给大忙人看的java8》摘抄 braveCS java8
函数式接口：只包含一个抽象方法的接口 lambda表达式：是一段可以传递的代码你最好将一个lambda表达式想象成一个函数，而不是一个对象，并记住它可以被转换为一个函数式接口。事实上，函数式接口的转换是你在Java中使用lambda表达式能做的唯一一件事。方法引用：又是要传递给其他代码的操作已经有实现的方法了，这时可以使
编程之美-计算字符串的相似度 bylijinnan java 算法编程之美
public class StringDistance { /** * 编程之美计算字符串的相似度 * 我们定义一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： * 1.修改一个字符（如把“a”替换为“b”）; * 2.增加一个字符（如把“abdd”变为“aebdd”）; * 3.删除一个字符（如把“travelling”变为“trav
上传、下载压缩图片 chengxuyuancsdn 下载
/** * * @param uploadImage --本地路径(tomacat路径) * @param serverDir --服务器路径 * @param imageType --文件或图片类型 * 此方法可以上传文件或图片.txt,.jpg,.gif等 */ public void upload(String uploadImage,Str
bellman-ford(贝尔曼-福特)算法 comsci 算法 F#
Bellman-Ford算法(根据发明者 Richard Bellman 和 Lester Ford 命名)是求解单源最短路径问题的一种算法。单源点的最短路径问题是指：给定一个加权有向图G和源点s，对于图G中的任意一点v，求从s到v的最短路径。有时候这种算法也被称为 Moore-Bellman-Ford 算法，因为 Edward F. Moore zu 也为这个算法的发展做出了贡献。与迪科
oracle ASM中ASM_POWER_LIMIT参数 daizj ASM oracle ASM_POWER_LIMIT 磁盘平衡
ASM_POWER_LIMIT 该初始化参数用于指定ASM例程平衡磁盘所用的最大权值，其数值范围为0~11，默认值为1。该初始化参数是动态参数，可以使用ALTER SESSION或ALTER SYSTEM命令进行修改。示例如下： SQL>ALTER SESSION SET Asm_power_limit=2;
高级排序:快速排序 dieslrae 快速排序
public void quickSort(int[] array){ this.quickSort(array, 0, array.length - 1); } public void quickSort(int[] array,int left,int right){ if(right - left <= 0
C语言学习六指针_何谓变量的地址一个指针变量到底占几个字节 dcj3sjt126com C语言
# include <stdio.h> int main(void) { /* 1、一个变量的地址只用第一个字节表示 2、虽然他只使用了第一个字节表示，但是他本身指针变量类型就可以确定出他指向的指针变量占几个字节了 3、他都只存了第一个字节地址，为什么只需要存一个字节的地址，却占了4个字节，虽然只有一个字节，但是这些字节比较多，所以编号就比较大，
phpize使用方法 dcj3sjt126com PHP
phpize是用来扩展php扩展模块的，通过phpize可以建立php的外挂模块,下面介绍一个它的使用方法,需要的朋友可以参考下安装（fastcgi模式）的时候，常常有这样一句命令：代码如下: /usr/local/webserver/php/bin/phpize 一、phpize是干嘛的？ phpize是什么？ phpize是用来扩展php扩展模块的，通过phpi
Java虚拟机学习 - 对象引用强度 shuizhaosi888 JAVA虚拟机
本文原文链接：http://blog.csdn.net/java2000_wl/article/details/8090276 转载请注明出处！无论是通过计数算法判断对象的引用数量，还是通过根搜索算法判断对象引用链是否可达，判定对象是否存活都与“引用”相关。引用主要分为：强引用(Strong Reference)、软引用(Soft Reference)、弱引用(Wea
.NET Framework 3.5 Service Pack 1（完整软件包）下载地址 happyqing .net 下载 framework
Microsoft .NET Framework 3.5 Service Pack 1（完整软件包） http://www.microsoft.com/zh-cn/download/details.aspx?id=25150 Microsoft .NET Framework 3.5 Service Pack 1 是一个累积更新，包含很多基于 .NET Framewo
JAVA定时器的使用 jingjing0907 java timer 线程定时器
1、在应用开发中，经常需要一些周期性的操作，比如每5分钟执行某一操作等。对于这样的操作最方便、高效的实现方式就是使用java.util.Timer工具类。 privatejava.util.Timer timer; timer = newTimer(true); timer.schedule( newjava.util.TimerTask() { public void run()
Webbench 流浪鱼 webbench
首页下载地址 http://home.tiscali.cz/~cz210552/webbench.html Webbench是知名的网站压力测试工具，它是由Lionbridge公司（http://www.lionbridge.com）开发。 Webbench能测试处在相同硬件上，不同服务的性能以及不同硬件上同一个服务的运行状况。webbench的标准测试可以向我们展示服务器的两项内容：每秒钟相
第11章动画效果（中） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
windows下制作bat启动脚本. sanyecao2314 java cmd 脚本 bat
java -classpath C:\dwjj\commons-dbcp.jar;C:\dwjj\commons-pool.jar;C:\dwjj\log4j-1.2.16.jar;C:\dwjj\poi-3.9-20121203.jar;C:\dwjj\sqljdbc4.jar;C:\dwjj\voucherimp.jar com.citsamex.core.startup.MainStart
Java进行RSA加解密的例子 tomcat_oracle java
加密是保证数据安全的手段之一。加密是将纯文本数据转换为难以理解的密文；解密是将密文转换回纯文本。　　数据的加解密属于密码学的范畴。通常，加密和解密都需要使用一些秘密信息，这些秘密信息叫做密钥，将纯文本转为密文或者转回的时候都要用到这些密钥。　　对称加密指的是发送者和接收者共用同一个密钥的加解密方法。　　非对称加密(又称公钥加密)指的是需要一个私有密钥一个公开密钥，两个不同的密钥的
Android_ViewStub 阿尔萨斯 ViewStub
public final class ViewStub extends View java.lang.Object android.view.View android.view.ViewStub 类摘要： ViewStub 是一个隐藏的，不占用内存空间的视图对象，它可以在运行时延迟加载布局资源文件。当 ViewSt