Senit_Co

Faster R-CNN论文及源码解读

原文站点：https://senitco.github.io/2017/09/02/faster-rcnn/

R-CNN是目标检测领域中十分经典的方法，相比于传统的手工特征，R-CNN将卷积神经网络引入，用于提取深度特征，后接一个分类器判决搜索区域是否包含目标及其置信度，取得了较为准确的检测结果。Fast R-CNN和Faster R-CNN是R-CNN的升级版本，在准确率和实时性方面都得到了较大提升。在Fast R-CNN中，首先需要使用Selective Search的方法提取图像的候选目标区域(Proposal)。而新提出的Faster R-CNN模型则引入了RPN网络(Region Proposal Network)，将Proposal的提取部分嵌入到内部网络，实现了卷积层特征共享，Fast R-CNN则基于RPN提取的Proposal做进一步的分类判决和回归预测，因此，整个网络模型可以完成端到端的检测任务，而不需要先执行特定的候选框搜索算法，显著提升了算法模型的实时性。

模型概述

Faster R-CNN模型主要由两个模块组成：RPN候选框提取模块和Fast R-CNN检测模块，如下图所示，又可细分为4个部分；Conv Layer，Region Proposal Network(RPN)，RoI Pooling，Classification and Regression。

Conv Layer: 卷积层包括一系列卷积(Conv + Relu)和池化(Pooling)操作，用于提取图像的特征(feature maps)，一般直接使用现有的经典网络模型ZF或者VGG16，而且卷积层的权值参数为RPN和Fast RCNN所共享，这也是能够加快训练过程、提升模型实时性的关键所在。
Region Proposal Network: RPN网络用于生成区域候选框Proposal，基于网络模型引入的多尺度Anchor，通过Softmax对anchors属于目标(foreground)还是背景(background)进行分类判决，并使用Bounding Box Regression对anchors进行回归预测，获取Proposal的精确位置，并用于后续的目标识别与检测。
RoI Pooling: 综合卷积层特征feature maps和候选框proposal的信息，将propopal在输入图像中的坐标映射到最后一层feature map(conv5-3)中，对feature map中的对应区域进行池化操作，得到固定大小( 7×7 )输出的池化结果，并与后面的全连接层相连。
Classification and Regression: 全连接层后接两个子连接层——分类层(cls)和回归层(reg)，分类层用于判断Proposal的类别，回归层则通过bounding box regression预测Proposal的准确位置。

下图为Faster R-CNN测试网络结构(网络模型文件为faster_rcnn_test.pt)，可以清楚地看到图像在网络中的前向计算过程。对于一幅任意大小 P×Q 的图像，首先缩放至固定大小 M×N (源码中是要求长边不超过1000，短边不超过600)，然后将缩放后的图像输入至采用VGG16模型的Conv Layer中，最后一个feature map为conv5-3，特征数(channels)为512。RPN网络在特征图conv5-3上执行 3×3 卷积操作，后接一个512维的全连接层，全连接层后接两个子连接层，分别用于anchors的分类和回归，再通过计算筛选得到proposals。RoIs Pooling层则利用Proposal从feature maps中提取Proposal feature进行池化操作，送入后续的Fast R-CNN网络做分类和回归。RPN网络和Fast R-CNN网络中均有分类和回归，但两者有所不同，RPN中分类是判断conv5-3中对应的anchors属于目标和背景的概率(score)，并通过回归获取anchors的偏移和缩放尺度，根据目标得分值筛选用于后续检测识别的Proposal；Fast R-CNN是对RPN网络提取的Proposal做分类识别，并通过回归参数调整得到目标(Object)的精确位置。具体的训练过程会在后面详述。接下来会重点介绍RPN网络和Fast R-CNN网络这两个模块，包括RPN网络中引入的Anchor机制、训练数据的生成、分类和回归的损失函数(Loss Function)计算以及RoI Pooling等。

Region Proposal Network(RPN)

传统的目标检测方法中生成候选框都比较耗时，例如使用滑动窗口加图像金字塔的方式遍历图像，获取多尺度的候选区域；以及R-CNN、Fast R-CNN中均使用到的Selective Search的方法生成候选框。而Faster R-CNN则直接使用RPN网络，将检测框Proposal的提取嵌入到网络内部，通过共享卷积层参数的方式提升了Proposal的生成速度。

Anchor

Anchor是RPN网络中一个较为重要的概念，传统的检测方法中为了能够得到多尺度的检测框，需要通过建立图像金字塔的方式，对图像或者滤波器(滑动窗口)进行多尺度采样。RPN网络则是使用一个 3×3 的卷积核，在最后一个特征图(conv5-3)上滑动，将卷积核中心对应位置映射回输入图像，生成3种尺度(scale) {1282,2562,5122} 和3种长宽比(aspect ratio) {1:1,1:2,2:1} 共9种Anchor，如下图所示。特征图conv5-3每个位置都对应9个anchors，如果feature map的大小为 W×H ，则一共有 W×H×9 个anchors，滑动窗口的方式保证能够关联conv5-3的全部特征空间，最后在原图上得到多尺度多长宽比的anchors。

最后一个feature map后面会接一个全连接层，如下图所示，全连接的维数和feature map的特征数(channels)相同。对于原论文中采用的ZF模型，conv5的特征数为256，全连接层的维数也为256；对于VGG模型，conv5-3的特征数为512，全连接的的维数则为512，相当于feature map上的每一个点都输出一个512维的特征向量。

关于anchors还有几点需要说明：
- conv5-3上使用了 3×3 的卷积核，每个点都可以关联局部邻域的空间信息。
- conv5-3上每个点前向映射得到k(k=9)个anchors，并且后向输出512维的特征向量，而anchors的作用是分类和回归得到Proposal，因此全连接层后须接两个子连接层——分类层(cls)和回归层(reg)，分类层用于判断anchors属于目标还是背景，向量维数为2k；回归层用于计算anchors的偏移量和缩放量，共4个参数 [dx,dy,dw,dh] ，向量维数为4k。

训练样本的生成

一般而言，特征图conv5-3的实际尺寸大致为 60×40 ，那么一共可以生成 60×40×9≈20k 个anchors，显然不会将所有anchors用于训练，而是筛选一定数量的正负样本。对于数据集中包含有人工标定ground truth的图像，考虑一张图像上所有anchors:
- 首先过滤掉超出图像边界的anchors
- 对每个标定的ground truth，与其重叠比例IoU最大的anchor记为正样本，这样可以保证每个ground truth至少对应一个正样本anchor
- 对每个anchors，如果其与某个ground truth的重叠比例IoU大于0.7，则记为正样本(目标)；如果小于0.3，则记为负样本(背景)
- 再从已经得到的正负样本中随机选取256个anchors组成一个minibatch用于训练，而且正负样本的比例为1:1,；如果正样本不够，则补充一些负样本以满足256个anchors用于训练，反之亦然。

Multi-task Loss Function

由于涉及到分类和回归，所以需要定义一个多任务损失函数(Multi-task Loss Function)，包括Softmax Classification Loss和Bounding Box Regression Loss，公式定义如下：

L ({p i}, {t i}) = 1 N c l s Σ i L c l s (p i, p * i) + λ 1 N r e g Σ i p * i L r e g (t i, t * i)

Softmax Classification：对于RPN网络的分类层(cls)，其向量维数为2k = 18，考虑整个特征图conv5-3，则输出大小为

W×H×18 ，正好对应conv5-3上每个点有9个anchors，而每个anchor又有两个score(fg/bg)输出，对于单个anchor训练样本，其实是一个二分类问题。为了便于Softmax分类，需要对分类层执行reshape操作，这也是由底层数据结构决定的。在caffe中，Blob的数据存储形式为

Blob=[batch_size,channel,height,width] ，而对于分类层(cls)，其在Blob中的实际存储形式为

[1,2k,H,W] ，而Softmax针对每个anchor进行二分类，所以需要在分类层后面增加一个reshape layer，将数据组织形式变换为

[1,2,k∗H,W] ，之后再reshape回原来的结构，caffe中有对softmax_loss_layer.cpp的reshape函数做如下解释：

"Number of labels must match number of predictions; "  
"e.g., if softmax axis == 1 and prediction shape is (N, C, H, W), "  
"label count (number of labels) must be N*H*W, "  
"with integer values in {0, 1, ..., C-1}.";

在上式中， pi 为样本分类的概率值， p∗i 为样本的标定值(label)，anchor为正样本时 p∗i 为1，为负样本时 p∗i 为0， Lcls 为两种类别的对数损失(log loss)。
Bounding Box Regression：RPN网络的回归层输出向量的维数为4k = 36，回归参数为每个样本的坐标 [x,y,w,h] ，分别为box的中心位置和宽高，考虑三组参数预测框(predicted box)坐标 [x,y,w,h] ，anchor坐标 [xa,ya,wa,ha] ，ground truth坐标 [x∗,y∗,w∗,h∗] ，分别计算预测框相对anchor中心位置的偏移量以及宽高的缩放量 {t} ，ground truth相对anchor的偏移量和缩放量 {t∗}

t x = (x - x a) / w a, t y = (y - y a) / h a, t w = l o g (w / w a), t h = l o g (h / h a) - - (1)

t * x = (x * - x a) / w a, t * y = (y * - y a) / h a, t * w = l o g (w * / w a), t * h = l o g (h * / h a) - - (2)

回归目标就是让

{t} 尽可能地接近

{t∗} ，所以回归真正预测输出的是

{t} ，而训练样本的标定真值为

{t∗} 。得到预测输出

{t} 后，通过上式(1)即可反推获取预测框的真实坐标。在损失函数中，回归损失采用Smooth L1函数

S m o o t h L 1 (x) = {0.5 x 2, | x | \leq 1 | x | - 0.5, o t h e r w i s e

L r e g = S m o o t h L 1 (t - t *)

Smooth L1损失函数曲线如下图所示，相比于L2损失函数，L1对离群点或异常值不敏感，可控制梯度的量级使训练更易收敛。

在损失函数中， p∗iLreg 这一项表示只有目标anchor( p∗i=1 )才有回归损失，其他anchor不参与计算。这里需要注意的是，当样本bbox和ground truth比较接近时(IoU大于某一阈值)，可以认为上式的坐标变换是一种线性变换，因此可将样本用于训练线性回归模型，否则当bbox与ground truth离得较远时，就是非线性问题，用线性回归建模显然不合理，会导致模型不work。分类层(cls)和回归层(reg)的输出分别为 {p} 和 {t} ，两项损失函数分别由 Ncls 和 Nreg 以及一个平衡权重 λ 归一化。分类损失的归一化值为minibatch的大小，即 Ncls=256 ；回归损失的归一化值为anchor位置的数量，即 Nreg≈2400 ； λ 一般取值为10，这样分类损失和回归损失差不多是等权重的。

Proposal的生成

Proposal的生成就是将图像输入到RPN网络中进行一次前向(forward)计算，处理流程如下：
- 计算特征图conv5-3映射到输入图像的所有anchors，并通过RPN网络前向计算得到anchors的score输出和bbox回归参数
- 由anchors坐标和bbox回归参数计算得到预测框proposal的坐标
- 处理proposal坐标超出图像边界的情况(使得坐标最小值为0，最大值为宽或高)
- 滤除掉尺寸(宽高)小于给定阈值的proposal
- 对剩下的proposal按照目标得分(fg score)从大到小排序，提取前pre_nms_topN(e.g. 6000)个proposal
- 对提取的proposal进行非极大值抑制(non-maximum suppression,nms)，再根据nms后的foreground score，筛选前post_nms_topN(e.g. 300)个proposal作为最后的输出

Fast R-CNN

对于RPN网络中生成的proposal，需要送入Fast R-CNN网络做进一步的精确分类和坐标回归，但proposal的尺寸可能大小不一，所以需要做RoI Pooling，输出统一尺寸的特征，再与后面的全连接层相连。

RoI Pooling

对于传统的卷积神经网络，当网络训练好后输入图像的尺寸必须是固定值，同时网络输出的固定大小的向量或矩阵。如果输入图像大小不统一，则需要进行特殊处理，如下图所示：
- 从图像中crop一部分传入网络
- 将图像warp成需要的大小后传入网络

可以从图中看出，crop操作破坏了图像的完整结构，warp操作破坏了图像的原始形状信息，两种方法的效果都不太理想。RPN网络生成的proposal也存在尺寸不一的情况，但论文中提出了RoI Pooling的方法解决这个问题。

RoI Pooling结合特征图conv5-3和proposal的信息，proposal在输入图像中的坐标 [x1,y1,x2,y2] 对应 M×N 尺度，将proposal的坐标映射到 M16×N16 大小的conv5-3中，然后将Proposal在conv5-3的对应区域水平和竖直均分为7等份，并对每一份进行Max Pooling或Average Pooling处理，得到固定大小( 7×7 )输出的池化结果，实现固定长度输出(fixed-length output)，如下图所示。

Classification and Regression

RoI Pooling层后接多个全连接层，最后为两个子连接层——分类层(cls)和回归层(reg)，如下图所示，和RPN的输出类似，只不过输出向量的维数不一样。如果类别数为N+1(包括背景)，分类层的向量维数为N+1，回归层的向量维数则为4(N+1)。还有一个关键问题是RPN网络输出的proposal如何组织成Fast R-CNN的训练样本：
- 对每个proposal，计算其与所有ground truth的重叠比例IoU
- 筛选出与每个proposal重叠比例最大的ground truth
- 如果proposal的最大IoU大于0.5则为目标(前景)，标签值(label)为对应ground truth的目标分类；如果IoU小于0.5且大于0.1则为背景，标签值为0
- 从2张图像中随机选取128个proposals组成一个minibatch，前景和背景的比例为1:3
- 计算样本proposal与对应ground truth的回归参数作为标定值，并且将回归参数从(4,)拓展为(4(N+1),)，只有对应类的标定值才为非0。
- 设定训练样本的回归权值，权值同样为4(N+1)维，且只有样本对应标签类的权值才为非0。

在源码实现中，用于训练Fast R-CNN的Proposal除了RPN网络生成的，还有图像的ground truth，这两者归并到一起，然后通过筛选组成minibatch用于迭代训练。Fast R-CNN的损失函数也与RPN类似，二分类变成了多分类，背景同样不参与回归损失计算，且只考虑proposal预测为标签类的回归损失。

Faster R-CNN的训练

对于提取proposals的RPN，以及分类回归的Fast R-CNN，如何将这两个网络嵌入到同一个网络结构中，训练一个共享卷积层参数的多任务(Multi-task)网络模型。源码中有实现交替训练(Alternating training)和端到端训练(end-to-end)两种方式，这里介绍交替训练的方法。
- 训练RPN网络，用ImageNet模型M0初始化，训练得到模型M1
- 利用第一步训练的RPN网络模型M1，生成Proposal P1
- 使用上一步生成的Proposal，训练Fast R-CNN网络，同样用ImageNet模型初始化，训练得到模型M2
- 训练RPN网络，用Fast R-CNN网络M2初始化，且固定卷积层参数，只微调RPN网络独有的层，训练得到模型M3
- 利用上一步训练的RPN网络模型M3，生成Proposal P2
- 训练Fast R-CNN网络，用RPN网络模型M3初始化，且卷积层参数和RPN参数不变，只微调Fast R-CNN独有的网络层，得到最终模型M4

由训练流程可知，第4步训练RPN网络和第6步训练Fast R-CNN网络实现了卷积层参数共享。总体上看，训练过程只循环了2次，但每一步训练(M1，M2，M3，M4)都迭代了多次(e.g. 80k，60k)。对于固定卷积层参数，只需将学习率(learning rate)设置为0即可。

源码解析

以上关于RPN的训练，Proposal的生成，以及Fast R-CNN的训练做了的详细讲解，接下来结合网络模型图和部分源码，对这些模块做进一步的分析。

train RPN

训练RPN的网络结构如下图所示，首先加载参数文件，并改动一些参数适应当前训练任务。在train_rpn函数中调用get_roidb、get_imdb、get_train_imdb_roidb等获取训练数据集，并通过调用gt_roidb和prepare_roidb方法对训练数据进行预处理，为样本增添一些属性，数据集roidb中的每个图像样本，主要有以下属性：

'image':图像存储路径
'width':图像宽
'height':图像高
'boxes':图像中bbox(groundtruth or proposal)的坐标[x1,y1,x2,y2]
'gt_classes':每个bbox对应的类索引(1~20)
'gt_overlaps':二维数组，shape=[num_boxes * num_classes]，每个bbox(ground truth)对应的类索引处取值为1，其余为0
'flipped':取值为True/False，用于标记有无将图像水平翻转
'seg_area':bbox的面积
'max_classes':bbox与所有ground truth的重叠比例IoU最大的类索引(gt_overlaps.argmax(axis=1))
'max_overlaps':bbox与所有ground truth的IoU最大值(gt_overlaps.max(axis=1))

获取数据集roidb中字典的属性后，设置输出路径output_dir，用来保存中间训练结果，然后调用train_net函数。在train_net函数中，首先调用filter_roidb，滤除掉既没有前景又没有背景的roidb。然后调用layer.py中的set_roidb方法，打乱训练样本roidb的顺序，将roidb中长宽比近似的图像放在一起。之后开始训练模型train_model，这里需要实例化每个层，对于第一层RoIDataLayer，通过setup方法进行实例化，并且在训练过程中通过forward方法，调用get_minibatch函数，获取每一次迭代训练的数据，在读取数据时，主要获取了3个属性组成Layer中的Blob

'data':单张图像数据im_blob=[1,3,H,W]
'gt_boxes':一幅图像中所有ground truth的坐标和类别[x1,y1,x2,y2,cls]
'im_info':图像的宽高和缩放比例 height,width,scale = [[im_blob.shape[2], im_blob.shape[2], im_scale[0]]]

从网络结构图中可以看出，input-data(RoIDataLayer)的下一层是rpn-data(AnchorTargetLayer)，rpn-data计算所有anchors与ground truth的重叠比例IoU，从中筛选出一定数量(256)的正负样本组成一个minibatch，用于RPN网络的训练，这一层的输出有如下属性：

'rpn_label':每个anchor对应的类别(1——fg，0——bg，-1——ignored)，shape=[1,1,A*height,width]
'rpn_bbox_targets':anchor与ground truth的回归参数[dx,dy,dw,dh]，shape=[1,A*4,height,width]
'rpn_box_inside_targets':回归损失函数中的样本权值，正样本为1，负样本为0，相当于损失函数中的p*，shape=[1,A*4,height,width]
'rpn_box_outside_targets':分类损失函数和回归损失函数的平衡权重，相当于λ，shape=[1,A*4,height,width]
注：height、width为特征图conv5-3的高宽，A=9为Anchor种数

对于分类损失rpn_loss_cls，输入的rpn_cls_scors_reshape和rpn_labels分别对应 p 与 p∗ ；对于回归损失，输入的rpn_bbox_pred和rpn_bbox_targets分别对应 {t} 与 {t∗} ，pn_bbox_inside_weigths对应 p∗ ，rpn_bbox_outside_weights对应 λ 。

generate proposals

Proposal的生成只需将图像输入到RPN网络中，进行前向(forward)计算然后经过筛选即可得到，网络结构如下图所示

从rpn_proposals = imdb_proposals(rpn_net, imdb)开始，使用im = cv2.imread(imdb.image_path_at(i))读入图片数据，调用 im_proposals生成单张图片的rpn proposals，以及得分。im_proposals函数会调用网络的forward方法，从而得到想要的boxes和scores，最后将获取的proposal保存在python pickle文件中。

train Fast R-CNN

训练Fast R-CNN的网络结构如下图所示，首先设置参数适应训练任务，在预处理数据时，调用的不再是gt_roidb方法，而是rpn_roidb，通过使用类imdb的静态方法merge_roidb，将rpn_roidb和gt_roidb归并为一个roidb，因此数据集中的’boxes’属性除了包含ground truth，还有RPN网络生成的proposal，可通过上一步保存的文件直接读取。通过add_bbox_regression_targets方法给roidb的样本增添了额外的属性’bbox_targets’，用于表示回归参数的标定值。属性’gt_overlaps’是所有proposal与ground truth通过计算IoU得到的。最后就是调用get_minibatch方法从2张图像中选取128个proposal作为一次迭代的训练样本，读取数据时，获取如下属性组成Layer中的Blob

'data':图像数据
'rois':proposals的坐标[batch_inds,x1,y1,x2,y2]
'label':proposals对应的类别(0~20)
'bbox_targets':proposal回归参数的标定值，shape = [128, 4(N+1)]
'box_inside_targets':回归损失函数中的样本权值，正样本为1，负样本为0，相当于损失函数中的p*
'rpn_box_outside_targets':分类损失函数和回归损失函数的平衡权重，相当于λ

损失函数的计算与RPN网络类似。在Faster R-CNN中，自定义的Python Layer包括RoIDataLayer、AnchorTargetLay、ProposalLayer，都只实现了前向计算forward，因为这些Layer的作用是获取用于训练网络的数据，而对网络本身没有贡献任何权值参数，也不传播梯度值，因此不需要实现反向传播backward。

reference

Paper: Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
Paper: R-CNN：Rich feature hierarchies for accurate object detection and semantic segmentation
Paper: SPP-Net: Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
Paper: Fast R-CNN
Code: Caffe implement of Faster RCNN
Code: Tensorflow implement of Faster RCNN
http://blog.csdn.net/iamzhangzhuping/article/category/6230157
http://www.infocool.net/kb/Python/201611/209696.html
http://www.cnblogs.com/venus024/p/5717766.html
http://blog.csdn.net/zy1034092330/article/details/62044941

你可能感兴趣的:(deep-learning)

易 AI - 使用 TensorFlow 2 Keras 实现 AlexNet CNN 架构 CatchZeng
原文：https://makeoptim.com/deep-learning/yiai-alexnet-implementation前言网络结构实现SequentialSubclassingDemo小结参考前言上一篇笔者使用如何阅读深度学习论文的方法阅读了AlexNet。为了加深理解，本文带大家使用TensorFlow2Keras实现AlexNetCNN架构。网络结构image从上一篇可以得到Al
论文学习记录之Deep-learning seismic full-waveform inversion for realistic structuralmodels 摘星星的屋顶论文深度学习人工智能
一、ABSTRACT—摘要标题：Deep-learningseismicfull-waveforminversionforrealisticstructuralmodels（用于真实结构模型的深度学习地震全波形反演）作者：BinLiu1,SenlinYang2,YuxiaoRen2,XinjiXu3,PengJiang2,andYangkangChen4（和SeisInvNet有共同作者，应该是同
论文学习记录之SeisInvNet（Deep-Learning Inversion of Seismic Data）摘星星的屋顶论文人工智能
目录1INTRODUCTION—介绍2RELATEDWORKS—相关作品3METHODOLOGYANDIMPLEMENTATION—方法和执行3.1方法3.2执行4EXPERIMENTS—实验4.1数据集准备4.2实验设置4.3基线模型4.4定向比较4.5定量比较4.6机理研究5CONCLUSION—结论1INTRODUCTION—介绍地震勘探是根据地震波在大地中的传播规律来确定地下地层结构的一种
易 AI - 机器学习计算机视觉基础 CatchZeng
原文：http://makeoptim.com/deep-learning/yiai-cv计算机视觉表达黑白图灰度图彩色图操作卷积均值滤波归一化统一量纲加速模型训练梯度下降GPU浮点运算小结参考链接上一篇讲解了机器学习数据集的概念以及如何收集图片数据集。收集到的数据是被训练的对象，那么怎么表示这些数据呢？数据又需要被怎么操作呢？本文为大家讲解计算机视觉基础，帮助大家在后面的课程中更好地理解和训练模
【Pytorch】Transposed Convolution bryant_meng pytorch 人工智能 python 反卷积逆卷积
文章目录1卷积2反/逆卷积3MaxUnpool/ConvTranspose4encoder-decoder5可视化学习参考来自：详解逆卷积操作–Up-samplingwithTransposedConvolutionPyTorch使用记录https://github.com/naokishibuya/deep-learning/blob/master/python/transposed_convo
2-EagleC: A deep-learning framework for detecting a full range of structural variations from bulk... 怎么不是呐
Hi-C技术：检测人类基因组结构变异（SVs）的一种有前景的方法。目前严重缺乏能够使用Hi-C数据进行全范围SV检测的算法,只能以低于最佳的分辨率识别染色体间易位和远程染色体内SVs（>1mb）。本文开发了一个深度学习模型，结合了深度学习和集成学习策略的框架，以高分辨率预测全范围的SVs——EagleC在癌症基因组中认识了许多先前未知的融合事件，也发掘了已知致癌基因的新型调控机制，这些发现为癌症分
用数据玩点花样！如何构建skim-gram模型来训练和可视化词向量机器之心V php 人工智能
本文介绍了如何在TensorFlow中实现skim-gram模型，并用TensorBoard进行可视化。GitHub地址：https://github.com/priya-dwivedi/Deep-Learning/blob/master/word2vec_skipgram/Skip-Grams-Solution.ipynb本教程将展示如何在TensorFlow中实现skim-gram模型，以便为
Deep-learning 斗战胜佛oh
图卷积网络在药物研发中的应用综述尽管深度学习在很多领域在过去的几年取得了一定的成功，但是在分子信息和药物发现领域成功的应用依然有限。适用于深层架构的结构化数据方面的最新进展为药物研究开辟了新的范例。该篇从四个角度阐述了图神经网络在药物发现和分子信息领域的应用。1）分子属性和活性预测；2）相互作用预测；3）合成预测；4）从头药物设计。最后总结了药物相关问题的代表性应用。讨论将图卷积网络应用于药物发现
用BERT进行机器阅读理解 javastart 自然语言
这里可以找到带有代码的Github存储库:https://github.com/edwardcqian/bert_QA。本文将讨论如何设置此项功能.机器（阅读）理解是NLP的领域，我们使用非结构化文本教机器理解和回答问题。https://www.coursera.org/specializations/deep-learning?ranMID=40328&ranEAID=J2RDoRlzkk&ra
停车场车位检测思路梳理杂七杂八的
输入列表图像，在工具台中输出图像defshow_images(self,images,cmap=None):输入的是某一张图片和给图片的name，make_write表示是否需要yyyyafafaffadfsfgf10.fhttps://github.com/priya-dwivedi/Deep-Learning/tree/master/parking_spots_detector/train_d
AI - Ubuntu 机器学习环境 (TensorFlow GPU, JupyterLab, VSCode) CatchZeng
原文：https://makeoptim.com/deep-learning/tensorflow-gpu-on-ubuntu介绍所需软件安装前GCCNVIDIApackagerepositoriesNVIDIAmachinelearningNVIDIAGPUdriverCUDAToolKitandcuDNNTensorRTMiniconda虚拟环境安装TensorFlow安装JupyterLab
deep-learning(1) - 随手记录的知识点 Laniakea_01d0
业界通常认为第一层是隐藏层的第一层AI会遇上工程类问题Padding补零操作，可以保证卷积核在每块区域都进行卷积，迭代次数越多，更有效果，提取特征更好生成器和迭代器，存在的意义，一般我们需要对一个数组进行操作的时候，我们要遍历出来操作，比如一亿个参数，我们不可能一次性全部取出来，一个一个的去取，这就是生成器存在的意义。Dataloader加载数据到内存Next（iter（a））转换成0，1转换成正
易 AI - AlexNet 论文深度讲解 CatchZeng
原文：https://makeoptim.com/deep-learning/yiai-paper-alexnet论文地址阅读方式ImageNetClassificationwithDeepConvolutionalNeuralNetworks使用深度卷积神经网络的ImageNet分类Abstract摘要1Introduction1简介2TheDataset2数据集3TheArchitecture
AI - Mac M1 机器学习环境 (TensorFlow, JupyterLab, VSCode) CatchZeng
原文https://makeoptim.com/deep-learning/mac-m1-tensorflowXcodeCommandLineToolsHomebrewMiniforge下载AppleTensorFlow创建虚拟环境安装必须的包安装特殊版本的pip和其他包安装Apple提供的包(numpy,grpcio,h5py)安装额外的包安装TensorFlow测试JupyterLabVSCo
易 AI - 机器学习卷积神经网络（CNN） CatchZeng
原文：http://makeoptim.com/deep-learning/yiai-cnn卷积神经网络结构输入层隐藏层输出层TensorFlow中定义卷积神经网络模型宏观理解卷积神经网络全连接采样卷积小结上一篇介绍了如何在TensorFlow中加载数据集。从本文开始将以王者荣耀为例，介绍卷积神经网络（CNN）。由于涉及的内容较多，本文主要先介绍以下内容：卷积神经网络结构TensorFlow中定义
易 AI - 使用 TensorFlow Object Detection API 训练自定义目标检测模型 CatchZeng
原文：https://makeoptim.com/deep-learning/yiai-object-detection前言目标检测位置发展史传统方法（候选区域+手工特征提取+分类器）RegionProposal+CNN（Two-stage）端到端（One-stage）TensorFlowObjectDetectionAPI安装依赖项安装API工程创建数据集图片标注创建TFRecord模型训练下载
AI - Mac 机器学习环境 (TensorFlow, JupyterLab, VSCode) CatchZeng
原文：https://makeoptim.com/deep-learning/mac-tensorflowCondaAnacondaMiniconda创建虚拟环境安装tensorflow检查安装JupyterLab启动安装其他依赖JupyterLab运行tensorflow安装VSCodeVSCode运行tensorflow小结延伸阅读在MacM1机器学习环境讲述了如何在M1芯片的Mac搭建机器学
NLP(新闻文本分类)——数据读取与数据分析浩波的笔记 NLP 机器学习 python nlp
初始数据importpandasaspddf_train=pd.read_csv('E:/python-project/deep-learning/datawhale/nlp/news-data/train_set.csv/train_set.csv',sep='\t')df_test=pd.read_csv('E:/python-project/deep-learning/datawhale/n
AI - Apple Silicon Mac M1 原生支持 TensorFlow 2.6 GPU 加速（tensorflow-metal PluggableDevice） CatchZeng
原文：http://makeoptim.com/deep-learning/tensorflow-metal前言系统要求当前不支持XcodeCommandLineToolsHomebrewMiniforge创建虚拟环境安装Tensorflowdependencies首次安装升级安装安装Tensorflow安装metalplugin安装必须的包测试JupyterLabVSCode延伸阅读参考前言几天
易 AI - ResNet 论文深度讲解 CatchZeng
原文：https://makeoptim.com/deep-learning/yiai-paper-resnet论文地址阅读方式DeepResidualLearningforImageRecognition图像识别的深度残差学习Abstract摘要1Introduction1简介2RelatedWork2相关工作3.DeepResidualLearning3.深度残差学习3.1.ResidualL
Windows安装PyTorch-CPU Ann剑安装PyTorch pytorch windows python
看了好多大佬的教程，终于给自己老旧电脑成功安装了PyTorch本电脑安装的软件PyTorch=1.12.1anaconda版本为conda4.8.2（anaconda自行安装）开始前以管理员方式运行anacondaprompt一、安装PyTorch一、安装PyTorch（1）创建环境为deep-learning，也可以为PyTorch（就是一个名字）。指定Python版本condacreate-n
transformer(Bert)的多头注意力对每一个head进行降维的分析想赚钱的雷大
背景：在用keras的multiattention模块做实验的时候，发现学习参数随着头数的增多而增多，与transformer中的实现不太一致结果：本着想了解透彻的思路去网上搜索了一番，第一篇我就觉得整理的不错，附上链接：http://www.sniper97.cn/index.php/note/deep-learning/note-deep-learning/4002/总结一下：一言蔽之的话，大
nvidia 3060 + cuda + cudnn + tf 代码&诗 tensorflow python 深度学习
参考：https://eipi10.cn/deep-learning/2019/11/28/centos_cuda_cudnn/1.环境版本：CentOSLinuxrelease7.8.2003(Core)Tensorflow-gpu2.5nvidia3060cuda11.2.2cudnn-11.32.环境检查：lscpi|grep-invidia#要有nvidia设备3.首先安装nvidia-3
identifier “THCudaCheck“ is undefined 的解决方法莫说相公痴 Machine Learning Python Pytorch 深度学习 pytorch 人工智能
THCudaCheck在pytorch1.11.0版本被移除了，可以看文档https://www.exxactcorp.com/blog/Deep-Learning/pytorch-1-11-0-now-available解决方法是将THCudaCheck替换成C10_CUDA_CHECK
交通事故预测—《Traffic Accident’s Severity Prediction: A Deep-Learning Approach-Based CNN Network》永恒的记忆2019 科研论文 python 机器学习人工智能
一、文章信息《TrafficAccident’sSeverityPrediction:ADeep-LearningApproach-BasedCNNNetwork》，2019年Access上的一篇文章。二、摘要基于交通事故特征的权重，提出了基于特征矩阵的灰色图像(FM2GI)算法，将交通事故数据的单一特征关系转换为包含并行组合关系的灰色图像作为模型的输入变量，网络模型是基于CNN。（也就是说这篇文
通过 MQTT 检测对象和传输图像 woshicver python opencv vnc cv opengl
在本文中，我们将学习如何使用open-cv和YOLO对象检测器每五秒捕获/保存和检测图像中的对象。然后我们将图像转换为字节数组并通过MQTT发布，这将在另一个远程设备上接收并保存为JPG。我们将使用YoloV3算法和一个免费的MQTT代理YoloV3算法：https://viso.ai/deep-learning/yolov3-overview/#:~:text=What's%20Next%3F-
DNN(Deep-Learning Neural Network) sherlock31415931 ML 神经网络深度学习人工智能 tensorflow numpy
DNN(Deep-LearningNeuralNetwork)接下来介绍比较常见的全连接层网络（fully-connectedfeedfowardneruralnetwork）名词解释首先介绍一下神经网络的基本架构，以一个神经元为例输入是一个向量，权重（weights）也是一个矩阵把两个矩阵进行相乘，最后加上偏差（bias），即w1*x1+w2*x2+b神经元里面会有一个激活函数（activati
AlexNet详解 tt丫深度学习人工智能深度学习神经网络 AlexNet
入门小菜鸟，希望像做笔记记录自己学的东西，也希望能帮助到同样入门的人，更希望大佬们帮忙纠错啦~侵权立删。✨完整代码在我的github上，有需要的朋友可以康康✨GitHub-tt-s-t/Deep-Learning:Storesomeofyourownin-depthlearningcode,whichiscurrentlyintheupdatestage.Thecontentcovers:each
论文解读：ProteinBERT: a universal deep-learning model of protein sequence and function wangpan007 生信论文神经网络 python编程深度学习神经网络 python
目录1.研究背景2.研究数据2.1预训练的蛋白质数据集2.2蛋白质基准数据集3.研究方法3.1序列和标注编码3.2蛋白质序列和注释的自我监督预训练3.3对蛋白质基准进行监督微调3.4深度学习框架4.结果4.1预训练可以改善蛋白质模型4.2ProteinBERT在不同的蛋白质基准上达到了近乎最先进的结果4.4全局注意力机制的理解5.结论作者单位：耶路撒冷希伯来大学发表期刊：《Bioinformati
【U-Net2015】U-Net: Convolutional Networks for Biomedical Image Segmentation mage Segmentation 不会声调的博er 深度学习 caffe 计算机视觉
U-Net:ConvolutionalNetworksforBiomedicalmageSegmentation生物医学图像语义分割的卷积神经网络arXiv:1505.04597v1[cs.CV]18May2015文章地址：https://arxiv.org/abs/1505.04597代码地址：https://github.com/Jack-Cherish/Deep-Learning/tree/
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理