李泽滨_123

SegNet: A Deep convolutioa Encoder-Decoder Architecture for image Segmentation

摘要

我们呈现了一个新颖和实践可行的深度全卷积模型来进行逐像素的语义分割，网络名叫做SegNet。核心的训练分割的引擎包含一个编码网络和一个与之相联系的解码网络，后面还有一个逐像素的分类层。编码网络的结构拓扑上和VGG16的前13层网络相同。解码网络的作用是将低分辨率的编码特征图映射成输入分辨率的特征图来完成逐像素的分类。我么的SegNet形式上的新颖之处在于解码网络对低分辨率输入特征图进行上采样。解码器使用在编码阶段与之相联系的max pool中用来计算的max pooling索引来完成非线性上采样。这可以不用再学习上采样的参数。上采样之后的特征图是稀疏的，然后再和一个可以训练的滤波器进行卷积来产生密集特征图。我们将我们提出的网络模型与广泛被使用的FCN和广为人知的DeepLab-LargeFOV【3】，DeconvNet【4】进行了比较。比较结果展示了我们的内存和准确率平衡使得性能上得到了很大的提升。

SegNet主要是被场景理解应用所驱动产生的。因此，它在推理阶段内存和计算时间上都必须很高效。相比于其他模型，它的训练参数数量更少，可以使用端到端的随机梯度下降来进行学习。我们也针对SegNet和其他模型在路面场景数据集和SUN RGB-D 室内数据集上进行了一个controlled benchmark。这些量化的评价指标显示了SegNet相比于其他模型在推理时间上，有效的内存使用上性能有很大提升。我们提供了 Caffe源代码和一个demo。

1.介绍

现在在逐像素的语义标注上有一个非常活跃的研究【7， 8， 9， 2， 4， 10， 11， 12， 13， 3， 14， 15， 16】。但是最近的一些方法都是直接尝试采用为逐像素标注的类别预测设计的深度网络【7】。结果虽然也很激动人心，但是也比较粗糙【3】。这主要是因为最大池化和下采样降低了特征图的尺寸。我们设计SegNet的主要动机在于我们需要将低分辨率特征映射到输入分辨率来完成逐像素的分类。这种映射必须产生对准确的边界定位非常有用的特征。

我们的SegNet网络主要是被路面场景理解的应用所驱动，场面场景理解要求对外观（道路、建筑），形状（汽车、行人）建模，理解环境关系（不同类别比如说路面和人行道）。在典型的道路场景中大多数的像素属于大类别比如说道路、建筑，因此网络必须产生平滑分割。引擎也必须能够根据形状（即使小尺寸）来描绘出物体。因此，在提取出来的图像表示中保留边界信息很重要。端到端的训练可以使用权重更新技术共同优化网络参数，这样会有很大的好处，因为它更容易repeatable。

SegNet的核心组成是解码网络，包含与每一个编码层所对应的解码层。使用最大索引来执行非线性上采样，这个idea来自于一个为非监督学习设计的网络【19】.在解码阶段重新使用最大池化索引有几个实际的好处：（1）提升了边界划分的能力；（2）减少了端到端训练的参数；（3）这种形式的上采样经过很小的修改就可以包含进任何形式的编码解码网络中如【2， 10】。

这篇论文的主要贡献在于我们对SegNet解码技术的分析和使用了FCN。很多最近的完成分割的深度网络有相同的编码网络如VGG16，但是解码网络的形式不同。其它网络的训练参数的量级达到了数亿，因此端到端地训练会有很大的困难。因为训练很困难使它们往往采用多阶段训练（FCN）【2】，或增加一个预训练【11， 20】，使用辅助技术如区域提议推理【4】，或full Training【10】，提升性能的后处理技术【3】.我们分析了【2， 4】中使用的解码过程，reveal their pros and cons。

我们在两个场景分割任务中评价了SegNet的性能 ,Cam Vid 路面场景【22】和SUN RGB-D indoor 场景分割【23】.方法【3】也使用了分类网络和单独的CRF（条件随机长）后处理技术来执行分割。为了证明SegNet网络性能，我们有一个实时在线的路面场景分割的demo，里面有11个自动驾驶感兴趣的类别。

Section3描述和分析了SegNet， Section4在室内室外场景数据集上评价SegNet。Section5一个一般性的和其他模型的比较讨论。

2.文献回顾

语义分割数据集【21】，【22】，【23】，【25】，【26】；
室内RGBD逐像素语义分割因为NYU数据集的发布【25】越来越流行。这个数据集显示深度通道可提升分割性能。
新的用来分割的深度网络【2】【4】【10】【13】【14】通过解码或映射低分辨率的图像表示来完成逐像素预测。在所有这些网络里编码网络都是VGG16。
FCN的编码网络参数量很大（134M），解码网络的参数两却很少（0.5M）。总体的尺寸依然很大，使得它很难在特定任务上完成端到端的训练。因此，FCN的作者才使用逐阶段的训练。FCN除了训练相关的问题，在解码阶段需要重新使用编码的特征图使得测试时内存消耗非常大。我们详细地研究了这种网络作为重要的对比模型。
FCN+RNN （Fine-tunning on large dataset 【21】【42】）
CRF-RNN
DeConvolutional Network【4】
我们的模型受到Ranzato等【19】的无监督特征学习网络的启发。核心的学习模块是编码-解码网络。编码网络包括卷积，tanh非线性，最大池化，下采样。对于每一个样本，池化过程中计算max值的索引被存储下来传递给解码器。解码器使用这个索引对特征图上采样。上采样之后的特征图再进行卷积，重建输入图像。网络使用分类预训练。
论文【50】讨论了从低分辨率的特征图上去学习上采样的需要，这种学习正是本论文的核心。

3.结构

SegNet = Encoder + Decoder + a final pixelwise classification layer
编码网络使用VGG16，丢弃3个卷积层；一下子使参数量从134M变为14.7M。
编码网络中的每一层在解码网络中都有一个对应的层，因此解码网络也有13层。最终的解码器输出给一个多类别的soft-max分类器给每一个像素产生一个类别概率。
编码网络：卷积 + BN + ReLU + Max Pooling

Max-pooling is used to achieve translation invariance over small spatial shifts in the input image. Sub-sampling results in a large input image context (spatial window) for each pixel in the feature map. While several layers of max-pooling and sub-sampling can achieve more translation invariance for robust classification correspondingly there is a loss of spatial resolution of the feature maps. The increasingly lossy (boundary detail) image representation is not beneficial for segmentation where boundary delineation is vital. Therefore, it is necessary to capture and store boundary information in the encoder feature maps before sub-sampling is performed. If memory during inference is not constrained, then all the encoder feature maps (after subsampling) can be stored. This is usually not the case in practical applications and hence we propose a more efficient way to store this information. It involves storing only the max-pooling indices, i.e, the locations of the maximum feature value in each pooling window is memorized for each encoder feature map. In principle, this can be done using 2 bits for each 2 × 2 pooling window and is thus much more efficient to store as compared to memorizing feature map(s) in float precision.

这一段话说到了最大池化不仅仅降低维度减少计算量的作用，增大了特征图像素点的感受野，也引入了平移不变性，这种平移不变性使得卷积网络在分类中鲁棒性增强。这段话也明确地指出卷积特征能够提取细节信息，位置信息，物体边界信息。但是池化却在不断地丢失这种信息。

解码器采用最大池化中保存下来的索引来上采样，会产生稀疏的特征图。

DeconvNet【53】和U-Net【16】与SegNet有相同的结构，但是它们的参数量更大，需要更多的计算资源，很难实现端到端训练，主要是因为它们使用了全连接层。

3.1解码器的变体

SegNet-Basic有4个编码器和4个解码器（从结构图中可以看出）。编码和解码阶段每一个卷积后面都有一个BN，解码阶段卷积之后没有add bias，也没有ReLU非线性。

FCN的decoder

On the right in Fig. 3 is the FCN (also FCN-Basic) decoding technique. The important design element of the FCN model is dimensionality reduction step of the encoder feature maps. This compresses the encoder feature maps which are then used in the corresponding decoders. Dimensionality reduction of the encoder feature maps, say of 64 channels, is performed by convolving them with 1 × 1 × 64 × K trainable filters, where K is the number of classes. The compressed K channel final encoder layer feature maps are the input to the decoder network. In a decoder of this network, upsampling is performed by inverse convolution using a fixed or trainable multi-channel upsampling kernel. We set the kernel size to 8 × 8. This manner of upsampling is also termed as deconvolution.

SegNet的decoder

Note that, in comparison, SegNet the multi-channel convolution using trainable decoder filters is performed after upsampling to densifying feature maps. The upsampled feature map in FCN has K channels. It is then added element-wise to the corresponding resolution encoder feature map to produce the output decoder feature map. The upsampling kernels are initialized using bilinear interpolation weights [2].

这段话解释了FCN中的decoder的结构，在FCN里上采样是通过反卷积来完成，反卷积的参数这里说是可以是固定的也可以是可训练的。融合低层的信息前每个分支都是要进行一次卷积核尺寸为1*1的卷积，这里说的主要是为了降维。这里说上采样卷积核是用双线性插值的权重进行初始化。

3.2训练

损失函数：交叉熵，The loss is summed up over all the pixels in a mini-batch.
class balancing :

When there is large variation in the number of pixels in each class in the training set (e.g road, sky and building
pixels dominate the CamVid dataset) then there is a need to weight the loss differently based on the true class. This is termed class balancing. We use median frequency balancing [13] where the weight assigned to a class in the loss function is the ratio of the median of class frequencies computed on the entire training set divided by the class frequency. This implies that larger classes in the training set have a weight smaller than 1 and the weights of the smallest classes are the highest. We also experimented with training the different variants without class balancing or equivalently using natural frequency balancing.

这里说的class frequency到底是什么，这是一个很大的疑问。

一篇解释SegNet比较好的博客

原文地址：SegNet

复现详解：http://mi.eng.cam.ac.uk/projects/segnet/tutorial.html

实现代码: github

TensorFlow

简介：

SegNet是Cambridge提出旨在解决自动驾驶或者智能机器人的图像语义分割深度网络，开放源码，基于caffe框架。SegNet基于FCN，修改VGG-16网络得到的语义分割网络，有两种版本的SegNet，分别为SegNet与Bayesian SegNet，同时SegNet作者根据网络的深度提供了一个basic版（浅网络）。

网络框架：

SegNet和FCN思路十分相似，只是Encoder,Decoder(Upsampling)使用的技术不一致。此外SegNet的编码器部分使用的是VGG16的前13层卷积网络，每个编码器层都对应一个解码器层，最终解码器的输出被送入soft-max分类器以独立的为每个像素产生类概率。

左边是卷积提取特征，通过pooling增大感受野，同时图片变小，该过程称为Encoder，右边是反卷积（在这里反卷积与卷积没有区别）与upsampling，通过反卷积使得图像分类后特征得以重现，upsampling还原到图像原始尺寸，该过程称为Decoder，最后通过Softmax，输出不同分类的最大值，得到最终分割图。

Encoder：

Encoder过程中，通过卷积提取特征，SegNet使用的卷积为same卷积，即卷积后保持图像原始尺寸；在Decoder过程中，同样使用same卷积，不过卷积的作用是为upsampling变大的图像丰富信息，使得在Pooling过程丢失的信息可以通过学习在Decoder得到。SegNet中的卷积与传统CNN的卷积并没有区别。

Pooling&Upsampling（decoder）：

Pooling在CNN中是使得图片缩小一半的手段，通常有max与mean两种Pooling方式，下图所示的是max Pooling。max Pooling是使用一个2x2的filter，取出这4个权重最大的一个，原图大小为4x4，Pooling之后大小为2x2，原图左上角粉色的四个数，最后只剩最大的6，这就是max的意思。

在SegNet中的Pooling与其他Pooling多了一个index功能（该文章亮点之一），也就是每次Pooling，都会保存通过max选出的权值在2x2 filter中的相对位置，对于上图的6来说，6在粉色2x2 filter中的位置为(1，1)(index从0开始），黄色的3的index为(0，0)。同时，从网络框架图可以看到绿色的pooling与红色的upsampling通过pool indices相连，实际上是pooling后的indices输出到对应的upsampling（因为网络是对称的，所以第1次的pooling对应最后1次的upsamping，如此类推）。
Upsamping就是Pooling的逆过程（index在Upsampling过程中发挥作用），Upsamping使得图片变大2倍。我们清楚的知道Pooling之后，每个filter会丢失了3个权重，这些权重是无法复原的，但是在Upsamping层中可以得到在Pooling中相对Pooling filter的位置。所以Upsampling中先对输入的特征图放大两倍，然后把输入特征图的数据根据Pooling indices放入，下图所示，Unpooling对应上述的Upsampling，switch variables对应Pooling indices。

对比FCN可以发现SegNet在Unpooling时用index信息，直接将数据放回对应位置，后面再接Conv训练学习。这个上采样不需要训练学习(只是占用了一些存储空间)。反观FCN则是用transposed convolution策略，即将feature 反卷积后得到upsampling，这一过程需要学习，同时将encoder阶段对应的feature做通道降维，使得通道维度和upsampling相同，这样就能做像素相加得到最终的decoder输出.

Deconvolution：

pooling&Upsampling示意图中右边的Upsampling可以知道，2x2的输入，变成4x4的图，但是除了被记住位置的Pooling indices，其他位置的权值为0，因为数据已经被pooling走了。因此，SegNet使用的反卷积在这里用于填充缺失的内容，因此这里的反卷积与卷积是一模一样，在网络框架图中跟随Upsampling层后面的是也是卷积层。

Output：

在网络框架中，SegNet，最后一个卷积层会输出所有的类别（包括other类），网络最后加上一个softmax层，由于是end to end，所以softmax需要求出所有每一个像素在所有类别最大的概率，最为该像素的label，最终完成图像像素级别的分类。

Bayesian SegNet

可以知道，在SeNet中最后每个像素都会对每一类的概率进行计算，再通过Softmat输出概率最大的一个，然后这个像素点就认为是这一类别，对应的概率就是这一像素属于该类的概率。这种由原因到结果的推导，可以称为先验概率，任何先验概率使用都会出现一个问题，不能知道这一结果的可靠性，即便先验概率非常大，但是对于不同的样本，先验概率无法保证一定正确。正是如此，才需要有从结果寻找原因的贝叶斯概率，即后验概率，它能给出结果的可信程度，即置信度。Bayesian SegNet正是通过后验概率，告诉我们图像语义分割结果的置信度是多少。Bayesian SegNet如下图所示。

对比两框架图，并没有发现Bayesian SegNet与SegNet的差别，事实上，从网络变化的角度看，Bayesian SegNet只是在卷积层中多加了一个DropOut层，其作用后面解释。最右边的两个图Segmentation与Model Uncertainty，就是像素点语义分割输出与其不确定度（颜色越深代表不确定性越大，即置信度越低）。

DropOut

在传统神经网络中DropOut层的主要作用是防止权值过度拟合，增强学习能力。DropOut层的原理是，输入经过DropOut层之后，随机使部分神经元不工作（权值为0），即只激活部分神经元，结果是这次迭代的向前和向后传播只有部分权值得到学习，即改变权值。

因此，DropOut层服从二项分布，结果不是0，就是1，在CNN中可以设定其为0或1的概率来到达每次只让百分之几的神经元参与训练或者测试。在Bayesian SegNet中，SegNet作者把概率设置为0.5，即每次只有一半的神经元在工作。因为每次只训练部分权值，可以很清楚地知道，DropOut层会导致学习速度减慢。

Gaussian process & Monte Carlo Dropout Sampling

参考论文：Dropout as a Bayesian approximation: Representing model uncertainty in deep learning
这里只说明高斯过程与蒙特卡罗抽样的作用，不详细解释原理。高斯过程是指任意有限个随机变量都服从联合高斯分布，同时只需要知道均值与协防差就能够确定一个高斯过程，所以高斯过程可以用于从有限维到无限维的回归问题，从已知高斯分布，增加新的随机变量分布可以求出新的高斯分布，根据新的分布可以求出其均值与方差。

如何确定一个高斯分布？需要多次采样才能确定一个分布。蒙特卡罗抽样告诉我们可以通过设计一个试验方法将一个事件的频率转化为概率，因为在足够大的样本中，事件发生的频率会趋向事件发生的概率，因此可以很方便地求出一个未知分布。通过蒙特卡罗抽样，就可以求出一个新分布的均值与方差，这样使用方差大小就可以知道一个分布对于样本的差异性，我们知道方差越大差异越大。

Use Bayesian SegNet

在Bayesian SegNet中通过DropOut层实现多次采样，多次采样的样本值为最后输出，方差最为其不确定度，方差越大不确定度越大，如图6所示，mean为图像语义分割结果，var为不确定大小。所以在使用Bayesian SegNet预测时，需要多次向前传播采样才能够得到关于分类不确定度的灰度图，Bayesian SegNet预测如下图所示。

第一行为输入图像，第二行为ground truth，第三行为Bayesian SegNet语义分割输出，第四行为不确定灰度图。可以看到，
1.对于分类的边界位置，不确定性较大，即其置信度较低。
2.对于图像语义分割错误的地方，置信度也较低。
3.对于难以区分的类别，例如人与自行车，road与pavement，两者如果有相互重叠，不确定度会增加。

IJCAI2024 无脑敲代码，bug漫天飞会议
CallforPapers–IJCAI2024重要日期(所有时间都是地球上的任何地方，UTC-12)摘要提交截止日期:2024年1月10日作者信息截止日期:2024年1月16日论文全文截止日期:2024年1月17日附录和重新提交信息截止日期:2024年1月24日简易拒绝通知:2024年2月22日作者回复时间:2024年3月18日至21日书面通知:2024年4月16日会议:2024年8月3日星期六至
第66期 | GPTSecurity周报云起无垠 GPTSecurity AIGC gpt
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.利用高级大语言模型
第65期 | GPTSecurity周报云起无垠 GPTSecurity 人工智能网络安全语言模型
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.基于第一性原理的大
特征点提取与匹配原文论文下载长沙有肥鱼视觉SLAM十四讲计算机视觉
ORB原文下载链接：(PDF)ORB:anefficientalternativetoSIFTorSURFSIFT原文下载链接：https://www.cs.ubc.ca/~lowe/papers/ijcv04.pdfSURF原文下载链接:https://www.cs.jhu.edu/~misha/ReadingSeminar/Papers/Bay08.pdfORB和AKAZE对比论文下载链接：h
今日欧美圈：Sam Smith专辑改期，The Box狂揽B榜十周冠胡萝卜音乐
新一期Billboard单曲榜上，《TheBox》狂揽十周冠，DuaLipa热单《Don'tStartNow》升至亚军，LilUziVert有三首歌曲进入前十。SamSmith新专辑《ToDieFor》发行日期推迟到6月5日。新单要来啦！LaurenJauregui宣布新单《Lento》将在3月20日发行。HarryStyles登上BeautyPapers写真释出！在《冰雪奇缘2》中为Honeym
英语精读笔记.新概念第三册(5)The facts确切数字英文研习社
文章原文：Editorsofnewspapersandmagazinesoftengotoextremestoprovidetheirreaderswithunimportantfactsandstatistics.Lastyearajournalisthadbeeninstructedbyawell-knownmagazinetowriteanarticleonthepresident'spal
【AI视野·今日NLP 自然语言处理论文速览第八十二期】Tue, 5 Mar 2024 hitrjj LLM NLP Papers 人工智能自然语言处理 NLP 预训练模型文本摘要情绪识别推理训练
AI视野·今日CS.NLP自然语言处理论文速览Tue,5Mar2024(showingfirst100of175entries)Totally100papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersKey-Point-DrivenDataSynthesiswithitsEnhancementonMathematicalReasoningAut
第34期 | GPTSecurity周报 llmaigc
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大型语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.Constitu
第39期 | GPTSecurity周报 aigcllm人工智能
GPTSecurity是一个涵盖了前沿学术研究和实践经验分享的社区，集成了生成预训练Transformer（GPT）、人工智能生成内容（AIGC）以及大型语言模型（LLM）等安全领域应用的知识。在这里，您可以找到关于GPT/AIGC/LLM最新的研究论文、博客文章、实用的工具和预设指令（Prompts）。现为了更好地知悉近一周的贡献内容，现总结如下。SecurityPapers1.BadChain
习题2.3 old bill 513k 王道机试指南数据结构
描述Amonggrandfather’spapersabillwasfound.72turkeys$679Thefirstandthelastdigitsofthenumberthatobviouslyrepresentedthetotalpriceofthoseturkeysarereplacedherebyblanks(denoted_),fortheyarefadedandareillegi
使用动态网格的流体动画 Fluid Animation with Dynamic Meshes 论文阅读笔记 hijackedbycsdn Fluid Simulation 笔记
目录引言背景方法离散化离散化的导数算子速度插值广义的半拉格朗日步重新网格化双向流固耦合和质量守恒原文：Klingner,BryanM.,etal.“Fluidanimationwithdynamicmeshes.”ACMSIGGRAPH2006Papers.2006.820-825.引言使用[Alliezetal.,2005]的方法动态生成不规则的四面体网格根据边界的位置、边界的形状、基于流体和速
了解和学习OpenAI的方法和途径 ABEL in China 学习 OpenAI
学习和了解OpenAI的资料可以从多个渠道获取，这些渠道涵盖了各种形式的学习资源。以下是一些推荐的学习资料：OpenAI官方网站：OpenAI的官方网站是获取关于该组织最权威和最新信息的地方。你可以在那里找到他们的研究成果、项目介绍、博客文章和新闻公告等。ResearchPapers（研究论文）：OpenAI发表了许多高质量的研究论文，这些论文涵盖了人工智能领域的各个方面。你可以在学术搜索引擎上找
使用八叉树模拟水和烟雾 Simulating Water and Smoke with an Octree Data Structure 论文阅读笔记 hijackedbycsdn Fluid Simulation 笔记
原文：Losasso,Frank,FrédéricGibou,andRonFedkiw.“Simulatingwaterandsmokewithanoctreedatastructure.”Acmsiggraph2004papers.2004.457-462.引言这篇文章扩展了[Popinet2003]的工作，拓展到表面自由流，并且使得八叉树不受限制自适应网格划分的一个缺点是，它的模板不是均匀的，
【AI视野·今日NLP 自然语言处理论文速览第七十八期】Wed, 17 Jan 2024 hitrjj NLP LLM Papers NLP LLM 大语言模型文本处理生成模型
AI视野·今日CS.NLP自然语言处理论文速览Wed,17Jan2024(showingfirst100of163entries)Totally100papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersDeductiveClosureTrainingofLanguageModelsforCoherence,Accuracy,andUpdatab
【AI视野·今日Robot 机器人论文速览第七十九期】Thu, 18 Jan 2024 hitrjj 人形机器人触觉 Papers 人工智能机器人声学软体机器人导航多机器人协同触觉感知控制
AI视野·今日CS.Robotics机器人学论文速览Thu,18Jan2024Totally43papers上期速览✈更多精彩请移步主页DailyRoboticsPapersCognitiveDog:LargeMultimodalModelBasedSystemtoTranslateVisionandLanguageintoActionofQuadrupedRobotAuthorsArtemLyk
【AI视野·今日NLP 自然语言处理论文速览第七十九期】Thu, 18 Jan 2024 hitrjj LLM NLP Papers 自然语言处理 LLM 大语言模型对话系统 NLP
AI视野·今日CS.NLP自然语言处理论文速览Thu,18Jan2024Totally35papers上期速览✈更多精彩请移步主页DailyComputationandLanguagePapersDecipheringTextualAuthenticity:AGeneralizedStrategythroughtheLensofLargeLanguageSemanticsforDetectingH
【AI视野·今日CV 计算机视觉论文速览第300期】Tue, 30 Jan 2024 hitrjj 视觉计算机视觉 Papers 计算机视觉视听重建 GaussianSplat 视觉行为分析
AI视野·今日CS.CV计算机视觉论文速览Tue,30Jan2024Totally146papers上期速览✈更多精彩请移步主页DailyComputerVisionPapersComputerVisionforPrimateBehaviorAnalysisintheWildAuthorsRichardVogg,TimoLddecke,JonathanHenrich,SharmitaDey,Mat
【AI视野·今日CV 计算机视觉论文速览第292期】Thu, 18 Jan 2024 hitrjj 视觉计算机视觉 Papers 计算机视觉 CV 生成模型 AIGC 3D 高效计算
AI视野·今日CS.CV计算机视觉论文速览Thu,18Jan2024Totally102papers上期速览✈更多精彩请移步主页DailyComputerVisionPapersGARField:GroupAnythingwithRadianceFieldsAuthorsChungMinKim,MingxuanWu,JustinKerr,KenGoldberg,MatthewTancik,Angj
【AI视野·今日CV 计算机视觉论文速览第293期】Fri, 19 Jan 2024 hitrjj 视觉计算机视觉 Papers 计算机视觉 SAM Segmetation Inpainting 图像感知图像重建
AI视野·今日CS.CV计算机视觉论文速览Fri,19Jan2024Totally103papers上期速览✈更多精彩请移步主页DailyComputerVisionPapersParaHome:ParameterizingEverydayHomeActivitiesTowards3DGenerativeModelingofHuman-ObjectInteractionsAuthorsJeongh
区块链互操作协议 mutourend 区块链区块链
1.引言AlexeiZamyatin等人2019年论文SoK:CommunicationAcrossDistributedLedgers。参考资料[1]2019年论文SoK:CommunicationAcrossDistributedLedgers[2]Alistofblockchain-relatedSoKpapers[3]2021年视频FC21:SoK:CommunicationAcrossD
Android 10.0 动态壁纸 LiveWallpaper 龙之叶技术 framework Android android
前言在Android中，壁纸分为动态与静态两种，但其实两者得本质都是一样。都以一个Service得形式在后台运行，在一个类型为TYPE_WALLPAPER的窗口上绘制内容。也可以这么去理解：静态壁纸是一种特殊的动态壁纸，它仅在窗口上渲染了一张图片，而不会对用户的操作做出反应。动态壁纸不能只应用于锁屏。壁纸实现时涉及的几个主要的类：WallpaperService及其内部类Engine：壁纸在Wal
矩阵与计算机论文,数字图像处理中矩阵变换的应用探索-数字图像处理论文-计算机论文.docx... weixin_39977642 矩阵与计算机论文
数字图像处理中矩阵变换的应用探索-数字图像处理论文-计算机论文——文章均为WORD文档，下载后可直接编辑使用亦可打印——摘要：从矩阵变换入手,将矩阵变换应用到图像处理中,且通过直方图匹配法及欧几里得距离法求取相似度来进行人脸识别和预测。所得实验结果直观高效,相似度均能达到90%以上。关键词：数字图像处理;矩阵变换;人脸识别和预测;相似度;Abstract：Thispaperstartswithma
122（背）阿飞fighting
今天的句子：（终极大杀器！）Nor,ifregularityandconformitytoastandardpatternareasdesirabletothescientistasthewritingofhispaperswouldappeartoreflect,ismanagementtobeblamedfordiscriminatingagainstthe“oddballs”amongres
TheBrain空间壁纸的来源_Papers.co(20190621周五) 菜五
(2019-06-21-周五06:26:39)http://papers.co/desktop/page/2/?s=bluehttps://zhuanlan.zhihu.com/p/70061301
实例分割论文阅读之：FCN：《Fully Convolutional Networks for Semantica Segmentation》交换喜悲 mdetection系列论文阅读目标检测人工智能实例分割计算机视觉卷积神经网络
论文地址:https://openaccess.thecvf.com/content_cvpr_2015/papers/Long_Fully_Convolutional_Networks_2015_CVPR_paper.pdf代码链接：https://github.com/pytorch/vision摘要卷积网络是强大的视觉模型，可以产生特征层次结构。我们证明，经过端到端、像素到像素训练的卷积网络
论文笔记-Generative Adversarial Nets 升不上三段的大鱼
论文链接：https://papers.nips.cc/paper/2014/file/5ca3e9b122f61f8f06494c97b1afccf3-Paper.pdf论文解读：https://www.bilibili.com/video/BV1rb4y187vD?share_source=copy_web一句话总结：提出了生成模型框架GAN，包括一个生成模型G和一个判别模型D，用有监督的损失
课程论文章剑坡
MZUMBEUNIVERSITYNAMEOFCOURSE:MBA-CMNAMEOFSUBJECT:MANAGERIALECONOMICSSTUDENTNAME:JIANPOZHANGREGISTRATIONNO:221050164/T.18LECTURER:Prof.Ngowi,H.P(PhDEconomics)NATUREOFWORK:TERMPAPERSUBMISSIONDATE:15/2/2
PairLIE论文阅读笔记 Alex·Fall 低光增强论文阅读笔记
PairLIE论文阅读笔记论文为2023CVPR的LearningaSimpleLow-lightImageEnhancerfromPairedLow-lightInstances.论文链接如下：openaccess.thecvf.com/content/CVPR2023/papers/Fu_Learning_a_Simple_Low-Light_Image_Enhancer_From_Paire
语义分割系列之FCN、DeeplabV1、V2、V3、V3Plus论文学习 Diros1g 学习深度学习计算机视觉
FCNFullyConvolutionalNetworks论文：FullyConvolutionalNetworksforSemanticSegmentation地址:https://openaccess.thecvf.com/content_cvpr_2015/papers/Long_Fully_Convolutional_Networks_2015_CVPR_paper.pdf特点：用全卷积替
2022-01-11（121）DREAM HORSE梦之马木金木水火土的木
DREAMHORSENeedlessly,watchingmylooking-glassimage,withitspassionforpapersandcinemas,daysoftheweek,Ipluckfrommyheartmyhell'scaptainandordertheclauses,equivocallysad.Idriftbetweenthispointandthat,absorb
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin