快乐成长吧

【经典网络学习笔记3】VGG-Very Deep Convolutional Networks for Large-Scale Image Recognition

论文链接：http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks

主要是针对原论文，和参考相关笔记，进行了个人解读，抽丝而成，请大家多多指教。

要点掌握

1、VGG16网络结构

2、33和11小卷积核的优点

3、训练数据的处理

多尺度训练是原图的尺寸的最小边在256-512变化、训练是随机截取224*224，训练数据的尺寸是224*224，是不会变的。

mult-crop test测试的时候则是 central crop方式。正中间截取224*224送进interface中

dense evaluation 测试的时候则是原图的尺寸，即（256,384,512），其如何实现的呢？就是将最后三层全连接变成了3层全卷积。如何理解呢？如下：

处理数据的大值流程，但实际工程的情况则比较复杂，这只是为了知道流程。

4、网络特点：（VGG和alxnet的区别）

5、感受野：

通俗来说，特征图上的一个点跟原题上有关系的点的区域！！

感受野怎么理解？

感受野计算公式

这是AlexNet的感受野计算（待考证）

摘要

在这项工作中，主要研究卷积网络Convolutional networks (ConvNets)深度在大规模的图像识别环境下对准确性的影响。主要贡献是使用非常小的（3×3）卷积滤波器架构对网络深度的增加进行了全面评估，这表明通过将深度推到16-19加权层可以实现对现有技术配置的显著改进，在定位和分类过程中分别获得了第一名和第二名，对于其他数据集泛化的很好，在其它数据集上取得了最好的结果。

1、引言

卷积网络（ConvNets）近来在大规模图像和视频识别方面取得了巨大成功，原因1有开源ImageNet和高性能计算系统的出现，例如GPU或大规模分布式集群，原因2方法上从高纬浅层features encoding到深层的ConvNets。

随着ConvNets在计算机视觉领域越来越商品化，为了达到更好的准确性，很多人尝试改进改进Krizhevsky等人（2012）最初的架构。从两方面改进，1是更小filter尺寸，在第一层卷积上更小的stride；2是在整个图像和多个尺度上对网络进行密集地训练和测试。该论文是在深度上下功夫。固定其他超参数，不断增加层数，技巧：3×3filters。

2.1 通用结构：

input： 224×224 RGB
预处理：从每个像素中减去在训练集上计算的RGB均值。
Conv filter： 3×3，1×1（只在C中使用，可以看作输入通道的线性变换（后面是非线性））
stride：1
padding： same，1，for 3×3
pooling：5 max_pool (并非所有的conv后面都有)，2×2 ，stride=2

通用结构，多个conv层加3个FC层（2层4096+ 1层1000，然后 soft-max），所有隐藏层都配备了修正（ReLU（Krizhevsky等，2012））非线性。没有使用局部响应规划化LRN（只有A-LRN使用），不使用的原因1：对比A和A-LRN结果显示没有帮忙改进效果，原因2：增加内存占用和计算时间，在应用的地方，其LRN层的参数是（Krizhevsky等，2012）的参数。

2.2配置

图1 不同VGG网络的结构

转存失败重新上传取消

图2 VGG-16的结构

表1 参数数量（百万级别）

表1 表明，尽管深度很大，网络中权重数量并不大于具有更大卷积层宽度和感受野的较浅网络中的权重数量（144M的权重在（Sermanet等人，2014）中）

2.3 讨论

之前的竞赛模型：11×11strides4 ，7×7strides2，VGG模型filters 3×3 strides1.很容易看到两个3×3卷积层堆叠（没有空间池化）有5×5的有效感受野；三个3×3卷积层堆叠具有7×7的有效感受野。意义呢？如下：

在于1：2-3层relu，比单个relu，有更强的分辨能力；在于2：减少参数数量：1个7×7conv：7×7*C**2，3个3×3conv：3×3×3conv。少了80%。（这可以看作是对7×7卷积滤波器进行正则化，迫使它们通过3×3滤波器（在它们之间注入非线性）进行分解。）
1×1conv层，维持input output维数不变，简单线性计算，增加非线性出来（relu）。

对此前人成果：Ciresan等人（2011）以前使用小尺寸的卷积滤波器，没有在大规模的ILSVRC数据集上进行评估，Goodfellow等人（2014），街道号识别任务中采用深层ConvNets（11个权重层），显示出增加的深度导致了更好的性能，GooLeNet（Szegedy等，2014），ILSVRC-2014分类任务的表现最好的项目，是独立于我们工作之外的开发的，但是类似的是它是基于非常深的ConvNets（22个权重层）和小卷积滤波器（除了3×3，它们也使用了1×1和5×5卷积），它们的网络拓扑结构比我们的更复杂，并且在第一层中特征图的空间分辨率被更积极地减少，以减少计算量。本模型：在单网络分类精度方面胜过Szegedy等人（the single-network classification accuracy更好）

3、1 如何训练

S = 训练尺度 Q = 测试尺度（虽然裁剪尺寸固定为224×224，但原则上S可以是不小于224的任何值）不论256还是384，还是随机的S，都必须crop成224×224，这样才有统一的input shape。

站在AlexNet肩膀上（只是没有做图片的cropping）
loss：最优化multinomial logistic regression
mini -batch fradientdescent：bp+momentum，batch_size:256,momentum:0.9,weight decay:L2=5e-4
dropout:前2个FC rate ：0.5
learning_rate：设置为10e-2，当validetion loss 不下降时手动将learning_rate下降e-1，总共训练了74个poches，下调了learning 3次。
对比AlexNet，该模型能更快找到最低loss，在于1：深度+小filter===间接regularization ，在于2对某些层做了预初始化处理。

weights的初始化的意义：影响反向传递的稳定性。如何确保良好的weights初始值？

给予A模型随机weights，训练A模型，从而获取训练好的conv，FC的weights，给更深的模型使用，其他层的weights使用randdom weights（mean =0，var=0.01），bias =0。
learning_rate从原始初始化值开始，设置为10e-2。
值得注意的是，在提交论文之后，我们发现可以通过使用Glorot＆Bengio（2010）的随机初始化程序来初始化权重而不进行预训练。

图片处理，input layer：压缩，修剪到224×224，cpu计算（在循环训练中进行），水平翻转和RGB演的shift：依然保持识别的能力。下面解释训练图像归一化。

如何修剪原始图片：crop_size：224×224，s=teainubf scale =最小边，若s==224.以此为修剪成为224×224就可以，若s>>224,任意截取一小部分图片。那么如何设置s？

方法1单尺度训练：对同一个模型，首先s固定为两个值，256,384，对于s=256，处理，先训练，获取weights，s=384，使用上面的weights，learning_rate变小10倍（我们使用较小的初始学习率10e-3）。
方法2：s取件[256,512]随机取值，对原图做scale，可看做data augmentation，增加样本，训练效果是一个模型对于不同scale图片具备一致的预测能力，为了加速训练，先训练好s=384的模型，提取参数作为初始参数，再开始训练。

3、2 如何测试

测试图片：Q！=S，only rescale not crop，测试模型：1st FC变成7×7卷积，2nd，3rd FC变成1×1卷积，fully-conv net ：输入是whole uncroped images，水平翻转（增加样本），输出是3d tensor，通道是num_classes，w和h使用sum-pooled处理，输出a vector of class scores，原图的class score ：原图score和水平翻转图score的平均值。

因为测试没有做croping，速度更快，使用croping，预测精度更好（基于细致的修剪图片抽样，同时需要坐padding，从而帮助抓住更多的图片context），但修剪导致增加的时间成本，vs产生的预测精度，得到结论是不划算，故没有croping。

3.3 实现细节

模型编写：c++caffe，大量modification

能做到：使用多GPU，能接收全尺寸，无修剪，不同scale，mini-batch分GPU做反向传递，再收集取均值。gradient计算与但GPU计算无差异。4GPU，提速3.75倍，耗时2-3周

3.4 分类实验

数据集：1000 class，train130w张，valid5w，test10w

measures评估指标：top1 error （错误预测占比，预测错误图片/总的图片），top5 error（正确class超出前5预测class范围的占比，正确预测超过前5分数的总数/总数）

实验时，用validation set 作为测试集使用。

4.1 单一scale评估

选取单一确定的Q值：方法1 Q=S，方法2 Q=0.5（Smin+Smax）,在A-LRN模型中，LRN无效，所以后面模型就不采用了。

表2：在单测试尺度的ConvNet性能

观察现象：

1. 越深，分类错误率越低。
2. 增加1×1conv效果更好，因为增加了non-linearity。
3. 3×3conv比1×1conv效果好，能抓住更多spatial context。
4. 到19层后，error rate saturate（无法进一步下降），相信更深模型+更大数据，可以下降。
5 对比B和由B变形的宽浅模型B*，B的一对3×3conv兑换一个5×5conv放入B*，B*的conv深度只有B的一半，B精度高出7%，深且小的conv要优于浅且宽的conv模型。
6 对原图做浮动S处理，训练处的模型，优于只做单一s值处理的训练出来的模型，当然，测试时只用一个固定的Q值。

4.2 多 scale 评估

用不同的scale处理后的图片一起来测试模型。如果模型只被单一S处理的训练，Q只选择3个值，相差32，如果模型是被多S值图片训练而成：Q也是三个值，但区间很大[Smin,ave(Smin,Smax),Smax],实验显示多个S值处理样本时，表现更优。

表3：ConvNet评估技术比较。在所有的实验中训练尺度S从[256；512]采样，三个测试适度Q考虑：{256, 384, 512}。

4.3 多 srop 评估

对数据样本做多cropping处理后让模型evaluate：

combination样本下的模型error < multi-crop样本下的模型error < 只是scale样本下模型error。

4.4 convNet fusion

将多个模型组合在一起使用，将多个模型的softmax output相加再取平均值，作为混合模型的output。上交结果后的模型都被多s处理的样本所训练，其表现更加好，由于上交的模型（值被单一s处理的样本训练）。

表4：多个卷积网络融合结果

参考内容：

图解论文：VGGhttps://zhuanlan.zhihu.com/p/36440919

VGG论文翻译——中英文对照 http://noahsnail.com/2017/08/17/2017-8-17-VGG%E8%AE%BA%E6%96%87%E7%BF%BB%E8%AF%91%E2%80%94%E2%80%94%E4%B8%AD%E8%8B%B1%E6%96%87%E5%AF%B9%E7%85%A7/

VGG笔记https://www.jianshu.com/p/5412d1dec69d

以VGG为例，分析深度网络的计算量和参数量https://blog.csdn.net/weixin_38300566/article/details/80703890

代码：

# ==============================================================================
from datetime import datetime
import math
import time
import tensorflow as tf

#创建卷积层且把本层的参数存入参数列表 name：层的名字
def conv_op(input_op, name, kh, kw, n_out, dh, dw, p):
    # 得到输入图片的通道数
    n_in = input_op.get_shape()[-1].value
    # 设置scope
    with tf.name_scope(name) as scope:
        # kernel卷积核参数用tf.variable创建
        # layers.xavier_initializer_conv2d()做参数初始化
        kernel = tf.get_variable(scope+"w",
                                 shape=[kh, kw, n_in, n_out],
                                 dtype=tf.float32, 
                                 initializer=tf.contrib.layers.xavier_initializer_conv2d())
        # tf.nn.conv2d进行卷积核处理
        conv = tf.nn.conv2d(input_op, kernel, (1, dh, dw, 1), padding='SAME')
        # biases使用tf.constant赋值为0
        bias_init_val = tf.constant(0.0, shape=[n_out], dtype=tf.float32)
        # tf.Variable将其转换为训练的参数
        biases = tf.Variable(bias_init_val, trainable=True, name='b')
        # 使用tf.nn.bias_add将卷积结果conv和biases相加
        z = tf.nn.bias_add(conv, biases)
        # 再做relu非线性变换得到activation
        activation = tf.nn.relu(z, name=scope)
        # 将这个卷积层用到参数kernel、biases添加到参数列表p，且将activation作为函数结果返回
        p += [kernel, biases]
        # 将卷积层的输出activation作为函数结果返回
        return activation
# 定义全连接层的创建函数
def fc_op(input_op, name, n_out, p):
    n_in = input_op.get_shape()[-1].value

    with tf.name_scope(name) as scope:
        # tf.get_variable创建全连接层的参数，这个参数为两个，第一个为维度为输入通道数in，第二维度为输出的通道数out
        # 初始化用xavier_initializer方法
        kernel = tf.get_variable(scope+"w",
                                 shape=[n_in, n_out],
                                 dtype=tf.float32, 
                                 initializer=tf.contrib.layers.xavier_initializer())
        # biases使用tf.constant赋值为0.1 避免dead neuron
        biases = tf.Variable(tf.constant(0.1, shape=[n_out], dtype=tf.float32), name='b')
        # relu_layer对输入变量input_op与kernel做矩阵乘法 且加上biases，再做relu非线性变化为activation
        activation = tf.nn.relu_layer(input_op, kernel, biases, name=scope)
        # 将这个全连接层用到参数kernel、biases添加到参数列表p，
        p += [kernel, biases]
        # 且将activation作为函数结果返回
        return activation

# 最大池化层的创建函数mpool_op
def mpool_op(input_op, name, kh, kw, dh, dw):
    # tf.nn.max_pool输入为input，池化尺寸kh*kw，步长dh*dw，padding模式设为SAME
    return tf.nn.max_pool(input_op,
                          ksize=[1, kh, kw, 1],
                          strides=[1, dh, dw, 1],
                          padding='SAME',
                          name=name)

# 创建VGG16的网络结构，输入input_op，keep_prob是控制dropout比例的一个placeholder
def inference_op(input_op, keep_prob):
    # 初始化参数p
    p = []
    # assume input_op shape is 224x224x3
    # 创建第一段卷积网络，2个3*3*64，步长为1*1，全像素扫描的卷积层，1个2*2，步长为2*2的最大池化
    # block 1 -- outputs 112x112x64
    conv1_1 = conv_op(input_op, name="conv1_1", kh=3, kw=3, n_out=64, dh=1, dw=1, p=p)
    conv1_2 = conv_op(conv1_1,  name="conv1_2", kh=3, kw=3, n_out=64, dh=1, dw=1, p=p)
    # 经过最大池化尺寸变为四分之一
    pool1 = mpool_op(conv1_2,   name="pool1",   kh=2, kw=2, dw=2, dh=2)

    # 创建第二段卷积网络，2个3*3*64，步长为1*1，全像素扫描的卷积层，1个2*2，步长为2*2的最大池化
    # block 2 -- outputs 56x56x128
    conv2_1 = conv_op(pool1,    name="conv2_1", kh=3, kw=3, n_out=128, dh=1, dw=1, p=p)
    conv2_2 = conv_op(conv2_1,  name="conv2_2", kh=3, kw=3, n_out=128, dh=1, dw=1, p=p)
    # 经过最大池化尺寸变为四分之一
    pool2 = mpool_op(conv2_2,   name="pool2",   kh=2, kw=2, dh=2, dw=2)

    # 创建第三段卷积网络，3个3*3*64，步长为1*1，全像素扫描的卷积层，1个2*2，步长为2*2的最大池化
    # # block 3 -- outputs 28x28x256
    conv3_1 = conv_op(pool2,    name="conv3_1", kh=3, kw=3, n_out=256, dh=1, dw=1, p=p)
    conv3_2 = conv_op(conv3_1,  name="conv3_2", kh=3, kw=3, n_out=256, dh=1, dw=1, p=p)
    conv3_3 = conv_op(conv3_2,  name="conv3_3", kh=3, kw=3, n_out=256, dh=1, dw=1, p=p)
    # 经过最大池化尺寸变为四分之一
    pool3 = mpool_op(conv3_3,   name="pool3",   kh=2, kw=2, dh=2, dw=2)

    # 创建第四段卷积网络，3个3*3*64，步长为1*1，全像素扫描的卷积层，1个2*2，步长为2*2的最大池化
    # block 4 -- outputs 14x14x512
    conv4_1 = conv_op(pool3,    name="conv4_1", kh=3, kw=3, n_out=512, dh=1, dw=1, p=p)
    conv4_2 = conv_op(conv4_1,  name="conv4_2", kh=3, kw=3, n_out=512, dh=1, dw=1, p=p)
    conv4_3 = conv_op(conv4_2,  name="conv4_3", kh=3, kw=3, n_out=512, dh=1, dw=1, p=p)
    # 经过最大池化尺寸变为四分之一
    pool4 = mpool_op(conv4_3,   name="pool4",   kh=2, kw=2, dh=2, dw=2)

    # 创建第五段卷积网络，3个3*3*64，步长为1*1，全像素扫描的卷积层，1个2*2，步长为2*2的最大池化
    # block 5 -- outputs 7x7x512
    conv5_1 = conv_op(pool4,    name="conv5_1", kh=3, kw=3, n_out=512, dh=1, dw=1, p=p)
    conv5_2 = conv_op(conv5_1,  name="conv5_2", kh=3, kw=3, n_out=512, dh=1, dw=1, p=p)
    conv5_3 = conv_op(conv5_2,  name="conv5_3", kh=3, kw=3, n_out=512, dh=1, dw=1, p=p)
    # 经过最大池化尺寸变为四分之一
    pool5 = mpool_op(conv5_3,   name="pool5",   kh=2, kw=2, dw=2, dh=2)

    # 将卷积网络的输出的结果进行偏平化
    # flatten
    shp = pool5.get_shape()
    flattened_shape = shp[1].value * shp[2].value * shp[3].value
    # 使用tf.reshape将每个样本化为长度7×7×512 = 25088  的一维向量
    resh1 = tf.reshape(pool5, [-1, flattened_shape], name="resh1")

    # fully connected
    # 链接一个隐含节点数为4096的全连接层，激活函数为ReLu
    fc6 = fc_op(resh1, name="fc6", n_out=4096, p=p)
    # 链接一个Dropout层，在训练时节点保留为0.5，预测时为1.0
    fc6_drop = tf.nn.dropout(fc6, keep_prob, name="fc6_drop")

    # 和前面一样的全连接层，之后同样一个dropout层
    fc7 = fc_op(fc6_drop, name="fc7", n_out=4096, p=p)
    fc7_drop = tf.nn.dropout(fc7, keep_prob, name="fc7_drop")

    # 链接一个1000的全连接层
    fc8 = fc_op(fc7_drop, name="fc8", n_out=1000, p=p)
    # 使用softmax处理得到分数输出概率
    softmax = tf.nn.softmax(fc8)
    # 使用argmax求输出概率的最大的类别
    predictions = tf.argmax(softmax, 1)
    # 将predictions、softmax、fc8、p一起返回
    return predictions, softmax, fc8, p

# 测评函数
def time_tensorflow_run(session, target, feed, info_string):
    num_steps_burn_in = 10
    total_duration = 0.0
    total_duration_squared = 0.0
    for i in range(num_batches + num_steps_burn_in):
        start_time = time.time()
        _ = session.run(target, feed_dict=feed)
        duration = time.time() - start_time
        if i >= num_steps_burn_in:
            if not i % 10:
                print ('%s: step %d, duration = %.3f' %
                       (datetime.now(), i - num_steps_burn_in, duration))
            total_duration += duration
            total_duration_squared += duration * duration
    mn = total_duration / num_batches
    vr = total_duration_squared / num_batches - mn * mn
    sd = math.sqrt(vr)
    print ('%s: %s across %d steps, %.3f +/- %.3f sec / batch' %
           (datetime.now(), info_string, num_batches, mn, sd))


# 测评函数的主函数，仅测评forward和backward的运算性能，不进行实质的训练和预测
def run_benchmark():
    with tf.Graph().as_default():
        image_size = 224
        # 生成224的随机图片，通过tf.random_normal函数生成标差为0.1的正态分布的随机数
        images = tf.Variable(tf.random_normal([batch_size,
                                               image_size,
                                               image_size, 3],
                                               dtype=tf.float32,
                                               stddev=1e-1))
        # 创建keep_prob的placeholder
        keep_prob = tf.placeholder(tf.float32)
        # 调用inference函数构建VGGNEt-16的网络结构，获得 predictions, softmax, fc8, p
        predictions, softmax, fc8, p = inference_op(images, keep_prob)


        config = tf.ConfigProto()
        # 为了令其瘦身，我们需要修改
        # TensorFlow
        # Session
        # 创建部分的代码。
        config.gpu_options.allow_growth = True
        # 使用的GPU 分配策略类型，"BFC"：最佳适配对齐算法
        config.gpu_options.allocator_type = 'BFC'
        # 创建session且初始化全局参数
        init = tf.global_variables_initializer()
        sess = tf.Session(config=config)
        sess.run(init)
        # 测试前传和backward的速度
        time_tensorflow_run(sess, predictions, {keep_prob:1.0}, "Forward")
        # 计算vGG16最后的全连接层的输出fc8的12loss
        objective = tf.nn.l2_loss(fc8)
        # 使用tf.gradients求相当于这个loss的所有模型参数的梯度
        grad = tf.gradients(objective, p)
        time_tensorflow_run(sess, grad, {keep_prob:0.5}, "Forward-backward")

batch_size=10 #32 - 20 -10就可以，前面两个batch都内存溢出
num_batches=100
run_benchmark()

论文笔记—NDT-Transformer: Large-Scale 3D Point Cloud Localization using the Normal Distribution Transfor 入门打工人笔记 slam 定位算法
论文笔记—NDT-Transformer:Large-Scale3DPointCloudLocalizationusingtheNormalDistributionTransformRepresentation文章摘要~~~~~~~在GPS挑战的环境中，自动驾驶对基于3D点云的地点识别有很高的要求，并且是基于激光雷达的SLAM系统的重要组成部分（即闭环检测）。本文提出了一种名为NDT-Transf
[论文笔记]Circle Loss: A Unified Perspective of Pair Similarity Optimization 愤怒的可乐 #文本匹配[论文]论文翻译/笔记自然语言处理论文阅读人工智能
引言为了理解CoSENT的loss，今天来读一下CircleLoss:AUnifiedPerspectiveofPairSimilarityOptimization。为了简单，下文中以翻译的口吻记录，比如替换"作者"为"我们"。这篇论文从对深度特征学习的成对相似度优化角度出发，旨在最大化同类之间的相似度sps_ps
【论文笔记】Multi-Task Learning as a Bargaining Game xhyu61 机器学习学习笔记论文笔记论文阅读人工智能深度学习
Abstract本文将多任务学习中的梯度组合步骤视为一种讨价还价式博弈(bargaininggame)，通过游戏，各个任务协商出共识梯度更新方向。在一定条件下，这种问题具有唯一解(NashBargainingSolution)，可以作为多任务学习中的一种原则方法。本文提出Nash-MTL，推导了其收敛性的理论保证。1Introduction大部分MTL优化算法遵循一个通用方案。计算所有任务的梯度g
[论文笔记] LLaVA 心心喵论文笔记论文阅读
一、LLaVA论文中的主要工作和实验结果ExistingGap:之前的大部分工作都在做模态对齐，做图片的representationlearning，而没有针对ChatBot（多轮对话，指令理解）这种场景优化。Contribution:这篇工作已经在BLIP-2之后了，所以Image的理解能力不是LLaVA希望提升的重点，LLaVA是想提升多模态模型的Instruction-Followingab
[论文笔记] LLM模型剪枝心心喵论文笔记论文阅读剪枝算法
AttentionIsAllYouNeedButYouDon’tNeedAllOfItForInferenceofLargeLanguageModelsLLaMA2在剪枝时，跳过ffn和跳过fulllayer的效果差不多。相比跳过ffn/fulllayer，跳过attentionlayer的影响会更小。跳过attentionlayer：7B/13B从100%参数剪枝到66%，平均指标只下降1.7～
【论文笔记】Training language models to follow instructions with human feedback B部分 Ctrl+Alt+L 大模型论文整理论文笔记论文阅读语言模型人工智能自然语言处理
TraininglanguagemodelstofollowinstructionswithhumanfeedbackB部分回顾一下第一代GPT-1：设计思路是“海量无标记文本进行无监督预训练+少量有标签文本有监督微调”范式；模型架构是基于Transformer的叠加解码器（掩码自注意力机制、残差、Layernorm）；下游各种具体任务的适应是通过在模型架构的输出后增加线性权重WyW_{y}Wy实
【论文笔记】：LAYN：用于小目标检测的轻量级多尺度注意力YOLOv8网络 hhhhhhkkkyyy 论文阅读目标检测 YOLO
背景针对嵌入式设备对目标检测算法的需求，大多数主流目标检测框架目前缺乏针对小目标的具体改进，然后提出的一种轻量级多尺度注意力YOLOv8小目标检测算法。小目标检测精度低的原因随着网络在训练过程中的加深，检测到的目标容易丢失边缘信息和灰度信息等。获得高级语义信息也较少，图像中可能存在一些噪声信息，误导训练网络学习不正确的特征。映射到原始图像的感受野的大小。当感受野相对较小时，空间结构特征保留较多，但
激光SLAM--(8) LeGO-LOAM论文笔记 lonely-stone slam 激光SLAM 论文阅读
论文标题：LeGO-LOAM：LightweightandGround-OptimizedLidarOdometryandMappingonVariableTerrain应用在可变地形场景的轻量级的、并利用地面优化的LOAMABSTRACT轻量级的、基于地面优化的LOAM实时进行六自由度位姿估计，应用在地面的车辆上。强调应用在地面车辆上是因为在这里面要求雷达必须水平安装，而像LOAM和LIO-SA
论文浅尝 - AAAI2020 | 迈向建立多语言义元知识库：用于 BabelNet Synsets 义元预测... 开放知识图谱机器学习人工智能知识图谱自然语言处理深度学习
论文笔记整理：潘锐，天津大学硕士。来源：AAAI2020链接：https://arxiv.org/pdf/1912.01795.pdf摘要义原被定义为人类语言的最小语义单位。义原知识库（KBs）是一种包含义原标注词汇的知识库，它已成功地应用于许多自然语言处理任务中。然而，现有的义原知识库建立在少数几种语言上，阻碍了它们的广泛应用。为此论文提出在多语种百科全书词典BabelNet的基础上建立一个统一
[论文笔记] LLM数据集——LongData-Corpus 心心喵论文笔记服务器 ubuntu linux
https://huggingface.co/datasets/yuyijiong/LongData-Corpus1、hf的数据在开发机上要设置sshkey，然后cat复制之后在设置在hf上2、中文小说数据在云盘上清华大学云盘下载：#!/bin/bash#BaseURLbase_url="https://cloud.tsinghua.edu.cn/d/0670fcb14d294c97b5cf/fi
[论文笔记] eval-big-refactor lm_eval 每两个任务使用一个gpu，并保证端口未被使用心心喵论文笔记 restful 后端
1.5B在eval时候两个任务一个gpu是可以的。7B+在evalbelebele时会OOM，所以分配时脚本不同。eval_fast.py：importsubprocessimportargparseimportosimportsocket#参数列表task_name_list=["flores_mt_en_to_id","flores_mt_en_to_vi","flores_mt_en_to_
【论文笔记】Separating the “Chirp” from the “Chat”: Self-supervised Visual Grounding of Sound and Language xhyu61 机器学习学习笔记论文笔记论文阅读
Abstract提出了DenseAV，一种新颖的双编码器接地架构，仅通过观看视频学习高分辨率、语义有意义和视听对齐的特征。在没有明确的本地化监督的情况下，DenseAV可以发现单词的"意义"和声音的"位置"。此外，它在没有监督的情况下自动发现并区分这两种类型的关联。DenseAV的定位能力源于一种新的多头特征聚合算子，该算子直接比较稠密的图像和音频表示进行对比学习。相比之下，许多其他学习"全局"音
图形学论文笔记 Jozky86 图形学图形学笔记
文章目录PBD：XPBD：shapematchingPBD：【深入浅出NvidiaFleX】(1)PositionBasedDynamics最简化的PBD(基于位置的动力学)算法详解-论文原理讲解和太极代码最简化的PBD(基于位置的动力学)算法详解-论文原理讲解和太极代码XPBD：基于XPBD的物理模拟一条龙：公式推导+代码+文字讲解（纯自制）【论文精读】XPBD基于位置的动力学XPBD论文解读(
【视觉三维重建】【论文笔记】Deblurring 3D Gaussian Splatting CS_Zero 论文阅读
去模糊的3D高斯泼溅，看Demo比3D高斯更加精细，对场景物体细节的还原度更高，[官网]（https://benhenryl.github.io/Deblurring-3D-Gaussian-Splatting/）背景技术Volumetricrendering-basednerualfields：NeRF.Rasterizationrendering:3D-GS.Rasterization比vol
[论文笔记] Transformer-XL 心心喵论文笔记 transformer 深度学习人工智能
这篇论文提出的Transformer-XL主要是针对Transformer在解决长依赖问题中受到固定长度上下文的限制，如Bert采用的Transformer最大上下文为512（其中是因为计算资源的限制，不是因为位置编码，因为使用的是绝对位置编码正余弦编码）。Transformer-XL能学习超过固定长度的依赖性，而不破坏时间一致性。它由段级递归机制和一种新的位置编码方案组成。该方法不仅能够捕获长期
SimpleShot: Revisiting Nearest-Neighbor Classification for Few-Shot Learning 论文笔记头柱碳只狼小样本学习
前言目前大多数小样本学习器首先使用一个卷积网络提取图像特征，然后将元学习方法与最近邻分类器结合起来，以进行图像识别。本文探讨了这样一种可能性，即在不使用元学习方法，而仅使用最近邻分类器的情况下，能否很好地处理小样本学习问题。本文发现，对图像特征进行简单的特征转换，然后再进行最近邻分类，也可以产生很好的小样本学习结果。比如，使用DenseNet特征的最近邻分类器，在结合均值相减（meansubtra
多模态相关论文笔记靖待大模型人工智能论文阅读
(cilp)LearningTransferableVisualModelsFromNaturalLanguageSupervision从自然语言监督中学习可迁移的视觉模型openAI2021年2月48页PDFCODECLIP(ContrastiveLanguage-ImagePre-Training)对比语言图像预训练模型引言它比ImageNet模型效果更好，计算效率更高。尤其是zero-sho
【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting lokol. 论文笔记论文阅读 llama
Lag-Llama:TowardsFoundationModelsforTimeSeriesForecasting摘要本文提出Lag-Llama，在大量时间序列数据上训练的通用单变量概率时间序列预测模型。模型在分布外泛化能力上取得较好效果。模型使用平滑破坏幂律（smoothlybrokenpower-laws）。介绍目前任务主要集中于在相同域的数据上训练模型。当前已有的大规模通用模型在大规模不同数
【论文笔记】Unsupervised Learning of Video Representations using LSTMs 奶茶不加糖え lstm 深度学习自然语言处理
摘要翻译我们使用长短时记忆（LongShortTermMemory,LSTM）网络来学习视频序列的表征。我们的模型使用LSTM编码器将输入序列映射到一个固定长度的表征向量。之后我们用一个或多个LSTM解码器解码这个表征向量来实现不同的任务，比如重建输入序列、预测未来序列。我们对两种输入序列——原始的图像小块和预训练卷积网络提取的高层表征向量——都做了实验。我们探索不同的设计选择，例如解码器的LST
MOSSE算法论文笔记以及代码解释 five days 计算机视觉深度学习机器学习
论文《VisualObjectTrackingusingAdaptiveCorrelationFilters》代码github1.论文idea提出以滤波器求相关的形式，找到最大响应处的位置，也就是我们所跟踪的目标的中心，进而不断的更新跟踪目标框和滤波器。2.跟踪策略如图，根据初始帧圈出的目标框训练滤波器，最大响应处为目标框的中心点，当移动到下一帧时，根据滤波器求相关的算法获得最大响应值，进而得出下
Attention Is All Your Need论文笔记 xiaoyan_lu 论文笔记论文阅读
论文解决了什么问题？提出了一个新的简单网络架构——transformer，仅仅是基于注意力机制，完全免去递推和卷积，使得神经网络训练地速度极大地提高。Weproposeanewsimplenetworkarchitecture,theTransformer,basedsolelyonattentionmechanisms,dispensingwithrecurrenceandconvolution
论文笔记：相似感知的多模态假新闻检测图学习的小张论文笔记论文阅读 python
整理了RecSys2020ProgressiveLayeredExtraction:ANovelMulti-TaskLearningModelforPersonalizedRecommendations）论文的阅读笔记背景模型实验论文地址：SAFE背景在此之前，对利用新闻文章中文本信息和视觉信息之间的关系(相似性)的关注较少。这种相似性有助于识别虚假新闻，例如，虚假新闻也许会试图使用不相关的图
[论文总结] 深度学习在农业领域应用论文笔记12 落痕的寒假论文总结深度学习论文阅读人工智能
文章目录1.3D-ZeF:A3DZebrafishTrackingBenchmarkDataset(CVPR,2020)摘要背景相关研究所提出的数据集方法和结果个人总结2.Automatedflowerclassificationoveralargenumberofclasses(ComputerVision,Graphics&ImageProcessing,2008)摘要背景分割与分类数据集和实
论文笔记之LINE:Large-scale Information Network Embedding 小弦弦喵喵喵
原文：LINE:Large-scaleInformationNetworkEmbedding本文提出一种新的networkembeddingmodel：LINE.能够处理大规模的各式各样的网络，比如：有向图、无向图、有权重图、无权重图.文中指出对于networkembedding问题，需要保留localstructure和globalstructure，分别对应first-orderproximi
打败一切NeRF！ 3D Gaussian Splatting 的简单入门知识 Ci_ci 17 3d python
新手的论文笔记3DGaussianSplatting的笔记introductionRelatedwork预备知识Gaussiansplatting3D高斯泼溅原理Overview3DGaussianSplatting的笔记每次都是在csdn上找救命稻草，这是第一次在csdn上发东西。确实是个不错的笔记网站，还能同步，保存哈哈哈。印象笔记，Onenote逊爆了。研一刚开学两个月，导师放养，给的方向还
《Residual Bi-Fusion Feature Pyramid Network for Accurate Single-shot Object Detection》论文笔记 m_buddy #General Object Detection Bi-Fusion
参考代码：无1.概述导读：在检测任务中一般会引入FPN增强在不同尺度下网络的检测性能，但是只通过top-down的FPN网络是很难去重建由于特征图的漂移（水平或是垂直方向运动）在经过pooling操作（pooling不具有平移不变性）带来结果相差很大的问题（特别针对小目标），而且FPN带来的性能提升会在使用较多卷积层之后逐渐被稀释（卷积的平移不变形），进而会导致一些小目标定位性能降低。对此可以通过
论文笔记-Generative Adversarial Nets 升不上三段的大鱼
论文链接：https://papers.nips.cc/paper/2014/file/5ca3e9b122f61f8f06494c97b1afccf3-Paper.pdf论文解读：https://www.bilibili.com/video/BV1rb4y187vD?share_source=copy_web一句话总结：提出了生成模型框架GAN，包括一个生成模型G和一个判别模型D，用有监督的损失
论文笔记：NIPS 2020 Graph Contrastive Learning with Augmentations 饮冰l 图弱监督数据挖掘机器学习神经网络深度学习
前言本文主要提出在图对比学习大框架下的图数据增强的若干方法。概括来说，本文提出了一种图对比学习框架来无监督的完成图表示学习，首先作者提出了基于各种先验信息的四种图数据增强方法。然后，作者分析了在四种不同的图数据增强条件下，不同组合对多个数据集的影响:半监督、无监督、迁移学习以及对抗性攻击。作者为GNN的预训练提出了基于图数据增强的对比学习框架来解决图中数据异质性的挑战，本文的主要贡献如下：作者提出
论文笔记-vChain: Enabling Verifiable Boolean Range Queries over Blockchain Databases qq_40431700 笔记区块链
核心方法：提出了一种基于累加器的可认证数据结构，可以动态聚合任意查询属性提出块内和块间索引，聚合块内和块间数据，可以做高效查询验证倒排前缀树结构，加速同时处理大量数据的订阅查询提出问题：1.range查询2.布尔查询3.没有可靠第三方、而且不能保证查询的完整性图中元素有：①全节点②矿工节点：是全节点，而且负责构建共识证明，比如计算nonce③轻节点：存nonce、区块的哈希，不存数据记录提出的Vc
论文笔记--Improving Language Understanding by Generative Pre-Training Isawany 论文阅读论文阅读自然语言处理 chatgpt 语言模型 nlp
论文笔记GPT1--ImprovingLanguageUnderstandingbyGenerativePre-Training1.文章简介2.文章导读2.1概括2.2文章重点技术2.2.1无监督预训练2.2.2有监督微调2.2.3不同微调任务的输入3.Bert&GPT4.文章亮点5.原文传送门6.References1.文章简介标题：ImprovingLanguageUnderstandingb
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc