帅的被人砍1996

MiCT: Mixed 3D/2D Convolutional Tube for Human Action Recognition论文笔记

2D/3D联合卷积模块MiCT：全面提升行为识别的性能和效率

编者按：行为识别是计算机视觉领域的一个重要研究方向，在监控、自动驾驶等日常场景中具有广泛的应用前景。为了提升3D CNN在行为识别分析中的性能，微软亚洲研究院网络多媒体组在CVPR 2018上提出了一个简单而高效的3D/2D混合卷积模块（MiCT）。MiCT模块使3D CNN能够以更少的3D时空融合、更小的模型、更快的速度来提取到更深的视频时空特征，进而大幅提升行为识别的表现。

行为识别

计算机帮助摄像师自动分析视频中的动作类型，给出相应的动作标签便于后续的视频检索及编辑；在机器人及自动驾驶领域，系统捕捉、理解、预判人类的动作行为，从而及时做出相应的判断及反应；监控系统通过摄像头自动检测某些特定或异常行为，例如打架、抢劫、老人/儿童摔倒、虐童等，并自动采取报警或警告措施。

这些已经或者即将出现在我们日常生活中的应用场景中，都应用到了计算机视觉领域中的一个基础研究方向——行为识别。行为识别的本质是视频理解，既对于给出的一段视频，机器对视频中主要行为类型的一个判断。它在视频监控、人机交互、自动驾驶等很多现实场景中具有重要的应用价值。

但是，基于视频的行为分析是一个很有挑战的问题。在现实环境中，由于姿态、角度、光照、以及遮挡等问题，一个相同的动作在不同的视频中可以呈现出巨大的差异性，同类行为间的类内距可能大于不同类行为之间类间距。目前，部分大多数人可以轻而易举分辨的动作，让机器准确判断还是很困难的。

2D CNN与3D CNN对比

行为分析中的一个关键问题是确定鲁棒的特征。基于提取的鲁棒特征，机器学习相应的分类器来给出视频中主体行为的一个判断。早期关于鲁棒特征提取的研究工作集中于人为定义或设计的一些特征，如灰度、梯度、光流等。随着深度学习的日益普及，基于深度学习的行为分析方法不断涌现。实验结果显示，目前基于深度网络自主学习的特征表达的性能已经超越了基于人为设计的特征方法。目前面向行为识别的深度学习方法大体可分为两类：基于二维（2D）卷积神经网络（CNN）特征和基于三维（3D）CNN特征的方法。

基于2D CNN特征的方法

一个6层的2D卷积神经网络

简言之，基于2D CNN特征的方法的共性在于涉及的特征都是通过2D CNN获得的。在视频中使用2D CNN的一个简单方法就是对视频中的每一帧使用2D卷积，但是视频是三维数据，这种方法忽略了视频中时间维度的信息，没有利用连续帧间的运动信息。于是，双流（two-stream）体系结构应运而生。它的基本思想就是分别训练两个2D卷积网络分别学习外观（RGB帧）和运动（光流）两路输入信息的特征，并基于这两类2D特征来做出行为的判断。此外，递归神经网络（RNN）也被用于动作识别，例如通过LSTM网络来探索帧级2D特征的时空关系。

基于3D CNN特征的方法

一个6层的3D卷积神经网络

基于3D CNN特征的方法在建立在3D卷积神经网络的基础上。如图1和图2显示，2D CNN和3D CNN在结构上其实是相似的，但是3D CNN在卷积过程中可以将视频中的连续帧堆叠为立方体，并在此立方体中运用3D卷积核，从而能够提取时空混合特征。此类方法的代表工作是C3D，它基于3D CNN来提取3D时空特征并用于行为识别。

但是，由于3D CNN比2D CNN结构复杂，参数量大，通常其网络深度有限，难于训练。于是，出现了一些近似的深度神经网络，如I3D或P3D。这些方法通过2D卷积网膨胀（inflation）或2D+1D卷积网络来逼近3D卷积网络。此外，同基于2D特征的方案类似，递归神经网络，如LSTM，也被引入基于3D特征的算法中来实现更复杂的时空融合策略。

3D/2D混合卷积模块（MiCT）

2D CNN在图像等二维信号处理和分析的相关任务中取得了令人瞩目的性能。然而其相对应的3D CNN在三维信号（比如视频信号）的处理和分析中并没有取得相应的高性能。就行为识别而言，目前实验室测试结果显示最佳的性能仍然是基于2D CNN特征的双流网络获得的。

为什么3D CNN在视频分析中没有获得它应有的性能呢？事实上，3D CNN理论上能够有效地提取时空特征。然而，将时空维度混合在一起的同时，也增加了3D CNN网络的优化难度。与相应的2D卷积相比，3D 卷积的参数量大，大量参数堆叠在一起形成3D CNN，这极大地增加了优化的难度、内存使用和计算成本，使得训练一个深度3D CNN变得非常困难。除此之外，我们也缺少一个可以用来训练深度3D CNN网络所需的大型（如ImageNet数量级的）视频数据。

面对这些挑战，通过3D CNN来有效地学习深度时空融合特征是否依然可行呢？

我们在CVPR 2018上发表的MiCT: Mixed 3D/2D Convolutional Tube for Human Action Recognition论文中，提出了一个简单而高效的模块——3D/2D混合卷积模块（MiCT），来处理视频数据，尝试解决这一挑战。

3D/2D串联混合模块 （Concatenate Connection）

视频图像中时空信息的分布并不是均衡的，同空域信息相比，视频中时域信息的冗余度较高，相邻两帧的内容通常很相似，如下图所示。因此，我们把特征学习中的研究重点更多地放在有关空域的分析上。

此外，我们也发现每个3D卷积都会产生一个混合了时空信息的2D特征图，如下图所示。所以，增强2D特征图的分析学习能力也能够进一步提升3D卷积的性能。

因此，我们首先提出3D/2D串联混合模块（Concatenate Connection）。如下图所示，在3D/2D串联模块中，我们提出在每个3D卷积之后串联一个深度2D CNN。通过3D/2D串联模块的使用，我们可以有效地增加3D CNN的深度，加强2D空域的学习能力，从而生成更深更强的3D特征，并使得3D CNN可以充分利用在图像数据上预先训练的2D CNN模型。在相关的网络设计中，我们提出相应地减少3D卷积的数量，从而进一步减小模型的大小，提升模型的效率。

3D/2D跨域残差并联模块 （Cross-domain Residue Connection）

通过3D/2D串联模块的使用，我们得到一个更深的3D卷积神经网络。然而，更深的CNN通常意味着更难的训练过程。如果只是通过简单的层数堆叠来加深网络可能造成梯度消失并导致更大的训练错误。为了解决这个问题，我们提出利用3D和2D特征图之间的相关性，让3D和2D卷积共享空间信息，如下图所示。由于2D空间特征相对容易学习，我们可以利用2D卷积并通过残差学习的方式来促进3D特征的学习。

因此，我们进一步提出了一个3D/2D跨域残差并联模块（Cross-domain Residue Connection）。如下图所示，我们提出在3D卷积的输入和输出之间引入另一个2D CNN的残差连接，以进一步降低时空融合的复杂性，并有效地促进整个网络的优化。

与之前ResNet中的残差连接不同，我们方案中的2D CNN捷径（shortcut）是跨域的。并联的两路并不是相同的两路2D或3D卷积，其中一路是处理3D输入的3D卷积，另一路是处理2D输入的2D卷积。

由于视频流通常包含大量的相似连续帧，这导致沿着时间维度的特征图中包含大量的冗余信息。通过引入2D卷积块来提取信息丰富但静态的2D特征，MiCT中的3D卷积仅需要沿时间维度学习残差信息。同时，2D和3D卷积共享空域信息。因此，跨域残余连接在很大程度上降低了3D特征学习的复杂性。

最终，我们提出的MiCT模块结合了上面提出的两个子模块：3D/2D串联混合模块和3D/2D跨域残差并联模块，实现了性能和效率两方面的全面提升。

深度MiCT网络MiCT-Net

为了验证MiCT的有效性，我们通过将MiCT堆叠在一起，构建一个简单的3D CNN网络MiCT-Net。如下图所示，MiCT-Net由四个MiCT组成，这也意味着我们使用了4个3D卷积。MiCT-Net将RGB视频序列作为输入，可进行端到端训练。表1中提供了网络体系结构的更多信息。我们在网络的最后一层使用时间维度上的全局池，以使网络能够接受任意长度的视频作为输入。

MiCT-Net网络。绿色块表示3D卷积；橘色和蓝色块分别表示2D跨域残差并联和串联混合模块。马赛克块表示n-路特征图。

同基础网络C3D相比，MiCT-Net包含较少的用于时空融合的3D卷积，但是产生了更深的特征图，同时有效地控制了整个深度模型的复杂性。此外，与传统的3D CNN不同，我们的框架能够利用在大型图像数据集上预训练的2D模型。大图像数据集上预先训练的参数有可能为MiCT中的2D卷积模块提供更好的初始化。

鲁棒特征提取性能全面提升

为了验证MiCT-Net的性能，我们使用了三个行为识别的公共数据集（UCF101、Sport-1M和HMDB-51）来进行测试。和基础网络C3D相比，MiCT-Net取得了全方面的提升。如下表所示，MiCT-Net以更小的模型、更快的速度实现了更高的准确性。

......................................................................................................................................................................................................................................................................................................................................................................................................................

论文主要内容：

本文考虑到在识别人体动作的时候，3D CNN的水平不及2D CNN在识别静态图片时的水平，认为这是由于3D CNN消耗的计算资源和存储资源过大导致不能很好的训练，因此在本文中提出了一个2D和3D CNN结合的模型进行动作识别。

摘要：首先介绍背景，即目前有人探索使用3D CNN进行动作识别。接着就指出当前方法的不足，就是说3D CNN在处理视频的时候，达到的水准并不及CNN在处理2D静态图片时达到的水准。接着进行了简要的分析分析原因以便引出自己的模型。原因的分析是3D卷积所需要的spatio-temporal fusion带来的训练复杂度以及所需的存储消耗限制了3D CNN的表现。接着引出本文的模型，将2D和3D CNN混合得到的mixed convolutional tube（MiCT），这个模型将2D3D CNN结合起来，以便生成更深的且更加informative的feature map，并同时减少每一轮spatio-temporal fusion的训练复杂度。这种模块堆叠在一起还能形成新的端到端的深度网络MiCT-Net，用来探索人体动作中的spatio-temporal信息。最后作者介绍了一下实验结果，在一些数据集上取得了state-of-the-art的结果。

技术部分，本文提出了两种混合2D和3D卷积的方式，concatenating connections和cross-domain residual connections。首先，下图是使用了2D3D concatenated connection的模型的示意图：

用数学语言来描述的话，在t时刻的feature map表示为，那么将可以表述为

其中是从t时刻到时刻的切片张量，上式不是最终版本，M其实只是时-空域特征图的线性融合操作，最终版本是另外提出了一个函数，这个，而这里的H其实就是2D卷积，也就是说这个数学描述描述的就是上图所示的过程，先进行3D卷积，接着对feature map进行2D卷积。这个过程可以理解为：3D卷积聚合了时空两个维度的信息，之后如果像是3D CNN那样继续叠加3D卷积层的话，会极大增加计算复杂度，因此退而求其次，使用2D卷积继续提升feature map的abstract level，同时又不会增加太大的计算负担。

跨域 residual connection的模型示意图如下所示：

这里的cross-domain residual指的是添加的residual不是普通意义上的直接将输入加到卷积后的结果上，而是将输入先用2D卷积处理一下，再添加到3D卷积的输出上，称之为cross-domain residual，数学描述如下

这里o指的就是3D卷积的输出结果，而H和之前一样指的是2D卷积，是输入tensor在t0时刻的slice，并且，这个2D卷积不是在所有的帧上都进行，而是经过采样的某些帧上进行。作者指出，引入这种residual的原因是考虑到视频信息中，相邻的几帧经常是差不多的，造成了冗余信息，而模型中2D卷积只在采样的某几帧进行，抓取了稳定而且更加抽象的feature，3Dconvolution就只需要在这些经过2D卷积处理的，冗余大大减少的数据上进行卷积了。

最终作者还将这两种connection合起来形成一个MiCT模型，如下图所示

这个模型前面用了residual的，后面又加了一层2D卷积，像concatenate connection的。

进行实验的时候，作者用四个这种MiCT模块搭建了深度网络，网络用端到端的方式训练，整个网络就只有4层3D卷积，大大减少了训练的复杂度。具体来讲整个网络如下图所示

具体每一层的参数如下表

这里面2D网络用的是别人提出来的inception block，如下图所示

采取不同的卷积，然后将结果合并在一起。模型中的2D卷积层可以使用在大的image dataset上训练好的参数，作为一个很好的初始化，这也增加了模型的能力。

本文的实验部分做的并不是很复杂，但是也算丰富，首先是对比了MiCT网络和基础的3D CNN的表现，然后是和其他state-of-the-art的方法的对比，这个对比进行了两项，一个是直接的对比，另一个是和一些two-stream的模型对比（MiCT也设置成2stream的），最后，文章对模型进行了一下可视化，指出模型能够适应不同速度的action，具有不错的能力。

总结一下本文的模型，我认为本文的模型主要的贡献是cross-domain residual connection的这个操作，通过sample一些frames进行2D卷积，结合3D卷积，大大减少了模型的复杂度，并且使得很多冗余数据不需要再去学习。主要贡献就是改进了3D CNN的网络模型。

参考文献：

论文 http://openaccess.thecvf.com/content_cvpr_2018/papers/Zhou_MiCT_Mixed_3D2D_CVPR_2018_paper.pdf

博客 https://zhuanlan.zhihu.com/p/54844623

https://blog.csdn.net/b224618/article/details/82533177

我觉得论文描述的也挺清晰的，这篇博客转载了这两篇的内容。

论文笔记—NDT-Transformer: Large-Scale 3D Point Cloud Localization using the Normal Distribution Transfor 入门打工人笔记 slam 定位算法
论文笔记—NDT-Transformer:Large-Scale3DPointCloudLocalizationusingtheNormalDistributionTransformRepresentation文章摘要~~~~~~~在GPS挑战的环境中，自动驾驶对基于3D点云的地点识别有很高的要求，并且是基于激光雷达的SLAM系统的重要组成部分（即闭环检测）。本文提出了一种名为NDT-Transf
[论文笔记]Circle Loss: A Unified Perspective of Pair Similarity Optimization 愤怒的可乐 #文本匹配[论文]论文翻译/笔记自然语言处理论文阅读人工智能
引言为了理解CoSENT的loss，今天来读一下CircleLoss:AUnifiedPerspectiveofPairSimilarityOptimization。为了简单，下文中以翻译的口吻记录，比如替换"作者"为"我们"。这篇论文从对深度特征学习的成对相似度优化角度出发，旨在最大化同类之间的相似度sps_ps
【论文笔记】Multi-Task Learning as a Bargaining Game xhyu61 机器学习学习笔记论文笔记论文阅读人工智能深度学习
Abstract本文将多任务学习中的梯度组合步骤视为一种讨价还价式博弈(bargaininggame)，通过游戏，各个任务协商出共识梯度更新方向。在一定条件下，这种问题具有唯一解(NashBargainingSolution)，可以作为多任务学习中的一种原则方法。本文提出Nash-MTL，推导了其收敛性的理论保证。1Introduction大部分MTL优化算法遵循一个通用方案。计算所有任务的梯度g
[论文笔记] LLaVA 心心喵论文笔记论文阅读
一、LLaVA论文中的主要工作和实验结果ExistingGap:之前的大部分工作都在做模态对齐，做图片的representationlearning，而没有针对ChatBot（多轮对话，指令理解）这种场景优化。Contribution:这篇工作已经在BLIP-2之后了，所以Image的理解能力不是LLaVA希望提升的重点，LLaVA是想提升多模态模型的Instruction-Followingab
[论文笔记] LLM模型剪枝心心喵论文笔记论文阅读剪枝算法
AttentionIsAllYouNeedButYouDon’tNeedAllOfItForInferenceofLargeLanguageModelsLLaMA2在剪枝时，跳过ffn和跳过fulllayer的效果差不多。相比跳过ffn/fulllayer，跳过attentionlayer的影响会更小。跳过attentionlayer：7B/13B从100%参数剪枝到66%，平均指标只下降1.7～
【论文笔记】Training language models to follow instructions with human feedback B部分 Ctrl+Alt+L 大模型论文整理论文笔记论文阅读语言模型人工智能自然语言处理
TraininglanguagemodelstofollowinstructionswithhumanfeedbackB部分回顾一下第一代GPT-1：设计思路是“海量无标记文本进行无监督预训练+少量有标签文本有监督微调”范式；模型架构是基于Transformer的叠加解码器（掩码自注意力机制、残差、Layernorm）；下游各种具体任务的适应是通过在模型架构的输出后增加线性权重WyW_{y}Wy实
【论文笔记】：LAYN：用于小目标检测的轻量级多尺度注意力YOLOv8网络 hhhhhhkkkyyy 论文阅读目标检测 YOLO
背景针对嵌入式设备对目标检测算法的需求，大多数主流目标检测框架目前缺乏针对小目标的具体改进，然后提出的一种轻量级多尺度注意力YOLOv8小目标检测算法。小目标检测精度低的原因随着网络在训练过程中的加深，检测到的目标容易丢失边缘信息和灰度信息等。获得高级语义信息也较少，图像中可能存在一些噪声信息，误导训练网络学习不正确的特征。映射到原始图像的感受野的大小。当感受野相对较小时，空间结构特征保留较多，但
激光SLAM--(8) LeGO-LOAM论文笔记 lonely-stone slam 激光SLAM 论文阅读
论文标题：LeGO-LOAM：LightweightandGround-OptimizedLidarOdometryandMappingonVariableTerrain应用在可变地形场景的轻量级的、并利用地面优化的LOAMABSTRACT轻量级的、基于地面优化的LOAM实时进行六自由度位姿估计，应用在地面的车辆上。强调应用在地面车辆上是因为在这里面要求雷达必须水平安装，而像LOAM和LIO-SA
论文浅尝 - AAAI2020 | 迈向建立多语言义元知识库：用于 BabelNet Synsets 义元预测... 开放知识图谱机器学习人工智能知识图谱自然语言处理深度学习
论文笔记整理：潘锐，天津大学硕士。来源：AAAI2020链接：https://arxiv.org/pdf/1912.01795.pdf摘要义原被定义为人类语言的最小语义单位。义原知识库（KBs）是一种包含义原标注词汇的知识库，它已成功地应用于许多自然语言处理任务中。然而，现有的义原知识库建立在少数几种语言上，阻碍了它们的广泛应用。为此论文提出在多语种百科全书词典BabelNet的基础上建立一个统一
[论文笔记] LLM数据集——LongData-Corpus 心心喵论文笔记服务器 ubuntu linux
https://huggingface.co/datasets/yuyijiong/LongData-Corpus1、hf的数据在开发机上要设置sshkey，然后cat复制之后在设置在hf上2、中文小说数据在云盘上清华大学云盘下载：#!/bin/bash#BaseURLbase_url="https://cloud.tsinghua.edu.cn/d/0670fcb14d294c97b5cf/fi
[论文笔记] eval-big-refactor lm_eval 每两个任务使用一个gpu，并保证端口未被使用心心喵论文笔记 restful 后端
1.5B在eval时候两个任务一个gpu是可以的。7B+在evalbelebele时会OOM，所以分配时脚本不同。eval_fast.py：importsubprocessimportargparseimportosimportsocket#参数列表task_name_list=["flores_mt_en_to_id","flores_mt_en_to_vi","flores_mt_en_to_
【论文笔记】Separating the “Chirp” from the “Chat”: Self-supervised Visual Grounding of Sound and Language xhyu61 机器学习学习笔记论文笔记论文阅读
Abstract提出了DenseAV，一种新颖的双编码器接地架构，仅通过观看视频学习高分辨率、语义有意义和视听对齐的特征。在没有明确的本地化监督的情况下，DenseAV可以发现单词的"意义"和声音的"位置"。此外，它在没有监督的情况下自动发现并区分这两种类型的关联。DenseAV的定位能力源于一种新的多头特征聚合算子，该算子直接比较稠密的图像和音频表示进行对比学习。相比之下，许多其他学习"全局"音
图形学论文笔记 Jozky86 图形学图形学笔记
文章目录PBD：XPBD：shapematchingPBD：【深入浅出NvidiaFleX】(1)PositionBasedDynamics最简化的PBD(基于位置的动力学)算法详解-论文原理讲解和太极代码最简化的PBD(基于位置的动力学)算法详解-论文原理讲解和太极代码XPBD：基于XPBD的物理模拟一条龙：公式推导+代码+文字讲解（纯自制）【论文精读】XPBD基于位置的动力学XPBD论文解读(
【视觉三维重建】【论文笔记】Deblurring 3D Gaussian Splatting CS_Zero 论文阅读
去模糊的3D高斯泼溅，看Demo比3D高斯更加精细，对场景物体细节的还原度更高，[官网]（https://benhenryl.github.io/Deblurring-3D-Gaussian-Splatting/）背景技术Volumetricrendering-basednerualfields：NeRF.Rasterizationrendering:3D-GS.Rasterization比vol
[论文笔记] Transformer-XL 心心喵论文笔记 transformer 深度学习人工智能
这篇论文提出的Transformer-XL主要是针对Transformer在解决长依赖问题中受到固定长度上下文的限制，如Bert采用的Transformer最大上下文为512（其中是因为计算资源的限制，不是因为位置编码，因为使用的是绝对位置编码正余弦编码）。Transformer-XL能学习超过固定长度的依赖性，而不破坏时间一致性。它由段级递归机制和一种新的位置编码方案组成。该方法不仅能够捕获长期
SimpleShot: Revisiting Nearest-Neighbor Classification for Few-Shot Learning 论文笔记头柱碳只狼小样本学习
前言目前大多数小样本学习器首先使用一个卷积网络提取图像特征，然后将元学习方法与最近邻分类器结合起来，以进行图像识别。本文探讨了这样一种可能性，即在不使用元学习方法，而仅使用最近邻分类器的情况下，能否很好地处理小样本学习问题。本文发现，对图像特征进行简单的特征转换，然后再进行最近邻分类，也可以产生很好的小样本学习结果。比如，使用DenseNet特征的最近邻分类器，在结合均值相减（meansubtra
多模态相关论文笔记靖待大模型人工智能论文阅读
(cilp)LearningTransferableVisualModelsFromNaturalLanguageSupervision从自然语言监督中学习可迁移的视觉模型openAI2021年2月48页PDFCODECLIP(ContrastiveLanguage-ImagePre-Training)对比语言图像预训练模型引言它比ImageNet模型效果更好，计算效率更高。尤其是zero-sho
【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting lokol. 论文笔记论文阅读 llama
Lag-Llama:TowardsFoundationModelsforTimeSeriesForecasting摘要本文提出Lag-Llama，在大量时间序列数据上训练的通用单变量概率时间序列预测模型。模型在分布外泛化能力上取得较好效果。模型使用平滑破坏幂律（smoothlybrokenpower-laws）。介绍目前任务主要集中于在相同域的数据上训练模型。当前已有的大规模通用模型在大规模不同数
【论文笔记】Unsupervised Learning of Video Representations using LSTMs 奶茶不加糖え lstm 深度学习自然语言处理
摘要翻译我们使用长短时记忆（LongShortTermMemory,LSTM）网络来学习视频序列的表征。我们的模型使用LSTM编码器将输入序列映射到一个固定长度的表征向量。之后我们用一个或多个LSTM解码器解码这个表征向量来实现不同的任务，比如重建输入序列、预测未来序列。我们对两种输入序列——原始的图像小块和预训练卷积网络提取的高层表征向量——都做了实验。我们探索不同的设计选择，例如解码器的LST
MOSSE算法论文笔记以及代码解释 five days 计算机视觉深度学习机器学习
论文《VisualObjectTrackingusingAdaptiveCorrelationFilters》代码github1.论文idea提出以滤波器求相关的形式，找到最大响应处的位置，也就是我们所跟踪的目标的中心，进而不断的更新跟踪目标框和滤波器。2.跟踪策略如图，根据初始帧圈出的目标框训练滤波器，最大响应处为目标框的中心点，当移动到下一帧时，根据滤波器求相关的算法获得最大响应值，进而得出下
Attention Is All Your Need论文笔记 xiaoyan_lu 论文笔记论文阅读
论文解决了什么问题？提出了一个新的简单网络架构——transformer，仅仅是基于注意力机制，完全免去递推和卷积，使得神经网络训练地速度极大地提高。Weproposeanewsimplenetworkarchitecture,theTransformer,basedsolelyonattentionmechanisms,dispensingwithrecurrenceandconvolution
论文笔记：相似感知的多模态假新闻检测图学习的小张论文笔记论文阅读 python
整理了RecSys2020ProgressiveLayeredExtraction:ANovelMulti-TaskLearningModelforPersonalizedRecommendations）论文的阅读笔记背景模型实验论文地址：SAFE背景在此之前，对利用新闻文章中文本信息和视觉信息之间的关系(相似性)的关注较少。这种相似性有助于识别虚假新闻，例如，虚假新闻也许会试图使用不相关的图
[论文总结] 深度学习在农业领域应用论文笔记12 落痕的寒假论文总结深度学习论文阅读人工智能
文章目录1.3D-ZeF:A3DZebrafishTrackingBenchmarkDataset(CVPR,2020)摘要背景相关研究所提出的数据集方法和结果个人总结2.Automatedflowerclassificationoveralargenumberofclasses(ComputerVision,Graphics&ImageProcessing,2008)摘要背景分割与分类数据集和实
论文笔记之LINE:Large-scale Information Network Embedding 小弦弦喵喵喵
原文：LINE:Large-scaleInformationNetworkEmbedding本文提出一种新的networkembeddingmodel：LINE.能够处理大规模的各式各样的网络，比如：有向图、无向图、有权重图、无权重图.文中指出对于networkembedding问题，需要保留localstructure和globalstructure，分别对应first-orderproximi
打败一切NeRF！ 3D Gaussian Splatting 的简单入门知识 Ci_ci 17 3d python
新手的论文笔记3DGaussianSplatting的笔记introductionRelatedwork预备知识Gaussiansplatting3D高斯泼溅原理Overview3DGaussianSplatting的笔记每次都是在csdn上找救命稻草，这是第一次在csdn上发东西。确实是个不错的笔记网站，还能同步，保存哈哈哈。印象笔记，Onenote逊爆了。研一刚开学两个月，导师放养，给的方向还
《Residual Bi-Fusion Feature Pyramid Network for Accurate Single-shot Object Detection》论文笔记 m_buddy #General Object Detection Bi-Fusion
参考代码：无1.概述导读：在检测任务中一般会引入FPN增强在不同尺度下网络的检测性能，但是只通过top-down的FPN网络是很难去重建由于特征图的漂移（水平或是垂直方向运动）在经过pooling操作（pooling不具有平移不变性）带来结果相差很大的问题（特别针对小目标），而且FPN带来的性能提升会在使用较多卷积层之后逐渐被稀释（卷积的平移不变形），进而会导致一些小目标定位性能降低。对此可以通过
论文笔记-Generative Adversarial Nets 升不上三段的大鱼
论文链接：https://papers.nips.cc/paper/2014/file/5ca3e9b122f61f8f06494c97b1afccf3-Paper.pdf论文解读：https://www.bilibili.com/video/BV1rb4y187vD?share_source=copy_web一句话总结：提出了生成模型框架GAN，包括一个生成模型G和一个判别模型D，用有监督的损失
论文笔记：NIPS 2020 Graph Contrastive Learning with Augmentations 饮冰l 图弱监督数据挖掘机器学习神经网络深度学习
前言本文主要提出在图对比学习大框架下的图数据增强的若干方法。概括来说，本文提出了一种图对比学习框架来无监督的完成图表示学习，首先作者提出了基于各种先验信息的四种图数据增强方法。然后，作者分析了在四种不同的图数据增强条件下，不同组合对多个数据集的影响:半监督、无监督、迁移学习以及对抗性攻击。作者为GNN的预训练提出了基于图数据增强的对比学习框架来解决图中数据异质性的挑战，本文的主要贡献如下：作者提出
论文笔记-vChain: Enabling Verifiable Boolean Range Queries over Blockchain Databases qq_40431700 笔记区块链
核心方法：提出了一种基于累加器的可认证数据结构，可以动态聚合任意查询属性提出块内和块间索引，聚合块内和块间数据，可以做高效查询验证倒排前缀树结构，加速同时处理大量数据的订阅查询提出问题：1.range查询2.布尔查询3.没有可靠第三方、而且不能保证查询的完整性图中元素有：①全节点②矿工节点：是全节点，而且负责构建共识证明，比如计算nonce③轻节点：存nonce、区块的哈希，不存数据记录提出的Vc
论文笔记--Improving Language Understanding by Generative Pre-Training Isawany 论文阅读论文阅读自然语言处理 chatgpt 语言模型 nlp
论文笔记GPT1--ImprovingLanguageUnderstandingbyGenerativePre-Training1.文章简介2.文章导读2.1概括2.2文章重点技术2.2.1无监督预训练2.2.2有监督微调2.2.3不同微调任务的输入3.Bert&GPT4.文章亮点5.原文传送门6.References1.文章简介标题：ImprovingLanguageUnderstandingb
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多