@默然

第二十四周：文献阅读笔记（VIT）

第二十四周：文献阅读笔记

摘要
Abstract
1. 文献阅读
- 1.1 文献题目
- 1.2 文献摘要
- 1.3 引言
- 1.4 VIT
- - 1.4.1 Embedding层结构详解
  - 1.4.2 BN和LN算法
  - 1.4.3 Transformer Encoder详解
  - 1.4.4 MLP Head（全连接头）
- 1.5 实验
- 1.6 文献总结
2. 随机梯度下降（回顾）

摘要

VIT是一种基于Transformer模型的视觉处理方法。传统上，卷积神经网络（CNN）在计算机视觉任务中表现出色，但Transformer在自然语言处理任务中取得了很大的成功，VIT的目标是将Transformer模型应用于计算机视觉领域，以处理图像数据，其使用了一种将图像数据转换为序列数据的方法。它将输入的图像分割成一系列的图像块，然后将这些图像块展平为一维向量序列。随后，VIT引入了Transformer的编码器部分，来对这个一维序列数据进行处理。本文我们将详细介绍VIT

Abstract

VIT is a visual processing method based on the Transformer model. Traditionally, Convolutional Neural Networks (CNNs) have performed well in computer vision tasks, but Transformer has had great success in natural language processing tasks.The goal of VIT is to apply the Transformer model to the field of computer vision to process image data, and it uses a method that converts image data into sequence data. It splits the input image into a series of image blocks and then spreads these blocks into a one-dimensional sequence of vectors. VIT then introduces the encoder part of the Transformer to process this one-dimensional sequence data. In this paper we will introduce VIT in detail

1. 文献阅读

1.1 文献题目

题目：AN IMAGE IS WORTH 16X16 WORDS:
TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
文献链接：点此链接下载文献

1.2 文献摘要

虽然 Transformer 架构已成为自然语言处理任务事实上的标准，但其在计算机视觉中的应用仍然有限。在视觉中，注意力要么与卷积网络结合应用，要么用于替换卷积网络的某些组件，同时保持其整体结构不变。经过作者证明，这种对 CNN 的依赖是不必要的，直接应用于图像块序列的纯 Transformer 可以在图像分类任务上表现良好。

1.3 引言

基于自注意力的架构，特别是 Transformer，已成为自然语言处理（NLP）的首选模型。主要方法是在大型文本语料库上进行预训练，然后在较小的特定于任务的数据集上进行微调。得益于 Transformers 的计算效率和可扩展性，随着模型和数据集的增长，性能仍然没有饱和的迹象。多项工作尝试将CNN与Transformer结合，但在大规模图像识别任务中，仍然是ResNet最先进，作者尝试将标准的Transformer直接应用于图像，并进行尽可能少的修改，通过将图像分割成若干个补丁，并对这些若干个补丁做 Embedding位置嵌入、位置编码操作，将其作为Transformer的输入，其图像的处理方式与文本处理方式一致。

但是由于Transformers 缺乏 CNN 固有的一些归纳偏置，例如平移等方差和局部性，因此在数据量不足的情况下无法很好地进行泛化。然而，如果模型在更大的数据集（14M-300M 图像）上进行训练，情况就会发生变化。作者的团队发现大规模训练胜过归纳偏置。当以足够的规模进行预训练并转移到数据点较少的任务时，ViT取得了优异的结果。

1.4 VIT

上图为原论文的VIT架构图，根据该图，模型由三个模块组成：Linear Projection of Flattened Patches(Embedding层)、Transformer Encoder、MLP Head。

1.4.1 Embedding层结构详解

对于标准的Transformer模块，要求输入的是token（向量）序列，即二维矩阵[num_token, token_dim]，如下图，token0-9对应的都是向量，以ViT-B/16为例，每个token向量长度为768。

标准Transformer接收token嵌入的一维序列作为输入。而对于图像数据而言，其数据格式为[H, W, C]是三维矩阵明显不是Transformer想要的。所以需要先通过一个Embedding层来对数据做个变换。如下图所示，首先将一张图片按给定大小分成一堆Patches。以ViT-B/16为例，将输入图片￥、 $H * W = (224 * 224)$ 按照 $P^{2}=16*16$ 大小的Patch进行划分，而将图像划分的块数 $N=\frac{HW}{P^{2}}$ ，划分后会得到 $N=(224/16)^{2}=196$ 个patches。接着通过线性映射将每个Patch映射到一维向量中，以ViT-B/16为例，每个Patche数据shape为[16, 16, 3]通过映射得到一个长度为768的向量（后面都直接称为token），即 [16, 16, 3] -> [768]

【注】：卷积计算公式： $H_{2}=\frac{H_{1}-F_{H}+2P}{S}+1$

其中 $H_{1}$ 表示输入的长度， $H_{2}$ 表示输出特征图的长度， $F$ 表示卷积核长和宽的大小， $S$ 表示感受野的大小(滑动窗口)， $P$ 表示边界填充

在代码实现中，我们可以直接通过一个卷积层来实现。以ViT-B/16为例，直接使用一个卷积核大小为16x16，步距为16，卷积核个数为768的卷积来实现。输出的尺寸为（224-16)/16+1=14，通过卷积 [224, 224, 3] -> [14, 14, 768]，然后H以及W两个维度展平即可 [14, 14, 768] -> [196, 768]，，此时变成了一个二维矩阵，满足Transformer的输入。

在输入Transformer Encoder之前注意需要加上[class]token以及Position Embedding。在本文中，作者说参考BERT，在刚刚得到的一堆tokens中插入一个专门用于分类的[class]token，这个[class]token是一个可训练的参数，数据格式和其他token一样都是一个向量，以ViT-B/16为例，就是一个长度为768的向量，与之前从图片中生成的tokens拼接在一起，即 Cat([1, 768], [196, 768]) -> [197, 768]。

对于Position Embedding作者也有做一系列对比试验，在源码中默认使用的是 1D Pos. Emb. 对比不使用Position Embedding准确率提升了大概3个点，

1.4.2 BN和LN算法

BN（Batch Normalization）
通常来说，数据标准化预处理对于浅层模型就足够有效了。随着模型训练的进行，当每层中参数更新时，靠近输出层的输出较难出现剧烈变化。但对深层神经网络来说，即使输入数据已做标准化，训练中模型参数的更新依然很容易造成靠近输出层输出的剧烈变化。这种计算数值的不稳定性通常令我们难以训练出有效的深度模型。

论文中关于BN（batch normalization）提出的解释：训练深度神经网络非常复杂，因为在训练过程中，随着先前各层的参数发生变化，各层输入的分布也会发生变化，图层输入分布的变化带来了一个问题，因为图层需要不断适应新的分布，因此训练变得复杂，随着网络变得更深，网络参数的细微变化也会放大。

由于要求较低的学习率和仔细的参数初始化，这减慢了训练速度，并且众所周知，训练具有饱和非线性的模型非常困难。我们将此现象称为内部协变量偏移，并通过归一化层输入来解决该问题。

其它的解释：假设输入数据包含多个特征 $x_1，x_2，…x_n$ 。每个功能可能具有不同的值范围。例如，特征x1的值可能在1到5之间，而特征x2的值可能在1000到99999之间。

如下左图所示，由于两个数据不在同一范围，但它们是使用相同的学习率，导致梯度下降轨迹沿一维来回振荡，从而需要更多的步骤才能达到最小值。且此时学习率不容易设置，学习率过大则对于范围小的数据来说来回震荡，学习率过小则对范围大的数据来说基本没什么变化。

如下右图所示，当进行归一化后，特征都在同一个大小范围，则loss landscape像一个碗，学习率更容易设置，且梯度下降比较平稳。

BN层中，对每个样本的同一通道，计算它们的均值和方差，再对数据进行归一化，归一化的值具有零均值和单位方差的特点，最后使用两个可学习参数gamma和beta对归一化的数据进行缩放和移位。

此外，在训练过程中还保存了每个mini-batch每一BN层的均值和方差，最后求所有mini-batch均值和方差的期望值，以此来作为推理过程中该BN层的均值和方差。另外，BN放在激活函数后比放在激活函数前效果更好。

BN算法的优点：

通过加入BN算法，可使用更大的学习率
明显加快收敛速度
避免梯度爆炸和梯度消失

BN算法的缺点：

依赖Batch size
对于RNN这样的动态网络效果不明显
当mini-batch中的样本非独立同分布时，性能比较差。

LN(Layer Normalization)算法

BN的第一个缺陷是依赖Batch size，第二个缺陷是对于RNN这样的动态网络效果不明显，且当推理序列长度超过训练的所有序列长度时，容易出问题。为此，提出了Layer Normalization。

Layer Normalization是针对自然语言处理领域提出的，例如像RNN循环神经网络。

RNN为什么不使用直接BN呢，因为在RNN这类时序网络中，时序的长度并不是一个定值（网络深度不一定相同），比如每句话的长短都不一定相同，所有很难去使用BN，所以作者提出了Layer Normalization（注意，在图像处理领域中BN比LN是更有效的，但现在很多人将自然语言领域的模型用来处理图像，比如Vision Transformer，此时还是会涉及到LN）。

和BN没什么区别，都是减均值，再除以标准差。同样也有两个可训练的参数β , γ 。不同的是：BN是对一个batch数据的每个channel进行Norm处理，但LN是对单个数据的指定维度进行Norm处理，与batch无关。而且在BN中训练时是需要累计moving_mean和moving_var两个变量的（所以BN中有4个参数：moving_mean,moving_var, β, γ），但LN不需要累计，只有 β , γ 两个参数。LN广泛适应于RNN、Transformer中。

1.4.3 Transformer Encoder详解

Vit中所使用的Transformer 编码器结构和原 Transformer 结构一样，具体理论细节请参考第十五周：文献阅读笔记（Transformer）。主要还是使用了多头注意力机制，另外，不像nlp领域中的翻译任务，vit 没有利用解码器的结构。

Transformer Encoder 其实就是重复堆叠 Encoder Block L次，下图是绘制的Encoder Block，主要由以下几部分组成：

Layer Norm，这种Normalization方法主要是针对NLP领域提出的，这里是对每个token进行Norm处理，在 1.4.2 我们已经详细的介绍过了
Multi-Head Attention，这个多头注意力机制在第十五周的文献阅读笔记中已经详细介绍
Dropout/DropPath，在原论文的代码中是直接使用的Dropout层，在但rwightman实现的代码中使用的是DropPath（stochastic depth），可能后者会更好一点。
MLP Block，如下图所示，就是全连接+GELU激活函数+Dropout组成也非常简单，需要注意的是第一个全连接层会把输入节点个数翻4倍[197, 768] -> [197, 3072]，第二个全连接层会还原回原节点个数[197, 3072] -> [197, 768]。

1.4.4 MLP Head（全连接头）

上面通过Transformer Encoder 后输出的shape和输入的shape是保持不变的，以ViT-B/16为例，输入的是[197, 768]输出的还是[197, 768]。

注意，在Transformer Encoder后其实还有一个Layer Norm没有画出来，后面有细画的 ViT 的模型可以看到详细结构。
这里我们只是需要分类的信息，所以我们只需要提取出[class]token生成的对应结果就行，即[197, 768]中抽取出 [class]token（也就是添加的分类向量）对应的[1, 768]。
接着我们通过MLP Head得到我们最终的分类结果。MLP Head原论文中说在训练ImageNet21K时是由Linear+tanh激活函数+Linear组成。
但是迁移到ImageNet1K上或者你自己的数据上时，只用一个Linear即可。

1.5 实验

VIT训练的基本策略是首先在大数据集上先做预训练，然后在小数据集上做迁移使用。ViT做预训练使用到的大数据集包括ILSVRC-2012 ImageNet dataset：1000 classes、ImageNet-21k：21k classes、JFT：18k High Resolution Images，ViT预训练迁移到的数据集包括CIFAR-10/100、Oxford-IIIT Pets、Oxford Flowers-102、VTAB、ImageNet。

论文共设计了Base、Large和Huge三款不同大小的ViT模型，分别表示基础模型、大模型和超大模型，三款模型的各参数如下表所示。在源码中除了有Patch Size为16x16的外还有32x32的。

ViT实验—预训练数据集和大模型
ViT最核心的实验就是将前述的训练方法进行实现，即在大规模数据集上预训练后迁移到小数据集上看模型效果。为了比对CNN模型，论文特地用了Big Transfer (BiT)，该模型使用大的ResNet进行监督迁移学习，是2020 ECCV上提出的一个大CNN模型。另外一个比对CNN模型是2020年CVPR上的Noisy Student模型，是一个半监督的大型CNN模型。

ViT、BiT 和 Nosiy Student 模型经三大数据集预训练后在各小数据集上的准确率如下表所示。

从表中可以看到，ViT经过大数据集的预训练后，在各小数据集上的迁移后准确率超过了一些SOTA CNN模型的结果。但要取得这种超越CNN的性能效果，仍然需要大的预训练数据集和大模型的结合。

1.6 文献总结

我们探索了Transformer在图像识别中的直接应用。与之前在计算机视觉中使用self-attention的工作不同，除了初始的patch抽取步骤外，我们没有在架构中引入特定于图像的inductive bias。相反，我们将图像转化为一系列patch，并通过NLP中使用的标准Transformer编码器对其进行处理。这种简单但可扩展的策略在与大型数据集上的预训练相结合时效果非常好。因此，Vision Transformer在许多图像分类数据集上达到或超过了最先进的水平，同时预训练成本相对较低。

尽管这些初步成果令人鼓舞，但仍存在许多挑战。一种是将ViT应用于其他计算机视觉任务，如检测和分割。我们的结果，加上Carion等人的结果，表明了这种方法的前景。另一个挑战是继续探索自监督的预训练方法。我们的初步实验表明，自监督预训练有所改善，但自监督预训练与大规模监督预训练之间仍有较大差距。最后，ViT的进一步扩展可能会提高性能。

2. 随机梯度下降（回顾）

在我们训练网络的过程中，通过SGD优化网络的参数θ，从而使损失最小化
其中， $x_1、x_2、... 、x_N$ 是训练数据集，我们在使用使用SGD，训练将逐步进行，并且在每个步骤中，我们考虑大小为m的小批次，即 $x_1，.... 、m$ ，通过计算 $\frac{1}{m}\frac{\partial (x_{i},\theta )}{\partial \theta }$ ,使用小批量数据来近似损失函数关于参数的梯度。使用小批量样本，而不是一次一个样本，在一些方面是有帮助的。首先，小批量数据的梯度损失是训练集上的梯度估计，其质量随着批量增加而改善。第二，由于现代计算平台提供的并行性，对一个批次的计算比单个样本计算 m 次效率更高。

虽然随机梯度简单有效，但它需要仔细调整模型超参数，特别是优化中使用的学习率以及模型参数的初始值。由于每一层的输入都受到前面所有层的参数的影响，因此训练变得很复杂——因此，随着网络变得更深，网络参数的微小变化会放大

Vue和Vue-Element-Admin（十）：HTML和CSS快速学习笔记 A叶子叶 #Vue与Web开发 vue.js html css
目录html标签分类网页布局盒子模型浮动定位css标签选择flex布局transform转换Vue开发tipsless和scssVScode常用插件后端语言框架很多，Java适合企业级应用（规范且稳定），Go适合高并发场景（比如云上产品），Python框架（bottle，tornado，django）简单且快速，也天然适合数据分析场景，PHP适合快速建站，前端变化小，所见即所得，因此抽空记录下学习
【自学笔记】GitHub的重点知识点-持续更新 Long_poem 笔记 github
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录GitHub使用指南详细知识点一、GitHub基础与账户管理1.GitHub简介2.创建与管理GitHub账户3.创建与配置仓库（Repository）二、Git基础与GitHub集成1.安装Git客户端2.初始化本地Git仓库3.上传本地项目到GitHub三、GitHub高级功能与协作1.分支管理2.PullRequest（
【Python 笔记2】os.path.join() 挪威的深林 Python笔记 python
0.前言os.path.join()函数是Python中处理文件和目录路径的非常重要和常用的方法。它可以自动处理不同操作系统之间在路径分隔符方面的差异，从而使代码更加可移植和易于维护。下面我将详细解释每个用法，并提供示例代码。1.合并路径组件基本用法是将多个路径组件合并成一个完整的路径。这个方法会根据你的操作系统选择正确的路径分隔符。importospath=os.path.join("path"
深度学习目标检测中的_单目测距原理与实现关键点及改进建议 QQ_767172261 单目测距深度学习目标检测人工智能
深度学习目标检测中的_单目测距原理与实现关键点及改进建议文章目录单目测距的进一步解释1.焦距的确定2.物体宽度$W$的获取3.图像处理技巧4.提高性能的建议5.实现代码中的注释添加一、前言单目视觉测距：网上有很多关于单目测距的文章，主要借鉴的是OpenCV学习笔记（二十一）——简单的单目视觉测距尝试和单目摄像机测距（python+opencv）两篇文章，在这里特别作出说明。工作环境：Ubunt
ros笔记1-ros架构 zzqtpl 架构自动驾驶人工智能
ros架构ros不是传统意义上的操作系统，ros提供一种进程内的通信方法应用层ros需要一个管理者–master计算图节点节点是执行运算任务的进程，一个系统有多个节点节点之间的通信方式：消息每一个消息都是严格的数据结构，支持标准数据类型也支持嵌套结构和数组。话题是以一种发布和订阅的方式传递，一个节点可以针对一个给定的topic发布消息（称为talker）也可以关注某类话题并订阅特定类型的数据（Li
ROS1学习笔记--通信编程喵喵三三 ROS学习笔记
前面有一个博客笔者概述了关于ROS1的通信机制，现在就来通过几个例子来讲讲具体的通信编程一、话题编程话题编程流程：创建发布者创建订阅者添加编译选项运行可执行程序1.创建一个发布者ROS节点初始化编写相关的节点信息，包括发布的话题名和消息类型按一定的频率循环发布消息#include#include"ros/ros.h"#include"std_msgs/String.h"intmain(intarg
ROS学习笔记-roslaunch文件的编写&用sh脚本控制launch文件启动顺序诗筱涵 ROS 无人机-a-个人笔记
转载自：https://mp.weixin.qq.com/s?__biz=MzUyMTkxODQyOQ==&mid=2247484719&idx=1&sn=27b3a01c295ae256dc69d805fd5904ba&chksm=f9d2879dcea50e8b71b78d8b69750d282055173ea65494342e983088276859b7c4fe227f21f1&scene=
36.FFmpeg学习笔记 - ffplay源码解读4之解码线程 whoyouare888 FFmpeg
本篇说一下解码线程。在stream_component_open函数中，分别创建了一个视频解码线程和音频解码线程：staticintstream_component_open(VideoState*is,intstream_index){...switch(avctx->codec_type){caseAVMEDIA_TYPE_AUDIO:...if((ret=decoder_start(&is-
读书笔记-《Redis设计与实现》（二）单机数据库实现（上）萝卜青今天也要开心 redis 数据库缓存 java 学习
相比前面我们学习的数据结构与对象（读书笔记-《Redis设计与实现》（一）数据结构与对象（上）、读书笔记-《Redis设计与实现》（一）数据结构与对象（下）），这部分的内容可以说就是轻松+愉快了，只要能Get到这几个机制的要点就行。01数据库Redis将所有数据库都保存在redisServer结构中，客户端结构为redisClient，它们的关键属性如下：structredisServer{//一
deepseek v3 搭建个人知识库 AI算法网奇 aigc与数字人人工智能
目录deepseek-r1本地部署，这个比较好，推荐Chatbox连接ollama服务知乎教程，需要注册：deepseek-r1本地部署，这个比较好，推荐公司数据不泄露，DeepSeekR1本地化部署+web端访问+个人知识库搭建与使用，喂饭级实操教程，老旧笔记本竟跑出企业级AI_deepseek本地知识库-CSDN博客命令行运行：ollamarundeepseek-r1:1.5bollamaru
【自学笔记】Web前端的重点知识点-持续更新 Long_poem 笔记前端
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录Web前端知识点一、HTML基础二、CSS样式三、JavaScript基础四、前端框架与库五、前端工具与构建六、前端性能优化七、响应式设计与适配八、前端安全总结Web前端知识点一、HTML基础常用标签超链接(标签)图片(标签)表格(、、等标签)列表(无序列表、有序列表、定义列表)HTML5新特性语义化标签(、、等)音频视频(、
线性回归的简单实现 SkaWxp 深度学习深度学习机器学习 mxnet gluon
本文是《动手学深度学习》的笔记文章目录线性回归的简单实现生成随机数据集读取数据初始化模型参数定义模型定义损失函数定义优化算法训练模型线性回归的简洁实现生成数据集读取数据定义模型初始化模型参数定义损失函数定义优化算法训练模型线性回归的简单实现用了mxnet中的自动求导和数组结构frommxnetimportautograd,ndimportrandom生成随机数据集只有这个是用了自己造的数据，因为线
【论文笔记】基于图神经网络的多视角视觉重定位 GRNet CVPR 2020 论文笔记 phy12321 相机重定位
GRNet:LearningMulti-viewCameraRelocalizationwithGraphNeuralNetworks驭势科技,北京大学机器感知重点实验室,北京长城航空测控技术研究所本文提出了一种使用多视角图像进行相机重定位的图神经网络。该网络可以使得不连续帧之间进行信息传递，相比于只能在相邻前后帧之间进行信息传递的序列输入和LTSM，其能捕获更多视角信息以进行重定位。因此LSTM
Qt获取网络流量（调用Windows API）----StateReader系列 Sudouble Qt学习笔记网络 qt 流量 WindowsAPI
因自己的笔记本没有带CapLock和NumLock的灯，导致某一次输入密码一直出错。之前也找过类似的软件，当到了下载的时候开始犹豫不决，怕当时的程序留了后台，偷偷获取我的按键信息。于是下决心写个取电脑按键状态的程序。——此为背景借着此势，顺便想给这个程序开发些新功能，于是想到了这个。可是在网上找了很久都没有找到Qt相关获取网卡流量的内容。无意间找到了在用WindowsAPI获取流量的例子。因为需要
笔记系列----逻辑备份和恢复 imp/exp/impdp/expdp 柠檬 oracle 数据库 sql
注：需要打开监听1.传统的导入导出exp/imp传统的导入导出程序是exp/imp，用于实施数据库的逻辑备份和恢复导出程序exp将数据库的对象定义和数据被分到一个二进制文件中导入程序imp将二进制中的对象定义和数据导入到数据库中导入导出程序特点：1）按时间保存2）允许导出指定表，并重新导入新的数据库中3）可以把数据库迁移到另外一台异构服务器上4）在2个不同版本的oracle之间的数据传输数据5）在
联想lenovo电脑如何开机进入Bios与Boot menu 慕斯-ing 操作系统 bios boot 操作系统经验分享
一、启动快捷启动菜单模式在开机后电脑屏幕显示了”LENOVO“字样图画的时候，疯狂按F12，如果不行就重启再试一次，如果还不行，就再重启一次，按Fn+F12。界面如下图所示：二、开机启动进入bios在开机后电脑屏幕显示了”LENOVO“字样图画的时候，疯狂按F1，如果不行就重启，依次尝试F2、F1+Fn、F2+Fn。一般来说就是这几种，如果都不行的话，就百度搜搜具体该笔记本型号的快捷键。界面如图所
Mixture of Experts（MoE）学习笔记南七小僧人工智能网站开发医疗器械研发学习笔记人工智能 MoE 大模型
1学习动机第一次了解到MoE（Mixtureofexperts），是在GPT-4模型架构泄漏事件，听说GPT-4的架构是8个GPT-3级别大小的模型以MoE架构（8*220B）组合成一个万亿参数级别的模型。不过在这之后开源社区并没有对MoE架构进行很多的探索，更多的工作还是聚焦在预训练新的大模型，在Llama2或其他模型上做Fine-tune，以及扩展大模型的ContextLength。12月8号
GIt使用笔记大全 wdxylb git 笔记 elasticsearch
Git使用笔记大全1.安装Git在终端或命令提示符中，输入以下命令检查是否已安装Git：git--version如果未安装，可以从Git官方网站下载并安装适合你操作系统的版本。2.配置Git首次使用Git时，需要配置用户名和邮箱：gitconfig--globaluser.name"YourName"gitconfig--globaluser.email"[email protected]
娃娃鸭深入核心VCL架构剖析(李维)笔记娃娃鸭设计模式 integer function destructor button class
44、TForm类TControl=class(TComponent)privateprocedureWMLButtonDblClk(varMessage:TWMLButtonDblClk);messageWM_LBUTTONDBLCLK;procedureWMRButtonDblClk(varMessage:TWMRButtonDblClk);messageWM_RBUTTONDBLCLK;pr
DynamicPlanning动态规划学习笔记 kxwsspz2001 笔记动态规划算法
动态规划动态规划的特点是求解决策过程最优化的过程。适用于求解将过程分成若干个互相联系的阶段，在它的每一阶段都需要作出决策，从而使整个过程达到最好的活动效果。各阶段决策依赖于当前面临的状态，又影响以后的发展。当各个阶段决策确定后，就组成一个决策序列。我们可以从决策序列中找到最优解LeetCode53给定一个整数数组nums，找到一个具有最大和的连续子数组（子数组最少包含一个元素），返回其最大和。示例
关于将HashMap替换原有Map的key保持value不变报错java.util.ConcurrentModificationException的处理方案梦岚如雪轮子库之HashMap java工具类 java 开发语言后端 HashMap
前言由于苦逼的在公司支持上线，在等待es集群分片完成过程，实在闲的无聊，将之前本地Notion记得一些笔记扔上来一些打发下时间吧(￣.￣)需求有个类似下面的数据为Map>>，其中key为资源id，value为List>,{"4757637007194717896":[{"oracleTableSpaceSize":"30000","oracleTableName":"System4","oracl
BUUCTF：[ISITDTU 2019]EasyPHP --- rce 超级异或，，，吐了，，，字符之间异或，成型的异或payload！！！ Zero_Adam BUUCTF刷题记录 RCE python
目录:一、自己做：二、学的的三、学习WP1.这里先来个不限制字符个数的关于这个%ff以及异或的事情，咱们好好唠唠1.生成异或中间值的python脚本2.看有字符限制的时候，：参考：末初一、自己做：0xd)die('youaresoclose,omg');eval($_);?>过滤了，不少，我一般碰到rce的题，就看自己的笔记，然后把payload一股脑的网上怼，，，二、学的的正则看不明白的时候，可
FastDFS实用笔记（Docker 搭建环境 + 整合 SpringBoot）字节全栈_kYu 笔记 docker spring boot
解决了大容量存储和负载均衡的问题，特别适合中小文件（4KB>文件路径为空…”);return“文件路径不能为空”;}try{StorePathstorePath=StorePath.parseFromUrl(fileUrl);storageClient.deleteFile(storePath.getGroup(),storePath.getPath());}catch(Exceptione){l
CentOS 7.6用户管理指令 2301_80069458 linux 服务器学习
#学习笔记#一、用户添加useradd用户名二、给用户指定密码passwd用户名三、删除用户1、仅删除用户不删除用户家目录（此处用户家目录可以理解为用户的数据，通常情况下建议保留）userdel用户名2、输出用户并且删除用户家目录userdel-r用户名四、切换用户1、从当前用户切换到另一个用户上（从权限高的用户切换到权限低的用户无需输入密码，反之需要输入密码）su-用户名2、从切换的账户上退回到
【书生·浦语大模型实战营】学习笔记（三）：“茴香豆” 搭建你的RAG 智能助理 GoAI 自然语言处理NLP 深入浅出AI 深入浅出LLM 深度学习 LLM 人工智能大模型
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI爱好者学习，性价比非常高！加入星球➡️点击链接【书生·
『大模型笔记』视觉语言模型解释 AI大模型前沿研究大模型笔记 LLM VLM 视觉语言模型语言模型大模型人工智能
视觉语言模型解释文章目录一.视觉语言模型解析1.什么是视觉语言模型？2.开源视觉语言模型概览3.如何找到合适的视觉语言模型MMMUMMBench4.技术细节5.使用变压器(transformers)运用视觉语言模型6.使用TRL微调视觉语言模型二.参考文章一.视觉语言模型解析视觉语言模型是一类能够同时从图像和文本中学习，以处理从视觉问题回答到图像描述等多种任务的模型。本文将深入探讨视觉语言模型的核
css（尚硅谷笔记） rzl02 css 笔记前端
接着上次的内容写一、css字体属性1.字体大小·属性名：font-size（作用：控制字体大小。）·语法：div{font-size:40px;}注意点：1.Chrome浏览器支持的最小文字为12px，默认的文字大小为16px，并且0px会自动消失。2.不同浏览器默认的字体大小可能不一致，所以最好给一个明确的值，不要用默认大小。3.通常以给body设置font-size属性，这样body中的其他元
零基础学Python学习笔记小陌白机器学习 python 学习开发语言
Python学习笔记代码下载地址链接：https://pan.baidu.com/s/1yGnpfq4ZHeKpt4V0J_PTSg提取码：hmzs1.Python基础语法1.1基本数据类型整数(int)：8浮点数(float)：8.8字符串(str)：“8”“Python”布尔值(bool)：TrueFalseprint(type(int('8')))#将字符串8转化为整型print(type(
2024年作品汇总萝卜青今天也要开心 spring java 后端笔记学习
思维读书笔记-《当下的力量》读书笔记-《暗时间》信息技术如何设计离线跑批系统程序员工作中常见问题，你遇到过几个？读书笔记-《Redis设计与实现》（一）数据结构与对象（上）读书笔记-《大数据时代》读书笔记-《Spring技术内幕》（一）IoC容器的实现读书笔记-《Spring技术内幕》（二）AOP的实现读书笔记-《Spring技术内幕》（三）MVC与Web环境读书笔记-《Spring技术内幕》（四
读书笔记-《乡下人的悲歌》萝卜青今天也要开心笔记学习
前段时间看了一些J.D.Vance的采访视频，几乎都是记者带着刁难的问题先手进攻，而Vance面带微笑，提及对方的名字，条理清晰地从对方的攻击中切回主题形成后手反制，实在让人看得过瘾。更不可思议的是，Vance的成长经历似乎也非常糟糕，他是如何走到今天这一步的呢？带着这样的疑问，我拿起了这本传记。01Vance的成长经历Vance成长时所处的大背景是：中西部工业地区经济下滑，制造业岗位流向海外，没
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin