猴猴猪猪

多模态之论文笔记BLIP，BLIP2，Instruct BLIP

文章目录

BLIP
- 一. 简介
- - 1.1 摘要与引言
  - 1.2 相关工作
  - 1.3 方法
  - - 模型结构
    - 预训练目标函数
    - CapFilt噪声过滤
  - 1.4 实验以及讨论
  - - 实验设置
    - CapFilt的讨论
BLIP2
- 一. 简介
- - 1.1 摘要与引言
  - 1.2 相关工作
  - 1.3 方法
  - - 模型结构
    - 第一阶段 Bootstrap Vision-Language Representation Learning from a Frozen Image Encoder
    - 第二阶段 Bootstrap Vision-to-Language Generative Learning from a Frozen LLM
    - 模型预训练
Instruct BLIP
- 一. 简介
- - 1.1 摘要与引言
  - 1.2 Vision-Language Instruction Tuning
  - 1.3 Tasks and Datasets
  - 1.3 Training and Evaluation Protocols
  - 1.3 Instruction-aware Visual Feature Extraction
  - 1.4 Training Dataset Balancing
  - 1.5 Inference Methods
  - 1.5 Implementation Details
  - 1.6 Results and Analysis
  - 1.7 Ablation Study on Instruction Tuning Techniques
  - 1.7 Qualitative Evaluation

BLIP

一. 简介

题目: BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
机构：salesforce research
论文: https://arxiv.org/pdf/2201.12086.pdf
代码：https://github.com/salesforce/BLIP
任务: 视觉语言预训练
特点: 联合视觉语言理解以及生成，web 文本数据bootstrapping
方法: 模型侧设计了MED，数据侧用captioner以及filter进行文本的生成以及噪声过滤
前置相关工作：ALBEF

1.1 摘要与引言

视觉语言预训练（VLP）在许多视觉语言任务上取得了很好的表现。但现有的预训练模型大多数仅在基于理解的任务或者基于生成的任务取得了进展。除此之外，通过网上收集带噪声的海量图文尽管能够带来效果的提升，但往往是一个次优的监督数据源。本文中，我们提出了BLIP方法，一个新的视觉语言预训练框架，能够很灵活地迁移到视觉语言理解以及生成的任务。BLIP能够通过bootstrap文本描述来有效地利用带噪声的web数据，具体而言，使用一个captioner来生成新的文本描述以及用一个filter来剔除噪声文本描述。在许多视觉语言任务上取得了SOTA的结果，比如图文检索 +2.7% recall@1，image caption +2.8% CIDEr，VQA +1.6% acc。当用一种zero shot的方式直接迁移到视频语言任务，BLIP也表现出强大的泛化能力。代码，模型，数据集都进行了开源。

在引言部分，论文从模型的角度，对现有方法进行了划分：
encoder based: ALBEF 2021 ，CLIP 2021
encoder decoder model: VL-T5 2021, SimVLM 2021
对于encoder based的方法不太能直接迁移到caption等任务，对于encoder decoder的方法，也不能很好地适用于图文检索的任务。从数据的角度，比如CLIP，ALBEF，SimVLM用web的图像文本对进行预训练，尽管这种扩充数据的方式能带来效果上提升，但作者表明web的文本往往是对于视觉文本学习是次优的。

本文提出的BLIP从模型以及数据的角度做了如下的两点贡献：
【1】Multimodal mixture of Encoder-Decoder（MED）：一个新的模型框架，用于有效的多任务学习以及灵活的迁移学习。一个MED可以既是一个单模态的encoder也可以是一个image-grounded text encoder或者一个image-grounded text decoder。模型是用三个视觉语言预训练目标来进行预训练的：图文对比学习，图文匹配，基于图像的语言建模。

【2】Captioning and Filtering（CapFilt): 一个新的数据集bootstraping算法来从带噪声的图文对中学习。我们用一个预训练好的MED在两个模块进行finetune：一个captioner来对web图像生成新的caption，一个filter来剔除带噪声的caption（无论是原始web文本还是说生成的新文本）。

通过captioner以及filter的合作，不仅能用bootstraping的caption取得下游任务的提升，也发现能生存更多样的captions。BLIP在图文检索，图像文本描述，视觉问答，视觉推理，视觉对话等任务上取得了SOTA的结果。并且在zero-shot迁移到视频文本任务：文本视频检索，视频QA上也取得了很好的结果。

1.2 相关工作

UNITER(2020), Oscar(2020), ALBEF(2021) 用web的图像文本对，Conceptual captions（2018），Conceptual 12M，Scaling up visual and vision-language representation learning with noisy text supervision（2021）尽管用了一些规则来进行过滤，但是噪声的负面影响还是被大多数工作忽略了。也有许多多任务统一的工作，比如 Unified vision-language pre-training for image captioning and VQA，2020，
Unifying vision and language tasks via text generation 2021，Simvlm: Simple visual language model pretraining with weak supervision 2021，作者理解的understanding task: 图文检索，generation task: image caption。相关工作还提到了知识蒸馏，数据增强

1.3 方法

模型结构

ViT做图像的encoder，将图像分为patches，然后编码为序列的特征，并用[CLS] token来表征全局图像特征。其中ALBEF以及ViLT也是用的ViT当作视觉encoder。为了让模型既有理解以及生成的能力，提出了multimodal mixture of encoder-decoder(MED)，一个多任务模型能够实现下面的一些功能：

单模态encoder，文本编码器用的是BERT,也是用「CLS] token来表征文本的全局特征。
Image-grounded text encoder: 将视觉信息进入注入，实现的方式是在文本编码器的每一层transfomer block里面的self-attention(SA)以及FFN之间插入一个cross-attention(CA)层。设计了一个[Encoder] token来表征图文对的多模态表征。
Image-grounded text decoder: 将image-grounded text encoder中的双向self-attention layers替换为了causal self-attention layers. 一个[Decode] token被用于标识序列的开始，一个EOS被用于标示序列的结束。

预训练目标函数

在预训练的时候，联合训练了三个目标函数，其中两个是基于理解的，一个是基于生成的。每一个图像文本对会经过一次forward pass（visual transformer）以及三个forward pass （text transformer），这样通过计算下面的三个损失函数，不同的功能能够被激活。

Image-Text Contrastive Loss (ITC) 激活unimodal encoder. 它旨在对齐视觉transformer以及文本transformer的特征空间，利用postive的图文对相对于negative的图文对具有更相似的表征。在CLIP，以及ALBEF中都被证明是一种能够有效提升视觉语言理解的目标函数。本文用到的是ALBEF中的ITC损失函数，其中一个momentum encoder被引入来生成特征，soft labels被momentum encoder生成，并作为, and soft labels are created from the momentum encoder as training targets to account for the potential positives in the negative pairs.

Image-Text Matching Loss(ITM) 激活的是image-grounded text encoder. 它旨在学习图文多模态表征，并且捕获视觉文本中的细粒度对齐。ITM是一个二分类任务，用多模态表征过一个二分类的头，输出图文对是否是匹配的关系。为了寻找更有信息量的negatives，我们采用了ALBEF中的难例挖掘策略，即一个batch中有更高对比相似度的难例越有可能被选择来计算loss。（看样子上面都是albef的工作）

Language Modeling Loss(LM) 激活的是image grounded text decoder，它旨在生成给定图像的文本描述。它用一种自回归的方式来实现最大似然，优化交叉熵。采取了label smoothing的策略，参数是0.1，相比于在VLP中常用到的MLM的损失函数，LM能够让模型在将视觉信息转化为文本描述的时候有更好的泛化能力。

为了更好的用多任务进行预训练，text encoder和text decoder除了SA层之外共享所有的参数。原因是encoding和decoding task的编码区别主要体现在SA层。具体而言，encoder用了一种双向的self-attention来表征当前输入的token，而decoder采用的是causal self-attention来预测下一个token。另一个方面，embedding layer, CA layers, FFN在encoding和decoding任务中是比较相似的作用，因此选择共享用以提升训练的效率以及有利于多任务学习。

CapFilt噪声过滤

提出的主要目的是提升web图文对中text corpus的质量。其中captioner以及filter都是初始化于预训练的MED, 然后各自在coco上finetune。（finetune是一个非常轻量级的步骤）。具体而言，这个captioner是一个image grounded text decoder，它用LM目标函数来finetune。对于Iw生成Ts。这个Filter是一个image-grounded text encoder，它用ITC以及ITM来finetune，判断图文是否匹配。并对Tw和Ts中的噪声进行剔除。如果一个文本与一个图像被模型判定为不匹配的，那么这个文本将会被视作噪声。最终，用filtered的图文对以及人类标注的图文对构建了一个新的数据集，用于预训练一个新的模型。

1.4 实验以及讨论

实验设置

PyTorch
2个16 GPU的节点进行训练
ViT用的是ImageNet预训练过的
text transformer用的是BERT base. 探索了ViT base以及ViT large，如果不特殊说明，文中报的结果都是base的
batch size 2880(ViT base), 2400 (ViT large)
训练20个epoch
AdamW，weight decay 0.05.
learning rate: 3e-4 base, 2e-4 large, lr decay 0.85
预训练的时候224 * 224(随机crop)，finetune的时候384*384。
预训练用了与ALBEF同样的14M数据，包括两个人类标注的数据，COCO以及VG，还有三个web的数据集Conceptual Captions，Conceptual 12M，SBU captions . 与此同时，也使用了LAION数据集，115M.（只下载了laion里面shorter size > 256的数据），因为laion的数据量很大，在预训练的时候，每个epoch也只用了1/5的数据。

CapFilt的讨论

capfilt在更大的数据集以及更大的视觉backbone上，性能能有更大的提升。

BLIP2

一. 简介

题目: BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
机构：salesforce research
论文: https://arxiv.org/pdf/2301.12597.pdf
代码：https://github.com/salesforce/LAVIS/tree/main/projects/blip2
任务: 视觉语言预训练
特点: 利用现有的frozen视觉以及LLM模型
方法: Q-Fomer，两阶段预训练
前置相关工作：BLIP, Flamingo80B, Frozen

1.1 摘要与引言

用end2end训练大模型的方式会导致VLP训练变得成本很高。因此这篇文章提出了BLIP2模型，它是通用且有效的，主要采用的方式是用现有的frozen pre-trained image encoders和frozen large language models来增强视觉语言预训练。BLIP2用了一个轻量的Querying Transformer来连接两个模态之间的鸿沟。第一阶段用frozen image encoder来增强视觉语言表征学习。第二阶段用frozen language model来增强视觉到语言的生成学习。BLIP2在许多视觉语言任务上取得了SOTA的结果，尽管相对于现有的许多方法，有更少的训练参数。比如，相比于Flaming80B在VQAv2上有8.7%zero shot的提升，但是只用了1/54的训练参数。本文也证明了模型具备遵循自然语言指令所表现出来的zero-shot的图像到文本的生成能力。

如果说BLIP解决的是数据集质量的问题，那么BLIP2主要针对的就是训练的成本问题，focus的点就是end2end训练大模型成本很高。因为视觉语言任务本身就是NLP与CV的交叉任务，因此我们自然而言，希望能够借力于现有的视觉或者NLP的单模态模型能力。因此本文提出了一个通用的并且计算效率高的BLIP2方法，用视觉模型来提供高质量的视觉表征，用LLM模型来提供强大的语言生成能力以及zero-shot迁移能力。为了减少计算代价以及避免灾难遗忘，单模态的预训练模型在训练的时候参数是固定的。

那么如何连接两个单模态呢？比如LLM模型是并没有见过图像的（在它自己的预训练阶段），当前的一些方法，比如Frozen以及Flamingo采用的是一个图像到文本生成的loss监督，我们发现，这样一个方式来架起不同模态横沟的桥梁是不够有效的。

因此本文提出的了一个Querying Transformer (Q- Former)，（用一个两阶段的预训练方式），如图1所示，Q-Former是一个轻量级的transformer结构，用一组可学习的query vectors来从frozen的image encoder里面提取视觉特征。它扮演的是在冻住的image encoder和冻住的LLM之间充当信息瓶颈的角色。将最有用的视觉特征提供给LLM来生成合适的文本。在第一阶段的预训练阶段，我们旨在进行视觉语言表征学习，来让Q-Former学习与文本最相关的视觉特征。在第二阶段的预训练，我们旨在学习视觉到文本的生成能力，来连接起Q-Former的输出到一个冻住的LLM，这样Q-Forme输出的视觉特征能够被LLM理解。

LLM包含（OPT, FlanT5）等，借助LLM的能力，在自然语言的指令下，BLIP2能够在视觉推理，视觉对话等任务上提升zero-shot的图像到文本的生成能力。
OPT: open pre-trained transformer language models
Scaling instruction-finetuned language models.

1.2 相关工作

1.3 方法

关键词：Q-Former，两阶段

模型结构

从上图可以看到，Q-Fomer包含两个transformer结构，其共享相同的self-attention layers。（1）一个图像transformer来从frozen的图像encoder里面提取视觉特征（2）一个文本transformer来充当文本编码器以及文本解码器的角色。我们创造了一系列的可学习的query embedding来作为image transformer的输入，这些queries在self-attention layers中彼此交互，然后与frozen image features在cross-attention layers产生交互。这些queries也能够与文本通过相同的self-attention layers产生交互。我们用Bert base来初始化Q-Former，cross-attention layers是随机初始化的。Q-Former总计188M训练参数，其中queries也被视作训练参数。

在文中的实验中，采用的是32个queries的设置，每个query的维度是768（与Q-Former的hidden dimension相同），query representation Z $32 * 768$ 相比于frozen image features $257 * 1024$ (ViT-L/14）来说，还是相对较小的，这个bottle-neck的结构在预训练目标函数的作用下同时起作用来让queries来提取与文本最相关的视觉信息。

Q: 如果理解这些Queries的作用？如果不用这种方式是否可以？

第一阶段 Bootstrap Vision-Language Representation Learning from a Frozen Image Encoder

与BLIP一样，用到了三个预训练目标函数，每一个目标函数采取了不同的attention mask策略来控制queries与文本的交互。具体见上图。

Image-Text Contrastive Learning (ITC) 旨在对齐图文特征来让它们的互信息最大，它用postive图文对的相似度比negative图文对的相似度高来实现，将来自image transformer的query特征Z和来自text transformer的text特征t进行对齐。其中后者是[CLS]这个token的embedding，因为Z包含了多个输出特征（一个query一个特征），因此首先计算每个query输出与t的相似度，然后选择相似度最好的那个得分作为图文相似度，为了避免信息泄漏，我们采用了一个unimodal self-attention mask，其中queries和文本彼此之间都不可见。因为采用的是一个冻住参数的image encoder，因此我们能够单GPU喂更多的样本，所以用in-batch negative而不是类似BLIP一样的momentum queue。

**Image-grounded Text Generation (ITG)**训练Q-Former来根据图像生成文本，因为Q-Former的结果不允许frozen image encoder和文本token产生直接的交互，因此生成文本的信息是由queries来抽取的，然后在self-attention层与文本token进行交互，因此queries需要去提取与文本相关的所有视觉信息，我们采取了一个多模态casual self-attention mask来控制query-text的交互。与UniLM一样，这些queries能够attend彼此，但是不能看到text token，每一个文本token能够看到所有的queries以及它前面的text tokens，我们替换了[CLS]为「DEC]来表示标明这个decoding任务的第一个文本token。

Image-Text Matching (ITM) 旨在学习图文特征之间的细粒度对齐，它是一个二分类任务。我们用一个双向的self-attention mask，其中所有的queries以及文本都能彼此attend。这样Z就能获取得到多模态信息，我们将每一个query embedding输入一个二分类器，然后得到一个logit，这样所有queries的logits得到它们的平均得到最终的匹配得分。像ALBEF一样，也采用了难例挖掘的策略来生成更好的负例。

第二阶段 Bootstrap Vision-to-Language Generative Learning from a Frozen LLM

如上图所示，我们用了一个全连接层来将queries线性映射到与LLM text embedding一样的维度，这个映射之后的queries特征被prepend（前置）到文本特征之前。它们起到一种soft visual prompts的作用。因为Q-Former在第一阶段已经学习了这样一种图文的对齐，并且能够有效地提取与文本最相关的视觉信息，这样LLM也避免了去学习这样一种视觉文本的对齐，已经避免灾难遗忘的问题。

我们实验了两种类型的LLM，decoder-based以及encoder-deocder based,前者直接基于queries生成文本，后者用prefix language loss来预训练，我们将文本分为两个part，prefix text被concat在视觉特征后面，一起输入encoder，然后decoder输出suffix text。

模型预训练

数据：与BLIP一样，129M(COCO, VG, CC3M, CC12M, SBU, 115M from LAION400M），对于web images也采用了capFilt方法来创造生成的captions，每张图生成10个caption（用BLIP large)，然后对11个caption做一个排序（基于图文相似度），然后保留了top2作为每张图的训练数据，在每一个预训练的step中随机sample。

预训练的图像encoder和LLM，前者探索了两个模型：(1) ViT-L/14 from CLIP， (2) ViT-g/14 from EVA-CLIP，去除了ViT的最后一层，用的是倒数第二层（有更好一点的表现），对于LLM，用OPT来做decoder-based的LLM，以及FlanT5作为encoder-decoder based LLM。

第一阶段250K
第二阶段80K

a batch size of 2320/1680 for ViT-L/ViT-g in the first stage and a batch size of 1920/1520 for OPT/FlanT5 in the second stage.

During pre-training, we convert the frozen ViTs’ and LLMs’ parameters into FP16, except for FlanT5 where we use BFloat16. We found no performance degradation compared to using 32-bit models. Due to the use of frozen models, our pre-training is more computational friendly than existing large-scale VLP methods. For example, using a single 16-A100(40G) machine, our largest model with ViT-g and FlanT5-XXL requires less than 6 days for the first stage and less than 3 days for the second stage.

The same set of pre-training hyper-parameters are used for all models. We use the AdamW (Loshchilov & Hutter, 2017) optimizer with 1 = 0.9, 1 = 0.98, and a weight decay of 0.05. We use a cosine learning rate decay with a peak learning rate of 1e-4 and a linear warmup of 2k steps. The minimum learning rate at the second stage is 5e-5. We use images of size 224⇥224, augmented with random resized cropping and horizontal flipping.

Instruct BLIP

一. 简介

题目: InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning
机构：salesforce research
论文: https://arxiv.org/pdf/2305.06500v1.pdf
代码：https://github.com/salesforce/LAVIS/tree/main/projects/instructblip
任务:
特点:
方法:
前置相关工作：BLIP, BLIP2,Flamingo

1.1 摘要与引言

通过预训练然后intruction微调的pipeline，通用目的的语言模型能够解决很多语言域的任务。然而，构建通用目的的视觉语言模型往往是有挑战的，因为额外的视觉输入往往增加了任务的差异（discrepancy）。虽然视觉语言预训练已经被广泛地探索，但是instruction微调却是相对少地被研究的。在这篇文章里面，我们基于BLIP2做了系统（systematic）且全面（comprehensive）的视觉语言instruction tuning的研究。我们采集了26个公开的数据集，将他们转化为instruction tuning的格式，并且将它们分类为两个clusters for held-in instruction tuning and held-out zero-shot evaluation。除此之外，我们引入了对instruction有感知的视觉特征抽取，在给定的instruction下，能够让模型抽取最有信息的视觉特征。在13个held-out的数据集上，Instruct BLIP展示出了sota的zero shot能力，超过了BLIP2以及更大的Flamingo。我们的模型finetune在独立的下游任务时，也取得了sota的结果，比如在ScienceQA IMG上取得了90.7%的准确率。除此之外，我们也定性地展示了InstructBLIP与现有的多模态模型相比的优势。所有的InstructBLIP模型都已经进行了开源。

通用的AI一直是我们所长期追求的，能够用一个统一的模型去处理不同的任务。在NLP领域，instruction tuning已经在这个目标上取得了可喜的成功。通过自然语言描述的instruction，让LLM在各种下游的任务上finetune，instruction tuning能够使得模型处理一系列novel的instructions。最近，instruction-tuned LLMs被用于视觉语言任务，比如BLIP2采用一个固定住的instruction-tuned LLMs去理解视觉输入，这能够保留原始的能力，即遵循指令来做图像到文本的生成。

然而，不同于NLP的任务，视觉语言任务天然是更加多样的，因为视觉的输入往往来自多个域，这也使得构建一个统一的模型然后泛化到一系列视觉语言任务上是有挑战的。之前的模型要么是通过一种多任务训练的方式（VL-T5 https://github.com/j-min/VL-T5）要么是直接诉诸于LLMs内在的泛化能力，比如Flamingo和BLIP2）。尽管如此，多任务训练，即使用了一个统一的输入输出格式，但还是不同很好地处理各种任务之间的差异性。在另外一方面，LLMs tuned on instructions在NLP任务上的zero-shot能力泛化性更好，但是在视觉语言任务上往往并没有表现出更好的结果。

为了处理之前提到的挑战，这篇文章提出了InstructBLIP，一个视觉语言instrcution tuning的框架，能够使得通过一个统一的自然语言接口，通用目的的模型来解决一系列的视觉任务。InstructBLIP是初始化于BLIP2（包含一个图像encoder，一个LLM以及两者之间的桥梁Q-Former。）在instruction tuning的过程当中，我们finetune了Q-Former然而保持图像encoder和LLM的参数固定。我们的论文做了如下主要的贡献：

我们做了广泛且系统的视觉语言instruction tuning的研究，我们将26个数据集转换为instruction tuning的格式，然后将他们划分为11个任务类别。其中，13个用于instruction tuning，然后13个被用于zerp shot的评测。除此之外，4个任务被专门保留，用于zero-shot的评测，大量定性以及定量的对比，展示了InstructBLIP在zero-shot视觉语言任务上的泛化性。
我们提出了instruction-aware的视觉特征抽取模块，能够基于instruction抽取有信息的视觉特征。值得一提的是，这个instruction不仅仅只用于给到frozen的LLM作为文本生成的条件，还给到Q-Former作为从frozen的image encoder抽取特征的条件。
我们评估并且开源了一套InstructBLIP模型，用了两个流派的LLM (1) FlanT5（一个encoder-decoder的LLM finetuned from T5），（2）Vicuna，一个decoder-only的LLM finetuned from LLaMA。InstrcutBLIP模型在很多视觉语言任务上取得了zero-shot的SOTA的结果。并且在各种独立的下游任务上，也取得了SOTA的fiunetune表现。

1.2 Vision-Language Instruction Tuning

首先：

介绍instruction-tuning data是如何构建的？
训练以及评价的方式
我们从数据和模型两个角度，介绍两个方法来提升instruction-tuning的表现。

1.3 Tasks and Datasets

上图中，黄色代表held-in的13个数据集，白色代表held-out的数据集

为了保证insctrution data的多样性，并且是可以获取得到，我们广泛收集了各种开源的视觉语言数据集，并且将它们转化成了instruction-tuning的格式。如上图所示，28个数据集被划分成了11个任务类别，包含Image Captioning，Image Captioning Reading Comprehension，Visual Reasoning，image question answering ，knowledge-grounded image question answering，image question answering with reading comprehension ，image question generation (inversed from the QA datasets)，video question answering，visual conversational question answering，image classification，LLaVA-Instruct-150K。

对于每一个任务，我们用自然语言精心制作了（meticulously craft）了10到15个不同的instruction模版。这些模版作为构建tuning data的基础，阐明（articulates）任务并描绘（delineates）目标。因为公开的数据集往往倾向于更加短的response，我们用形如short以及briefly的字样加入到它们相应的instruction模版当中来避免模型过拟合总是生成非常短的response。对于LLaVA-Instrcuct-150K三个优化用户，我们没有添加其他额外的指令模板，因为它天然就是一种结构化的指令格式。

1.3 Training and Evaluation Protocols

为了包含（encompass）一系列任务来训练，但是也保留足够数量未见过的数据来做zero-shot的评测，我们将26个数据集划分为13个held-in和13个held-out的数据集，在上图分别是黄色和白色。我们将held-in数据集中的训练集用于instruction tuning，然后利用它们各自的验证集来做held-in的验证。

对于held-out的评估，我们的目标是理解instruction tuning是如何提高模型在未见数据上zero-shot的泛化性。在本文，我们定义了两种类型的held-out数据，（1）数据集并没有暴露给模型，在训练阶段的时候，但是部分任务是在held-in的cluster里面（2）数据集和它们的任务都完全在训练阶段是没有见过的。处理第一种类型的held-out评价是非平凡的（nontrival）的，因为图像的分布漂移在held-in和held-out数据集之间。对于第二种类型，我们完全held-out了几个任务，包括visual-reasoning, video question answering, visual conversational QA以及image classification。

数据集是仔细挑选过的用于避免数据污染（contamination），即没有验证数据出现在held-in的训练cluster中，在instruction tuning的过程中，我们混合了所有的head-in训练集然后对每一个数据集均匀采样instruction模版。模型用标准的language modeling损失来训练，在给定instruction的基础上，直接预测response。除此之外，对于包含场景文本的数据集，我们加入了OCR的token来作为instrcution的附加信息。

1.3 Instruction-aware Visual Feature Extraction

现有的zero-shot图像到文本的生成方式，包含BLIP2在内，采用的是一个指令不可知（ instruction-agnostic）的方法来进行视觉特征的抽取。即输入LLM的视觉信息是没有感知到instruction的，这也损害了模型跨任务的灵活性。与之形成对比的是，对instruction有感知的视觉模型，是能够提高模型学习以及遵循不同指令的能力的。可以想一下面的这些例子，给定一张相同的图，让模型完成两个不同的任务，以及给定两个不同的图，让模型完成同样的任务，第一个例子，一个instruction-aware的视觉模型能够抽取得到不同的特征（对于相同的图），得到更有信息的特征来处理不同的任务，对于第二个例子，一个instruction-aware的视觉模型能够利用包含在instruction中的共有知识来抽取两个不同图像的特征，这样更容易在不同的图像之间进行知识迁移。

通用BLIP2的Q-Fomer，InstructBLIP提出了一个instruction-aware 的视觉特征抽取方法。

上图是InstructBLIP的模型结构，Q-Former能够从frozen的image encoder抽取得到与instruction相关的视觉特征，然后将这些视觉特征当作soft的prompts输入给frozen的LLM。我们基于language modeling的loss来instruction-tune这个模型去生成response。

具体而言，一系列可学习的query embedding通过cross-attention layer来与frozen image encoder产生交互，输出的queries然后被映射，并且作为frozen LLM的视觉prompts输入。BLIP2的Q-former是经过它原始的两阶段预训练的，因此它能够抽取与文本对齐的视觉特征并且能够很容易被LLM所吸收。在推理的时候，一个instruction被append到visual prompts的后面来引导LLM在不同的任务上起作用。

在InstructBLIP中，这个instrcution文本不仅仅作为LLM的输入，而且也作为Q-Former的输入。instruction通过self-attention层来与queries产生交互。来提出与instruction更有信息量的视觉特征。让LLM得到更有用的视觉信息来完成这个任务。在表2中，我们证明了感知指令的视觉特征提取为保留和保留评估提供了不平凡的性能改进。

1.4 Training Dataset Balancing

由于训练集数目很多，而每一个数据集样本数目是有比较大差别的。因此将它们均匀混合会让小的数据集过拟合，但是大的数据集欠拟合。为了缓解这个问题，我们提出了根据数据集规模来采样的算法（ with a square root smoothing）。对于给定的D个数据集，它们的规模是 ${S_1, S_2, ...., S_D}$ ，对于数据集d中的样本被采样到的概率是 $p_d = \frac{\sqrt{S_d}}{ \sum_{i=1}^{D}\sqrt{S_d}}$ ，除了这个加权的公式外，我们也手动地做了一些数据集权重的调整来加速收敛。这是有必要的，因为即使数据集有相同的尺寸，由于各个数据集内在的不同，也会导致它们需要不同的训练强度来训练。具体而言，我们下调了A-OKVQA (multi-choice) 的权重，但是增加了OKVQA的权重。在表2中，我们也表明了数据均衡的策略有利于提升held-in的验证表现，以及held-out的泛化表现。

1.5 Inference Methods

在推理的时候，我们采用了两个略微不同的生成方法来在不同的数据集上面做评估。对于大多数的数据集，比如image caption和开放性的VQA，instruction-tuned的模型是直接prompted去生成repsonses，这能够直接和gt做对比来计算指标。在另一方面，对于分类和多选QA任务，我们采取了一个词表排序的方法（类似的策略，在BLIP等方法中也用到过）。具体而言，会限制模型生成的答案在一系列的选项当中。然后我们计算每一个选项的log似然，并选择一个最高的值作为预测的结果。排序的方法被用在ScienceQA, IconQA, A-OKVQA (multiple-choice), HatefulMemes, and Visual Dialog datasets当中，除此之外，对于二分类的任务，也用yes/true，以及no/false来放在词表里面。

对于video QA任务，我们对于每个视频用了四个均匀采样的帧。每个帧，各自经过流程，然后它们的query embedding被concat起来作为LLM的输入。

1.5 Implementation Details

模型结构：
用LAVIS的工程来实现InstructBLIP，非常感谢BLIP2的模块化设计，让我们能够很快地将模型适配不同的LLM。我们采用了4个BLIP-2 的变种（相同的image encoder，ViT- g/14），但是不同的frozen LLMs，包含FlanT5-XL (3B), FlanT5-XXL (11B), Vicuna-7B and Vicuna-13B。在训练的时候，只微调Q-Former，至于image-encoder和LLM都保持不变。因为原始BLIP2是没有包含Vicuna的，因为本文也用BLIP2同样的流程来用Vicuna预训练。

训练和超参数：
60K steps训练，每隔3K进行一次验证，batch_size 192,128,64（3B, 7B, and 11/13B ），AdamW优化器， linear warmup lr（initial 1K steps, increasing from 10−8 to 10−5），然后进行cosine decay到0，16台A100 (40G)来进行训练，可以在两天以内完成整个训练。

1.6 Results and Analysis

Zero-shot Evalatuion

相对BLIP2， InstructBLIP FlanT5XL - BLIP-2 FlanT5XL = 15% in average
instruction tuning提升了在未见任务上的zero-shot表现，比如video QA.上取得了47.1%的相对提升
InstructBLIP FlanT5XL with 4B相比于Flamingo-80B也取得了24.8%的相对提升。

1.7 Ablation Study on Instruction Tuning Techniques

1.7 Qualitative Evaluation

你可能感兴趣的:(人工智能,论文阅读,深度学习)

高效快速教你DeepSeek如何进行本地部署并且可视化对话大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
科技文章：高效快速教你DeepSeek如何进行本地部署并且可视化对话摘要：随着自然语言处理（NLP）技术的进步，DeepSeek作为一款基于深度学习的语义搜索技术，广泛应用于文本理解、对话系统及信息检索等多个领域。本文将探讨如何高效快速地在本地部署DeepSeek，并结合可视化工具实现对话过程的监控与分析。通过详尽的步骤、案例分析与代码示例，帮助开发者更好地理解和应用DeepSeek技术。同时，本
不懂英语可以学编程吗?,不懂英文可以学编程吗 P5688346 人工智能
大家好，给大家分享一下英语不好能学python编程吗，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Sourcecodedownload:本文相关源码提到人工智能，就不得不提Python编程语言，大多数人觉得编程语言肯定会涉及到很多代码，满屏的英文字母，想想就头疼，觉得自己不会英语，肯定学不好Python，但是不会英语到底能不能够学习Python呢，下面小编给大家分析分析。其实各位想要
Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
《当人工智能遇上广域网：跨越地理距离的通信变革》程序猿阿伟人工智能
在数字化时代，广域网作为连接全球信息的纽带，让数据能够在不同地区的网络之间流动。然而，地理距离给广域网数据传输带来诸多挑战，如高延迟、低带宽、信号衰减和不稳定等问题。幸运的是，飞速发展的人工智能技术为解决这些难题提供了新的方向，开启了广域网传输的新篇章。广域网传输面临的地理挑战广域网覆盖范围极为广泛，可连接不同城市、国家甚至跨越洲际，这使得数据传输要跨越漫长的地理距离。以跨国公司的广域网为例，其总
【论文阅读】Persistent Homology Captures the Generalization of Neural Networks Without A Validation Set 开心星人论文阅读论文阅读
将神经网络表征为加权的无环图，直接根据模型的权重矩阵构造PD。计算相邻batch的权重矩阵PD之间的距离。比较同调收敛性与神经网络的验证精度变化趋势摘要机器学习从业者通常通过监控模型的某些指标来估计其泛化误差，并在训练数值收敛之前停止训练，以防止过拟合。通常，这种误差度量或任务相关的指标是通过一个验证集（holdoutset）来计算的。因为这些数据没有直接用于更新模型参数，通常假设模型在验证集上的
【论文阅读】实时全能分割模型万里守约论文阅读论文阅读图像分割图像处理计算机视觉
文章目录导言1、论文简介2、论文主要方法3、论文针对的问题4、论文创新点总结导言在最近的计算机视觉领域，针对实时多任务分割的需求日益增长，特别是在交互式分割、全景分割和视频实例分割等多种应用场景中。为了解决这些挑战，本文介绍了一种新方法——RMP-SAM（Real-TimeMulti-PurposeSegmentAnything），旨在实现实时的多功能分割。RMP-SAM结合了动态卷积与高效的模型
论文阅读：2023 arxiv Multiscale Positive-Unlabeled Detection of AI-Generated Texts CSPhD-winston-杨帆论文阅读论文阅读人工智能
总目录大模型安全相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328MultiscalePositive-UnlabeledDetectionofAI-GeneratedTextshttps://arxiv.org/abs/2305.18149https://www.doubao.com/chat/211427064915225
论文阅读笔记——MAGICDRIVE: STREET VIEW GENERATION WITH DIVERSE 3D GEOMETRY CONTROL 寻丶幽风论文阅读笔记论文阅读笔记 3d 人工智能自动驾驶
MagicDrive论文MagicDrive通过对3D数据和文本数据的多模态条件融合和隐式视角转换，实现了高质量、多视角一致的3D场景生成。几何条件编码Cross-attention：针对顺序数据，适合处理文本标记和边界框等可变长度输入。Additiveencoderbranch：对于地图等网络状规则数据，能够有效保留空间结构。对于文本按照模版构建：“Adrivingsceneat{locatio
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
【论文阅读】Availability Attacks Create Shortcuts 开心星人论文阅读论文阅读
还得重复读这一篇论文，有些地方理解不够透彻可用性攻击通过在训练数据中添加难以察觉的扰动，使数据无法被机器学习算法利用，从而防止数据被未经授权地使用。例如，一家私人公司未经用户同意就收集了超过30亿张人脸图像，用于构建商业人脸识别模型。为解决这些担忧，许多数据投毒攻击被提出，以防止数据被未经授权的深度模型学习。它们通过在训练数据中添加难以察觉的扰动，使模型无法从数据中学习太多信息，从而导致模型在未见
NLP高频面试题（十）——目前常见的几种大模型架构是啥样的 Chaos_Wang_ NLP常见面试题自然语言处理架构人工智能
深入浅出：目前常见的几种大模型架构解析随着Transformer模型的提出与发展，语言大模型迅速崛起，已经成为人工智能领域最为关注的热点之一。本文将为大家详细解析几种目前常见的大模型架构，帮助读者理解其核心差异及适用场景。1.什么是LLM（大语言模型）？LLM通常指参数量巨大、能够捕捉丰富语义信息的Transformer模型，它们通过海量的文本数据训练而成，能够实现高度逼真的文本生成、复杂的语言理
深度学习 | pytorch + torchvision + python 版本对应及环境安装 zfgfdgbhs 深度学习 python pytorch
目录一、版本对应二、安装命令（pip）1.版本（1）v2.5.1~v2.0.0（2）v1.13.1~v1.11.0（3）v1.10.1~v1.7.02.安装全过程（1）选择版本（2）安装结果参考文章一、版本对应下表来自pytorch的github官方文档：pytorch/vision:Datasets,TransformsandModelsspecifictoComputerVisionpytor
机器学习 Day01人工智能概述山北雨夜漫步机器学习人工智能
1.什么样的程序适合在gpu上运行计算密集型的程序：此类程序主要运算集中在寄存器，寄存器读写速度快，而GPU拥有强大的计算能力，能高效处理大量的寄存器运算，因此适合在GPU上运行。像科学计算中的数值模拟、密码破解等场景的程序，都属于计算密集型，在GPU上运行可大幅提升运算速度。易于并行的程序：GPU采用SIMD架构，有众多核心，同一时间每个核心适合做相同的事。易于并行的程序能充分利用GPU这一特性
《今日AI-人工智能-编程日报》-源自2025年3月20日小亦编辑部每日AI-人工智能-编程日报人工智能大数据
一、AI行业动态英伟达新一代AI芯片Rubin发布计划英伟达宣布其新一代AI芯片Rubin将于2026年下半年推出，下下一代AI芯片架构命名为Feynman，计划于2028年登场。同时，英伟达还推出了RTXPRO6000系列Blackwell专业卡，拥有24064核心、96GB显存和最高600W功耗。OpenAI星际之门数据中心建设进展OpenAI的首个数据中心“星际之门”预计于2026年中在德克
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
AIOps：解决企业IT挑战的智能利器雅菲奥朗认证培训 AIOps SRE 可观测性
前言：在当今数字化的时代，企业IT基础设施和应用程序规模不断扩大，面临着日益复杂的挑战。在这种情况下，AIOps人工智能运维成为解决企业IT运维困境的智能利器。AIOps与可观测性密切相关，可观测性是实现AIOps的基础。通过收集、监视和理解系统数据，AIOps能够自动化运维任务、实时监控系统状态、预测潜在问题，从而提高效率和稳定性。AIOps尤其适用于IT运维部门，这是一个迫切需要此类技术的群体
使用AIOps进行更好的事件管理茵赛飞3D CAD数据转换软件 pagerduty devops 人工智能运维
DevOps为科技界带来了更加协作和高效的工作流程。随着AIOps的集成，自动化更进一步，使用人工智能为团队提供更快的根本原因分析和算法降噪。主要从采用AIOps中受益的主要领域之一是事件管理。AIOps可以帮助DevOps团队自动化工作流程，以实现更智能、更高效的事件管理，从而腾出时间让IT运营团队成员专注于创新以改善用户体验。在本文中，我们将了解AIOps如何从检测和识别到响应改进事件管理，以
AI大模型编程能力对比：Deepseek&Claude&Gemini 黑夜路人（heiyeluren） AI人工智能人工智能 ai AIGC 语言模型
在当今快速发展的技术领域，人工智能（AI）模型在编程和数据处理方面的应用越来越广泛。不同的AI模型因其独特的设计理念和技术优势，适用于不同的编程任务和场景。本文将对三种主流的AI模型——DeepSeekv3、GeminiFlash2.0和Claude3.5Sonnet的编程能力进行详细对比，帮助读者根据具体需求选择最合适的工具。同时对DeepSeekv3、GeminiFlash2.0和Claude
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
Description of a Poisson Imagery Super Resolution Algorithm 论文阅读青铜锁00 论文阅读 Radar 论文阅读
DescriptionofaPoissonImagerySuperResolutionAlgorithm1.研究目标与意义1.1研究目标1.2实际意义2.创新方法与模型2.1核心思路2.2关键公式与推导2.2.1贝叶斯框架与概率模型2.2.2MAP估计的优化目标2.2.3超分辨率参数α2.3对比传统方法的优势3.实验验证与结果3.1实验设计3.2关键结果4.未来研究方向（实波束雷达领域）4.1挑战
大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？大模型入门教程学习人工智能 AI 大模型大模型学习大模型教程 AI大模型
随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。本文将为您详细介绍从零开始学习大模型直至成为专家的全过程，包括所需掌握的知识点、学习资源以及实践建议等。无论您是初学者还是有一定基础的专业人士，都能从中获得有价值的指导。一、基础知识准备在开始学习大模型之前，需要先掌握一些基础知识，这些知识将为后续的学
编程内容简述！恶霸不委屈开发语言青少年编程汇编 java python
编程是指通过计算机语言来开发软件、程序和应用的过程，通常通过编写一系列的指令，来让计算机完成特定的任务。编程可以涉及多个领域和技术，以下是一些主要的编程内容：1.编程语言编程语言是程序员与计算机进行沟通的桥梁，不同的编程语言适用于不同的任务。常见的编程语言有：Python：简单易学，适用于数据分析、人工智能、网页开发等。JavaScript：网页开发中不可或缺的语言，用于动态网页和前端开发。Jav
大模型Agent 和 RAG 的关系大数据追光猿大模型语言模型人工智能学习方法 transformer
Agent和RAG（Retrieval-AugmentedGeneration）是两种在自然语言处理（NLP）和人工智能领域中广泛使用的技术，它们在功能、目标和实现方式上既有区别又有联系。以下是它们的关系及其协同作用的详细分析。1.Agent和RAG的定义（1）Agent定义：Agent是一种智能体，能够感知环境并采取行动以完成特定任务。在NLP领域，Agent通常指一个基于大语言模型（LLM）的
国产模型能否挑战 GPT-4？一文拆解 DeepSeek-V3 架构与实战应用 AI筑梦师人工智能学习框架架构深度学习 python agi 人工智能 tensorflow
✳️一、引言✅1.1DeepSeek-V3发布背景与定位随着大模型技术的快速演进，从GPT-3到GPT-4，全球在通用人工智能方向取得了长足进展。但与此同时，开源社区始终缺乏一个真正兼顾性能、效率、中文能力和实用性的高质量大模型。DeepSeek-V3的推出正是在这个背景下的一次关键突破。DeepSeek-V3是由中国团队DeepSeek开发的第三代大语言模型，它具备以下几个核心特性：开源可商用：
Agent、RAG、LangChain的概念及作用北极冰雨大模型人工智能
Agent：概念：在人工智能中，Agent通常指的是能够执行任务或做出决策的实体，可以是简单的程序，也可以是复杂的系统，如自动化客服助手、推荐系统等，甚至可以是软件代理、机器人或虚拟助手等各种形式。作用：它能利用内置的大语言模型来做出规划，决定执行哪些步骤，以及每个步骤需要调用哪些工具（如RAG），之后调用相应的工具，最终完成任务。例如，在客服问答场景中，Agent可以根据用户的问题，规划出需要查
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
DeepSeek多语言AI高效应用实践智能计算研究中心其他
内容概要在人工智能技术快速迭代的背景下，DeepSeek系列模型凭借混合专家架构（MoE）与670亿参数规模，在多语言处理、视觉语言理解及复杂任务生成领域实现了突破性进展。本文系统性拆解其技术架构设计逻辑，聚焦论文写作、代码生成、SEO关键词拓展三大核心场景，分析模型在高生成质量、低使用成本维度的差异化优势。技术维度DeepSeekProver传统单模态模型多语言支持97种语言动态切换单一语种优化
AI大模型训练教程 Small踢倒coffee_氕氘氚 python自学经验分享笔记
1.引言随着人工智能技术的快速发展，大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。训练一个大模型需要大量的计算资源、数据和专业知识。本教程将带你了解如何从零开始训练一个AI大模型。2.准备工作2.1硬件要求GPU：推荐使用NVIDIA的高性能GPU，如A100、V100等。内存：至少64GBRAM。存储：SSD存储，至少1TB。#2.2软件环境操作系统：Lin
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_