tangjunjun-owen

CLIP模型原理与代码实现详解

文章目录

前言
一、CLIP模型原理
- 1.背景介绍
- 2.对比训练方式
- 3.prompt推理方式
- 4.图像与文本编码结构
- 5.特征CLS token结构
- - vit划分patch原理
  - cls token原理
二、CLIP环境安装
- 1.官方环境安装
- 2.CLIP环境安装
- 3.CLIP运行结果
三.CLIP的Transformer结构代码解读
四、CLIP模型主函数代码解读
五、CLIP的image encode代码解读
- 1、主函数代码解读
- 2、VisionTransformer结构代码解读
- 3、图像patch方法代码解读
- 3、图像cls token编码代码解读
- 4、图像位置编码代码解读
- 5、图像cls token特征表达代码解读
- 6、图像特殊结构代码解读
六、CLIP的text encode代码解读
- 1、主函数代码解读
- 2、文本token代码解读
- 3、文本位置编码代码解读
- 4、文本特殊结构代码解读
七、CLIP多模态融合代码解读
八、CLIP推理结构解读
九、CLIP训练结构解读
总结

前言

目前，大模型十分活跃，openai公司呈现GPT系列，特别是Chat-GPT给人深刻印象，意识到大模型厉害之处，随后推出GPT4模型，更是将大模型进一步推到一个高度，并将多模态融合技术留下深刻印象，同时，学者也对多模态融合技术研究呈现百花齐放之势。然而，多模态模型大多以CLIP所提方法或思路实现多模态融合。为此，本文将重新回顾CLIP论文相关理论，也重点梳理其源码，并附其代码供读者参考(本文会涉及VIT与BERT代码解读)。

提示：代码环境安装、重点部分代码解释(如：image encode(VIT),text encode(BERT)等)

论文地址：点击这里
官网源代码：点击这里
我的代码：点击这里名称为：CLIP模型.zip 提取码：r63z

一、CLIP模型原理

1.背景介绍

CLIP算是在跨模态训练无监督中的开创性工作，作者提到早在2017年之后就陆续有工作提出和本文类似的想法，但数据量太少，而无好结果。本文收集4亿数据的大数据集，才得到很好的效果。这种现象最近好像在机器学习领域越来越突出。本文采用对比方式，图像使用vit结构编码、文本使用bert编码，实现视觉与语言多模态融合。

2.对比训练方式

本文并非像图像caption方式，而是通过对比学习实现模型训练，我想也是这种对比学习才被目前多模态融合方法所借鉴。其采用对比学习原因如下：

OpenAI是不愁计算资源的公司，喜欢将一切都gpt化(就是做生成式模型)；
以往工作在1000类ImageNet数据训练方法，非常耗费资源，而CLIP要做的是开发世界的视觉识别任务，所以训练的效率对于自监督的模型至关重要；
如果任务改为给定一张图片去预测一个文本(或者给定一个文本去预测一张图片)，那么训练效率将会非常低下(因为一个图片可能对应很多种说法，一个文本也对应着很多种场景)；
与其做默写古诗词，不如做选择题！(只要判断哪一个文本与图片配对即可)；
通过从预测任务改为只预测某个单词到只选出配对的答案，模型的训练效率一下提升了4倍；

为此，本文训练阶段使用对比学习，让模型学习文本-图像对的匹配关系，也就是下面模型原理图中，蓝色对角线为匹配的图文对。训练集用的他们自己采集的包含4亿个图文对的 WIT数据集。

3.prompt推理方式

使用某种固定prompt结构，正如训练获得特征，通过图像与prompt特征相似度匹配，实现clip分类，如：图像猫、狗二分类，可分别输入 “ A photo of cat ” 和 “ A photo of dog ”，分别与图像特征算相似度，确定其图像类被。

4.图像与文本编码结构

CLIP为多模态模型是指图像维度与文本维度融合，那么需要对图像特征化与文本特征化，本文选择图像编码结构为VIT，文本编码结构为BERT。后面，代码讲解，我将有大量笔墨说明。

5.特征CLS token结构

对于图像数据而言，其数据格式为[H, W, C]，分别代表的是图片的通道数Channel，图片的高Height和宽Width。但很明显的是三维数据并不是Transformer所需要的。所以需要通过使用一个Embedding层来对原始的图片数据进行变换。

vit划分patch原理

vit论文做法为将给定的一堆图片按照给定的大小分成一堆Patches。本文将输入的图片尺寸为(224×224)按照16×16大小的Patch进行划分。其中（224×224）/（16×16）=196，因此我们会得到196个patches。到这里我们可以知道每一个Patches数据的shape为[16, 16, 3]。为了满足Transformer的需求，在这里，对每个Patch进行投影变化，映射到一维向量中。即完成如下转化。[16, 16, 3]->[768]，那么这样一来，就将原始的[224, 224, 3]转化为[196, 768]。

cls token原理

在输入Transformer Encoder之前，值得注意的是需要加上[class] token。在原论文中，作者的意思是参考BERT，在上述得到的一堆tokens中插入一个专门用于分类操作的[class] token，这个[class] token是一个可训练的参数，数据格式和其他token保持一致，均为一个向量。
以本文为例，其维度大小为[1, 768]。注意的是，这里采取的是Concat操作。即cat cls token [1, 768]与图像pathch [196, 768] -> [197, 768]，此时正好变成了二维矩阵。最终将图像patch变成维度是[197, 768]，而本文是将cls token放在第一位，后面分类也是通过cls token给出，如下图。

注：cls token是一个可学习参数。

二、CLIP环境安装

本小节介绍如何使用官网代码安装环境，而不同电脑或cuda版本不一样，所安装也有所不同，但基本不影响，我的电脑相关属性：
gpu：RTX 3060显卡
CUDA:11.1

1.官方环境安装

官网代码安装如下命令：

$ conda install --yes -c pytorch pytorch=1.7.1 torchvision cudatoolkit=11.0
$ pip install ftfy regex tqdm
$ pip install git+https://github.com/openai/CLIP.git

2.CLIP环境安装

构建虚拟环境：

conda create -n clip python=3.8

安装torch相关包：

pip install torch==1.8.0+cu111 torchvision==0.9.0+cu111 torchaudio==0.8.0 -f https://download.pytorch.org/whl/torch_stable.html  -i https://pypi.mirrors.ustc.edu.cn/simple/

安装相关依赖包：

pip install ftfy regex tqdm  -i https://pypi.mirrors.ustc.edu.cn/simple/

运行源码setup.py，其一为install运行，该操作是一个包安装虚拟环境，其二为develop运行，该操作是开发安装，指向了源代码而不是安装它的位置，方便调试，其命令如下：

# 方法一安装命令
python setup.py install
# 方法二安装命令
python setup.py develop  # 我采用该命令

注：建议使用方法二指向源码

3.CLIP运行结果

以上安装即可运行检测命令，可测试安装成功，其结果如下：

三.CLIP的Transformer结构代码解读

无论是文本text或图像image的编码encode均大量使用Transformer结构(以VIT与BERT编码)，其实质是Q K V结构，可参考文章点击这里，为此我将单独使用一小节介绍。

改代码在源码model.py文件中，其调用类如下代码：

class Transformer(nn.Module):
    def __init__(self, width: int, layers: int, heads: int, attn_mask: torch.Tensor = None):
        super().__init__()
        self.width = width
        self.layers = layers
        self.resblocks = nn.Sequential(*[ResidualAttentionBlock(width, heads, attn_mask) for _ in range(layers)])

    def forward(self, x: torch.Tensor):
        return self.resblocks(x)

以上代码可知，该类为一个包装结构，重点是重复调用ResidualAttentionBlock结构，其结构如下代码：

class ResidualAttentionBlock(nn.Module):
    def __init__(self, d_model: int, n_head: int, attn_mask: torch.Tensor = None):
        super().__init__()

        self.attn = nn.MultiheadAttention(d_model, n_head)  # n_head 头，d_model 表示维度。
        self.ln_1 = LayerNorm(d_model)
        self.mlp = nn.Sequential(OrderedDict([
            ("c_fc", nn.Linear(d_model, d_model * 4)),
            ("gelu", QuickGELU()),
            ("c_proj", nn.Linear(d_model * 4, d_model))
        ]))
        self.ln_2 = LayerNorm(d_model)
        self.attn_mask = attn_mask

    def attention(self, x: torch.Tensor):
        self.attn_mask = self.attn_mask.to(dtype=x.dtype, device=x.device) if self.attn_mask is not None else None
        return self.attn(x, x, x, need_weights=False, attn_mask=self.attn_mask)[0]  # 三个x表示Q K V计算值，x最后维度=n_head*d_model

    def forward(self, x: torch.Tensor):
        x = x + self.attention(self.ln_1(x))
        x = x + self.mlp(self.ln_2(x))
        return x

从上面forward代码结构可知。
首先使用 x = x + self.attention(self.ln_1(x))，类似残差方式x+transform后的结果，该结构类似进行了attention方法，等同于transform结构的attention，该结构也被torch所集成，可直接调用其源码，如下：

self.attn = nn.MultiheadAttention(d_model, n_head)  # n_head 头，d_model 表示维度。

其次又调用 x = x + self.mlp(self.ln_2(x))，类似FFN结构，进行nn.Linear常规线性操作，在来一个激活GELU结构，最后在来一次线性操作，符合mlp结构，具体如下：

self.mlp = nn.Sequential(OrderedDict([
            ("c_fc", nn.Linear(d_model, d_model * 4)),
            ("gelu", QuickGELU()),
            ("c_proj", nn.Linear(d_model * 4, d_model))
        ]))

其中GELU使用QuickGELU方法，其代码如下：

class QuickGELU(nn.Module):
    def forward(self, x: torch.Tensor):
        return x * torch.sigmoid(1.702 * x)

注：该部分结构类似transformer结构，并n次使用于image与text的编码。

四、CLIP模型主函数代码解读

CLIP模型主函数也在源码model.py文件中，如下图所示：

其中forward为模型流走向，其代码如下：

    def forward(self, image, text):
        image_features = self.encode_image(image)
        text_features = self.encode_text(text)

        # normalized features,# 每一行sqr(a1^2+a2^2+...)
        image_features = image_features / image_features.norm(dim=1, keepdim=True)  # [batch_img,512]
        text_features = text_features / text_features.norm(dim=1, keepdim=True)  # [batch_text,512]

        # cosine similarity as logits
        logit_scale = self.logit_scale.exp()  # 可学习参数
        logits_per_image = logit_scale * image_features @ text_features.t()  # 特征相乘获得相似度
        logits_per_text = logits_per_image.t()  # 变成文本

        # shape = [global_batch_size, global_batch_size]
        return logits_per_image, logits_per_text

以上可知，CLIP实现多模态融合，实际是对图像编码与文本编码，使其分别获得对应的特征表达，在将表达特征进行norm(我的理解减小偏差，是一个常规操作)，随后将图像特征与对应文本特相差，便可获得相似值。
假设以2个图像与3个文本表示，其图像特征获得对应文本特征得到相似值，简易说明如下：

将其转职获得文本特征获得对应图像特征相似值，简易说明如下：

其中，每个图像与文本特征表达维度为512（CLIP使用此维度），获得对应相似值如上图V**，每一行的最大值分别是CLIP模型认为最相似的，也得到图像获得文本标签，或文本获得匹配的图像。

五、CLIP的image encode代码解读

图像编码使用VIT编码结构，将图片划分为多个patch，然后使用transformer结构编码提取特征，最终获得特征表达。接下来，我将详细阐述。

1、主函数代码解读

CLIP使用encode_image函数调用，如下：

image_features = self.encode_image(image)

而encode_image函数如下：

def encode_image(self, image):
    return self.visual(image.type(self.dtype))

CLIP使用图像编码有ResNet结构与VisionTransformer,前者是CNN方式，后者是transformer方式，我将以transformer方式解读，如下代码：

        if isinstance(vision_layers, (tuple, list)):
            vision_heads = vision_width * 32 // 64
            self.visual = ModifiedResNet(
                layers=vision_layers,
                output_dim=embed_dim,
                heads=vision_heads,
                input_resolution=image_resolution,
                width=vision_width
            )
        else:
            vision_heads = vision_width // 64
            self.visual = VisionTransformer(
                input_resolution=image_resolution,
                patch_size=vision_patch_size,
                width=vision_width,
                layers=vision_layers,
                heads=vision_heads,
                output_dim=embed_dim
            )

2、VisionTransformer结构代码解读

该类是图像encode的所有精华所在，代码已有我的注释，其代码如下：

class VisionTransformer(nn.Module):
    def __init__(self, input_resolution: int, patch_size: int, width: int, layers: int, heads: int, output_dim: int):
        super().__init__()
        self.input_resolution = input_resolution
        self.output_dim = output_dim
        self.conv1 = nn.Conv2d(in_channels=3, out_channels=width, kernel_size=patch_size, stride=patch_size, bias=False)
        # width相当于transform中的d_model
        scale = width ** -0.5
        self.class_embedding = nn.Parameter(scale * torch.randn(width))
        self.positional_embedding = nn.Parameter(scale * torch.randn((input_resolution // patch_size) ** 2 + 1, width))
        self.ln_pre = LayerNorm(width)

        self.transformer = Transformer(width, layers, heads)

        self.ln_post = LayerNorm(width)
        self.proj = nn.Parameter(scale * torch.randn(width, output_dim))

    def forward(self, x: torch.Tensor):
        # x=[1,3,224,224]
        x = self.conv1(x)  # shape = [*, width, grid, grid] # 将图片分成[32,32]个patch [1,768,7,7]
        x = x.reshape(x.shape[0], x.shape[1], -1)  # shape = [*, width, grid ** 2],合并高宽 [1,768,49]
        x = x.permute(0, 2, 1)  # shape = [*, grid ** 2, width] ，更换位置 [1,49,768]
        x = torch.cat([self.class_embedding.to(x.dtype) + torch.zeros(x.shape[0], 1, x.shape[-1], dtype=x.dtype, device=x.device), x], dim=1)  # shape = [*, grid ** 2 + 1, width],添加cls token[1,50,768]
        x = x + self.positional_embedding.to(x.dtype)  # 这里位置编码是可学习的参数，可能是切了path顺序让模型自己学习吧  [1,50,768]
        x = self.ln_pre(x)  # [1,50,768]

        x = x.permute(1, 0, 2)  # NLD -> LND  # [pixel,b,d_model]=[50,1,768]
        x = self.transformer(x)  # 多头transformer [50,1,768]
        x = x.permute(1, 0, 2)  # LND -> NLD  # [1,50,768]

        x = self.ln_post(x[:, 0, :])  # x[:, 0, :] 将所有信息汇聚到cls token中，只需前面来做下游任务 [1,768]

        if self.proj is not None:  # self.proj是可学习参数，维度为[768,512]
            x = x @ self.proj  # 通过学习参数将维度再次融合变成512特征，最终为[1,512]

        return x

以上可知，图片首先切成patch块，然后转成transformer能使用的结构，该结构可参考这里，同时，代码也有位置编码模块与特征结合，随后将所有信息汇聚到cls token，可实现下游任务，最后也通过可学习参数实现最终图像特征提取。我将在下面具体解读。

3、图像patch方法代码解读

将图像划分patch实际是VIT最重要思想，意在解决训练和推理速度问题，代码层面处理，实际为卷积核与步长来处理，代码如下：

self.conv1 = nn.Conv2d(in_channels=3, out_channels=width, kernel_size=patch_size, stride=patch_size, bias=False)

以上代码简单一句，即可将如[1,3,224,224]的一个图片分成3232尺寸(vit使用1616，这个根据模型而定，仅是一个参数而已)化成768个patch，高宽分别为7，格式为[1,768,7,7]：

# x=[1,3,224,224]
x = self.conv1(x)  # shape = [*, width, grid, grid] # 将图片分成[32,32]个patch [1,768,7,7]

结果如图：

768来源：VIT模型将输入224224尺寸化成1616像素的patch，那么每个patch为16163=768，其中3为图像通道，将每个patch投影为768维度表示，也就是本文中self.conv1通道为768的缘故。
196与49区别：196也是来源VIT将224变成16尺寸的patch，那么共有224224/(1616)=196，而本文的patch尺寸为32，变成224224/(3232)=49。

最终图像使用reshape将宽高7*7合并转为49的像素，成为[1,49,768]，可理解1为batch在NLP中表示一句话，49为像素在NLP中表示文字，768为每个patch投影表达在NLP中表示d_model为每个文字使用d_model表达特征。其代码如下：

x = x.reshape(x.shape[0], x.shape[1], -1)  # shape = [*, width, grid ** 2],合并高宽 [1,768,49]
x = x.permute(0, 2, 1)  # shape = [*, grid ** 2, width] ，更换位置 [1,49,768]

3、图像cls token编码代码解读

cls token为VIT较为特殊设置，是一个可学习参数，我已在上面原理中介绍，不在细说，只解读实现方式，实现代码如下：

scale = width ** -0.5
self.class_embedding = nn.Parameter(scale * torch.randn(width))

将cls token嵌入，原来[1,49,768]变为[1,50,768]，其代码中如下：

x = torch.cat([self.class_embedding.to(x.dtype) + torch.zeros(x.shape[0], 1, x.shape[-1], dtype=x.dtype, device=x.device), x], dim=1)  # shape = [*, grid ** 2 + 1, width],添加cls token[1,50,768]

若在VIT模型cls token嵌入，将[1,196,768]变成[1,197,768]。

4、图像位置编码代码解读

位置编码也是一个可学习参数，实现代码如下：

self.positional_embedding = nn.Parameter(scale * torch.randn((input_resolution // patch_size) ** 2 + 1, width))

将位置编码嵌入，实际是x加上了位置信息，和我之前attention is all you need文章解释类似，该结构代码如下：

x = x + self.positional_embedding.to(x.dtype)  # 这里位置编码是可学习的参数，可能是切了path顺序让模型自己学习吧  [1,50,768]

5、图像cls token特征表达代码解读

最终每张图像特征表达直接使用cls token来代替，直接取前第一个，如下图显示：

6、图像特殊结构代码解读

proj特殊结构，该结构若使用将进一步将图像特征表达进行变换，该变换的self.proj是可学习参数，代码如下：

self.proj = nn.Parameter(scale * torch.randn(width, output_dim))

将该结构嵌入，我理解可进一步特征混合整合或组合获得图像特征表达，该结构代码如下：

if self.proj is not None:  # self.proj是可学习参数，维度为[768,512]
   x = x @ self.proj  # 通过学习参数将维度再次融合变成512特征，最终为[1,512]

代码运行图像显示如下：

我个人觉得该结构可被借鉴。

六、CLIP的text encode代码解读

文本编码使用BERT编码结构，显然使用transformer结构编码提取文本特征，最终获得特征表达。接下来，我将详细阐述。

1、主函数代码解读

CLIP使用encode_text函数调用，如下：

text_features = self.encode_text(text)

而encode_text函数如下：

def encode_text(self, text):
    # x 每个句子前面有值，有2个特殊符号[CLS]与[Seq]
    x = self.token_embedding(text).type(self.dtype)  # [batch_size, n_ctx, d_model]，[3,77,512]
    x = x + self.positional_embedding.type(self.dtype)  # 位置编码直接赋可学习位置，添加位置信息[3,77,512]
    x = x.permute(1, 0, 2)  # NLD -> LND,[77,3,512]
    x = self.transformer(x)  # 共11个 和图像encode结构一致 [77,3,512]
    x = x.permute(1, 0, 2)  # LND -> NLD，[3,77,512]
    x = self.ln_final(x).type(self.dtype)
    # x.shape = [batch_size, n_ctx, transformer.width]
    # take features from the eot embedding (eot_token is the highest number in each sequence)
    # text.argmax(dim=-1) 句子最后有一个seq字段，是最大的，因此能获得句子个数数量
    x = x[torch.arange(x.shape[0]), text.argmax(dim=-1)] @ self.text_projection

    return x

2、文本token代码解读

文本编码和我之前文章点击这里解释transform的encode基本相同，读者可查看。很多与我之前文章相同内容将不在解释，该小节说明如何使用文本token。首先文本为text_language = ["a diagram", "a dog", "a black cat"]，也就是三句话，每句话大概几个词，其转码为下图计算机可识别符号方法，查阅我的博客点击这里。其代码如下：

x = self.token_embedding(text).type(self.dtype)  # [batch_size, n_ctx, d_model]，[3,77,512]

其结果如下图：

以上可知，文本变成[3,77]结构，如输入text第一行文本为"a diagram"，理论映射只有2个，但有四个数字，其中第一个为[CLS]值，最后一个为[Seq]值，本文设置每个句子长度为77，不足使用0表示，最终变成[3,77]表示为3个句子有77个文字(不足用0表示)。最终使用512维度表达，成为[3,77,512]结构，该部分与我之前文章内容一致，详情可参考之前文章。

3、文本位置编码代码解读

位置编码也是一个可学习参数，实现代码如下：

self.positional_embedding = nn.Parameter(torch.empty(self.context_length, transformer_width))

将位置编码嵌入，实际是x加上了位置信息，和我之前attention is all you need文章解释类似，该结构代码如下：

x = x + self.positional_embedding.type(self.dtype)  # 位置编码直接赋可学习位置，添加位置信息[3,77,512]

4、文本特殊结构代码解读

self.text_projection特殊结构，该结构若使用将进一步将文本特征表达进行变换，该变换的self.text_projection是可学习参数，代码如下：

self.text_projection = nn.Parameter(torch.empty(transformer_width, embed_dim))

将该结构嵌入，与图像变啊特殊结构类似，该结构代码如下：

# text.argmax(dim=-1) 句子最后有一个seq字段，是最大的，因此能获得句子个数数量
x = x[torch.arange(x.shape[0]), text.argmax(dim=-1)] @ self.text_projection

注：x[torch.arange(x.shape[0]), text.argmax(dim=-1)]改代码表达取x为[3,77,512]维度索引分别[0,3],[1,3],[2,4]，得到三个句子512维度特征表达，而每个句子都是取第二个维度77文字最大那一个，我的理解是每句话都是从第一个文字[CLS]叠加到最后一个文字[Seq]，因此使用最后一个就有时序表达该句话的特征。

代码运行图像显示如下：

至于文本encode过程可参考代码走向，因其过于简单，我不在说明。

七、CLIP多模态融合代码解读

在上面小节中我们已然知晓图像编码与文本编码方式，该小节说明获得图像、文本特征表达融合方式，其代码如下：

    def forward(self, image, text):
        image_features = self.encode_image(image)
        text_features = self.encode_text(text)

        # normalized features,# 每一行sqr(a1^2+a2^2+...)
        image_features = image_features / image_features.norm(dim=1, keepdim=True)  # [batch_img,512]
        text_features = text_features / text_features.norm(dim=1, keepdim=True)  # [batch_text,512]

        # cosine similarity as logits
        logit_scale = self.logit_scale.exp()  # 可学习参数
        logits_per_image = logit_scale * image_features @ text_features.t()  # 特征相乘获得相似度
        logits_per_text = logits_per_image.t()  # 变成文本

        # shape = [global_batch_size, global_batch_size]
        return logits_per_image, logits_per_text

从代码可知，图像特征与文本特征进行norm(其作用在上面已说明)，然后求解其相似度获得图像与文本匹配结果。其过程也较为简单，可直接参考以上源码，其图示如下：

图像特征为[1,512]表示一个图像被512维度表达；
文本特征[3,512]表示3个句子分别被512维度表达；

八、CLIP推理结构解读

推理代码官网也有提供，直接官网下载权重便可实现，我使用VIT-B-32模型结构，实现推理分类任务。该模型使用对比学习，可定义很多文本，让每个图像与多个文本特征相似匹配，匹配值越高，自然就是那个类。如同，我在上面CLIP模型主函数代码解读说明一样。其代码如下：

import torch
import clip
from PIL import Image
import numpy as np

def class_demo():
    # 测试分类的demo
    device = "cuda" if torch.cuda.is_available() else "cpu"
    # 模型选择['RN50', 'RN101', 'RN50x4', 'RN50x16', 'ViT-B/32', 'ViT-B/16']，对应不同权重
    model, preprocess = clip.load("../ViT-B-32.pt", device=device)  # 载入模型
    image = preprocess(Image.open("../CLIP.png")).unsqueeze(0).to(device)
    text_language = ["a diagram", "a dog", "a black cat"]
    text = clip.tokenize(text_language).to(device)

    with torch.no_grad():
        logits_per_image, logits_per_text = model(image, text)  # 第一个值是图像，第二个是第一个的转置
        probs = logits_per_image.softmax(dim=-1).cpu().numpy()

        idx = np.argmax(probs, axis=1)
        for i in range(image.shape[0]):
            id = idx[i]
            print('image {}\tlabel\t{}:\t{}'.format(i, text_language[id],probs[i,id]))
            print('image {}:\t{}'.format(i, [v for v in zip(text_language,probs[i])]))


if __name__ == '__main__':
    class_demo()

其结果如下：

九、CLIP训练结构解读

分类的CLIP训练实际是交叉熵方法，我们获得匹配值，可看成每个图像分别与不同文本相似值为预测类别值，进行类似交叉熵运算即可，另外反过来也可看成每个文本与分别与不同图像相似值为预测值，亦可进行交叉熵运算。我大概查了github其它训练方法，可供参考，其代码如下：

        with torch.no_grad():
            for i, batch in enumerate(dataloader):
                images, texts = batch
                images = images.to(device=device, non_blocking=True)
                texts = texts.to(device=device, non_blocking=True)

                with autocast():
                    image_features, text_features, logit_scale = model(images, texts)
                    # features are accumulated in CPU tensors, otherwise GPU memory exhausted quickly
                    # however, system RAM is easily exceeded and compute time becomes problematic
                    all_image_features.append(image_features.cpu())
                    all_text_features.append(text_features.cpu())
                    logit_scale = logit_scale.mean()
                    logits_per_image = logit_scale * image_features @ text_features.t()
                    logits_per_text = logits_per_image.t()

                    batch_size = images.shape[0]
                    labels = torch.arange(batch_size, device=device).long()
                    total_loss = (
                        F.cross_entropy(logits_per_image, labels) +
                        F.cross_entropy(logits_per_text, labels)
                    ) / 2

博客可参考：点击这里

总结

CLIP为多模态融合奠定了基准，也是通过对比训练可实现无监督大模型预训练。个人觉得还是比较重要。

你可能感兴趣的:(语言模型-多模态大模型,人工智能,自然语言处理,语言模型)

红色用 RGB 16进制表示的值 BlueBirdssh RGB颜色值
**红色**在RGB颜色模型中，表示为**#FF0000**（16进制表示）。以下是详细解释：---###1.**RGB模型**RGB模型由**红（Red）**、**绿（Green）**和**蓝（Blue）**三种颜色组成，每种颜色的值范围是0到255（十进制），或者**00到FF**（十六进制）。-红色的RGB值为：-红色（R）=255（十进制）=FF（十六进制）-绿色（G）=0（十进制）=00
【Statsmodels和SciPy介绍与常用方法】机器学习司猫白 scipy statsmodels 统计
Statsmodels库介绍与常用方法Statsmodels是一个强大的Python库，专注于统计建模和数据分析，广泛应用于经济学、金融、生物统计等领域。它提供了丰富的统计模型、假设检验和数据探索工具，适合进行回归分析、时间序列分析等任务。本文将介绍Statsmodels的核心功能，并通过代码示例展示其常用方法。Statsmodels简介Statsmodels建立在NumPy和SciPy的基础上，
（面经总结）一篇文章带你整理面试过程中常考的九大排序算法南淮北安冲刺大厂之面经总结面经排序算法二分插入冒泡快速
文章目录一、二分插入排序1.原理2.代码二、冒泡排序1.原理2.代码三、插入排序算法1.原理2.代码四、快速排序算法1.原理2.代码五、希尔排序1.原理2.代码六、归并排序1.原理2.代码七、桶排序八、基数排序九、堆排序1.原理2.代码十、总结1.算法分类2.性能分析一、二分插入排序首先必须是排好序的数组，然后通过二分查找，找到合适的位置，插入1.原理二分查找算法又叫作折半查找，要求待查找的序列有
star31.6k，Aider：让代码编写如虎添翼的终端神器
ider是一款运行在终端中的AI结对编程工具，它能与大型语言模型（LLM）无缝协作，直接在您的本地Git仓库中编辑代码。无论是启动新项目，还是优化现有代码库，Aider都能成为您最得力的助手。它支持Claude3.5Sonnet、DeepSeekV3、GPT-4o等顶级AI模型，几乎可以连接任何LLM，让编程体验如虎添翼。Stars数35,188Forks数3,230主要特点Git操作：Aider
ViP-LLaVA: 使大型多模态模型理解任意视觉提示 AI专题精讲 Paper阅读多模态人工智能 AI
摘要现有的大型视觉-语言多模态模型主要关注整体图像理解，但在实现区域特定的理解方面仍存在显著差距。目前，使用文本坐标或空间编码的方法通常无法为视觉提示提供用户友好的接口。为了解决这个问题，我们提出了一种新颖的多模态模型，能够解码任意（自由形式）视觉提示。这使得用户可以通过自然提示（如“红色边框”或“指向箭头”）直观地标记图像并与模型互动。我们的简单设计直接将视觉标记叠加在RGB图像上，避免了复杂的
openai-agents记忆持久化（neo4j） ZHOU_CAMP oi_agents agent中的记忆模块 neo4j python 开发语言
目录环境安装模型配置Memory配置测试环境安装mem0ai[graph]安装uvpipinstall"mem0ai[graph]"docker启动neo4j数据库dockerrun\-p7474:7474-p7687:7687\-eNEO4J_AUTH=neo4j/password\neo4j:5模型配置fromdotenvimportload_dotenvimportosfromopenaii
Aider：27.6K Star！这个终端AI编程神器能用语音改代码，自动生成Git记录并提交，接入DeepSeek斩获编程基准最高分蚝油菜花每日 AI 项目与应用实例 AI编程 git 人工智能开源
❤️如果你也关注AI的发展现状，且对AI应用开发感兴趣，我会每日分享大模型与AI领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！AI在线答疑->智能检索历史文章和开源项目->尽在微信公众号->搜一搜：蚝油菜花⌨️“每个CLI爱好者都该试试的AI编程革命：对着终端说话自动生成Gitcommit是怎样的体验？”大家好，我是蚝油菜花。如果你也经历过——在vim里卡了半小时，只为给函
2025年渗透测试面试题总结-2025年HW(护网面试) 31（题目+回答）独行soc 2025年护网面试职场和发展安全 linux 护网渗透测试
安全领域各种资源，学习文档，以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具，欢迎关注。目录2025年HW(护网面试)311.自我介绍2.渗透测试流程（五阶段模型）3.技术栈与开发经历4.自动化挖洞实践5.信息搜集方法论6.深度漏洞挖掘案例8.SQL注入实战技巧9.AWVS扫描与防御10.CSRFvsSSRF核心差异11.SSRF正则绕过技术12.虚拟主机识别原
通信算法之278：数据链/自组网通信设备--MIMO(2T2R)-OFDM系统系列--实际工程应用算法代码--1.系统指标需求及帧结构设计秋风战士无线通信基带处理算法 MATLAB仿真软件无线电算法无人机经验分享
MIMO(2T2R)-OFDM系统系列–实际工程应用算法代码第一章：系统指标需求拆解分析第二章：通信系统帧结构设计和OFDM参数设计第三章：通信业务速率设计及理论解调门限第四章：同步序列设计及同步性能仿真验证第五章：数据业务设计及性能仿真验证第六章：信道模型设计第七章：接收关键算法设计及仿真验证第八章：其它待补充本文目录MIMO(2T2R)-OFDM系统系列--实际工程应用算法代码一、实际项目：系
mysql 主从复制原理、实现方式以及主从同步延迟的处理方式
mysql主从复制原理、实现方式MySQL主从复制是实现高可用、读写分离和灾难恢复的核心机制，其本质是主库（Master）将数据变更异步同步到从库（Slave）。以下是深度解析：一、主从复制核心原理1.三线程协作模型BinlogDumpThreadI/OThreadSQLThread主库Master从库SlaveRelayLogSlaveDB线程所在位置职责BinlogDumpThread主库监听
MongoDB + Voyage AI 详解：重塑数据库与AI的协同范式 csdn_tom_168 NoSQL 数据库 mongodb 人工智能 AI
MongoDB+VoyageAI详解：重塑数据库与AI的协同范式2025年2月，MongoDB官方宣布收购VoyageAI，这一举措标志着数据库与人工智能技术的深度融合迈入新阶段。通过整合VoyageAI的先进AI检索与嵌入模型能力，MongoDB旨在重新定义AI时代的数据库架构，为企业构建智能应用提供端到端的数据基础设施。一、收购背景与技术战略1.行业趋势驱动AI数据挑战：随着生成式AI与大语言
HarmonyOS5.0仓颉引擎与盘古大模型：个性化作业批改系统架构设计与实现 H老师带你学鸿蒙系统架构 HarmonyOS5.0 鸿蒙华为仓颉教育
人工智能与边缘计算的融合正在重塑教育评价体系。本文将展示如何基于HarmonyOS5.0仓颉并发引擎和盘古大模型，构建新一代智能作业批改系统。系统架构全景graphTDA[学生端设备]-->|提交作业|B[仓颉边缘处理]B-->C[盘古大模型分析]C-->D[个性化反馈生成]D-->E[学生终端]D-->F[教师仪表盘]subgraphHarmonyOS分布式系统B-->|设备协同|G[教室平板集
Maven核心概念
文章目录1.Maven核心概念1.1**什么是Maven**1.2**Maven的核心思想**2.Maven项目结构2.1**标准目录结构**2.2**POM文件结构**3.Maven生命周期3.1**三大生命周期**3.2**生命周期详解**3.3**生命周期绑定**4.依赖管理4.1**依赖坐标**4.2**依赖范围(Scope)**4.3**依赖传递**4.4**依赖冲突解决**5.Mave
企业级Agent是AI创业唯一的大机会我是白泽人工智能大数据语言模型 ai 程序员大模型大模型学习
之前我锐评了AI创业的各个方向，把当前热门的AI方向都质疑了一圈，现在我再多得罪一个，就是ToC的Agent不管出不出海是不是全球市场都没有什么大机会。点对点的批判意义不大，也很得罪人，我先完整论述一下我的逻辑，在这个框架下稍微延伸一点对ToC的质疑，足够委婉、含蓄，只叫醒想醒的人，不得罪装睡的人。我们讲过去的全球SaaS或者说未来的Agent，他们的价值来源到底是什么。没有价值是肯定没有创业机会
DeepSeek在智能教育评估中的应用：试题检索 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 easyui 前端 javascript ai
DeepSeek在智能教育评估中的应用：试题检索关键词：DeepSeek、智能教育、试题检索、自然语言处理、知识图谱、个性化学习、评估系统摘要：本文探讨了DeepSeek大模型在智能教育评估系统中的试题检索应用。我们将深入分析如何利用先进的自然语言处理技术和知识图谱构建高效的试题检索系统，实现个性化学习路径推荐和精准评估。文章将从核心概念、技术原理到实际应用场景，全面解析这一创新教育技术解决方案。
知识图谱的个性化智能教学推荐系统(论文+源码) 毕设工作室_wlzytw python论文项目知识图谱人工智能
目录摘要Abstract目录第1章绪论1.1研究背景及意义1.2国内外研究现状1.2.1知识图谱1.2.2个性化推荐系统1.3本文研究内容及创新点1.4全文组织结构第2章相关理论与技术概述2.1知识图谱2.1.1知识图谱的介绍与发展2.1.2知识图谱的构建2.3协同过滤推荐算法2.2.1推荐算法概述2.2.2Pearson相关系数2.2.3Spearman相关系数2.4Bert模型和Albert模
基于高斯两步移动搜寻法（2SFCA）的城市绿地可达性分析 yorov GIS技巧算法
【2SFCA的基本思路，可以略过】对每个供给点j，搜索所有在j搜寻半径（d0）范围内的需求点（k），计算供需比Rj；对每个需求点i，搜索所有在i搜寻半径（d0）范围内的供【数据】成都市城区绿地数据、各街道小区数据、路网数据OSM【那再来理解一下高斯两步移动搜索法】对于最初的两步移动模型相当于二分，而高斯型相当于是缓慢下降—急速下降—趋于平缓的状态。很像上次莫兰指数里说的空间关系概念化。第一步，对于
反向传播神经网络极简入门自信哥
单个神经元神经网络是多个“神经元”（感知机）的带权级联，神经网络算法可以提供非线性的复杂模型，它有两个参数：权值矩阵{Wl}和偏置向量{bl}，不同于感知机的单一向量形式，{Wl}是复数个矩阵，{bl}是复数个向量，其中的元素分别属于单个层，而每个层的组成单元，就是神经元。神经元神经网络是由多个“神经元”（感知机）组成的，每个神经元图示如下：这其实就是一个单层感知机，其输入是由和+1组成的向量，其
Java NIO 模型笔记笑衬人心。 JAVA学习笔记 java nio 笔记
目录JavaNIO概述JavaBIOvsNIONIO三大核心组件Channel（通道）Buffer（缓冲区）Selector（选择器）Channel详解Buffer详解Selector详解NIO工作流程图示例代码讲解NIO模型的优缺点NIO与Netty简介总结JavaNIO概述JavaNIO（NewI/O）是从Java1.4开始引入的一套新的I/OAPI。主要用于构建高性能、高并发的网络通信程序。
阿里云瑶池数据库 Data Agent for Meta 正式发布，让 AI 更懂你的业务！数据库观点资讯人工智能
背景随着生成式人工智能（GenerativeAI）从概念验证迈向规模化商业落地，AIAgent已成为企业核心业务流程的重要组成部分。然而，当模型调用日益便捷时，核心痛点已不再是模型本身，而是集中在一个关键要素上：数据。AIAgent的落地瓶颈已从技术能力转向高质量、高相关性、安全合规的数据供给。企业面临的核心挑战在于：数据孤岛导致知识库分散，通用大模型难以理解专业业务传统数据管理依赖人工开发维护，
超轻量级中文OCR项目使用教程甄墨疆
超轻量级中文OCR项目使用教程chineseocr_lite超轻量级中文ocr，支持竖排文字识别,支持ncnn、mnn、tnn推理(dbnet(1.8M)+crnn(2.5M)+anglenet(378KB))总模型仅4.7M项目地址:https://gitcode.com/gh_mirrors/ch/chineseocr_lite1.项目介绍本项目是一个超轻量级的中文OCR（OpticalCha
【限时干货】Calibre智能分类，轻松突破内网限制畅享电子书库比头发还脆弱服务器 tcp/ip linux
文章目录前言1.网络书库软件下载安装2.网络书库服务器设置3.内网穿透工具设置4.公网使用kindle访问内网私人书库前言本研究旨在构建一套运行于微软操作系统环境下的独立电子图书管理体系，核心目标是建立可远程操作的资源访问机制。该架构采用高可用性设计，在第三方阅读平台服务中断时仍能保障数字内容传输的稳定性。系统创新性地融合了两大核心技术组件：通过Calibre开源软件实现文献分类算法与格式转换功能
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
跨平台ZeroMQ：在Rust中使用zmq库的完整指南涵树_fx 架构设计 Rust 实战 rust 开发语言后端
“消息就像神经元间的电信号，而ZeroMQ就是那个让系统思考的神经网络”——某个深夜调试zmq的程序员当你需要轻量级、高性能的进程间通信时，ZeroMQ就像代码世界里的瑞士军刀。今天我们一起探索如何在Rust生态中使用这把利器，感受它如何在不同操作系统间架起通信的桥梁。安装ZeroMQ：三大操作系统的通关秘籍Linux(Debian/Ubuntu)sudoaptupdatesudoaptinsta
多模态大模型的技术应用与未来展望：重构AI交互范式的新引擎 zhaoyi_he 重构人工智能
一、引言：为什么多模态是AI发展的下一场革命？过去十年，深度学习推动了计算机视觉和自然语言处理的飞跃，但两者的发展路径长期割裂。随着生成式AI和大模型时代的到来，**多模态大模型（MultimodalFoundationModels）**以统一的建模方式处理图像、文本、音频、视频等多源数据，重塑了“感知-认知-决策”链条，为AGI迈出关键一步。OpenAI的GPT-4o、Google的Gemini
别再盯着工具选型了，组织协作真正的问题在这里｜CTO的一线观察
GPT、Agent、多模态、Copilot……新一轮AI热潮涌来，很多企业也跟上了节奏，纷纷把“AI办公”挂上了OKR。你可能也遇到过这样的场景：项目部署了AI助手，但团队协作依然低效；工具用了不少，日报、周报、纪要、方案、流程……依然靠人手“补漏”；系统林立，数据割裂，信息层层递送但任务没人推动，协同像“失速列车”。AI上了，协作没变——问题出在哪儿？作为一线的技术负责人，我们不得不承认：真正的
善用关系网络：开源AI大模型、AI智能名片与S2B2C商城小程序赋能下的成功新路径
摘要：本文聚焦于关系在个人成功中的关键作用，指出关系即财富，善用关系、拓展人脉是成功的重要途径。在此基础上，引入开源AI大模型、AI智能名片以及S2B2C商城小程序等新兴技术工具，探讨它们如何助力个体在复杂的关系网络中更高效地挖掘和利用资源，提升处理关系的能力，从而为事业成功开拓新道路，揭示这些技术元素在当代成功路径中的创新应用与重要意义。关键词：关系网络；开源AI大模型；AI智能名片；S2B2C
学Simulink——整流器场景：基于Simulink的单相全桥可控硅整流器仿真建模 xiaoheshang_123 MATLAB 开发项目实例 1000 例专栏手把手教你学 MATLAB 专栏 simulink matlab
目录手把手教你学Simulink——整流器场景：基于Simulink的单相全桥可控硅整流器仿真建模一、背景介绍二、系统结构设计三、建模过程第一步：创建新Simulink项目第二步：添加主要模块1.交流电源2.单相全桥可控硅整流器3.LC滤波器4.负载模拟5.触发脉冲生成模块6.测量模块第三步：搭建主电路拓扑第四步：搭建触发脉冲生成逻辑1.设计触发脉冲逻辑2.集成至Simulink模型四、参数设置五
探索 Qwen3-0.6B：轻量级大模型的技术突破与应用潜力
在大模型技术飞速发展的今天，轻量化、高性能的模型成为业界关注的焦点。Qwen3-0.6B作为阿里推出的轻量级大模型，凭借其独特的技术架构和卓越性能，在众多模型中脱颖而出。本文将深入探讨Qwen3-0.6B的技术特性、优势以及应用场景，带你领略这款轻量级大模型的魅力。一、Qwen3-0.6B核心技术架构Qwen3-0.6B基于Transformer架构进行优化，采用了一系列先进的技术手段，在保证模型
vllm推理实践 try2find java 前端服务器
1.vllm推理demo实验fromvllmimportLLM,SamplingParams#定义生成参数sampling_params=SamplingParams(temperature=0.7,top_p=0.9,max_tokens=100,)#加载DeepSeek模型（以deepseek-llm-7b为例）#model_name="deepseek-ai/deepseek-llm-7b"
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio