我爱计算机视觉

腾讯&上交&浙大提出PyramidCLIP，进行层次内语义对齐和跨层次关系对齐，Zero-Shot效果优于CLIP！...

关注公众号，发现CV技术之美

本篇文章分享论文『PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model Pretraining』，由腾讯&上交&浙大（沈春华）提出PyramidCLIP，进行层次内语义对齐和跨层次关系对齐，ImageNet上Zero-Shot效果优于CLIP！

详细信息如下：

论文链接：https://arxiv.org/abs/2204.14095

摘要

大规模视觉语言预训练在下游任务中取得了可喜的成果。现有的方法高度依赖于这样一个假设，即从互联网上抓取的图像-文本对是完全一对一对应的。然而，在实际场景中，这一假设很难成立：通过对图像的关联元数据进行爬取获得的文本描述通常存在语义不匹配和相互兼容性问题。

为了解决这些问题，作者引入了金字塔CLIP（PyramidCLIP），它构建了一个具有不同语义层次的输入金字塔，并通过层次内语义对齐（intra-level semantics alignment）和跨层次关系对齐（cross-level relation alignment）以层次的形式对齐视觉元素和语言元素。此外，作者还通过soften负样本（未配对样本）的损失来调整目标函数，以削弱预训练阶段的严格约束，从而降低模型过度约束的风险。

在三个下游任务上的实验，包括zero-shot图像分类、zero-shot图像文本检索和图像目标检测，验证了所提出的金字塔CLIP的有效性。特别是，在1500万图像-文本对的预训练数据量相同的情况下，基于ResNet-50/ViT-B32/ViT-B16的PyramidCLIP在ImageNet上的Zero-Shot分类top-1精度，比CLIP分别高出19.2%/18.5%/19.6%。

Motivation

最近，视觉语言预训练（VLP）取得了巨大的成功，其目的是通过对从web上获取的大规模图像-文本对模型进行预训练来提高下游视觉语言任务的准确性，而无需任何手动标注。主流VLP方法大致可分为两种范式，单流和双流。与单流模式相比，双流模式将图像编码器和文本编码器解耦，并分别提取图像和文本的特征，使双流模式对下游应用程序更加友好。

由于性能和效率的优势，双流模式占主导地位。CLIP对从互联网上收集的400M图像-文本对进行对比图像语言预训练，取得了惊人的效果。后来，DeCLIP和FILIP等方法通过在图像模态和文本模态中引入自监督，并在ViT patch token上引入更细粒度的对齐，从而改进了CLIP。

尽管现有的类CLIP方法在下游任务中取得了非常有希望的结果，但它们强烈依赖于图像-文本对具有高质量的假设：图像和文本具有良好的匹配性。理想情况下，匹配的图文对是完美的一对一对应，并且与其他未配对样本无相关性。然而，在事实中，如上图所示，这一假设并不容易满足。

首先，视觉模态和语言模态之间的语义不匹配通常存在于图像-文本对中，例如，（a）标题冗余：文本描述了太多冗余和细粒度的细节，而图像需要更简洁的标题；（b） 图像冗余：与文本相对应的感兴趣区域（ROI）只是图像的一个子区域；（c）Cast Deﬁciency：文本缺少对图像中突出对象的描述，而视觉建模需要考虑实例之间的关系。（d）相互兼容性通常发生在对之间，即对具有或多或少的局部相似性。

例如，（d）的图像/文本可以部分对应于（a）的文本/图像。然而，现有方法直接将其他对视为负样本，而不考虑相关性，这可能导致模型过度拟合。

为了解决上述问题，作者在本文中提出了PyramidCLIP，它以层次结构的形式更精确地对齐图像和文本。PyramidCLIP在双流网络的两侧构造了一个具有不同语义级别的输入金字塔，即图像中的全局图像，局部图像区域以及图像中显著实例的特征，用于视觉建模; 用于语言建模的原始标题和文本摘要。

然后，作者通过层次内语义对齐和跨层次关系对齐来对比视觉元素和语言元素，分别解决 (a)(b) 和 (c) 的问题。具体而言，对于内部语义对齐，由于图像和文本摘要的全局区域都包含全局语义信息，而局部区域和原始标题都包含更细粒度的语义信息，因此它们被视为两对正样本。对于跨层次关系对齐，为了避免视觉编码器对对象关系的建模被场景语义建模所淹没，作者显式地将实例关系与语言元素对齐。此外，对于相互兼容性问题，作者在对比过程中软化了负的未配对样本的损失项，以减轻严格的约束，减轻了某些局部相似性的负面影响。

大量实验证明了本文提出的PyramidCLIP的有效性。为了公平比较，当使用YFCC1M数据集进行训练时，使用ResNet-50/ViT-B32/ViT-B16作为图像编码器，使用Transformer作为文本编码器，本文的模型在ImageNet上实现了最先进的（SoTA）zero-shot分类，即44.7%/41.4%/47.2%的top-1精度。相比之下，CLIP baseline为22.5%/22.9%/27.6%。此外，当扩展到更大规模的数据集时，在128M图像-文本对上仅训练8个epoch的PyramidCLIP的结果与在400M数据集上训练32个epoch的CLIP的结果非常接近，这显著提高了CLIP的训练和数据效率。

本文的主要贡献总结如下：

提出了一种用于视觉语言模型预训练的更精确的图像-文本对齐PyramidCLIP，它在视觉编码器和语言编码器的两侧有效地构建一个输入金字塔，然后通过层次内语义对齐和跨层次关系对齐来对齐视觉元素和语言元素。
在对比过程中，作者软化了负样本的损失项，以减轻严格的约束，从而避免模型过于复杂，减轻了局部相似性造成的负面影响。
大量实验证明了PyramidCLIP的有效性。在预训练数据量相同的情况下，PyramidCLIP可以获得SoTA结果，并且显著优于CLIP。

方法

3.1 Overall Architecture

上图显示了PyramidCLIP的整个框架。PyramidCLIP是一种双流网络，包括文本编码器h和图像编码器f=f 2◦ f 1，其中f 1和f2分别表示图像编码器的前部和后部。每个编码器由一个线性投影模块和一个归一化操作符组成，最后将最终CLS token投影到统一维度，然后对其进行归一化，在相同的嵌入空间中获得相应的视觉或语言表示向量。

在训练过程中，对于每个图像-文本对，通过不同比率的随机裁剪将图像I转换为两个视图，即局部视图L和全局视图G，并将文本T输入摘要提取器，以生成具有更高语义的文本摘要。图像全局视图G和文本摘要都捕获了更多的全局上下文信息，而图像局部视图L和原始文本T包含了更多的详细信息。

因此，G和被视为一对正样本，而L和T被视为另一对正样本，表示为（G，）和（L，T）。然后将这两对输入到双流编码器，以提取全局和局部表示对和，其中，和。最后，通过对比学习损失1和2将和分别拉到一起（见上图），同一batch中的其他样本作为负样本处理。作者将这种对比过程称为层次内语义对齐。

此外，为了明确地建模图像中显著对象之间的关系，通过预训练的目标检测器提取图像I中M个检测到的显著对象的ROI特征序列。然后，使用线性嵌入模块将ROI特征序列转换为与图像编码器前部f 1的输出相同的维度。序列依次馈入后部f 2，后部f 2包含一个或多个多头自注意（MHSA）层，以自适应捕获这些显著实例之间的关系，生成最终表示向量，即。为了避免视觉模型的关系建模被上下文语义建模所淹没，削弱推理能力，作者将和作为另两个正对，并且通过对比学习损失3和4，ROI嵌入和相应语言嵌入之间的距离缩小，这称为跨级别关系对齐。

3.2 Intra-level Semantics Alignment

现在介绍层次内语义对齐的详细信息。如上所述，CLIP等双流视觉语言对比学习方法强烈依赖于图像-文本对具有良好的一对一对应质量。然而，图像和文本标题之间的语义不匹配常常发生在自动获取的数据中。因此，作者在双流网络的两侧构造一个具有多级语义的输入金字塔，然后在同一语义层次内对齐图像和文本。具体而言，图像I通过两种不同比率的随机crop转换为全局视图G和局部视图L。对于文本标题，除了原始标题T之外，还使用预训练的文本摘要提取器提取语义更紧凑的文本摘要。

Coarse-grained Global Contrast

作者将生成全局视图G的随机裁剪比设置为[0.9，1]，它基本上包含了原始图像中的所有信息。文本摘要压缩了原始标题T，删除了标题T中的一些冗余和过于详细的信息。G和都捕获全局信息，可以用作成对的正样本。通过对比学习，g和的投影嵌入和拉近了距离。

Fine-grained Local Contrast

由于全局视图G与上述文本摘要的对齐相对粗糙，因此在很大程度上丢弃了细粒度信息。直观地说，图像子区域可以与标题的某些描述对齐。为此，作者引入细粒度局部对比度。作者将用于生成局部视图L的随机裁剪比率设置为[0.5，1]，它关注图像I的子区域。原始标题T包含许多详细描述，因此更适合将其视为L的正样本。然后，L和T的投影嵌入和也通过对比损失合并在一起。

3.3 Cross-level Relation Alignment

为了进一步提高对齐精度，作者引入了图像中显著对象的ROI特征序列，以提供更多的监督。具体地说，给定一幅具有M个显著对象的图像I，作者使用预训练的对象检测器Faster R-CNN来提取每个对象区域的视觉语义为，其中m表示第M个对象，是2048维特征向量，是4维归一化位置向量，表示左上角和右下角的坐标。

通过concat和，可以得到2052维位置敏感ROI特征向量，形成ROI特征序列。然后使用嵌入模块中的projector被转换为，其中d表示图像编码器中MHSA层的潜在尺寸。在前面附加一个随机初始化的d维class token，得到，进一步馈入图像编码器的后部，以计算归一化ROI关系嵌入，即，。

为了增强文本编码器对概念关系建模的能力，同时避免削弱视觉编码器的推理能力，和被用作另两个正对，同时最小化和之间的距离以及和之间的距离。由于视觉模态使用的实例级输入是非常细粒度的，而语言模态使用的输入是完整的句子（文本摘要和原始标题），因此作者将此训练过程称为跨层次关系对齐。

在视觉模型为卷积神经网络（CNN）的情况下，传统的池化层被注意力池化所取代，而注意力池化实际上是一个MHSA层。因此，嵌入的ROI特征序列F被输入到注意池化层，即f2，它表示最终的注意池化层，如上图（a）所示。对于基于transformer的视觉模型（ViT），序列F可以直接输入到transformer层。考虑到F已经编码了高级视觉语义，作者将其输入到ViT编码器的后部f2中，如上图（b）。

此外，标准ViT可能无法充分利用局部上下文信息，这限制了基于ViT的图像编码器的视觉表示能力。作者将深度方向的卷积合并到ViT结构的前馈模块中，称为局部增强前馈模块（LeFF），改善了patch级的局部感知和交互。

LeFF的结构如上图（c）所示。首先，通过线性投影层将patch token投影到更高的维度并进行reshape。接下来，使用3×3深度方向的卷积来捕获局部信息。然后将特征映射映射到token序列，并重新投影到初始维度。而CLS token在过程中是不变的，并与局部增强的patch token连接，生成最终输出。如上图（b）所示，LeFF仅应用于基于ViT的图像编码器的前部f 1，因为它显然不适合嵌入的ROI特征序列。

3.4 Softened Objective Function

对于一个batch中的N个图像文本对，其中i表示第i对，通过双流编码器获得相同维度的归一化嵌入向量。在此公式中，图像编码器分别从全局裁剪图像G、局部裁剪图像L和ROI特征序列生成，而文本编码器分别从文本摘要和原始文本T生成。

然后，作者使用该向量组构造了四个监督信号，用于batch内对比学习，这些监督信号可以分别用

402 Payment Required

来计算。本文的四个对比损失旨在从不同的语义层次实现视觉表征和语言表征之间的对齐。

以的第一个损失项为例。对于第i对，归一化视觉与语言相似度和语言与视觉相似度

402 Payment Required

可通过以下公式计算：

式中，τ是初始化为0.07的可学习温度参数，函数sim（·）进行点积以测量相似性得分。

在实践中，通常使用交叉熵来优化模型。这种hard targets假定未配对的图像和文本之间绝对没有相似性。然而，在大batch中，未配对的图像和文本可能或多或少具有局部相似性，即图像中的一些局部区域可能与其他未配对文本中的一些单词或阶段相匹配。为了解决这个问题以更好地泛化，作者使用标签平滑来软化hard targets。第i对对应的软化目标和可以写为:

其中α是在本文的实验中设置为0.2的平滑超参数。那么损失项可以表示为：

其他三个损失项可以类似地计算。因此，PyramidCLIP的总体目标函数为:

其中，在本文的实验中，损失权重λ、µ和γ均设置为0.25。

实验

上表列出了本文使用的所有预训练数据集以及相应的图像-文本对数。

为了公平比较，作者在YFCC1M-V1上进行了实验，结果如上表所示。可以看出，当两种方法都在YFCC15M-V1上进行预训练时，本文的方法明显超过了CLIP的结果。

由于不同数据集的分布可能差异很大，作者不仅在常用的YFCC15M数据集上进行了实验，还从LAION400M中抽取了1500万个图像-文本对进行公平比较。结果如上表所示，可以看出，无论使用何种视觉编码器，PyramidCLIP仍然比CLIP好很多。

在本节中，作者在一个更大的数据集上验证了本文的方法的有效性，即128M图像-文本对，ImageNet Zero-shot分类精度结果如上表所示。

作者研究了ViT前部Transformer层数的影响，结果如上图所示，可以发现，将设置为9可获得最佳结果，因此在本文的实验中=9。

作者进一步验证了PyramidCLIP中每个组件的有效性，结果如上表所示。值得注意的是，表示原始CLIP的损失，实际上是图像全局视图与原始文本之间的对比丢失。此外，还可以看到，本文提出的所有模型组件，都可以单独带来显著收益。

为了验证本文的模型能够更好地利用图像中对象之间的关系，作者在目标检测任务中验证了本文的模型，结果如上表所示。

总结

在本文中，作者提出了一种称为PyramidCLIP的分层预训练方法，以提高视觉和语言模态之间的一致性。通过在双流网络的两侧显式构造金字塔语义输入，它解决了网络爬取网数据不完全一一对应的问题。作者还表明，软化的内部语义对齐和跨级别关系对齐可以在两种模态之间进行有益的相互作用。PyramidCLIP在三个下游任务上实现了SOTA的结果，显示了其优越性。

参考资料

[1]https://arxiv.org/abs/2204.14095

END

欢迎加入「视觉语言」交流群备注：VL

Python快速使用jira模块调用Jira接口小斌哥ge Python/PYPI jira
Python快速使用jira模块调用Jira接口JIRA介绍:JIRA是Atlassian公司出品的项目与事务跟踪工具，被广泛应用于缺陷跟踪、需求收集、流程审批、任务跟踪、项目跟踪和敏捷管理等工作领域.在开发工作中,Jira通常用作BUG管理和任务跟踪管理等,项目经理,测试人员,开发人员等在Jira上进行提交BUG,提交任务,修改任务进度等操作.当项目逐渐多时,Jira上的BUG数量和任务数量也会
智能运维分析决策系统：赋能数字化转型的智慧引擎我的运维人生运维运维开发技术共享
智能运维分析决策系统：赋能数字化转型的智慧引擎在数字化转型的大潮中，企业运维管理正经历着从传统手动运维向智能化、自动化运维的深刻转变。智能运维分析决策系统（AIOps，ArtificialIntelligenceforITOperations）作为这一转变的核心驱动力，通过融合大数据、机器学习、人工智能等先进技术，实现了对运维数据的深度洞察与智能决策，极大地提升了运维效率与质量，为企业数字业务的连
Python实现SMTP自动发邮件全流程指南福建低调
本文还有配套的精品资源，点击获取简介：SMTP是互联网用于发送电子邮件的标准协议，Python提供便利的库来实现这一功能。本文将介绍如何利用Python的smtplib和email.mime库通过SMTP自动发送邮件，包括设置服务器、登录验证、构建邮件对象、发送邮件，并提供了一个代码示例。文章还强调安全性和常见问题的解决方案，为初学者提供详细步骤和视觉辅助。1.SMTP协议基础在互联网技术飞速发展
第11篇：你知道ElasticSearch聚合分析能力有多强? 老王随聊 elasticsearch 搜索引擎大数据
背景：目前国内有大量的公司都在使用Elasticsearch，包括阿里、京东、滴滴、今日头条、小米、vivo等诸多知名公司。除了搜索功能之外，Elasticsearch还结合Kibana、Logstash、ElasticStack还被广泛运用在大数据近实时分析领域，包括日志分析、指标监控等多个领域。本节内容：ElasticSearch强悍聚合分析能力详解。目录1、ES的聚合Aggregations
Elasticsearch聚合分析：未来发展趋势 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1大数据时代的分析需求随着互联网、物联网、移动互联网等技术的快速发展，全球数据量呈现爆炸式增长，我们正步入一个前所未有的大数据时代。海量数据的背后蕴藏着巨大的商业价值，如何高效地存储、管理、分析和挖掘这些数据，成为企业和组织面临的重大挑战。1.2Elasticsearch：分布式搜索和分析引擎Elasticsearch作为一个开源的分布式搜索和分析引擎，凭借其高性能、可扩展性和易用
AirSim学习（3）AirSim的PythonAPI基本操作——环境配置与VehicleClient类睡觉狂魔er AirSim 虚幻自动驾驶 python
文章内容AirSim学习笔记汇总AirSim的PythonAPI的安装AirSim的坐标系统classVehicleClient1.成员变量2.构造函数3.连接与仿真启停resetpinggetClientVersiongetServerVersiongetMinRequiredServerVersiongetMinRequiredClientVersionenableApiControlisAp
ROS2 细节知识学习儒雅芝士 ROS2系列机器人 c++linux
1.rosidl_generate_interfaces()在ROS2中，rosidl_generate_interfaces是一个关键的构建工具功能。它主要用于从接口定义文件（如.msg消息文件、.srv服务文件和.action动作文件）生成不同编程语言（如C++、Python等）可以使用的接口代码。这些接口是ROS2中节点间通信的基础，确保了数据在不同组件之间能够准确、高效地传递。在构建系统中
Python对jira的调用万公子测试
1：首先要知道基本属性#-*-coding:utf-8-*-importdatetimefromjiraimportJIRAjira_ip="127.0.0.1"jira_user='ceshi1'jira_passwd="1"port=8080jr=JIRA('http://'+jira_ip+':8080/',auth=(jira_user,jira_passwd))#登录all_bug=jr
使用python连接jira，获取issues 坚韧顽强的搬砖小伙 python学习手册 python 开发语言后端
需要自行配置所需的url及auth信息代码如下defget_jira_issues(jqlquery):'''传入jql语句,返回issues的dict:paramjqlquery::return:'''url="https://example.com/rest/api/2/search"auth=HTTPBasicAuth("username","password")headers={"Acce
GFPGAN - 腾讯开源的图形修复算法修复算法小众AI AI开源开源算法人工智能
GFPGAN是腾讯开源的人脸修复算法，它利用预先训练好的面部修复算法，并且封装了各种丰富多样的先验因素进行盲脸(blindface)修复，可以对老照片进行很好的修复。35800Stars5900Forks345Issues11贡献者ApacheLicensePython语言代码:https://github.com/TencentARC/GFPGAN更多AI开源软件：AI开源-小众AI主要功能盲修
ubuntu电脑调用摄像头拍摄照片山山而川_R Drugs opencv 计算机视觉人工智能
一、1、先装环境condacreate-ntextpython==3.8-ycondaactivatetext2、pipinstallopencv-python-ihttps://pypi.tuna.tsinghua.edu.cn/simple1、连接摄像头拍摄收集数据集capture_image5.pyimportcv2ascvimportosimportdatetimeimportnumpya
【AirSim+Python】image API和无人机获取图像退堂鼓选手⑥ python 无人机开发语言
没错！这个还是b站【皮卡丘上大学啦】up主学习的代码。我就是懒！今天下午敲得每一行代码都不能白敲，放在这方便我以后复制！up主原代码分享链接：在这！！！1.imageAPI获取相机图像使用的时候根据自己需求进行注释：importairsimimportnumpyasnpimportcv2#与airsim建立连接client=airsim.MultirotorClient()client.confi
【AirSim+Python】无人机简单API控制-Python代码退堂鼓选手⑥ 无人机 python
1.无人机起飞/下降importairsim#与airsim建立连接client=airsim.MultirotorClient()client.confirmConnection()#确定是否要用API控制client.enableApiControl(True)#解锁无人机转起来client.armDisarm(True)#join()等任务结束再进行下个任务#起飞client.takeoff
使用 Python 和 Tesseract 实现验证码识别一休哥助手 mfc c++
验证码识别是一个常见且实用的技术需求，尤其是在自动化测试和数据采集场景中。通过开源OCR（OpticalCharacterRecognition，光学字符识别）工具Tesseract，结合Python的强大生态，我们可以高效实现验证码识别任务。本篇博客将以详细步骤和代码示例，介绍如何使用Python和Tesseract实现验证码识别，包括原理解析、图像预处理、代码实现以及优化策略。一、验证码识别的
软件工程之信息系统集成我叫吴桂鑫计算机基础知识软件工程信息系统集成
现在的软件开发工作大多数是集成，所有部分都从头开发效率会很低，问题也会更多，成本也会更高。系统集成就是将各类资源有机、高效地整合到一起，形成一个完整的系统。信息系统集成包括网络集成、数据集成和应用集成等。网络集成、数据集成和应用集成分别用于解决系统的互连性、互通性和互操作性。（1）网络集成（企业局域网）重点是系统中异构网络的互连。（2）数据集成（大数据）重点是系统中异构数据集的互通使用和统一管理。
Python知识点：基于Python技术，如何使用AirSim进行无人机模拟超哥同学 Python系列 python 无人机开发语言面试编程
开篇，先说一个好消息，截止到2025年1月1日前，翻到文末找到我，赠送定制版的开题报告和任务书，先到先得！过期不候！如何使用Python和AirSim进行无人机模拟无人机技术的发展为许多行业带来了革命性的变化，尤其是在航拍、物流配送和农业监测等领域。然而，无人机的操作和开发需要一个安全且可控的环境来进行测试和训练。AirSim就是这样一个模拟器，它提供了一个基于UnrealEngine的逼真环境，
二分查找算法 mcharleylei 算法 python
目录1、概述2、代码实现（1）递归实现（2）非递归实现1、概述二分查找又称折半查找，优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查
AirSim python通信环境配置和无人机控制 fegxg 无人机 python
本人学习课程链接【AirSim】无人机踏上飞行的征途——第三课-AirSim&Python通信环境配置以及无人机起飞降落、位置控制&速度控制_哔哩哔哩_bilibili，本系列文章对其代码做一个总结和解读一、起飞降落importairsim#connecttotheAirsimsimulatorclient=airsim.MultirotorClient()client.confirmConnec
设计模式Python版抽象工厂模式小王子1024 设计模式Python版设计模式 python 抽象工厂模式
文章目录前言一、抽象工厂模式二、抽象工厂模式示例三、抽象工厂模式在Django框架中的应用前言GOF设计模式分三大类：创建型模式：关注对象的创建过程，包括单例模式、简单工厂模式、工厂方法模式、抽象工厂模式、原型模式和建造者模式。结构型模式：关注类和对象之间的组合，包括适配器模式、桥接模式、组合模式、装饰模式、外观模式、享元模式和代理模式。行为型模式：关注对象之间的交互，包括职责链模式、命令模式、解
深入理解Python的@staticmethod和@classmethod装饰器清水白石008 Python题库 python 开发语言 python 开发语言
深入理解Python的@staticmethod和@classmethod装饰器引言在Python的面向对象编程中，类方法和静态方法是除了实例方法之外的两种重要方法类型。它们允许我们在不创建类实例的情况下调用类的方法，或者在调用时直接引用类本身。Python提供了@staticmethod和@classmethod这两个装饰器，用于定义类方法和静态方法。然而，许多初学者可能会对这两种方法感到困惑，
【树莓派入门系列】opencv安装 ^Mark_Zhang^ python opencv 人工智能
树莓派入门之Opencv库安装提示：本文树莓派4B所搭载的系统是Raspi11本教程不需要任何换源，直接用树莓派自带的源就行文章目录一、树莓派版本查看二、Opencv库安装1.扩大系统文件（常规操作）2.安装aptitude软件包3.CMake工具安装4.基础库安装5.opencv-python库5.注意点一、树莓派版本查看代码如下：uanme-a或lsb_release-a二、Opencv库安装
Kmeans与KMedoids聚类对比以及python实现呵呵爱吃菜 kmeans 聚类 python
在机器学习领域，聚类算法是一种常用的无监督学习方法，用于将数据集中的样本划分为若干个簇，使得同一簇内的样本尽可能相似，而不同簇之间的样本尽可能不同。K-Means和K-Medoids是两种经典的聚类算法，它们都基于划分的思想，但在具体实现和应用场景上存在一些差异。一、算法原理1.K-Means:中心点选择:K-Means算法通过计算簇内所有样本的均值来确定中心点（centroid）。距离度量:通常
Python staticmethod weixin_30449239 python
1@staticmethod静态方法whenthismethodiscalled,wedon'tpassaninstanceoftheclasstoit(aswenormallydowithmethods).Thismeansyoucanputafunctioninsideaclassbutyoucan'taccesstheinstanceofthatclass(thisisusefulwheny
网络安全态势感知：企业数字化转型的 “安全密钥” 知白守黑V 安全运营网络安全态势感知网络
在数字经济飞速发展的当下，网络安全已经成为企业平稳运营的关键所在。从大型企业的数据泄露事故，到中小企业遭遇的各类网络攻击，网络安全威胁无处不在。而网络安全态势感知产品，作为应对复杂网络威胁的关键技术，正逐渐成为企业守护数字资产的“智慧大脑”。一、态势感知：全景掌控，精准防御你可以把网络安全态势感知想象成企业网络的“超级侦察兵”。它借助大数据分析、机器学习这些先进技术，就像是拥有了超级强大的“洞察力
国内python镜像源 qq_34830229 python pip
1、国内python镜像源地址清华：https://pypi.tuna.tsinghua.edu.cn/simple阿里云：http://mirrors.aliyun.com/pypi/simple/中国科技大学https://pypi.mirrors.ustc.edu.cn/simple/华中理工大学：http://pypi.hustunique.com/山东理工大学：http://pypi.s
算法随笔_21:字符的最短距离程序趣谈算法
上一篇:算法随笔_20:区间子数组个数-CSDN博客=====================题目描述如下:给你一个字符串s和一个字符c，且c是s中出现过的字符。返回一个整数数组answer，其中answer.length==s.length且answer[i]是s中从下标i到离它最近的字符c的距离。两个下标i和j之间的距离为abs(i-j)，其中abs是绝对值函数。示例1：输入：s="lovel
Python-静态方法（@staticmethod） lhh_qrsly Python
@staticmethod静态方法只是名义上归属类管理，但是不能使用类变量和实例变量，是类的工具包放在函数前（该函数不传入self或者cls），所以不能访问类属性和实例属性classcal:cal_name='计算器'def__init__(self,x,y):self.x=xself.y=y@property#在cal_add函数前加上@property，使得该函数可直接调用，封装起来defca
python中@staticmethod方法 elie813 python基础
python中@staticmethod方法，类似于C++中的static，方便将外部函数集成到类体中，主要是可以在不实例化类的情况下直接访问该方法，如果你去掉staticmethod,在方法中加self也可以通过实例化访问方法也是可以集成。classTest:def__init__(self,num):self.num=num;defcout_num(self):print(self.num)@
【优选算法】10----无重复字符的最长子串 Rhzkp 算法 c++leetcode
---------------------------------------begin---------------------------------------题目解析：看到这一类题目，有没有那种一眼就感觉时要用到滑动窗口的感觉，铁子们？讲解算法原理：方法一:暴力解法：简单粗暴的地毯式搜索暴力解法就像一个没有什么技巧的探险家，直接把所有可能的子串都找出来，然后一个一个检查是不是有重复字符，最
【第四天】零基础入门刷题Python-算法篇-数据结构与算法的介绍-两种常见的递归算法（持续更新） Long_poem python 算法开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、Python数据结构与算法的详细介绍1.Python中的常用的搜索算法2.两种常见的递归算法3.两种详细的递归算法代码1）斐波那契数列2）阶乘总结前言提示：这里可以添加本文要记录的大概内容：第一天Python数据结构与算法的详细介绍第二天五种常见的排序算法第三天两种常见的搜索算法第四天两种常见的递归算法第五天一种常见的
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s

腾讯&上交&浙大提出PyramidCLIP，进行层次内语义对齐和跨层次关系对齐，Zero-Shot效果优于CLIP！...

本篇文章分享论文『PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model Pretraining』，由腾讯&上交&浙大（沈春华）提出PyramidCLIP，进行层次内语义对齐和跨层次关系对齐，ImageNet上Zero-Shot效果优于CLIP！

3.1 Overall Architecture

3.2 Intra-level Semantics Alignment

Coarse-grained Global Contrast

Fine-grained Local Contrast

3.3 Cross-level Relation Alignment

3.4 Softened Objective Function

402 Payment Required

402 Payment Required

总结

参考资料

你可能感兴趣的:(大数据,自然语言处理,算法,python,计算机视觉)