微软提出：多模态视觉语言理解和视觉定位的大一统

作者：金克丝 (在读博士)
方向：多模态学习
学校：南京理工大学

「收录情况」：NeurIPS-2022

「论文链接」：https://arxiv.org/abs/2206.05836

「代码链接」：https://github.com/microsoft/GLIP

简介
- 问题
- 方案
- 主要贡献
相关工作
- Localization models
- Unifying localization and understanding
方法
- GLIPv2: Unifying Localization and VL Understanding
- a、 A Unified VL Formulation and Architecture
- b、GLIPv2 Pre-training
- c、Transfer GLIPv2 to Localization and VL Tasks
实验
- One Model Architecture for All
- One Set of Model Parameters for All
- GLIPv2 as a Strong Few-Shot Learner
总结

简介

问题

建立一个通用的，可以同时处理vision localization任务(image classification、object detection和segmentation等等)和VL understanding任务(VQA和image captioning等等)的vision language systems在过去一两年广为关注，这需要模型能够有效的统一localization和understanding任务。

然而，这两种任务有很大的区别：localization是仅视觉的任务，需要细粒度的输出(例如，bounding boxes或pixel masks)，而VL understanding强调不同模态信息之间的融合，需要高级的语义输出(例如，answers或captions)。

方案

本论文提出grounded VL understanding模型GLIPv2，既适用于localization任务(例如，对象检测，实例分割)，也适用于VL understanding任务(例如，VQA，image captioning)。GLIPv2将localization预训练和视觉语言预训练(VLP)有效的结合，包含三个预训练任务：phrase grounding作为VL任务以重构检测任务，region-word对比学习任务和MLM任务。这种统一不仅简化了以往的多阶段VLP模型，而且实现了localization和understanding之间的互利共赢。

实验表明，无集成的GLIPv2模型(权值共享)在各种localization和understanding任务中都能达到接近SoTA的性能。该模型对open-vocabulary对象检测任务具有很强的zero/few-shot适应能力，对VL理解任务也具有很强的grounding能力。

主要贡献

「a、Localization + VL understanding = grounded VL understanding」 Localization任务包括定位和语义分类，其中分类可以使用classification-to-matching方法将其转换为VL understanding的问题。因此，作者将Localization任务重新定义为VL grounding任务，其中语言输入是一个由类别名称拼接的合成的sentence。大规模的VL understanding数据(图像文本对)可以通过self-training的方式转化为VL grounding数据，因此，GLIPv2具有统一的预训练过程：将所有任务的数据转化为grounding数据，对GLIPv2进行预训练，进行grounded VL understanding。

「b、A stronger VL grounding task: inter-image region-word contrastive learning」 作者引入了图像之间的region-word对比学习任务，利用同一batch中的其他sentences中的phrases作为潜在的负例，这使得GLIPv2能够学习到更多的region-word的判别特征。

方法

GLIPv2: Unifying Localization and VL Understanding

在GLIP中将目标检测重新定义为广义的phrase grounding任务的基础上，将localization任务和VL understanding任务统一为grounded vision-language任务，将图像和文本同时输入，并输出object-level理解结果(例如，检测、分割)和image-level理解结果(例如，VQA、image captioning)。

a、 A Unified VL Formulation and Architecture

GLIPv2的关键是classification-to-matching技巧，它将任何task-specific fixed-vocab分类问题重新表述为task-agnostic open-vocabulary视觉语言匹配问题，例如CLIP中将图像分类重新表述为图像-文本匹配，使模型可以直接从原始的大量的图像-文本对数据中学习，实现了强大的zero-shot效果。在GLIPv2中，将传统视觉模型中的语义分类线性层替换为视觉语言匹配点积层。

如图1，GLIPv2由一个双编码器和以及一个融合编码器组成，以图像-文本对(Img, Text)作为输入，提取视觉和文本特征如下，其中，和，分别表示VL融合前和融合后的图像/文本特征：「Vision-Language understanding tasks」 GLIPv2在文本特征的基础上增加了一个两层MLP作为MLM head，用于MLM预训练。「(Language-guided) object detection and phrase grounding」 继GLIP之后，GLIPv2采用classification-to-matching的方法，实现了detection与grounding的统一。具体来说，只需将类别的概率(其中W是box分类器的权重矩阵)替换为task-agnostic region-word相似度分数(其中文本特征是来语言编码器的label嵌入)，即原本的目标检测为分类为k个类别，转化为region和word的匹配分数，words里不仅包含原本所有的目标检测类别，同样包含更多的新的视觉概念。「(Language-guided) instance segmentation and referring image segmentation」 给定目标检测的结果，添加一个实例分割head，将box内的每个像素分类为一个语义类。同样，GLIPv2使用classification-to-matching的技巧，为标准的实例分割任务和referring图像分割任务生成统一的实例分割head，并利用这两种类型的数据进行预训练。

b、GLIPv2 Pre-training

GLIPv2采用三种预训练损失进行预训练：来自目标检测任务的视觉语言重构的phrase grounding损失，region-word对比损失，以及MLM损失：与检测任务中的损失类似，由两部分组成：由边界框监督的，例如RPN损失、box regression损失和centerness损失，本质上是每个区域的语义分类/检索损失。

「Intra-image region-word alignment loss」 给定一个图像-文本对(Img, Text)，通过跨模态融合得到图像和文本特征和，计算图像内部region-word对齐损失：其中为单个图像区域与单词之间的相似度分数，为真值注释确定的目标矩阵，损失函数损失通常为两阶段模型的交叉熵损失和一阶段模型的Focal-loss。然而，由于一个caption所能包含的phrase数量有限，这种单个图像内部region-word的对比学习在对比学习的意义上是相当薄弱的。GLIP通过添加几个否定句来形成包含更多(否定)phrase的较长的文本输入，从而缓解了这个问题，但是，受限于文本token的最大长度(GLIP和GLIPv2中为256)，只能添加少量的否定句，否定phrase的数量保持在10的数量级，当输入文本不能包含检测数据集(例如Objects365)中的所有类别名称时，在目标检测数据集中也存在这个仅有少量负例的问题。
「Inter-image region-word contrastive loss」 GLIPv2使用同一batch中的其他图像-文本对中的phrase作为负例，有效地将负例的数量增加到1000数量级，而额外的计算成本几乎可以忽略不计。如图1，给定一批图像-文本对和真值，模型跨模态融合前后的图像和文本特征，分别记为，和，。然后如图2(左)，考虑整个batch中的所有图像区域和文本短语，构造一个batch的相似矩阵和一个batch的目标矩阵，计算如下：然后将图像间region-word对比损失定义为应用于该batch所有图像region和phrase的标准双向对比损失:与单个图像内部的对比损失相比，图像之间对比损失中的负例数量大小要乘以batch大小，要注意的是：1) GLIPv2使用VL融合前的图像文本特征，而不是融合后的特征，避免模型看到成匹配对的信息(因为模型可以很容易地从不匹配的图像文本中剔除负例)；2)不像CLIP简单地将所有来自不匹配的图像-文本的区域和文本都归为负例，而是通过label propagation来确定目标矩阵中的非对角块。如图2(左)，如果一个region被标注为“person”，那它应该与检测类型文本中的所有“person”短语为正匹配。「Pre-training with both detection and paired-image-text data」 GLIPv2预训练数据是图像-文本-目标三元组格式(Img, Text, T)，其中目标矩阵T包含box-label localization注释。作者还使用大量的图像-文本对数据(Img, Text)对进行预训练，极大地提高了GLIPv2的视觉概念多样性。「Second-stage pre-training of the segmentation head」 GLIPv2在实例分割和图像引用分割数据上进行二次语言引导的分割head的预训练，同时固定模型的所有其他部分。

c、Transfer GLIPv2 to Localization and VL Tasks

「One model architecture for all」 通过使用(可选的)task-specific的head对模型进行微调，GLIPv2可以迁移到下游任务：1)检测和分割任务，不需要额外的head，因为预训练架构本身就可以执行检测和分割；2)VL任务：对于VQA，添加一个分类头即可；对于caption生成，使用单向语言模型进行训练，在跨模态融合层中，使用单向attention mask来防止图像关注到文本。

「One set of weight for all」 GLIPv2可以在zero-shot或prompt-tuning中迁移到localization任务，其中每个任务只保留少量或不保留参数，对于prompt-tuning的所有localization任务，所有输入图像的文本prompt都是相同的。

「Grounded VL understanding」 GLIPv2还支持grounded VL understanding，在对模型进行下游VL任务微调时，保留了执行grounding的能力，增加了模型的可解释性。

实验

One Model Architecture for All

在表1中，GLIPv2与现有的对象检测和视觉语言预训练方法进行了广泛的比较，在8个不同的下游任务上微调模型。

One Set of Model Parameters for All

预训练的GLIPv2可以在任何对象检测任务和visual grounding任务上直接推理，而无需进一步微调。表2中对COCO、ODinW、LVIS和Flickr30这4种定位任务进行了评估。

GLIPv2 as a Strong Few-Shot Learner

总结

本文提出了一个统一的VL表示学习框架GLIPv2，它既适用于localization任务，也适用于VL理解任务，实验验证了统一模型和region-word对比学习的有效性，与现有的方法相比，GLIPv2在各种localization和understanding任务上具有接近SoTA的竞争力。

论文解读投稿，让你的文章被更多不同背景、不同方向的人看到，不被石沉大海，或许还能增加不少引用的呦~ 投稿加下面微信备注“投稿”即可。

最近文章

COLING'22 | SelfMix：针对带噪数据集的半监督学习方法

ACMMM 2022 | 首个针对跨语言跨模态检索的噪声鲁棒研究工作

ACM MM 2022 Oral | PRVR: 新的文本到视频跨模态检索子任务

投稿或交流学习，备注：昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注~

中年以后低耗生活（2022-02-10）一颗小米粒
2月8日的公众号《洞见》首条文章的题目是《中年以后，请过低耗的生活》，读后很喜欢。拆文如下：结构总分总结构引入：直奔主题“人到中年，如临半坡”，有压力，时间与精力不如从前，以前的生活模式不再适应，因此要改变，中年后学会过低耗的生活，“为生活减负，让内心回归安宁。”正文：有五部分，分别是物质低耗、情绪低耗、社交低耗、身体低耗和精神低耗，并列式。一、物质低耗。引用漫画大师蔡志忠的例子，他从迷恋跑车、房
五分钟了解等级保护、风险评估和安全测评三者的区别和联系？亿林等保安全网络安全
等级保护基本概念：网络安全等级保护是指对国家秘密信息、法人和其他组织和公民的专有信息以及公开信息和存储、传输、处理这些信息的信息系统分等级实行安全保护，对信息系统中使用的安全产品实行按等级管理，对信息系统中发生的信息安全事件等等级响应、处置。这里所指的信息系统，是指由计算机及其相关和配套的设备、设施构成的，按照一定的应用目标和规则对信息进行存储、传输、处理的系统或者网络；信息是指在信息系统中存储、
婚恋交友系统定制开发多少钱费用｜哪家好些｜专业正规红匣子实力推荐
婚恋交友系统是一种针对单身人士的社交平台，它提供了一种快速、便捷的方式来寻找有共同兴趣爱好和价值观的伴侣。近年来，随着互联网技术的发展，婚恋交友系统得到了广泛的应用，并逐渐出现了一些定制化的开发方案。那么，婚恋交友系统定制开发多少钱呢？本文将从以下几个方面进行探讨。开发-联系电话：13642679953（微信同号）一、开发成本开发成本是婚恋交友系统定制开发多少钱的重要因素之一。具体而言，开发成本包
时隔6年，她上电视寻找在布拉格艳遇的那个男生 Ella三黑环游世界
好久不见尽管走遍全世界依然忘不了你们_综艺_高清1080P在线观看平台_腾讯视频昨晚守着电视直播的时候，自己也忍不住看哭好几次。生命中再度重逢的人，依然深爱着彼此，有遗憾但更多的是爱。我走了50个国家，遇见过无数个人，但这三个人的出现，也许短暂也许漫长，但都构成了生命中最重要的记忆。布拉格求吻的韩国男生那个布拉格求吻的一米九的韩国男生，一个可爱的高中生女孩、还有一直陪伴我的忘年交陆阿姨，他们会出现
springboot整合springmvc 小僵123456 SpringBoot spring boot 后端 java
1、创建springboot项目，勾选Springweb当前springboot选择的是2.6.13版本，jdk1.8尽量选2.几的springboot2、在pom.xml中导入相应的坐标org.springframework.bootspring-boot-starter-web3、配置application.yml，按需配置，可选server:port:8080spring:datasourc
2020-02-15 Susie的小窝
对于大龄女性同胞来讲，年龄越大，周围的催婚声音就越强烈。你说你不着急结婚，那是假的。因为纵观周围的姐妹，闺蜜都已经两年抱一个，三年抱两的状态，你还在独自生活着，一个人只能默默的体会到越长大越孤单的心情。可是，找到一个合适的人真的很难，什么是合适？合适的标准又是什么？每个人的判定标准不同，有的看家室条件，有的看财务状况，有的看办事能力，有的只是追求那虚无缥缈的爱情。以前的自己对男朋友的标准必须像“胡
linux编码格式修改小僵123456 linux linux 运维服务器
linux编码格式修改1、全局修改（root用户下的修改）（1）登录root用户（2）vi/etc/profile（3）打开文件后在最后两行加入如下命令：exportLC_ALL=“zh_CN.UTF-8”exportLANG=“zh_CN.UTF-8”（4）使文件生效source/etc/profile2、局部修改（普通用户下的修改）（1）登录uacsapp用户（2）vi/home/uacsap
自信游戏规则自我成长每一天
书名《自信的陷阱》作者（澳）路斯-哈里斯分类心理自助本书目录：（一）热身（二）双刃剑（三）你的动力是什么（四）驯服你的恐惧（五）进行自信游戏自信不是一件一劳永逸的事，而是一个挑战自我的长期过程。自信不是一个最终结果，而是一个不断坚守自我价值的过程。要么大胆尝试，要么一无所获。你的人生很有可能因为“缺乏自信”“害怕失败”“表现焦虑”和“自我怀疑”而失去很多。如果你更自信，人生会有何不同？自信的缺失并
时间管理，永远要管理这三个时间 | 时间管理 Kong大叔
努力当下，活在过去和未来。时间管理，永远要管理三个时间：过去，当下，未来。我们以改变为核心手段，以发展的连续性和非连续性为指导原则，以过去、现在、未来为划分去管理时间，持续迭代，最终实现人参更大的可能。弱者更多活在过去。年轻人喜欢聊未来，中年人喜欢聊现在，老年人喜欢聊过去。活在过去，更好理解的说法是：在过去上活。1.你如何看待过去？过去不决定论，与过去决定论。2.你如何使用过去？有人当借口，有人当
redis之源码包安装瀟湘夜雨-秋雨梧桐 redis 数据库缓存
文章目录前言一、安装步骤1.源码包官方下载2.解压源码包3.安装redis4.配置环境变量5.redis服务启动前言Redis（RemoteDictionaryServer）是一个开源的高性能内存数据存储系统。它以键值对的形式存储数据，并支持多种数据结构，如字符串、哈希表、列表、集合和有序集合等。Redis具有低延迟、高吞吐量的特点，适用于对响应时间要求较高的场景。它支持数据持久化，通过快照和日志
2019年10月20日沐浴阳光_ee71
今天周日，原本想领着孩子睡个懒觉，结果俩孩子一个比一个起得早中午，闺女和奶奶去看姥姥娘去了，小马和爷爷买了一盒水晶泥，也不知道这家伙怎么想的，用水晶泥做了一个项链，带到了自己的脖子上，我在卧室只听见小马爷爷的一声喊，小马已经藏起来了，水晶泥弄的秋衣上都是，揭都揭不下来，也不知道是该夸他有创意还是该批评他…晚上，我们一家四口一起重温了一遍电影《寻梦环游记》，感受了一家人在一起的美好！是的，只要是一家
2020-03-02 Allow Multiple Prospects with the same email address. 古月的小七
目前这种属性是默认enable的了，在AccountSetting里面你可以看到相应的设置。AllowMultipleProspectswiththeSameEmailAddressEmailisnolongertheonlyuniqueidentifierinPardot.Pardotadminscanchecktheiraccountsettingspagetoseewhethertheira
高仿手表分为几个等级？十个高仿手表等级一览表美表之家
高仿手表是复制市场上存在的一种非常特殊的商品，严格来说，这并不是一种合法的商业活动，但由于其价格相对亲民，又能满足部分消费者追求名牌的心理需求，因此市场上一直存在着这样的产品。而且，高仿手表并非想象中的质量粗糙，仅看是否像真的，实际上衡量其好坏有很多标准，并且具有不同等级。微信:798445980(下单赠送精美礼品)根据市场上的实际情况，较为通行的高仿手表等级划分大致有以下十个等级：1.高仿级别：
微信小程序查询关键字标红小許同学微信小程序小程序
wxml{{items.str}}{{items.str}}jsletthat=thisletdata='啊啊啊啊啊哈啊啊啊哈哈啊啊哈哈额'letvalue='哈哈';//调用处理的方法data=that.hilight_str(key,data);console.log(data)//根据关键字切割字符串hilight_str:function(key,strs){letidx=strs.ind
Deep learning for Computer Vision with Python（1）从零开始入门计算机视觉 Hazelyu27 计算机视觉大数据计算机视觉深度学习
本书的内容分成三个部分：1.初始阶段初始阶段学习：机器学习、神经网络、卷积神经网络、建立数据集。2.实践阶段实践阶段：深入学习深度学习，理解先进技术，发现最佳实践方式。3.图像网络阶段完成计算机视觉领域的经验积累。使用大规模数据集和真实图片案例作为数据集，包括年龄和性别预测，交通工具模型识别。本书提供了对应网站：http://pyimg.co/fnkxk本文介绍前两章内容：基本介绍和深度学习简介。
暴露年龄的回忆杀-温州千百果one
生命中真正重要的不是你遭遇了什么，而是你记住了哪些事，又是如何铭记的1.陌生的气候陌生的城说起来是到温州，到不如说是过温州，在柳市的。也是我最近又有些向往走出去，想着南方应该是温暖的，而我在柳市时，感觉到的却是骨头关节阵阵的疼痛，早晚天气也是凄冷，只是中午时，阳光和绚的很是舒服，像北方的中秋时节，却一直是潮乎乎的，打印纸从来都有绵柔的。我是有关节炎的，上楼下楼，都能听到我的腿关节，可可吧吧的作响，
Java中的分布式计算：如何在多节点环境中实现高效计算省赚客app开发者 java 开发语言
Java中的分布式计算：如何在多节点环境中实现高效计算大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！在现代计算中，分布式计算已成为处理大量数据和复杂计算任务的标准解决方案。通过将计算任务分散到多个节点上，可以显著提升计算性能和系统的可扩展性。本文将探讨如何在Java环境中实现高效的分布式计算，涵盖从基本概念到具体的技术实现和最佳实践。一、分布式计算基础分布式计算指的
实训day4 yolo1代码运行 Hazelyu27
yolo1代码运行今天主要是在pycharm上运行pytorch的yolo1训练和测试代码。主要遇到的问题：1.训练文件路径的修改，开始没有找到tmp_file文件，就在该文件夹下创建了这个txt文件，但是发现：ifisinstance(list_file,list):#Catmultiplelistfilestogether.#Thisisespeciallyusefulforvoc07/voc
2019-04-21 山荆子_
姐姐扣出了新天际，要做可乐鸡翅，葱和蒜都是和朋友拿的，知道朋友家有可乐，连可乐都没买。还特别理直气壮的说：她的世界里只有借没有还。姐姐毕业没有找工作，每天在家像个家庭主妇一样，一边生活，一边慢慢的等工作机会。陪着奶奶爷爷，某个瞬间我觉得这样子也不错。老人都是见一面少一面，就陪在他们身旁，这样的生活简单而珍贵。无论怎样的选择，只要自己认为是对的并且有承担的勇气，那就坚持吧。对他人的评价少一点，因为我
python eval函数的使用方法丑的看不了 python 编程语言 1024程序员节
一、eval函数的使用方法eval()函数是许多编程语言都内置的一个函数，如JS、PHP、Python等，用于返回括号内包含的表达式执行后的结果python中的使用格式为eval(表达式[(可选{字典形式})全局变量，[(可选)局部变量]])在Python中的基本用法：输入一组描述四则运算的字符串"125+255"需要重点关注的问题：输入eval(“125+255”)是否报错能否返回结果值检查返回
如何成为一个高能量的人 Frosting_c
高能量不是瞬间得到的如何成为一个能量很强大的人呢？答案是将注意力投射到自身成长上，就会提升自己的能量密度。比如，每天看一小时书，来丰富自己的知识面；比如，每天写一篇日记，总结一下今天的得失；比如，每天写一篇分享，把自己的所学分享出来，帮助别人的同时，巩固自己的学识...一开始这种方式，可能会效果很微小，不明显，甚至根本察觉不到变化：我只是今天多了1小时看书嘛，我并没有发生什么变化呀，我还是我，是不
【鼠鼠学AI代码合集#5】线性代数鼠鼠龙年发大财鼠鼠学AI系列代码合集人工智能线性代数机器学习
在前面的例子中，我们已经讨论了标量的概念，并展示了如何使用代码对标量进行基本的算术运算。接下来，我将进一步说明该过程，并解释每一步的实现。标量（Scalar）的基本操作标量是只有一个元素的数值。它可以是整数、浮点数等。通过下面的Python代码，我们可以很容易地进行标量的加法、乘法、除法和指数运算。代码实现：importtorch#定义两个标量x=torch.tensor(3.0)#标量x，值为3
flink独立集群部署嘎子吱吱吱吱 flink hadoop linux
#flink独立集群部署说明安装环境三台服务器47.106.23.1（master）47.112.173.2（worker1）47.115.162.3（worker1）提前装好jdk和ssh,以下操作最好不要用root账号提前下载好flink的包并解压设置三台服务器之间ssh免密登录生成本机秘钥以47.106.23.1为例（其他两台参考本服务器）#生成本机秘钥cd;ssh-keygen-trsa-
4.2三月初十梅心梅肺_c708
数算我的恩福第90天：平静从我开始～哈～竟然在不知不觉中就到了第90天呢，值得庆祝的时刻，庆祝生命来到了很高的觉知觉察层面。因为让自己的心和人都来到一个完全抽离的状态，竟然可以达到无条件的喜悦和挂碍，好惊喜！下午和小宝贝竟然睡到了三点多，看到她睡的特别香，不忍心打扰。自己出去找了个小花园僻静的地方做呼吸法。回来的时候给孩子们买了草莓，去几个超市去问有没有糖炒栗子，结果都没有。看来，小宝贝吃的东西太
写给小白——Android动画之位移动画（移动动画） justCode_
前面讲了，透明动画和缩放动画，今天单独讲讲位移动画。因为位移动画，真的是相对而言，变化最多，也最难（当然，也不难，会就不难）首先，我喜欢先讲方法和结果。然后，再讲原理。移动动画的代码，就这么多，这里的代码，几乎是位移动画的全部了。这里，我先不讲每个参数是什么。我准备在文末解释。我红框选中的地方，是我今天讲的重点。首先，我们讲一个东西，我今天讲的是平面位移（也叫二维位移）。当然，有三维（俗称3D）的
大模型LLM面试常见算法题-包括Attention和Transformer常见面试题剑圣土豆算法面试大模型学习自然语言处理 transformer 算法 nlp 自然语言处理面试深度学习人工智能
大模型：位置编码有哪些？介绍LoRA与QLoRARAG和微调的区别是什么？哪些因素会导致LLM的偏见？什么是思维链（CoT）提示？Tokenizer的实现方法及原理解释一下大模型的涌现能力？解释langchainAgent的概念langchain有哪些替代方案？RLHF完整训练过程是什么？为什么RLHF的效果这么好?RLHF使用的训练数据是什么样的?RAG和微调的区别是什么？有了解过什么是稀疏微调
尘世絮语笨笨猪_4138
#尘世絮语#不在寂寞的时候撩拨谁，也不做谁孤独时的解语花，不做谁的＂招之即来挥之则去＂，有自己的山河万里长风浩荡，无论是夜色微凉还是烈日当空，皆可从容面对，这一切都必须源于努力奋斗……
apt 下载指定架构的包及离线安装的方法错误重复学习记录 linux
#设置系统架构sudodpkg--add-architectureamd64#安装apt-rdependssudoaptinstallapt-rdepends#创建单独的目录mkdir-p/home/apt/postgresql-client-common#仅下载安装包sudoapt-getinstall--download-onlysudomv/var/cache/apt/archives/*/
用python的NiceGUI库实现webApp___官网文档熟悉错误重复学习记录 web app
官网文档文本元素ui.label、、ui.markdown和ui.restructured_text等元素ui.html可用于显示文本和其他内容。TextElementsLabel、Link、ChatMessage、GenericElement、MarkdownElement、ReStructuredText、MermaidDiagrams、HTMLElement控制NiceGUI提供了多种用于用
linuxcnc-cia402 README 错误重复学习记录笔记
hal-cia402CiA402器件的HAL接口，该组件用作硬件与Hal模块（如Ethercat、CAN总线或其他）之间的粘合层。它将原始IO数据从PDO转换为常见的linuxcncHal引脚结构，并具有内置逻辑用于CiA402状态控制、反馈处理、外部归位和内置缩放功能。它提供两个函数：read_all和write_all。相应任务中的整合概念应如下：硬件输入-->--CiA402_read-->
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla

微软提出：多模态视觉语言理解和视觉定位的大一统

简介

问题

方案

主要贡献

相关工作

Localization models

Unifying localization and understanding

方法

GLIPv2: Unifying Localization and VL Understanding

a、 A Unified VL Formulation and Architecture

b、GLIPv2 Pre-training

c、Transfer GLIPv2 to Localization and VL Tasks

实验

One Model Architecture for All

One Set of Model Parameters for All

GLIPv2 as a Strong Few-Shot Learner

总结

你可能感兴趣的:(微软提出：多模态视觉语言理解和视觉定位的大一统)