modal 第33页

活体检测论文研读3——Cross Modal Focal Loss for RGBD Face Anti-Spoofing

摘要近年来，人们提出了多通道的方法来提高PAD系统的鲁棒性。通常，附加通道的数据是可用的，这限制了这些方法的有效性。在这项工作中，我们提出了一个新的PAD框架，它使用RGB和深度通道以及一个新的损失函数。新的体系结构使用了来自这两种模式的互补信息，同时减少了过拟合的影响。从本质上讲，提出了一个跨模态的焦点损失函数来调制每个信道的损失贡献，作为单个信道置信度的函数。在两个公开的数据集上进行的广泛评估

Moon_Boy_Li·2023-01-07 22:50

社区面对面：在 Jina 中使用 RocketQA

文章导读北京时间1月11日（周二）23:00，JinaAICo-founder&CTO王楠，与JinaAIDevRelTeamLeadAlexCG，将为大家带来RocketQA，以及multimodalfashionsearch

Jina AI·2023-01-06 15:36

tensorflow2.0安装（成功率极高）

1、打开网址：https://pypi.org/project/tensorflow/2.0.0a0/#modal-close下载对应版本的tensorflow2.0（我的是3.7python，windows

Bily_on·2023-01-06 12:11

react源码解析18事件系统

代码也很简单，模拟一个modal框，点击显示出现，点击其他地方，相当于点击了mask，modal消失，因为react事件都是委托到上层，所以需要在handleClick阻止冒泡，这样点击显示的时候不会触发

·2023-01-06 09:49

vue中使用h5 video标签实现弹窗播放本地视频

标签的用法在开发过程中主要涉及到以下几个需要关注的点1.弹窗的打开关闭父组件中使用.sync绑定visible属性，可直接在子组件中关闭弹窗更新父组件传入的visible值；//父组件中引用子组件//子组件中//子组件中关闭弹窗方法closeModal

蚂蚁二娘·2023-01-05 12:31

[论文笔记] A Survey on Vision Transformer 阅读笔记

ASurveyonVisionTransformer（TPAMI2022）摘要VisionTransformerBackboneHigh/Mid-levelVisionLow-levelVisionVideoProcessingMulti-ModalTaskEfficientTransformerConclusionandDisscuss

吉他A梦·2023-01-05 01:42

[机械臂笔记001]论文阅读-StructDiffusion: Object-Centric Diffusion for Semantic Rearrangement of Novel Objects

这些对象可能是机器人不认识的本篇关注的方向是：在没有逐步指导的情况下排列对象本篇提出了StructDiffusion，它结合了diffusionmodel和object-centrictransformer(也是multi-modaltran

Plusmile1·2023-01-03 09:51

maplab 2.0 多模态模块化建图框架

文章：maplab2.0–AModularandMulti-ModalMappingFramework作者：AndreiCramariuc,LukasBernreiterFlorianTschopp,MariusFehr

Being_young·2023-01-02 20:30

c++ PDFium pdf转为图片(实例)

满足与自己日常使用：打开文件操作：CFileDialogpCFileDialog(TRUE);pCFileDialog.m_ofn.lpstrTitle=L"打开文件";if(pCFileDialog.DoModal

春蕾夏荷_728297725·2023-01-02 17:07

中科大&快手提出多模态交叉注意力模型：MMCA，促进图像-文本多模态匹配！

关注公众号，发现CV技术之美本文分享论文『Multi-ModalityCrossAttentionNetworkforImageandSentenceMatching』，由中科大&快手联合提出多模态交叉注意力

我爱计算机视觉·2023-01-01 15:12

Attention Bottlenecks for Multimodal Fusion论文阅读笔记

AttentionBottlenecksforMultimodalFusion论文阅读笔记一、相关信息1、论文名称：AttentionBottlenecksforMultimodalFusion2、论文地址

ru-willow·2023-01-01 15:12

粗读Attention Bottlenecks for Multimodal Fusion

本文提出的模型针对的是视频分类。众所周知，视频中，画面和声音往往是互相联系的，比如音频出现爆炸声时，视频一般会出现火光。在此之前，视频分类中，信息只在每帧视频的不同区域之间通过ViT互相传递，音频信息也只通过AST互相传递影响，不会综合考虑两种信息。上图第一张小图即为传统的视频分类方式。作者提出了两种方式，一种是在靠后的层中（laterlayers），将两部分信息进行相互传递，另一种是两种信息不直

格里芬阀门工·2023-01-01 15:12

多模态融合论文阅读笔记

文章目录前言一、Richpedia:AComprehensiveMulti-modalKnowledgeGraph1.整体构造方法2.发现实体之间关系的方法3.实体关系的类别4.感悟二、Multi-modalKnowledge-awareEventMemoryNetworkforSocialMediaRumorDetection1

zzuli_gqb·2023-01-01 15:12

【论文阅读】Polysemous Visual-Semantic Embedding for Cross-Modal Retrieval 多义性视觉-语义编码跨模态检索视频图像文本

论文标题：PolysemousVisual-SemanticEmbeddingforCross-ModalRetrieval作者：YaleSong1，MohammadSoleymani2；MicrosoftCloud

me_yundou·2023-01-01 15:41

【论文阅读】Emphasizing Complementary Samples for Non-literal Cross-modal Retrieval 图文检索多模态

论文标题：EmphasizingComplementarySamplesforNon-literalCross-modalRetrieval；作者：ChristopherThomas1，AdrianaKovashka2

me_yundou·2023-01-01 15:41

【论文阅读】Attention Bottlenecks for Multimodal Fusion---多模态融合，音视频分类，注意力机制

论文标题：AttentionBottlenecksforMultimodalFusion；作者：ArshaNagrani,ShanYang,AnuragArnab,ArenJansen,CordeliaSchmid

me_yundou·2023-01-01 15:40

【论文泛读】Multimodal Neural Graph Memory Networks for Visual Question Answering

生成词向量的一种方法理解GloVe模型（Globalvectorsforwordrepresentation）GRU是LSTM的一种变形，LSTM和CRU都是通过各种门函数来将重要特征保留下来，这样就保证了在long-term传播的时候也不会丢失。此外GRU相对于LSTM少了一个门函数，因此在参数的数量上也是要少于LSTM的，所以整体上GRU的训练速度要快于LSTM的。两个网络的好坏还是得看具体的

浪里摸鱼·2022-12-31 09:56

Multimodal Graph-based Transformer Framework for BiomedicalRelation Extraction

Protein-ProteinInteractiontaskintroducedanovelframeworkthatenablesthemodeltolearnmulti-omnicsbiologicalinformationaboutentities(proteins)withthehelpofadditionalmulti-modalcueslikemolecula

辉辉小学生·2022-12-31 08:52

MTGAT:Multimodal Temporal Graph Attention；图卷积网络用于多模态情感分析

摘要多模态数据呈现复杂的多关系以及时序交互的特点，从这样的数据中学习具有挑战性本文提出了MTGAT。它是基于图以及具有可解释性的神经网络模型，可以利用这个框架解决多模态序列数据主要包括两个部分：构建以及处理。首先将非对齐的多模态序列转换成具有异构型(heterogeneous)节点以及边的图，这个过程可以随着时间的推移捕获到不同模态之间的交互。其次，使用多模态时序注意力以及动态pruning和re

Bourne___1·2022-12-31 08:50

2019 ICLR | Learning Multimodal Graph-to-Graph Translation for Molecular Optimization

arxiv.org/pdf/1812.01070Code:https://github.com/wengong-jin/iclr19-graph2graph2019ICLR|LearningMultimodalGraph-to-GraphTranslationforMolecularOptimization

发呆的比目鱼·2022-12-31 08:19

MULTI-MODAL ROBUSTNESS ANALYSIS AGAINST LANGUAGE AND VISUAL PERTURBATIONS

ABSTRACT最近，与单模态学习相比，基于大规模数据集的联合视觉和语言建模在多模态任务中取得了良好的进展。然而，这些方法对现实世界扰动的鲁棒性尚未研究。在这项工作中，我们对这些模型进行了第一次广泛的鲁棒性研究，研究对象是视频和语言。我们专注于文本到视频检索，并提出了两个大型基准数据集，MSRVTT-P和YouCook2-P，它们利用了90种不同的视觉和35种不同的文本扰动。研究揭示了一些有趣的发

Tsukinousag1·2022-12-30 07:35

Autogluon代码

教程来源：MultimodalPrediction—AutoGluonDocumentation0.5.2documentation此外还有：图像分类、多语言文本、多模态、CLIP等目录入门：表格预测文本分类文本相似

Blossom Flight·2022-12-29 17:01

CVPR2021-RSTNet：自适应Attention的“看图说话”模型

0写在前面由于强大的建模能力，Transformer结构被用在一系列CV、NLP、Cross-modal的任务中。

我爱计算机视觉·2022-12-29 11:43

【文献阅读】XVQA——一篇关于VQA的解释性研究（K. Alipour等人，ArXiv，2020）

一、背景文章题目：《AStudyonMultimodalandInteractiveExplanationsforVisualQuestionAnswering》文章下载链接：https://arxiv.org

全部梭哈迟早暴富·2022-12-28 16:05

多模态特征融合机制(含代码)：TFN(Tensor Fusion Network)和LMF(Low-rank Multimodal Fusion)

文章目录写在前面简单的concatTFN融合策略LWF融合策略论文全称：《TensorFusionNetworkforMultimodalSentimentAnalysis》《EfficientLow-rankMultimodalFusionwithModality-SpecificFactors

我是大黄同学呀·2022-12-28 12:30

Composing Text and Image for Image Retrieval - An Empirical OdysseyNam

论文杂记上一篇主目录下一篇文章结构1预备知识1.1Cross-modalimageretrieval1.2特征融合方法1.2.1LSTM1.2.2AttributeasOperator2本文方法2.1整体框架

ShaneHolmes·2022-12-28 12:00

【cvpr2020】Referring Image Segmentation via Cross-Modal Progressive Comprehension

motivation：之前的方法缺乏利用语言中不同类型的信息词来准确对齐视觉和语言特征的能力。提出采用渐进式方法，分为两个阶段，第一步，模型根据实体词和属性词来感知表达式中描述的所有实体，第二步，模型进一步推理实体之间的关系，以突出所指对象并抑制其他不匹配的实体。idea：提出了一个跨模态渐进理解(CMPC)模块，该模块利用表达式中的不同类型的词来分割基于图形的结构中的所指对象。该模块，第一步将从

lynn_Dai·2022-12-28 09:56

Referring Image Segmentation 综述

希望对您有用(●'◡'●)参考github顶会合集Cross-ModalSelf-AttentionNetworkforReferringImageSegmentation用了self-attention

一只想飞的咸鱼君·2022-12-28 09:56

论文：Linguistic Structure Guided Context Modeling for Referring Image Segmentation

AbstractReferringimagesegmentationaimstopredicttheforegroundmaskoftheobjectreferredbyanaturallanguagesentence.Multimodalcontextofthesentenceiscrucialtodistinguishthereferentfromthebackground.Existin

小仙女呀灬·2022-12-28 09:56

[CVPR2022|跨模态检索]ViSTA: Vision and Scene Text Aggregation for Cross-Modal Retrieval

文章地址：http://arxiv.org/pdf/2203.16778个人阅读见解，欢迎大家交流讨论指正~一、研究背景视觉外观被认为是跨模态检索中理解图像的最重要线索，而有时图像中出现的场景文本(Scenetext)可以为理解视觉语义提供有价值的信息。现有的跨模态检索方法大多忽略了场景文本信息的使用，并且若直接添加这些信息可能会导致无场景文本场景中的性能下降。作为最重要的多模态理解任务之一，跨模

TycoonL·2022-12-28 09:54

[论文翻译]数据集的domian问题:Intramodality Domain Adaptation Using Self Ensembling and Adversarial Training

论文pdf下载:链接IntramodalityDomainAdaptationUsingSelfEnsemblingandAdversarialTraining使用自集成和对抗性训练的模式域内适应Abstract.Advancesindeeplearningtechniqueshaveledtocompellingachievementsinmedicalimageanalysis.However

玖零猴·2022-12-27 21:28

Visually-Rich Document understanding—— 阅读笔记

：1、2021《LayoutLM:Pre-trainingofTextandLayoutforDocumentImageUnderstanding》微软2、2021《LayoutLMv2:Multi-modalPre-trainingforVisually-richDocumentUnderstanding

lynn_Dai·2022-12-27 16:57

【论文笔记】LayoutLMv2: Multi-modal Pre-training for Visually-rich Document Understanding(LayoutLMv2)

文章目录LayoutLMv2:Multi-modalPre-trainingforVisually-richDocumentUnderstanding基本信息摘要模型结构TextEmbeddingVisualEmbeddingLayoutEmbeddingSpatial-AwareSelf-AttentionMechanismPre-trainingTasksMaskedvisual-Langua

每天想peach·2022-12-27 16:25

【论文笔记】LayoutXLM: Multimodal Pre-training for Multilingual Visually-rich Document Understanding

文章目录LayoutXLM:MultimodalPre-trainingforMultilingualVisually-richDocumentUnderstanding基本信息摘要模型结构ModelArchitecturePre-trainingMultilingualMaskedVisual-LanguageModelingText-ImageAlignmentText-ImageMatchi

每天想peach·2022-12-27 16:25

生物信息学|用于预测药物-药物相互作用事件的多模态深度学习框架

本篇推文引自：Amultimodaldeeplearningframeworkforpredictingdrug–druginteractionevents1.摘要动机:药物-药物相互作用(DDIs

ShenggengLin·2022-12-27 11:47

2018ECCV：Attention-Aware Deep Adversarial Hashing for Cross-Modal Retrieval 论文笔记

0.摘要由于多模态数据的快速增长，跨模态检索的哈希方法受到了广泛的关注。然而，由于存在异质性差异，在不同数据模式之间寻找内容相似性仍然具有挑战性。为了进一步解决这个问题，我们提出了一个带有注意机制的对抗性哈希网络，通过选择性地关注多模态数据的信息部分，来增强内容相似性的测量。提出的新的深层对抗网络包括三个构建模块:(1)特征学习模块获取特征表征;(2)用于生成注意掩码的注意模块，该注意掩码用于将特

彦祖琦·2022-12-26 14:48

【论文笔记】FashionBERT: Text and Image Matching with Adaptive Loss for Cross-modal Retrieval

文章来源：SIGIR’20摘要文章基于BERT提出了一个跨模态检索模型，该模型并不是一个通用的检索模型，主要用于电商领域时尚用品（Fashon）检索，作者是阿里巴巴。框架图文章框架和之前基于transformer的文章网络架构大致相同，输入输入文本和图片，对文本取token对图片取patch输出[CLS]用来判断文本和图片是否对齐训练任务遮挡图片（文本）预测图片（文本），预测文本和图片是否匹配Wh

hatake.18·2022-12-26 14:48

（跨模态检索综述）A Comprehensive Survey on Cross-modal Retrieval

AComprehensiveSurveyonCross-modalRetrievalKaiyeWangy,QiyueYiny,WeiWang,ShuWu,LiangWang∗,SeniorMember,

HYY233·2022-12-26 14:47

跨模态/多模态 cross-modal

模态是指数据的存在形式，比如文本、音频、图像、视频等文件格式。有些数据的存在形式不同，但都是描述同一事物或事件的常见的多模态问题有视觉问答：针对图片提问题让计算机回答多模态建索，用自然语言问句来搜图多模态任务还有的比如模型在RGB数据集上训练，然后让在深度图或光流图上预测

hxxjxw·2022-12-26 14:47

多模态小样本

Large-ScaleFew-ShotLearningviaMulti-ModalKnowledgeDiscovery（解决大类别下的小样本学习）关键点：视觉特征分块；语义弱监督的引入在视觉空间中，将图片分为三种

DeepWWJ·2022-12-26 00:45

LXMERT:Learning Cross-Modality Encoder Representations from Transformers

LXMERT:LearningCross-ModalityEncoderRepresentationsfromTransformers视觉-语言推理需要理解视觉概念、语言语义，最重要的是，理解两种模态之间的一致性和关系

但愿此生，从未邂逅·2022-12-25 22:16

ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

ViLT:Vision-and-LanguageTransformerWithoutConvolutionorRegionSupervisionTags:Transformer,VLP,multimodal

BL.S.·2022-12-25 22:14

【论文笔记】ASNet：基于生成对抗网络（GAN）的无监督单模和多模配准网络（范敬凡老师）

本文是论文《Adversariallearningformono-ormulti-modalregistration》的阅读笔记，是范敬凡老师的工作，是文章《AdversarialSimilarityNetworkforEvaluatingImageAlignmentinDeepLearningbasedRegistration

棉花糖灬·2022-12-25 19:11

基于GAN的图像配准汇总

落花逐流水·2022-12-25 19:38

计算机视觉与图形学-神经渲染专题-NeRF汇总大礼包-I

001NeRFRepresentingScenesasNeuralRadianceFieldsforViewSynthesisNeRF综述类002NEURALVOLUMERENDERINGNERFANDBEYOND025MultimodalImageSynthesisandE

元宇宙MetaAI·2022-12-25 14:06

图文结合-LXMERT

本文介绍一篇图文结合的经典论文，论文发布于2019年，算是最早出来的一批模型论文信息论文题目：LXMERT:LearningCross-ModalityEncoderRepresentationsfromTransformers

poorlytechnology·2022-12-25 00:49

TomBert:一种基于Bert改进的多模态的情感识别方法

TomBert摘要引言模型数据描述mBERTTomBERT摘要论文地址为AdaptingBERTforTarget-OrientedMultimodalSentimentClassification基于目标的情感分类是细粒度情感分类的重要任务

Neways谭·2022-12-24 16:47

小红书都在研究的多模态学习 , 到底有多强?

多模态机器学习，英文全称MultiModalMachineLearning(MMML)，旨在通过机器学习的方法实现处理和理解多源模态信息的能力。

我爱计算机视觉·2022-12-23 12:22

＜＜视觉问答＞＞2022：Dual-Key Multimodal Backdoors for Visual Question Answering

工作难度不大，但工作量极大，工程价值极高。目录后门攻击摘要一、Introduction二：RelatedWork三、Methods3.1、ThreatModel3.2、BackdoorDesign3.3、OptimizedPatches3.4、DetectorsandModels3.5、BackdoorTraining3.6、Metrics四、DesignExperiments4.1、Visual

金克丝、·2022-12-22 16:59

＜＜视觉问答＞＞2022：MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based VQA