E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
VQA论文阅读
【
论文阅读
】TransCAM: Transformer Attention-based CAM Refinement for WSSS
分享一篇阅读的用于弱监督分割的论文论文标题:TransCAM:TransformerAttention-basedCAMRefinementforWeaklySupervisedSemanticSegmentation作者信息:代码地址:https://github.com/liruiwen/TransCAMAbstract大多数现有的WSSS方法都是基于类激活映射(CAM)来生成像素级的伪标签,
阿委困的不能行
·
2023-07-16 19:47
论文阅读
transformer
深度学习
语义分割
弱监督学习
论文阅读
HighlightMe: Detecting Highlights from Human-Centric Videos
摘要:我们提出了一种与领域和用户偏好无关的方法来检测以人为中心的视频中的精彩片段摘录。我们的方法适用于视频中多种可观察到的以人为中心的模态的基于图形的表示,例如姿势和面部。我们使用配备时空图卷积的自动编码器网络来检测基于这些模式的人类活动和交互。我们根据帧的代表性训练网络,将不同模态的基于活动和交互的潜在结构表示映射到每帧的突出得分。我们使用这些分数来计算要突出显示哪些帧并缝合连续帧以生成摘录。我
城南皮卡丘
·
2023-07-16 19:17
论文阅读
【
论文阅读
20】Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference
论文相关论文标题:ExploitingClozeQuestionsforFewShotTextClassificationandNaturalLanguageInference(利用完形填空进行零样本文本分类和自然语言推理)发表时间:2021领域:自然语言处理-提示学习经典论文发表期刊:EACL2021(A级学术会议)相关代码:https://github.com/timoschick/pet.数
Alan and fish
·
2023-07-16 18:15
论文阅读
RIS 系列 RISCLIP: Referring Image Segmentation Framework using CLIP
论文阅读
笔记
RIS系列RISCLIP:ReferringImageSegmentationFrameworkusingCLIP
论文阅读
笔记一、Abstract二、引言三、相关工作ReferringImageSegmentationVisualGroundingPretrainingContrastiveLanguage-ImagePre-training
乄洛尘
·
2023-07-16 17:29
RIS_REC
论文阅读
笔记
计算机视觉
CLIP
RIS
论文阅读
三年的研究生生活还是没有形成一个个人的
论文阅读
体系。
深度学习努力中
·
2023-07-16 16:33
论文阅读
:CompletionFormer: Depth Completion with Convolutions andVision Transformers
论文阅读
:CompletionFormer:DepthCompletionwithConvolutionsandVisionTransformers来源cvpr2023链接:TheKITTIVisionBenchmarkSuite
shiyueyueya
·
2023-07-16 07:04
论文阅读
transformer
计算机视觉
论文阅读
:PIDNet: A Real-time Semantic Segmentation Network Inspired by PIDControllers
来源:2023CVPR原文链接:https://arxiv.org/abs/2206.02066源码:GitHub-XuJiacong/PIDNet:Thisistheofficialrepositoryforourrecentwork:PIDNet0、摘要双分支网络结构在实时语义分割任务中显示了其有效性和有效性。然而,直接融合高分辨率细节和低频上下文的缺点是细节特征很容易被周围的上下文信息所淹没
shiyueyueya
·
2023-07-16 07:33
语义
论文阅读
论文阅读
:SLAM and 3D Semantic Reconstruction Based on the Fusion of Lidar and Monocular Vision
论文:基于激光雷达与单目视觉融合的SLAM与三维语义重建来源:sensors链接:dblp:SLAMand3DSemanticReconstructionBasedontheFusionofLidarandMonocularVision.0、摘要单目相机和激光雷达是无人驾驶车辆中最常用的两种传感器。将两者的优势相结合是当前SLAM和语义分析的研究重点。本文提出了一种改进的基于激光雷达和单目视觉融合
shiyueyueya
·
2023-07-16 07:33
论文阅读
深度学习
计算机视觉
【
论文阅读
】空间圆形拟合检测新方法
目录1、空间圆拟合模型1.1、空间平面拟合1.2、空间圆拟合2、参考文献3、算法伪码4、算法结果摘要根据空间圆中任意两条弦所对应的中垂面与空间圆所处的平面必然相交且交点即为圆心这一空间圆特性,利用空间向量按照最小二乘法推导出圆心计算方程,按照附有条件的间接平差求解圆心坐标,进而反算出空间圆半径。经实例验证表明该模型可靠,拟合精度高,程序实现较其他模型更为简便,在工程运用中具有良好的实用性。关键词空
点云侠
·
2023-07-16 04:19
CloudCompare
论文阅读
算法
计算机视觉
c++
论文阅读
—2023.7.13:遥感图像语义分割空间全局上下文信息网络(主要为unet网络以及改unet)附加个人理解与代码解析
前期看的文章大部分都是深度学习原理含量多一点,一直在纠结怎么改模型,论文看的很吃力,看一篇忘一篇,总感觉摸不到方向。想到自己是遥感专业,所以还是回归遥感影像去谈深度学习,回归问题,再想着用什么方法解决问题。一、问题与解决方法1、易丢失空间信息在Decoder阶段输出多尺度特征,与ReEncoder阶段结合获取全局上下文信息2、边界信息不明确保留边界损失函数,设计多尺度损失函数级联方法Attenti
fenghx258
·
2023-07-15 23:35
论文阅读
AdaInt: Learning Adaptive Intervals for 3D Lookup Tables on Real-time Image Enhancement
论文阅读
笔记
这是CVPR2022的一篇图像质量增强的论文,提出用值对应的方式来增强图片,同时不同于以往的值对应方法(均匀分布采样点),这个方法能够有针对性地在某些区间使用更密集的点来实现高度的非线性曲线,在某些仅需要简单线性关系的区间使用稀疏的点来节约查表的存储空间。基于全局曲线进行增强的方法也可以看作是一种1Dlookuptable的方法。方法的流程图如图所示,首先将输入的图片下采样送进网络,网络的输出是一
sysu_first_yasuo
·
2023-07-15 23:04
论文阅读笔记
论文阅读
笔记
Linear Contrast Enhancement Network for Low-Illumination Image Enhancement
论文阅读
笔记
这是2023年IEEETransactionsoninstrumentationandmeasurement的一篇暗图增强论文网络结构如下图所示:网络的输入由暗图、暗图的HSV的V分量(三通道的max)以及暗图的梯度图组成,分别送进三个分支。最上面的分支处理梯度图,最下面的分支处理亮度图,对亮度图进行残差的增强后产生L(I),预测的残差同时送进中间的分支,也就是fig5中的σ^\hat\sigma
sysu_first_yasuo
·
2023-07-15 23:04
论文阅读笔记
论文阅读
笔记
Learning Enriched Features for Fast Image Restoration and Enhancement
论文阅读
笔记
这是2022年TPAMI上发表的大名鼎鼎的MIRNetv2,是一个通用的图像修复和图像质量增强模型,核心是一个多尺度的网络网络结构整体是残差的递归,不断把残差展开可以看到是一些残差块的堆叠。核心是多尺度的MRB。网络用的损失函数朴实无华:MRB的核心是RCB和SKFF两个模块,先介绍SKFF,它是用来融合多尺度特征图的,如下所示。这里的特征图是已经上采样到相同尺度了,相加做一个globalaver
sysu_first_yasuo
·
2023-07-15 23:04
论文阅读笔记
论文阅读
笔记
Semantically Contrastive Learning for Low-light Image Enhancement
论文阅读
笔记
这是AAAI2022的一篇无监督暗图增强论文introduction中提到一个重要观点:前景和背景的增强策略需要区别对待,而语义信息可以辅助进行区域的辨别,从而有利于统一物体区域内部的亮度一致性(我的理解是,其实也和空间、景深有关,在简单的光源分布下相同景深相邻区域的物体通常具有相同的照度,而同一物体区域内的像素通常具有相同的景深,并且一般还有相近的颜色,从而具有相近的亮度)。文章的贡献之一是提出
sysu_first_yasuo
·
2023-07-15 23:33
论文阅读笔记
深度学习
计算机视觉
人工智能
Unsupervised Night Image Enhancement: When Layer Decomposition Meets Light-Effects Suppression
论文阅读
笔记
这是ECCV2022的一篇为无监督暗图增强的文章,主要思想是抑制灯光效应的同时增强黑暗区域的亮度,如下图所示文章主要贡献可以分为三点,一是提出了一个layerdeconpositionandlight-effectsuppression框架;二是提出了light-effectslayer;三是提出了一个基于structureandhighfrequencyfeaturesconsistency的损
sysu_first_yasuo
·
2023-07-15 23:33
论文阅读笔记
计算机视觉
深度学习
人工智能
Abandoning the Bayer-Filter to See in the Dark
论文阅读
笔记
这是CVPR2022的一篇暗图增强的文章,TCLAILab与福州大学,韩国延世大学,安徽大学的合作论文网络以黑暗环境下拍摄的colorraw为输入,用一个de-bayer-filtermodule恢复无拜尔滤波器的rawdata(文章认为拜尔滤波器使得光子数量被滤去许多,无拜尔滤波器的摄像机拍摄得到的rawdata虽然没有颜色信息,但是亮度信息更饱满),然后两者一起送进双支路暗图增强模块产生sRG
sysu_first_yasuo
·
2023-07-15 23:33
论文阅读笔记
论文阅读
笔记
LEDNet: Joint Low-light Enhancement and Deblurring in the Dark
论文阅读
笔记
文章提出了一个数据模拟的pipeline。可以模拟黑暗环境下拍照产生的模糊和亮度低的情况,并用该方法生成了一个数据集LOL-Blur,同时提出了一个低光照图像增强并去模糊的网络LEDNet,能够在模拟数据集和真实图像数据集上都取得好的效果。现有的方法都是单独处理debluring或low-lightenhancement的,如果简单地将现有模型串联起来起不到好的效果。现有lowlightenhan
sysu_first_yasuo
·
2023-07-15 23:03
论文阅读笔记
计算机视觉
人工智能
EnlightenGAN
论文阅读
笔记
这是一篇低光照图像质量增强的论文。模型的结构是这样的:总的来说还是遵循GAN的框架的,Generator是一个Unet,然后有两个discriminator,其中一个对全局做,一个对局部的patch做在此框架上,模型有两个亮点:SelfFeaturePreservingLoss和Self-RegularizedAttentionSelfFeaturePreservingLoss因为没有成对图像监督
sysu_first_yasuo
·
2023-07-15 23:02
论文阅读笔记
计算机视觉
深度学习
人工智能
LLFlow
论文阅读
笔记
这是AAAI2022的一篇低光照图像质量增强论文文章的网络结构总体如下所示流模型基础首先对流模型理论做个简单的介绍。本文将低光图像质量增强建模为:给定低光图片作为条件,正常光照的图像条件分布在以gt为均值的高斯分布上流模型就是一个可逆可导的函数映射,因此上述分布可以分解为,流模型(即Θ(xref;xl)\Theta(x_{ref};x_l)Θ(xref;xl),其中xrefx_{ref}xref和
sysu_first_yasuo
·
2023-07-15 23:02
论文阅读笔记
计算机视觉
深度学习
人工智能
RENOIR - A Dataset for Real Low-Light Image Noise Reduction
论文阅读
笔记
JVCIR(CCF3区SCI期刊)18年的文章,主要内容是低光图像去噪几大贡献:提出了一个成对图像的图片数据集,其中一张为黑暗自然噪声图像,另一张为黑暗低噪图像,获取这样的图片对的方法是重点提出了一种评估噪声等级的方法,并用该方法评估了自然噪声和人工加噪(包括泊松-高斯噪声模型),以及六个现有去噪模型的去噪效果黑暗图像中的噪声主要是由于传感器的尺寸太小以及曝光时间不充分。核磁共振、CT、X-ray
sysu_first_yasuo
·
2023-07-15 23:32
论文阅读笔记
计算机视觉
深度学习
exdark数据集
论文阅读
笔记
文章采集了一个低光条件下拍摄的包含各种光照条件标注以及目标检测标注的图像数据集,并对低光条件对目标检测的影响进行了一定的探究实验。coco中包含不足2%的低光照图片SID的图片使用了rawdata来生成sRGB图,没有imageenhancement操作exdark的图片大部分来自网络和搜索引擎,还有一些来自现有数据集如VOC、COCO和ImageNet等,还有些来自电影截出来的帧,还有一些用手机
sysu_first_yasuo
·
2023-07-15 23:32
论文阅读笔记
计算机视觉
目标检测
深度学习
图像分类
论文阅读
该论文通过结合VGG-19和VIT模型,实现乳腺超声图像的分类BreastUltrasoundImagesDataset|KagglePyTorchVGG19复现代码#VGG19.pyimporttorchimporttorch.nnasnnclassConv(nn.Module):def__init__(self,in_channels,out_channels,kernel_size=1,st
一壶浊酒..
·
2023-07-15 23:54
深度学习
论文阅读
深度学习
Low-Light Image Enhancement via Self-Reinforced Retinex Projection Model
论文阅读
笔记
这是马龙博士2022年在TMM期刊发表的基于改进的retinex方法去做暗图增强(非深度学习)的一篇论文文章用一张图展示了其动机,第一行是估计的亮度层,第二列是通常的retinex方法会对估计的亮度层进行RTV约束优化,从而产生平滑的亮度层,然后原图除以亮度层产生照度层作为增强结果,但通常这样会导致过曝,所以会把亮度层调大一点,比如第三列用了Gamma校正把亮度层调大,这样产生的结果不会过曝。但是
sysu_first_yasuo
·
2023-07-15 23:18
论文阅读笔记
论文阅读
笔记
论文阅读
--ssFPN: Scale Sequence (S2 ) Feature Based Feature Pyramid Network for Object Detection
论文地址:ssFPN:ScaleSequence(S2)FeatureBasedFeaturePyramidNetworkforObjectDetection1、文章解决的核心问题目标检测任务中,FPN是一个解决多尺度问题的核心结构,但即使使用了FPN或者其变体结构,最终检测结果的AP值在小目标上依然较差,如下图所示,APs的的检测结果无论在一阶段的YOLO或者两阶段的CascadeR-CNN中表
AI小花猫
·
2023-07-14 14:12
1024程序员节
目标检测
论文阅读
【
论文阅读
】Scaling Laws for Neural Language Models
前言本文简要介绍Scalinglaw的主要结论原文地址:ScalingLawsforNeuralLanguageModels个人认为不需要特别关注公式内各种符号的具体数值,而更应该关注不同因素之间的关系,比例等SummaryPerformancedependsstronglyonscale,weaklyonmodelshapescale:参数量NNN,数据量DDD,计算量CCCshape:模型深度
长命百岁️
·
2023-07-14 11:32
论文阅读
LLMs
自然语言处理
论文阅读
语言模型
深度学习
【
论文阅读
】xNIDS:可解释的基于深度学习的网络入侵检测系统的主动入侵响应(USENIX-2023)
【USENIX-2023】XNIDS:ExplainingDeepLearning-basedNetworkIntrusionDetectionSystemsforActiveIntrusionResponses摘要 基于深度学习的网络入侵检测系统(DL-NIDS)得到了显著的探索,并显示出卓越的性能,但存在两个问题:检测结果和可操作的解释之间存在语义差距,不足以对检测到的入侵作出积极的回应高错
C00per_
·
2023-07-14 10:50
论文阅读笔记
深度学习
网络
论文阅读
论文阅读
-2:基于深度学习的大尺度遥感图像建筑物分割研究
一、该网络中采用了上下文信息捕获模块。通过扩大感受野,在保留细节信息的同时,在中心部分进行多尺度特征的融合,缓解了传统算法中细节信息丢失的问题;通过自适应地融合局部语义特征,该网络在空间特征和通道特征之间建立长距离的依赖关系;二、分割网络:边缘提取网络+细节优化网络E-netD-net将原始图像与E-Net的3通道分割结果作为D-Net的6通道输入进行级联
fenghx258
·
2023-07-14 07:14
深度学习
论文阅读
人工智能
语义分割大模型SAM
论文阅读
(二)
论文链接SegmentAnything开源代码链接SAM
论文阅读
摘要WeintroducetheSegmentAnything(SA)project:anewtask,model,anddatasetforimagesegmentation.Usingourefficientmodelinadatacollectionloop
qq_41627642
·
2023-07-14 03:10
深度学习语义分割论文阅读
MMSegmentation
论文阅读
Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding
论文阅读
笔记
DynamicMDETR:ADynamicMultimodalTransformerDecoderforVisualGrounding
论文阅读
笔记一、Abstract二、引言三、相关工作3.1视觉定位3.2
乄洛尘
·
2023-07-14 03:39
RIS_REC
transformer
论文阅读
笔记
【
论文阅读
笔记】Attack-Resistant Federated Learning with Residual-based Reweighting
个人阅读笔记,如有错误欢迎指出Arxiv2019[1912.11464]Attack-ResistantFederatedLearningwithResidual-basedReweighting(arxiv.org)问题:联邦学习容易受到后门攻击创新:提出一种基于残差的重新加权聚合算法聚合算法将重复中值回归和加权最小二乘中的加权方案相结合方法:1)用重复中值估计回归线2)计算本地模型中第个参数的
MiaZX
·
2023-07-14 03:35
论文笔记
论文阅读
笔记
安全
人工智能
深度学习
WiCo: Win-win Cooperation of Bottom-up and Top-down Referring Image Segmentation
论文阅读
笔记
WiCo:Win-winCooperationofBottom-upandTop-downReferringImageSegmentation
论文阅读
笔记一、Abstract二、引言三、相关工作Top-down
乄洛尘
·
2023-07-14 03:00
RIS_REC
论文阅读
笔记
人工智能
计算机视觉
深度学习
transformer
BUTD
RIS 系列 TransVG++: End-to-End Visual Grounding with Language Conditioned Vision Transformer
论文阅读
笔记
RIS系列TransVG++:End-to-EndVisualGroundingwithLanguageConditionedVisionTransformer
论文阅读
笔记一、Abstract二、引言三
乄洛尘
·
2023-07-14 03:00
RIS_REC
transformer
论文阅读
笔记
跨模态检索
论文阅读
:(PTP)Position-guided Text Prompt for Vision-Language Pre-training
(PTP)Position-guidedTextPromptforVision-LanguagePre-training视觉语言预训练的位置引导文本提示摘要视觉语言预训练(VLP)已经显示出将图像和文本对统一起来的能力,促进了各种跨模态的学习任务。然而,我们注意到,VLP模型往往缺乏视觉基础/定位能力,这对许多下游任务如视觉推理至关重要。在这项工作中,我们提出了一种新的位置引导的文本提示(PTP)
若年封尘
·
2023-07-14 02:54
#
跨模态检索
深度学习
论文阅读
prompt
跨模态检索
PTP
深度学习
论文阅读
笔记(一):Weak Supervision for Fake News Detection via Reinforcement Learning
论文简介:这是一篇AAAI2019年收录的论文,由腾讯微信团队发表,本文主要介绍是用强化学习方法来进行垃圾新闻检测,强化学习可以获得高质量的带有标签的样本,本文提出了一个检测框架,通过微信官方账户实验数据表明,该方法的准确率高于已有的方法。原文地址:https://aaai.org/Papers/AAAI/2020GB/AISI-WangY.213.pdfCSU研一在读,科研萌新一枚,第一次在写论
·
2023-06-24 10:38
DCGAN: Deep Convolutional Generative Adversarial Networks
论文阅读
[toc]1.UnsupervisedRepresentationLearningwithDeepConvolutionalGenerativeAdversarialNetworksarXiv:1511.06434[cs]tensorflow2代码:https://github.com/zhangkaihua88/ML_Paper总结要解决什么问题结合CNN和GAN,提出了具体的实现细节和技巧对C
山雾幻华
·
2023-06-24 07:34
RIS 系列:TransVG: End-to-End Visual Grounding with Transformers
论文阅读
笔记
RIS系列:TransVG:End-to-EndVisualGroundingwithTransformers
论文阅读
笔记一、Abstract二、引言三、相关工作3.1视觉定位两阶段方法单阶段方法3.2Transformer
乄洛尘
·
2023-06-23 19:23
RIS_REC
论文阅读
人工智能
深度学习
计算机视觉
多模态
论文笔记
Isolated and Exhausted:Attacking Operating Systems via Site Isolation in the Browser
论文阅读
笔记
基于站点隔离的操作系统资源耗尽攻击一、预备知识1.1浏览器的同源策略源:Web内容的源由用于访问它的URL的方案(协议)、主机名(域名)和端口定义。只有当协议、主机和端口都匹配时,两个对象才具有相同的源。不同文件路径与是否同源无关,某些操作仅限于同源内容,但可以使用CORS解除这个限制。(跨站资源共享CORS(4条消息)Access-Control-Allow-Origin跨域解决及详细介绍_Mi
叙..
·
2023-06-23 10:46
服务器
运维
【自监督
论文阅读
3】DINOv1
4.1SSLwithKnowledgeDistillation4.2教师网络4.3网络架构4.4避免坍塌五、实验与评估六、消融实验6.1不同组合的重要性6.2教师网络选择的影响6.3避免坍塌6.4在小batch上训练七、结论自监督
论文阅读
系列
hjxu2016
·
2023-06-22 22:58
文献阅读
论文阅读
【自监督
论文阅读
2】MAE
文章目录一、摘要二、引言2.1引言部分2.2本文架构三、相关工作3.1Maskedlanguagemodeling3.2Autoencoding3.3Maskedimageencoding3.4Self-supervisedlearning四、方法4.1Masking4.2MAEencoder4.3MAEdecoder4.4Reconstructiontarget五、主要实验5.1不同mask比例
hjxu2016
·
2023-06-22 22:27
文献阅读
论文阅读
XLINK (SIGCOMM ‘21) MPQUIC多路径传输
论文阅读
笔记
文章目录总结Abstract1Introduction1.1背景1.2挑战1.3XLINK介绍思想&方法优势&提升2Motivation2.1短视频2.2QUIC2.3移动性支持2.45G下的多路径3ExperiencewithVanillaMulti-pathQUIC3.1Vanilla-MPin仿真环境3.3Vanilla-MPin真实环境4XLINKDesignOverview5QoE-Dr
Green Lv
·
2023-06-22 13:12
论文阅读笔记
#
多路径传输
论文阅读
笔记
多路径传输
MPQUIC
QUIC
【目标检测
论文阅读
笔记】RTMDet: An Empirical Study of Designing Real-Time Object Detectors(2022)
Abstract在本文中,我们的目标是设计一种高效的实时物体检测器,它超越了YOLO系列,并且可以轻松扩展到许多物体识别任务,例如实例分割和旋转物体检测。为了获得更高效的模型架构,我们探索了一种在主干和颈部具有兼容能力的架构,该架构由一个由大核深度卷积组成的基本构建块构建。我们在动态标签分配中计算匹配成本时进一步引入软标签以提高准确性。结合更好的训练技术,由此产生的名为RTMDet的目标检测器在N
YoooooL_
·
2023-06-22 05:40
论文阅读笔记
目标检测
论文阅读
深度学习
计算机视觉
论文阅读
笔记3:Patch-NetVLAD
题目:Patch-NetVLAD:Multi-ScaleFusionofLocally-GlobalDescriptorsforPlaceRecognition团队:澳大利亚昆士兰理工大学,电气工程与机器人学院和QUT机器人中心解决的问题:克服视点和外观变化的双重问题创新点:与现有局部关键点特征的固定空间邻域制度不同,我们的方法能够聚集和匹配在特征空间网格上定义的深度学习局部特征。进一步通过完整的
稻壳特筑
·
2023-06-21 18:48
论文阅读
笔记
DALL-E2原理解读——大模型
论文阅读
笔记五
论文:https://cdn.openai.com/papers/dall-e-2.pdf项目:https://openai.com/dall-e-2一.主要思想利用CLIP提取的文本特征,级联式的生成图片。第一阶段通过prior将文本特征与图像特征进行对齐,第二阶段用扩散模型将视觉特征转化为生成图片。整体来看,DALL-E2就是CLIP与扩散模型的结合,因此作者也将其命名为unCLIP。二.算法
CV-deeplearning
·
2023-06-21 12:12
大模型
论文阅读
笔记
BLIP2原理解读——大模型
论文阅读
笔记二
一.论文与代码论文:https://arxiv.org/abs/2301.12597代码:https://github.com/salesforce/LAVIS/tree/main/projects/blip2二.解决问题端到端训练视觉语言模型需要大尺度模型及大规模数据,该过程成本大,本文提出方法基于现有高质量视觉模型及语言大模型进行联合训练,为减少计算量及防止遗忘,作者对预训练模型进行froze
CV-deeplearning
·
2023-06-21 12:41
大模型
论文阅读
笔记
深度学习
MiniGPT-4原理解读——大模型
论文阅读
笔记三
论文:https://arxiv.org/pdf/2304.10592v1.pdf代码:https://github.com/vision-cair/minigpt-4一.作者动机GPT-4展示了非凡的多模态能力,比如直接从手写文本生成网站,以及识别图像中的幽默元素。这些特性在以前的视觉语言模型中很少见。我们认为GPT-4具有先进的多模态生成能力的主要原因在于利用了更先进的大型语言模型(LLM)。
CV-deeplearning
·
2023-06-21 12:41
大模型
论文阅读
笔记
Visual ChatGPT原理解读——大模型
论文阅读
笔记四
论文:https://arxiv.org/abs/2303.04671代码:https://github.com/microsoft/TaskMatrix一.整体框架如图所示,用户上传一张黄花的图像并输入一个复杂的语言指令“请根据该图像的预测深度生成一朵红花,然后逐步使其像卡通一样”。在交互管理器的帮助下,VisualChatGPT开始了相关视觉基础模型的执行链。在示例条件下,它首先应用深度估计模
CV-deeplearning
·
2023-06-21 12:11
大模型
chatgpt
论文阅读
笔记
论文阅读
笔记2:NetVLAD
题目:NetVLAD:CNNArchitectureforWeaklySupervisedPlaceRecognition:、团队:PSLResearchUniversity/TokyoInstituteofTechnology解决的问题:我们解决了大规模视觉位置识别的问题,其任务是快速准确地识别给定查询照片的位置创新点:这篇文章主要有3个创新点:1.为场景识别任务构造出了一个可以直接端到端训练的
稻壳特筑
·
2023-06-21 06:02
深度学习
计算机视觉
神经网络
【
论文阅读
】用于大型城市场景的网格引导神经辐射场
【
论文阅读
】用于大型城市场景的网格引导神经辐射场Abstract1.Introduction2.RelatedWorksandBackground大规模场景重建和渲染体积场景表示大尺度NeRF3.Grid-guidedNeuralRadianceFields3.1
WoooChi
·
2023-06-21 04:47
3D
论文阅读
人工智能
计算机视觉
论文阅读
笔记4:DenseVLAD
论文题目:DenseVLAD:AllaboutVLAD团队:牛津视觉组2013年发表于CVPR解决的问题:在给定查询图像的情况下进行大规模对象实例检索。本文的重点是超大规模的检索,由于存储要求,需要非常紧凑的图像描述符,并且在运行时无法直接访问有关原始SIFT描述符的信息。创新点:1.词典自适应:假定由一个数据集聚类得到一个词典,当前有一个新的数据集。词典自适应是如何利用已有的词典,描述新的数据集
稻壳特筑
·
2023-06-20 21:09
论文阅读
人工智能
计算机视觉
论文阅读
笔记1:MultiRes-NetVLAD
题目:MultiRes-NetVLAD:AugmentingPlaceRecognitionTrainingWithLow-ResolutionImagery团队:QueenslandUniversityofTechnology解决的问题:1.使用低分辨率图像金字塔编码来增强NetVLAD表示学习,从而获得更丰富的位置表示。2.避免了在最近的多尺度方法中对多个patch进行拼接或求和的需要。创新点
稻壳特筑
·
2023-06-20 21:07
论文阅读
笔记
上一页
32
33
34
35
36
37
38
39
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他