—第1篇----
关键词: 手势识别, 计算机视觉, 低光照条件, 机器学习, Raspberry Pi, OpenCV
论文链接 - 摘要: 手势识别是一种基于计算机视觉技术的感知用户界面,允许计算机将人类动作解释为命令,使用户无需使用手与计算机交流,从而使鼠标和键盘变得多余。手势识别的主要弱点是光线条件,因为手势控制依赖于摄像头。摄像头用于在2D和3D中解释手势,因此提取的信息可能因光源而异。系统的限制是无法在黑暗环境下工作。可以使用简单的夜视摄像头作为我们的动作捕捉摄像头,因为它们也会发出不可见于人类的红外光,但可以被没有红外滤镜的摄像头清晰地看到,这在很大程度上克服了系统在黑暗环境下无法工作的限制。因此,摄像头的视频流被输入到运行着Python程序和OpenCV模块的Raspberry Pi中,该模块用于检测、隔离和跟踪动态手势的路径,然后我们使用机器学习算法识别所绘制的模式,并相应地控制Raspberry Pi的GPIO来执行一些活动。
总结: 本文提出了利用夜视摄像头和机器学习算法在低光照条件下实现高效手势识别的方法。
【arXiv:2501.04002v1】
【领域:计算机视觉, 机器学习, 嵌入式系统】
[推荐指数:4]
推荐理由
该研究通过结合夜视技术和机器学习,成功解决了低光照环境下手势识别的挑战,具有重要的实际应用价值。
—第2篇----
=====
关键词: 计算机视觉, 多模态, 语言模型, 图像理解, 视频理解
Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos - 摘要: 本研究提出了Sa2VA,这是第一个统一的模型,旨在对图像和视频进行密集的基础理解。与现有的多模态大型语言模型不同,Sa2VA支持广泛的图像和视频任务,包括指称分割和对话,并且仅需最小的一次指令调整。Sa2VA结合了SAM-2,一个基础的视频分割模型,与LLaVA,一个先进的视觉语言模型,并将文本、图像和视频统一到共享的LLM标记空间中。利用LLM,Sa2VA生成指导SAM-2产生精确遮罩的指令标记,实现了对静态和动态视觉内容的基础、多模态理解。此外,我们引入了Ref-SAV,这是一种自动标注的数据集,包含超过72k个复杂视频场景中的对象表达,旨在提升模型性能。我们还手动验证了Ref-SAV数据集中的2k视频对象,以基准复杂环境中的视频对象指称分割。实验证明,Sa2VA在多个任务中实现了最先进的性能,特别是在视频对象指称分割方面,突显了其在复杂现实世界应用中的潜力。
总结: Sa2VA是一种统一的多模态模型,能够实现对图像和视频的精确而深入的理解,适用于多种复杂任务。
###【arXiv:2501.04001v1】
###【git】
###【期刊】
###【领域】计算机视觉
[推荐指数:5]
推荐理由
Sa2VA在图像和视频的密集理解任务中实现了最先进的性能,展示了其在复杂实际应用中的巨大潜力,适合深入研究。
—第3篇----
=====
关键词: 计算机科学,机器学习,计算机视觉,信息检索,信息技术
链接1 - 摘要: 检索增强生成(RAG)通过使用外部知识指导响应生成,减少了大型语言模型(LLM)的幻觉现象。然而,RAG,特别是多模态RAG,可能引入新的幻觉来源:(i)检索过程可能从数据库中选择不相关的文档或图像作为上下文,以及(ii)检索到的图像通过视觉语言模型(VLM)转换为文本上下文或直接由多模态语言模型(MLLM)如GPT-4使用,这可能导致幻觉。为此,我们提出了一个新框架,通过两个性能指标来评估多模态RAG的可靠性:(i)相关性评分(RS),评估检索条目与查询的相关性,以及(ii)正确性评分(CS),评估生成响应的准确性。我们使用ChatGPT生成的数据库和人工评估样本训练RS和CS模型。结果显示,两种模型在测试数据上的准确率约为88%。此外,我们构建了一个包含5000个样本金的人类注释数据库,用于评估检索片段的相关性和响应陈述的正确性。我们的RS模型在检索时与人类偏好一致的概率比CLIP高20%,我们的CS模型与人类偏好一致的概率约为91%。最后,我们使用RS和CS评估了各种RAG系统的选择和生成性能。 总结: 本文提出了一个评估多模态RAG系统可靠性的框架,并通过实验证明其在提升检索相关性和生成准确性方面的有效性。
###【arXiv编号】2501.03995v1
###【git】
###【期刊】
###【领域】计算机科学,机器学习,计算机视觉,信息检索,信息技术
[推荐指数:4]
推荐理由
该研究通过构建人类注释数据库和开发相关性及正确性评分模型,有效提升了多模态RAG系统的可靠性,对于自然语言处理和信息检索领域具有重要的应用价值。
—第4篇----
=====
关键词: cs.CV, cs.LG, cs.RO
LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving - 摘要: 最近在视觉基础模型(VFMs)方面的进展彻底改变了二维视觉感知,但其在三维场景理解,尤其是在自动驾驶应用中的潜力仍未被充分探索。本文介绍了LargeAD,这是一种多功能且可扩展的框架,旨在跨多样化的真实世界驾驶数据集进行大规模三维预训练。我们的框架利用VFMs从二维图像中提取语义丰富的超像素,并与LiDAR点云对齐以生成高质量的对比样本。这种对齐促进了跨模态表示学习,增强了二维和三维数据之间的语义一致性。我们引入了几个关键创新:i)基于VFM的超像素生成以实现详细的语义表示,ii)VFM辅助的对比学习策略以对齐多模态特征,iii)超点时间一致性以保持跨时间的稳定表示,以及iv)多源数据预训练以在各种LiDAR配置中实现泛化。我们的方法在LiDAR基于分割和目标检测的线性探测和微调任务中显著优于最先进的方法。在十一种大规模多模态数据集上的广泛实验展示了我们的方法在真实世界自动驾驶场景中的适应性、效率和鲁棒性。
总结: LargeAD框架通过跨模态对齐和多源数据预训练,显著提升了自动驾驶中三维场景理解的性能。
###【arXiv编号】2501.04005v1
###【git】无
###【期刊】arXiv预印本
###【领域】计算机视觉, 机器学习, 机器人
[推荐指数:5]
推荐理由
该研究提出了创新的跨传感器预训练框架,显著提升了自动驾驶中三维场景理解的能力,具备广泛的实际应用前景和较高的学术价值。
—第5篇----
=====
关键词: cs.CV, cs.LG, cs.RO
LiMoE: Mixture of LiDAR Representation Learners from Automotive Scenes - 摘要: LiDAR数据预训练提供了一种有前景的方法,利用大规模且现成的数据集来增强数据的利用。然而,现有方法主要集中在稀疏体素表示,忽略了其他LiDAR表示所提供的互补属性。在本研究中,我们提出了LiMoE,这是一种将专家混合(MoE)范式集成到LiDAR数据表示学习中的框架,以协同结合多种表示,如范围图、稀疏体素和原始点。我们的方法包括三个阶段:i) 图像到LiDAR的预训练,将图像的先验知识转移到不同表示的点云中;ii) 对比混合学习(CML),利用MoE自适应地激活每种表示的相关属性,并将这些混合特征蒸馏到统一的3D网络中;iii) 语义混合监督(SMS),结合多种表示的语义逻辑以提升下游的分割性能。我们在11个大规模LiDAR数据集上的广泛实验展示了我们方法的有效性和优越性。代码和模型检查点已公开。
总结: LiMoE通过整合多种LiDAR表示和专家混合机制,显著提升了自动驾驶场景中的数据表示学习效果。
###【arXiv:2501.04004v1】
###【git】
###【期刊】
###【领域】计算机视觉、机器学习、机器人技术
[推荐指数:5]
推荐理由
LiMoE在多种LiDAR表示的融合和专家混合机制的应用上表现出色,通过在多个大规模数据集上的验证,显著提升了自动驾驶和智慧交通领域的数据处理与应用效果。
—第6篇----
=====
关键词: 视觉-语言模型, 自动驾驶, DriveBench, 可靠性, 多模态理解
Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives - 摘要: 最近在视觉-语言模型(VLMs)领域的进展引发了对其在自动驾驶中应用的兴趣,特别是在通过自然语言生成可解释的驾驶决策方面。然而,VLMs在自动驾驶中本质上提供视觉基础的、可靠的和可解释的解释的假设尚未得到充分检验。为了解决这一问题,我们引入了DriveBench,这是一个旨在评估VLM在17种设置(干净、损坏和仅文本输入)下的可靠性的基准数据集,涵盖19,200帧、20,498个问答对、三种问题类型、四个主流驾驶任务和12个流行的VLM。我们的研究发现,VLM往往生成基于常识或文本线索的合理响应,而非真正的视觉基础,特别是在视觉输入受损或缺失的情况下。这种行为被数据集不平衡和评估指标不足所掩盖,在像自动驾驶这样的安全关键场景中带来了重大风险。我们进一步观察到,VLM在多模态推理方面存在困难,并且对输入损坏表现出高度敏感,导致性能不一致。为应对这些挑战,我们提出了优先考虑稳健视觉基础和多模态理解的精细评估指标。此外,我们强调了利用VLM对损坏的感知来增强其可靠性的潜力,为在现实世界的自动驾驶环境中开发更可信和可解释的决策系统提供了路线图。基准工具包已经公开可用。
总结: 本文通过DriveBench基准数据集评估了视觉-语言模型在自动驾驶中的可靠性,发现其在视觉基础和多模态理解方面存在显著不足,并提出了改进的评估指标和策略以提高其可信度。
【arXiv编号】2501.04003v1
【git】
【期刊】无
【领域】计算机视觉, 机器人学
[推荐指数:4]
推荐理由
该研究深入评估了视觉-语言模型在自动驾驶中的应用可靠性,揭示了其在关键任务中的局限性,并提供了改进方向,对于推动自动驾驶领域的研究具有重要参考价值。
—第7篇----
关键词: 计算机视觉
http://arxiv.org/pdf/2501.03992v1 - 摘要: 向量图形在设计中至关重要,能够为艺术家提供创建分辨率独立和高度可编辑的视觉内容的多功能媒介。近期在视觉语言和扩散模型方面的进展激发了对从文本生成向量图形的兴趣。然而,现有方法常常因为输出过度参数化或将分层结构——向量图形的核心特征——视为次要目标,从而降低其实用性。鉴于分层SVG表示的重要性,我们提出了NeuralSVG,一种用于从文本提示生成向量图形的隐式神经表示。受神经辐射场(NeRFs)的启发,NeuralSVG将整个场景编码到一个小型多层感知器(MLP)网络的权重中,并使用分数蒸馏采样(SDS)进行优化。为了鼓励生成的SVG具有分层结构,我们引入了一种基于丢弃的正则化技术,以增强每个形状的独立意义。我们还展示了利用神经表示在推理时进行控制的额外好处,使用户能够基于用户提供的输入动态调整生成的SVG,所有这些都通过一个单一的学习表示来实现。通过广泛的定性和定量评估,我们证明NeuralSVG在生成结构化和灵活的SVG方面优于现有方法。 总结: NeuralSVG通过隐式神经表示和正则化技术从文本生成结构化且灵活的向量图形,表现优于现有方法。
###【arXiv:2501.03992v1】
###【git:】
###【期刊:】
###【领域: 计算机视觉】
[推荐指数:4]
推荐理由
NeuralSVG在文本到向量生成方面提供了创新的方法,能够生成结构化且灵活的SVG图形,显示出优于现有方法的性能。
—第8篇----
=====
关键词: eess.IV, cs.CV, cs.LG
ImageFlowNet: Forecasting Multiscale Image-Level Trajectories of Disease Progression with Irregularly-Sampled Longitudinal Medical Images - 摘要: 随着医疗影像技术的进步,能够收集纵向图像数据,这涉及对同一患者进行多次扫描以监测疾病进展。然而,由于高维度、不规则采样和数据稀疏性,此类数据的预测建模仍然具有挑战性。为了解决这些问题,我们提出了ImageFlowNet,一种新型模型,旨在从初始图像中预测疾病轨迹,同时保持空间细节。ImageFlowNet首先在跨患者和时间点的多尺度联合表示空间中学习,然后使用位置参数化的神经常微分方程/随机微分方程框架在这些空间内优化确定性或随机流场。该模型利用UNet架构创建稳健的多尺度表示,并通过结合所有患者的知识来减轻数据稀缺性。我们提供了支持我们ODE形式化的理论见解,并激发了涉及高级视觉特征、潜在空间组织和轨迹平滑性的正则化。我们在三个描绘地理性萎缩、多发性硬化和胶质母细胞瘤进展的纵向医疗图像数据集上验证了ImageFlowNet,证明其能够有效预测疾病进展并优于现有方法。我们的贡献包括ImageFlowNet的开发、其理论基础和在真实世界数据集上的实证验证。官方实现可在https://github.com/KrishnaswamyLab/ImageFlowNet 获取。
总结: ImageFlowNet通过多尺度联合表示和神经ODE/SDE框架,在不规则采样的纵向医疗图像中有效预测疾病进展轨迹,优于现有方法。
###【arXiv编号】 arXiv:2406.14794v5
###【git】 https://github.com/KrishnaswamyLab/ImageFlowNet
###【期刊】
###【领域】 计算机视觉、机器学习、医疗影像分析
[推荐指数:5]
推荐理由
该研究提出的ImageFlowNet模型在真实医疗图像数据集上展现出卓越的预测性能,并提供了坚实的理论基础和实证验证,具有高度的研究和应用价值。
—第9篇----
=====
关键词: 视觉语言模型, 行为树, 语境感知, 任务规划, 机器人学
VLM-driven Behavior Tree for Context-aware Task Planning - 摘要: 近年来,机器人社区对利用大型语言模型(LLMs)生成行为树(BTs)的研究引起了关注,但仍处于初步发展阶段。本文提出了一个新颖的框架,利用视觉语言模型(VLMs)交互式地生成和编辑处理视觉条件的行为树,使机器人能够在视觉复杂的环境中进行语境感知的操作。我们方法的一个关键特点在于通过自发生成的视觉条件进行条件控制。具体而言,VLM生成带有视觉条件节点的行为树,其中条件以自由形式的文本表达。另一个VLM过程将文本整合到其提示中,并在机器人执行期间根据现实世界的图像评估这些条件。我们在真实的咖啡馆场景中验证了我们的框架,展示了其可行性和局限性。 总结: 我们提出了一种利用视觉语言模型生成和编辑行为树的新框架,实现了机器人在复杂视觉环境中的语境感知任务规划。
###【arXiv编号】: 2501.03968v1
###【领域】: 计算机科学 - 机器人学、人工智能、计算机视觉、人机交互
[推荐指数:4]
推荐理由
本文提出了利用视觉语言模型生成和编辑行为树的创新框架,有助于提升机器人在复杂环境中的任务规划与执行能力。
=====
—第10篇----
=====
关键词: 新生儿心脏超声图像, 视角分类, 时序特征编织, CNN-GRU架构, 数据集
PDF链接 - 摘要: 自动化心脏超声图像的视角分类可以帮助资源不足的诊所和医院在缺乏专业技术人员的情况下更快地进行诊断和筛查。我们提出了一种新颖的心脏超声图像视角分类方法。我们表明,将视角分类视为视频分类而非图像分类具有优势。我们提出了一种具有新颖时序特征编织方法的CNN-GRU架构,该方法利用空间和时序信息,相比基线图像分类准确率提高了4.33%,同时仅使用四帧连续图像。所提出的方法几乎没有增加计算开销。此外,我们发布了新生儿心脏超声数据集(NED),该数据集由专业人员标注,提供了十六个视角和相关的心脏超声视频,以鼓励该领域未来的工作和发展。代码可在以下链接获得:https://github.com/satchelfrench/NED
总结: 该研究通过创新的模型架构提升了心脏超声图像视角分类的准确性,并提供了一个专业标注的数据集,促进了相关领域的研究发展。
###【arXiv编号】arXiv:2501.03967v1
###【git】https://github.com/satchelfrench/NED
###【期刊】未指定
###【领域】计算机视觉
[推荐指数:4]
推荐理由
本研究提出了创新的CNN-GRU架构和时序特征编织方法,有效提升了心脏超声图像视角分类的准确性,同时发布了专业标注的数据集,为相关领域的研究和应用提供了重要资源。
—第11篇----
=====
关键词: 视觉语言模型, 价值检测, 人机交互, 计算机视觉
Vision Language Models as Values Detectors - 摘要: 大型语言模型整合了文本和视觉输入,为解释复杂数据带来了新的可能性。尽管它们在基于视觉刺激生成连贯且上下文相关的文本方面表现出色,但这些模型在与人类感知对齐以识别图像中相关元素方面仍需进一步探索。本文研究了最先进的LLMs与人类注释者在检测家庭环境场景中相关元素的一致性。我们创建了一组十二张描绘各种家庭场景的图像,并邀请了十四位注释者识别每张图像中的关键元素。然后,我们将这些人类反应与包括GPT-4o和四种LLaVA变体在内的五种不同LLMs的输出进行了比较。研究发现一致程度各不相同,LLaVA 34B表现最佳但仍得分较低。然而,结果分析强调了模型在检测图像中含价值元素方面的潜力,表明通过改进训练和优化提示,LLMs可以通过提供更深入的见解和更上下文相关的响应来增强社交机器人、辅助技术和人机交互的应用。
总结: 本研究评估了先进视觉语言模型在识别图像关键元素上的表现,并指出其在社交机器人和辅助技术等领域的应用潜力。
###【arXiv编号】2501.03957v1
###【git】
###【期刊】
###【领域】人机交互, 计算机视觉
[推荐指数:4]
推荐理由
该研究深入探讨了视觉语言模型在与人类感知对齐方面的表现,揭示了其在增强智能应用中的潜力,具有较高的学术和应用价值。
=====
—第12篇----
=====
关键词: 计算机视觉, 状态空间模型, 频域学习, 快速傅里叶变换, 视觉表征
链接1 - 摘要: 近年来,具有高效硬件感知设计的状态空间模型(SSMs),即Mamba深度学习模型,在建模长序列(如语言理解)方面取得了显著进展。因此,基于SSMs构建高效且通用的视觉骨干网是一个有前景的方向。与传统的卷积神经网络(CNNs)和视觉变换器(ViTs)相比,视觉Mamba(ViM)方法的性能尚未完全具有竞争力。为了使SSMs能够处理图像数据,ViMs通常将二维图像展平为一维序列,不可避免地忽略了一些二维局部依赖,从而削弱了模型从全局角度解释空间关系的能力。我们使用快速傅里叶变换(FFT)获取特征图的谱,并将其添加到原始特征图中,使ViM能够在频域和空间域中建模统一的视觉表示。频域信息的引入使ViM在扫描过程中具有全局感受野。我们提出了一种名为Vim-F的新模型,它采用纯Mamba编码器,并在频域和空间域中进行扫描。此外,我们质疑ViM中位置嵌入的必要性,并在Vim-F中相应地移除了它,这有助于充分利用ViM高效的长序列建模能力。最后,我们重新设计了Vim-F的补丁嵌入,利用卷积干茎捕捉更多的局部相关性,进一步提高了Vim-F的性能。代码可在: https://github.com/yws-wxs/Vim-F 获得。 总结: Vim-F通过结合频域信息和空间域扫描,改进了视觉Mamba模型在计算机视觉中的性能。
###【arXiv编号】2405.18679v2
###【git】https://github.com/yws-wxs/Vim-F
###【期刊】未发表
###【领域】计算机视觉
[推荐指数:5]
推荐理由
Vim-F提出了一种创新的方法,将频域信息与状态空间模型相结合,显著提升了视觉模型在捕捉全局和局部特征方面的能力,具有广泛的应用前景。
—第13篇----
=====
关键词: 视觉问答, 多模态学习, 深度学习, 大型视觉语言模型
Visual question answering: from early developments to recent advances – a survey - 摘要: 视觉问答(VQA)是一个不断发展的研究领域,旨在通过整合图像和语言处理技术,如特征提取、物体检测、文本嵌入、自然语言理解和语言生成,使机器能够回答有关视觉内容的问题。随着多模态数据研究的增长,VQA受到了显著关注,因其广泛的应用,包括互动教育工具、医疗图像诊断、客户服务、娱乐和社交媒体字幕。此外,VQA在通过从图像中生成描述性内容来辅助视障人士方面发挥了重要作用。本调查引入了VQA架构的分类法,根据设计选择和关键组件进行分类,以促进比较分析和评估。我们回顾了主要的VQA方法,重点关注基于深度学习的方法,并探讨了在如VQA等多模态任务中表现出成功的巨大视觉语言模型(LVLMs)。本文进一步审查了可用的数据集和衡量VQA系统性能的评估指标,随后探索了VQA的实际应用。最后,我们强调了VQA研究中正在进行的挑战和未来方向,提出了开放性问题和潜在的进一步发展领域。本调查为对最新进展和未来发展感兴趣的研究人员和从业者提供了全面的资源。
总结: 本文全面回顾了视觉问答领域的发展、主要方法和应用,并探讨了未来研究方向。
###【arXiv编号】2501.03939v1
###【git】无
###【期刊】无
###【领域】计算机视觉, 多媒体
[推荐指数:4]
推荐理由
该综述详细介绍了视觉问答领域的最新进展和未来方向,对研究人员和从业者具有重要参考价值。
—第14篇----
关键词: Gaussian Building Mesh (GBM): Extract a Building’s 3D Mesh with Google Earth and Gaussian Splatting
链接1 - 摘要: 最近发布的开源预训练基础图像分割和目标检测模型(SAM2+GroundingDINO)允许在多视角2D图像中对感兴趣的对象进行几何一致的分割。用户可以使用基于文本或基于点击的提示来分割感兴趣的对象,而无需标注训练数据集。Gaussian Splatting 允许基于2D图像学习场景几何和辐射的3D表示。结合Google Earth Studio、SAM2+GroundingDINO、2D Gaussian Splatting,以及我们在基于形态学操作和轮廓简化的掩模优化方面的改进,我们创建了一个管道,可以基于建筑物的名称、地址或地理坐标提取任何建筑物的3D网格。
总结: 本文提出了一种利用Google Earth和Gaussian Splatting从2D图像中提取建筑物3D网格的高效方法。
###【arXiv编号】2501.00625v2
###【git】
###【期刊】
###【领域】计算机视觉, 计算机图形学
[推荐指数:4]
推荐理由
该研究结合先进的图像分割和3D表示技术,为建筑物的3D建模提供了高效且实用的方法,具备广泛的应用潜力。
—第15篇----
=====
关键词: CoStruction, 辐射场优化, 城市场景重建, 图像重叠限制, 隐式表面重建
CoStruction: Conjoint radiance field optimization for urban scene reconStruction with limited image overlap - 摘要: 从记录的驾驶序列重建周围的表面几何在城市环境中由于有限的图像重叠和复杂的拓扑结构而面临重大挑战。当前最先进的神经隐式表面重建方法在这种情况下往往表现不佳,要么因视觉重叠少而失败,要么在准确重建表面和细节结构方面表现次优。为了解决这些限制,我们引入了CoStruction,这是一种新颖的混合隐式表面重建方法,专为具有有限相机重叠的大型驾驶序列设计。CoStruction利用跨表示不确定性估计来过滤由于有限观测引起的模糊几何。我们的方法通过联合优化两个辐射场以及引导采样,实现了在复杂城市场景中大面积和细致结构的准确重建。在主要驾驶数据集上的广泛评估表明,我们的方法在重建具有有限图像重叠的大规模驾驶序列方面优于当前最先进的方法。
总结: CoStruction通过联合优化辐射场和引导采样,成功提升了有限图像重叠下城市场景的大规模和细致结构重建效果。
###【arXiv编号】2501.03932v1
###【git】无
###【期刊】无
###【领域】计算机视觉、智慧交通
[推荐指数:4]
推荐理由
该研究提出了一种创新的隐式表面重建方法,能够在复杂城市场景中有效处理有限图像重叠问题,显著提升了大规模和细节结构的重建精度,对自动驾驶和智慧交通具有重要应用价值。
—第16篇----
=====
关键词: 视频生成, 身份保持, 视频扩散模型, 计算机视觉
PDF链接 - 摘要: 我们提出了Magic Mirror,一个用于生成保持身份一致、具有电影级质量和动态运动的视频的框架。虽然最近的视频扩散模型在文本到视频生成方面表现出色,但在生成自然运动的同时保持身份一致性仍然具有挑战性。以往的方法要么需要针对特定人物进行微调,要么难以平衡身份保持与运动多样性。基于视频扩散变压器,我们的方法引入了三个关键组件:(1) 一个双分支的人脸特征提取器,用于捕捉身份和结构特征;(2) 一个轻量级的跨模态适配器,采用条件自适应归一化,实现高效的身份整合;(3) 一个结合合成身份对和视频数据的两阶段训练策略。大量实验证明,Magic Mirror有效地平衡了身份一致性和自然运动,在多个指标上优于现有方法,同时增加的参数极少。代码和模型将公开发布在:https://github.com/dvlab-research/MagicMirror/
总结: Magic Mirror框架在保持身份一致性的同时,实现了高质量和动态的视频生成,优于现有技术。
###【arXiv编号】2501.03931v1
###【git】https://github.com/dvlab-research/MagicMirror/
###【期刊】
###【领域】计算机视觉,视频生成
[推荐指数:5]
推荐理由
该论文提出了创新性的Magic Mirror框架,能够有效生成高质量且身份一致的视频,具有重要的研究和应用价值。
—第17篇----
=====
关键词: 神经退行性疾病, 单核RNA测序, 神经网络, 可解释人工智能, SHAP, 基因集富集分析, 亨廷顿病
链接1 - 摘要: 神经退行性疾病(NDDs)机制复杂且缺乏有效治疗手段,原因在于其机制尚不清楚。日益广泛使用的单核RNA测序(snRNA-seq)数据分析允许在单细胞水平上探索转录组事件,但在解释疾病基础机制方面面临挑战。另一方面,神经网络(NN)模型可以处理复杂数据以提供洞见,但被视为黑盒,具有较差的可解释性。在此背景下,可解释AI(XAI)作为一种解决方案,结合高效的NN模型可以帮助理解与疾病相关的机制。然而,有限的研究探索了XAI在单细胞数据中的应用。在本研究中,我们实施了一种基于NN模型与SHAP相结合的方法,以识别与疾病相关的基因和疾病进展的机制解释。我们分析了可用的亨廷顿病(HD)数据,通过比较两种方法——差异基因表达分析(DGE)和结合NN与SHAP的方法,利用基因集富集分析(GSEA)来识别HD改变的基因和机制。我们的结果显示,DGE和SHAP方法提供了共同和不同的改变基因和路径集,强化了XAI方法在疾病更广泛视角下的有用性。 总结: 该研究实施了结合NN和SHAP的可解释AI方法,成功识别和解释了亨廷顿病相关的基因及其机制。
###【arXiv编号】2501.03923v1
###【git】
###【期刊】
###【领域】计算机视觉, 机器学习, 基因组学
[推荐指数:4]
推荐理由
该研究结合可解释AI与单细胞RNA测序数据,提供了理解神经退行性疾病机制的新方法,具有较高的学术价值。
—第18篇----
=====
关键词: Dolphin, 自动研究, 人工智能
Dolphin: Closed-loop Open-ended Auto-research through Thinking, Practice, and Feedback - 摘要: 科学研究范式正在因人工智能的发展而发生深刻变革。最近的研究表明,各种 AI 辅助的研究方法通过改善数据分析、加速计算和促进新思想的生成,极大地提高了研究效率。为了进一步迈向终极目标(即自动化科学研究),本文提出了 Dolphin,这是第一个闭环开放式自动研究框架,能够构建人类科学研究的整个过程。Dolphin 能够生成研究思想、执行实验,并从实验结果中获取反馈以生成更高质量的思想。具体而言,Dolphin 首先根据按主题和任务属性排名的相关论文生成新颖的想法。然后,代码会自动生成并通过基于异常回溯的局部代码结构进行调试。最后,Dolphin 自动分析每个想法的结果,并将结果反馈到下一轮的想法生成。实验在不同主题的基准数据集上进行,结果表明 Dolphin 能够持续生成新颖的想法并在循环中完成实验。我们强调,Dolphin 能够自动提出在某些任务(如二维图像分类和三维点分类)中与最先进水平相当的方法。
总结: Dolphin 作为首个闭环开放式自动研究框架,能够持续生成新颖研究思想并自动执行实验,推动自动化科学研究的发展。
###【arXiv:2501.03916v1】
###【git】
###【期刊】
###【领域】
人工智能、自然语言处理、计算机视觉
[推荐指数:5]
推荐理由
Dolphin 框架通过闭环系统实现自动生成研究思想和实验,展示了在自动化科学研究领域的创新潜力,并在图像分类任务中达到先进水平,具有重要的学术价值和应用前景。
—第19篇----
=====
关键词: 虚拟试衣, 显式变形, 隐式变形, 混合方法
HYB-VITON PDF - 摘要: 虚拟试衣系统在电子商务中具有显著潜力,允许客户在自身形象上可视化服装。现有的基于图像的方法主要分为两类:直接将服装图像扭曲到人像图上(显式变形)和使用交叉注意力重建给定服装(隐式变形)。显式变形能够保留服装细节,但通常生成不够真实的结果,而隐式变形则实现了更自然的重建,但在细节处理上存在不足。我们提出了HYB-VITON,这是一种结合两种方法优点的新方法,包括用于扭曲服装的预处理流程和一种新的训练选项。这些组件使我们能够利用显式变形中有益的区域,同时利用隐式变形的自然重建能力。一系列实验表明,HYB-VITON在保留服装细节方面优于最近的基于扩散的方法,同时在生成结果的真实感上优于最先进的显式变形方法。 总结: HYB-VITON通过结合显式与隐式变形方法,在虚拟试衣系统中实现了更细致且逼真的服装重建效果。
###【arXiv:2501.03910v1】
###【领域: 计算机视觉】
###【推荐指数:4】
—第20篇----
=====
关键词: 计算机视觉, 计算语言学
链接1 - 摘要: 最近在指令调优的大型视觉语言模型(LVLMs)方面取得了进展,使这些模型能够轻松生成高级的、基于图像的解释。这样的能力主要归功于大型语言模型(LLMs)中丰富的世界知识,但我们的工作揭示了它们在六个不同基准设置下在细粒度视觉分类(FGVC)方面的不足。大多数最新的最先进的LVLMs,如LLaVa-1.5、InstructBLIP和GPT-4V,不仅在分类性能上严重下降,例如,LLaVa-1.5在斯坦福狗数据集上的平均EM降低了65.58,而且尽管它们能够生成整体的图像级描述,但在根据输入图像中出现的概念生成具有详细属性的准确解释方面也存在困难。深入分析表明,指令调优的LVLMs存在模态差距,当给出对应于相同概念的文本和视觉输入时表现出差异,阻碍了图像模态利用LLMs中丰富的参数知识。为了进一步推动社区在这方面的努力,我们提出了一个多粒度属性中心的评估基准Finer,旨在建立一个评估LVLMs细粒度视觉理解能力并提供显著改进的可解释性的基础。 总结: 本文提出了多粒度属性评估基准Finer,以评估和改进大型视觉语言模型在细粒度视觉理解和解释方面的能力。
###【arXiv编号】2402.16315v4
###【git】
###【期刊】
###【领域】计算机视觉, 计算语言学
[推荐指数:4]
=====
—第21篇----
=====
关键词: cs.CV, cs.AI, cs.CL
LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token - 摘要: 实时大型多模态模型(LMMs),如GPT-4o的出现,引发了对高效LMMs的广泛关注。LMM框架通常将视觉输入编码为视觉tokens(连续表示),并将其与文本指令集成到大型语言模型(LLMs)的上下文中。然而,大规模的参数和大量的上下文tokens(主要是视觉tokens)导致了显著的计算开销。以往针对高效LMM的努力总是集中在用更小的模型替换LLM骨干网络,忽视了tokens数量这一关键问题。本文介绍了LLaVA-Mini,一种具有最少视觉tokens的高效LMM。为了在保留视觉信息的同时实现视觉tokens的高压缩率,我们首先分析了LMMs如何理解视觉tokens,并发现大多数视觉tokens只在LLM骨干网络的早期层中发挥关键作用,主要将视觉信息融合到文本tokens中。基于这一发现,LLaVA-Mini引入了模态预融合,提前将视觉信息融合到文本tokens中,从而促进了输入到LLM骨干网络的视觉tokens极限压缩为一个token。LLaVA-Mini是一个统一的大型多模态模型,能够高效地支持图像、高分辨率图像和视频的理解。通过在11个基于图像和7个基于视频的基准测试上的实验,结果表明LLaVA-Mini仅使用1个视觉token(而不是576个)就超过了LLaVA-v1.5。效率分析显示,LLaVA-Mini可以减少77%的FLOPs,在40毫秒内提供低延迟响应,并在配备24GB内存的GPU硬件上处理超过10,000帧的视频。 总结: LLaVA-Mini通过模态预融合技术显著压缩视觉tokens数量,实现高效的大型多模态模型,同时保持卓越的性能。
###【arXiv编号】2501.03895v1
###【git】
###【期刊】
###【领域】计算机视觉、人工智能、计算语言学
[推荐指数:4]
=====
—第22篇----
=====
关键词: 深度学习, 计算病理学, 弱监督语义分割, 超像素, 分类激活图
Superpixel Boundary Correction for Weakly-Supervised Semantic Segmentation on Histopathology I