视觉Transformer 第8页

Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model

XmodelVLM：一种多模态视觉语言模型的简单基线摘要1引言2相关工作3模型架构4实验5消融研究6结论摘要我们介绍了XmodelVLM，一种前沿的多模态视觉语言模型。

UnknownBody·2025-02-23 14:58

基于Roboflow平台的数据集导出与YOLOv8目标检测训练实战

本专栏专为AI视觉领域的爱好者和从业者打造。涵盖分类、检测、分割、追踪等多项技术，带你从入门到精通！后续更有实战项目，助你轻松应对面试挑战！立即订阅，开启你的YOLOv8之旅！

步入烟尘·2025-02-23 12:49

人工智能：从基础到前沿

强化学习4.深度学习4.1深度学习概述4.2神经网络基础4.3卷积神经网络（CNN）4.4循环神经网络（RNN）5.自然语言处理（NLP）5.1NLP概述5.2文本预处理5.3词嵌入5.4语言模型6.计算机视觉

顾漂亮·2025-02-23 12:15

2025最新Python机器视觉实战：基于OpenCV与YOLOv8的实时目标检测与跟踪（附完整代码）

emmm形成中·2025-02-23 11:13

大模型WebUI：Gradio全解11——使用transformers.agents构建Gradio UI（3）

大模型WebUI：Gradio全解11——使用transformers.agents构建GradioUI（3）前言本篇摘要11.使用transformers.agents构建GradioUI11.3创建和使用工具

龙焰智能·2025-02-23 11:10

人工神经网络ANN入门学习笔记

侵权删）：【ANN回归预测】基于ANN实现多变量预测附Matlab代码_ann实现回归-CSDN博客ANN人工神经网络：从基础认知到现实理解-CSDN博客常用神经网络-ANN/CNN/RNN/GAN/Transformer_a

cs_ning·2025-02-23 10:02

C语言图像处理技术：从基础到高级应用

本文还有配套的精品资源，点击获取简介：C语言在图像处理领域拥有丰富的应用，涉及计算机视觉和数字信号处理。

南城游子·2025-02-23 08:45

单目标追踪——【Transformer】Transformer Tracking

目录文章侧重点网络结构上下文增强模块交叉特征增强TransT网络结构可视化结果分析n=1n=2n=3n=4Transformer这个香饽饽怎么能不用来迁移到目标追踪里呢。本篇文章分析TransT。

zz的大穗禾·2025-02-23 04:21

多模态论文笔记——DiT（Diffusion Transformer）

本文详细介绍Transformer架构图像生成方面的应用，将Diffusion和Transformer结合起来的模型：DiT。目前DiT已经成为了AIGC时代的新宠儿，视频和图像生成不可缺少的一部分。

好评笔记·2025-02-23 04:19

Transformer解析——（五）代码解析及拓展

本系列已完结，全部文章地址为：Transformer解析——（一）概述-CSDN博客Transformer解析——（二）Attention注意力机制-CSDN博客Transformer解析——（三）Encoder-CSDN

cufewxy2018·2025-02-23 04:19

【JavaScript】《JavaScript高级程序设计 (第4版) 》笔记-Chapter18-动画与 Canvas 图形

视觉上复杂的功能要求性能调优和硬件加速，不能拖慢浏览器。目前已经有一套日趋完善的API和工具可以用来开发此类功能。毋庸置疑，是HTML5最受欢迎的新特性。

江湖人称菠萝包·2025-02-23 00:13

计算机视觉CV学习路线

计算机视觉CV学习路线1.基础准备（可参考mooc学习）2.计算机视觉基础知识（可参考mooc学习、计算机图形学）3.经典计算机视觉算法（可参考吴恩达机器学习课程、国内外计算机图形学课程）4.深度学习基础

我喝AD钙·2025-02-22 23:08

IEEE Signal Processing Letters(SPL)投稿经验分享

（博主方向：计算机视觉）论文投稿时间点分享2019.8.26初稿提交；2019.8.31安排AE；2019.8.31换了个AE；2019.11.6发催稿邮件给AE；2019.11.7AE回催稿信，系统上由

yellow7-·2025-02-22 22:23

DeepSeek新作-Native Sparse Attention

标准注意力机制的挑战：传统的注意力机制（如Transformer中的全注意力机制）在处理长文本时面临巨大的计算成本。这是因为全注意力机制需要计算每个词与其他所有词之间的关系

数据分析能量站·2025-02-22 21:21

AI工具——将文字转变为流程图

文章参考：《NapkinAI：轻松将文字变成视觉，一键生成信息图、流程图和图表》《如何使用AI辅助快速生成概念示意图》《最强配图生成工具NapkinAI现已支持中文》文章来源：csdn

j_inglin·2025-02-22 20:10

第十节：通过Debug解析ChatGLMModel的数据流，理解视觉与语言模型结合架构

文章目录前言一、forward的参数解读二、图像编码token数量值方法解读三、input_ids的embedding方法解读1、embedding编码方法2、Embedding源码四、视觉编码方法解读五

tangjunjun-owen·2025-02-22 17:43

LLaVA-CoT: Let Vision Language Models Reason Step-by-Step

LLaVACoT：让视觉语言模型逐步推理摘要1引言2相关工作3提出的方法4后训练性能5推理时间缩放6最新VLMs的比较7结论摘要大型语言模型在推理能力方面取得了长足的进步，特别是通过推理时间缩放，如OpenAI

UnknownBody·2025-02-22 16:08

2025年02月19日Github流行趋势

star数：12878今日star数：2153项目维护者：yadong-lu,ThomasDh-C,aliencaocao,nmstoker,krishna2项目简介：一个简单的屏幕解析工具，旨在实现基于纯视觉的

油泼辣子多加·2025-02-22 15:32

iOS 中的圆角与平滑圆角：从新特性到老项目适配

传统的圆角效果通过cornerRadius属性实现，但在一些设计中，圆角的过渡并不够自然，尤其是在高分辨率屏幕上，视觉效果可能显得生硬。

胖虎1·2025-02-22 15:59

十月学习笔记

transformer的架构：基于encoder-only或decoder-only架构Transformer模型由编码器（enco

木子不多余·2025-02-22 15:28

计算机视觉与深度学习实战：以Python为工具，基于帧间差法进行视频目标检测

一、引言随着科技的飞速发展，计算机视觉和深度学习已成为当今科技领域的热门话题。它们不仅在科研领域取得了显著的成果，而且在安防监控、智能交通、医疗影像分析、工业自动化等领域得到了广泛的应用。

好知识传播者·2025-02-22 13:16

机器学习库

计算机视觉Scikit-Image-Python中图像处理算法的集合。

Welosthesightof·2025-02-22 12:11

Python-OpenCV的单目视觉测距_python opencv 单目测距

此类方法主要应用于单目视觉进行导航和定位，该类方法的缺点是利用单个特征点进行测量，容易因特征点提取的不准确性，产生误差。我们采用摄像头采集图片，将三维场景投影到摄像机二维像平面上。

2401_87556630·2025-02-22 12:38

2025最新Python机器视觉实战：基于OpenCV与深度学习的多功能工业视觉检测系统（附完整代码）

emmm形成中·2025-02-22 12:37

【Vue3】项目中实现整屏滚动效果，整屏翻页 fullpage.js

具体效果可以参考：百度视觉技术首先准备好项目，没有项目或者不会建可以直接克隆准备好的。

fruge365·2025-02-22 11:31

清影2.0（AI视频生成）技术浅析（四）：计算机视觉（CV）

清影2.0是一个基于人工智能的视频生成平台，其核心计算机视觉（CV）技术包括图像处理与增强、动作捕捉与平滑等。

爱研究的小牛·2025-02-22 06:50

大模型量化概述

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，从而导致模型变得越来越大，因此，我们需要一些大模型压缩技术来降低模型部署的成本，并提升模型的推理性能。

AI领航者·2025-02-22 04:02

无人机原路径返回原理

视觉定位系统（VIO）：在信号弱或GPS不可用的环境下，一些高端无人机会使用视觉惯性定位系统（VIO）来辅助定位。该系统通过摄像头捕捉环境图像，

.NET跨平台·2025-02-22 02:15

【CCM-SLAM论文阅读笔记】

CCM-SLAM论文阅读笔记整体框架结构如图所示：单智能体只负责采集图像数据，运行实时视觉里程计VO以估计当前位姿和环境地图，由于单智能体计算资源有限，负责生成的局部地图只包含当前N个最近的关键帧。

随机取名字·2025-02-22 02:07

常用特征检测算法SURF、SIFT、ORB和FAST

特征检测算法SURF算法特征检测的视觉不变性是一个非常重要的概念。但是要解决尺度不变性问题，难度相当大。为解决这一问题，计算机视觉界引入了尺度不变特征的概念。

super尚·2025-02-22 01:35

计算机视觉之图像处理-----SIFT、SURF、FAST、ORB 特征提取算法深度解析

SIFT、SURF、FAST、ORB特征提取算法深度解析前言在图像处理领域亦或是计算机视觉中，首先我们需要先理解几个名词：什么是尺度不变？

三年呀·2025-02-22 01:27

用deepseek学大模型08-用deepseek解读deepseek

DeepSeekR1是一种先进的深度学习模型架构，结合了Transformer、稀疏注意力机制和动态路由等核心技术。

wyg_031113·2025-02-22 01:26

Transformer Decoder 详解

TransformerDecoder详解1.模型结构图解TransformerDecoder由N个相同的层堆叠而成，每个层包含以下组件（与Encoder不同，Decoder包含两种注意力机制）：Input

idealmu·2025-02-22 00:51

视觉应用工程师（面试）

视觉应用工程师（面试）1.自我介绍、会的技能、项目2.相机和机械手调试过程检查硬件，看软件驱动是否链接，调节相机和镜头保证能够识别这个物料，看接口和通讯是否正常，如：波特率，数据位，停止位等，测试引导功能

幻想趾于现实·2025-02-22 00:48

【深度学习大模型实例教程：Transformer架构、多模态模型与自监督学习】

深度学习大模型实例教程：Transformer架构、多模态模型与自监督学习1.深度学习基础概述1.1深度学习的核心概念1.2常见深度学习模型1.3大模型的挑战与解决方案2.数据准备2.1数据处理示例：CIFAR

生活De°咸鱼·2025-02-21 22:34

深度学习模型的全面解析：技术进展、应用场景与未来趋势

这些模型可以根据其结构和应用场景被分为不同的类别，包括但不限于卷积神经网络（CNN）、循环神经网络（RNN）、长短期记忆网络（LSTM）、生成对抗网络（GAN）和Transformer模型等。

阿尔法星球·2025-02-21 22:03

基于深度学习的钢材表面缺陷检测系统：UI界面 + R-CNN + 数据集

基于深度学习的钢材表面缺陷检测系统能够通过计算机视觉自动识别钢材表面的缺陷类型和位置，极大地提升了检测的准确性和效率。

深度学习&目标检测实战项目·2025-02-21 21:30

什么是虚拟展厅？有何优势和特点？

二、在线虚拟展厅的优势1、强大的视觉

jimumeta·2025-02-21 16:48

Vision Transformer图像分类实现

VisionTransformer(ViT)是一种基于Transformer架构的图像分类模型。

reset2021·2025-02-21 16:13

跨越感官鸿沟：AGI多模态融合技术解析

文章目录引言：当AGI开始拥有"五感"一、多模态认知的理论基础1.1人类感官系统的启示1.2多模态表示学习的数学框架二、多模态融合的核心技术2.1跨模态对齐架构Transformer-based模型2.2

.猫的树·2025-02-21 13:48

视觉分析之边缘检测算法

9.1Roberts算子Roberts算子又称为交叉微分算法，是基于交叉差分的梯度算法，通过局部差分计算检测边缘线条。常用来处理具有陡峭的低噪声图像，当图像边缘接近于正45度或负45度时，该算法处理效果更理想。其缺点是对边缘的定位不太准确，提取的边缘线条较粗。importcv2ascvimportnumpyasnpimportmatplotlib.pyplotasplt#读取图像img=cv.im

Erekys·2025-02-21 09:42

利用深度学习进行汇率预测：LSTM与Transformer模型的应用实践

第一部分：数据收集与准备1.1数据集介绍1.2数据准备第二部分：使用LSTM模型进行汇率预测2.1数据序列化2.2LSTM模型构建2.3模型训练与评估2.4结果可视化第三部分：使用Transformer

人工智能_SYBH·2025-02-21 06:53

25/2/16 ＜算法笔记＞ DirectPose

它在目标检测、机器人视觉、增强现实（AR）和自动驾驶等领域中具有广泛应用。相比于传统的位姿估计方法，DirectPose试图简化复杂的处理流程，采用端到端的方式直接从图像中输出位姿参数。

青椒大仙KI11·2025-02-21 05:19

如何把pdf转换成word软件在线

如何把pdf转换成word软件在线由于PDF文件格式具备良好的视觉阅读性和浏览性，使得互联网开始转型将PDF作为存储文件内容的主要格式，但我们往往想要提出某些资料到Word文本中进行二次编辑，这对于新手朋友们而言并不是件容易的事

chuanbi3349·2025-02-21 03:04

如何将模型长度扩展到100万：Llama 3的NTK-aware插值技术解析小学生都懂的

好的，以下是对Llama3如何通过NTK-aware插值调整位置编码以扩展上下文长度到100万的详细原理解释：1.RoPE（旋转位置编码）的原理RoPE是一种用于Transformer模型的位置编码方法

从零开始学习人工智能·2025-02-21 00:41

DeepSeek混合专家模型：低成本高精度革新多语言AI应用

在此基础上，其多模态处理能力不仅覆盖80余种自然语言的高精度互译，还实现了视觉符号与文本语义的跨

智能计算研究中心·2025-02-20 22:01

【部署】Ktransformer是什么、如何利用单卡24GB显存部署Deepseek-R1 和 Deepseek-V3

简介KTransformers是一个灵活的、以Python为中心的框架，旨在通过先进的内核优化和放置/并行策略提升HuggingFaceTransformers的使用体验。

仙人掌_lz·2025-02-20 21:21

GPT (Generative Pre-trained Transformer)

GPT(GenerativePre-trainedTransformer)是由OpenAI提出的一个基于Transformer架构的自回归语言模型。

彬彬侠·2025-02-20 19:07

Vision Transformer（ViT）：用 Transformer 颠覆图像识别

VisionTransformer（ViT）：用Transformer颠覆图像识别在计算机视觉领域，卷积神经网络（CNN）长期以来一直是图像识别任务的主流架构。

金外飞176·2025-02-20 19:36

基于Transformer的YOLOv8检测头架构改进：提升目标检测精度的全新突破（YOLOv8）