2D视觉第5页

异物检测的计算机视觉算法技术路线

异物检测的计算机视觉算法技术路线在现代智能监测系统中，异物检测有着其必要性和运维重要性，通过计算机视觉算法，可以实时识别各种异常物体，为设备安全运行提供有力保障。本文将介绍异物检测的主要技术路线。

思绪漂移·2025-07-10 12:28

视觉算法之卷积神经网络

其独特的结构和功能使其在图像处理、语音识别等领域展现出卓越的性能:CNN的核心设计理念源于对生物视觉系统的模仿。

清风AI·2025-07-10 10:17

【AI大模型】深入解析预训练：大模型时代的核心引擎

预训练已成为现代人工智能，尤其是自然语言处理和计算机视觉领域的基石技术。它彻底改变了模型开发范式，催生了BERT、GPT等革命性模型。本文将系统阐述预训练的核心概念、原理、方法、应用及挑战。

我爱一条柴ya·2025-07-10 09:43

【AI大模型前沿】OmniAudio：阿里通义实验室的空间音频生成模型，开启沉浸式体验新时代

大模型前沿】深度剖析瑞智病理大模型RuiPath：如何革新癌症病理诊断技术2【AI大模型前沿】清华大学CLAMP-3：多模态技术引领音乐检索新潮流3【AI大模型前沿】浙大携手阿里推出HealthGPT：医学视觉语言大模型助力智能医疗新突破

寻道AI小兵·2025-07-10 07:01

目标检测YOLO实战应用案例100讲-基于深度学习的自动驾驶目标检测算法研究（续）

目录基于双蓝图卷积的轻量化自动驾驶目标检测算法5.1引言5.2DarkNet53网络冗余性分析5.3双蓝图卷积网络5.4实验结果及分析基于深度学习的自动驾驶目标检测算法研究与应用传统的目标检测算法目标检测基线算法性能对比与选择相关理论和算法基础

林聪木·2025-07-10 07:58

Amoonsky 4画面分割器：拓展LED和LCD显示的多功能解决方案

介绍：想象一下在多个屏幕之间实现无缝切换，轻松管理和控制各种视觉输出。Amoonsky的4画面分割器是创新的典范，不仅专为LED显示行业设计，还专门满足LCD显示解决方案的动态需求。

Amoonsky_Mike·2025-07-10 06:22

OpenCvSharp 实现环形文字识别OCR实例（C#）

近年来，随着计算机视觉和图像处理的不断发展，光学字符识别（OCR）技术也变得愈发成熟。OCR技术可以将图像中的文字转换为可编辑和可搜索的文本，为人们带来了极大的便利。

XisVisual_Basic·2025-07-10 05:43

Python|OpenCV-实现识别弧形文字(17)

前言本文是该专栏的第19篇，后面将持续分享OpenCV计算机视觉的干货知识，记得关注。我们知道，OCR可以识别文字方面的需求，但是如果遇到那些目标文字是“弧形文字”，需要怎么去识别呢？

写python的鑫哥·2025-07-10 05:12

python学习试题（选择，问答，代码等）

A.TrueB.3C.2D.TypeError答案：B（3）以下哪个表达式会引发错误？

爱莉希雅&&&·2025-07-10 05:12

Oracle常用sql语句

DataDefinitionLanguage）1.创建表2.创建/删除索引2.修改表结构3.表or字段注释数据操纵语言（DML,DataManipulationLanguage）1.查询语句1.1groupby语句1.2distinct

多肉葡萄和大嘴鱼·2025-07-10 03:01

【小白入门必看】一文读懂深度学习计算机视觉技术及学习路线

一、什么是计算机视觉？计算机视觉，其实就是教机器怎么像我们人一样，用摄像头看看周围的世界，然后理解它。比如说，它能认出这是个苹果，或者那边有辆车。

·2025-07-10 01:16

计算机视觉：Transformer的轻量化与加速策略

计算机视觉：Transformer的轻量化与加速策略一、前言二、Transformer基础概念回顾2.1Transformer架构概述2.2自注意力机制原理三、Transformer轻量化策略3.1模型结构优化

xcLeigh·2025-07-10 00:44

推测性解码：加速多模态大型语言模型的推理

MLLMs通过融合视觉和文本数据，极大地丰富了模型与用户的互动，但同时也面临着自回归生成和内存带

人工智能培训咨询叶梓·2025-07-09 21:25

揭秘图像LLM：从像素到语言的智能转换

以下结合CLIP、DALL-E、GPT-4V等主流模型，通过具体例子说明其工作机制：一、图像→特征向量：从像素到“密码”例子：识别“戴墨镜的猫”视觉编码器提取特征使用ResNet或ViT（VisionTransformer

ZhangJiQun&MXP·2025-07-09 21:52

【机器学习】解密计算机视觉：CNN、目标检测与图像识别核心技术（第25天）

Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手

吴师兄大模型·2025-07-09 20:49

LLM（大语言模型）能识别图像的核心原因:图像和文本记性特征识别且对其

LLM（大语言模型）能识别图像的核心原因:图像和文本记性特征识别且对其在于跨模态对齐技术——通过训练将图像和文本映射到同一语义空间，使语言模型能够理解视觉信息。一、为什么LLM能识别图像？

ZhangJiQun&MXP·2025-07-09 20:17

人体坐姿检测系统开发实战（YOLOv8+PyTorch+可视化）

结合目标检测与姿态估计技术，实现不良坐姿的实时识别与预警###一、项目背景与价值现代人每天平均坐姿时间超过8小时，不良坐姿会导致：-脊椎压力增加300%-颈椎病发病率提升45%-腰椎间盘突出风险增加60%本系统通过计算机视觉技术实时监测坐姿状态

Loving_enjoy·2025-07-09 17:28

魔都AI医疗哪家强？全景揭秘科技创新与未来钱景！

这些公司利用深度学习、大语言模型（LLM）和计算机视觉等技术，革新药物发现、医疗影像分析和数据治理，推动医疗行业的智能化转型。

·2025-07-09 16:53

C语言练习题

.+1/n(利用指针函数)将数组元素倒置，改错梯形法计算定积分按如下函数原型，采用梯形法编程实现(分成100个小梯形,再求这100个梯形面积的和)，在积分区间[a,b]内计算函数y1=∫ab1+x2dxy1

暮色驶过苍茫·2025-07-09 15:43

TPAMI 2024 | 利用相机原始快照进行高效的视觉计算

题目：EfficientVisualComputingWithCameraRAWSnapshots利用相机原始快照进行高效的视觉计算作者：ZhihaoLi;MingLu;XuZhang;XinFeng;

小白学视觉·2025-07-09 12:28

语义分割模型的轻量化与准确率提升研究

语义分割模型的轻量化与准确率提升研究1.引言语义分割是计算机视觉领域的核心任务之一，它要求模型为图像中的每个像素分配一个类别标签。

pk_xz123456·2025-07-09 12:28

Docker 学习入门篇：从基础概念到实战部署

1.2Docker解决了什么问题？环境一致性难题：开发、测试、生产环境

·2025-07-09 11:19

【unity游戏开发入门到精通——通用篇】在 Unity 6 中轻松实现播放随机游戏音效——AudioRandomContainer音频随机容器的使用

考虑到每个人基础可能不一样，且并不是所有人都有同时做2D、3D开发的需求，所以我把【零基础入门unity游戏开发】分为成了C#篇、unity通用篇、unity3D篇、unity2D篇。

向宇it·2025-07-09 10:13

Python深度学习实践：建立端到端的自动驾驶系统

它融合了计算机视觉、深度学习、规划与控制等多个领域的先进技术,旨在实现车辆的自主感知、决策和操控。随着人工智能技术的不断发展,越来越多的公司和研究机构投入了大量资源来开发自动驾驶系统。

AI天才研究院·2025-07-09 09:38

Docker网络模型深度解析｜Docker｜网络模型｜容器化

目录1.Docker网络模型概述1.1Docker网络的基本概念1.2Docker的主要网络模式2.Bridge网络模式2.1Bridge模式的工作原理2.2Bridge模式的网络配置2.3Bridge

concisedistinct·2025-07-09 08:59

从UI设计到数字孪生实战：构建智慧教育的个性化学习平台

hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!

·2025-07-09 08:57

fcpx音视频剪辑编辑 Final Cut Pro X（Mac电脑）

经过Apple芯片优化，利用Metal引擎动力，可处理更复杂的项目，并支持高分辨率视频格式，并提供了多种高级功能，例如多摄像头编辑、音频混合、色彩校正、视觉特效和动画等。

fengyun2891·2025-07-09 05:02

Docker 和 Kubernetes 入门到精通：运维工程师的实战笔记 (近5万字)

1.1.1容器服务原理1.2Docker的三大概念1.2.1镜像1.2.2容器1.2.3仓库1.2.4总结1.3Docker常用命令1.3.1镜像常用命令1.3.2容器常用命令1.4Dockerfile1.4.1commit

运维小贺·2025-07-09 03:49

技术解析｜可灵AI全球首部AI单元剧《新世界加载中》工作流揭秘：提示词工程如何解决口型同步/复杂动作生成？

这部与传统短剧不同的全新作品，用全新的呈现方式为观众带来了更具视觉冲击力的视觉效果和观影体验，成为AIGC领域的创新之作。然而，涵盖7个不同题材的单元剧集，必定涉及复杂的人物表

·2025-07-09 02:14

从0开始学习计算机视觉--Day08--卷积神经网络

之前我们提到，神经网络是通过全连接层对输入做降维处理，将输入的向量通过矩阵和激活函数进行降维，在神经元上输出激活值。而卷积神经网络中，用卷积层代替了全连接层。不同的是，这里的输入不再需要降维，而是可以保留输入的空间结构，例如输入的是32×32×3的图片，在全连接层中是3072×1的向量，而卷积层里则保持不变。这里的改变的地方是对于同样的WX的函数形式，这里是把5×5×3的权重矩阵（也叫卷积核）向量

·2025-07-09 01:12

FairyGUI 实现 Boss 双层血条动画

一：理解血条系统的组成1.boss血条一般包括：红色血条：表示当前血量，随伤害立即减少；白色血条（残影）：慢慢减少，产生一种“缓冲”的受伤视觉效果；血条分段（如2条血表示不同阶段）；血条消失/出现动画；

future1412·2025-07-09 01:39

【人工智能】ChatGPT、DeepSeek-R1、DeepSeek-V3 辨析

DeepSeek-V3辨析1.ChatGPT对比DeepSeek1.1技术相似点1.2主要差异1.3关键区别1.4如何选择1.5总结2.DeepSeek-R1对比DeepSeek-V32.1DeepSeek-R12.2DeepSeek-V32.3

G皮T·2025-07-09 00:32

【AI论文】基于图像思维的多模态推理：理论基础、方法及未来前沿

然而，这种以文本为中心的方法将视觉信息视为静态的初始语境，从而在丰富的感知数据与离散的符号思维之间造成了根本性的“语义鸿沟”。人类认知往往超越语言的局限，将视觉作为动态的心理草图板加以利用。

东临碣石82·2025-07-08 22:22

CSS3 文本效果详解

它可以为文本添加阴影，使其更加立体，提升视觉效果。基本语法text-

lly202406·2025-07-08 20:42

c++文字游戏_闯关打怪2.0(开源)

本次更新内容：1.增强对手性能2.可暂停（按N）3.修复些许bug4.增加boos关(第10、20、30...关)1.游戏概述本游戏是一个基于Windows控制台的回合制战斗游戏，采用俯视视角的2D平面设计

༺ཌༀ 吃菠萝的小狼 ༀད༻·2025-07-08 19:03

Python打卡：Day40

importtorchimporttorch.nnasnnimporttorch.optimasoptimfromtorch.utils.dataimportDataLoader,Dataset#DataLoader是PyTorch中用于加载数据的工具fromtorchvisionimportdatasets,transforms#torchvision是一个用于计算机视觉的库

·2025-07-08 17:17

Python训练打卡Day46

通道注意力：模型的定义和插入的位置通道注意力后的特征图和热力图注意力机制：一种让模型学会「选择性关注重要信息」的特征提取器，就像人类视觉会自动忽略背景，聚焦于图片中的主体（如猫、汽车）。

编程有点难·2025-07-08 16:08

BigQuery对象引用（ObjectRef）全面指南：一站式整合结构化与非结构化多模态数据分析

非结构化媒体通常需要导出到专门的服务进行处理（如图片分析需计算机视觉服务，音频需语音转文本引擎），这会造成数据孤岛，阻碍全局分析视角的建立。

·2025-07-08 14:59

第04课：了解数据必备的文本可视化技巧

为什么要文本数据可视化文字是传递信息最常用的载体，随着海量文本的涌现，信息超载和数据过剩等问题日益凸显，当大段大段的文字摆在面前，已经很少有人耐心、认真把它读完，人们急需一种更高效的信息接收方式，从视觉的角度出发

Soyoger·2025-07-08 13:52

Android 16开发者全解读

哈喽，我是老刘Android16的更新最近发布，带来了全新的系统特性和视觉体验，也在SDK版本机制、兼容性、性能优化等多个层面进行了更新。

·2025-07-08 13:38

三维计量系统行业调研报告 - 市场现状分析与发展前景预测

产品分类：坐标测量机ODS（光学数字化仪和扫描仪）视觉测量机应用领域：汽车航空航天建设权力医学

贝哲斯咨询·2025-07-08 10:06

多模态融合：现代搜索引擎底层图像、视频检索的技术架构设计

多模态融合技术打破了信息载体的界限，使搜索引擎能够理解图像的视觉语义、视频的动态内容，并实现跨模态的精准检索。

何雅琪¥·2025-07-08 08:44

PPT处理控件Aspose.Slides教程：在 PowerPoint 文件中创建 3D 形状

概述在PowerPoint文件中创建3D形状可以显著增强演示文稿的视觉吸引力。此功能对于建筑、教育和设计等以视觉表现为关键的行业至关重要。

CodeCraft Studio·2025-07-08 06:32

PPT处理控件Aspose.Slides功能演示：使用 C# 在 PowerPoint 演示文稿中创建 SmartArt

演示文稿中的SmartArt用于以视觉形式提供信息。有时，选择使简单的文本更具吸引力。而在其他情况下，它用于演示流程图、流程、不同实体之间的关系等。

Augenstern__zyx·2025-07-08 06:30

【AI论文】GLM-4.1V-思考：借助可扩展强化学习实现通用多模态推理

摘要：我们推出GLM-4.1V-Thinking这一视觉语言模型（VLM），该模型旨在推动通用多模态推理的发展。在本报告中，我们分享了在以推理为核心的训练框架开发过程中的关键发现。

东临碣石82·2025-07-08 04:43

Apple Sensor-Fusion 架构全解析：多模态语义图像感知系统设计与实战路径

AppleSensor-Fusion架构全解析：多模态语义图像感知系统设计与实战路径关键词：AppleA系列、SensorFusion、语义图像感知、IMU+Camera协同、图像识别、ARKit、视觉惯性融合

观熵·2025-07-08 01:56

AIGC视觉生成革命：文生图、图生图与视频生成垂直模型发展全景报告（2025）

一、引言：从实验工具到产业引擎的跃迁人工智能生成内容（AIGC）技术正经历从文本向多模态的范式转移。2023-2025年间，文生图、图生图与视频生成垂直模型逐步跨越技术奇点，从实验室玩具进化为工业化生产力工具。这一进程的核心驱动力在于架构创新、数据优化与场景深耕的三重突破：扩散模型与Transformer的融合催生了更高保真度的图像生成；十亿级多模态数据训练解决了复杂语义理解难题；而面向影视、电商

Liudef06小白·2025-07-08 01:50

Python 训练营打卡 Day 46

通道注意力一、什么是注意力注意力机制是一种让模型学会「选择性关注重要信息」的特征提取器，就像人类视觉会自动忽略背景，聚焦于图片中的主体（如猫、汽车）。

2401_86382089·2025-07-07 23:03

从技术支持到UX设计大师：Adam Schilling的成长之路

AdamSchilling的设计之路早期学习与兴趣培养Adam的旅程始于南澳大利亚大学的视觉传达课程，虽然没有完成，但他从中学习到了平面设计原则和插画技能。在闲暇时间，他为朋友免费进行网页设计和开

AR新视野·2025-07-07 21:19

什么是深度学习框架中的计算图？

操作：数学运算，如加法(+)、乘法(*)、矩阵乘法(matmul)、激活函数(ReLU,sigmoid)、卷积(conv2d)、损失函数(cross_entropy)等。变量：通常是张量，即存储数据

杰瑞学AI·2025-07-07 20:17

推荐频道

2D视觉