视觉-opencv 第5页

Python|OpenCV-实现识别弧形文字(17)

前言本文是该专栏的第19篇，后面将持续分享OpenCV计算机视觉的干货知识，记得关注。我们知道，OCR可以识别文字方面的需求，但是如果遇到那些目标文字是“弧形文字”，需要怎么去识别呢？

写python的鑫哥·2025-07-10 05:12

【小白入门必看】一文读懂深度学习计算机视觉技术及学习路线

一、什么是计算机视觉？计算机视觉，其实就是教机器怎么像我们人一样，用摄像头看看周围的世界，然后理解它。比如说，它能认出这是个苹果，或者那边有辆车。

·2025-07-10 01:16

计算机视觉：Transformer的轻量化与加速策略

计算机视觉：Transformer的轻量化与加速策略一、前言二、Transformer基础概念回顾2.1Transformer架构概述2.2自注意力机制原理三、Transformer轻量化策略3.1模型结构优化

xcLeigh·2025-07-10 00:44

推测性解码：加速多模态大型语言模型的推理

MLLMs通过融合视觉和文本数据，极大地丰富了模型与用户的互动，但同时也面临着自回归生成和内存带

人工智能培训咨询叶梓·2025-07-09 21:25

揭秘图像LLM：从像素到语言的智能转换

以下结合CLIP、DALL-E、GPT-4V等主流模型，通过具体例子说明其工作机制：一、图像→特征向量：从像素到“密码”例子：识别“戴墨镜的猫”视觉编码器提取特征使用ResNet或ViT（VisionTransformer

ZhangJiQun&MXP·2025-07-09 21:52

【机器学习】解密计算机视觉：CNN、目标检测与图像识别核心技术（第25天）

Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手

吴师兄大模型·2025-07-09 20:49

LLM（大语言模型）能识别图像的核心原因:图像和文本记性特征识别且对其

LLM（大语言模型）能识别图像的核心原因:图像和文本记性特征识别且对其在于跨模态对齐技术——通过训练将图像和文本映射到同一语义空间，使语言模型能够理解视觉信息。一、为什么LLM能识别图像？

ZhangJiQun&MXP·2025-07-09 20:17

人体坐姿检测系统开发实战（YOLOv8+PyTorch+可视化）

结合目标检测与姿态估计技术，实现不良坐姿的实时识别与预警###一、项目背景与价值现代人每天平均坐姿时间超过8小时，不良坐姿会导致：-脊椎压力增加300%-颈椎病发病率提升45%-腰椎间盘突出风险增加60%本系统通过计算机视觉技术实时监测坐姿状态

Loving_enjoy·2025-07-09 17:28

魔都AI医疗哪家强？全景揭秘科技创新与未来钱景！

这些公司利用深度学习、大语言模型（LLM）和计算机视觉等技术，革新药物发现、医疗影像分析和数据治理，推动医疗行业的智能化转型。

·2025-07-09 16:53

TPAMI 2024 | 利用相机原始快照进行高效的视觉计算

题目：EfficientVisualComputingWithCameraRAWSnapshots利用相机原始快照进行高效的视觉计算作者：ZhihaoLi;MingLu;XuZhang;XinFeng;

小白学视觉·2025-07-09 12:28

语义分割模型的轻量化与准确率提升研究

语义分割模型的轻量化与准确率提升研究1.引言语义分割是计算机视觉领域的核心任务之一，它要求模型为图像中的每个像素分配一个类别标签。

pk_xz123456·2025-07-09 12:28

Python深度学习实践：建立端到端的自动驾驶系统

它融合了计算机视觉、深度学习、规划与控制等多个领域的先进技术,旨在实现车辆的自主感知、决策和操控。随着人工智能技术的不断发展,越来越多的公司和研究机构投入了大量资源来开发自动驾驶系统。

AI天才研究院·2025-07-09 09:38

OpenCV实战之二 | 基于哈希算法比较图像的相似性

前言☘️本章节主要介绍常用的图像相似性评价算法：图像哈希算法。图像哈希算法通过获取图像的哈希值并比较两幅图像的哈希值的汉明距离来衡量两幅图像是否相似。两幅图像越相似，其哈希值的汉明距离越小。图像哈希算法可以用于图片检索，重复图片剔除，以图搜图以及图片相似度比较。目录一、汉明距离二、img_hash模块三、哈希算法哈希算法实现步骤：代码实现一、汉明距离汉明距离（HammingDistance）是用于

w94ghz·2025-07-09 09:01

从UI设计到数字孪生实战：构建智慧教育的个性化学习平台

hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!

·2025-07-09 08:57

fcpx音视频剪辑编辑 Final Cut Pro X（Mac电脑）

经过Apple芯片优化，利用Metal引擎动力，可处理更复杂的项目，并支持高分辨率视频格式，并提供了多种高级功能，例如多摄像头编辑、音频混合、色彩校正、视觉特效和动画等。

fengyun2891·2025-07-09 05:02

技术解析｜可灵AI全球首部AI单元剧《新世界加载中》工作流揭秘：提示词工程如何解决口型同步/复杂动作生成？

这部与传统短剧不同的全新作品，用全新的呈现方式为观众带来了更具视觉冲击力的视觉效果和观影体验，成为AIGC领域的创新之作。然而，涵盖7个不同题材的单元剧集，必定涉及复杂的人物表

·2025-07-09 02:14

从0开始学习计算机视觉--Day08--卷积神经网络

之前我们提到，神经网络是通过全连接层对输入做降维处理，将输入的向量通过矩阵和激活函数进行降维，在神经元上输出激活值。而卷积神经网络中，用卷积层代替了全连接层。不同的是，这里的输入不再需要降维，而是可以保留输入的空间结构，例如输入的是32×32×3的图片，在全连接层中是3072×1的向量，而卷积层里则保持不变。这里的改变的地方是对于同样的WX的函数形式，这里是把5×5×3的权重矩阵（也叫卷积核）向量

·2025-07-09 01:12

FairyGUI 实现 Boss 双层血条动画

一：理解血条系统的组成1.boss血条一般包括：红色血条：表示当前血量，随伤害立即减少；白色血条（残影）：慢慢减少，产生一种“缓冲”的受伤视觉效果；血条分段（如2条血表示不同阶段）；血条消失/出现动画；

future1412·2025-07-09 01:39

【AI论文】基于图像思维的多模态推理：理论基础、方法及未来前沿

然而，这种以文本为中心的方法将视觉信息视为静态的初始语境，从而在丰富的感知数据与离散的符号思维之间造成了根本性的“语义鸿沟”。人类认知往往超越语言的局限，将视觉作为动态的心理草图板加以利用。

东临碣石82·2025-07-08 22:22

OpenCV CUDA模块设备层-----高效地计算两个 uint 类型值的带权重平均值

操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述OpenCV的CUDA模块（cudev）中的一个设备端内联函数，用于高效地计算两个

村北头的码农·2025-07-08 22:21

CSS3 文本效果详解

它可以为文本添加阴影，使其更加立体，提升视觉效果。基本语法text-

lly202406·2025-07-08 20:42

Python打卡：Day40

importtorchimporttorch.nnasnnimporttorch.optimasoptimfromtorch.utils.dataimportDataLoader,Dataset#DataLoader是PyTorch中用于加载数据的工具fromtorchvisionimportdatasets,transforms#torchvision是一个用于计算机视觉的库

·2025-07-08 17:17

【解决方案】Building wheel for opencv-python：安装卡顿的原因与解决方案。

当你pipinstallopencv-python或pipinstallopencv-contrib-python时，命令行停在Buildingwheelforopencv-python(PEP517)

·2025-07-08 16:13

Python在人工智能领域的实际应用：示例代码解析

示例一：图像识别-使用OpenCV进

辣条yyds·2025-07-08 16:43

Python训练打卡Day46

通道注意力：模型的定义和插入的位置通道注意力后的特征图和热力图注意力机制：一种让模型学会「选择性关注重要信息」的特征提取器，就像人类视觉会自动忽略背景，聚焦于图片中的主体（如猫、汽车）。

编程有点难·2025-07-08 16:08

BigQuery对象引用（ObjectRef）全面指南：一站式整合结构化与非结构化多模态数据分析

非结构化媒体通常需要导出到专门的服务进行处理（如图片分析需计算机视觉服务，音频需语音转文本引擎），这会造成数据孤岛，阻碍全局分析视角的建立。

·2025-07-08 14:59

第04课：了解数据必备的文本可视化技巧

为什么要文本数据可视化文字是传递信息最常用的载体，随着海量文本的涌现，信息超载和数据过剩等问题日益凸显，当大段大段的文字摆在面前，已经很少有人耐心、认真把它读完，人们急需一种更高效的信息接收方式，从视觉的角度出发

Soyoger·2025-07-08 13:52

Android 16开发者全解读

哈喽，我是老刘Android16的更新最近发布，带来了全新的系统特性和视觉体验，也在SDK版本机制、兼容性、性能优化等多个层面进行了更新。

·2025-07-08 13:38

三维计量系统行业调研报告 - 市场现状分析与发展前景预测

产品分类：坐标测量机ODS（光学数字化仪和扫描仪）视觉测量机应用领域：汽车航空航天建设权力医学

贝哲斯咨询·2025-07-08 10:06

多模态融合：现代搜索引擎底层图像、视频检索的技术架构设计

多模态融合技术打破了信息载体的界限，使搜索引擎能够理解图像的视觉语义、视频的动态内容，并实现跨模态的精准检索。

何雅琪¥·2025-07-08 08:44

Hough变换

先上代码，c++1.hough检测线//LineFinder.h#include"opencv2/imgproc/imgproc.hpp"#include"opencv2/highgui/highgui.hpp

·2025-07-08 06:03

PPT处理控件Aspose.Slides教程：在 PowerPoint 文件中创建 3D 形状

概述在PowerPoint文件中创建3D形状可以显著增强演示文稿的视觉吸引力。此功能对于建筑、教育和设计等以视觉表现为关键的行业至关重要。

CodeCraft Studio·2025-07-08 06:32

opencv初步学习——图像处理2

这一部分主要讲解如何初步地创建一个图像，以及彩色图像我们的一些基本处理方法一、创建一个灰度图像1-1、zeros()函数[NumPy库]要用到这一个函数，首先我们需要调用我们的NumPy库，这一个函数的作用是可以帮助我们生成一个元素值都是0的二维数组，如果我们把这些数据放到一张图片里面去，那么就对应着我们的一个黑色图像。当然我们也可以通过修改数组中的数字大小来改变图像的颜色（但还是灰度图像）（1）

·2025-07-08 06:01

PPT处理控件Aspose.Slides功能演示：使用 C# 在 PowerPoint 演示文稿中创建 SmartArt

演示文稿中的SmartArt用于以视觉形式提供信息。有时，选择使简单的文本更具吸引力。而在其他情况下，它用于演示流程图、流程、不同实体之间的关系等。

Augenstern__zyx·2025-07-08 06:30

OpenCV 人脸分析------面部关键点检测类cv::face::FacemarkLBF

操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述使用LocalBinaryFeatures(LBF)算法进行面部关键点检测

村北头的码农·2025-07-08 06:59

【AI论文】GLM-4.1V-思考：借助可扩展强化学习实现通用多模态推理

摘要：我们推出GLM-4.1V-Thinking这一视觉语言模型（VLM），该模型旨在推动通用多模态推理的发展。在本报告中，我们分享了在以推理为核心的训练框架开发过程中的关键发现。

东临碣石82·2025-07-08 04:43

Apple Sensor-Fusion 架构全解析：多模态语义图像感知系统设计与实战路径

AppleSensor-Fusion架构全解析：多模态语义图像感知系统设计与实战路径关键词：AppleA系列、SensorFusion、语义图像感知、IMU+Camera协同、图像识别、ARKit、视觉惯性融合

观熵·2025-07-08 01:56

RK3588 源码编译 opencv

从你的输出信息来看，系统已经安装了libpng1.6.37（最新版本），但OpenCV4.8.1在编译时仍然找不到png_set_longjmp_fn和png_get_eXIf_1等符号。

hitsz_syl·2025-07-08 01:52

AIGC视觉生成革命：文生图、图生图与视频生成垂直模型发展全景报告（2025）

一、引言：从实验工具到产业引擎的跃迁人工智能生成内容（AIGC）技术正经历从文本向多模态的范式转移。2023-2025年间，文生图、图生图与视频生成垂直模型逐步跨越技术奇点，从实验室玩具进化为工业化生产力工具。这一进程的核心驱动力在于架构创新、数据优化与场景深耕的三重突破：扩散模型与Transformer的融合催生了更高保真度的图像生成；十亿级多模态数据训练解决了复杂语义理解难题；而面向影视、电商

Liudef06小白·2025-07-08 01:50

Python 训练营打卡 Day 46

通道注意力一、什么是注意力注意力机制是一种让模型学会「选择性关注重要信息」的特征提取器，就像人类视觉会自动忽略背景，聚焦于图片中的主体（如猫、汽车）。

2401_86382089·2025-07-07 23:03

从技术支持到UX设计大师：Adam Schilling的成长之路

AdamSchilling的设计之路早期学习与兴趣培养Adam的旅程始于南澳大利亚大学的视觉传达课程，虽然没有完成，但他从中学习到了平面设计原则和插画技能。在闲暇时间，他为朋友免费进行网页设计和开

AR新视野·2025-07-07 21:19

【心灵鸡汤】深度学习技能形成树：从零基础到AI专家的成长路径全解析

引言：技能树的生长哲学在这个人工智能浪潮汹涌的时代，深度学习犹如一棵参天大树，其根系深深扎入数学与计算科学的沃土，主干挺拔地承载着机器学习的核心理念，而枝叶则繁茂地延伸至计算机视觉、自然语言处理、强化学习等各个应用领域

智算菩萨·2025-07-07 19:06

视觉设计全栈解析：必知的8大核心方向与应用场景

在数字时代，视觉设计早已渗透到生活的方方面面——从手机APP界面到街头广告牌，从书籍的版式到产品的包装，这些统统离不开视觉设计的支撑！

·2025-07-07 18:04

ViP-LLaVA: 使大型多模态模型理解任意视觉提示

摘要现有的大型视觉-语言多模态模型主要关注整体图像理解，但在实现区域特定的理解方面仍存在显著差距。目前，使用文本坐标或空间编码的方法通常无法为视觉提示提供用户友好的接口。

AI专题精讲·2025-07-07 16:51

opencv-python与opencv-contrib-python的区别联系

opencv-python包含基本的opencvopencv-contrib-python是高配版，带一些收费或者专利的算法，还有一些比较新的算法的高级版本,这些算法稳定之后会加入上面那个。

剑心缘·2025-07-07 16:51

多模态大模型的技术应用与未来展望：重构AI交互范式的新引擎

过去十年，深度学习推动了计算机视觉和自然语言处理的飞跃，但两者的发展路径长期割裂。

zhaoyi_he·2025-07-07 15:43

ShaderGraph节点解析(136):矩形节点（Rectangle Node）详解

目录一、节点功能概述二、端口详解三、控制选项四、技术原理解析4.1数学原理（距离场计算）4.2生成代码解析4.3视觉特性五、应用场景与实战案例5.1UI元素（矩形按钮/面板）场景：在UI中生成无纹理的矩形按钮或面板

小李也疯狂·2025-07-07 12:52

OpenCV 图像操作：颜色识别、替换与水印添加

目录引言代码实现1.导入必要的库2.图像加法3.图像直接相加4.颜色加权加法5.HSV颜色空间转换概念作用6.查找颜色范围对应的像素点7.与运算-生成掩膜8.添加水印9.主函数总结引言在计算机视觉领域，

·2025-07-07 12:48

Unreal Engine开发：高级渲染技术_4.高级着色器编程

UnrealEngine的着色器系统是基于HLSL（High-LevelShadingLanguage）和USF（UnrealShaderFormat）的，这两种语言允许开发者编写高效的着色器代码，以实现各种视觉效果

chenlz2007·2025-07-07 09:02

纯CSS实现有趣emoji切换开关

这是一个纯CSS创建的动画切换开关，它不仅能够在视觉上吸引用户，还能通过交互提供即时反馈。

南城FE·2025-07-07 08:49

推荐频道

视觉-opencv