音视频计算机视觉第9页

开发美颜相机录制视频时，对于音频数据的处理

视频录制不仅包括视频数据，还需要同步录制音频数据，以生成一个完整的音视频文件。如果你只处理视频数据而忽略音频数据，录制出来的文件将没有声音，或者需要后期再合成音频，这会增加复杂性。

陈皮话梅糖@·2025-02-15 10:48

计算机视觉——SIFT特征提取与检索算法

计算机视觉——SIFT特征提取与检索算法1.基本介绍1.1算法特点1.2检测步骤2.基本原理2.1关键点2.2尺度空间2.3高斯模糊2.3.1高斯函数2.3.2高斯模糊2.3.3高斯金字塔2.4DOG函数

-shiba-·2025-02-15 10:17

Python深度学习代做目标检测NLP计算机视觉强化学习

了解您的需求，您似乎在寻找关于Python深度学习领域的代做服务，特别是在目标检测、自然语言处理（NLP）、计算机视觉以及强化学习方面。以下是一些关于这些领域的概述以及寻找相关服务的建议。

matlabgoodboy·2025-02-15 10:43

基于深度学习YOLOv5的活体人脸检测系统（Python+PySide6界面+训练代码）

一、前言随着人工智能技术的快速发展，计算机视觉（ComputerVision）已广泛应用于各种实际场景中，特别是在安全、金融、医疗等领域。

深度学习&目标检测实战项目·2025-02-15 09:42

【深度学习】计算机视觉（CV）-目标检测-SSD（Single Shot MultiBox Detector）—— 单次检测多框检测器

SSD（SingleShotMultiBoxDetector）——单次检测多框检测器1️⃣什么是SSD？SSD(SingleShotMultiBoxDetector)是一种用于目标检测（ObjectDetection）的深度学习模型，由WeiLiu等人在2016年提出。它采用单阶段（SingleStage）方法，能够直接从图像中检测多个对象，并输出类别和边界框，比传统的两阶段方法（如FasterR

IT古董·2025-02-15 09:09

目标检测代码示例（基于Python和OpenCV）

引言目标检测是计算机视觉领域中的一个核心任务，其目标是在图像或视频中定位和识别特定对象。

matlab_python22·2025-02-15 05:08

Python知识点：基于Python技术，如何使用YOLO进行实时物体检测

使用YOLO进行实时物体检测的Python技术详解实时物体检测是计算机视觉中的一个关键任务，它要求算法能够快速且准确地识别和定位图像或视频流中的物体。

超哥同学·2025-02-15 05:36

基于深度学习YOLOv8的海洋动物检测系统（Python+PySide6界面+训练代码）

引言近年来，计算机视觉技术在各行各业中得到了广泛的应用，特别是在智能监控、自动驾驶、医疗诊断等领域。深度学习，尤其是卷积神经网络（CNN）的出现，极大地提高了计算机处理图像和视频的能力。

深度学习&目标检测实战项目·2025-02-15 04:57

CVPR2024最佳论文出炉！历年CVPR最佳论文盘点（2000 年—2024 年）

作为计算机视觉领域的顶级学术会议CVPR，每年评选出的一篇或多篇最佳论文，不仅为计算机视觉领域的顶级学术荣誉，更代表了将对未来技术或行业发展产生重要影响的里程碑式研究成果。

沃恩智慧·2025-02-15 03:15

WebP2P+自研回音消除：视频通话SDK嵌入式EasyRTC构建高交互性音视频应用

随着移动互联网时代的到来，手机端的扬声器大多采用外置设计，且音量较大。在这种情况下，扬声器播放的声音更容易被麦克风捕捉，从而导致回声问题显著加剧。这种设计虽然方便用户在免提模式下使用，但也带来了更复杂的音频处理挑战。回音消除算法的核心在于从麦克风采集的混合信号中分离出原始语音信号和回声信号，并将回声信号从混合信号中移除。EasyRTC采用的自研算法基于以下几种技术：自适应滤波器：通过实时调整滤波器

Likeadust·2025-02-14 22:10

详解AI作画算法原理

这一领域融合了深度学习、计算机视觉和生成模型的前沿技术，让机器能够“想象”并创作出令人惊叹的图像。

Jimaks·2025-02-14 22:10

【深入探讨 ResNet：解决深度神经网络训练问题的革命性架构】

深入探讨ResNet：解决深度神经网络训练问题的革命性架构随着深度学习的快速发展，卷积神经网络（CNN）已经成为图像识别、目标检测等计算机视觉任务的主力军。

机器学习司猫白·2025-02-14 16:26

RV1126解码（1）

主要功能是通过FFMPEG的API读取每一帧的音视频数据，并通过RV1126的解码，对每一帧的压缩数据进行解码操作，并最终把解码的数据打印出来。

学习嵌入式的小羊~·2025-02-14 15:47

cnn以及例子

cnnCNN即卷积神经网络（ConvolutionalNeuralNetwork），是一种专门为处理具有网格结构数据（如图像、音频）而设计的深度学习模型，在计算机视觉、语音识别等诸多领域都有广泛应用。

阿拉斯攀登·2025-02-14 10:41

WebRTC与EasyRTC:开启智能硬件音视频通讯的全新旅程

在当今数字化时代，音视频通讯技术正以前所未有的速度革新着我们的生活与工作方式。WebRTC与EasyRTC作为这一领域的佼佼者，正携手为智能硬件的音视频通讯注入强大动力，开启全新的篇章。

EasyNVR·2025-02-14 09:00

计算机视觉四大任务模型汇总

计算机视觉中有四大核心任务：1-分类任务、2-目标检测任务、3-目标分割任务和4-关键点检测任务文章1：一文读懂计算机视觉4大任务文章2：图像的目标分割任务：语义分割和实例分割不同任务之间相关但不完全相同

Zero_one_ws·2025-02-14 05:59

计算机视觉（Computer Vision，CV）四大基本任务--分类、检测、定位、分割

文章目录前言一、计算机视觉任务一：目标分类常用数据集常见网络结构二、计算机视觉任务二：目标定位三、计算机视觉任务三：目标检测常用数据集常见网络结构四、计算机视觉任务四：目标分割常用数据集常见网络结构前言计算机视觉

明月光舞·2025-02-14 05:29

计算机视觉核心任务

1.计算机视频重要分类计算机视觉的重要任务可以大致分为以下几类：1.图像分类（ImageClassification）识别图像属于哪个类别，例如猫、狗、汽车等。

飞瀑·2025-02-14 04:53

Android音视频开发实战系列教程

Android音视频开发实战系列教程指南在这篇文章中，我们将通过一个逐步流程，帮助刚入行的小白学习如何进行Android音视频开发。

Stark T·2025-02-14 04:51

Android平台FFmpeg多媒体处理实战

本文还有配套的精品资源，点击获取简介：FFmpeg在Android平台为开发者提供强大的音视频处理能力，涵盖编解码、容器格式解析、软硬解码切换、音频重采样和视频转换等关键功能。

雲明·2025-02-14 04:21

FFmpeg音视频编解码优化

FFmpeg音视频编解码优化关键词FFmpeg音视频编解码优化策略性能测试实战案例摘要本文将围绕FFmpeg音视频编解码优化这一主题，详细介绍FFmpeg的基础知识、安装配置、音视频编解码原理、性能优化方法

AI天才研究院·2025-02-14 04:51

音视频：11.Shell脚本-动手编译FFmpeg

Shell脚本-动手编译FFmpeg1.Cmake交叉编译Android动态库2.配置NDK环境2.1NDK中交叉编译工具的变化2.1.1.交叉编译工具位置的变化:3.手写FFmpeg编译脚本4.编译遇到的问题5.如何适配so框架6.编译参数传递7.运行调试音频解码避坑指南1.Cmake交叉编译Android动态库交叉编译：Linux上编译Android的sondk16的以上版本自带交叉编译工具链

eastRiseWm·2025-02-14 04:50

Linux 上使用 Rust、Golang 和 C++ 进行应用开发比较

作为一名前音视频编解码工程师，最常使用的语言是c/c++,但是永久了总想尝试下其他语言。

孽小倩·2025-02-14 04:17

【音视频】ffmpeg android端调试指南

背景：本文旨在Android端导入和调试ffmpeg使用，作为工具文档简化初次入门使用难度。下载FFmpeg源码：gitclonehttps://github.com/FFmpeg/FFmpeg.git编译FFmpeg源码：创建Android端编译脚本：#!/bin/bashAPI=21NDK=/Users/admin/Downloads/android-ndk-r21ePREBUILT=$NDK

MooMLu·2025-02-14 03:59

COCO数据集

COCO具有以下特点：物体分割上下文识别超像素材质分割33万张图片（超过20万张有标注）150万个物体实例80个物体类别91个材质类别每张图片有5个描述25万人的关键点COCO数据集是一个多用途的计算机视觉数据集

是小果果蛋儿啊·2025-02-13 23:37

2025年计算机视觉研究进展与应用国际学术会议 (ACVRA 2025)

2025年计算机视觉研究进展与应用国际学术会议(ACVRA2025)2025InternationalConferenceonAdvancesinComputerVisionResearchandApplications

GSRA会务组房老师·2025-02-13 20:15

【学术投稿-2025年计算机视觉研究进展与应用国际学术会议 (ACVRA 2025)】CSS样式解析：行内、内部与外部样式的区别与优先级分析

简介2025年计算机视觉研究进展与应用（ACVRA2025）将于2025年2月28-3月2日在中国广州召开，会议将汇聚世界各地的顶尖学者、研究人员和行业专家，聚焦计算机视觉领域的最新研究动态与应用成就。

禁默·2025-02-13 20:11

位图的深入解析：从数据结构到图像处理与C++实现

位图广泛应用于计算机图形学、图像处理和计算机视觉等领域。目录1.位图的基本概念1.1像素1.2分辨率1.3颜色深度2.位图的存储格式2.1BMP格式

Exhausted、·2025-02-13 14:03

计算机视觉国内外研究现状（综述）

1.国内外研究进展1.2.1特征提取研究进展特征提取是图像处理的一个重要环节，是进行身份识别和行为识别的重要部分。近年来，针对不同特征的提取，国内外学者提出了许多特征提取算法，同样特征提取的效果大都不错。但是在复杂的猪舍环境中提取猪的特征还是比较困难的。下面针对几种目前常用的特征提取算法进行一些介绍。（1）传统的特征提取算法传统特征提取算法已经发展了很久，现阶段比较成熟，是深度学习算法出来之前研究

埃菲尔铁塔_CV算法·2025-02-13 12:44

【深入探索-deepseek】高等数学与AI的因果关系

目录数学在AI不同领域的应用区别一、计算机视觉领域1.线性代数2.微积分3.概率论与统计二、自然语言处理领域三、语音识别领域四、数学在AI不同领域应用的逻辑图五、参考资料数学在AI不同领域的应用区别一、

我的青春不太冷·2025-02-13 11:09

qt+ffmpeg 实现音视频播放（二）之音频播放

一、音频播放流程1、打开音频文件通过avformat_open_input()打开媒体文件并分配和初始化AVFormatContext结构体。函数原型如下：intavformat_open_input(AVFormatContext**ps,constchar*url,AVInputFormat*fmt,AVDictionary**options);参数说明：-`ps`：指向`AVFormatCo

码农客栈_V13427279549·2025-02-13 10:58

图像分类与目标检测算法

在计算机视觉领域，图像分类与目标检测是两项至关重要的技术。它们通过对图像进行深入解析和理解，为各种应用场景提供了强大的支持。本文将详细介绍这两项技术的算法原理、技术进展以及当前的落地应用。

BugNest·2025-02-13 10:26

【鸿蒙在OpenHarmony系统上集成OpenCV，实现图片裁剪】

鸿蒙在OpenHarmony系统上集成OpenCV，实现图片裁剪OpenCV介绍OpenCV（OpenSourceComputerVisionLibrary）是一个开源的计算机视觉和机器学习软件库。

萌虎不虎·2025-02-13 09:25

计算机视觉工业相机、镜头、接口、光源概览及选型参考

一、相机1、分类按芯片类型分类：CCD相机、CMOS相机按传感器的结构特性分类：线阵相机、面阵相机按输出信号方式分类：模拟相机、数码相机按输出色彩方式分类：黑白相机、彩色相机2、重要参数芯片尺寸芯片尺寸表示图像传感器感光区域的面积大小，直接决定了整个系统的物理放大率。相机的芯片尺寸如图所示。分辨率分辨率表示每英寸包含的像素数。对于图像来说，分辨率是非常重要的，决定了图像是否能够清晰地呈现：相机的分

坐望云起·2025-02-13 08:16

【人工智能】Python中的深度学习优化器：从SGD到Adam

《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！

蒙娜丽宁·2025-02-13 08:13

【人工智能】基于Python和OpenCV实现实时人脸识别系统：从基础到应用

随着人工智能和计算机视觉的快速发展，人脸识别技术已广泛应用于监控、安全、社交媒体、金融和医疗等领域。本文将介绍如何利用Python和OpenCV库，结合dlib进行实时人脸识别的实现。

蒙娜丽宁·2025-02-13 08:12

【AI】人工智能没那么神秘！

AI人工智能不是简单的应用程序，而是一类技术，包含机器学习、自然语言处理、计算机视觉等多个领域。AI系统通常由算法、数据、模型和代码组成，其中代码用于实现算法，数据用于训练模型，最终形成智能决策能力。

仇辉攻防·2025-02-13 07:04

双目立体视觉（1）

1.背景计算机视觉技术，是以摄像头作为传感器来获取二维图像数据，并依靠计算机运用各类算法对这些图像数据展开处理。依据所采用视觉传感器数量的差异，可分为单目、双目以及多目视觉这几类。

2501_90596733·2025-02-13 00:43

深度学习练手小例子——cifar10数据集分类问题

CIFAR-10是一个经典的计算机视觉数据集，广泛用于图像分类任务。它包含10个类别的60,000张彩色图像，每张图像的大小是32x32像素。

　☆cwlulu·2025-02-12 23:39

【鸿蒙HarmonyOS Next实战开发】多媒体视频播放-GSYVideoPlayer

效果展示：下载安装ohpminstall@ohos/gsyvideoplayerOpenHarmonyohpm环境配置等更多内容，请参考如何安装OpenHarmonyohpm包使用说明规格说明目前支持音视频

阿康2024·2025-02-12 23:06

【鸿蒙HarmonyOS Next实战开发】mp4parser库-音视频裁剪、合成、取帧等操作

mp4parser简介一个读取、写入操作音视频文件编辑的工具。

阿康2024·2025-02-12 23:36

DeepSeek计算机视觉（Computer Vision）基础与实践

计算机视觉（ComputerVision）是人工智能领域的一个重要分支，专注于让计算机理解和处理图像和视频数据。计算机视觉技术广泛应用于图像分类、目标检测、图像分割、人脸识别等场景。

Evaporator Core·2025-02-12 18:27

深度学习语义分割实战：ResNet 与 ViT 结合的模型解析

1.引言语义分割是计算机视觉中的重要任务，其目标是将输入图像中的每个像素分类到特定的类别。

高山仰星·2025-02-12 15:06

计算机视觉8：图像分割

1.图像分割概述图像分割主要分为阈值分割方法和边缘检测等方法。阈值分割方法是提出最早的一种方法。边缘检测方法是被研究的最多的一种分割方法，它试图通过检测包含不同区域的边缘来解决图像分割问题。比如微分算子边缘检测，以及为了降低噪声影响使用多尺度方法提取图像边缘。2.图像分割技术现状图像分割，是将一幅数字图像按照某种目的划分为两个或多个子图像区域。理想的图像分割算法，应该是对所有的图像都能够自动的划分

听说你还在搞什么原创～·2025-02-12 15:03

工作笔记 | 音视频开发与学习提升

工作笔记|音视频开发与学习提升时间：2025年2月6日09:22:32文章目录工作笔记|[音视频开发与学习提升](https://blog.csdn.net/I_feige/article/details

军事研究员·2025-02-12 15:03

【音视频】RTSP拉流: RTP协议头部详解(二)

此文为系列文章，此系列主要讲解RTSP客户端的拉流及播放，文章持续更新，会从rtsp的基本协议讲起，如何一步步实现音视频的拉流过程，包括一系列涉及到的协议，rtsp，sdp，rtp（本系列文章的核心内容会放在

自由柿·2025-02-12 14:31

【2025版】最新AI大模型NLP全面解析，零基础入门到精通，收藏这篇就够了

AI大模型，作为一类具备庞大参数规模与卓越学习能力的神经网络模型，如BERT、GPT等，已在自然语言处理、计算机视觉等多个领域展现出卓越成效，极大地推动了相关领域的技术进步。

程序员二飞·2025-02-12 11:15

【Android 音视频开发打怪升级：音视频硬解码篇】二、音视频硬解码流程：封装基础解码框架(1)

教程代码：【Github传送门】目录一、Android音视频硬解码篇：1，音视频基础知识2，音视频硬解码流程：封装基础解

2401_84132544·2025-02-12 05:57

轻量化网络模型调研报告

一、轻量化网络的为何诞生深度神经网络模型被广泛应用在图像分类、物体检测，目标跟踪等计算机视觉任务中，并取得了巨大成功。

云雨、·2025-02-11 22:35

探索计算机视觉的基石：PASCAL VOC 数据集

探索计算机视觉的基石：PASCALVOC数据集1目标检测PASCALVOC数据集简介项目地址:https://gitcode.com/Resource-Bundle-Collection/dc7bf项目介绍

卢姬铃Edric·2025-02-11 21:26

推荐频道

音视频计算机视觉