音视频计算机视觉

Python 几分钟就把视频语音识别为文本了，不到10行代码

Whisper这个方案就是OpenAI开源的Whisper，当然是用Python写的了，只需要简单安装几个包，然后几行代码一写，稍等片刻（根据你的机器性能和音视频长度不一），最终的文本内容就出来了，就是这么简单

奔向理想的星辰大海·2025-03-27 07:02

智能算法治理与多领域技术创新

围绕这一框架，需构建覆盖数据标注、特征工程、超参数调优的全流程治理机制，同时重点探讨生成对抗网络在推荐系统中的动态适配、注意力机制对计算机视觉任务的空间复杂度

智能计算研究中心·2025-03-27 02:23

初识TensorFlow：机器学习与深度学习的探索

从计算机视觉到自然语言处理（NLP），这些模型成为了合成的，或者说人造的智能。本篇博客将基于第一章的内容，探讨什么是机器学习，以及如何使用T

韩锋裂变营销·2025-03-26 20:38

基于深度学习的水果识别系统

1.引言随着计算机视觉技术的快速发展，基于深度学习的水果识别系统在农业、超市等场景中具有广泛的应用前景。

A等天晴·2025-03-26 17:51

与 AI “对话”，多模态音视频交互

与AI“对话”，多模态音视频交互引入多模态音视频交互未来展望引入在快节奏的生活中，人们对于高效沟通的需求日益增长。

csdn565973850·2025-03-26 16:39

用OpenCV实现图像识别的10个基础算法

OpenCV是一个强大的计算机视觉库，广泛用于图像和视频处理。它支持多种编程语言，Python版本尤其受欢迎！通过OpenCV，你可以轻松实现图像识别、处理等任务。

欧子有话说·2025-03-26 13:50

YOLO11改进-注意力-引入自调制特征聚合模块SMFA

随着深度学习在计算机视觉中的不断进展，目标检测任务也在快速发展。YOLO系列模型（YouOnlyLookOnce）一直因其高效和快速而备受关注。

一勺汤·2025-03-26 06:54

音视频基础能力之 Android 音频篇（三）：高性能音频采集

涉及硬件的音视频能力，比如采集、渲染、硬件编码、硬件解码，通常是与客户端操作系统强相关的，就算是跨平台的多媒体框架也必须使用平台原生语言的模块来支持这些功能本系列文章将详细讲述移动端音视频的采集、渲染、

声知视界·2025-03-26 05:16

Android音视频开发入门（1）基础概要

AAC一种专门为声音数据设计的文件压缩格式，与MP3不同，它采用了全新的算法进行编码，更加高效和高性价比。利用AAC格式，在感觉声音质量没有明显降低的前提下（并且音质比MP3更好），可使文件更加小巧。缺点：有损压缩，与时下流行的APE、FLAC等无损压缩格式相比存在“本质上”的差距。MP3一种音频压缩技术。它被设计用来大幅度地降低音频数据量。利用MP3，将音乐以1：10甚至1：12的压缩率，压缩成

2401_85730347·2025-03-26 05:45

Flutter-WebRTC：跨平台实时通信的利器

无论是社交应用、在线教育还是远程工作，高质量的音视频通信都是提升用户体验的关键。今天，我们要介绍的是一个强大的开源项目——Flutter-WebRTC，它为开发者提供了一个跨平台的解

傅尉艺Maggie·2025-03-26 04:40

Flutter技术调研报告：使用Flutter实现WebRTC

WebRTC（Web实时通信）是一种用于在Web浏览器和移动应用程序之间进行实时音视频通信的开源项目。在本篇文章中，我们将探讨如何使用Flutter框架实现WebRTC功能。

RqbaGcp·2025-03-26 04:40

OpenCV 基础全方位剖析：夯实计算机视觉开发根基

在计算机视觉的广袤领域中，OpenCV是一座极为关键的里程碑。

2201_75491841·2025-03-26 00:09

基于Python卷积神经网络的Mnist手写数字识别

文章目录一项目简介二、功能三、系统四.总结一项目简介一、项目背景与意义手写数字识别是机器学习和计算机视觉领域中的一个经典问题。

2301_79809972·2025-03-25 20:12

AI在个性化广告创意生成中的应用

AI在个性化广告创意生成中的应用关键词：AI、个性化广告创意生成、用户画像、深度学习、自然语言处理、计算机视觉摘要：本文深入探讨了AI在个性化广告创意生成中的应用。

杭州大厂Java程序媛·2025-03-25 16:10

YOLO编程：开启计算机视觉的神奇之门

目录一、从神奇的AI应用说起二、YOLO是什么三、YOLO的独特优势（一）速度为王（二）精度可靠（三）部署便捷四、YOLO的工作流程揭秘（一）图像分割与网格划分（二）目标预测与数据输出（三）结果筛选与最终确定五、YOLO编程实践（一）准备工作（二）模型训练（三）模型推理六、YOLO的应用领域大放异彩（一）安防监控（二）自动驾驶（三）工业检测（四）无人机领域七、总结与展望一、从神奇的AI应用说起在科

大雨淅淅·2025-03-25 07:37

MediaPipe：实时多媒体处理框架

MediaPipe具有高度可扩展性和灵活性，适用于各种应用领域，包括计算机视觉、增强现实、虚拟现实和音频处理等。

KsClang·2025-03-25 05:16

MediaPipe实时机器学习框架

MediaPipeMediaPipe是Google推出的一个实时机器学习框架，主要用于手势识别、人体姿态追踪、人脸检测等计算机视觉任务。

EngineerSuTao·2025-03-25 05:14

大模型微调方法之Delta-tuning

本次讨论的1大模型业务分类当前的大模型行业可谓百花齐放，自然语言处理（naturallanguageprocessing,NLP）、计算机视觉（computervision,CV）、音频处理（audioprocessing

空白II·2025-03-24 20:09

FFmpeg 命令行全解析：高效音视频处理从入门到精通

FFmpegFFmpeg是一款开源的多媒体处理工具集，支持音视频编解码、格式转换、流媒体处理等全链路操作。

码流怪侠·2025-03-24 19:33

SpringCloud-使用FFmpeg对视频压缩处理

FFmpeg作为一个强大的开源工具，广泛应用于音视频的处理，包括视频的压缩和格式转换等。本文将通过Java代码示例，向您展示如何使用FFmpeg进行视频压缩，并介绍相关参数的设置。

rgrgrwfe·2025-03-24 19:31

2025年第二届机器学习与神经网络国际学术会议(MLNN 2025)

www.icmlnn.org时间：2025年4月22-24日地点：中国-重庆简介2025年第二届机器学习与神经网络国际学术会议（MLNN2025）围绕学习系统与神经网络的核心理论、关键技术和应用展开讨论，涵盖深度学习、计算机视觉

分享学术科研与论文的禁小默·2025-03-24 14:19

目标检测领域总结：从传统方法到 Transformer 时代的革新

目标检测领域总结：从传统方法到Transformer时代的革新目标检测是计算机视觉领域的一个核心任务，它的目标是从输入图像中识别并定位出目标物体。随着深度学习的兴起，目标检测方法已经取得了显著的进展。

DoYangTan·2025-03-24 08:57

WebRTC：构建实时通信应用的利器

而WebRTC（WebReal-TimeCommunication）则为开发者提供了一种简便的方式，来在浏览器中实现实时的音视频通信和数据传输。

Hello-ZHE·2025-03-24 05:33

深入浅出 WebRTC 通信原理：从点对点到多人会议的全方位解析

随着远程办公和在线协作的普及，音视频通信的需求日益增长。

ADFVBM·2025-03-24 05:01

Radiance Fields from VGGSfM和Mast3r:两种先进3D重建方法的比较与分析

VGGSfM和Mast3r:3D场景重建的新方向在计算机视觉和3D重建领域,如何从2D图像重建3D场景一直是一个充满挑战的研究课题。

2401_87458718·2025-03-24 05:31

【论文阅读】实时全能分割模型

文章目录导言1、论文简介2、论文主要方法3、论文针对的问题4、论文创新点总结导言在最近的计算机视觉领域，针对实时多任务分割的需求日益增长，特别是在交互式分割、全景分割和视频实例分割等多种应用场景中。

万里守约·2025-03-23 22:04

大模型学习终极指南：从新手到专家的必经之路，全网最详尽解析，你敢挑战吗？

随着人工智能技术的飞速发展，大模型（Large-ScaleModels）已经成为推动自然语言处理（NLP）、计算机视觉（CV）等领域进步的关键因素。

大模型入门教程·2025-03-23 17:15

AI大模型训练教程

1.引言随着人工智能技术的快速发展，大模型（如GPT-3、BERT等）在自然语言处理、计算机视觉等领域取得了显著的成果。训练一个大模型需要大量的计算资源、数据和专业知识。

Small踢倒coffee_氕氘氚·2025-03-23 12:07

Opencv之计算机视觉一

一、环境准备使用opencv库来实现简单的计算机视觉。

闭月之泪舞·2025-03-23 11:31

计算机视觉总结

以下是针对上述问题的详细解答，并结合代码示例进行说明：1.改进YOLOv5人脸检测模块，复杂光照场景准确率从98.2%提升至99.5%优化具体过程：光照补偿：在数据预处理阶段，采用自适应光照补偿算法，对图像进行实时增强，以减少光照变化对人脸检测的影响。数据增强：在训练数据中增加复杂光照场景下的样本，如强光、弱光、背光等，通过数据增强提高模型对不同光照条件的适应性。模型调整：对YOLOv5模型的网络

Trank-Lw·2025-03-23 11:30

景联文科技：以高质量数据标注推动人工智能领域创新与发展

在当今这个由数据驱动的时代，高质量的数据标注对于推动机器学习、自然语言处理（NLP）、计算机视觉等领域的发展具有不可替代的重要性。

景联文科技·2025-03-23 09:45

OpenCV 4.2.0与扩展模块安装与应用指南

本文还有配套的精品资源，点击获取简介：OpenCV4.2.0是一个先进的计算机视觉库，包含了图像处理、计算机视觉和机器学习算法。

土城三富·2025-03-23 08:35

OpenCV ML 模块使用指南

一、模块概述OpenCV的ML模块提供了丰富的机器学习算法，可用于解决各种计算机视觉和数据分析问题。

ice_junjun·2025-03-23 07:02

抖音视频数据获取实战：从API调用到热门内容挖掘

爱搞技术的猫猫·2025-03-23 05:35

C++基础系列【26】排序和查找算法

博主介绍：程序喵大人35-资深C/C++/Rust/Android/iOS客户端开发10年大厂工作经验嵌入式/人工智能/自动驾驶/音视频/游戏开发入门级选手《C++20高级编程》《C++23高级编程》等多本书籍著译者更多原创精品文章

程序喵大人·2025-03-22 23:15

初始OpenCV

OpenCV是一个功能强大、应用广泛的计算机视觉库，它为开发人员提供了丰富的工具和算法，可以帮助他们快速构建各种视觉应用。随着计算机视觉技术的不断发展，OpenCV也将会继续发挥重要的作用。

指尖下的技术·2025-03-22 22:41

【人工智能】大模型的幻觉问题：DeepSeek 的解决策略与实践

《PythonOpenCV从菜鸟到高手》带你进入图像处理与计算机视觉的大门！

蒙娜丽宁·2025-03-22 13:29

AI时代个人财富增长实战指南：从零基础到精通变现的完整路径

本文基于人工智能技术发展规律，结合互联网经济底层逻辑，为普通从业者构建系统性AI应用框架）一、建立AI认知基础：技术理解与工具掌握技术分类认知人工智能工具分为四大功能模块：自然语言处理（文本生成、对话交互）、计算机视觉

A达峰绮·2025-03-22 10:38

【北上广深杭大厂AI算法面试题】计算机视觉篇...如何解决多尺度问题？

【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？【北上广深杭大厂AI算法面试题】计算机视觉篇…如何解决多尺度问题？

努力毕业的小土博^_^·2025-03-22 10:07

计算机视觉技术探索：美颜SDK如何利用深度学习优化美颜、滤镜功能？

时下，计算机视觉+深度学习正在重塑美颜技术，通过智能人脸检测、AI滤镜、深度美肤、实时优化等方式，让美颜效果更加自然、精准、个性化。那么，美颜SDK如何结合深度学习来优化美颜和滤镜功能？

美狐美颜sdk·2025-03-22 04:10

车牌识别技术揭秘：如何用 C# 实现自动车牌识别系统

车牌识别（LicensePlateRecognition，LPR）是一项计算机视觉技术，用于自动识别车辆的车牌号码。在实际应用中，车牌识别技术被广泛用于停车场管理、交通监控和安防系统等领域。

威哥说编程·2025-03-22 02:48

10.2 如何解决从复杂 PDF 文件中提取数据的问题？

方法：使用计算机视觉和深度学习技术，如卷积神经网络（CNN）或其他先进的图像处理算法。效果：能够检测出页面

墨染辉·2025-03-21 21:33

211 本硕研三，已拿 C++ 桌面应用研发 offer，计划转音视频或嵌入式如何规划学习路线？

今天给大家分享的是一位粉丝的提问，211本硕研三，已拿C++桌面应用研发offer，计划转音视频或嵌入式如何规划学习路线？

程序员yt·2025-03-21 20:29

探索Sfm-python: 一款强大的计算机视觉库

探索Sfm-python:一款强大的计算机视觉库去发现同类优质开源项目:https://gitcode.com/在计算机视觉领域，Sfm-python是一个值得关注的开源项目，它以简洁高效的Python

缪昱锨Hunter·2025-03-21 17:25

常见经典目标检测算法

ChatGPT目标检测（ObjectDetection）是计算机视觉领域的一个重要分支，其目的是识别数字图像中的不同对象，并给出它们的位置和类别。近年来，许多经典的目标检测算法被提出并广泛应用。

109702008·2025-03-21 15:39

RTSP协议规范与SmartMediaKit播放器技术解析

在实时流媒体传输领域，RTSP（Real-TimeStreamingProtocol）协议作为标准规范，为音视频数据的高效传输提供了坚实基础。

音视频牛哥·2025-03-21 12:14

使用Python下载抖音短视频：完整教程与代码解析

幸运的是，通过Python编程，我们可以实现抖音视频的下载。本文将详细介绍如何使用Python下载抖音短视频，并解析一个完整的代码示例。

cnh6070·2025-03-21 06:23

AI 大模型应用数据中心的数据迁移架构

AI大模型、数据中心、数据迁移、架构设计、迁移策略、性能优化、安全保障1.背景介绍随着人工智能（AI）技术的飞速发展，大规模AI模型的应用日益广泛，涵盖了自然语言处理、计算机视觉、语音识别等多个领域。

AGI大模型与大数据研究院·2025-03-21 03:34

暗光增强技术研究进展与产品落地综合分析（2023-2025）

一、引言暗光增强技术作为计算机视觉与移动影像领域的核心研究方向之一，近年来在算法创新、硬件适配及产品落地方面取得了显著进展。

AndrewHZ·2025-03-21 02:21

TypeScript语言的计算机视觉

使用TypeScript进行计算机视觉：一个现代化的探索引言随着人工智能和机器学习的快速发展，计算机视觉（ComputerVision）成为了一个极具活力的研究领域。

苏墨瀚·2025-03-21 00:10

推荐频道