视频编码计算机视觉视频云音视频

pyhon+ffmpeg 常用音视频处理命令

只要涉及音视频领域的处理，基本上没有它做不了的事情！通俗点讲，从视频录制、视频编辑再到播放，它都能做！

不再游移·2024-09-16 04:13

季风泯灭的季节·2024-09-16 04:13

个人学习笔记7-6：动手学深度学习pytorch版-李沐

#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换

浪子L·2024-09-16 00:45

计算机视觉中，Pooling的作用

在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。

Wils0nEdwards·2024-09-15 23:06

OpenCV图像处理技术（Python）——入门

©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数

森屿_·2024-09-15 22:32

音视频知识图谱 2022.04

前些时间，我在知识星球上创建了一个音视频技术社群：关键帧的音视频开发圈，在这里群友们会一起做一些打卡任务。

关键帧Keyframe·2024-09-15 22:19

AIGC图生视频技术下的巴黎奥运高光时刻

巴黎奥运会的高光片段中国奥运的夺金时刻动漫风格下的别样风态以下AI动漫视频内容BY「阿里云视频云」智能生成从首金到21金镜头倒转尽情回顾······更多巴黎奥运高光时刻更多AIGC精彩内容可在「新华社官方

阿里云视频云·2024-09-15 21:38

CV、NLP、数据控掘推荐、量化

下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息

海的那边-·2024-09-15 13:47

【物联网技术大作业】设计一个智能家居的应用场景

答：智能家居，又称为智能住宅或家庭自动化，是指运用综合布线、网络通信、安全防范、自动控制及音视频等技术，将家居设施集成

Dream_Chaser～·2024-09-15 10:19

抖音视频搬运如何才能不违规？抖音搬运视频违规有什么后果？

在抖音平台中搬运短视频的人非常多，经常能看到一些视频，别的平台中也会出现，但是又会有所不一样，其实是进行了二次编辑，那么抖音搬运视频怎么做才不会违规呢?➤推荐网购薅羊毛app“氧惠”，一个领隐藏优惠券+现金返利的平台。氧惠只提供领券返利链接，下单全程都在淘宝、京东、拼多多等原平台，更支持抖音、快手电商、外卖红包返利等。（应用市场搜“氧惠”下载，邀请码:521521，全网优惠上氧惠！）➤由于信息差的

氧惠导师·2024-09-15 05:04

WebRTC之LiveKit的基础入门使用（入门必看）

LiveKit本文主要是讲解在Next13+中如何使用LiveKit来实现简单的音视频通话，想了解更多的还是要去官方文档去掌握更复杂、高级的使用方法。

tabzzz·2024-09-14 13:57

Python计算机视觉编程第三章图像到图像的映射

目录单应性变换直接线性变换算法仿射变换图像扭曲图像中的图像分段仿射扭曲创建全景图RANSAC拼接图像单应性变换单应性变换是将一个平面内的点映射到另一个平面内的二维投影变换。在这里，平面是指图像或者三维中的平面表面。单应性变换具有很强的实用性，比如图像配准、图像纠正和纹理扭曲，以及创建全景图像。单应性变换本质上是一种二维到二维的映射，可以将一个平面内的点映射到另一个平面上的对应点。代码如下：impo

一只小小程序猿·2024-09-14 10:32

DIODE：超高分辨率室内室外数据集（猫脸码客第186期）

在计算机视觉和深度学习领域，深度信息作为三维空间感知的重要组成部分，对于实现高级视觉任务如场景理解、机器人导航、增强现实等具有至关重要的作用。

猫脸码客: catCode2024·2024-09-14 10:02

深度学习入门篇：PyTorch实现手写数字识别

手写数字识别简介手写数字识别是计算机视觉领域的一个经典问题，目的是让计算机能够识别并理解手写数字图像。这个问题通常作为深度学习入门的练习，因为

AI_Guru人工智能·2024-09-14 02:43

FFmpeg安装与使用教程

2.FFmpeg简介2.1什么是FFmpegFFmpeg是一个开源的音视频处理库，提供了丰富的

vvvae1234·2024-09-13 23:20

如何实现视频数据的PES打包和传输？

视频编码：使用视频编码器（如H.264、H.265等）对原始视频数据进行编码，生成编码后的视频码流（ES，Elemen

音视频牛哥·2024-09-13 21:40

Android平台轻量级RTSP服务模块技术接入说明

轻量级RTSP服务解决的核心痛点是避免用户或者开发者单独部署RTSP或者RTMP服务，实现本地的音视频数据（如摄像头、麦克风），编码后，汇聚到内置RTSP服务，对外提供可供拉流的RTSPURL，轻量级RTSP

音视频牛哥·2024-09-13 21:09

OpenCV高阶操作

在图像处理与计算机视觉领域，OpenCV（OpenSourceComputerVisionLibrary）无疑是最为强大且广泛使用的工具之一。

富士达幸运星·2024-09-13 19:03

深入掌握大模型精髓：《实战AI大模型》带你全面理解大模型开发！

大型深度学习模型（简称AI大模型）以其强大的表征能力和卓越的性能，在自然语言处理、计算机视觉、推荐系统等领域均取得了突破性的进展。尤其随着AI大模型的广泛应用，无数领域因此受益。AI大模型

努力的光头强·2024-09-13 18:53

计算机视觉—照相机（下）

封面焦距(FieldofView)同一位置相机用不同焦距，28mmFieldofView就变小，85mm时候的Fieldofview也就是只有28度视野，每一个物体在通常尺寸的胶片上像素也就是越多，chromaticAberration焦距和是波长相关，不同颜色光聚焦在不同位置。这种现象在物体边缘尤为明显。颜色颜色说简单也简单，说复杂也复杂，我们在高中物理已经知道可见光是电磁波，不同颜色对应不同波

zidea·2024-09-13 16:41

Python OpenCV精讲系列 - 高级图像处理技术（五）

⚡️⚡️专栏：PythonOpenCV精讲⚡️⚡️本专栏聚焦于Python结合OpenCV库进行计算机视觉开发的专业教程。

极客代码·2024-09-13 11:11

音视频入门基础：WAV专题（11）——FFmpeg源码中计算WAV音频文件每个packet的pts_time、dts_time的实现

=================================================================音视频入门基础：WAV专题系列文章：音视频入门基础：WAV专题（1）——

cuijiecheng2018·2024-09-13 10:34

计算机视觉中的数据增强方法总结

前言：在计算机视觉方向，数据增强的本质是人为地引入人视觉上的先验知识，可以很好地提升模型的性能，目前基本成为模型的标配。最近几年逐渐出了很多新的数据增强方法，在本文将对数据增强做一个总结。

CV技术指南(公众号)·2024-09-13 05:57

计算机视觉中，什么是Hide-and-Seek？

是的，Hide-and-Seek技术主要是在弱监督学习领域中使用的，它的核心思想是通过随机遮掩输入图像的一部分，强迫模型学习更全面的特征，而不是仅仅依赖显著的局部信息。由于弱监督场景下的监督信号有限，例如只有少量的点标注、粗略标注或没有任何标注，模型容易过度依赖于图像中最显著的部分，而忽略其他信息。这种现象会导致模型只关注容易识别的局部特征，而无法理解物体的整体结构或捕捉更多的背景信息。1.Hid

Wils0nEdwards·2024-09-13 04:25

计算机视觉——第三章图像拼接

计算机视觉——第三章图像拼接1.图像全景拼接的原理和过程的简要介绍1.1特征点提取和匹配1.2图像配准1.3图像拼接2.实现多图像拼接2.1图片集说明2.2实验代码2.3实验结果及其分析3.两张不同角度的图像拼接

JMU15980999055·2024-09-12 14:22

计算机视觉学习路线

计算机视觉学习路线是一个系统而全面的过程，涵盖了从基础知识到高级应用的多个方面。

不会代码的小林·2024-09-12 12:11

【Python第三方库】OpenCV库实用指南

读取图像图像基本操作获取图像信息裁剪图像图像缩放图像转换为灰度图图像模糊处理边缘检测图像翻转图像保存视频相关操作方法讲解读取视频从摄像头读取视频前言OpenCV（OpenSourceComputerVisionLibrary）作为一个强大的计算机视觉库

墨辰JC·2024-09-12 12:08

ESRGAN——老旧照片、视频帧的修复和增强，提高图像的分辨率

一、ESRGAN介绍1.1背景超分辨率问题是计算机视觉中的一个重要研究领域，其目标是通过增加像素数量来提高图像的分辨率，恢复出更加细腻的图像。

爱研究的小牛·2024-09-12 11:35

计算机视觉之旅-进阶-图像滤波处理

1.基本概念1.1.数字图像图像处理的对象是数字图像,它是由像素点阵列表示的图像。需要了解像素、图像分辨率、灰度级、RBG等图像表示方法。用numpy数组表示,每个元素为像素值。例如RGB图像 importnumpyasnp img=np.array([[[255,0,0],[0,255,0]],[[0,0,255],[255,255,255]]]) 1.2.采样和量化数字图像是通过采样和量化得到

撸码猿·2024-09-12 11:34

移动应用-音视频播放

一.音频1.Mediaplayer设置数据源的三种方式:应用自带的音频,SD卡中的音频、网络音频MediaPlayerplayer＝newMediaPlayer();player=Mediaplayer.create(this,R.raw.XX);player＝MediaPlayer.setDatasource("SD卡路径/网络路径");设置按钮并添加监听事件,实现音乐的播放、暂停2.Sound

绚烂的萤火·2024-09-12 08:16

探秘3D UNet-PyTorch：高效三维图像分割利器

探秘3DUNet-PyTorch：高效三维图像分割利器在医学影像处理、计算机视觉和自动驾驶等领域，三维图像的理解与分析至关重要。而是一个基于PyTorch实现的深度学习模型，专为三维图像分割任务设计。

鲍凯印Fox·2024-09-12 00:18

论文学习笔记 VMamba: Visual State Space Model

概览这篇论文的动机源于在计算机视觉领域设计计算高效的网络架构的持续需求。

Wils0nEdwards·2024-09-11 23:47

深度学习计算机视觉中 feature modulation 操作是什么？

在深度学习与计算机视觉领域，特征调制（FeatureModulation）是一种用于增强模型灵活性和表达能力的技术，尤其是最近几年，它在许多任务中变得越来越重要。

Wils0nEdwards·2024-09-11 23:17

计算机视觉中，如何理解自适应和注意力机制的关系？

Wils0nEdwards·2024-09-11 23:45

解锁Python中的人脸识别：Face Recognition库详解与应用

在当今的人工智能时代，人脸识别技术已经成为了计算机视觉领域的一项重要应用。无论是在安全监控、社交媒体还是智能设备中，人脸识别都扮演着不可或缺的角色。

码上飞扬·2024-09-11 23:42

OpenCV3最常用的基本操作

OpenCV介绍OpenCV的全称是OpenSourceComputerVisionLibrary，是一个跨平台的计算机视觉库。

HeoLis·2024-09-11 20:37

论文阅读笔记: DINOv2: Learning Robust Visual Features without Supervision

https://arxiv.org/abs/2304.07193代码地址:https://github.com/facebookresearch/dinov2摘要大量数据上的预训练模型在NLP方面取得突破，为计算机视觉中的类似基础模型开辟了道路

小夏refresh·2024-09-11 20:50

2023-06-02《青楼文学与中国文化》陶慕宁64

按说昨天我应该是听完了陶慕宁老师讲的课，但是我的听课记录上显示我没有听完，还是感觉喜马拉雅手机版记录的比较详细，但是喜马拉雅电脑版上的记录没有那么详细，感觉这些音视频软件应该更精准的记录一个人的听课位置

每天坚持·2024-09-11 17:53

神奇酷炫的下拉菜单

下拉菜单目前公司的销售报表上，用有这个功能，真心方便，感谢小哈录制的抖音视频，但操作更简单。

紫藤11·2024-09-11 11:21

01-Flink安装部署及入门案例（仅供学习），音视频时代你还不会NDK开发

先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵

小猪佩琪962·2024-09-11 07:18

Sora文本生成影像模型背后的创新原理与挑战

这款模型将自然语言处理与计算机视觉技术相结合，旨在通过输入文本描述来快速创作出逼真的电影场景，为内容创作者提供了前所未有的艺术表达工具。

noVonN·2024-09-11 06:44

千万级规模高性能、高并发的网络架构经验分享

主题：INTO100沙龙时间：2015年11月21日下午地点：梦想加联合办公空间分享人：卫向军（毕业于北京邮电大学，现任微博平台架构师，先后在微软、金山云、新浪微博从事技术研发工作，专注于系统架构设计、音视频通讯系统

搬砖养女人·2024-09-10 20:35

深度学习驱动下的字符识别：挑战与创新

字符识别作为计算机视觉领域的一个重要研究方向，其主要目的是将各种形式的字符转换成计算机可识别的文本信息。近年来，深度学习技术在字符识别领域取得了显著的进展。

逼子歌·2024-09-10 18:49

【深度学习实战】行人检测追踪与双向流量计数系统【python源码+Pyqt5界面+数据集+训练代码】YOLOv8、ByteTrack、目标追踪、双向计数、行人检测追踪、过线计数

专注于人工智能、AIGC、python、计算机视觉相关分享研究。✌更多学习资源，可关注公-仲-hao:【阿旭算法与机器学习】，共同学习交流~感谢小伙伴们点赞、关注！

阿_旭·2024-09-10 17:39

【激活函数总结】Pytorch中的激活函数详解： ReLU、Leaky ReLU、Sigmoid、Tanh 以及 Softmax

专注于人工智能、AIGC、python、计算机视觉相关分享研究。感谢小伙伴们点赞、关注！《------往期经典推荐------》一、AI应用软件开发实战专栏【链接】项目名称项目名称1.

阿_旭·2024-09-10 16:33

Deep learning for Computer Vision with Python（1）从零开始入门计算机视觉

3.图像网络阶段完成计算机视觉领域的经验积累。使用大规模数据集和真实图片案例作为数据集，包括年龄和性别预测，交通工具模型识别。

Hazelyu27·2024-09-10 16:59

2023-07-25《优势教养》127

20230725四点三十五星期二《优势教养》127昨天晚上睡得早，我八点五十多就到家了，催着孩子们睡觉，孩子们睡的就早，我在水里边洗了一会，拉了几下单杠，顺着老路回来了，昨天温度比较低，感觉能听进去音视频

每天坚持·2024-09-10 14:09

音视频编解码技术（二）：AAC 音频编码技术

一、AAC编码概述AAC是高级音频编码（AdvancedAudioCoding）的缩写，出现于1997年，最初是基于MPEG-2的音频编码技术，目的是取代MP3格式。2000年，MPEG-4标准出台，AAC重新集成了其它技术包括SBR或PS特性，目前AAC可以定义为⼀种由MPEG-4标准定义的有损音频压缩格式二、AAC编码规格简述AAC共有9种规格，以适应不同的场合的需要：MPEG-2AACLC低

音视频开发老马·2024-09-10 12:07

ffplay音视频同步分析

ffplay默认也是采用的这种同步策略。主流程ffplay中将视频同步到音频的主要方案是，如果视频播放过快，则重复播放上一帧，以等待音频；如果视频播放过慢，则丢帧追赶音频。这一部分的逻辑实现在视频输出函数video_refresh中，分析代码前，我们先来回顾下这个函数的流程图：在这个流程中，“计算上一帧显示时长”这一步骤至关重要。先来看下代码：staticvoidvideo_refresh(voi

攻城狮百里·2024-09-10 12:37

H265码流结构

https://blog.csdn.net/weixin_45993872/article/details/141689242（1）H265/HEVC介绍H265也成为HEVC，是在H264基础上的一种全新的视频编码技术

C有点难。·2024-09-10 12:06

推荐频道