计算机视觉视频云音视频视频编码第10页

Vision Transformer（VIT）

ViT在许多计算机视觉任务中取得了与传统卷积神经网络相当的

宫本文藏·2024-02-08 03:09

【深度学习： AutoAugment】使用 AutoAugment 提高深度学习性能

【深度学习：AutoAugment】使用AutoAugment提高深度学习性能结果深度学习在计算机视觉领域的成功可以部分归因于大量标记训练数据的可用性——随着训练数据的质量、多样性和数量的增加，模型的性能通常会提高

jcfszxc·2024-02-08 02:19

【深度学习：计算机视觉】如何改进计算机视觉数据集

【深度学习：计算机视觉】如何改进计算机视觉数据集训练模型并评估性能确定数据集需要改进的原因和位置收集或创建新的图像或视频数据重新训练机器学习模型并重新评估，直到达到所需的性能标准机器学习算法需要大量数据集来训练

jcfszxc·2024-02-08 02:49

嵌入式学习Day16

操作对象是文件2.Linux文件类型:bblock块设备文件按块扫描设备信息的文件存储设备ccharacter字符设备文件按字符扫描设备信息的文件ddirectory目录文件存放文件-普通文件存放数据图片、音视频

万兜鍪:>·2024-02-08 02:13

学习PyTorch中的注意力机制和Transformer架构

1.背景介绍注意力机制和Transformer架构是深度学习领域的重要概念和技术，它们在自然语言处理、计算机视觉等领域取得了显著的成果。

禅与计算机程序设计艺术·2024-02-08 02:13

voip中的h323和sip

.22.1h323架构...22.2sip架构...42.3h323和sip架构voip系统比较...43h323,sip的voip会话过程比较...53.1h323呼叫...53.2sip呼叫...104语音视频协议

book2016·2024-02-08 00:54

VoIP之IP直呼

就是两个SIP终端或终端和服务器之间，通过呼叫（Invite)对方IP地址实现音视频通话的功能。

浪游东戴河·2024-02-08 00:53

探秘深度学习的巅峰之作：ResNet101与其在图像识别领域的革命性应用

ResNet革命2015年在计算机视觉和模式识别会议（CVPR）上介绍的ResNet（残差网络）家族，标志着深度学习图像识别的一个转折点。

程序员Chino的日记·2024-02-07 22:47

Android智能识别 - 银行卡区域裁剪

1.基本概念计算机视觉、智能识别、机器学习2.智能识别需要的基础1>：c/c++语法编程基础；2>：opencv常用基础；3>：图像的算法基础；3.银行卡识别步骤第一步：从相册或者拍照一张银行卡图片，然后截取到银行卡区域

世道无情·2024-02-07 22:58

【计算机视觉】Openvino给yolov5目标检测提速实战

1.摘要目标检测是计算机视觉主要应用方向之一。目标检测通常包括两方面的工作，首先是找到目标，然后就是识别目标。

Sciengineer-Mike·2024-02-07 20:19

2022-4-3晨间日记

今天是什么日子起床：8点半就寝：12点天气：晴心情：一般纪念日：暂无发现叫我起床的不是闹钟是梦想年度目标及关键点：验证商业模式本月重要成果：计划抖音起盘组队今日三只青蛙/番茄钟财务作业抖音小队的框架发抖音视频成功日志

鱼笨自由·2024-02-07 20:47

iOS音视频播放（Audio Unit播放音频+OpenGL ES绘制视频）

+耳返）AudioUnit播放aac/m4a/mp3等文件AudioUnit和ExtendedAudioFile播放音频AUGraph结合RemoteI/OUnit与MixerUnit上面的文章介绍了音视频信息的加载和解析

辉辉岁月·2024-02-07 20:42

异地过年，我要用它看春晚！- Qt趣味开发之基于QtAV的电视播放器

QtAV是一个开源的音视频播放器，支持播放本地文件和网络流媒体。并集成了多种视频渲染方式，使用它的简单的API可以轻松的实现做一个网络电视播放器（我这里在网上找的RTMP的地址）。

douzhq·2024-02-07 19:14

音视频学习之路--NDK交叉编译解析

前言在说C/C++项目时必须要涉及编译问题，本章就来系统的说一下这些知识点，包括linux编译、常用linux指令、交叉编译等等。正文为了方便使用Linux环境，我这里直接在VMWare中安装了一个ubuntu，具体安装的步骤在网上非常多，安装完就是这样：由于好久不玩Linux系统了，这里我也是边搞边学习总结。编译原理这里主要说的是一个C/C++文件要经过下面4个步骤菜能变成可执行文件：预处理(p

蜗牛是不是牛·2024-02-07 19:37

【计算机视觉】目标检测 |滑动窗口算法、YOLO、RCNN系列算法

一、概述首先通过前面对计算机视觉领域中的卷积神经网络进行了解和学习，我们知道，可以通过卷积神经网络对图像进行分类。如果还想继续深入，会涉及到目标定位(objectlocation)的问题。

Yaoyao2024·2024-02-07 18:08

WebRTC和APP互通连麦直播

2017年12月，微信小程序向开发者开放了实时音视频能力，给业内带来广阔的想象空间。连麦直播技术在2016年直播风口中成为视频直播的标配，然而只有在原生的APP上才能保障良好的用户体验。

l362231323·2024-02-07 18:47

实时视频直播客户端技术盘点：Native、HTML5、WebRTC、微信小程序

1、前言2017年12月，微信小程序向开发者开放了实时音视频能力，给业内带来广阔的想象空间。

weixin_33682719·2024-02-07 18:47

webrtc native api的几个要点

文章目录基本流程状态回调类sdp的中媒体行pc对象基本流程webrtcnative的接口，主要就是围绕着PeerConnection对象，一个PeerConnection对象它代表了一次音视频会话。

mo4776·2024-02-07 18:15

音视频开发之旅（40)-贝塞尔曲线和曲面

目录贝塞尔曲线基本知识画贝塞尔曲线让曲线动起来画贝塞尔曲面资料收获本篇最终实现效果如下：篇外说明：由于有必要学习使用下kotlin，后续的java层代码实现尽量采用kotlin一、贝塞尔曲线基本知识贝塞尔曲线法国汽车工程师PierreBézier在1962年在对汽车主体进行设计时的发明，通过贝塞尔曲线可以设计出优美的车身。在PS、Sketch等图形软件上我们也经常会看到通过钢笔icon进行贝塞尔曲

yabin小站·2024-02-07 17:48

深度学习的探索与实践

近年来，深度学习在多个领域取得了显著的进展，尤其在自然语言处理、计算机视觉、语音识别和机器翻译等领域取得了突破性的进展。

爱内卷的学霸一枚·2024-02-07 16:38

音视频开发学习之路--C语言（二）

前言C和C++作为学习音视频技术首要具备的语言基础，所以十分必要学习和复习一下之前学习的C语言基础。

蜗牛是不是牛·2024-02-07 15:03

抖音也能成为学习工具吗？

抖音上的优质视频真的很多，但是因为整个抖音视频数目基数太大，所以优质视频所占比例并不高。大多视频都是无脑的娱乐视频，笑一笑之后，什么也留不下来。

寒玉在长安·2024-02-07 15:34

opencv入门讲解

OpenCV是OpenSourceComputerVisionLibrary的缩写，是一个基于开源发行的跨平台计算机视觉库。

稚肩·2024-02-07 15:33

人工智能 | 深度学习的进展

近年来，深度学习在多个领域取得了显著的进展，尤其在自然语言处理、计算机视觉、语音识别和机器翻译等领域取得了突破性的进展。

卡尔曼的BD SLAMer·2024-02-07 13:02

Android Compose 一个音视频APP——Magic Music Player

MagicMusicAPPMagicMusicAPPMagicMusicAPP概述效果预览-视频资源功能预览Library歌曲播放效果预览歌曲播放依赖注入设置播放源播放进度上一首&下一首UI响应歌词歌词解析解析成行逐行解析视频播放AndroidView引入Exoplayer自定义Exoplayer样式横竖屏切换歌曲多任务下载下载处理通知栏前台服务媒体服务下载服务Other评论搜索搜索结果登录歌手详

FranzLiszt1847·2024-02-07 12:34

姿态估计概述

目前分类两类：单人和多人基于计算机视觉的人体姿态佶计不需要额外的穿戴设备，该技术比传统的穿戴式动作捕捉技术成本更加低廉且灵活性更高人体姿态表示形式1.二位坐标关键点（人体主要关节）表达方式以二位坐标的形式

Diros1g·2024-02-07 11:40

Android14音频进阶：MediaPlayerService如何启动AudioTrack 下篇(五十六)

简介：CSDN博客专家，专注Android/Linux系统，分享多mic语音方案、音视频、编解码等技术，与大家一起成长！

Android系统攻城狮·2024-02-07 11:39

RTE2023第九届实时互联网大会：揭秘未来互联网趋势，PPT分享引领行业新思考

一、大会内容概览RTE2023第九届实时互联网大会聚焦实时互联网领域的最新动态和前沿技术，涵盖了音视频通信、互动直播、在线教育、远程医疗等多个热门议题。与会者

百家峰会·2024-02-07 10:26

2022-11-29

心情特别郁闷，这也怪我，本来就是通过百度资料和抖音视频获得的素材写的，谁知道会违规呢？而且，头条平台也扣了我50%的权益信用度，唉，倒霉透顶！算了，洗洗睡觉。

潇洒参悟般若·2024-02-07 09:09

挑战杯 python+深度学习+opencv实现植物识别算法系统

laafeer·2024-02-07 09:23

人工智能(pytorch)搭建模型24-SKAttention注意力机制模型的搭建与应用场景

今天给大家介绍一下人工智能(pytorch)搭建模型24-SKAttention注意力机制模型的搭建与应用场景，本文将介绍关于SKAttention注意力机制模型的搭建，SKAttention机制具有灵活性和通用性，可应用于计算机视觉

微学AI·2024-02-07 08:41

计算机视觉 | OpenCV 实现手势虚拟控制亮度和音量

Hi，大家好，我是半亩花海。在当今科技飞速发展的时代，我们身边充斥着各种智能设备，然而，如何更便捷地与这些设备进行交互却是一个不断被探索的课题。本文将主要介绍一个基于OpenCV的手势识别项目，通过手势来控制电脑屏幕亮度和音量大小，为用户提供了一种全新的交互方式。目录一、代码拆解1.导入必要库2.手部关键点类3.数据格式转换4.画手势关键点5.手势状态缓冲处理6.画直线7.屏幕亮度和音量控制8.初

半亩花海·2024-02-07 07:12

Android14音频进阶：MediaPlayerService如何启动AudioTrack 上篇(五十五)

简介：CSDN博客专家，专注Android/Linux系统，分享多mic语音方案、音视频、编解码等技术，与大家一起成长！

Android系统攻城狮·2024-02-07 06:43

【计算机视觉】浅谈计算机视觉中的Transformer

浅谈计算机视觉中的Transformer摘要：1.Transformer网络结构2.计算机视觉中的Transformer2.1图像分类2.2目标检测3.典型实验典型实验详解：实验目的：实验设置：数据集：

沐风—云端行者·2024-02-07 05:43

深度学习的进展

深度学习近年来的进展在各个领域均展现出非凡的实力，以下将进一步详述几个关键领域的具体突破和应用：1.计算机视觉图像分类与识别：随着深度卷积神经网络的发展，如AlexNet、VGG、Inception系列

李建军·2024-02-07 01:20

ethz_aslam_cv2(一) 简介

Introductionaslam_cv2库是ETHZASL团队开源的一个计算机视觉库，主要针对常用的一些算法和数据结构进行了封装。

bingoplus·2024-02-07 01:20

2021.9.9工作总结

一今日总结1.校区卫生大扫除，三楼二号教室拖，擦整理，四楼四号三号及隔间拖地1h2.校区会议40min3.抖音视频拍摄协助40min4.雨滴app作业布置批改1.5h5.两节助教课工作，课前准备，课中课后反馈制作

逗逗奶·2024-02-06 22:37

浅压缩、深压缩、双引擎、计算机屏幕编码……何去何从？

这么不靠谱的网络上能担当起专业音视频所需要的高画质、高度同步和低延时？但是分布式音视频带给人们的体验确实是革命性的，因此吸引了众多的行业精英倾其所

_君莫笑·2024-02-06 22:44

第43周+领队两毛四+《关于脑卒中(中风)的院前急救那点事》+#新学霸社群

前两天在急救群里聊天，有一个群友发了一个抖音视频，BTV养生堂节目关于脑中风(脑卒中)的急救的，妥妥滴中医救法，打完120前提下，给病人十指放血(3～4滴)，然后给耳垂放血，说是这样可以缓解脑卒中的后遗症

领队两毛四·2024-02-06 21:19

机器学习概述及流程

三、人工智能主要分支1、计算机视觉（CV）2、自然语言处理（NLP）：文本挖掘/分类、机器翻译、语音识别3、机器人四、机器学习工作流程简介从数据中自动分析获得模型，再利用模型对未知数据进行预测。

机智的冷露·2024-02-06 19:36

[AIGC] 计算机视觉（CV）技术的优势：

计算机视觉（CV）技术的优势：高效性：计算机视觉技术可以快速地处理大量的图像和视频数据，比人类更高效。它可以在短时间内完成复杂的图像分析和对象识别任务。

程序员三木·2024-02-06 18:57

被剽窃了，宝宝不开心

昨天，在测试用微信小程序实现实时音视频的过程中，又又又踩了坑。于是冲冠一怒，决定把最近在做这个功能时，踩过的所有坑都做个总结。

妖精不语·2024-02-06 15:38

PyTorch（超详细）部署与激活举起Python火炬，点亮智慧人生【Windows版】

PyTorch可以用于以下领域：计算机视觉：图像分类、目标检测、图像分割、人脸识别等。自然语言处理：机器翻译、文本分类、情感分析、问答系统等。语音处理：语音识别、语音合成、说话人识别等。生

心安成长·2024-02-06 14:04

大话成像之《图像质量测试测量与国际标准》课程

在手机相机，监控相机，无人机相机，运动相机，工业相机，甚至人体内窥相机，车载相机，计算机视觉相机等新兴领域都经历着从无到有，从小到大的巨变。伴随着这种迅速的产业变化，因应而生的对新技术人才需求的变化。

maver jiang·2024-02-06 10:01

【多语言环境数据采集/挖掘】电商平台商品API接口的数据采集要点（附平台代码）

数据采集/挖掘的范围也从数字文字扩展到音视频，数据采集/挖掘的重点也逐步转为用户使用行为数据上。在数据采集/挖掘产品不断发展过程中，也出现了数据安全、

电商数据girl·2024-02-06 10:58

YOLO-World——超级轻量级开放词汇目标检测方法

前言目标检测一直是计算机视觉领域中不可忽视的基础挑战，对图像理解、机器人技术和自主驾驶等领域具有广泛应用。随着深度神经网络的发展，目标检测方面的研究取得了显著进展。

知来者逆·2024-02-06 10:28

从小白到入门webrtc音视频通话

1.音视频通话要用到的技术简介websocket介绍：1.服务器可以向浏览器推送信息；2.一次握手成功，可持续互相发送信息在音视频通话钟的作用：1.作为音视频两个通话终端的桥梁，传递彼此上下线、网络环境等消息

just_you_java·2024-02-06 09:55

Days 20 ElfBoard 板 FFmpeg移植

它提供了录制、转换以及流化音视频的完整解决方案。

chriss854·2024-02-06 07:37

【视频编码\VVC】变换编码基础知识及标准设计相关参数

变化编码的基础知识定义：变换编码是将以空间域像素形式描述的图像转换至变换域，以变换系数的形式加以表示。大部分图像都包含较多平坦区域和内容变化缓慢的区域，使得图像能量在空间域的分散转换为变换域的相对集中分布，从而达到空间去冗余的目的。变换概述选用DCT变换的原因：DCT形式与输入信号无关并且存在快速实现算法，并且性能接近K-L变换。H.264第一次使用了整数DCTH.265沿用了整数DCT，进行了不

鴒凰·2024-02-06 06:39

ubuntu22.04@laptop OpenCV Get Started: 001_reading_displaying_write_image

应用Demo2.1C++应用Demo2.2Python应用Demo3.过程分析3.1导入OpenCV库3.2读取图像文件3.3显示图像3.4保存图像文件4.总结5.参考资料1.源由读、写、显示图像作为计算机视觉

lida2003·2024-02-06 06:39

推荐频道

计算机视觉视频云音视频视频编码