一、音视频相关的基本概念

一、视频的相关概念

什么是视频

连续的图像变化每秒超过 24 帧(frame,fps) 画面以上时,根据视觉暂留原理,人眼无法 辨别单幅的静态画面;看上去是平滑连续的视觉效果,这样连续的画面叫做视频

视频帧

,是视频的一个基本概念,表示一张画面,如上面的翻页动画书中的一页,就是一帧。 一个视频就是由许许多多帧组成的。

帧率

单位时间内帧的数量,单位为:帧/秒 或 fps(frames per second)。如动画书中,一秒内包含多少张图片, 图片越多,画面越顺滑,过渡越自然。

帧率的一般以下几个典型值:29.97, 30000/1001

  • 1)24/25 fps:1 秒 24/25 帧,一般的电影帧率;
  • 2)30/60 fps:1 秒 30/60 帧,游戏的帧率,30 帧可以接受,60 帧会感觉更加流畅逼 真。
  • 85 fps 以上人眼基本无法察觉出来了,所以更高的帧率在视频里没有太大意义。

色彩空间

这里我们只讲常用到的两种色彩空间。

  • 1)RGB:RGB 的颜色模式应该是我们最熟悉的一种,在现在的电子设备中应用广泛。 通过 R G B 三种基础色,可以混合出所有的颜色;
  • 2)YUV:这里着重讲一下 YUV,这种色彩空间并不是我们熟悉的。这是一种亮度色度分离的色彩格式。
    早期的电视都是黑白的,即只有亮度值,即 Y。有了彩色电视以后,加入了 UV 两种色 度,形成现在的 YUV,也叫 YCbCr。
    1)Y:亮度,就是灰度值。除了表示亮度信号外,还含有较多的绿色通道量;
    2)U:蓝色通道与亮度的差值;
    3)V:红色通道与亮度的差值。
    如下图,可以看到 Y、V、U 3 个分量的效果差值。
    一、音视频相关的基本概念_第1张图片

采用 YUV 有什么优势呢?

人眼对亮度敏感对色度不敏感,比如,在晚上,一个物件是啥颜色,可能根本看不出来,因此减少部分 UV 的数据量,人眼却无法感知出来,这 样可以通过压缩 UV 的分辨率,在不影响观感的前提下,减小视频的体积。

二、音频相关概念

基本知识

音频数据的承载方式最常用的是脉冲编码调制,即 PCM

在自然界中,声音是连续不断的,是一种模拟信号,那怎样才能把声音保存下来呢? 那就是把声音数字化,即转换为数字信号。

我们知道声音是一种波,有自己的振幅和频率,那么要保存声音,就要保存声音在各个 时间点上的振幅。

而数字信号并不能连续保存所有时间点的振幅,事实上,并不需要保存连续的信号, 就可以还原到人耳可接受的声音。

根据奈奎斯特采样定理:为了不失真地恢复模拟信号,采样频率应该不小于模拟信号频谱 中最高频率的 2 倍。

根据以上分析,PCM 的采集步骤分为以下步骤:
模拟信号 -> 采样 -> 量化 -> 编码 -> 数字信号

音频到底是什么?

  • 音频这个专业业术语,人类能够听到的所有声音都称之为音频,它可能包括噪音、 声音 被录制下来以后,无论是说话声、歌声、乐器都可以通过数字音乐软件处理。
  • 把它制作成 CD,这时候所有的声音没有改变,因为 CD 本来就是音频文件的一种类型。
  • 音频只是储存在计算机里的声音。演讲和音乐,如果有计算机加上相应的音频卡 – 就 是我们经常说的声卡,我们可以把所有的声音录制下来,声音的声学特性,音的高低都可以用计算机硬盘文件的方式储存下来。反过来,我们也可以把储存下来的音频文件通过一定的 音频程序播放,还原以前录下的声音。

采样率和采样位数

采样率,即采样的频率。

  • 上面提到,采样率要大于原声波频率的 2 倍,人耳能听到的最高频率为 20kHz,所以为 了满足人耳的听觉要求,采样率至少为 40kHz,通常为 44.1kHz,更高的通常为 48kHz。
    注意:人耳听觉频率范围[20Hz, 20KHz]

采样位数

  • 涉及到上面提到的振幅量化。波形振幅在模拟信号上也是连续的样本值,而在数字信 号中,信号一般是不连续的,所以模拟信号量化以后,只能取一个近似的整数值,为了记录 这些振幅值,采样器会采用一个固定的位数来记录这些振幅值,通常有 8 位、16 位、32 位。
    注意:位数越多,记录的值越准确,还原度越高。但是占用的硬盘空间越大。

一、音视频相关的基本概念_第2张图片

音频编码

  • 由于数字信号是由 0,1 组成的,因此,需要将幅度值转换为一系列 0 和 1 进行存储,也 就是编码,最后得到的数据就是数字信号:一串 0 和 1 组成的数据。

声道数

声道数,是指支持能不同发声(注意是不同声音)的音响的个数。
一、音视频相关的基本概念_第3张图片

码率(比特率)

码率,是指一个数据流中每秒钟能通过的信息量,单位 bps(bit per second)。

码率 = 采样率 * 采样位数 * 声道数

音频格式

  • 是指要在计算机内播放或是处理音频文件,也就是要对声音文件进行数、模转换,这 个过程同样由采 样和量化构成,人耳所能听到的声音,最低的频率是从 20Hz 起一直到最 高频率 20KHZ,20KHz 以上人耳是听不到 的,因此音频文件格式的最大带宽是 20KHZ, 故而采样速率需要介于 40~50KHZ 之间,而且对每个样本需要更多的量化比特数。
  • 音频数字化的标准是每个样本 16 位-96dB 的信噪比,采用线性脉冲编码调制 PCM, 每一量化步长都 具有相等的长度。在音频文件的制作中,正是采用这一标准。
  • 常见的音频格式有:CD 格式、WAVE(*.WAV)、 AIFF、MP3、MIDI、 AAC、WMA、 OggVorbis。

三、为什么要编码

这里的编码和上面音频中提到的编码不是同一个概念,而是指压缩编码

我们知道,在计算机的世界中,一切都是 0 和 1 组成的,音频和视频数据也不例外。 由于音视频的数据量庞大,如果按照裸流数据存储的话,那将需要耗费非常大的存储空 间,也不利于传送。

而音视频中,其实包含了大量 0 和 1 的重复数据,因此可以通过一定的算法来压缩这些 0 和 1 的数据。

特别在视频中,由于画面是逐渐过渡的,因此整个视频中,包含了大量画面/像素的重复, 这正好提供了非常大的压缩空间。

因此,编码可以大大减小音视频数据的大小,让音视频更容易存储和传送。

那么,未经编码的原始音视频,数据量至底有多大?
以一个分辨率 1920×1280,帧率 30 的视频为例:
共:1920×1280=2,073,600(Pixels 像素),每个像素点是 24bit;
也就是:每幅图片 2073600×24=49766400 bit,8 bit(位)=1 byte(字节);
所以:49766400bit=6220800byte≈6.22MB。
这是一幅 1920×1280 图片的原始大小(6.22MB),再乘以帧率 30。
也就是说:每秒视频的大小是 186.6MB,每分钟大约是 11GB,一部 90 分钟的电影,约 是 1000GB。。。

视频编码

视频编码格式有很多,比如 H26x 系列和 MPEG 系列的编码,这些编码格式都是为了适 应时代发展而出现的。

  • H26x(1/2/3/4/5)系列ITU(International Telecommunication Union)国际电讯 联盟主导
  • MPEG(1/2/3/4)系列MPEG(Moving Picture Experts Group, ISO 旗下的组织) 主导。

当然,他们也有联合制定的编码标准,那就是现在主流的编码格式 H264,当然还有下 一代更先进的压缩编码标准 H265。

所谓视频编码方式就是指能够对数字视频进行压缩或者解压缩(视频解码)的程序或者 设备。通常这种压缩属于有损数据压缩。也可以指通过过特定的压缩技术,将某个视频格式 转换成另一种视频格式。常见的编码方式有:

1,H.26X 系列 (由 ITU[国际电传视讯联盟]主导)包括 H.261、H.262、H.263、H.264、 H.265。

  1. H.261:主要在老的视频会议和视频电话产品中使用。
  2. H.263:主要用在视频会议、视频电话和网络视频上。
  3. H.264:H.264/MPEG-4 第十部分,或称 AVC(Advanced Video Coding,高级视频 编码),是一种视频压缩标准,一种被广泛使用的高精度视频的录制、压缩和发布格式。
  4. H.265:高效率视频编码(High Efficiency Video Coding,简称 HEVC)是一种视频 压缩标准,H.264/MPEG-4 AVC 的继任者。HEVC 被认为不仅提升图像质量,同时也 能达到 H.264/MPEG-4 AVC 两倍之压缩率(等同于同样画面质量下比特率减少了 50%),可支持 4K 分辨率甚至到超高画质电视,最高分辨率可达到 8192×4320(8K 分辨率),这是目前发展的趋势。直至 2013 年,Potplayer 添加了对于 H.265 视频的 解码,尚未有大众化编码软件出现。

2,MPEG 系列(由 ISO[国际标准组织机构]下属的 MPEG[运动图象专家组]开发 )视频编 码方面主要有:

  1. MPEG-1 第二部分(MPEG-1 第二部分主要使用在 VCD 上,有些在线视频也使用这 种格式。该编解码器的质量大致上和原有的 VHS 录像带相当。)
  2. MPEG-2 第二部分(MPEG-2 第二部分等同于 H.262,使用在 DVD、SVCD 和大多 数数字视频广播系统和有线分布系统(cable distribution systems)中。)
  3. MPEG-4 第二部分(MPEG-4 第二部分标准可以使用在网络传输、广播和媒体存储 上。比起 MPEG-2 和第一版的 H.263,它的压缩性能有所提高。)
  4. MPEG-4 第十部分(MPEG-4 第十部分技术上和 ITU-TH.264 是相同的标准,有时 候也被叫做“AVC”)最后这两个编码组织合作,诞生了 H.264/AVC 标准。ITU-T 给这个 标准命名为 H.264,而 ISO/IEC 称它为 MPEG-4 高级视频编码(Advanced Video Coding,AVC)

3,其他系列:
AMV · AVS · Bink · CineForm · Cinepak · Dirac · DV · Indeo · Video · Pixlet · RealVideo · RTVideo · SheerVideo · Smacker · SorensonVideo · Theora · VC-1 · VP3 · VP6 · VP7 · VP8 · VP9 · WMV。因为以上编码方式不常用, 不再介绍。

音频编码

原始的 PCM 音频数据也是非常大的数据量,因此也需要对其进行压缩编码。
和视频编码一样,音频也有许多的编码格式,如:WAV、MP3、WMA、APE、FLAC 等 等,音乐发烧友应该对这些格式非常熟悉,特别是后两种无损压缩格式。

AAC 是新一代的音频有损压缩技术,一种高压缩比的音频压缩算法。
在 MP4 视频中的音频数据,大多数时候都是采用 AAC 压缩格式。

AAC 格式主要分为两种:ADIFADTS

  • 1)ADIF:Audio Data Interchange Format。音频数据交换格式
    这种格式的特征是可以确定的找到这个音频数据的开始,不需进行在音频数据流中间开 始的解码,即它的解码必须在明确定义的开始处进行。这种格式常用在磁盘文件中。
    ADIF 只有一个统一的头,所以必须得到所有的数据后解码。

  • 2)ADTS:Audio Data Transport Stream。音频数据传输流
    这种格式的特征是它是一个有同步字的比特流,解码可以在这个流中任何位置开始。 它的特征类似于 mp3 数据流格式。
    ADTS 可以在任意帧解码,它每一帧都有头信息
    区别:ADIF 只有一个统一的头,所以必须得到所有的数据后解码。
    且这两种的 header 的格式也是不同的,目前一般编码后的都是 ADTS 格式的音频流。

ADIF 数据格式:

header | raw_data

ADTS 一帧 数据格式(中间部分,左右省略号为前后数据帧):

一、音视频相关的基本概念_第4张图片

你可能感兴趣的:(音视频基础知识,c++,ffmpeg,视频处理,音频编码解码)