音频有模拟信号&数字信号两种形式:(1)模拟信号(analog signal)——指时间连续、幅度都是连续的信号;(2)数字信号(digital signal)——指时间、幅度上都是离散(量化)的信号。把模拟信号转换成数字信号,叫A/D转换。而从连续的变成离散的就需要采样;相反,当要把音频播放出来就需要把数字信号转换成模拟信号,这叫D/A转换。
模拟信号是离散的 但是计算机只认识01比特流 所以你必须把离散的音频转换成计算机能看懂的比特流 模拟信号如下所示
计算机明显看不懂这种东西 所以你需要对他进行采样 即每隔多少时间记录一下离散信号的大小 单位时间内采样的次数就被称为采样频率 如下图所示
那么上图就是用4个比特位来进行采样 其中4就被称为采样位数
可想而知,A/D转换时采样是一个连续到离散的过程,一定会造成信息的丢失,采样频率越高,采样点越密集,丢失的信息也就越少,也就越接近原始模拟信号。但采样频率也不能无限高,一是计算复杂度增大,二是人耳能分辨出差别的频率是有限的。现在主流的高清语音采样频率为16kHz。
很重要的一个定理——Nyquist-Shannon采样定理:
”采样频率大于被采样信号最高频率的两倍“即可根据数字信号重建原始的模拟信号。
通俗的说声道数就是录音时的麦克风数量,也是播放时的音响数量,也叫通道数,轨道数,音轨数。通常语音只用一个声道。而对于音乐来说,既可以是单声道(mono),也可以是双声道(即左声道右声道,叫立体声stereo),还可以是多声道,叫环绕立体声,多用于影院中。
RGB中 R用1个字节来表示 也就是8位 那么他的位深就是8 也就是说他有2的8次方256种红色 如果R用两个字节来表示 那么他的位深就是16 那他就有2的16次方种红色
8位的位深 色深就是2的八次方乘2的八次方乘2的八次方
视频、图⽚的画⾯⼤⼩或尺⼨。分辨率是以横向和纵向的像素数量来衡量的,表⽰平⾯图像的精细程度。视频精细程度并不只取决于视频分辨率,还取决于屏幕分辨率。1080P=Progressive scan(
逐⾏扫描),即垂直⽅向像素点,也就是“⾼”,所以以1920X1080叫1080P,不叫1920P。当720P的视频在1080屏幕上播放时,需要将图像放⼤,放⼤操作也叫上采样。
无压缩无压缩无压缩(重要的事情说三遍)情况下码率的计算公式:
分辨率 × 位深 × 帧速率
比如,分辨率为 1920 x 1080、位深为 8 bits、帧速率 25 fps 的视频,无压缩状态下的码率应为 1186 Mbps,约 1.2 Gbps。
(1920×1080)×(8×3)×25fps÷1024÷1024=1.2Gbps
可以看到这个码率非常
当然,按当今电子设备的性能,所有的视频在编码时都必须压缩,否则是无法存储与传输,更不用说录制了。
当分辨率、位深度、帧速率等参数相同的情况下,不同的码率,决定着编码器压缩视频的程度,是决定视频最终质量和文件大小的关键因素。
比如,分别对 1080p 和 4K 的视频用 5Mbps 进行编码压缩,编码器会更多地压缩 4K 的视频从而达到 5Mbps 的码率,所以,画质反而比不上 1080p。如下图
简单的理解帧就是视频或者动画中的每⼀张画⾯,⽽视频和动画特效就是由⽆数张画⾯组合⽽成,每⼀张画⾯都是⼀帧。
既然视频是由许多静态图⽚组成的,那么视频的每⼀张静态图⽚就叫⼀帧。
I帧:帧内编码帧,⼤多数情况下I帧就是关键帧,是⼀个完整帧,⽆需任何辅助就能独⽴完整显⽰的画⾯。
B帧:双向预测帧。参考前后图像帧编码⽣成。需要前⾯的I/P帧或者后⾯的P
帧来协助形成⼀个画⾯。
P帧:前向预测编码帧。是⼀个⾮完整帧,通过参考前⾯的I帧或P帧⽣成画⾯。
帧率 = 帧数/时间,单位为帧每秒(f/s,frames per second, fps)。
10-12fps:由于⼈类眼睛的特殊⽣理结构,如果看到画⾯的帧率⾼于每秒10-12
帧的时候,就会认为是连贯的,此现象称之为视觉暂留。
24fps:⼀般电影的拍摄及播放帧数是每秒24帧。
60fps:这个帧率对⼈眼识别来说已经具备较⾼的平滑度。
85fps:⼈类⼤脑处理视频的极限,⼈眼⽆法分辨更⾼频率的差异。在做页⾯性能优化时,常⽤60fps作为⼀个基准,所以需要尽量让每⼀帧的渲染控制在16ms内,这样才能达到⼀秒60帧的流畅度。