音视频基础概念

一、视频常见格式

1、MPEG/MPG/DAT
MPEG(运动图像专家组),包括MPEG-1,MPEG-2和MPEG-4在内的多种视频格式。
2、AVI
AVI,音频视频交错。avi格式调用方便,图像质量好,压缩标准可任意选择。
3、MOV
在mac平台使用的动态的基于Indeo压缩算法的MOV
4、ASF
在线观看视频的一种文件压缩格式。ASF使用了MPEG4的压缩算法,压缩率和图像的质量都很不错。
5、WMV
一种独立于编码方式的在Internet上实时传播多媒体的技术标准。优点是:可扩充的媒体类型、本地或网络回放、可伸缩的媒体类型、流的优先级化、多语言支持等
6、NAVI
新的AVI,是一种去掉视频流特性的改良型ASF格式
7、3GP
3GP是一种3G流媒体的视频编码格式,主要是为了配合3G网络的高传输速度而开发的,目前手机中常见的格式。特点是网速占用较少,但画质较差。
8、REAL VIDEO
定位在视频流应用方面的。可以说是视频流技术的创始者。
9、MKV
它可在一个文件中集中成多条不同类型的音轨和字幕轨,而且其视频编码的自由度也非常大。
10、FLV
它形成的文件极小,加载速度极快,使得网络观看视频文件成为可能。已被F4V逐渐取代
11、RMVB
一种音视频压缩规范,根据不同的网络传输速率,而制定出不同的压缩比率,从而实现在低速率的网络上进行影像数据实时传送和播放,具有体积小,画质也还不错的优点
12、WEBM
一种开放、免费的媒体文件格式。

二、音频格式

1、CD格式
一种音质比较高的音频格式,忠于原声
2、WAVE(WAV)用于保存windows平台的音频信息资源,44.1k的采样频率,速率88K/秒,16位量化位数。于cd音质相差无几
3、AIFF
mac平台使用
4、AU
UNIX操作系统下的数字声音文件
5、MP3
MPEG标准中的音频部分,有损压缩
6、MIDI
这个格式被经常玩音乐的人使用
7、WMA
音质比mp3强
8、RealAudio
网络上的在线音乐欣赏
9、VQF
核心是减少数据流量但保持音质的方法来大道更高的压缩比
10、OGGVorbis,类似于mp3,但完全免费、开放、没有专利限制
11、AMR
自适应多速率编码,主要用于移动设备的音频

三、字幕格式

1、外挂字幕:视频文件和字幕文件分离,在播放的时候要导入字幕文件
外挂字幕对视频的质量损害小很多,内嵌字幕解决了视频体积过大和播放器不兼容等问题
srt格式:这是最好的,体积小,可以用记事本打开
sub+idx:这种是图形字幕,只能用字幕转换软件,体积较大
ass字幕:网上比较少,比srt多一些特效
字幕文件放在同一个文件夹,且文件名相同但后缀不同
2、内嵌字幕:视频文件和字幕文件已经集成到了一起,没有办法改变和去掉了

四、采集录制和播放渲染

1、视频采集
把模拟视频转换成数字视频,并按数字视频文件的格式保存下来。
2、视频录制
四个默认摄像机:顶视图、正视图、侧视图和透视图。我们大多数时候渲染的是透视图
渲染滤镜:
1、分层云彩
2、光照效果
3、镜头光晕
4、纹理填充
5、云彩
标清:720P
高清:视频垂直分辨率超过720p或1080i,视频宽纵比为16:9

四多媒体容器格式

容器格式一般都包括文件头部分、索引部分和多媒体数据部分
文件头部分:说明多媒体数据符合的压缩标准及规范信息,多媒体数据符合的规范信息可以包括视频的分辨率、帧率,音频的采样率等
索引部分:由于多媒体数据通常会被分成若干块,各块数据之间也可能是不连续存储的,因此需要在索引部分建立多媒体数据的存储位置索引,用来记录相应数据块的存储位置的偏移量,由于各数据块的大小可能不同,因此也可能需要在索引部分建立各多媒体数据块的尺寸大小索引。

cpu消耗比较高的地方:
1、视频解码,yuv转rgb(且耗内存)、rgb显示
2、音频重采样

五、编解码概念

1、硬解
不依赖于cpu,通过专门的设备单独完成视频编码
2、IBP帧
属于关键帧,I帧可以看成是一个图像经过压缩后的产物。p帧:前向预测编码帧,通过充分降低于图像序列中前面已经编码帧的时间冗余信息来压缩传输数据量的编码图像,叫预测帧
B帧:双向预测内插编码帧,既考虑与源图像序列前面已编码帧,也顾及源图像序列后面已编码帧之间的时间冗余信息来压缩传输数据量的编码图像,也叫双向预测帧
PTS:PTS主要用于度量解码后的视频帧什么时候被显示出来
DTS: 主要是标识读入内存中的bit流在什么时候开始送入解码器中进行解码

六、视频信息概念

1、分辨率
a)物理分辨率:屏幕能显示的像素数
b)视频文件的分辨率:视频画面的实际分辨率
2、码率
一般用多少kbps(千比特/秒)或者(兆比特/秒)来表示,单位时间播放连续的媒体的比特数量。
3、gop
多少帧产生一个关键帧,一组帧
3、帧率
FPS,帧/秒,就是视频画面刷新的速度,电视一般25FPS
4、RGB和YUV
RGB指的红绿蓝,应用比较广泛,比如显示器显示,bmp文件的像素值,yuv主要指亮度和两个色差信号,视频大部分用的这个
RGBA,A是指透明度,在三维中用到
摄像头采集出来是RGB,给显示器也是RGB,算法和老式的电视是yuv,yuv存储内存小
R = Y+1.4075*(V-128)
G = Y + 0.3455*(U-128)-0.7169*(V-128)
B = Y + 1.779*(U-128)
显卡的浮点运算比cpu强
3x3的rgb会进行内存对齐,很多错误都是从这来的

"Y"表示明亮度,也就是灰度值
"U"和V表示色度
yuv文件格式又分很多种,yuv411,yuv420等
420表示4个Y2两个uv
"P"表示平面的方式存放
5、复合视频和s-video
s-video取消了信号叠加,采用信号质量更高的视频接口

音频概念:
1、采样率:一秒钟采集多少次声音(CD)
2、通道(左右声道)
3、样本大小(格式):16位或8位,float

6、硬件加速
VDA/vaspi/DX等等
7、ffmepeg device
硬件方式:CDIO/DC1394 (输入设备)
非扩展硬件:DSHOW(输入设备)、SDL(输出设备)、X11(输入)、VFWCAP(输入)、DV1394(输入)
模块:
libavcodec:音视频编码库
libavformat:用于各种音视频封装格式的生成和解析
libavdevice:硬件采集、加速、显示
libavfilter:音频滤波器的开发,高宽比、裁剪、伸缩等
libavutil:工具函数
libswscale:用于视频场景比例缩放、色彩映射转换
libswresample:原始音频格式转码
libpostproc:用于后期效果处理,音视频应用的后期,如图像的去块处理
ffserver:一个HTTP多媒体即时广播串流服务器
ffplay:是一个简单的播放器,使用ffmpeg库解析和解码,通过SDL显示

六、行业痛点

1、回音消除
2、降噪音
3、视频秒开
4、多人多视频实时互通
5、pc//app/网页实时视频互通
6、实时互动和大并发同时存在

你可能感兴趣的:(音视频知识,音视频)