【流媒体】视频技术的一些基础概念

原文地址:https://mp.weixin.qq.com/s?__biz=MzAwMDU1MTE1OQ==&mid=2653547042&idx=1&sn=26d8728548a6b5b657079eeab121e283&scene=2&srcid=0428msEitG9LJ3JaKGaRCEjg&from=timeline&isappinstalled=0#wechat_redirect

 

       我的感言:上述这篇文章我截取了一部分内容,写的很生动、深入浅出的一篇好文章。关于把视频拆解分析的内容,请参考如下内容: 

 

一、什么是视频?

       首先我们需要理解一个最基本的概念:视频。从感性的角度来看,视频就是一部充满趣味的影片,可以是电影,可以是短片,是一连贯的视觉冲击力表现丰富的画面和音频。但从理性的角度来看,视频是一种有结构的数据,用工程的语言解释,我们可以把视频剖析成如下结构:               

【流媒体】视频技术的一些基础概念_第1张图片

 

     内容元素 ( Content )
       1.图像 ( Image )
       2.音频 ( Audio )
       3.元信息 ( Metadata ) 


     编码格式 ( Codec )
       1.Video : H.264,H.265, …
       2.Audio : AAC, HE-AAC, …


      容器封装 (Container)
       1.MP4,MOV,FLV,RM,RMVB,AVI,…


      任何一个视频 Video 文件,从结构上讲,都是这样一种组成方式:
       1.由图像和音频构成最基本的内容元素;
       2.图像经过视频编码压缩格式处理(通常是 H.264);
       3.音频经过音频编码压缩格式处理(例如 AAC);
       4.注明相应的元信息(Metadata);
      最后经过一遍容器(Container)封装打包(例如 MP4),构成一个完整的视频文件。

 

       如果觉得难以理解,可以想象成一瓶番茄酱。最外层的瓶子好比这个容器封装(Container),瓶子上注明的原材料和加工厂地等信息好比元信息(Metadata),瓶盖打开(解封装)后,番茄酱本身好比经过压缩处理过后的编码内容,番茄和调料加工成番茄酱的过程就好比编码(Codec),而原材料番茄和调料则好比最原本的内容元素(Content)。

 

二、视频的实时传输
       简而言之,理性的认知视频的结构后,有助于我们理解视频直播。如果视频是一种“有结构的数据”,那么视频直播无疑是实时传输这种“有结构的数据”(视频)的方式。
       那么一个显而易见的问题是:如何实时(Real-Time)传输这种“有结构的数据”(视频)呢?
       这里边一个悖论是:一个经过容器(Container)封装后的视频,一定是不可变的 ( Immutable ) 视频文件,不可变的 ( Immutable ) 的视频文件已经是一个生产结果,根据“相对论”,而这个生产结果显然不可能精确到实时的程度,它已经是一段时空的记忆。
       因此视频直播,一定是一个 “边生产,边传输,边消费”的过程。这意味着,我们需要更近一步了解视频从原始的内容元素 ( 图像和音频 ) 到成品 ( 视频文件 ) 之前的中间过程 ( 编码 )。


三、视频编码压缩
       不妨让我们来深入浅出理解视频编码压缩技术。
       为了便于视频内容的存储和传输,通常需要减少视频内容的体积,也就是需要将原始的内容元素(图像和音频)经过压缩,压缩算法也简称编码格式。例如视频里边的原始图像数据会采用 H.264 编码格式进行压缩,音频采样数据会采用 AAC 编码格式进行压缩。
       视频内容经过编码压缩后,确实有利于存储和传输; 不过当要观看播放时,相应地也需要解码过程。因此编码和解码之间,显然需要约定一种编码器和解码器都可以理解的约定。就视频图像编码和解码而言,这种约定很简单:
       编码器将多张图像进行编码后生产成一段一段的 GOP ( Group of Pictures ) , 解码器在播放时则是读取一段一段的 GOP 进行解码后读取画面再渲染显示。

【流媒体】视频技术的一些基础概念_第2张图片

 

       GOP ( Group of Pictures ) 是一组连续的画面,由一张 I 帧和数张 B / P 帧组成,是视频图像编码器和解码器存取的基本单位,它的排列顺序将会一直重复到影像结束。      

【流媒体】视频技术的一些基础概念_第3张图片

        I 帧是内部编码帧(也称为关键帧),P 帧是前向预测帧(前向参考帧),B 帧是双向内插帧(双向参考帧)。简单地讲,I 帧是一个完整的画面,而 P 帧和 B 帧记录的是相对于 I 帧的变化。
        如果没有 I 帧,P 帧和 B 帧就无法解码。

【流媒体】视频技术的一些基础概念_第4张图片

     

       小结一下,一个视频 ( Video ) ,其图像部分的数据是一组 GOP 的集合, 而单个 GOP 则是一组 I / P / B 帧图像的集合。
在这样的一种几何关系中,Video 好比一个 “物体”,GOP 好比 “分子”,I / P / B 帧的图像则好比 “原子”。
想象一下,如果我们把传输一个 “物体”,改成传输一个一个的 “原子”,将最小颗粒以光速传送,那么以人的生物肉眼来感知,将是一种怎样的体验?


四、什么是视频直播?
        不难脑洞大开一下,直播就是这样的一种体验。视频直播技术,就是将视频内容的最小颗粒 ( I / P / B 帧,…),基于时间序列,以光速进行传送的一种技术。

       简而言之,直播就是将每一帧数据 ( Video / Audio / Data Frame ),打上时序标签 ( Timestamp ) 后进行流式传输的过程。发送端源源不断的采集音视频数据,经过编码、封包、推流,再经过中继分发网络进行扩散传播,播放端再源源不断地下载数据并按时序进行解码播放。如此就实现了 “边生产、边传输、边消费” 的直播过程。

 

 

 

你可能感兴趣的:(【流媒体】)