一、基本概念
1)ES
ES--Elementary Streams (原始流)是直接从编码器出来的数据流,可以是编码过的视频数据流(H.264,MJPEG等),音频数据流(AAC),或其他编码数据流的统称。ES流经过PES打包器之后,被转换成PES包。
ES是只包含一种内容的数据流,如只含视频或只含音频等,打包之后的PES也是只含一种性质的ES,如只含视频ES的PES,只含音频ES的PES等。每个ES都由若干个存取单元(AU)组成,每个视频AU或音频AU都是由头部和编码数据两部分组成,1个AU相当于编码的1幅视频图像或1个音频帧,也可以说,每个AU实际上是编码数据流的显示单元,即相当于解码的1幅视频图像或1个音频帧的取样。
2)PES
PES--Packetized Elementary Streams (分组的ES),ES形成的分组称为PES分组,是用来传递ES的一种数据结构。PES流是ES流经过PES打包器处理后形成的数据流,在这个过程中完成了将ES流分组、打包、加入包头信息等操作(对ES流的第一次打包)。PES流的基本单位是PES包。PES包由包头和payload组成。
3)PTS、DTS
PTS--PresentationTime Stamp(显示时间标记)表示显示单元出现在系统目标解码器(H.264、MJPEG等)的时间。
DTS--Decoding Time Stamp(解码时间标记)表示将存取单元全部字节从解码缓存器移走的时间。
PTS/DTS是打在PES包的包头里面的,这两个参数是解决音视频同步显示,防止解码器输入缓存上溢或下溢的关键。每一个I(关键帧)、P(预测帧)、B(双向预测 帧)帧的包头都有一个PTS和DTS,但PTS与DTS对于B帧不一样,无需标出B帧的DTS,对于I帧和P帧,显示前一定要存储于视频解码器的重新排序缓存器中,经过延迟(重新排序)后再显示,所以一定要分别标明PTS和DTS。
4)PS
PS--Program Stream(节目流)PS流由PS包组成,而一个PS包又由若干个PES包组成(到这里,ES经过了两层的封装)。PS包的包头中包含了同步信息与时钟恢复信息。一个PS包最多可包含具有同一时钟基准的16个视频PES包和32个音频PES包。
5)TS
TS--Transport Stream(传输流)由定长的TS包组成(188字节),而TS包是对PES包的一个重新封装(到这里,ES也经过了两层的封装)。PES包的包头信息依然存在于TS包中。
TS流与PS流的区别在于TS流的包结构是固定长度的,而PS流的包结构是可变长度的。PS包由于长度是变化的,一旦丢失某一PS包的同步信息,接收机就会进入失步状态,从而导致严重的信息丢失事件。而TS码流由于采用了固定长度的包结构,当传输误码破坏了某一TS包的同步信息时,接收机可在固定的位置检测它后面包中的同步信息,从而恢复同步,避免了信息丢失。因此在信道环境较为恶劣、传输误码较高时一般采用TS码流,而在信环境较好、传输误码较低时一般采用PS码流。
6)TS单一码流、混合码流
单一性:TS流的基本组成单位是长度为188字节的TS包。
混合性: TS流由多种数据组合而成,一个TS包中的数据可以是视频数据,音频数据,填充数据,PSI/SI表格数据等(唯一的PID对应)。
二、基本流程
1)A/D转换后,通过MPEG-2压缩编码得到的ES基本流。这个数据流很大,并且只是I,P,B的这些视频帧或音频取样信息。
2)通过PES打包器,打包并在每个帧中插入 PTS/DTS标志,变成PES。原来是流的格式,现在成了数据包的分割形式。
3)PES根据需要打包成PS或TS包进行存储(DVD)或传输(DVB)。因每路音/视频只包含一路的编码数据流,所以每路PES也只包含相应的数据流。
附:
ts流文件是MPEG-2的数字电视标准格式,目前使用最为广泛。
在一些视频服务中,如VOD推流的快进、快退中,经常需要快速从ts节目流中找出I帧(I-frame)来,以便推流服务器可以推送只包含视频画面而没有声音的ts数据到终端,而终端并不需要做任何特殊处理,即可实现快进/快退的画面效果。
因此,实现上需要做到以下三点:
1、要找到I帧
2、确保找出来的I帧数据前后都要完整,即符合MPEG-2的188长度的封包格式
3、去掉其中的音频数据
这样就可以把一个视频文件中的所有I帧提取出来,直接推送到终端,即可实现快进/快退的效果。
至于不同倍速的效果,则在推送已经提取出的I帧数据时,间隔不同I帧推送即可。
完整的算法如下:
(如果发现有问题或值得改进的地方,请留言,谢谢!)
public static byte[] getIframes(byte[] src,int pos,int audioPid){
List list = new LinkedList();
int start = 0;
int idx = 0;
idx = pos;
boolean iframe = false;
int offset = 0;
int suffix = 0;
int totalLen = 0;
while(idx < (src.length-6)){
if(src[idx]==0x0 && src[idx+1]==0x0&&src[idx+2]==0x01 && src[idx+3]==0x00){
if(((src[idx+5]>>3)&0x07)==0x01){
if(!iframe){
start = idx;
iframe = true;
}
else{
if(idx>start){
offset = start8;
suffix = 188-(idx8);
byte[] buff = new byte[idx+offset+suffix-start];
System.arraycopy(src, start-offset, buff, 0, idx+offset+suffix-start);
totalLen += buff.length;
list.add(buff);
}
start = idx+suffix;
iframe = true;
}
}
if (((((src[idx+5]>>3)&0x07)==0x02)||((src[idx+5]>>3)&0x07)==0x03)){
if (iframe){
offset = start8;
suffix = 188-(idx8);
byte[] buff = new byte[idx+offset+suffix-start];
System.arraycopy(src, start-offset, buff, 0, idx+offset+suffix-start);
totalLen += buff.length;
list.add(buff);
}
start = 0;
iframe = false;
}
}
idx++;
}
int audioLen = 0;
int pid = 0;
ByteBuffer buff = ByteBuffer.allocate(totalLen);
for (Iterator itr = list.iterator(); itr.hasNext();) {
byte[] bs = (byte[]) itr.next();
for (int i = 0; i < bs.length;) {
pid = ((bs[i+1] & 0x1F) << 8) + (bs[i + 2] & 0xFF);
if(pid==audioPid){
audioLen += 188;
}
else{
buff.put(bs,i,188);
}
i+=188;
}
bs = null;
}
ByteBuffer res = ByteBuffer.allocate(totalLen-audioLen);
res.put(buff.array(),0,totalLen-audioLen);
buff.clear();
list.clear();
list = null;
buff = null;
return res.array();
}