MP4文件格式
MP4(MPEG-4 Part 14)是一种常见的多媒体容器格式,它是在“ISO/IEC 14496-14”标准文件中定义的,属于MPEG-4的一部分,是“ISO/IEC 14496-12(MPEG-4 Part 12 ISO base media file format)”标准中所定义的媒体格式的一种实现,后者定义了一种通用的媒体文件结构标准。MP4是一种描述较为全面的容器格式,被认为可以在其中嵌入任何形式的数据,各种编码的视频、音频等都不在话下,不过我们常见的大部分的MP4文件存放的AVC(H.264)或MPEG-4(Part 2)编码的视频和AAC编码的音频。MP4格式的官方文件后缀名是“.mp4”,还有其他的以mp4为基础进行的扩展或者是缩水版本的格式,包括:M4V,3GP,F4V,M4A等。
mp4是由一个个“box”组成的,大box中存放小box,一级嵌套一级来存放媒体信息。
存储媒体数据的单位是samples。一个sample是一系列按时间顺序排列的数据的一个element。Samples存储在media中的chunk内,可以有不同的durations。Chunk存储一个或者多个samples,是数据存取的基本单位,可以有不同的长度,一个chunk内的每个sample也可以有不同的长度.
MP4文件格式中,所有的内容存在一个称为movie的容器中。一个movie可以由多个tracks组成。每个track就是一个随时间变化的媒体序列,例如,视频帧序列。track里的每个时间单位是一个sample,它可以是一帧视频,或者音频。sample按照时间顺序排列。注意,一帧音频可以分解成多个音频sample,所以音频一般用sample作为单位,而不用帧。MP4文件格式的定义里面,用sample这个单词表示一个时间帧或者数据单元。每个track会有一个或者多个sample descriptions。track里面的每个sample通过引用关联到一个sample description。这个sample descriptions定义了怎样解码这个sample,例如使用的压缩算法。
与其他的多媒体文件格式不同的是,MP4文件格式经常使用几个不同的概念,理解其不同是理解这个文件格式的关键。
这个文件的物理格式没有限定媒体本身的格式。例如,许多文件格式将媒体数据分成帧,头部或者其他数据紧紧跟随每一帧视频,!!!TODO(例如MPEG2)。而MP4文件格式不是如此。
文件的物理格式和媒体数据的排列都不受媒体的时间顺序的限制。视频帧不需要在文件按时间顺序排列。这就意味着如果文件中真的存在这样的一些帧,那么就有一些文件结构来描述媒体的排列和对应的时间信息。
MP4文件中所有的数据都封装在一些box中(以前叫atom)。所有的metadata(媒体描述元数据),包括定义媒体的排列和时间信息的数据都包含在这样的一些结构box中。MP4文件格式定义了这些这些box的格式。Metadata对媒体数据(例如,视频帧)引用说明。媒体数据可以包含在同一个的一个或多个box里,也可以在其他文件中,metadata允许使用URLs来引用其他的文件,而媒体数据在这些引用文件中的排列关系全部在第一个主文件中的metadata描述。其他的文件不一定是MP4文件格式,例如,可能就没有一个box。
有很多种类的track,其中有三个最重要,video track包含了视频sample;audio track包含了audio sample;hint track稍有不同,它描述了一个流媒体服务器如何把文件中的媒体数据组成符合流媒体协议的数据包。 如果文件只是本地播放,可以忽略hint track,他们只与流媒体有关系。
Box定义了如何在sample table中找到媒体数据的排列。这包括data reference(数据引用), the sample size table, the sample to chunk table, and the chunk offset table. 这些表就可以找到track中每个sample在文件中的位置和大小。
data reference允许在第二个媒体文件中找到媒体的位置。这样,一部电影就可以由一个媒体数据库中的多个不同文件组成,而且不用把它们全部拷贝到另一个新文件中。例如,对视频编辑就很有帮助。
为了节约空间,这些表都很紧凑。另外,interleave不是sample by sample,而是把单个track的几个samples组合到一起,然后另外几个sample又进行新的组合,等等。一个track的连续几个sample组成的单元就被称为chunk。每个chunk在文件中有一个偏移量,这个偏移量是从文件开头算起的,在这个chunk内,sample是连续存储的。
这样,如果一个chunk包含两个sample,第二个sample的位置就是chunk的偏移量加上第一个sample的大小。chunk offset table说明了每个chunk的偏移量,sample to chunk table说明了sample序号和chunk序号的映射关系。
注意chunk之间可能会有死区,没有任何媒体数据引用到这部分区域,但是chunk内部不会有这样的死区。这样,如果在节目编辑的时候,不需要一些媒体数据,就可以简单的留在那里,而不用引用,这样就不用删除它们了。类似的,如果媒体存放在第二个文件中,但是格式不同于MP4文件格式,这个陌生文件的头部或者其他文件格式都可以简单忽略掉。
文件中的时间可以理解为一些结构。电影以及每个track都有一个timescale。它定义了一个时间轴来说明每秒钟有多少个ticks。合理的选择这个数目,就可以实现准确的计时。一般来说,对于audio track,就是audio的sampling rate。对于video track,情况稍微复杂,需要合理选择。例如,如果一个media TimeScale是30000,media sample durations是1001,就准确的定义了NTSC video的时间格式(虽然不准确,但一般就是29.97),and provide 19.9 hours of time in 32 bits.
Track的时间结构受一个edit list影响,有两个用途:全部电影中的一个track的一部分时间片断变化(有可能是重用);空白时间的插入,也就是空的edits。特别注意的是如果一个track不是从节目开头部分开始,edit list的第一个edit就一定是空的edit。
每个track的全部duration定义在文件头部,这就是对track的总结,每个sample有一个规定的duration。一个sample的准确描述时间,也就是他的时间戳(time-stamp)就是以前的sample的duration之和。
文件的时间和物理结构可以是对齐的,这表明媒体数据在容器中的物理顺序就是时间顺序。另外,如果多个track的媒体数据包含在同一个文件中,这个媒体数据可以是interleaved。一般来说,为了方便读取一个track的媒体数据,同时保证每个表紧凑,以一个合适的时间间隔(例如1秒)做一次interleave,而不是sample by sample。这样就可以减少chunk的数据,减小chunk offset table的大小。
如果多个audio track包含在同一个文件中,他们有可能被混合在一起进行播放,并且由一个总track volume和左/右balance控制。
类似的,video track也可以根据各自的层次序列号(从后向前)和合成模式进行混合。另外,每个track可以用一个matrix进行变换,也可以全部电影用一个matrix进行变换。这样既可以进行简单操作(例如放大图像,校正90? 旋转),也可以做更复杂的操作(例如shearing, arbitrary rotation)。
这个混合方法只是非常简单,是一个缺省的方法,MPEG4的另一份文档会定义更强有力的方法(例如MPEG-4 BIFS)。
BOX的基本结构是:{
U4 长度;
U4 类型;
U8 可选的大长度,可选,长度==1时才使用这个字段;
U1[长度] 数据;
}
BOX的类型有很多,这里 http://mp4ra.org/atoms.html 有已知的类型;
常见的MP4大概有这些BOX
ftyp: file type and compatibility 文件类型;
moov: container for all the meta-data
mvhd: movie header, overall declarations.定义了整个movie的特性
trak: container for an individual track or stream
tkhd: Track header, overall information about the track, track头,track的总体信息;
mdia: container for the media information in a track,
mdhd: media header, overall information about the media,定义了媒体的特性,例如time scale和duration
mdlr: 描述此媒体数据的media handler component
minf:
smhd: 定义了声音媒体的控制信息,例如均衡;
dinf:
dref:Data reference atoms包含列表数据,data handler component可以用这些数据获取媒体数据
stbl: sample table box, container for the timespace map
stsd:sample description atom存储的信息可以正确的解码media sample。
stts:Time-to-sample atoms存储了media sample的duration信息,可以找到任何时间的sample;
stsc:
stsz: Sample-to-Chunk Atoms
stz2:
stss:
stco:
co64:
mdat:
stsz格式{
U1 版本;
U3 标志;//一般为0
U4 全部sample的数目。如果所有的sample有相同的长度,这个字段就是这个值。否则,这个字段的值就是0。那些长度存在sample size表中;
U4 sample size的数目;
U4 每个sample的大小;
}
stsc格式{
U1 版本;
U3 标志;//一般为0
U4 sample-to-chunk的数目;
Ux sample-to-chunk表的结构;
U4 这个table使用的第一个chunk序号;
U4 当前trunk内的sample数目;
U4 与这些sample关联的sample description的序号;
}
stts格式{
U1 版本;
U3 0;
U4 time-to-sample的数目;
Ux Media中每个sample的duration。包含如下结构{
U4 有相同duration的连续sample的数目;
U4 每个sample的duration;
}
}
stsd格式{
U1 版本;
U3 0;
U4 sample descriptions的数目;
Ux Sample description,不同媒体对应的数据不同,但前4字段有定义{
U4 这个sample description的字节数;
U4 存储数据的格式。
U6 保留;
U2 数据引用索引;利用这个索引可以检索与当前sample description关联的数据。数据引用存储在data reference atoms
}
}
dinf结构{
U1 版本;
U3 0;
U4 data references的数目;
Ux 每个data reference就像atom的格式一样,包含以下的数据成员{
U4 这个atom的字节数;
U4 类型,见下表;
U1 这个data reference的版本;
U3 目前只有一个标志:Self reference =0x0001;
Ux data reference信息;
}
}
smhd结构{
U1 版本;
U3 0;
U2 音频的均衡是用来控制计算机的两个扬声器的声音混合效果,一般是0。一般值是0。;
U2 保留字段,缺省为0;
}
hdlr结构{
U1 版本;
U3 0;//
U4 handler的类型。当前只有两种类型 'mhlr':media handlers 'dhlr':data handlers
U4 子类型,如果component type是mhlr,这个字段定义了数据的类型,例如,'vide'是video数据,'soun'是sound数据,如果component type是dhlr,这个字段定义了数据引用的类型,例如,'alis'是文件的别名.
U4 0;
U4 0;
U4 0;
Ux 这个component的名字,也就是生成此media的media handler。该字段的长度可以为0
}
mdhd结构{
U1 版本;
U3 0;
U4 Movie atom的生成时间。基准时间是1904-1-1 0:00 AM
U4 Movie atom的修订时间。基准时间是1904-1-1 0:00 AM
U4 Time scale.A time value that indicates the time scale for this media—that is, the number of time units that pass per second in its time coordinate system.
U4 Duration;
U2 媒体的语言码;
U2 媒体的回放质量???怎样生成此质量,什么是参照点
}
tkhd结构{
U1 版本;
U3 标志;有效的标志是{
0x0001 - the track is enabled
0x0002 - the track is used in the movie
0x0004 - the track is used in the movie’s preview
0x0008 - the track is used in the movie’s poster
}
U4 生成时间.基准时间是1904-1-1 0:00 AM;
U4 修订时间.基准时间是1904-1-1 0:00 AM
U4 Track ID,唯一标志该track的一个非零值。
U4 0;
U4 Duration;{
The duration of this track (in the movie’s time coordinate system).
Note that this property is derived from the track’s edits. The value of this field is equal to the sum of the durations of all of the track’s edits. If there is no edit list, then the duration is the sum of the sample durations, converted into the movie timescale.
}
U8 0;//
U2 Layer{
The track’s spatial priority in its movie. The QuickTime Movie Toolbox uses this value to determine how tracks overlay one another. Tracks with lower layer values are displayed in front of tracks with higher layer values.
}
U2 Alternate group{
A collection of movie tracks that contain alternate data for one another. QuickTime chooses one track from the group to be used when the movie is played.The choice may be based on such considerations as playback quality, language, or the capabilities of the computer.
}
U2 播放此track的音量。1.0为正常音量;
U2 0;//
U36 该矩阵定义了此track中两个坐标空间的映射关系;
U4 如果该track是video track,此值为图像的宽度;
U4 如果该track是video track,此值为图像的高度;
}
mvhd结构{
U1 版本;
U3 0;
U4 开始时间。基准时间是1904-1-1 0:00 AM;
U4 Movie atom的修订时间。基准时间是1904-1-1 0:00 AM;
U4 Time scale;
U4 Duration;
U4 播放速度,1.0正常;
U2 播放音量,1.0正常;
U10 0;
U36 矩阵映射关系;
U4 开始预览此movie的时间;
U4 预览durationt, 以movie的time scale为单位;
U4 Poster time;
U4 Selection time;
U4 Selection durationt;
U4 当前时间;
U4 下一个track ID,0不是一个有效的ID值.
}