MP4文件格式中,所有的内容存在一个称为movie的容器中。一个movie可以由多个tracks组成。每个track就是一个随时间变化的媒体序列,例如,视频帧序列。track里的每个时间单位是一个sample,它可以是一帧视频,或者音频。sample按照时间顺序排列。注意,一帧音频可以分解成多个音频sample,所以音频一般用sample作为单位,而不用帧。MP4文件格式的定义里面,用sample这个单词表示一个时间帧或者数据单元。每个track会有一个或者多个sample descriptions。track里面的每个sample通过引用关联到一个sample description。这个sample descriptions定义了怎样解码这个sample,例如使用的压缩算法。
与其他的多媒体文件格式不同的是,MP4文件格式经常使用几个不同的概念,理解其不同是理解这个文件格式的关键。
这个文件的物理格式没有限定媒体本身的格式。例如,许多文件格式将媒体数据分成帧,头部或者其他数据紧紧跟随每一帧视频,!!!TODO(例如MPEG2)。而MP4文件格式不是如此。
文件的物理格式和媒体数据的排列都不受媒体的时间顺序的限制。视频帧不需要在文件按时间顺序排列。这就意味着如果文件中真的存在这样的一些帧,那么就有一些文件结构来描述媒体的排列和对应的时间信息。
MP4文件中所有的数据都封装在一些box中(以前叫atom)。所有的metadata(媒体描述元数据),包括定义媒体的排列和时间信息的数据都包含在这样的一些结构box中。MP4文件格式定义了这些这些box的格式。Metadata对媒体数据(例如,视频帧)引用说明。媒体数据可以包含在同一个的一个或多个box里,也可以在其他文件中,metadata允许使用URLs来引用其他的文件,而媒体数据在这些引用文件中的排列关系全部在第一个主文件中的metadata描述。其他的文件不一定是MP4文件格式,例如,可能就没有一个box。
有很多种类的track,其中有三个最重要,video track包含了视频sample;audio track包含了audio sample;hint track稍有不同,它描述了一个流媒体服务器如何把文件中的媒体数据组成符合流媒体协议的数据包。 如果文件只是本地播放,可以忽略hint track,他们只与流媒体有关系。
Box定义了如何在sample table中找到媒体数据的排列。这包括data reference(数据引用), the sample size table, the sample to chunk table, and the chunk offset table. 这些表就可以找到track中每个sample在文件中的位置和大小。
data reference允许在第二个媒体文件中找到媒体的位置。这样,一部电影就可以由一个媒体数据库中的多个不同文件组成,而且不用把它们全部拷贝到另一个新文件中。例如,对视频编辑就很有帮助。
为了节约空间,这些表都很紧凑。另外,interleave不是sample by sample,而是把单个track的几个samples组合到一起,然后另外几个sample又进行新的组合,等等。一个track的连续几个sample组成的单元就被称为chunk。每个chunk在文件中有一个偏移量,这个偏移量是从文件开头算起的,在这个chunk内,sample是连续存储的。
这样,如果一个chunk包含两个sample,第二个sample的位置就是chunk的偏移量加上第一个sample的大小。chunk offset table说明了每个chunk的偏移量,sample to chunk table说明了sample序号和chunk序号的映射关系。
注意chunk之间可能会有死区,没有任何媒体数据引用到这部分区域,但是chunk内部不会有这样的死区。这样,如果在节目编辑的时候,不需要一些媒体数据,就可以简单的留在那里,而不用引用,这样就不用删除它们了。类似的,如果媒体存放在第二个文件中,但是格式不同于MP4文件格式,这个陌生文件的头部或者其他文件格式都可以简单忽略掉。
文件中的时间可以理解为一些结构。电影以及每个track都有一个timescale。它定义了一个时间轴来说明每秒钟有多少个ticks。合理的选择这个数目,就可以实现准确的计时。一般来说,对于audio track,就是audio的sampling rate。对于video track,情况稍微复杂,需要合理选择。例如,如果一个media TimeScale是30000,media sample durations是1001,就准确的定义了NTSC video的时间格式(虽然不准确,但一般就是29.97),and provide 19.9 hours of time in 32 bits.
Track的时间结构受一个edit list影响,有两个用途:全部电影中的一个track的一部分时间片断变化(有可能是重用);空白时间的插入,也就是空的edits。特别注意的是如果一个track不是从节目开头部分开始,edit list的第一个edit就一定是空的edit。
每个track的全部duration定义在文件头部,这就是对track的总结,每个sample有一个规定的duration。一个sample的准确描述时间,也就是他的时间戳(time-stamp)就是以前的sample的duration之和。
文件的时间和物理结构可以是对齐的,这表明媒体数据在容器中的物理顺序就是时间顺序。另外,如果多个track的媒体数据包含在同一个文件中,这个媒体数据可以是interleaved。一般来说,为了方便读取一个track的媒体数据,同时保证每个表紧凑,以一个合适的时间间隔(例如1秒)做一次interleave,而不是sample by sample。这样就可以减少chunk的数据,减小chunk offset table的大小。
如果多个audio track包含在同一个文件中,他们有可能被混合在一起进行播放,并且由一个总track volume和左/右balance控制。
类似的,video track也可以根据各自的层次序列号(从后向前)和合成模式进行混合。另外,每个track可以用一个matrix进行变换,也可以全部电影用一个matrix进行变换。这样既可以进行简单操作(例如放大图像,校正90º 旋转),也可以做更复杂的操作(例如shearing, arbitrary rotation)。
这个混合方法只是非常简单,是一个缺省的方法,MPEG4的另一份文档会定义更强有力的方法(例如MPEG-4 BIFS)。
mp4文件格式系列2 - mp4文件例子
Darwin Streaming Server里面有一些很好的工具,可以帮助分析mp4文件格式。
但是如果可以自己逐字节的parse文件,可以更好的了解mp4文件格式。这里我就逐字节的分析文件结构。文件例子是DSS里面包含的sample_100kbit.mp4
mp4文件格式系列3 - Movie Atom - MOOV
Movie atom定义了一部电影的数据信息。它的类型是'moov',是一个容器atom,至少必须包含三种atom中的一种—movie header atom('mvhd'), compressed movie atom('cmov')和reference movie atom ('rmra')。没有压缩的 movie header atom必须至少包含movie header atom 和reference movie atom中的一种。也可以包含其他的atom,例如一个clipping atom ('clip'),一个或几个track atoms ('trak'),一个color table atom ('ctab'),和一个user data atom ('udta')。其中movie header atom定义了整部电影的time scale,duration信息以及display characteristics。track atom定义了电影中一个track的信息。Track就是电影中可以独立操作的媒体单位,例如一个声道就是一个track。
Compressed movie atoms 和reference movie atoms 不太使用,不在本文讨论范围内。本文主要讨论uncompressed movie atoms。
字段 |
长度(字节) |
描述 |
尺寸 |
4 |
这个movie header atom的字节数 |
类型 |
4 |
moov |
以下是实际的sample_100kbit.mp4的部分字节,可以看到结果是
主要包含四个子atom,movie header atom(mvhd), 一个audio track atom(trak),一个video track atom(trak)。
mp4文件格式系列4 - Movie Header Atoms - MVHD
Movie header atom定义了整个movie的特性,例如time scale和duration,它的atom类型是'mvhd'。
字段 |
长度(字节) |
描述 |
尺寸 |
4 |
这个movie header atom的字节数 |
类型 |
4 |
Mvhd |
版本 |
1 |
这个movie header atom的版本 |
标志 |
3 |
扩展的movie header标志,这里为0 |
生成时间 |
4 |
Movie atom的起始时间。基准时间是1904-1-1 0:00 AM |
修订时间 |
4 |
Movie atom的修订时间。基准时间是1904-1-1 0:00 AM |
Time scale |
4 |
A time value that indicates the time scale for this movie—that is, the number of time units that pass per second in its time coordinate system. A time coordinate system that measures time in sixtieths of a second, for example, has a time scale of 60. |
Duration |
4 |
A time value that indicates the duration of the movie in time scale units.Note that this property is derived from the movie’s tracks. The value of this field corresponds to the duration of the longest track in the movie.
|
播放速度 |
4 |
播放此movie的速度。1.0为正常播放速度 |
播放音量 |
2 |
播放此movie的音量。1.0为最大音量 |
保留 |
10 |
这里为0 |
矩阵结构 |
36 |
该矩阵定义了此movie中两个坐标空间的映射关系 |
预览时间 |
4 |
开始预览此movie的时间 |
预览duration |
4 |
以movie的time scale为单位,预览的duration |
Poster time |
4 |
The time value of the time of the movie poster. |
Selection time |
4 |
The time value for the start time of the current selection. |
Selection duration |
4 |
The duration of the current selection in movie time scale units. |
当前时间 |
4 |
当前时间 |
下一个track ID |
4 |
下一个待添加track的ID值。0不是一个有效的ID值。 |
一个Track atom定义了movie中的一个track。一部movie可以包含一个或多个tracks,它们之间相互独立,各自有各自的时间和空间信息。每个track atom 都有与之关联的media atom。
Track主要用于以下目的:
· 包含媒体数据引用和描述(media tracks)
· 包含modifier tracks (tweens等)
· 对于流媒体协议的打包信息(hint tracks)。Hint tracks可以引用或者复制对应的媒体sample data。
Hint tracks和modifier tracks必须保证完整性,同时和至少一个media track一起存在。换句话说,即使hint tracks复制了对应的媒体sample data,media tracks 也不能从一部hinted movie中删除。
Track atoms 的atom类型是'trak'. Track atom要求必须有一个track header atom ('tkhd') 和一个media atom ('mdia')。其他的track clipping atom ('clip'),track matte atom ('matt'),edit atom ('edts'),track reference atom ('tref'),track load settings atom ('load'),a track input map atom ('imap')以及user data atom ('udta')都是可选的。
Track atoms是一个容器atom,本身没有特别的字段,需要子atom来进一步说明有效的内容。
字段 |
长度(字节) |
描述 |
尺寸 |
4 |
这个atom的字节数 |
类型 |
4 |
Edts |
Audio track的值
Video track的值
每个trak都包含了一个track header atom
mp4文件格式系列6 - Track Header Atoms - TKHD
每个trak都包含了一个track header atom. The track header atom 定义了一个track的特性,例如时间,空间和音量信息,它的类型是('tkhd').
字段 |
长度(字节) |
描述 |
尺寸 |
4 |
这个atom的字节数 |
类型 |
4 |
tkhd |
版本 |
1 |
这个atom的版本 |
标志 |
3 |
有效的标志是 · 0x0001 - the track is enabled · 0x0002 - the track is used in the movie · 0x0004 - the track is used in the movie’s preview · 0x0008 - the track is used in the movie’s poster |
生成时间 |
4 |
Movie atom的起始时间。基准时间是1904-1-1 0:00 AM |
修订时间 |
4 |
Movie atom的修订时间。基准时间是1904-1-1 0:00 AM |
Track ID |
4 |
唯一标志该track的一个非零值。 |
保留 |
4 |
这里为0
|
Duration |
4 |
The duration of this track (in the movie’s time coordinate system). Note that this property is derived from the track’s edits. The value of this field is equal to the sum of the durations of all of the track’s edits. If there is no edit list, then the duration is the sum of the sample durations, converted into the movie timescale. |
保留 |
8 |
这里为0 |
Layer |
2 |
The track’s spatial priority in its movie. The QuickTime Movie Toolbox uses this value to determine how tracks overlay one another. Tracks with lower layer values are displayed in front of tracks with higher layer values. |
Alternate group |
2 |
A collection of movie tracks that contain alternate data for one another. QuickTime chooses one track from the group to be used when the movie is played. The choice may be based on such considerations as playback quality, language, or the capabilities of the computer. |
音量 |
2 |
播放此track的音量。1.0为正常音量 |
保留 |
2 |
这里为0 |
矩阵结构 |
36 |
该矩阵定义了此track中两个坐标空间的映射关系 |
宽度 |
4 |
如果该track是video track,此值为图像的宽度 |
高度 |
4 |
如果该track是video track,此值为图像的高度 |
Audio track的值
Video track的值
mp4文件格式系列7 - Edit Atoms - EDTS
Edit atoms 定义了创建movie中一个track的一部分媒体。所有的edit都在一个表里面,包括每一部分的时间偏移量和长度。Edit atoms 的类型是'edts'。如果没有该表,则此track会被立即播放。一个空的edit用来偏移track的起始时间。
如果没有edit atom 或edit list atom,则此track使用全部媒体。
Edit atoms是一个容器atom,本身没有特别的字段,需要子atom来进一步说明有效的内容。
字段 |
长度(字节) |
描述 |
尺寸 |
4 |
这个atom的字节数 |
类型 |
4 |
Edts |
Audio track的值
Video track的值
mp4文件格式系列8 - Edit List Atoms - ELST
字段 |
长度(字节) |
描述 |
尺寸 |
4 |
这个atom的字节数 |
类型 |
4 |
elst |
版本 |
1 |
这个atom的版本 |
标志 |
3 |
这里为0 |
条目数目 |
4 |
后面的edit list表中的条目数目 |
edit list表 |
可变 |
每一个条目包含3项,见下图和下表 |
字段 |
长度(字节) |
描述 |
Track duration |
4 |
duration of this edit segment in units of the movie’s time scale. |
时间 |
4 |
starting time within the media of this edit segment (in media timescale units)。值为-1表示是空edit。Track中的最后一个edit永远不能为空。Any difference between the movie’s duration and the track’s duration is expressed as an implicit empty edit. |
速度 |
4 |
relative rate at which to play the media corresponding to this edit segment。不能是0或负数。 |
Audio track的值
Video track的值
Track reference atoms define relationships between tracks. Track reference atoms allow one track to specify how it is related to other tracks. For example, if a movie has three video tracks and three sound tracks, track references allow you to identify the related sound and video tracks. Track reference atoms have an atom type value of 'tref'.
Track references are uni-directional and point from the recipient track to the source track. For example, a video track may reference a time code track to indicate where its time code is stored, but the time code track would not reference the video track. The time code track is the source of time information for the video track.
A single track may reference multiple tracks. For example, a video track could reference a sound track to indicate that the two are synchronized and a time code track to indicate where its time code is stored.
A single track may also be referenced by multiple tracks. For example, both a sound and video track could reference the same time code track if they share the same timing information.
If this atom is not present, the track is not referencing any other track in any way. Note that the array of track reference type atoms is sized to fill the track reference atom. Track references with a reference index of 0 are permitted. This indicates no reference.
Each track reference atom defines relationships with tracks of a specific type. The reference type
implies a track type. Following table shows the track reference types and their descriptions.
Table: Track reference types
Reference type |
Description |
tmcd |
Time code. Usually references a time code track. |
chap |
Chapter or scene list. Usually references a text track. |
sync |
Synchronization. Usually between a video and sound track. Indicates that the two tracks are synchronized. The reference can be from either track to the other, or there may be two references. |
scpt |
Transcript. Usually references a text track. |
ssrc |
Nonprimary source. Indicates that the referenced track should send its data to this track, rather than presenting it. The referencing track will use the data to modify how it presents its data. See “Track Input Map Atoms” (page 51) for more information. |
hint |
The referenced tracks contain the original media for this hint track. |
Each track reference type atom contains the following data elements.
Size
A 32-bit integer that specifies the number of bytes in this track reference type atom.
Type
A 32-bit integer that identifies the atom type; this field must be set to one of the values shown
in above table.
Track IDs
A list of track ID values (32-bit integers) specifying the related tracks. Note that this is one case
where track ID values can be set to 0. Unused entries in the atom may have a track ID value
of 0. Setting the track ID to 0 may be more convenient than deleting the reference.
You can determine the number of track references stored in a track reference type atom by subtracting its header size from its overall size and then dividing by the size, in bytes, of a track ID.
mp4文件格式系列10 - Media Atoms - MDIA
Media atoms定义了track的媒体类型和sample数据,例如音频或视频,描述sample数据的media handler component,media timescale and track duration以及media-and-track-specific 信息,例如音量和图形模式。它也可以包含一个引用,指明媒体数据存储在另一个文件中。也可以包含一个sample table atoms,指明sample description, duration, and byte offset from the data reference for each media sample.
Media atom 的类型是'mdia'。它是一个容器atom,必须包含一个media header atom ('mdhd'),一个handler reference ('hdlr'),一个媒体信息引用('minf')和用户数据atom('udta').
字段 |
长度(字节) |
描述 |
尺寸 |
4 |
这个atom的字节数 |
类型 |
4 |
Edts |
Audio track的值
Video track的值
Media header atom 定义了媒体的特性,例如time scale和duration。它的类型是'mdhd'.
字段 |
长度(字节) |
描述 |
尺寸 |
4 |
这个atom的字节数 |
类型 |
4 |
mdhd |
版本 |
1 |
这个atom的版本 |
标志 |
3 |
这里为0 |
生成时间 |
4 |
Movie atom的起始时间。基准时间是1904-1-1 0:00 AM |
修订时间 |
4 |
Movie atom的修订时间。基准时间是1904-1-1 0:00 AM |
Time scale |
4 |
A time value that indicates the time scale for this media—that is, the number of time units that pass per second in its time coordinate system. |
Duration |
4 |
The duration of this media in units of its time scale. |
语言 |
2 |
媒体的语言码 |
质量 |
2 |
媒体的回放质量???怎样生成此质量,什么是参照点 |
Handler reference atom 定义了描述此媒体数据的media handler component,类型是'hdlr'。在过去,handler reference atom也可以用来数据引用,但是现在,已经不允许这样使用了。一个media atom内的handler atom解释了媒体流的播放过程。例如,一个视频handler处理一个video track。
字段 |
长度(字节) |
描述 |
尺寸 |
4 |
这个atom的字节数 |
类型 |
4 |
hdlr |
版本 |
1 |
这个atom的版本 |
标志 |
3 |
这里为0 |
Component type |
4 |
handler的类型。当前只有两种类型 · 'mhlr':media handlers · 'dhlr':data handlers |
Component subtype |
4 |
media handler or data handler的类型。 如果component type是mhlr,这个字段定义了数据的类型,例如,'vide'是video数据,'soun'是sound数据 如果component type是dhlr,这个字段定义了数据引用的类型,例如,'alis'是文件的别名 |
Component manufacturer |
4 |
保留字段,缺省为0 |
Component flags |
4 |
保留字段,缺省为0 |
Component flags mask |
4 |
保留字段,缺省为0 |
Component name |
可变 |
这个component的名字,也就是生成此media的media handler。该字段的长度可以为0 |
Media information atoms的类型是'minf',存储了解释该track的媒体数据的handler-specific的信息。media handler用这些信息将媒体时间映射到媒体数据,并进行处理。它是一个容器atom,包含其他的子atom。
这些信息是与媒体定义的数据类型特别对应的,而且media information atoms 的格式和内容也是与解释此媒体数据流的media handler 密切相关的。其他的media handler不知道如何解释这些信息。
字段 |
长度(字节) |
描述 |
尺寸 |
4 |
这个atom的字节数 |
类型 |
4 |
minf |
Video media information header atoms 定义颜色和图形模式信息。
字段 |
长度(字节) |
描述 |
尺寸 |
4 |
这个atom的字节数 |
类型 |
4 |
vmhd |
版本 |
1 |
这个atom的版本 |
标志 |
3 |
这里总是0x000001 |
图形模式 |
2 |
The transfer mode. The transfer mode specifies which Boolean operation QuickDrawshould performwhen drawing or transferring an image fromone location to another. |
Opcolor |
6 |
Three 16-bit values that specify the red, green, and blue colors for the transfer mode operation indicated in the graphics mode field. |
The sound media information header atom定义了声音媒体的控制信息,例如均衡。