[图片上传失败...(image-6b16d8-1639624747476)]
Core Audio
Core Audio 是 OS X 和 iOS 系统上处理所有音频事件的框架。
Core Audio 是多个框架整合在一起的总称,为音频和 MIDI 内容的录制、播放和处理提供相应接口。
Core Video
Core Video 是 OS X 和 iOS 系统上针对数字视频所提供的管道模式。
Core Video 为其相对的 Core Media 提供图片缓存和缓存池支持。
该框架通过像素格式之间的转换并管理视频同步事项使得复杂的工作得到了有效简化。
Core Media
Core Media 是 AVFoundation 所用到的低层级媒体管道的一部分。
它提供针对音频样本和视频帧处理所需的低底层数据类型和接口。
还提供了 AVFoundation 用到的基于 CMTime 数据类型的时基模型。
CMTime 极其相关的数据类型一般在 AVFoundation 处理基于时间的操作使用。
Core Animation
Core Animation 是 OS X 和 iOS 提供的合成及动画相关框架。
解析 AVFoundation
处于高层级框架和低层级框架之间。它既可以和高层级的框架无缝衔接,比如 Media Player 和 Assets Library, 使用这两个框架所提供的服务并在需要更高级的功能时,也可以直接和 Core Media 和 Core Audio 进行交互。
以下列举了 AVFoundation 所提供的一些核心功能。
音频播放和记录
在开篇的架构图中,AVFoundation 框架的右上角有一个小方格被单独地标记为”音频专用类“。这是由 AVFoundation 提供的关于音频处理的一些早起功能。
AVAudioPlayer 和 AVAudioRecorder 提供了一种更简单的整合音频播放和记录的功能。这些方法不是 AVFoundation 用于播放和记录音频的唯一方式,却是学习起来最简单并且功能最强大的方法。
媒体文件检查
检查正在使用的媒体文件。可以查看媒体资源是否适合一些特定的任务,比如是否可以用于回访或者是否可以被编辑和导出。
可以获取媒体资源相关的技术参数,比如内容持续时间、创建日期或首选播放音量等。
还基于 AVMetadataItem 类提供功能强大的元数据支持,这就允许开发者读写关于媒体资源的描述信息,比如唱片簿和艺术家信息。
视频播放
AVFoundation 提供的最常用的功能是视频播放功能。可以播放本地文件或者远程流中获取的视频资源,并对视频播放和内容的展示进行控制。这一部分的核心类是 AVPlayer 和 AVPlayerItem。
还有其他高级功能:如控制子标题和章节信息,或者连接访问音频和视频这两个不同的资源。
媒体捕捉
摄像头捕捉的核心类是 AVCaptureSession, 作为所有活动的汇集点来接收摄像头设备由各路流发过来的电影和图片。
媒体处理
使用 AVAssetReader 和 AVAssetWriter 类来实现这些功能,这些类提供了直接访问视频帧和音频样本的功能,所以可以对媒体资源进行任何更高级的处理。
了解数字媒体
模拟信号→数字信号,称为采样(Sampling)。
数字媒体采样
两种采样方式:
- 时间采样:捕捉一个信号周期内的变化。比如使用 iPhone 录制音频。
- 空间采样:一般用在图片数字化和其他可视化媒体内容数字化的过程。包含对一幅图片在一定分辨率之下捕捉其亮度和色度,进而创建由该图片的像素点数据所构成的数字化结果。
对视频数字化时,通常同时使用这两种采样方法,因为视频信号既有空间属性又有时间属性。
音频采样介绍
[图片上传失败...(image-8fa079-1639624747476)]
- 振幅:代表信号的强度
- 频率:在一定周期内振动完成循环的次数,单位是赫兹(Hz)。
[图片上传失败...(image-d91e6d-1639624747475)]
音频数字化过程包含一个编码方法:线性脉冲编码调制(liner pulse-code modulation),简称 Linear PCM 或 LPCM。这个过程采样一个固定的音频信号,过程的周期律被称为采样率。比如上图的采样率为 1 秒 7 次。
采样率需要是被采样对象最高频率的两倍,才能得到比较好的数字化效果。
数字媒体压缩
色彩二次抽样
两种主流的颜色模式:
- YUV: 使用色彩通道 UV 替换了像素的亮度通道 Y。
- RGB: 每个像素由红、绿、蓝三个颜色组合而成。
视频数据通常使用 YUV 的颜色模式。
[图片上传失败...(image-a2a804-1639624747475)]
上图中,如果除去亮度,剩下的就是一张灰度图片,可以看到色彩通道中几乎所有细节都丢失了。这是因为人眼对亮度的敏感度要高于颜色。
可以大幅减少存储在每个像素中的颜色信息,而不至于图片的质量严重受损。这个减少颜色数据的过程就成为色彩二次抽样。
[图片上传失败...(image-909365-1639624747475)]
4:4:4, 4:2:2, 4:2:0 这些值是设备所使用的的色彩二次抽样的参数。根据这些值按照如下格式将亮度比例表示为色度值,这个格式写作 J:a:b, 具体含义如下:
- J: 几个关联色块(一般是 4 个)中所包含的像素数。
- a: 用来保存位于第一行中的每个 J 像素的色度像素个数。
- b: 用来保存位于第二行中的每个 J 像素的附加像素个数。
为维持图片之类,每个像素点都需要有各自的亮度值,却不一样需要色度值。
这三种格式中,每个像素的全部亮度信息都被保存下来。4:4:4 全彩色信息被保留;4:2:2 色彩信息为没两个水平像素的平均值,即亮度和色度比率为 2:1。在 4:2:0 的情况下,色彩信息为水平和垂直两个方向的 4 个像素的平均值,结果就是亮度和色度的比率为 4:1。
色彩二次抽样一般发生在取样时:
- 专业相机:4:4:4
- 普通相机:4:2:2
- 消费级摄像头,如 iPhone:4:2:0
当以色彩作为核心或在生产后期矫正颜色的时候,如果色彩方面出现了衰减,那会是一个棘手的问题。
由于我们的色彩是通过多个像素点平均得来的,噪声点和其他一些失真问题也会出现在图片上。