之前的博客中已经使用了FFmpeg进行音频文件的解码,并且基于OpenSLES实现了一个简单的音乐播放器。最近正在学习《音视频开发进阶指南》,看到了视频部分。不如就干脆再写一个视频播放器。代码存放在我的github:Android-VideoPlayer。
首先对这个视频播放器所采用的一些部件要清楚。这个播放器主要可以拆分为4个部分:
这些框架都是基于C的api,因此这次我们的主要工作将会集中在NDK部分。而关于NDK的一些知识,之前的博客也有讲过,所以这个工程会是对之前知识的一次综合运用。
按照视频播放器的功能,我们将分出以下几个模块:
为了提高可移植性,对关键部件使用接口来规范其API接口。
1. IAudioPlayer:音频播放器接口。它规定的接口如下
class IAudioPlayer {
public:
virtual bool create() = 0;
virtual void release() = 0;
virtual void start() = 0;
virtual void stop() = 0;
virtual bool isPlaying() = 0;
virtual void setAudioFrameProvider(IAudioFrameProvider *provider) = 0;
virtual void removeAudioFrameProvider(IAudioFrameProvider *provider) = 0;
};
2. IVideoPlayer:视频播放接口。
class IVideoPlayer {
public:
virtual bool create() = 0;
virtual void release() = 0;
virtual void refresh() = 0;
virtual void setVideoFrameProvider(IVideoFrameProvider *provider) = 0;
virtual void removeVideoFrameProvider(IVideoFrameProvider *provider) = 0;
virtual void setWindow(void *window) = 0;
virtual void setSize(int32_t width, int32_t height) = 0;
virtual bool isReady() = 0;
};
3. AudioFrame:存储解码好的音频数据。
对于播放器内部,播放的音频数据格式为16位PCM,44.1kHz采样率,双声道。为了避免每一段音频数据都要重新申请内存,我们将会复用AudioFrame,因此要给它设置一个最大音频数据存储空间。
struct AudioFrame{
// present time stamp
int64_t pts;
int16_t *data;
int32_t sampleCount;
int32_t maxDataSizeInByte = 0;
AudioFrame(int32_t dataLenInByte)
{
this->maxDataSizeInByte = dataLenInByte;
pts = 0;
sampleCount = 0;
data = (int16_t *)malloc(maxDataSizeInByte);
memset(data, 0, maxDataSizeInByte);
}
~AudioFrame(){
if(data != NULL)
{
free(data);
}
}
};
4. VideoFrame:存储解码好的视频数据:
对于播放器内部使用的视频数据格式,分辨率为1920*1080,像素格式RGB888,每种颜色一个字节,一个像素占3个字节。对于VideoFrame同样会复用。
struct VideoFrame
{
int64_t pts;
uint8_t *data;
int32_t width;
int32_t height;
int32_t maxDataSizeInByte = 0;;
VideoFrame(int32_t dataLenInByte)
{
this->maxDataSizeInByte = dataLenInByte;
data = (uint8_t *)malloc(maxDataSizeInByte);
memset(data, 0, maxDataSizeInByte);
}
~VideoFrame()
{
if(data != NULL)
{
free(data);
}
}
};
5. IAudioFrameProvider:面向IAudioPlayer的音频数据的提供源,它为IAudioPlayer提供解码好的音频数据
由于要复用AudioFrame,因此要设置一个接口,让IAudioPlayer将使用完的AudioFrame归还给我们。
class IAudioFrameProvider {
public:
virtual AudioFrame* getAudioFrame() = 0;
virtual void putBackUsed(AudioFrame *data) = 0;
};
6. IVideoFrameProvider:和IAudioFrameProvider一样。
class IVideoFrameProvider {
public:
virtual VideoFrame* getVideoFrame() = 0;
virtual void putBackUsed(VideoFrame* data) = 0;
};
7. IMediaDataReceiver:用于接收解码好的音视频数据的接口。
它是用来维护并存储已经解码好的音视频数据和使用过的音视频数据。
class IMediaDataReceiver {
public:
virtual void receiveAudioFrame(AudioFrame *audioData) = 0;
virtual void receiveVideoFrame(VideoFrame *videoData) = 0;
virtual AudioFrame* getUsedAudioFrame() = 0;
virtual VideoFrame* getUsedVideoFrame() = 0;
virtual void putUsedAudioFrame(AudioFrame *audioData) = 0;
virtual void putUsedVideoFrame(VideoFrame *videoData) = 0;
};
8. BlockRecyclerQueue:同步复用队列。
c++内并没有线程安全的队列模型。因此我们自己实现一个。并且由于播放器内很多的数据都会需要复用,因此给这个队列加一个复用功能。这样,这个类内部会有两个队列,一个存储未使用的数据,一个存储已使用的数据。使用两把锁,分别对两个队列进行线程保护。当然,实际上你也可以以更小的粒度来考虑这件事,只要使用一个队列,然后对队列进行线程保护即可,至于里面存储的到底是用过的数据还是没用过的数据,完全可以由上层来决定。
播放器中的多线程都使用c++11自带的thread。
这个同步复用队列实际上就是生产者消费者模式中的管道。它有以下几个特点:
discardAll(void (*discardCallback)(T))
方法可以将所有的有用数据一次性放到回收数据中,并且还可以传递一个函数指针,对所有的有用数据进行回收处理,之后再放入回收队列。这是为了seek操作考虑的,因为seek时要放弃所有已经解码好的数据。template <class T>
class BlockRecyclerQueue {
public:
// if size == -1, then we don't limit the size of data queue, and all the put option will not wait.
BlockRecyclerQueue(int capacity = -1);
~BlockRecyclerQueue();
int getCapacity();
int getSize();
// put a element, if wait = true, put option will wait until the length of data queue is less than specified size.
void put(T t, bool wait = true);
// get a element, if wait = true, it will wait until the data queue is not empty. If wait = false, it will return NULL if the data queue is empty.
// It will still return NULL even wait = true, in this case, it must be someone call notifyWaitGet() but the data queue is still empty.
T get(bool wait = true);
void putToUsed(T t);
T getUsed();
void discardAll(void (*discardCallback)(T));
// notify all the put option to not wait. This will cause put option succeed immediately
void notifyWaitPut();
// notify all the get option to return immediately. if data queue is still empty, get option will return a NULL.
void notifyWaitGet();
private:
int capacity = 0;
mutex queueMu;
mutex usedQueueMu;
condition_variable notFullSignal;
condition_variable notEmptySignal;
list<T> queue;
list<T> usedQueue;
bool allowNotifyPut = false;
bool allowNotifyGet = false;
};
解码部分还是使用FFmpeg。解码过程和解码音频过程大同小异。
首先,我们肯定需要两个线程来分别解码音频和视频。
其次,还需要一个线程来读取文件,之前我们在解码音频时将从文件中读取packet和将packet解码为frame的过程放在同一个线程中执行,因为音频文件我们只关注音频流。现在我们要将读packet这个操作单独放在一个线程里,然后解码器要维护两个队列,来分别存放音频的AVPacket和视频的AVPacket,这两个队列就可以使用之前的BlockRecyclerQueue
。这相当于,读文件线程是生产者,而音频解码线程和视频解码线程都是消费者。具体代码可以查看VideoFileDecoder.cpp
。
需要注意的是,seek操作也是放在解码器中进行的,因为seek需要对媒体文件进行操作。在seek时,同样要将之前所有已经读出的AVPacket抛弃。
由于文件解码出的编码格式会不一样,因此我们需要FFmpeg的swr_convert
来转码音频数据,用sws_scale
转码视频数据。
我向外提供了一个播放器的统一操作接口:VideoPlayController.cpp
,同时它还负责通知上层播放进度、管理音视频播放器和解码器、管理已解码好的数据等。因此它的声明如下:
class VideoPlayController: public IMediaDataReceiver, public IAudioFrameProvider, public IVideoFrameProvider
它实现了三个接口,可以接受解码器解码好的数据,并且向音视频播放器分别提供音频数据和视频数据。
由于通常音频帧率要比视频帧率高很多,一般视频中的音频采样率多为44.1kHz或48kHz,而视频一般是25fps。
音视频同步通常有两种方式:
一般来说,额外时钟的方式会更好一些,一是因为它的精度高;二是这样一来,如果出现文件中只有视频或者只有音频的情况,适用性也会更高些;三是如果你的音频播放器不是主动请求音频数据的,那么你无论如何都需要一个额外时钟来向音频播放器和视频播放器定时发送数据。不过它的缺点在于多占资源。
我这里使用的是以音频时间为基准,因为OpenSLES是主动请求音频数据的。这样一来每次音频播放器请求数据时,我们可以拿到当前AudioFrame的pts,就可以得知当前的播放进度,也可以以这个播放进度来判断是否向视频播放器发送刷新指令。
自然而然,播放和暂停功能也是通过控制音频播放器的播放暂停来实现的。
音视频同步也放在VideoPlayController.cpp
中。音视频同步部分的代码放在AudioFrame *VideoPlayController::getAudioFrame()
方法中。
至此,这个播放器的关键部分就理清了。代码请上我的github上查看,链接在博客顶部。不过它仍然有很多问题: