落痕的寒假

2023-05-31-[音视频处理] FFmpeg使用指北1-视频解码

本文将详细介绍如何使用ffmpeg 4.4在C++中解码多种格式的媒体文件，这些媒体文件可以是视频、视频流、图片，或是桌面截屏或USB摄像头的实时图片。解码文件后，还将每帧图片转换为OpenCV的Mat格式以供后续使用。

文章目录

1 基于ffmpeg的媒体文件解码
- 1.1 简介
- 1.2 详细代码
2 ffmpeg函数解释
- 2.1 解封装
- - AVFormatContext
  - AVInputFormat
- 2.2 解码
- - AVStream
  - AVCodecContext
  - AVCodec
  - AVCodecParameters
- 2.3 数据存储
- - AVPacket
  - AVFrame
- 2.4 功能结构
- - AVRational
  - SwsContext
  - AVDictionary
  - 其他函数
3 参考
- 3.1 参考文章
- 3.2 ffmpeg结构体
- 3.3 ffmpeg函数

1 基于ffmpeg的媒体文件解码

1.1 简介

在开始之前，需要先安装FFmpeg。对于Windows用户，可以参考FFmpeg + Visual studio 开发环境搭建；对于Linux用户，可以参考FFmpeg4.4编译。

本文主要参考了ffmpeg-libav-tutorial/0_hello_world.c提供的代码。值得注意的是，由于FFmpeg版本变化较大，本文所使用的FFmpeg接口和以往有所不同。如果想进一步学习FFmpeg代码的使用，可以阅读FFmpeg-libav-tutorial、ffmpeg-learning-indexes和视音频编解码技术零基础学习方法(由于作者雷霄骅不幸英年早逝，哀悼！该文主要基于旧ffmpeg版本，但是仍然有很好的学习价值)。

涉及的步骤如下图所示：

解封装

在音视频处理过程中，解封装是指将输入的音视频文件进行解析，提取出音频流和视频流等多种流媒体数据，以便后续的数据处理和解码。在解封装过程中，首先需要判断输入源的格式，即判断输入的音视频文件是属于哪种格式。然后打开文件，查找流信息和视频索引。

解码

解码是指将音视频数据进行解码，将压缩后的数据转换成原始的音视频数据，以便后续的数据处理和播放。在解码过程中，需要初始化解码器，并打开解码器。本文只解码视频，音频则不进行处理。

取数据

在取数据过程中，需要初始化数据结构，读取视频帧，并将视频帧发送给解码器。随后，从解码器获取解码结果。

数据处理

数据处理是指对音视频数据进行各种处理，比如色彩空间转换、图像尺寸变换、图像格式转换等。

释放资源

在完成解码和数据处理后，需要释放结构体，以释放资源。释放资源是指对音视频处理过程中占用的各种资源进行释放，包括解码器、数据结构、缓冲区等。

1.2 详细代码

详细代码如下：

/**
 * @brief 代码主要参考https://github.com/leandromoreira/ffmpeg-libav-tutorial/blob/master/0_hello_world.c
 *
 */

extern "C"
{
#include "libavcodec/avcodec.h"
#include "libavfilter/avfilter.h"
#include "libavformat/avformat.h"
#include "libavutil/avutil.h"
#include "libavutil/ffversion.h"
#include "libavutil/opt.h"
#include "libavutil/imgutils.h"
#include "libavutil/time.h"
#include "libswresample/swresample.h"
#include "libswscale/swscale.h"
#include "libavdevice/avdevice.h"
}
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 

// 日志打印宏
#define LOG(msg, ...)\
fprintf(stderr,"LOG [line %d] ",__LINE__);\
fprintf(stderr,msg, ##__VA_ARGS__);\
fprintf(stderr, "\n");

// 支持的输入文件形式
enum URLType { file, usbcam, desktop, yuvfile };

// usb摄像头读取函数
void usbcam_get(const char * url, AVInputFormat ** ifmt);

// 解码函数
static int decode_packet(AVPacket *pPacket, AVCodecContext *pCodecContext, AVFrame *pFrame, int skip = 0);

/**
 * 涉及到结构体
 * AVFormatContext	存储媒体文件所有信息的结构体
 * AVInputFormat 存储媒体文件的格式信息
 * AVStream	表示音视频流信息的结构体
 * AVCodecContext	存储解码音视频所有信息的结构体
 * AVCodec	存储视频或音频的编解码器的结构体
 * AVCodecParameters	存储音视频编解码器的相关参数信息的结构体
 * AVPacket	储存解码前数据的结构体
 * AVFrame	存储解码后数据的结构体
 * AVRational	表示有理数的结构体
 * SwsContext	用于图像转换的结构体
 */
int main()
{
	// 设置数据类型
	URLType urltype = yuvfile;
	// 初始化结构体
	const char *url = NULL;
	AVFormatContext *pFormatContext = NULL;
	AVInputFormat *ifmt = NULL;
	AVDictionary *options = NULL;
	// AVCodec负责编解码音视频流
	AVCodecContext *pCodecContext = NULL;
	AVCodec *pCodec = NULL;
	AVCodecParameters *pCodecParameters = NULL;
	// 负责保存数据
	AVPacket *pPacket = NULL;
	AVFrame *pFrame = NULL;

	LOG("FFMPEG VERSION: %s", av_version_info());
	LOG("开始运行");

	// 存储音视频封装格式中包含的信息
	// avformat_alloc_context初始化AVFormatContext结构体
	pFormatContext = avformat_alloc_context();

	if (!pFormatContext)
	{
		LOG("pFormatContext分配内存失败");
		return -1;
	}

	// 注册能操作的输入输出设备
	avdevice_register_all();
	if (urltype == file)
	{
		// rtsp流
		//url = "rtsp://wowzaec2demo.streamlock.net/vod/mp4:BigBuckBunny_115k.mp4";
		// 输入图片
		// url = "demo.png";
		// 输入视频
		url = "demo.mp4";
		// 设置超时时间为5秒
		av_dict_set(&options, "stimeout", "5000000", 0);
	}
	else if (urltype == usbcam)
	{
		url = "0";
		// 如果使用以下方式读取本机摄像头，需要自行获得摄像头名称
		// 使用指令：ffmpeg -list_devices true -f dshow -i dummy
		//url = "video=HD WebCam";
		// 输出ffmpeg版本
		usbcam_get(url, &ifmt);
		// 设置图片尺寸
		av_dict_set(&options, "video_size", "640x480", 0);
		av_dict_set(&options, "framerate", "30", 0);
	}
	else if (urltype == desktop)
	{
		// Windows
#ifdef _WIN32
	// 根据不同的url选择不同的格式
		url = "desktop";
		ifmt = av_find_input_format("gdigrab");
		// linux处理
#elif defined linux
		// linux命令行输入echo $DISPALY获得
		url = ":1";
		ifmt = av_find_input_format("x11grab");
#endif
		av_dict_set(&options, "video_size", "1920x1080", 0);
		av_dict_set(&options, "framerate", "15", 0);
	}
	else if (urltype == yuvfile)
	{
		url = "akiyo_cif.yuv";
		// yuv图像尺寸需要提前设置
		av_dict_set(&options, "video_size", "352x288", 0);
	}

	// avformat_open_input打开输入的媒体文件
	if (avformat_open_input(&pFormatContext, url, ifmt, &options) != 0)
	{
		LOG("打开文件失败");
		return -1;
	}

	LOG("打开文件 %s", url);

	// 读取文件音视频编解码器的信息
	LOG("文件格式 %s, 文件时长 %lld us, 比特率 %lld bit/s",
		pFormatContext->iformat->name,
		pFormatContext->duration,
		pFormatContext->bit_rate);

	LOG("获取输入音视频文件的流信息");
	// avformat_find_stream_info获取输入音视频文件的流信息
	if (avformat_find_stream_info(pFormatContext, NULL) < 0)
	{
		LOG("无法获取流信息");
		return -1;
	}

	// 设置是否读取到视频流
	int video_stream_index = -1;

	// 循环浏览所有流并打印其主要信息
	for (int i = 0; i < int(pFormatContext->nb_streams); i++)
	{
		AVCodecParameters *pLocalCodecParameters = NULL;
		// 提取当前流的编解码器参数
		pLocalCodecParameters = pFormatContext->streams[i]->codecpar;

		AVCodec *pLocalCodec = NULL;

		// 查找指定编解码器的解码器
		pLocalCodec = avcodec_find_decoder(pLocalCodecParameters->codec_id);

		if (pLocalCodec == NULL)
		{
			LOG("不支持该解码器！");
			continue;
		}

		// 当流是视频时，我们存储其索引、解码器和编解码器参数
		if (pLocalCodecParameters->codec_type == AVMEDIA_TYPE_VIDEO)
		{
			if (video_stream_index == -1)
			{
				video_stream_index = i;
				pCodec = pLocalCodec;
				pCodecParameters = pLocalCodecParameters;
			}

			LOG("视频编解码器类型： %s ID： %d", pLocalCodec->name, pLocalCodec->id);
			LOG("视频流帧率为：%f", av_q2d(pFormatContext->streams[i]->r_frame_rate));
			LOG("视频流共有：%d帧", pFormatContext->streams[i]->nb_frames);
			LOG("视频图像分辨率为：(%d,%d)", pLocalCodecParameters->width, pLocalCodecParameters->height);
		}
		else if (pLocalCodecParameters->codec_type == AVMEDIA_TYPE_AUDIO)
		{
			LOG("音频编解码器类型： %s ID： %d", pLocalCodec->name, pLocalCodec->id);
			LOG("音频通道数：%d channels, 采样率：%d", pLocalCodecParameters->channels, pLocalCodecParameters->sample_rate);
		}
	}

	if (video_stream_index == -1)
	{
		LOG("%s文件不包含视频流!", url);
		return -1;
	}

	// 分配AVCodecContext结构体并进行初始化
	pCodecContext = avcodec_alloc_context3(pCodec);
	if (!pCodecContext)
	{
		LOG("AVCodecContext初始失败");
		return -1;
	}

	// 将AVCodecParameters中的参数设置到AVCodecContext中
	if (avcodec_parameters_to_context(pCodecContext, pCodecParameters) < 0)
	{
		LOG("AVCodecParameters参数拷贝失败");
		return -1;
	}

	// 打开解码器
	if (avcodec_open2(pCodecContext, pCodec, NULL) < 0)
	{
		LOG("打开解码器失败");
		return -1;
	}

	// 创建AVPacket
	pPacket = av_packet_alloc();
	if (!pPacket)
	{
		LOG("AVPacket初始化失败");
		return -1;
	}

	// 创建AVFrame
	pFrame = av_frame_alloc();
	if (!pFrame)
	{
		LOG("AVFrame初始化失败");
		return -1;
	}

	int response = 0;
	// 最多读取帧数
	int how_many_packets_to_process = 500;
	// 帧处理跨度
	int skip_span = 50;

	// 读取媒体文件中的音视频帧
	while (av_read_frame(pFormatContext, pPacket) >= 0)
	{
		// 判断是否为视频帧
		if (pPacket->stream_index == video_stream_index)
		{
			// 只解码关键帧，关键帧不依赖于其他帧进行解码，所以可以跳过其他帧

			// 关键帧间隔由媒体流数据源决定
			// if (!(pPacket->flags & AV_PKT_FLAG_KEY)) {
			//	continue;
			//}
			int skip = 1;
			// 如果已读取帧数除以skip_span为0，则下一帧进行处理
			if (pCodecContext->frame_number % skip_span == 0)
			{
				skip = 0;
			}

			// 计算时间
			auto start = std::chrono::system_clock::now();
			// 图像解码函数
			response = decode_packet(pPacket, pCodecContext, pFrame, skip);
			auto end = std::chrono::system_clock::now();
			auto duration = std::chrono::duration_cast(end - start).count();
			if (skip == 0)
			{
				LOG("解码和处理一帧图像耗时：%d ms", duration);
			}
			else
			{
				LOG("仅解码一帧图像耗时：%d ms", duration);
			}
			// 图像解码状态判定
			if (response < 0)
				break;
			// 超过读取图像上限
			if (--how_many_packets_to_process <= 0)
			{
				LOG("读图完毕！");
				break;
			}
		}
		// 释放AVPacket结构体中的内存
		av_packet_unref(pPacket);
	}

	LOG("销毁所有结构体");

	// 销毁结构体
	avformat_close_input(&pFormatContext);
	av_packet_free(&pPacket);
	av_frame_free(&pFrame);
	avcodec_free_context(&pCodecContext);
	av_dict_free(&options);
	system("pause");
	return 0;
}

void usbcam_get(const char * url, AVInputFormat ** ifmt)
{
	// Windows
#ifdef _WIN32
	// 根据不同的url选择不同的格式
	if (url == "0")
		*ifmt = av_find_input_format("vfwcap");
	else
		*ifmt = av_find_input_format("dshow");
	// linux
#elif defined linux
	url = "/dev/video0";
	*ifmt = av_find_input_format("video4linux2");
#endif
}

static int decode_packet(AVPacket *pPacket, AVCodecContext *pCodecContext, AVFrame *pFrame, int skip)
{
	// 将pPacket数据送入pCodecContext进行解码
	int response = avcodec_send_packet(pCodecContext, pPacket);

	if (response < 0)
	{
		return response;
	}

	while (response >= 0)
	{
		// 用于从解码器中获取解码后的视频帧
		response = avcodec_receive_frame(pCodecContext, pFrame);
		if (response == AVERROR(EAGAIN) || response == AVERROR_EOF)
		{
			break;
		}
		else if (response < 0)
		{
			LOG("读图出错: %d", response);
			return response;
		}

		// 仅读取当前帧
		if (skip != 0)
		{
			return 0;
		}
		if (response >= 0)
		{
			LOG("Frame %d，帧类型=%c，视频格式=%d，pts=%d，是否为关键帧=%d",
				pCodecContext->frame_number,
				av_get_picture_type_char(pFrame->pict_type),
				pFrame->format,
				pFrame->pts,
				pFrame->key_frame);

			// 图像保存名
			char frame_filename[1024];
			snprintf(frame_filename, sizeof(frame_filename), "%s-%d.jpg", "frame", pCodecContext->frame_number);

			// 将解码后的帧转换为BGR格式
			// 创建图像转换器，设置图像尺寸缩小一倍
			int dst_w = int(pCodecContext->width / 2);
			int dst_h = int(pCodecContext->height / 2);
			SwsContext *swsCtx = sws_getContext(
				pCodecContext->width, pCodecContext->height, (AVPixelFormat)pCodecContext->pix_fmt,
				dst_w, dst_h, AV_PIX_FMT_BGR24,
				SWS_POINT, NULL, NULL, NULL);
			cv::Mat bgrMat(dst_h, dst_w, CV_8UC3);
			// 拿出opencv的数据
			uint8_t *dest[1] = { bgrMat.data };
			int destStride[1] = { int(bgrMat.step) };
			// 执行格式转换
			sws_scale(swsCtx, pFrame->data, pFrame->linesize, 0, pFrame->height, dest, destStride);
			// 保存图片
			cv::imwrite(frame_filename, bgrMat);
			// 释放swsCtx数据
			sws_freeContext(swsCtx);
		}
	}
	return 0;
}

以上代码参考下图阅读最好。图片来自ffmpeg-libav-tutorial/decoding.png。

如果是linux下使用该代码文件还需编写CMakeLists.txt，CMakeLists.txt内容如下：

# 最低cmake版本
cmake_minimum_required(VERSION 3.2)
# 工程名
project(ffmpeg_demo)
set(CMAKE_EXPORT_COMPILE_COMMANDS ON)
set(EXECUTABLE_OUTPUT_PATH ${PROJECT_SOURCE_DIR})

# --- opencv
find_package(OpenCV REQUIRED)

# --- ffmpeg
set(FFMPEG_INCLUDE_DIRS "/usr/local/include/")
set(FFMPEG_LIB_DIRS "/usr/local/lib/")
set(FFMPEG_LIBS "avcodec;avformat;avutil;swresample;avdevice;swscale")

include_directories(${FFMPEG_INCLUDE_DIRS})
link_directories(${FFMPEG_LIB_DIRS})

# 生成可执行文件
add_executable(ffmpeg_demo demo.cpp)
target_link_libraries(ffmpeg_demo  ${FFMPEG_LIBS} ${OpenCV_LIBS} pthread)

2 ffmpeg函数解释

2.1 解封装

解封装的作用是从输入的封装格式数据（例如MP4、AVI、MKV）中提取视频流压缩编码数据和音频流压缩编码数据。封装格式的作用是将已经压缩编码的视频数据和音频数据按照一定的格式放在一起。例如，将MP4封装格式的数据输出H.264编码格式的视频流和AAC格式的音频流。一般解封装的流程如下：

在使用FFmpeg解码音视频文件时，需要通过AVFormatContext来获取文件信息和流信息。AVFormatContext中包含AVInputFormat结构体指针，指向当前媒体文件的输入格式。
AVInputFormat结构体描述了媒体文件的封装格式，如MP4、AVI、MKV等。
avformat_alloc_context用于创建并初始化AVFormatContext结构体，为后续的音视频文件解码或编码做好准备。
avformat_open_input用于打开音视频文件并读取文件信息到AVFormatContext结构体中。
avformat_find_stream_info用于获取音视频流信息并存储到AVFormatContext结构体中。
avformat_close_input用于关闭音视频文件并释放AVFormatContext结构体占用的内存空间。

AVFormatContext

AVFormatContext是一个存储流媒体相关信息的上下文结构体(统领相关操作全局的结构体)。几乎所有的音视频操作都需要先创建一个AVFormatContext对象。AVFormatContext使用完毕需要手动释放内存。AVFormatContext的主要属性及使用说明：

AVInputFormat *iformat：输入格式结构体指针，用于指定输入文件的格式，一般由FFmpeg自动探测获取。
AVOutputFormat *oformat：输出封装格式的结构体指针。
AVIOContext *pb：输入输出的AVIOContext结构体指针。
unsigned int nb_streams：音视频流个数。
int64_t duration：音视频文件的时长，单位为微秒（μs），一般由FFmpeg解析后赋值。
int64_t bit_rate：音视频文件的码率，单位为bit/s，一般由FFmpeg解析后赋值。
AVStream **streams：音视频流列表的指针数组。
AVDictionary *metadata：元数据信息，例如标题、作者、描述等等。

该结构体涉及以下函数：

avformat_alloc_context

avformat_alloc_context用于分配AVFormatContext结构体并初始化。该函数返回一个指向AVFormatContext结构体的指针，如果分配失败则返回NULL。

AVFormatContext *avformat_alloc_context(void);

avformat_open_input

avformat_open_input用于打开输入的媒体文件，将音视频文件的元数据信息读取到AVFormatContext结构体中。函数返回0表示成功打开文件。

int avformat_open_input(AVFormatContext ** ps,
                        const char * url, 
                        const AVInputFormat * fmt,
                        AVDictionary ** options )

**ps：指向AVFormatContext结构体指针的指针，用于存放打开的媒体文件的相关信息。
*url：输入媒体文件的URL地址。可以是本地文件路径或者网络地址。
*fmt：输入媒体文件的格式，如果为NULL，则根据URL自动探测输入媒体的格式。
**options：输入媒体文件的选项参数。

avformat_find_stream_info

avformat_find_stream_info用于获取输入文件的流信息。它会读取输入文件的所有数据包，并尝试从中获取流的参数，如流的编解码器、帧率、分辨率等等。在调用avformat_find_stream_info之后，可以通过 AVFormatContext结构体中的streams字段访问到每个流的详细信息。函数返回值大于等于0表示成功。

int avformat_find_stream_info(AVFormatContext *ic, AVDictionary **options);

ic：指向AVFormatContext结构体的指针。
options：指向AVDictionary结构体指针的指针，用于传递选项给解复用器。

avformat_close_input

avformat_close_input用于关闭AVFormatContext文件并释放相关资源。一般情况下avformat_close_input和avformat_open_input成对使用，该函数也在内部会调用avformat_free_context函数释放AVFormatContext结构体。

void avformat_close_input(AVFormatContext **ps);

ps：指向AVFormatContext结构体指针的指针，该指针会在函数执行完毕后被置为NULL。

avformat_free_context

avformat_free_context用于释放AVFormatContext结构体。


void avformat_free_context(AVFormatContext * s)

ps：指向AVFormatContext结构体的指针。

AVInputFormat

AVInputFormat用于表示输入的媒体文件的格式。主要作用为通过解析输入的媒体文件，并将其转换成FFmpeg内部所使用的数据结构。AVInputFormat结构体的内存由FFmpeg库自动分配和释放，在调用avformat_close_input函数后，FFmpeg库将自动释放AVInputFormat结构体。AVInputFormat的主要属性及使用说明：

const char * name：输入文件类型的名称。
const char * long_name：输入文件类型的详细描述。
const char * extensions：输入文件类型的扩展名列表。

2.2 解码

解码的作用是将视频或音频压缩编码数据转换成为非压缩的视频或音频原始数据。例如将H.264的视频压缩数据解码为逐帧YUV图像数据。一般解码的流程如下：

每个AVStream结构都存储一个视频/音频流的相关数据，例如流的编号、流的类型、流的码率等等。AVStream结构中还包含一个指向对应AVCodecContext结构的指针，该结构用于存储该视频/音频流解码方式的所有信息，如编码器的名称、编码器的属性、编码器的状态等等。
AVCodecContext结构中又包含一个指向对应AVCodec结构的指针，AVCodec结构包含该视频/音频对应的解码器的基本信息，如编码器的名称、编码器的类型、编码器的能力等。当需要使用某个编解码器时，需要先通过编解码器的名称来查找对应的AVCodec结构体，然后再将这个结构体中的信息赋值给AVCodecContext结构体中的相应字段。
AVCodecParameters结构体是一个描述编解码器参数结构体，它包含了一个编解码器的参数信息，如编码器的宽度、编码器的高度、编码器的码率等等。对一个视频或音频流进行编解码时，需要使用AVCodecParameters结构体来描述这个流的参数信息，然后再将这个结构体中的信息赋值给AVCodecContext结构体中的相应字段。

AVStream

AVStream是FFmpeg中表示音视频流的结构体，每个AVStream结构体都对应一个视频或音频流的相关数据。AVStream结构体的内存由FFmpeg库自动分配和释放。AVStream的主要属性及使用说明：

AVCodecParameters *codecpar：指向AVCodecParameters结构体的指针，存储了该流的编解码器参数。
AVRational ime_base：时间基准，表示每个采样的持续时间，以分数形式表示。
int64_t start_time：流的开始时间，以时间戳的形式表示。
int64_t duration：流的持续时间，以时间戳的形式表示。
int64_t nb_frames：该流中的帧数。
AVRational r_frame_rate：用于表示实际帧率的AVRational结构体。
AVRational avg_frame_rate：用于表示平均帧率的AVRational结构体。

AVCodecContext

AVCodecContext包含解码音视频所有信息的上下文结构体。在进行音视频编解码时，通过对AVCodecContext的相关参数进行设置，来控制编解码器的行为。AVCodecContext使用完毕需要手动释放内存。AVCodecContext的一些常用参数包括：

enum AVCodecID codec_id：指定音视频编解码器的ID。
AVRational time_base：音视频帧的时间基准，用于计算时间戳等。
int64_t bit_rate：音视频的比特率，影响编码后的文件大小和质量。
int width和int height：视频的宽高。
int sample_rate和int channels：音频的采样率和声道数。
enum AVPixelFormat pix_fmt：视频的像素格式，如YUV420P、RGB24等。
attribute_deprecated int frame_number：获得已处理帧数，但是该属性已经被废弃，因为如果编码/解码导致错误，则计数器不递增。

该结构体涉及以下函数：

avcodec_alloc_context3

avcodec_alloc_context3函数用于分配AVCodecContext结构体并进行初始化。该函数返回一个指向AVCodecContext结构体的指针，如果分配失败则返回NULL。

AVCodecContext *avcodec_alloc_context3(const AVCodec *codec);

codec：指向AVCodec结构体的指针，表示要使用的解码器。

avcodec_parameters_to_context

avcodec_parameters_to_context函数的作用是将AVCodecParameters中的参数设置到AVCodecContext中。返回值小于0表示设置失败。

int avcodec_parameters_to_context(AVCodecContext *codec, const AVCodecParameters *par);

AVCodecContext *codec：需要设置参数的AVCodecContext结构体指针。
const AVCodecParameters *par：需要从中获取参数的AVCodecParameters结构体指针。

avcodec_open2

avcodec_open2用于打开AVCodec并初始化AVCodecContext。返回0表示成功，否则表示失败。

int avcodec_open2(AVCodecContext *avctx, const AVCodec *codec, AVDictionary **options);

avctx：指向一个已经分配好内存的AVCodecContext结构体。
codec：指向一个已经注册好的编码器或解码器的AVCodec结构体。
options：指向一个AVDictionary类型的指针，用于传递打开编码器或解码器时的参数，可以为NULL。

avcodec_send_packet

avcodec_send_packet函数用于将一个未解码的AVPacket数据送入解码器AVCodecContext进行解码。该函数执行成功后，解码器AVCodecContext内部的缓存将会被填充上相应的数据，可以通过调用avcodec_receive_frame函数来获取解码结果。返回值为0表示成功，否则表示失败。

int avcodec_send_packet(AVCodecContext *avctx, const AVPacket *avpkt);

avctx：已经被打开的编解码器。
avpkt：待解码的AVPacket。

avcodec_receive_frame

avcodec_receive_frame用于从解码器中获取解码后的视频帧。avcodec_receive_frame一般会外嵌while循环，可以保证在没有接收到可用帧之前不会退出循环，从而避免数据包丢失或者解码错误的情况发生。

int avcodec_receive_frame(AVCodecContext *avctx, AVFrame *frame);

avctx：解码器对象。
frame：存放解码后的视频帧的AVFrame对象。

返回值表示获取到的视频帧的状态，具体取值如下：

0：成功获取到一帧视频帧。
AVERROR(EAGAIN)：缓冲区中没有可用的视频帧，需要再次调用该函数。
AVERROR_EOF：解码器中的所有视频帧都已经读取完成。

avcodec_free_context

avcodec_free_context函数用于释放AVCodecContext结构体所占用的内存。

void avcodec_free_context(AVCodecContext **avctx);

avctx: 指向需要释放的AVCodecContext结构体指针。`

AVCodec

AVCodec用于表示视频或音频的编解码器。AVCodec数据结构的内存由FFmpeg库自动分配和释放。AVCodec的主要属性及使用说明：

const char * name：编解码器的名称。
const char * long_name：编解码器的详细描述。
enum AVMediaType type：表示编解码器的类型，可以是视频、音频或其他类型。
enum AVCodecID id：表示编解码器的ID。
int capabilities：表示编解码器的功能特性，例如是否支持多线程等。
const AVRational * supported_framerates：表示编解码器支持的帧率列表。
enum AVPixelFormat * pix_fmts：表示编解码器支持的像素格式列表。
const int * supported_samplerates：表示编解码器支持的采样率列表。
enum AVSampleFormat * sample_fmts：表示编解码器支持的采样格式列表。

该结构体涉及以下函数：

avcodec_find_decoder

avcodec_find_decoder用于通过codec_id查找指定已经注册的解码器。如果找到了指定的解码器，返回指向该解码器的AVCodec指针。如果未找到指定的解码器，返回 NULL。

AVCodec *avcodec_find_decoder(enum AVCodecID id);

id：要查找的解码器的AVCodecID格式codec_id，AVCodecID 是一个枚举类型表示不同的编解码器。。

AVCodecParameters

AVCodecParameters主要用于存储音视频编解码器的相关参数信息。AVCodecParameters数据结构的内存由FFmpeg库自动分配和释放。AVCodecParameters常用属性介绍：

enum AVMediaType codec_type：音视频流类型。
enum AVCodecID codec_id：指定解码器的ID，如AV_CODEC_ID_H264表示使用H.264解码器。
int64_t bit_rate：指定音视频的比特率，单位为bps。
int width和int height：指定视频的宽度和高度。
int channels：表示声道数
int sample_rate：指定音频采样率，单位为Hz。
uint8_t * extradata/int extradata_size：指定音视频流的附加数据和附加数据的大小。

2.3 数据存储

AVPacket用于保存解码前的数据，AVFrame则用于保存解码后的数据。在解码器中，AVPacket中的数据会被解码成AVFrame。在编码器中，AVFrame中的数据会被编码成AVPacket。

AVPacket

AVPacket是用于存储压缩音频或视频数据的结构体。它包含了一段压缩后的数据和对应的时间戳信息，以及一些其他的附加信息，如数据流索引、关键帧标识等。在解码过程中，AVPacket会被送到解码器中进行解码，得到AVFrame。AVPacket使用完毕需要手动释放内存。AVPacket的主要属性如下：

uint8_t* data：指向音视频数据帧的指针。
int size：音视频数据帧的大小。
int64_t pts：音视频数据帧的显示时间。
int64_t dts：音视频数据帧的解码时间。
int stream_index：音视频数据帧所属的流的索引。
int flags：用于描述AVPacket的一些特性。常见选项如下：
- AV_PKT_FLAG_KEY：表示该AVPacket所包含的数据是一个关键帧。
- AV_PKT_FLAG_CORRUPT：表示该AVPacket所包含的数据可能已经损坏。当解码器无法正确解码一个AVPacket时，就会设置该标志位，通知应用程序此AVPacket已经损坏。
- AV_PKT_FLAG_DISCARD：表示该AVPacket所包含的数据可以被丢弃。当解码器对于某些时刻无法解码出正确的图像时，就会设置该标志位。可以选择丢弃该AVPacket，以保证视频的流畅性。
- AV_PKT_FLAG_TRUSTED：表示该AVPacket所包含的数据是可信的。当解码器在解码AVPacket时，会校验AVPacket的CRC校验码，如果校验码正确，则会设置该标志位。这个标志位通常用于保证视频的完整性，以防止篡改或者损坏。

该结构体涉及以下函数：

av_packet_alloc

av_packet_alloc用于创建AVPacket结构体并为其分配内存空间。函数返回一个指向新分配的AVPacket结构体的指针。如果分配失败，则返回NULL。

AVPacket *av_packet_alloc(void);

av_packet_unref

av_packet_unref函数用于清除AVPacket结构体中的数据，但是并不会释放这个结构体本身，以便可以重新使用或销毁AVPacket结构体。

void av_packet_unref(AVPacket *pkt);

pkt：AVPacket结构体指针。

av_packet_free

av_packet_free用于释放AVPacket结构体所占用内存。

void av_packet_free(AVPacket **pkt);

pkt：指向AVPacket结构体指针的指针。

AVFrame

AVFrame是用于存储解码后的数据的结构体。它包含了一帧图像或音频解码后的数据，以及一些相关的信息，如宽度、高度、像素格式等。在解码过程中，AVFrame是解码器输出的数据，它可以被送到渲染器中进行渲染，也可以被编码器编码成新的AVPacket。AVFrame使用完毕需要手动释放内存。AVFrame结构体中常用的属性介绍和说明：

uint8_t * data：指向一个指针数组，其中包含了这一帧的所有数据。对于视频帧，通常包含了YUV或RGB数据；对于音频帧，通常包含了PCM数据。具体的数据格式和分布，可以通过其他参数进行描述。
int linesize：指向一个整型数组，用于描述每个数据平面的行大小（即每一行占用的字节数）。对于视频帧，通常会有三个数据平面（分别对应Y、U、V或R、G、B三个分量）；对于音频帧，通常只有一个数据平面。linesize数组的大小应该与data数组的大小相同。
uint8_t ** extended_data：指向一个指针数组，其中包含了所有数据平面的指针。对于一些特殊的数据格式，data数组可能无法直接描述所有数据平面。这时，extended_data可以用于补充缺失的数据平面。
int width和int height：分别表示这一帧的宽度和高度。对于音频帧，这两个参数均为0。
int format：表示这一帧的数据格式。对于视频帧，常用的格式有YUV420、YUV422、YUV444、RGB24等；对于音频帧，常用的格式有PCM_S16LE、PCM_S16BE、PCM_F32LE等。
int64_t pts：表示这一帧在整个多媒体流中的时间戳（Presentation Time Stamp）。它通常以视频帧率或音频采样率为单位，用于确定这一帧的播放时间。
int64_t pkt_pts和int64_t pkt_dts：分别表示这一帧所属的AVPacket中的时间戳和解码时间戳（Decode Time Stamp）。它们与pts的含义类似，但是它们是从AVPacket中直接获取的，可能会存在一些偏差或不准确的情况。
int sample_rate和int channel_layout：仅用于音频帧，分别表示采样率和声道布局。其中，channel_layout可以用于指定声道数和声道位置的具体信息。
enum AVPictureType pict_type：表示帧的图像类型是I帧、P帧、B帧还是S帧。关键帧（I帧）是一种特殊的帧，它包含完整的图像信息，不依赖于前面或后面的帧。P帧（预测帧）和B帧（双向预测帧）则只包含部分图像信息，需要参考前面或后面的帧才能正确解码。通过使用关键帧，可以提高视频的压缩比以及解码效率。S帧是跳帧，它直接复制前一帧的图像，用于视频压缩。
int key_frame：表示当前帧是否为关键帧。

该结构体涉及以下函数：

av_frame_alloc

av_frame_alloc用于创建AVFrame结构体并为其分配内存空间。函数返回一个指向新分配的AVFrame结构体的指针。如果分配失败，则返回NULL。

AVFrame *av_frame_alloc(void);

av_read_frame

av_read_frame用于从AVFormatContext中读取媒体文件中的音频或视频帧，并将数据存储到AVPacket中。返回值为0表示读取成功，为负数表示读取失败。

int av_read_frame(AVFormatContext *s, AVPacket *pkt);

s: 指向表示媒体文件AVFormatContext结构体的指针。
pkt: 指向AVPacket结构体的指针，用于存储读取到的音视频帧的数据。

av_frame_free

av_frame_free函数用于释放AVFrame结构体占用的内存空间。

void av_frame_free(AVFrame **frame);

frame：需要释放的AVFrame结构体指针的地址。

2.4 功能结构

AVRational

AVRational结构体是FFmpeg中表示有理数的结构体，用于表示时间戳、帧率、采样率等一些基本的时间和频率相关的属性。AVRational结构体包含两个整型成员，num和den，分别表示分子和分母。用AVRational结构体表示的有理数值为num/den。AVRational结构体中的成员变量由FFmpeg内部自动分配和释放。AVRational属性如下：

int num: 有理数值的分子
int den: 有理数值的分母

该结构体涉及以下函数：

av_q2d

av_q2d是一个用于将AVRational转换为double类型的函数，也就是将AVRational中的分子和分母相除。

double av_q2d(AVRational a);

a：需要转换的AVRational类型的数值。

SwsContext

SwsContext是FFmpeg中用于图像转换的数据结构，它包含了图像转换所需的所有参数。要注意的是该结构体的原始定义在swscale_internal.h文件中，普通编译的ffmpeg工程没有该文件。所以该结构体一般仅仅是使用。SwsContext使用完毕需要手动释放内存。SwsContext的主要参数如下：

int srcW和int srcH：源图像的宽度和高度。
int dstW和int dstH：目标图像的宽度和高度。
enum AVPixelFormat srcFormat和enum AVPixelFormat dstFormat：源图像和目标图像的像素格式。
int flags：图像转换时的一些特殊选项，如是否进行区间缩放等。
double param：一些额外的参数，如亮度、对比度等。

在使用FFmpeg解码时，默认解码后图像的颜色格式为YUV420p，关于YUV420p介绍见YUV图像处理入门1。

该结构体涉及以下函数：

sws_getContext

sws_getContext的作用是创建一个用于图像转换的SwsContext结构体。如果创建成功，返回一个指向SwsContext结构体的指针，否则返回NULL。函数原型如下：

struct SwsContext *sws_getContext(
    int srcW,
    int srcH,
    enum AVPixelFormat srcFormat,
    int dstW,
    int dstH,
    enum AVPixelFormat dstFormat,
    int flags,
    SwsFilter *srcFilter,
    SwsFilter *dstFilter,
    const double *param
);

srcW：输入图像宽度。
srcH：输入图像高度。
srcFormat：输入图像像素格式。
dstW：输出图像宽度。
dstH：输出图像高度。
dstFormat：输出图像像素格式。
flags：转换标志，用于指定转换算法和参数。常用设置如下：
- SWS_FAST_BILINEAR：较快的双线性转换，适用于实时应用，但可能会有些失真。
- SWS_BILINEAR：双线性转换，速度较快，但输出质量较低。
- SWS_BICUBIC：双三次转换，速度较慢，但输出质量较高。
- SWS_X：可自定义的转换算法，速度和质量取决于具体实现。
- SWS_POINT：转换的速度非常快的最近邻插值算法，但是转换后的图像质量相对其他方法低。因为SWS_POINT将目标像素点映射到图像时，直接使用最近的像素点来进行映射，会导致转换后的图像出现锯齿状的边缘，而且图像的细节信息也会丢失。
srcFilter：输入图像过滤器，用于图像缩放和裁剪。
dstFilter：输出图像过滤器，用于图像缩放和裁剪。
param：转换参数，用于指定转换算法的参数。

sws_scale

sws_scale用于执行多种不同的像素格式转换。sws_scale函数的返回值为输出图像的高度，返回值小于等于0表示转换失败。

int sws_scale(struct SwsContext *c, const uint8_t *const srcSlice[],
              const int srcStride[], int srcSliceY, int srcSliceH,
              uint8_t *const dst[], const int dstStride[]);

c：可以通过sws_getContext函数获取。
srcSlice[]：输入图像数据指针数组。
srcStride[]：输入图像每行的字节数组。
srcSliceY：输入图像的起始行。
srcSliceH：输入图像的高度。
dst[]：输出图像数据指针数组。
dstStride[]：输出图像每行的字节数组。

sws_freeContext

sws_freeContext的作用是释放SwsContext结构体占用的内存空间，避免内存泄露。

void sws_freeContext(struct SwsContext *context);

context：要释放的SwsContext结构体指针。

AVDictionary

AVDictionary是FFmpeg中的一个字典结构体，用于存储键值对数据。AVDictionary使用后一般不需要手动释放内存，但是建议手动释放内存。以下是AVDictionary属性的说明：

int count：AVDictionary中键值对的数量。
AVDictionaryEntry * elems：指向AVDictionaryEntry结构体数组的指针，每个元素包含一个键值对。

该结构体涉及以下函数：

av_dict_set

av_dict_set用于向字典中添加或修改键值对。该函数的返回值为0表示成功，否则表示失败。av_dict_set可以设置的有效键值对需要参阅。

int av_dict_set(AVDictionary **pm, const char *key, const char *value, int flags)

pm：指向字典指针的指针。
key：要添加或修改的键名。
value：要添加或修改的键值。
flags：标志位，控制键名是否可以覆盖已存在的键名。

av_dict_free

av_dict_free用于释放字典（dictionary）结构体占用的内存空间。

void av_dict_free(AVDictionary **m)

m：指向AVDictionary指针的指针。

其他函数

avdevice_register_all

avdevice_register_all用于注册所有可用的音视频输入/输出设备，以方便进行数据采集。

void avdevice_register_all(void);

av_find_input_format

av_find_input_format用于查找输入视频流格式。该函数返回值是一个指向AVInputFormat结构体的指针。

AVInputFormat *av_find_input_format(const char *short_name);

short_name是待查找的输入流格式的短名称。短名称是该格式的简称，例如:
- mp4：表示MP4格式。
- vfwcap：是一个视频捕获设备的输入格式，用于Windows平台。它使用VFW（Video for Windows）API来捕获视频数据。
- dshow：是一个视频捕获设备的输入格式，用于Windows平台。它使用DirectShow API来捕获视频数据。
- video4linux2：是一个视频捕获设备的输入格式，用于Linux平台。它使用Video4Linux2 API来捕获视频数据。
- gdigrab：用于在Windows上捕获屏幕的输入格式。
- x11grab：用于在Linux上捕获屏幕的输入格式。

3 参考

3.1 参考文章

FFmpeg + Visual studio 开发环境搭建
ffmpeg4.4编译
ffmpeg-libav-tutorial/0_hello_world.c
ffmpeg-libav-tutorial
ffmpeg-learning-indexes
视音频编解码技术零基础学习方法
ffmpeg-libav-tutorial/decoding.png
YUV图像处理入门1

3.2 ffmpeg结构体

AVFormatContext
AVInputFormat
AVStream
AVCodecContext
AVCodec
AVCodecParameters
AVPacket
AVFrame
AVRational
SwsContext
AVDictionary

3.3 ffmpeg函数

avformat_alloc_context
avformat_open_input
avformat_find_stream_info
avformat_close_input
avformat_free_context
avcodec_find_decoder
avcodec_parameters_to_context
avcodec_open2
avcodec_send_packet
avcodec_receive_frame
avcodec_free_context
av_packet_alloc
av_packet_unref
av_packet_free
av_frame_alloc
av_read_frame
av_frame_free
av_q2d
sws_getContext
sws_scale
sws_freeContext
av_dict_set
av_dict_free
avdevice_register_all
av_find_input_format

你可能感兴趣的:(音视频处理,ffmpeg,音视频)

抖音视频数据获取实战：从API调用到热门内容挖掘爱搞技术的猫猫 API 音视频
在短视频流量为王的时代，掌握抖音热门视频数据已成为内容运营、竞品分析及营销决策的关键。本文将手把手教你通过抖音开放平台API获取视频详情数据，并提供完整的代码实现及商业化应用思路。一、抖音API权限申请与核心接口抖音API需企业资质认证，个人开发者权限受限。以下是接入流程：企业开发者认证•登录开放平台，选择注册，提交信息等材料。•完成认证后，创建应用（如“视频数据分析工具”），获取ClientKe
【视频】m3u8相关操作郭老二视频音视频
1、视频文件转m3u81.1常用命令1）默认只保留5个ts文件ffmpeg-iinput.mp4-start_number0-hls_time10-hls_list_size0-fhlsstream1.m3u82）去掉音频-an，保留全部ts文件ffmpeg-iinput.mp4-vfscale=640:480-an-start_number0-hls_time10-hls_list_size0-
C++基础系列【26】排序和查找算法程序喵大人 C++基础系列 c语言算法开发语言 c++
博主介绍：程序喵大人35-资深C/C++/Rust/Android/iOS客户端开发10年大厂工作经验嵌入式/人工智能/自动驾驶/音视频/游戏开发入门级选手《C++20高级编程》《C++23高级编程》等多本书籍著译者更多原创精品文章，首发gzh，见文末记得订阅专栏，以防走丢C++基础系列专栏C语言基础系列专栏C++大佬养成攻略专栏C++训练营排序与查找算法的重要性不用过多介绍了吧，面试也经常考察。
ffmpeg录屏 _洛_神音视频音视频
qt+ffmpeg屏幕录制软件完整工程链接：https://download.csdn.net/download/weixin_42538789/85013858测试代码#include#include"screencapture.h"#includeusingnamespacestd;intmain(intargc,char*argv[]){QCoreApplicationa(argc,argv
211 本硕研三，已拿 C++ 桌面应用研发 offer，计划转音视频或嵌入式如何规划学习路线？程序员yt c++音视频学习
今天给大家分享的是一位粉丝的提问，211本硕研三，已拿C++桌面应用研发offer，计划转音视频或嵌入式如何规划学习路线？接下来把粉丝的具体提问和我的回复分享给大家，希望也能给一些类似情况的小伙伴一些启发和帮助。同学提问：前辈您好，我是211本硕，目前研三，秋招拿到C++桌面应用研发的offer，但计划的这个岗位最多干3-4年左右，后续企业规划上想往音视频开发或嵌入式上转；个人感觉C++八股，算法
Java使用FFmpegFrameGrabber进行视频拆帧，结合Thumbnails压缩图片保存到文件夹 Acmen-zym Java Java IO java 音视频开发语言
引入依赖net.coobirdthumbnailator0.4.17org.bytedecojavacv1.5.7org.bytedecojavacv-platform1.5.7视频拆帧处理publicstaticvoidmain(String[]args){Filefile=newFile("C:\\Users\\EDY\\Desktop\\frame");File[]files=file.li
RTSP协议规范与SmartMediaKit播放器技术解析音视频牛哥 RTSP播放器轻量级RTSP服务大牛直播SDK 音视频机器视觉人工智能 rtsp播放器 python rtsp播放器 rtsp player 大牛直播SDK
在实时流媒体传输领域，RTSP（Real-TimeStreamingProtocol）协议作为标准规范，为音视频数据的高效传输提供了坚实基础。而大牛直播SDK的rtsp播放器，则是在此基础上构建的高性能解决方案，广泛应用于多种场景，如安防监控、远程教学、直播互动等。本文将深入探讨RTSP协议规范，并结合大牛直播SDK的rtsp播放器，剖析其技术细节与优势。RTSP协议规范概述RTSP协议是一种用于
python3+ffmpeg下载B站视频，附代码才华横溢吴道简爬虫 python windows
最近要去外面玩，旅途漫长，于是乎，就写了个代码，从B站上下载纪录片看，代码附后，请自取，如果觉得有用，麻烦点个赞，鼓励一下。感谢~~一、下载安装ffmpegFfmpeg是一款自由软件，用于视频和音频文件的处理，在本例中，我使用它进行视频文件和音频文件的合并。合并代码写在python脚本中，你只需下载好ffmpeg即可，而且因为合并代码中使用ffmpeg的绝对路径，所以也不用设置环境配置。Ffmpe
如何使用 Python 和 FFmpeg 下载 B站视频木觞清 7天熟练Python python ffmpeg 音视频
在这篇文章中，我们将讨论如何使用Python脚本结合FFmpeg下载并合并B站视频的流，生成一个完整的视频文件。具体来说，我们将通过B站的API获取视频的音频和视频流，然后使用FFmpeg下载并将它们合并成一个.mp4文件。前提条件Python：你需要安装Python，推荐使用Python3.6或更高版本。FFmpeg：确保你已经安装并配置好了FFmpeg。如果尚未安装，可以参考FFmpeg官方网
使用Python下载抖音短视频：完整教程与代码解析 cnh6070 短视频 python 音视频开发语言
抖音作为全球领先的短视频平台，拥有海量的优质内容。然而，抖音官方并未提供直接下载视频的功能，这给一些用户带来了不便。幸运的是，通过Python编程，我们可以实现抖音视频的下载。本文将详细介绍如何使用Python下载抖音短视频，并解析一个完整的代码示例。一、准备工作在开始之前，你需要确保已经安装了Python环境，并且安装了以下必要的Python库：requests：用于发送网络请求，获取网页内容或
【ai】mocap：conda 安装python3.8+ cuda+ pytorch+torchaudio、torchvision 等风来不如迎风去 AI入门与实战人工智能 ubuntu conda
MotionCapubuntu18.04不知道为啥会依赖于ffmpeg、xorg渲染？安装pytorch就是会带上cudacudnn啥的pytorch【ai】tx2nx：安装torch、torchvisionforyolov5这里就发现pytorch和torchvision有依赖关系的，还涉及到rapidjson所以python的环境隔离很重要。核心库-cudatoolkit=11.3-pytor
Qt 多线程设计：死循环与信号槽的权衡吃面不喝汤66 qt 开发语言
在开发音视频播放器时，多线程设计是不可避免的挑战。音频和视频的解码、播放需要高效运行，同时还要与主线程或其他线程同步，例如通过信号通知播放进度。本文基于一个实际案例，分析了两种线程设计在死循环和信号槽使用中的表现，探讨其原因，并给出选择建议。问题表现我在实现音频播放线程时，遇到了一个问题：主线程通过QMetaObject::invokeMethod调用terminateDecode无法终止音频线程
视频转音频, 音频转文字言之。 python 音视频
Ubuntu24环境准备#系统级依赖sudoaptupdate&&sudoaptinstall-yffmpegpython3-venvgitbuild-essentialpython3-dev#Python虚拟环境python3-mvenv~/ai_summarysource~/ai_summary/bin/activate核心工具链工具用途安装命令Whisper语音识别pipinstallope
解决开发FFMPEG视频播放器右侧白色线问题吃面不喝汤66 OBS二次开发 ffmpeg 音视频
在开发基于Qt和FFmpeg的视频播放器时，我遇到一个常见但令人困惑的问题：在使用VideoWidget（继承自QOpenGLWidget）播放某些视频时，窗口右侧会出现一条白色线。这不仅影响视觉效果，还可能暴露潜在的渲染或缓冲区问题。本文将详细分析这一现象的成因，并提供经过验证的解决方案。问题现象在使用自定义的VideoDecoder和VideoWidget类播放视频时，大多数视频都能正常显示，
ffmpeg+ubuntu16.04编译ffmpeg库小gpt& QT+FFMPEG实战 ffmpeg linux
个人使用环境：ubuntudesktop16.04+ffmpeg4.2.1以下的库进行完整编译ffmpeg介绍FFmpeg是一个开源的多媒体框架，广泛用于处理音频、视频、字幕等多媒体数据。它包含了丰富的工具和库，能够进行音视频的编解码、转码、流媒体处理、滤镜应用等操作。FFmpeg是许多多媒体应用程序和工具的核心引擎，功能强大且灵活，支持几乎所有常见的音视频格式。FFmpeg的主要组成部分ffmp
从零实现B站视频下载器：Python自动化实战教程木觞清 #编程语言自动化运维
一、项目背景与实现原理1.1B站视频分发机制Bilibili的视频采用音视频分离技术，通过以下方式提升用户体验：动态码率适配（1080P/4K/HDR）分段加载技术（基于M4S格式）内容保护机制（防盗链/签名验证）1.2技术实现路线graphTDA[模拟浏览器请求]-->B[获取加密播放信息]B-->C[解析音视频地址]C-->D[多线程下载]D-->E[FFmpeg合并]二、代码逐层解析2.1请
实现音视频播放功能鸿蒙示例代码
本文原创发布在华为开发者社区。介绍本示例基于Avplayer构建了一个音视频播放器，包括音视频的播放、暂停、全屏播放、倍速播放、快进等基本操作。实现音视频播放功能源码链接效果预览使用说明打开应用，展示视频播放器，选择不同按钮进行不同操作。切换音频，展示音频播放器，选择不同按钮进行不同操作。实现思路AVPlayer播放主流程播放的全流程包含：创建AVPlayer，设置播放资源，设置播放参数（音量/倍
WebRTC、WebSocket、EasyRTC嵌入式音视频SDK：技术差异与应用场景详细对比 EasyCVR RTC webrtc websocket 音视频 javascript 网络开发语言
WebRTC和WebSocket是两种常用于实时通信的技术，尽管它们都支持实时数据传输，但在设计目标、技术实现和应用场景上存在显著差异。一、概述1）WebRTCWebRTC是一个开源项目，旨在通过简单的API实现浏览器之间的实时音视频通信和数据传输。它支持点对点（P2P）通信，主要应用于音视频通话、屏幕共享、文件传输等场景。2）WebSocketWebSocket是一种基于TCP的通信协议，提供了
实现音视频录制功能鸿蒙示例代码
本文原创发布在华为开发者社区。介绍本示例基于AVRecorder实现音视频录制，包括开始录制、暂停、结束、上一个等几乎所有录制音视频的基本操作。实现音视频录制功能源码链接效果预览使用说明打开应用，展示视频录制和音频录制两个按钮。点击视频录制即可录制视频，并会保存视频。点击音频录制按钮即可开始录制音频，并会保留音频文件，点击文件可以进行播放。实现思路构建音频录制页面构造setAudioRecorde
实现音视频录制功能鸿蒙示例代码
本文原创发布在华为开发者社区。介绍本示例基于AVRecorder实现音视频录制，包括开始录制、暂停、结束、上一个等几乎所有录制音视频的基本操作。实现音视频录制功能源码链接效果预览使用说明打开应用，展示视频录制和音频录制两个按钮。点击视频录制即可录制视频，并会保存视频。点击音频录制按钮即可开始录制音频，并会保留音频文件，点击文件可以进行播放。实现思路构建音频录制页面构造setAudioRecorde
WebRTC 介绍 KillFuckBugs webrtc
WebRTC简介WebRTC（WebRealTimeCommunication，网页实时通信）是一个开源项目和技术标准，旨在为浏览器和应用程序提供实时通信功能，无需额外的插件或第三方软件。它最初由Google在2011年发起，现由W3C（万维网联盟）和IETF（互联网工程任务组）共同维护和标准化。WebRTC的核心目标是实现低延迟、高质量的音视频通信以及点对点数据传输，广泛应用于视频会议、实时聊天
从 0 到 1 掌握鸿蒙 AudioRenderer 音频渲染：我的自学笔记与踩坑实录（API 14）李游Leo harmonyos-next harmonyos 鸿蒙音视频笔记
最近我在研究HarmonyOS音频开发。在音视频领域，鸿蒙的AudioKit框架提供了AVPlayer和AudioRenderer两种方案。AVPlayer适合快速实现播放功能，而AudioRenderer允许更底层的音频处理，适合定制化需求。本文将以一个开发者的自学视角，详细记录使用AudioRenderer开发音频播放功能的完整过程，包含代码实现、状态管理、最佳实践及踩坑总结。一、环境准备与核
从FFmpeg命令行到Rust：多场景实战指南 Yeauty ffmpeg rust video-codec
FFmpeg作为功能强大的多媒体处理工具，被广泛应用于视频编辑、格式转换等领域。然而，直接使用FFmpeg的命令行界面（CLI）可能会遇到以下挑战：命令复杂度高：FFmpeg的命令行参数众多且复杂，初学者可能难以掌握，配置错误时调试困难。集成困难：在Rust等现代编程语言中，直接调用FFmpeg的C语言API需要处理复杂的内存管理和安全性问题，可能引发内存泄漏、非法访问等问题。为了解决这些问题，R
HarmonyNext实战：基于ArkTS的高性能实时音视频通信系统开发 harmonyos-next
HarmonyNext实战：基于ArkTS的高性能实时音视频通信系统开发引言在HarmonyNext生态系统中，实时音视频通信是一个复杂且关键的技术领域，广泛应用于视频会议、在线教育、远程医疗等场景。本文将深入探讨如何基于ArkTS设计和实现一个高性能实时音视频通信系统，适配HarmonyNext，并满足实际工程中的低延迟、高清晰度和高可靠性需求。本文面向有一定开发经验的读者，假设您已经熟悉Har
Bluetooth Profile Specification之（AVRCP篇）5.0 AVRCP简介心跳包蓝牙篇之蓝牙协议规范蓝牙
蓝牙篇之BluetoothProfileSpecification深入详解汇总目录1.什么是AVRCP？2.协议栈模型关注文末微信公众号，回复【蓝牙规范】，即可获取AVRCP英文版协议。1.什么是AVRCP？字面意思音频/视频远程控制协议。AVRCP定义的命令和信息是通过AVCTP通过传输出去的。AVRCP协议不处理音视频流，支持这个协议的设备可以通过A2DP来分发流媒体数据。1.5版本到1.6版
音视频缓存数学模型锋风Fengfeng 安卓Android应用开发相关音视频缓存
2024年8月的笔记音视频缓存数学模型-Wesley’sBlog播放器作为消费者，缓存作为生产者。进入缓冲一次设消费者速率为v1，生产者为v2，视频长度为l，x为生产者至少距离消费者多远才能保证在播完视频前两者重合。实际上就是一个追及问题。v1t=v2t+x，即l=v2*l/v1+x，因为播放器速度是1，继续简化得x=l(1-v2)如果v2大于1，即满足消费者需求时，可以流畅播放。设l是一部45分
从FFmpeg命令行到Rust：多场景实战指南
FFmpeg作为功能强大的多媒体处理工具，被广泛应用于视频编辑、格式转换等领域。然而，直接使用FFmpeg的命令行界面（CLI）可能会遇到以下挑战：命令复杂度高：FFmpeg的命令行参数众多且复杂，初学者可能难以掌握，配置错误时调试困难。集成困难：在Rust等现代编程语言中，直接调用FFmpeg的C语言API需要处理复杂的内存管理和安全性问题，可能引发内存泄漏、非法访问等问题。为了解决这些问题，R
Agora-Uniapp-SDK 使用指南章瑗笛
Agora-Uniapp-SDK使用指南Agora-Uniapp-SDK项目地址:https://gitcode.com/gh_mirrors/ag/Agora-Uniapp-SDK1.项目目录结构及介绍Agora-Uniapp-SDK是一个基于Uni-app与AgoraAndroid和iOS视频SDK实现的集成库，它专门设计用于简化在uni-app项目中集成Agora音视频功能的过程。以下是其主
linux CentOS 7.9 安装 ffmpeg 6.0 教程【亲测成功】刘登辉 ffmpeg linux centos
查看当前系统版本[[email protected]]#lsb_release-aLSBVersion::core-4.1-amd64:core-4.1-noarchDistributorID:CentOSDescription:CentOSLinuxrelease7.9.2009(Core)Release:7.9.2009Codename:Corewgethttp://www.ffm
常用的ffmpeg文件格式转换指令儿孙未解供耕织 linux 嵌入式 ffmpeg
mp3转wav:ffmpeg-iinput.mp3-acodecpcm_s16le-ac2-ar44100output.wavwav转m4a:ffmpeg-fwav-itest.wav-ar48000-acodecaac-vn-dntest.m4amp3转mp4:ffmpeg-iREC_START.mp3-codeccopyREC_START.mp4m4a转wav:ffmpeg-iinput.m4
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，