陈达书

FastASR+FFmpeg(音视频开发+语音识别)

想要更好的做一件事情，不仅仅需要知道如何使用，还应该知道一些基础的概念。

一、音视频处理基本梳理

1.多媒体文件的理解

1.1 结构分析

多媒体文件本质上可以理解为一个容器

容器里有很多流

每种流是由不同编码器编码的

在众多包中包含着多个帧(帧在音视频的处理中是最小单位)

1.2 封装格式

封装格式(也叫容器) 就是将已经编码压缩好的视频流、音频流及字幕流按照一定的方案放到一个文件中，便于播放软件播放。一般来说，视频文件的后缀就是它的封装格式。封装格式不一样，后缀名也就不一样(xxx.mp4 xxx.flv)。

1.3 音视频同步

Audio Master：同步视频到音频

Video Master: 同步音频到视频

External Clock Master: 同步音频和视频到外部时钟

1.4 音视频录制原理

1.5 音视频播放原理

1.6 音视频播放原理

2.音视频的基础概念

2.1 声音

对自然界的声音进行采样,采样就是在时间轴上对信号进行数字化信号,即按照一定时间间隔t在模拟信号x(t)上逐点采取其瞬时值。采样率越高，声音的还原程度越高，质量就越好，同时占用空间会变大。

量化:用有限个幅度近似原来连续的幅度值把模拟信号的连续幅度变成有限数量的有一定间隔的离散值。【采样值的精确度取决于它用多小位来表示，这就是量化。例如8位量化可以表示256个不同的值,而CD质量的16位可以表示65536个值，范围-32769-32767】

我们来算下这个值:

编码:安装一定的规律把量化后的值用二进制数字表示，然后转化成二值或多值的数字信号流。这样得到的数字信号可以通过电缆，卫星通信等数字线路传输。接收端与上述过程相反。

编码如何理解:

我们在学校上学的时候应该听老师讲过哈夫曼编码，道理其实都一样。采用某种形式将某个值变成唯一的，有效的编码可以提高安全性、压缩数据等有效功效。

PCM:上面数字化的过程又称为脉冲编码调制,通常我们说音频的裸数据格式就是脉冲编码调制数据。描述一段PCM数据需要4量化指标:采样率、位深度、字节序、声道数。

采样率:每秒钟采样多少次,以Hz为单位。

无线广播	22000(22kHz)
CD音质	44100(44.1kHz)
数字电视(DVD)	48000(48Hz)
蓝光(高清DVD)	96000(96kHz)
蓝光(高清DVD)	192000(192kHz)

位深度(Bit-depth):表示用多小个二进制位来描述采样数据,一般位16bit。

字节序:表示音频PCM数据存储的字节序是大端存储还是小端存储,为了数据处理效率高效,通常采用小端存储。

声道数(channel number):当前PCM文件中包含的声道数是单声道还是双声道

比特率:每秒传输的bit数,单位为bps(Bit Per Second)。间接衡量声音质量的一个标准。没有压缩的音频数据的比特率=采样频率*采样精度*通道数。

码率：压缩后的音频数据的比特率。码率越大，压缩效率越低，音质越好，压缩后数据越大。码率=音频文件大小/时长。

FM质量	96kps
一般质量音频	128-160kbps
CD质量	192kbps
高质量音频	256-320kbps

帧:每次编码的采样单元数。比如MP3通常是1152个采样点作为一个编码单元，AAC通常是1024个采样点作为一个编码单元。

帧长:可以指每帧播放的持续时间。每帧持续时间(秒)=每帧采样点数/采样频率(HZ)。也可以指压缩后每帧的数据长度。

音频编码:主要作用是将音频采样数据（PCM等）压缩成为音频码流，从而降低音频的数据量,偏于存储和传输。

MP3	一种数字音频编码和有损压缩格式，用于大幅度降低音频数量。
AAC	AAC比MP3有更高的压缩比,同样大小的音频文件,AAC音质更高。
WMA	本身包含有损和无损压缩格式

2.2图像

图像是客观对象的一种相似性的、生动性的描述或写真，是人类社会活动中最常用的信息载体。或者说图像是客观对象的一种表示，它包含了被描述对象的有关信息。它是人们最主要的信息源。

像素:屏幕显示是把有效面积化为很多个小格子,每个格子只显示一种颜色,是成像的最小元素,因此就叫做"像素"。

分辨率:屏幕在长度和宽度这两个方向上各有多少个像素,就叫做分辨率,一般用A x B来表示。分辨率越高,每个像素的面积越小,显示效果就越平滑细腻。

RGB表示图像:8bit表示一个子像素: 取值范围[0~255] 或者 [00~FF]。例如图像格式RGBA_8888,表示4个8bit表示一个像素,而RGB_565用5+6+5bit表示一个像素。一张1280*720的RGBA_8888格式的图片大小=1280 x 720 x 32bit。所以每一张图像的裸数据都是很大的。一部90分钟的电影,没秒25帧: 90 * 60 * 25 * 1280 * 720 * 32 bit = 463.48G。

YUV表示图像:YUV，是另外一种颜色编码方法，视频的裸数据一般使用 YUV 数据格式表示。Y 表示明亮度，也称灰度值（灰阶值）。UY 表示色度，均表示影响的色彩和饱和度，用于指定像素的颜色。

亮度:需要透过 RGB 输入信号建立，方式为将 RGB 信号的特定部分（g 分量信号）叠加到一起。

色度：定义了颜色的色调和饱和度，分别用 Cr、Cb 表示，(C 代表分量(是 component 的缩写))。Cr 反映 RGB 输入信号红色部分与 RGB 信号亮度值之间的差异。Cb 反映 RGB 输入信号蓝色部分与 RGB 信号亮度值之间的差异。

2.3视频

由于人类眼睛的特殊结构，画面快速切换时，画面会有残留（视觉暂留），感觉起来就是连贯的动作。所以，视频就是由一系列图片构成的。

视频码率:指视频文件在单位时间内使用的数据流量，也叫码流率。码率越大，说明单位时间内取样率越大，数据流精度就越高。

视频帧率:通常说一个视频的25帧，指的就是这个视频帧率，即1秒中会显示25帧。帧率越高，给人的视觉就越流畅。

视频分辨率：分辨率就是我们常说的640x480分辨率、1920x1080分辨率，分辨率影响视频图像的大小。

帧:帧不需要参考其他画面而生成，解码时仅靠自己就重构完整图像。

视频的编码：编码的目的就是为了压缩，让各种视频的体积变得更小，有利于存储和传输。国际上主流制定视频编解码技术的组织有两个，一个是“国际电联（ITU-T）”，它制定的标准有 H.261、H.263、H.263+、H.264 等，另一个是“国际标准化组织（ISO）”它制定的标准有 MPEG-1、MPEG-2、 MPEG-4 等。

WMV	微软推出的一种流媒体格式，它是在“同门”的 ASF 格式升级延伸来得。在同等视频质量下，WMV 格式的文件可以边下载边播放，因此很适合在网上播放和传输。
VP8	来自 On2 的 WebM, VPX(VP6,VP7,VP8,VP9)，这个编码设计用于 web 视频。
WebRTC	在 2010 年 5 月，Google 以大约 6820 万美元收购了 VoIP 软件开发商 Global IP Solutions 公司，并因此获得了该公司拥有的 WebRTC 技术。WebRTC 集成 VP8, VP9。
AV1	是一个开放，免专利的视频编码格式，针对互联网传输视频而设计。
AVS	是中国具备自主知识产权的第二代信源编码标准，是《信息技术先进音视频编码》系列标准的简称，其包括系统、视频、音频、数字版权管理等四个主要技术标准和符合性测试等支撑标准。
H265	与 H.264 编解码器相比，HEVC 在压缩方面提供了重大的改进。HEVC 压缩视频的效率比 H.264 要高出两倍。使用 HEVC，相同视觉质量的视频只占用一半的空间。
VP9	是由 Google 开发的开放式、无版权费的视频编码标准，VP9 也被视为是 VP8 的下一代视频编码标准。

3.常用的音视频处理第三方库

3.2.1基本概念

FFmpeg(Fast Forward MPEG)是全球领先的多媒体框架，能够解码(decode)、编码(encode)、转码(transcode)、复用(mux)、解复用(demux)、流化(stream)、滤波(filter)和播放几乎人类和机器创造的所有多媒体文件。

3.2.2 FFmpeg 的主要基本组成

FFmpeg的封装模块AVFormat:AVFormat实现了多媒体领域绝大数媒体封装格式，包括封装和解封装，如MP4、FLV、KV、 TS等文件封装格式，RTMP、RTSP、MMS、HLS等网络协议封装格式。FFmepg是否支持某种媒体封装格式取决于编译时是否包含了该格式的封装库。

FFmpeg的编解码模块AVCodec:AVCodec包括大多数常用的编解码格式，既支持编码也支持解码。除了支持MPEG4、AAC、MJPEG等自带的媒体格式也支持H.264（x264编码器）、H.265（X265编码器）、MP3（libMP3lame编码器）

FFmepg的滤镜模块AVFilter:AVFilter库提供了一个通用的音频、视频、字幕等滤镜处理框架。在AVFilter中，滤镜框架可以有多个输入和多个输出。

FFmpeg的视频图像转换计算模块swscale:swscale模块提供了高级别的图像转换API，它能够对图像进行缩放和像素格式转换。

FFmpeg的音频转换计算模块swresample:swresample提供了音频重采样API，支持音频采样、音频通道布局、布局调整。

3.2.3 FFmpeg 的优劣

高可移植性:可以在Linux、Mac、Windows等系统上编译、运行以及通过FATE(FFMPEG自动化测试环境)测试。
高性能:专门针对X86、arm、MIPS、ppc等大多数主流的处理器提供了对应的汇编级的优化实现。
高度安全: FFMPEG官方对代码审查总是考虑安全性，而且一旦发布的版本中有安全性的Bug都会尽快的修复并更新发布版本。
高度易用性:FFMPEG提供的API都有相关的注释，且官方也有对应的说明文档
支持的格式多样性:FFMPEG支持很多媒体格式的解码、编码、复用、解复用等功能，不管是很老的格式，还是比较新的格式均有不错的支持
无法识别有空格的文件名
FFMPEG编码时,时间戳只需要指定AVFrame的pts字段

3.2.4 FFmpeg的安装配置

Windows

比较简单

Linux

方法1(yum安装) 不过这个版本有点旧

更新新系统

Sudo yum install epel-release -y

Sudo yum update -y

导入密钥并设置源

sudo rpm --import http://li.nux.ro/download/nux/RPM-GPG-KEY-nux.ro

sudo rpm -Uvh http://li.nux.ro/download/nux/dextop/el7/x86_64/nux-dextop-release-0-5.el7.nux.noarch.rpm

安装ffmpeg

yum -y install ffmpeg ffmpeg-devel

检查版本

ffmpeg -version

方法 2（编译安装）

先下载源码包：

git clone https://git.ffmpeg.org/ffmpeg.git ffmpeg

进入ffmpeg文件夹，依次执行下列语句:

cd ffmpeg

./configure

make

make install

将编译好的ffmpeg复制到bin目录

cp ffmpeg /usr/bin/ffmpeg

检查版本

ffmpeg -version

3.2.5 FFmpeg的命令行使用

获取媒体文件信息

ffmpeg -i 文件全路径 -hide_banner

示例: ffmpeg -i video_file.mp4 -hide_banner

注: -hide_banner 隐藏ffmpeg本身的信息，只显示文件相关信息(编码器、数据流等)。

转换媒体文件(可以实现在不同媒体格式之间进行自由转换)

注:ffmpeg会从后缀名猜测格式

ffmpeg -i 待转换的文件路径转换后的文件路径

示例: ffmpeg -i video_input.mp4 video_output.avi

ffmpeg -i video_input.webm video_output.flv

ffmpeg -i audio_input.mp3 video_output.ogg

ffmpeg -i audio_input.wav audio_output.flac video_output.flv

参数: -qscale 0 保留原始的视频质量

从视频中提取音频

ffmpeg -i 视频全路径 -vn 需要保存的音频文件全路径 -hide_banner

参数说明:

-vn 从视频中提取音频

-ab 指定编码比特率(一些常见的比特率 96k、128k、192k、256k、320k)

-ar 采样率(22050、441000、48000)

-ac 声道数

-f 音频格式(通常会自动识别)

视频静音-(纯视频)

ffmpeg -i video_input.mp4 -an -video_output.mp4

注: -an 标记会让所有视频的音频参数无效,因为最后没有音频产生

视频文件中提取截图

ffmpeg -i 视频文件名 -r 帧率 -f 输出格式输出文件名

示例: ffmpeg -i video.mp4 -r 1 -f image2 image-%3d.png

参数说明:

-r 帧率(一秒内导出多少张图像，默认25)

-f 代表输出格式(image2实际上是image2序列的意思)

更改视频分辨率或长宽比

ffmpeg -i 视频文件名 -s 分辩率 -c:a -aspect 长:宽输出文件名

示例:ffmpeg -i video_input.mov -s 1024x576 -c:a video_output.mp4

参数说明:

-s 缩放视频

-c:a 保证音频编码正确

-aspect 更改长宽比

为音频增加封面(音频转视频)

当你想往某一个网站上传音频，但那个网站只接受视频的情况下非常适用

示例：ffmpeg -loop 1 -i image.jpg -i audio.wav -c:v libx264 -c:a acc -strict experimental -b:a 192k -shortest output.mp4

-c:v 视频编码

-c:a 音频编码

注：如果是4.x版本以上，不需要加 -strict experimental

为视频增加字幕

ffmpeg -i video.mp4 -i subtitles.srt -c:v copy -c:a copy -preset veryfast -c:s mov_text -map 0 -map 1 output.mp4

二、视频中提取音频

1.FFmpeg

通过命令行

ffmpeg -i 视频文件路径 -vn 音频文件全路径 -hide_banner

参数说明:

-vn 从视频中提取音频

-ab 指定编码比特率(一些常见的比特率 96k、128k、192k、256k、320k)

-ar 采样率(22050、441000、48000)

-ac 声道数

-f 音频格式(通常会自动识别)

示例:

通过提供的API


bool AVInterface::extractAudio(const char* src, const char* dstDir)
{

	if (NULL == src || NULL == dstDir)
	{
		printf("Ffmpeg::extractAudio[ERROR]::无效参数,请检查文件路径是否正确\n");
		return false;
	}

	int ret = 0;

	// 预存原文件路径
	const char* src_fileName = src;

	// 1.获取媒体文件的全局上下文信息

	// 1.1 定义 AVFormatContext 容器
	AVFormatContext* pFormatCtx = NULL;      // AVFormatContext描述了一个媒体文件或者媒体流构成的基本信息
	pFormatCtx = avformat_alloc_context();   // 为 pFormatCtx 申请内存

	// 1.2 打开媒体文件,并且读取媒体文件的头信息放入pFormatCtx中
	ret = avformat_open_input(&pFormatCtx, src_fileName, NULL, NULL);
	if (ret < 0)
	{
		printf("Ffmpeg::extractAudio[ERROR]::打开媒体流文件失败\n");
		return false;
	}

	// 2.探测流出信息

	// 2.1 探寻文件中是否存在信息流,如果存在则将多媒体文件信息流放到pFormatCtx
	ret = avformat_find_stream_info(pFormatCtx, NULL);
	if (ret < 0)
	{
		printf("Ffmpeg::extractAudio[ERROR]::文件中不存在信息流\n");
		return false;
	}

	av_dump_format(pFormatCtx, 0, src_fileName, 0);    // 打印封装格式和流信息

	// 2.2 查找文件信息流中是否存在音频流(我们只需要提取音频),并获取到音频流在信息流中的索引
	int audio_stream_index = -1;
	audio_stream_index = av_find_best_stream(pFormatCtx, AVMEDIA_TYPE_AUDIO, -1, -1, NULL, 0);
	if (-1 == audio_stream_index)
	{
		printf("Ffmpeg::extractAudio[ERROR]::文件中不存在音频流\n");
		return false;
	}

	// 3.输出容器的定义
	AVFormatContext* pFormatCtx_out = NULL;    // 输出格式的上下文信息  
	const AVOutputFormat*  pFormatOut = NULL;        // 输出的封装格式
	AVPacket packet;                         

	// 输出文件路径
	char szFilename[256] = { 0 };
	snprintf(szFilename, sizeof(szFilename), "%s/ffmpeg-music.aac", dstDir);

	// 3.1 初始化容器

	// 初始化一些基础的信息
	av_init_packet(&packet);                 

	// 给 pFormatCtx_out 动态分配内存,并且会根据文件名初始化一些基础信息
	avformat_alloc_output_context2(&pFormatCtx_out, NULL, NULL, szFilename);  

	// 得到封装格式 AAC
	pFormatOut = pFormatCtx_out->oformat;


	// 4.读取音频流,并且将输入流的格式拷贝到输出流的格式中
	
	for (int i = 0; i < pFormatCtx->nb_streams; ++i)   // nb_streams 流的个数
	{
		
		// 流的结构体,封存了一些流相关的信息
		AVStream* out_stream = NULL;               // 输出流
		AVStream* in_stream  = pFormatCtx->streams[i];             // 输入流
		AVCodecParameters* in_codeper = in_stream->codecpar;   // 编解码器
		

		// 只取音频流
		if (in_codeper->codec_type == AVMEDIA_TYPE_AUDIO)
		{
			// 建立输出流
			out_stream = avformat_new_stream(pFormatCtx_out, NULL);
			if (NULL == out_stream)
			{
				printf("Ffmpeg::extractAudio::[ERROR]建立输出流失败\n");
				return false;
			}

			// 拷贝编码参数,如果需要转码请不要直接拷贝
			// 这里只需要做音频的提取,对转码要求不高
			ret = avcodec_parameters_copy(out_stream->codecpar, in_codeper); // 将输入流的编码拷贝到输出流
			if (ret < 0)
			{
				printf("Ffmpeg::extractAudio::[ERROR]拷贝编码失败\n");
				return false;
			}

			out_stream->codecpar->codec_tag = 0;
			break;  // 拿到音频流就可以直接退出循环,这里我们只需要音频流
		}
	}

	av_dump_format(pFormatCtx_out, 0, szFilename, 1);

	// 解复用器,如果没有指定就使用pb
	if (!(pFormatCtx->flags & AVFMT_NOFILE))
	{
		ret = avio_open(&pFormatCtx_out->pb, szFilename, AVIO_FLAG_WRITE); // 读写
		if (ret < 0)
		{
			printf("Ffmpeg::extractAudio::[ERROR]创建AVIOContext对象：打开文件失败\n");
			return false;
		}
	}
	
	
	// 写入媒体文件头部
	ret = avformat_write_header(pFormatCtx_out, NULL);
	if (ret < 0)
	{
		printf("Ffmpeg::extractAudio::[ERROR]写入媒体头部失败\n");
		return false;
	}


	// 逐帧提取音频
	AVPacket* pkt = av_packet_alloc();
	while (av_read_frame(pFormatCtx, &packet) >=0 )
	{
		AVStream* in_stream  = NULL;
		AVStream* out_stream = NULL;
		in_stream = pFormatCtx->streams[pkt->stream_index];
		out_stream = pFormatCtx_out->streams[pkt->stream_index];

		if (packet.stream_index == audio_stream_index)
		{

			packet.pts = av_rescale_q_rnd(packet.pts, in_stream->time_base, out_stream->time_base, (AVRounding)(AV_ROUND_INF|AV_ROUND_PASS_MINMAX));
			packet.dts = packet.pts;
			packet.duration = av_rescale_q(packet.duration, in_stream->time_base, out_stream->time_base);
			packet.pos = -1;
			packet.stream_index = 0;

			// 将包写到输出媒体文件
			av_interleaved_write_frame(pFormatCtx_out, &packet);
			// 减少引用计数,防止造成内存泄漏
			av_packet_unref(&packet);
		}
	}


	// 写入尾部信息
	av_write_trailer(pFormatCtx_out);

	// 释放
	av_packet_free(&pkt);
	avio_close(pFormatCtx_out->pb);
	avformat_close_input(&pFormatCtx);
	

    return true;
}

3.性能对比

5s	5min	30min
0.087017s	0.138014s	0.875926s

三、视频文件中提取图片

1.FFmpeg

通过命令行

ffmpeg -i 视频文件名 -r 帧率 -f 输出格式输出文件名

示例: ffmpeg -i video.mp4 -r 1 -f image2 image-%3d.png

参数说明:

-r 帧率(一秒内导出多少张图像，默认25)

-f 代表输出格式(image2实际上是image2序列的意思)

示例:

通过提供的API


bool AVInterface::extracPictrue(const char* src, const char* dstDir, int num)
{


    if(NULL == src || NULL == dstDir)
    {
        printf("Ffmpeg::extracPictrue[ERROR]::无效参数,请检查文件路径是否正确\n");
        return false;
    }

    int ret = 0;
    
    // 预存原文件路径
    const char* src_fileName = src;
    
    // 1.获取媒体文件的全局上下文信息
    
    // 1.1 定义 AVFormatContext 容器
    AVFormatContext* pFormatCtx = NULL;       // AVFormatContext描述了一个媒体文件或者媒体流构成的基本信息
    pFormatCtx = avformat_alloc_context();    // 为pFormatCtx申请内存

    // 1.2 打开媒体文件,并且读取媒体文件的头信息放入pFormatCtx中
    ret = avformat_open_input(&pFormatCtx, src_fileName, NULL, NULL);
    if(ret < 0)
    {
        printf("Ffmpeg::extracPictrue[ERROR]::打开媒体流文件失败\n");
        return false;
    }


    // 2.探测流信息
    
    // 2.1 探寻文件中是否存在信息流,如果存在则将多媒体文件信息流放到pFormatCtx中
    ret = avformat_find_stream_info(pFormatCtx, NULL);
    if(ret < 0)
    {
        printf("Ffmpeg::extracPictrue[ERROR]::文件中不存在信息流\n");
        return false;
    }

    av_dump_format(pFormatCtx, 0, src_fileName, 0);      // 可以打印查看

    // 2.2 查找文件信息流中是否存在视频流(这里我们需要提取图片),并获取到视频流在信息流中的索引
    int vecdio_stream_index = -1;
    vecdio_stream_index = av_find_best_stream(pFormatCtx, AVMEDIA_TYPE_VIDEO, -1, -1, NULL, 0);
    if(-1 == vecdio_stream_index)
    {
        printf("Ffmpeg::extracPictrue[ERROR]::文件中不存在视频流\n");
        return false;
    }   // ----------> 丛林方法1
    
    
    // 3.找到对应的解码器:音视频文件是压缩之后的,我们要对文件内容进行处理,就必须先解码
    
    // 3.1 定义解码器的容器
    AVCodecContext* pCodeCtx = NULL;          // AVCodecContext描述编解码器的结构,包含了众多解码器的基本信息
    const AVCodec* pCodec = NULL;                   // AVCodec 存储解码器的信息
    
	pCodeCtx = avcodec_alloc_context3(NULL);  // 初始化解码器上下文

    // 3.2 查找解码器
    AVStream* pStream = pFormatCtx->streams[vecdio_stream_index]; // 在众多解码器找到视频处理的上下文信息
    pCodec = avcodec_find_decoder(pStream->codecpar->codec_id);          // 根据视频流获取视频解码器的基本信息
    if(NULL == pCodec)
    {
        printf("未发现视频编码器\n");
        return false;
    }

	// 初始化解码器上下文
	ret = avcodec_parameters_to_context(pCodeCtx, pStream->codecpar);
	if (ret < 0)
	{
		printf("初始化解码器上下文失败\n");
		return false;
	}

    // 3.3 打开解码器
    ret = avcodec_open2(pCodeCtx, pCodec, NULL);
    if(ret < 0)
    {
        printf("无法打开编解码\n");
        return false;
    }


	AVFrame* pFrame = NULL;
	pFrame = av_frame_alloc();
	if (NULL == pFrame)
	{
		printf("av_frame_alloc is error\n");
		return false;
	}

	int index = 0;

	AVPacket avpkt;

	while (av_read_frame(pFormatCtx, &avpkt) >= 0)
	{
		if (avpkt.stream_index == vecdio_stream_index)
		{
			ret = avcodec_send_packet(pCodeCtx, &avpkt);
			if (ret < 0)
			{
				continue;
			}

			while (avcodec_receive_frame(pCodeCtx, pFrame) == 0)
			{
				SaveFramePicture(pFrame, dstDir, index);
			}
			index++;

			if (index == num)
			{
				break;
			}
		}

		av_packet_unref(&avpkt);
	}

    avcodec_close(pCodeCtx);
    avformat_close_input(&pFormatCtx);

    return true;

}


bool AVInterface::SaveFramePicture(AVFrame* pFrame, const char* dstDir, int index)
{
    char szFilename[256] = {0};
    snprintf(szFilename, sizeof(szFilename), "%s/ffmpeg-%d.png", dstDir, index);

    int ret = 0;

	int width  = pFrame->width;
	int height = pFrame->height;

    // 1.初始化图片封装格式的结构体
    AVCodecContext*  pCodeCtx = NULL;
    AVFormatContext* pFormatCtx = NULL;
    pFormatCtx = avformat_alloc_context(); 
    
    // 2.设置封装格式
	// MJPEG格式:按照25帧/秒速度使用JPEG算法压缩视频信号,完成动态视频的压缩 --> 视频文件使用MJPEG进行解压
    pFormatCtx->oformat = av_guess_format("mjpeg", NULL, NULL);  // 用于从已经注册的输出格式中寻找最匹配的输出格式

    // 3.创建AVIOContext对象：打开文件  
    ret = avio_open(&pFormatCtx->pb, szFilename, AVIO_FLAG_READ_WRITE); // 读写方式
    if(ret < 0)
    {
        printf("avio_open is error");
        return false;
    }


    // 构建一个新的stream
    AVStream* pAVStream = NULL;
    pAVStream = avformat_new_stream(pFormatCtx, 0);
    if(pAVStream == NULL)
    {
        printf("avformat_new_stream\n");
        return false;
    }

    
    AVCodecParameters* parameters = NULL;                    // 编码器参数的结构体
    parameters = pAVStream->codecpar;                        // 设置编码器 mjpeg
    parameters->codec_id = pFormatCtx->oformat->video_codec; // 视频流
    parameters->codec_type = AVMEDIA_TYPE_VIDEO;             // 编码类型
    //parameters->format = AV_PIX_FMT_BGR24;                 // 指定图片的显示样式
	parameters->format = AV_PIX_FMT_YUVJ420P;                // YUV 解压缩显示样式都是YUV
    parameters->width  = pFrame->width;                      // 指定图片的宽度
    parameters->height = pFrame->height;                     // 显示图片的高度
    

    // 找到相应的解码器
    const AVCodec* pCodec = avcodec_find_encoder(pAVStream->codecpar->codec_id);
    if(NULL == pCodec)
    {
        printf("avcodec_find_encoder is error\n");
        return false;
    }

    // 初始化解码器上下文
    pCodeCtx = avcodec_alloc_context3(pCodec);
    if(NULL == pCodeCtx)
    {
        printf("avcodec_alloc_context3 is error\n");
        return false;
    }

    // 设置解码器的参数
    //ret = avcodec_parameters_to_context(pCodeCtx, pAVStream->codecpar);
	ret = avcodec_parameters_to_context(pCodeCtx, parameters);
	if(ret < 0)
    {
        printf("avcodec_parameters_to_context is error\n");
        return false;
    }

	AVRational avrational = {1, 25};       
	pCodeCtx->time_base = avrational;

	// 打开编解码器
    ret = avcodec_open2(pCodeCtx, pCodec, NULL);
    if(ret < 0)
    {
        printf("avcodec_open2 is error\n");
        return false;
    }
    
	
    // 封装格式的头部信息写入
    ret = avformat_write_header(pFormatCtx, NULL);
    if(ret < 0)
    {
        printf("avformat_write_header is error\n");
        return false;
    }
    
    // 给AVPacket分配足够大的空间
    int y_size = width * height;    // 分辨率
    AVPacket pkt;
    av_new_packet(&pkt, y_size * 3);

    // 编码数据
    ret = avcodec_send_frame(pCodeCtx, pFrame);
    if(ret < 0)
    {
        printf("avcodec_send_frame is error\n");
        return false;
    }

    // 得到解码之后的数据
    ret = avcodec_receive_packet(pCodeCtx, &pkt);
    if(ret < 0)
    {
        printf("avcodec_receive_packet is error\n");
        return false;
    }

    ret = av_write_frame(pFormatCtx, &pkt);
    if(ret < 0)
    {
        printf("av_write_frame is error\n");
        return false;
    }


	av_packet_unref(&pkt);
	av_write_trailer(pFormatCtx);
	avcodec_close(pCodeCtx);
	avio_close(pFormatCtx->pb);
	avformat_free_context(pFormatCtx);

    return true;
}

3.性能对比

	5s	5min	30min
10张	0.295322s	0.146283s	0.151467s
100张	1.263546s	1.226884s	1.190490s
全部	2.670444s(170)	96.951886s(7514)	119.161211s(10000)

四、音频文件中提取文字

1.百度智能云语音识别

百度语音目前只支持语音识别，语音合成和语音唤醒，支持pcm wav amr三种格式，时长为60秒以内，价格为完全免费，调用量限制为无限制。

1、离线语音识别

百度离线语音识别目前只支持Android和IOS，Android 平台的一体化离在线语音识别解决方案，以JAR包 + SO库的形式发布。IOS移动设备的离在线语音识别解决方案，以静态库方式提供。

2、在线语音识别

通过API格式调用，Android,iOS,C#,Java,Node,PHP,Python,C++语言，其实是API模式，所有开发语言都支持。

1.1百度智能云的优劣

支持普通话，英语，粤语，四川话，普通话远场
只支持60秒以内识别
所有开发语言都支持
百度的linux版离线SDK支持centos 和 ubantu14 16
需要注册百度云控制台账号

1.2 百度智能云安装配置

安装必要的依赖，curl（必须带ssl） jsoncpp openssl

#安装libcurl

sudo apt-get install libcurl4-openssl-dev

#安装jsoncpp

sudo apt-get install libjsoncpp-dev

直接使用开发包步骤如下：

在官方网站下载C++ SDK压缩包。SDK下载_文字识别SDK_语音识别SDK-百度AI开放平台 (baidu.com)
将下载的aip-cpp-sdk-version.zip解压, 其中文件为包含实现代码的头文件。
安装依赖库libcurl（需要支持https） openssl jsoncpp(>1.6.2版本，0.x版本将不被支持)
编译工程时添加 C++11 支持 (gcc/clang 添加编译参数 -std=c++11), 添加第三方库链接参数 lcurl, lcrypto, ljsoncpp。
在源码中include speech.h ，引入压缩包中的头文件以使用aip命名空间下的类和方法。

1.4百度智能云使用示例

用户可以参考如下代码新建一个client：

#include "speech.h"

// 设置APPID/AK/SK

std::string app_id = "XXX";

std::string api_key = "XXX";

std::string secret_key = "XXX";

aip::Speech client(app_id, api_key, secret_key);

在上面代码中，常量APP_ID在百度云控制台中创建，常量API_KEY与SECRET_KEY是在创建完毕应用后，系统分配给用户的，均为字符串，用于标识用户，为访问做签名验证，可在AI服务控制台中的应用列表中查看。

向远程服务上传整段语音进行识别

void asr(aip::Speech client)

{

// 无可选参数调用接口

std::string file_content;

aip::get_file_content("./assets/voice/16k_test.pcm", &file_content);

Json::Value result = client.recognize(file_content, "pcm", 16000, aip::null);

// 极速版调用函数

// Json::Value result = client.recognize_pro(file_content, "pcm", 16000, aip::null);

// 如果需要覆盖或者加入参数

std::map options;

options["dev_pid"] = "1537";

Json::Value result = client.recognize(file_content, "pcm", 16000, options);

}

返回样例：

// 成功返回

{

"err_no": 0,

"err_msg": "success.",

"corpus_no": "15984125203285346378",

"sn": "481D633F-73BA-726F-49EF-8659ACCC2F3D",

"result": ["北京天气"]

}

// 失败返回

{

"err_no": 2000,

"err_msg": "data empty.",

"sn": null

}

SpeechRecognition开源离线语音识别

SpeechRecognition，是google出的，专注于语音向文本的转换。wit 和 apiai 提供了一些超出基本语音识别的内置功能，如识别讲话者意图的自然语言处理功能。

SpeechRecognition的优/劣

满足几种主流语音 API ，灵活性高
Google Web Speech API 支持硬编码到 SpeechRecognition 库中的默认 API 密钥，无需注册就可使用
易用性很高
python的语音识别库
中国的识别效果不是特别好

SpeechRecognition安装配置

SpeechRecognition安装配置

pip install SpeechRecognition (pip install -i https://pypi.tuna.tsinghua.edu.cn/simple SpeechRecognition)

yum install python3-devel

yum install pulseaudio-libs-devel

yum install alse-lib-devel

pip install packetSphinx

配置中文语音识别数据

下载地址

https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/

选择

Mandarin->cmusphinx-zh-cn-5.2.tar.gz

安装中文语音包

cd /usr/local/python3.6.8/lib/python3.6/site-packages/speech_recognition/pocketsphinx-data

tar zxvf cmusphinx-zh-cn-5.2.tar.gz

mv cmusphinx-zh-cn-5.2 zh-cn

cd zh-cn

mv zh_cn.cd_cont_5000 acoustic-model

mv zh_cn.lm.bin language-model.lm.bin

mv zh_cn.dic pronounciation-dictionary.dict

配置环境

cd /usr/local/python3.6.8/lib/python3.6/site-packages/speech_recognition/pocketsphinx-data

tar zxvf py36asr.tar.gz

source ./py36asr/bin/activate

SpeechRecognition使用示例

语音识别示例：

[root@localhost pocketsphinx-data]# pwd

/usr/local/python3.6.8/lib/python3.6/site-packages/speech_recognition/pocketsphinx-data

[root@localhost pocketsphinx-data]# ls

cmusphinx-zh-cn-5.2.tar.gz py36asr test1.py test2.wav zh-cn.tar.gz

en-US py36asr.tar.gz test1.wav zh-cn

程序示例：

# -*- coding: utf-8 -*-

# /usr/bin/python

import speech_recognition as sr

r = sr.Recognizer()

test = sr.AudioFile("test1.wav")

with test as source:

audio = r.record(source)

type(audio)

c=r.recognize_sphinx(audio, language='zh-cn')

print(c)

FastASR语音识别

这是一个用C++实现ASR推理的项目,它的依赖很少，安装也很简单，推理速度很快。支持的模型是由Google的Transformer模型中优化而来,数据集是开源。Wennetspeech(1000+小时)或阿里私有数据集(60000+小时),所以识别效果有很好,可以媲美许多商用的ASR软件。

流式模型:模拟的输入是语音流,并实时返回语音识别的结果,但是准确率会降低些。

名称	来源	数据集	模型
conformer_online	paddlespeech	WenetSpeech(1000h)	conformer_online_wenetspeech-zh-16k

非流式模型:每次识别是以句子为单位,所以实时性会差一些,但是准确率会高一些。

名称	来源	数据集	模型	语言
paraformer	阿里达摩院	私有数据集(6000h)	Paraformer-large	En+zh
k2_rnnt2	kaldi2	WenetSpeech(10000h)	Prouned_transducer_stateless2	zh
Conformer_online	paddlespeech	WenetSpeech(10000h)	Conformer_online_wenetspeech-zh-16k	zh

上面提到的这些模型都是基于深度学习框架(paddlepaddle和pytorch)实现的,本身的性能很不错,在个人电脑上运行,也能满足实时性要求(时长为10s的语言,推理视觉小于10s,即可满足实时性)。

FastASR的优/劣

语言优势:由于C++和Python不同,是编译型语言，编译器会根据编译选项针对不同的平台的CPU进行优化,更合适在不同CPU平台上面部署,充分利用CPU的计算资源。
实现独立:不依赖于现有的深度学习框架如pytorch、paddle、tensorflow等
依赖少:项目仅使用了两个第三方libfftw和libopenblas，并无其它依赖，所以在各个平台的可以移植性很好,通用性很强。

缺少量化和压缩模型
支持C++ 和python

FastASR安装配置

依赖安装库 libfftw3

sudo apt-get install libfftw3-dev libfftw3-single3

安装依赖库 libopenblas

sudo apt-get install libopenblas-dev

安装python环境

sudo apt-get install python3 python3-dev

下载最新版的源码

git clone https://github.com/chenkui164/FastASR.git

编译最新版本的源码

cd FastASR/

mkdir build

cd build

cmake -DCMAKE_BUILD_TYPE=Release ..

make

编译python的whl安装包

cd FastASR

python -m build

下载预训练模型

paraformer预训练模型下载

cd ../models/paraformer_cli

1.从modelscope官网下载预训练模型

wget --user-agent="Mozilla/5.0" -c "https://www.modelscope.cn/api/v1/models/damo/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch/repo?Revision=v1.0.4&FilePath=model.pb"

重命名

mv repo\?Revision\=v1.0.4\&FilePath\=model.pb model.pb

将用于Python的模型转换为C++的

../scripts/paraformer_convert.py model.pb

通过md5检查是否等于 c77bce5758ebdc28a9024460e48602

md5sum -b wenet_params.bin

K2_rnnt2预训练模型下载

cd ../models/k2_rnnt2_cli

1.从huggingface官网下载预训练模型

wget -c https://huggingface.co/luomingshuang/icefall_asr_wenetspeech_pruned_transducer_stateless2/resolve/main/exp/pretrained_epoch_10_avg_2.pt

2.将用于Python的模型转换为C++的

../scripts/k2_rnnt2_convert.py pretrained_epoch_10_avg_2.pt

3.通过md5检查是否等于 33a941f3c1a20a5adfb6f18006c11513

md5sum -b wenet_params.bin

PaddleSpeech预训练模型下载

1.从PaddleSpeech官网下载预训练模型

wget -c https://paddlespeech.bj.bcebos.com/s2t/wenetspeech/asr1_conformer_wenetspeech_ckpt_0.1.1.model.tar.gz

2.将压缩包解压wenetspeech目录下

mkdir wenetspeech

tar -xzvf asr1_conformer_wenetspeech_ckpt_0.1.1.model.tar.gz -C wenetspeech

3.将用于Python的模型转换为C++的

../scripts/paddlespeech_convert.py wenetspeech/exp/conformer/checkpoints/wenetspeech.pdparams

4.md5检查是否等于 9cfcf11ee70cb9423528b1f66a87eafd

md5sum -b wenet_params.bin

流模式预训练模型下载

cd ../models/paddlespeech_stream

从PaddleSpeech官网下载预训练模型

wget -c https://paddlespeech.bj.bcebos.com/s2t/wenetspeech/asr1/asr1_chunk_conformer_wenetspeech_ckpt_1.0.0a.model.tar.gz

2.将压缩包解压wenetspeech目录下

mkdir wenetspeech

tar -xzvf asr1_chunk_conformer_wenetspeech_ckpt_1.0.0a.model.tar.gz -C wenetspeech

3.将用于Python的模型转化为C++的

../scripts/paddlespeech_convert.py wenetspeech/exp/chunk_conformer/checkpoints/avg_10.pdparams

4.md5检查是否等于 367a285d43442ecfd9c9e5f5e1145b84

md5sum -b wenet_params.bin

FastASR使用示例

#include 
#include 
#include 
#include 
#include 

using namespace std;

bool externContext(const char* src, const char* dst)
{

    Audio audio(0);           // 申请一个音频处理的对象
    audio.loadwav(src);       // 加载文件
    audio.disp();             // 分析格式

    // Model* mm = create_model("/home/chen/FastASR/models/k2_rnnt2_cli", 2); // 创建一个预训练模型
    Model* mm = create_model("/home/chen/FastASR/models/paraformer_cli", 3);
    audio.split();           // 解析文件
    
    float* buff = NULL;      // fftw3数据分析
    int len = 0;
    int flag = false;
    char buf[1024];
    
    // 一行一行的取出内容
    FILE* fp = NULL;
    fp = fopen(dst, "w+");
    if(NULL == fp)
    {
        printf("打开文件失败\n");
    }
    
    printf("0.---------------------->\n");

    while(audio.fetch(buff, len , flag) > 0)
    {
        printf("1.---------------------->\n");

        mm->reset();
        string msg = mm->forward(buff, len, flag);

        memset(buf, 0, sizeof(buf));
        snprintf(buf, sizeof(buf), "%s", msg.c_str());
        fseek(fp, 0, SEEK_END);
        fprintf(fp, "%s\n", buf);
        fflush(fp);

        printf("2.--------------------->\n");
    }

    printf("3.------------------------>\n");
    
    return true;

}

int main(void)
{

    externContext("./long.wav", "./Context.txt");

    return 0;
}

flags:= -I ./include
flags+= -L ./lib -lfastasr -lfftw3 -lfftw3f -lblas  -lwebrtcvad
src_cpp=$(wildcard ./*.cpp)

debug:
	g++ -g $(src_cpp) -omain $(flags) -std=c++11

夜深了，这篇文章中的从之前写的文档里粘贴过来的。有一些地方格式不太好看。见谅...

你可能感兴趣的:(c++项目相关,ffmpeg,音视频,c++,语音识别)

c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
【JS】执行时长(100分) |思路参考+代码解析（C++） l939035548 JS 算法数据结构 c++
题目为了充分发挥GPU算力，需要尽可能多的将任务交给GPU执行，现在有一个任务数组，数组元素表示在这1秒内新增的任务个数且每秒都有新增任务。假设GPU最多一次执行n个任务，一次执行耗时1秒，在保证GPU不空闲情况下，最少需要多长时间执行完成。题目输入第一个参数为GPU一次最多执行的任务个数，取值范围[1,10000]第二个参数为任务数组长度，取值范围[1,10000]第三个参数为任务数组，数字范围
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
基于CODESYS的多轴运动控制程序框架：逻辑与运动控制分离，快速开发灵活操作 GPJnCrbBdl python 开发语言
基于codesys开发的多轴运动控制程序框架，将逻辑与运动控制分离，将单轴控制封装成功能块，对该功能块的操作包含了所有的单轴控制（归零、点动、相对定位、绝对定位、设置当前位置、伺服模式切换等等）。程序框架由主程序按照状态调用分归零模式、手动模式、自动模式、故障模式，程序状态的跳转都已完成，只需要根据不同的工艺要求完成所需的动作即可。变量的声明、地址的规划都严格按照C++的标准定义，能帮助开发者快速
C++ | Leetcode C++题解之第409题最长回文串 Ddddddd_158 经验分享 C++Leetcode 题解
题目：题解：classSolution{public:intlongestPalindrome(strings){unordered_mapcount;intans=0;for(charc:s)++count[c];for(autop:count){intv=p.second;ans+=v/2*2;if(v%2==1andans%2==0)++ans;}returnans;}};
C++菜鸟教程 - 从入门到精通第二节 DreamByte c++
一.上节课的补充(数据类型)1.前言继上节课,我们主要讲解了输入,输出和运算符,我们现在来补充一下数据类型的知识上节课遗漏了这个知识点,非常的抱歉顺便说一下,博主要上高中了,更新会慢,2-4周更新一次对了,正好赶上中秋节,小编跟大家说一句:中秋节快乐!2.int类型上节课,我们其实只用了int类型int类型,是整数类型,它们存贮的是整数,不能存小数(浮点数)定义变量的方式很简单inta;//定义一
Java面试题精选：消息队列(二) 芒果不是芒 Java面试题精选 java kafka
一、Kafka的特性1.消息持久化：消息存储在磁盘，所以消息不会丢失2.高吞吐量：可以轻松实现单机百万级别的并发3.扩展性：扩展性强，还是动态扩展4.多客户端支持：支持多种语言（Java、C、C++、GO、）5.KafkaStreams（一个天生的流处理）:在双十一或者销售大屏就会用到这种流处理。使用KafkaStreams可以快速的把销售额统计出来6.安全机制：Kafka进行生产或者消费的时候会
C++ lambda闭包消除类成员变量 barbyQAQ c++c++java 算法
原文链接：https://blog.csdn.net/qq_51470638/article/details/142151502一、背景在面向对象编程时，常常要添加类成员变量。然而类成员一旦多了之后，也会带来干扰。拿到一个类，一看成员变量好几十个，就问你怕不怕？二、解决思路可以借助函数式编程思想，来消除一些不必要的类成员变量。三、实例举个例子：classClassA{public:...intfu
2021 CCF 非专业级别软件能力认证第一轮（CSP-J1）入门级C++语言试题（第三大题：完善程序代码） mmz1207 c++csp
最近有一段时间没更新了，在准备CSP考试，请大家见谅。（1）有n个人围成一个圈，依次标号0到n-1。从0号开始，依次0，1，0，1...交替报数，报到一的人离开，直至圈中剩最后一个人。求最后剩下的人的编号。#includeusingnamespacestd;intf[1000010];intmain(){intn;cin>>n;inti=0,cnt=0,p=0;while(cnt#includeu
《 C++ 修炼全景指南：九》打破编程瓶颈！掌握二叉搜索树的高效实现与技巧 Lenyiin C++修炼全景指南技术指南 c++算法 stl
摘要本文详细探讨了二叉搜索树（BinarySearchTree,BST）的核心概念和技术细节，包括插入、查找、删除、遍历等基本操作，并结合实际代码演示了如何实现这些功能。文章深入分析了二叉搜索树的性能优势及其时间复杂度，同时介绍了前驱、后继的查找方法等高级功能。通过自定义实现的二叉搜索树类，读者能够掌握其实际应用，此外，文章还建议进一步扩展为平衡树（如AVL树、红黑树）以优化极端情况下的性能退化。
20个新手学习c++必会的程序输出*三角形、杨辉三角等（附代码） X_StarX c++学习算法大学生开发语言数据结构
示例1:HelloWorld#includeusingnamespacestd;intmain(){coutusingnamespacestd;intmain(){inta=5;intb=10;intsum=a+b;coutusingnamespacestd;intfactorial(intn){if(nusingnamespacestd;voidprintFibonacci(intn){intt
C++八股 Petrichorzncu 八股总结 c++开发语言
这里写目录标题C++内存管理C++的构造函数，复制构造函数，和析构函数深复制与浅复制：构造函数和析构函数哪个能写成虚函数，为什么？C++数据结构内存排列结构体和类占用的内存：==虚函数和虚表的原理==虚函数虚表（Vtable）虚函数和虚表的实现细节==内存泄漏==指针的工作原理函数的传值和传址new和delete与malloc和freeC++内存区域划分C++11新特性C++常见新特性==智能指针
【2022 CCF 非专业级别软件能力认证第一轮（CSP-J1）入门级 C++语言试题及解析】汉子萌萌哒 CCF noi 算法数据结构 c++
一、单项选择题(共15题，每题2分，共计30分；每题有且仅有一个正确选项)1.以下哪种功能没有涉及C++语言的面向对象特性支持：()。A.C++中调用printf函数B.C++中调用用户定义的类成员函数C.C++中构造一个class或structD.C++中构造来源于同一基类的多个派生类题目解析【解析】正确答案:AC++基础知识，面向对象和类有关，类又涉及父类、子类、继承、派生等关系，printf
《 C++ 修炼全景指南：十》自平衡的艺术：深入了解 AVL 树的核心原理与实现 Lenyiin C++修炼全景指南技术指南 c++数据结构 stl
摘要本文深入探讨了AVL树（自平衡二叉搜索树）的概念、特点以及实现细节。我们首先介绍了AVL树的基本原理，并详细分析了其四种旋转操作，包括左旋、右旋、左右双旋和右左双旋，阐述了它们在保持树平衡中的重要作用。接着，本文从头到尾详细描述了AVL树的插入、删除和查找操作，配合完整的代码实现和详尽的注释，使读者能够全面理解这些操作的执行过程。此外，我们还提供了AVL树的遍历方法，包括中序、前序和后序遍历，
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
windows下python opencv ffmpeg读取摄像头实现rtsp推流拉流图像处理大大大大大牛啊 opencv实战代码讲解视觉图像项目 windows python opencv
windows下pythonopencvffmpeg读取摄像头实现rtsp推流拉流整体流程1.下载所需文件1.1下载rtsp推流服务器1.2下载ffmpeg2.开启RTSP服务器3.opencv读取摄像头并调用ffmpeg进行推流4.opencv进行拉流5.opencv异步拉流整体流程1.下载所需文件1.1下载rtsp推流服务器下载RTSP服务器下载页面https://github.com/blu
c++ opencv4.3 sift匹配图像处理大大大大大牛啊图像处理 opencv实战代码讲解 opencv sift c++opencv4 特征点
c++opencv4.3sift匹配main.cppintmain(){vectorkeypoints1,keypoints2;Matimg1,img2,descriptors1,descriptors2;intnumF
《 C++ 修炼全景指南：四》揭秘 C++ List 容器背后的实现原理，带你构建自己的双向链表 Lenyiin 技术指南 C++修炼全景指南 c++list 链表 stl
本篇博客，我们将详细讲解如何从头实现一个功能齐全且强大的C++List容器，并深入到各个细节。这篇博客将包括每一步的代码实现、解释以及扩展功能的探讨，目标是让初学者也能轻松理解。一、简介1.1、背景介绍在C++中，std::list是一个基于双向链表的容器，允许高效的插入和删除操作，适用于频繁插入和删除操作的场景。与动态数组不同，list允许常数时间内的插入和删除操作，支持双向遍历。这篇文章将详细
pyhon+ffmpeg 常用音视频处理命令不再游移 ffmpeg 音视频 python
FFmpeg是多媒体领域的万能工具。只要涉及音视频领域的处理，基本上没有它做不了的事情！通俗点讲，从视频录制、视频编辑再到播放，它都能做！前段时间做了个短视频自动化脚本项目，需要自动处理音视频（包括一些合成、拼接、转场、调色等等），当时做的时候找各种命令还是很痛苦的，因此对用到的所有处理命令做了个汇总，方便以后使用。目录一、获取音频时长二、获取视频信息三、获取视频时长四、多个视频合并五、视频提取视
c++ 内存处理函数 heeheeai c++开发语言
在C语言的头文件中，memcpy和memmove函数都用于复制内存块，但它们在处理内存重叠方面存在关键区别：内存重叠:memcpy函数不保证在源内存和目标内存区域重叠时能够正确复制数据。如果内存区域重叠，memcpy的行为是未定义的，可能会导致数据损坏或程序崩溃。memmove函数能够安全地处理源内存和目标内存区域重叠的情况。它会确保在复制过程中不会覆盖尚未复制的数据，从而保证数据的完整性。效率:
【c++基础概念深度理解——堆和栈的区别，并实现堆溢出和栈溢出】 XWWW668899 C++基本概念 c++c语言开发语言青少年编程
文章目录概要技术名词解释栈溢出和堆溢出小结概要学习C++语言，避免不了要好好理解一下堆（Heap）和栈（Stack），有助于更好地管理内存，以及如何写出一段程序“成功实现”堆溢出和栈溢出。技术名词解释理解东西最快的方式是根据自己目前能理解的词语去关联新的概念，不断的纠正，向正确的深度理解靠近，当无限接近的时候也就理解了想要理解的概念。我们经常说堆栈，把这两个名词放到一起。其实，堆是堆，栈是栈，两种
C++常见知识掌握 nfgo c++开发语言
1.Linux软件开发、调试与维护内核与系统结构Linux内核是操作系统的核心，负责管理硬件资源，提供系统服务，它是系统软件与硬件之间的桥梁。主要组成部分包括：进程管理：内核通过调度器分配CPU时间给各个进程，实现进程的创建、调度、终止等操作。使用进程描述符（task_struct）来存储进程信息，包括状态（就绪、运行、阻塞等）、优先级、内存映射等。内存管理：包括物理内存和虚拟内存管理。通过页表映
metaRTC5.0 API编程指南(一) metaRTC metaRTC c++c语言 webrtc
概述metaRTC5.0版本API进行了重构，本篇文章将介绍webrtc传输调用流程和例子。metaRTC5.0版本提供了C++和纯C两种接口。纯C接口YangPeerConnection头文件:include/yangrtc/YangPeerConnection.htypedefstruct{void*conn;YangAVInfo*avinfo;YangStreamConfigstreamco
sublime个人设置 bawangtianzun sublime text 编辑器
如何拥有jiangly蒋老师同款编译器(sublimec++配置竞赛向）_哔哩哔哩_bilibiliSublimeText4的安装教程（新手竞赛向）-知乎(zhihu.com)创建文件自动保存为c++打开SublimeText软件。转到"Tools"（工具）>"Developer"（开发者）>"NewPlugin"（新建插件）。在打开的新文件中，粘贴以下代码：importsublimeimport
bat+ffmpeg批处理图片，图片批量转码张雨zy 音视频 ffmpeg
直接在cmd中输入//批量转码文件for%ain("*.png")doffmpeg-i"%a"-fs1024k"%~na.webp"//删除所有pngdel*.png@echooff表示执行了这条命令后关闭所有命令(包括本身这条命令)的回显。而echooff命令则表示关闭其他所有命令(不包括本身这条命令)的回显，@的作用就是关闭紧跟其后的一条命令的回显脚本完整代码写入脚本中后，需要多加一个%，例如
ffmpeg批量将tif文件转成jpeg格式 winfredzhang 图像工具 ffmpeg tif jpeg 转换
1、cmd2、切换到安装ffmpeg的路径。3、输入命令：ffmpeg-start_number001-i"D:\ocr\%03d.tif"-start_number001-pix_fmtyuv420p-qscale:v1"D:\ocr\%03d.jpg"结果。
Rust是否会取代C/C++？Rust与C/C++的较量 AI与编程之窗源码编译与开发 rust c语言 c++内存安全并发编程代码安全性能优化
目录引言第一部分：Rust语言的优势内存安全性并发性性能社区和生态系统的成长第二部分：C/C++语言的优势和地位历史积淀和成熟度广泛的库和工具支持性能优化和硬件控制丰富的行业应用社区和行业支持第三部分：挑战和阻碍学习曲线现有代码库的迁移成本生态系统和工具链的完善度社区和人才培养行业应用和推广法规和标准化第四部分：未来趋势和可能性行业趋势教育和人才培养兼容和共存行业标准化企业支持和应用开源社区和生态
python可以制作大型游戏_python能做游戏吗-python能开发游戏吗靖dede python可以制作大型游戏
python可以写游戏，但不适合。下面我们来分析一下具体原因。用锤子能造汽车吗？谁也没法说不能吧？历史上也确实曾经有些汽车，是用锤子造出来的。但一般来说，还是用工业机器人更合适对吗？比较大型的，使用Python的游戏有两个，一个是《EVE》，还有一个是《文明》。但这仅仅是个例，没有广泛意义。一般来说，用来做游戏的语言，有两种。一是C++。。一是C#。。Python理论上，不仅不适合做游戏，而是只要
Python开发游戏？也太好用了吧七步编程工具 Github python python 游戏开发语言
程序员宝藏库：https://gitee.com/sharetech_lee/CS-Books-Store当然可以啦！现在日常能够用到和想到的场景，绝大多数都可以用Python实现。效果怎么样暂且不提，但是得益于丰富的第三方工具包，的确让Python能够很容易处理各种各样的场景。对于游戏开发也是这样，如果真的要想商业化，Python在游戏开发方面肯定没办法和C++相提并论，但是如果用于日常学习和自
Go编程语言前景怎么样？参加培训好就业吗 QFdongdong
Go语言专门针对多处理器系统应用程序的编程进行了优化，使用Go编译的程序可以媲美C或C++代码的速度，而且更加安全、支持并行进程。不仅可以开发web,可以开发底层，目前知乎就是用golang开发。区块链首选语言就是go,以-太坊，超级账本都是基于go语言，还有go语言版本的btcd.Go的目标是希望提升现有编程语言对程序库等依赖性(dependency)的管理，这些软件元素会被应用程序反复调用。由
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc

FastASR+FFmpeg(音视频开发+语音识别)

一、音视频处理基本梳理

1.多媒体文件的理解

1.1 结构分析

1.2 封装格式

1.3 音视频同步

1.4 音视频录制原理

1.5 音视频播放原理

1.6 音视频播放原理

2.音视频的基础概念

2.1 声音

2.2图像

2.3视频

3.常用的音视频处理第三方库

3.2.1基本概念

3.2.2 FFmpeg 的主要基本组成

3.2.3 FFmpeg 的优劣

3.2.4 FFmpeg的安装配置

3.2.5 FFmpeg的命令行使用

二、视频中提取音频

1.FFmpeg

通过命令行

通过提供的API

3.性能对比

三、视频文件中提取图片

1.FFmpeg

通过命令行

通过提供的API

3.性能对比

四、音频文件中提取文字

1.百度智能云语音识别

1.1百度智能云的优劣

1.2 百度智能云安装配置

1.4百度智能云使用示例

SpeechRecognition开源离线语音识别

​​​​​​SpeechRecognition的优/劣

SpeechRecognition安装配置

SpeechRecognition使用示例

FastASR语音识别

FastASR的优/劣

FastASR安装配置

​​​​​​​FastASR使用示例

你可能感兴趣的:(c++项目相关,ffmpeg,音视频,c++,语音识别)

SpeechRecognition的优/劣

FastASR使用示例