想文艺一点的程序员

第二章：音频入门

- 一、音频基础知识
- - 1、音频处理的流程
  - 2、声音是如何被听到的
  - 3、声音的三要素
  - 4、模数转换
  - 5、PCM 与 WAV
- 二、音频采集（实战）
- - 1、通过命令方式采集音频数据
- 三、音频编码原理
- - 1、有损压缩和无损压缩
  - 2、音频的编码过程：
  - 3、编码器介绍
  - 4、ADTS格式
- 四、音频编码
- - 1、音频重采样
  - 2、创建 AAC 编码器

一、音频基础知识

1、音频处理的流程

首先对于音频的处理是包括两个层面的：

直播客户端的处理流程（音频的采集、编码、解码、播放）
音频数据的流转（采集后是什么格式？编码后又是什么格式）

（1）直播客户端的处理流程

音视频采集：从麦克风上面抓取音频数据。
音视频编码：刚刚采集的数据量是非常大的，所以需要经过编码来将它进行压缩。
传输
音视频解码：我们不能直接将压缩后的数据直接丢给扬声器来进行播放。
音视频渲染：将解码器输出的数据交给对应的驱动，驱动再让硬件进行播放。（音频：喇叭、视频：渲染器）

（2）音频数据的流转：

PCM 数据：利用 audio_recoder 、video_recoder 这些API 采集来的数据就是 PCM 数据（后面有详细介绍）
aac/mps ：两个编码器，经过编码器之后就会生成对应编码格式的数据
mp4/flv ：给他套一层衣服，生成一个多媒体文件

2、声音是如何被听到的

（1）人耳是怎么听到声音的？ 物体振动——> 介质传输 ——> 振动耳膜

必须有物体发生振动 （在真空中振动我们也是听不到的）
必须通过空气、固体、液体、等进行传输。
振动耳膜 （这个振动经过我们大脑的神经系统就会产生一个信号）

（2）我们来分析人耳怎么处理声音

耳廓：将所有声音聚拢在一起
耳道：将声音传递进去，使声音有一个放大的效果。（耳道越长，听觉系统越敏感）（举例：将纸筒放到耳朵上面，感觉声音被放大了）
鼓膜：声音通过耳道，然后使鼓膜振动
听觉系统：将鼓膜振动产生的声音交给神经系统

（3）人类听觉范围和其他动物的听觉范围：

赫兹（HZ）：每秒钟，物体振动的次数。

可以看出，蝙蝠和海豚发出的一部分声音，我们是听不到的。
我们人类说话发出的声音，蝙蝠也是听不到的。

3、声音的三要素

音调：音频的快慢
音量：振动的幅度
音色：谐波：除了基波之后，剩下与基波进行叠加的波。（音色不一样，说明基波不一样）

4、模数转换

实际的声波：模拟量，是连续不断的。
计算机声波：数字量，是离散的点。

模拟 ——> 数字：关键就是量化，量化的关键又是采样

注意：

计算机当中的格式是二进制，但是这里的格式是十进制，所以要进行转换。
二进制的方波就可以应用到电路当中
计算机当中没有小数点，将十进制扩大10倍，就可以消除一个小数点。
十进制的扩大范围与位深有关

概念：

位深（采样大小）：表述 采样数值 的最大范围。8位（0-255） 16位（0-65535）
采样率：8k、16k、32k、44.1k、48k。（一秒钟采样的次数）
声道数：单声道、双声道、多声道。（几个通道进行采样）

5、PCM 与 WAV

PCM

（Pulse-Code Modulation），翻译一下是脉冲调制编码。
是没有任何文件格式的
码率 == 采样率 × 位深 × 声道数 ➗ 8 ，单位是字节。
可以看出原始码流的数据大小，是非常大的。网络要是传输这么大的数据，就会被卡死。

WAV

是一种文件格式
既可以存放原始数据，可以存放压缩过后的数据。但是 99％情况下存放原始数据。
本质：在 PCM 数据上面加了一个头，包含了一些最基本的信息， 便于播放器使用正确的参数来播放PCM数据

表 3 WAVE 文件头格式

偏移地址	字节数	数据类型	字段名称	字段说明
00H	4	字符	文档标识	大写字符串"RIFF",标明该文件为有效的 RIFF 格式文档。
04H	4	长整型数	文件数据长度	从下一个字段首地址开始到文件末尾的总字节数。该字段的数值加 8 为当前文件的实际长度。
08H	4	字符	文件格式类型	所有 WAV 格式的文件此处为字符串"WAVE",标明该文件是 WAV 格式文件。
0CH	4	字符	格式块标识	小写字符串,"fmt "。
10H	4	长整型数	格式块长度。	其数值不确定,取决于编码格式。可以是 16、 18 、20、40 等。(见表 2)
14H	2	整型数	编码格式代码。	常见的 WAV 文件使用 PCM 脉冲编码调制格式,该数值通常为 1。(见表 3)
16H	2	整型数	声道个数	单声道为 1,立体声或双声道为 2
18H	4	长整型数	采样频率	每个声道单位时间采样次数。常用的采样频率有 11025, 22050 和 44100 kHz。
1CH	4	长整型数	数据传输速率	该数值为:声道数×采样频率×每样本的数据位数/8。
20H	2	整型数	数据块对齐单位	采样帧大小。该数值为:声道数×位数/8。播放软件需要一次处理多个该值大小的字节数据,用该数值调整缓冲区。
22H	2	整型数	采样位数	存储每个采样值所用的二进制数位数。常见的位数有 4、8、12、16、24、32
24H				对基本格式块的扩充部分(详见扩展格式块,格式块的扩充)

二、音频采集（实战）

1、通过命令方式采集音频数据

对于做直播系统来说，音频的采集要在不同的平台上面都可以实现。平台包括：ios、Android 、Linux 、windows、MAC 端。
对于不同的平台，采用的 API 都是不同的。
如果我们为了采集音频，要对所有平台的 API 都要熟悉的话，那工作量就太大了。
解决办法：使用 ffmpeg 的 API 即可，不同的平台的差异，都被 ffmpeg 封装好了。

FFmpeg 采集音频的两种方式：

通过命令的方式：较为基础，不够灵活。
通过 API 的方式：做 native 开发的话，更多使用 API 来进行操作。

注意：

avfoundation ：只应用于 MAC 平台，如果是其他平台需要更换其他的库。
:0 ：在 MAC 表示采集音频信号，但是其他平台的表示也不同。

三、音频编码原理

有几个常识：

采样率为44.1KHz ,采样大小为16bit ,双声道的PCM编码的WAV文件,它的码率 44.1Kx16x2=1411.2Kb/s. （大概一兆）
一般用户的上传和下载速度不匹配，如果不经过压缩，音频的传输会很吃力。对于实时通讯来说就更是如此了
对于压缩来说有两个极端：（1）压缩的数据量越小越好 （2）压缩的速度越快越好

对于音频的压缩来说 我们关注两个点

消除冗余信息（人的听觉范围在 20-20khz，在这个范围之外的我们可以进行剔除）（有损压缩）
无损压缩 （rar，zip，.jz）（含义：压缩过后，通过解码可以进行完全还原）

1、有损压缩和无损压缩

消除冗余信息的压缩：本身就是有损压缩，因为剔除之后，我们无法同解压缩来进行恢复。

分析：冗余信息、频域遮蔽和时域遮蔽

冗余信息：包括人耳听觉范围外的音频信号以及被掩蔽掉的音频信号。
信号的遮蔽：可以分为频域遮蔽和时域遮蔽

概念铺垫：

我们能听到的所有声音：都是复合声音，（这些声音都是被叠加过的）
比如说话的时候，可能电脑风扇在转，可能楼下有人走动。但是我们不可能听到所有的声音。
因为有一部分的声音被屏蔽了

分析下图：

横轴：频率（赫兹）；纵轴：声音强度（分贝）
静音门槛：在这条曲线下面的声音，是被屏蔽的，我们听不到。（大概分析：频率越低，对声音强度要求就比较高，频率高一点的时候，对声音强度要求就比较低）
比如：（1）男人和女人说话，分贝一样的时候，女人的声音更容易被听到。
同理：（2）走步的声音，频率很低，所以很容易被屏蔽
遮蔽源：可以理解为，最敏感的声音，容易将其他声音遮蔽。
被遮蔽的声音：在遮蔽源的曲线下面的声音，都会被遮蔽。
未遮蔽的声音：它的强度比较高，没有被遮蔽。

时域遮蔽：随着时间的推移，有些声音就会被遮蔽。

给定条件：在某个时刻，一个声音被另外一个声音遮蔽，会产生前屏蔽和后屏蔽。
同一个频率下面，声音强度高的会屏蔽声音强度低的。
在被屏蔽的时候，前一段时间和后一段时间的声音也会被屏蔽。
后屏蔽的时间作用比较长。

无损压缩：熵编码包括：

哈夫曼编码：
算术编码：
香农编码：

重点分析哈夫曼编码：

2、音频的编码过程：

时域转频域：我们将其拆分成不同频段的数据，方便我们进行剔除，进行压缩
心理声学模型：就是确认哪些数据可以被去掉。
量化编码：无损压缩，进行熵编码
比特流格式化：加一些特定的头，从而变成一个特定格式的文件。

3、编码器介绍

常见的音频编码器包括OPUS、AAC、 Ogg、 Speex、 iLBC、AMR、G.711等。
最常见的是：OPUS（新星编码器、WebRTC默认使用）、AAC（AAC 已经做好了硬件的编码器）
Ogg：收费的一个编解码器
Speex：支持了回音消除
G.711：固话使用这个

音频编解码器质量的比较：（横轴：码流大小、纵轴：质量）

质量分为：窄频带、宽频带、超宽频带、满频带。
Opus 的跨度非常大，说明适用范围很广。质量小——码流小，质量大——码流大。
AAC适用于全带：32k——128k
G.711 适用于窄带：而且它编码后的码流还是很大

音频编码器中，码率和延迟关系

opus 的延迟很底，所以适用于实时通信。网页直播

AAC 编码器介绍

AAC ( Advanced Audio Coding )由Fraunhofer IIS、杜比实验室、AT&T、Sony等公司共同开发。
目的是取代MP3格式。
最开始是基于 MPEG-2 的音频编码技术，MPEG- 4标准出现后,AAC重新集成了其特性,加入了SBR技术和 PS 技术。
目前常用的规格有 AACLC、AAC HE V1、AAC HE V2

AAC LC : (Low Complexity)低复杂度规格，码流是128k ,音质好。
AACHE：等于AAC LC + SBR (Spectral Band Replication)。其核心思相是按频谱分保存。低频编码保存主要成分，高频单独放大编码保存音质。码流在64k左右。
（低频——代表基波，表示主要的音频内容）（高频——代表谐波，代表音色，音色保存越好，音质越好）
AACHE V2 :等于AAC LC + SBR + PS (Parametric Stereo)。其核心思相是双声道中的声音存在某种相似性**,只需存储一个声道的全部信息**，然后，花很少的字节用参数描述另一个声道和它不同的地方。

AAC 格式：

ADIF：相当于直接在 AAC 数据前面添加一个头。这个头里面描述了音频数据的开始。
ADTS：在每一帧都有一个同步字，（每一帧前面都有一个头）

4、ADTS格式

AAC音频文件的每一帧都由一个ADTS头和AAC ES(AAC音频数据)组成。

ADTS 头中相对有用的信息 采样率、声道数、帧长度。有了这些标识信息，我们的解码器才可以对数据进行解码。
ADTS头分为固定头信息和可变头信息两个部分，固定头信息在每个帧中的是一样的。
可变头信息在各个帧中并不是固定值。ADTS头一般是7个字节((28+28)/ 8)长度，如果需要对数据进行CRC校验，则会有2个Byte的校验码，所以ADTS头的实际长度是7个字节或9个字节。

固定头信息

名称	大小（bit）	作用
syncword	12	帧同步标识一个帧的开始，固定为0xFFF
ID	1	0表示MPEG-4，1表示MPEG-2 （默认是MPEG-4）
layer	2	固定为’00’
protection_absent	1	0表示有CRC校验，1表示没有CRC校验（决定是7字节，还是9字节）
profile	2	1: AAC Main 2:AAC LC (Low Complexity) 3:AAC SSR(Scalable Sample Rate) 4:AAC LTP (Long Term Prediction)
sampling_frequency_index	4	标识使用的采样率的下标
private_bit	1	私有位，编码时设置为0，解码时忽略
channel_configuration	3	标识声道数
original_copy	1	编码时设置为0，解码时忽略
home	1	编码时设置为0，解码时忽略

可变头信息：

名称	大小（bit）	作用
copyrighted_id_bit	1	编码时设置为0，解码时忽略
copyrighted_id_start	1	编码时设置为0，解码时忽略
aac_frame_length	13	ADTS帧长度包括ADTS长度和AAC声音数据长度的和。即 aac_frame_length = (protection_absent == 0 ? 9 : 7) + audio_data_length
adts_buffer_fullness	11	固定为0x7FF。表示是码率可变的码流
number_of_raw_data_blocks_in_frame	2	表示当前帧有number_of_raw_data_blocks_in_frame + 1 个原始帧(一个AAC原始帧包含一段时间内1024个采样及相关数据)。

分析几个重要的参数：

因为采样率的本身数字太大了，所以进行了一个编号。

通过 ffmpeg 生成AAC文件

分析实验参数

-i ：指定输入的视频文件（视频文件当中包含音频）
-vn:（video no）去掉音频
-c:a   ： （encoder ： audio） 指定音频的编码器
 -ar ：设置采样率
 -channels ：设置通道数
 -profile:a  : 给 audio 指定参数

四、音频编码

1、音频重采样

什么是音频重采样?

将音频三元组(采样率、采样大小、通道数) 的值转成另外一组值
例如:将 44100/16/2 转成 48000/16/2 （将采样率进行改变）

为什么要进行重采样？

从设备采集的音频数据 与 编码器要求的数据不一致。
扬声器要求的音频数据 与 要播放的音频数据不一致。
便于运算，例如在回音消除的时候，我们一般将他设置为单声道。

如何知道是否需要进行重采样？

要了解音频设备的参数
查看 ffmpeg 源码（ffmpeg 是跨平台的，所以它的源码都有各个平台的参数）（ffmpeg 实现所有常见的编解码器，所以源码里面肯定又编码器的要求参数）

重采样的步骤：

创建采样上下文（链接上面一个过程和下一个过程的桥梁）
设置参数
初始化重采样
进行重采样

几个重要的 API：

swr_ alloc_ set_ opts：创建了一个上下文 + 传入参数的设置
swr_ init ：对上下文的初始化
swr_ convert：实际的重采样
swr_ free : 上下文的释放

2、创建 AAC 编码器

ffmpeg 的编码过程

创建并且打开编码器：

留个坑

Qt/C++音视频开发22-通用GPU显示 feiyangqingyun Qt/C++音视频开发 Qt视频监控 Qt音视频 Qt硬解码
一、前言采用GPU来绘制实时视频一直以来都是个难点，如果是安防行业的做视频监控开发这块的人员，这个坎必须迈过去，本人一直从事的是安防行业的电子围栏这个相当小众的细分市场的开发，视频监控这块仅仅是周边技术玩一玩探讨一下，关于GPU绘制这块着实走了不少的弯路。之前用ffmpeg解码的时候，已经做了硬解码的处理，比如支持qsv、dxva2、d3d11va等方式进行硬解码处理，但是当时解码出来以后，还是重
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（Spring Boot、MyBatis、Kafka、Redis、AI等）来旺 Java场景面试宝典 Java Spring Boot MyBatis Kafka Redis 微服务 AI
Java大厂面试故事：谢飞机的互联网音视频场景技术面试全纪录（SpringBoot、MyBatis、Kafka、Redis、AI等）互联网大厂技术面试不仅考察技术深度，更注重业务场景与系统设计能力。本篇以严肃面试官与“水货”程序员谢飞机的对话，带你体验音视频业务场景下的Java面试全过程，涵盖主流技术栈，并附详细答案解析，助你面试无忧。故事场景设定谢飞机是一名有趣但技术基础略显薄弱的程序员，这次应
树莓派 —— 在树莓派4b板卡下编译FFmpeg源码，支持硬件编解码器（mmal或openMax硬编解码加速）信必诺 FFmpeg 树莓派 FFmpeg 编译源码 mmal openMax 树莓派树莓派4b
FFmpeg相关音视频技术、疑难杂症文章合集（掌握后可自封大侠⓿_⓿）（记得收藏，持续更新中…）正文 1、准备工作（1）树莓派烧录RaspberryPi系统（2）树莓派配置固定IP（文末）（3）xshell连接树莓派（4）
FFmpeg滤镜相关的重要结构体 melonbo FFMPEG ffmpeg
核心结构体概览FFmpeg滤镜系统由多个关键结构体组成，构成了完整的滤镜处理框架。以下是滤镜系统中最重要的结构体及其相互关系：AVFilterGraph┬─AVFilterContext┬─AVFilter│├─AVFilterLink│└─AVFilterPad└─AVFilterInOut详细结构体分析1.AVFilterGraph（滤镜图容器）功能：管理整个滤镜图的所有组件和状态重要成员：t
C/C++ 知识总结灿烂阳光g 后端
目录C/C++STL数据结构算法Problems操作系统计算机网络网络编程数据库设计模式链接装载库海量数据处理音视频其他书籍复习刷题网站招聘时间岗位面试题目经验C/C++const作用修饰变量，说明该变量不可以被改变；修饰指针，分为指向常量的指针和指针常量；常量引用，经常用于形参类型，即避免了拷贝，又避免了函数对值的修改；修饰成员函数，说明该成员函数内不能修改成员变量。使用const使用stati
从零用java实现小红书 springboot vue uniapp（13）模仿抖音视频切换顽疲 uniapp java仿写小红书 uniapp抖音 java spring boot vue.js
从零用java实现小红书springbootvueuniapp（13）实战：用Swiper+Video打造抖音式丝滑视频流移动端演示http://8.146.211.120:8081/#/管理端演示http://8.146.211.120:8088/#/项目整体介绍及演示前言在上一篇文章中我们实现了视频笔记的发布功能，现在，我们将攻克一个更核心的体验功能：创建一个像抖音、快手那样的全屏、可上下滑动
python实现webrtc接入ipc_WebRTC音视频会议的优势 weixin_39998521
目前几乎所有主流浏览器都支持了WebRTC，越来越多的公司正在使用WebRTC并且将其加到自己的应用程序中。在浏览器端，依赖于浏览器获取音视频的能力，以及强大的网页上的渲染能力，就能够为高清的通信体验打下基础。同时，相比移动端来说，屏幕比较大，视窗选择也比较灵活。第一，跨平台。大家都了解浏览器对各个终端的特殊性，不止PC上有浏览器、移动端上有浏览器，甚至是一些知名的社交APP也嵌入了浏览器。这需要
python视频工具包 ffmpeg 使用示例 pythonffmpeg
1.简介FFMPEG堪称自由软件中最完备的一套多媒体支持库，它几乎实现了所有当下常见的数据封装格式、多媒体传输协议以及音视频编解码器，提供了录制、转换以及流化音视频的完整解决方案。2.ffmpeg的常用方法将某文件下所有ts文件按顺序合并，转换成MP4格式存储：importffmpegdeftest2():ts_folder='path/ts_files/ceshi/'output_mp4="pa
4K超高清无缝切换与画面分割矩阵
格芬科技4K超高清无缝切换与画面分割矩阵技术解析格芬科技作为音视频传输与控制领域的领先企业，其4K超高清无缝切换与画面分割矩阵产品以高性能、高灵活性和高可靠性为核心优势，广泛应用于会议室、指挥中心、舞台演出、教育培训等场景。以下从产品特性、技术规格、应用场景及选型建议四个维度进行详细解析：一、核心产品与技术特性4K@60Hz超高清支持分辨率与刷新率：格芬科技矩阵产品（如GF-HDMI0404U、G
HDMI高清矩阵与无缝拼接矩阵 OEM定制控标 geffen08 TPHD141K vc-1 g711 es13
HDMI高清矩阵与无缝拼接矩阵：GEFFEN/GF-MIX系列介绍GEFFEN/GF-MIX系列矩阵是一款集成了高性能、高灵活性和高可靠性于一身的音视频处理设备，特别适用于需要高清视频信号切换、拼接和显示的场合。HDMI高清矩阵主要功能与特点：高清视频信号切换：GEFFEN/GF-MIX系列HDMI高清矩阵支持多路HDMI输入和多路HDMI输出，能够轻松实现高清视频信号之间的快速切换。无缝切换技术
[硬件接口]HDMI和DP 区别
DisplayPort和HDMI在FPGA应用场景的实现使用与区别概述DisplayPort（DP）和HDMI是两种主流的数字音视频接口，广泛应用于视频传输场景。在FPGA（现场可编程门阵列）应用中，DP和HDMI常用于视频处理、显示驱动和高带宽数据传输。本文档比较两者在FPGA实现中的使用方式、应用场景及主要区别，并以Markdown格式呈现。1.FPGA实现概述1.1DisplayPort在F
ffmpeg下编译tsan 泰勒朗斯 FFmpeg ffmpeg
如何在ffmpeg下编译tsan，如下配置：./configure\--prefix=/workspace/ffmpeg_gcu\--disable-stripping\--disable-optimizations\--disable-x86asm\--toolchain=gcc-tsan\--enable-pic\--enable-swscale\--enable-static\--enabl
Python PyDub详解：音频处理从未如此简单 detayun Python python 音视频开发语言
引言在Python生态中，PyDub以其简洁的设计和强大的功能，成为音频处理领域的后起之秀。这个由罗伯特·约翰逊主导开发的开源库，通过封装FFmpeg/Libav底层能力，为开发者提供了"不愚蠢"的音频处理方式。本文将带您系统掌握PyDub的核心用法，从环境搭建到高级应用，解锁音频处理的无限可能。安装与配置快速安装pipinstallpydub依赖管理FFmpeg安装指南：Windows：通过FF
C语言基础-数据类型知柠 c语言
定义数据类型其实就是固定大小内存的别名，并且描述了一个变量存放什么类型的数据。简单来说，就是组织和操作数据。数据：计算机要处理的数据（数字、字符串、文字、符号、图片、音视频等）数据类型不仅帮助我们组织和操作数据，还决定了程序如何有效的利用内存。了解数据类型的内存需求是理解计算机管理和操作数据的关键。小贴士：程序运行需要在内存中数据类型分类和计算方法数据类型分类基本类型（C语言内置）数值类型整型（整
ffmpeg的常见使用 pythonffmpeg
1.简介FFMPEG堪称自由软件中最完备的一套多媒体支持库，它几乎实现了所有当下常见的数据封装格式、多媒体传输协议以及音视频编解码器，提供了录制、转换以及流化音视频的完整解决方案。2.ffmpeg的常用方法将某文件下所有ts文件按顺序合并，转换成MP4格式存储：importffmpegdeftest2():ts_folder='path/ts_files/ceshi/'output_mp4="pa
fcpx音视频剪辑编辑 Final Cut Pro X（Mac电脑） fengyun2891 macos mac
fcpx一款专业的视频剪辑工具，专为苹果用户设计。它具备强大的视频剪辑、音轨、图形特效和调色功能，支持整片输出，提升创作效率。经过Apple芯片优化，利用Metal引擎动力，可处理更复杂的项目，并支持高分辨率视频格式，并提供了多种高级功能，例如多摄像头编辑、音频混合、色彩校正、视觉特效和动画等。原文地址：macFinalCutProXMacfcpx音视频剪辑编辑工具
WebRTC与RTMP
WebRTC和RTMP是两种不同的流媒体传输协议，分别适用于不同的场景。以下是它们的核心区别和特点：1.WebRTC（WebReal-TimeCommunication）特点：协议类型：基于UDP（低延迟，允许丢包），使用SRTP/SCTP加密传输音视频。延迟：极低（100ms-1s），适合实时交互（如视频会议、直播连麦）。使用场景：浏览器之间的点对点（P2P）音视频通话。低延迟直播（如数字人交互
C语言基础第1天：数据类型、常量
一、数据类型（一）数据类型的定义数据类型是固定大小内存的别名，它描述了变量存放数据的类型，其核心作用是组织和操作数据。计算机要处理的数据包括数字、字符串、文字、符号、图片、音视频等，数据类型不仅助力这些数据的组织与操作，还决定了程序对内存的有效利用方式。同时，了解数据类型的内存需求是理解计算机管理和操作数据的关键，因为程序运行依赖内存。（二）数据类型的分类基本类型（C语言内置）1.数值类型整型（整
Linux下的MP3播放器开发指南薯条说影
本文还有配套的精品资源，点击获取简介：本项目着重介绍如何使用C语言在Linux环境下开发MP3播放器。内容涵盖多进程编程、信号处理、音频解码技术、用户界面设计及文件操作。详细介绍了进程创建、进程通信、进程同步与互斥以及信号编程的细节。同时，讲解了音频处理的关键技术和方法，如FFmpeg库的使用、音频缓冲区管理以及音频系统的选取。此外，还涉及用户界面的设计选择和文件I/O操作。最终目标是为开发者提供
互联网大厂Java程序员谢飞机面试记：从基础到微服务的奇幻之旅 seventeennnnn Java场景面试宝典 Java面试 JVM原理 Spring Boot 微服务分布式系统
互联网大厂Java程序员谢飞机面试记：从基础到微服务的奇幻之旅面试场景设定面试官：严肃、技术功底深厚，善于通过业务场景循序渐进地考察候选人谢飞机：搞笑水货程序员，对简单问题能回答出来，复杂问题含糊其辞背景：某互联网大厂总部会议室，谢飞机来应聘高级Java开发工程师职位第一轮面试：Java核心与JVM原理（音视频场景）面试官：谢先生，先聊一下Java语言特性吧。说说Java8中接口的变化有哪些？谢飞
AI办公Agent之Skywork Super Agents NeilNiu AI+开源项目人工智能
5月22日，昆仑万维科技股份有限公司（以下简称“昆仑万维”）面向全球市场同步发布天工超级智能体（SkyworkSuperAgents)。官网地址：https://www.tiangong.cn/这个工具主要采用了AIagent架构和DeepResearch技术，一站式生成文档、PPT、表格（excel）、网页、播客和音视频多模态内容。它具有强大的DeepResearch能力，在GAIA榜单排名全球
Android音视频通话
Android音视频通话前言一、准备工作1、编写Jni接口2、通过javah工具生成头文件3、集成speex、webrtc二、初始化工作三、开启socketudp服务四、判断socket是否可读五、发送数据到远端1、视频数据1.1、初始化MediaCodec1.2、通过MediaCodec进行H264编码2、音频数据2.1、webrtc消回声2.2、speex编码压缩六、断开连接前言Android
1. Linux 基本命令 GotoLevel Linux编译基础 linux ffmpeg 运维
安装工具包:安装工具包:【1.brew;(MacOS)；2.apt;(Linux-乌班图);3.yum;(Linux-服务器端)】brewsearchffmpeg：在服务源上查找显示ffmepg的安装包;brewinstallffmpeg：安装服务器上的ffmepg包;brewremoveffmpeg:移除安装的ffmepg包；Linux基本命令:ctrl+l:清屏;ctrl+c:取消当前命令;s
AI小智项目全解析：软硬件架构与开发环境配置 Despacito0o ai语音助手人工智能硬件架构 struts
AI小智项目全解析：软硬件架构与开发环境配置一、项目整体架构AI小智是一款基于ESP32的智能物联网设备，集成了语音交互、边缘计算等功能。整体系统架构如下：终端设备：ESP32模组作为核心通信方式：WebSocket实现实时音视频传输MQTT连接物联网后台管理系统HTTP进行系统间数据交换二、软件架构详解2.1后端技术栈#核心技术栈backend_stack={"语言":"Python","框架"
RTSP系列三：RTP协议介绍 BreakingY 网络音视频
我的音视频/流媒体开源项目(github)RTSP系列：RTSP系列一：RTSP协议介绍-CSDN博客RTSP系列二：RTSP协议鉴权-CSDN博客RTSP系列三：RTP协议介绍-CSDN博客RTSP系列四：RTSPServer/Client实战项目-CSDN博客目录一、基本概念二、RTP报文格式三、RTP封装视频3.1、RTP封装H2643.1.1、单一封包模式3.1.2、组合封包模式3.1.3
【RTSP从零实践】4、使用RTP协议封装并传输AAC
博客主页：https://blog.csdn.net/wkd_007博客内容：嵌入式开发、Linux、C语言、C++、数据结构、音视频本文内容：介绍怎么使用RTP协议封装并传输AAC金句分享：你不能选择最好的，但最好的会来选择你——泰戈尔⏰发布时间⏰：2025-07-0118:43:18本文未经允许，不得转发！！！目录一、概述二、实现步骤、实现细节✨2.1、实现AAC文件读取器✨2.2、实现AAC
GitHub每周最火火火项目（6.30-7.6） FutureUniant Github周推 github microsoft 人工智能 ai 计算机视觉
1.NanniCoder/MediaCrawler项目名称：MediaCrawler项目介绍：该项目采用Python语言开发，专注于多平台媒体内容的爬取工作。从用途来看，它能够精准抓取小红书笔记、抖音视频、快手视频、B站视频、微博帖子、百度贴吧帖子及评论、知乎问答文章等各类媒体平台的内容。在使用场景方面，对于新媒体运营者而言，可借助它批量采集行业内多平台的热门内容、竞品动态，为自身内容创作、运营策
FFmpeg、WebAssembly 和 WebGL 在 Web 端的结合应用醉方休 ffmpeg wasm webgl
FFmpeg、WebAssembly和WebGL在Web端的结合应用这三个技术组合可以创建强大的浏览器端多媒体处理解决方案，下面我将详细介绍它们如何协同工作。1.FFmpeg与WebAssemblyFFmpeg.wasm项目概念：将FFmpeg编译为WebAssembly在浏览器中运行特点：完全在浏览器中执行视频/音频处理无需服务器转码保护用户隐私（数据不离客户端）基本使用示例import{cre
FFmpeg 详解醉方休 ffmpeg wasm webgl
FFmpeg详解FFmpeg是一个强大的跨平台多媒体处理工具集，可以用于录制、转换、编辑和流式传输音频和视频内容。以下是FFmpeg的全面解析：一、FFmpeg核心组件ffmpeg-主要的多媒体转换工具ffplay-简单的媒体播放器ffprobe-媒体文件分析工具libavcodec-编解码器库libavformat-多媒体容器格式库libavutil-实用工具库libswscale-图像缩放和色
写一个ununtu C++ 程序，调用ffmpeg ，来判断一个数字电影的音频文件mxf 的采样率（频率），通道数，采样位数 m0_68739984 c++ffmpeg 开发语言
以下是一个UbuntuC++程序，使用FFmpegAPI来检测数字电影音频MXF文件的采样率（频率）、通道数、采样位数：1.安装FFmpeg开发库bashsudoaptupdatesudoaptinstalllibavformat-devlibavcodec-devlibavutil-dev2.C++程序代码(check_mxf_audio.cpp)cpp#include#includeexter
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默