风雨兼程8023

音频编解码基础

1. PCM

PCM 脉冲编码调制是Pulse Code Modulation的缩写。脉冲编码调制是数字通信的编码方式之一。主要过程是将话音、图像等模拟信号每隔一定时间进行取样，使其离散化，同时将抽样值按分层单位四舍五入取整量化，同时将抽样值按一组二进制码来表示抽样脉冲的幅值。

1.1 语音编码原理

有一定电子基础的都知道传感器采集音频信号是模拟量，而我们实际传输过程中使用的是数字量。而这就涉及到模拟转数字的过程。而模拟信号数字化必须经过三个过程，即抽样、量化和编码，以实现话音数字化的脉冲编码调制（PCM，Pulse Coding Modulation）技术。

模拟信号转换为数字信号

1.1.1 抽样(Sampling)

抽样是把模拟信号以其信号带宽2倍以上的频率提取样值，变为在时间轴上离散的抽样信号的过程。
采样率 (sample)：每秒从连续信号中提取并组成离散信号的采样个数，用赫兹（Hz）来表示。

1.1.2 量化(quantizing)

抽样信号虽然是时间轴上离散的信号，但仍然是模拟信号，其采样值在一定的取值范围内，可有无限多个值。显然，对无限个采样值一一给出数字码组来对应是不可能的。为了实现以数字码表示样值，必须采用“四舍五入”的方法把采样值分级“取整”，使一定取值范围内的采样值由无限多个值变为有限个值。这一过程称为量化。
量化后的抽样信号与量化前的抽样信号相比较，当然有所失真，且不再是模拟信号。这种量化失真在接收端还原模拟信号时表现为噪声，并称为量化噪声。量化噪声的大小取决于把采样值分级“取整”的方式，分的级数越多，即量化级差或间隔越小，量化噪声也越小。
采样位数：指的是描述数字信号所使用的位数。
8位(8bit)代表2的8次方=256，16 位(16bit)则代表2的16次方=65536；采样位数越高，精度越高。

1.1.3 编码(Coding)

量化后的抽样信号就转化为按抽样时序排列的一串十进制数字码流，即十进制数字信号。简单高效的数据系统是二进制码系统，因此，应将十进制数字代码变换成二进制编码，根据十进制数字代码的总个数，可以确定所需二进制编码的位数，即字长(采样位数)这种把量化的抽样信号变换成给定字长的二进制码流的过程称为编码。

1.2 PCM 音频编码

PCM信号未经过任何编码和压缩处理(无损压缩)。与模拟信号比，它不易受传送系统的杂波及失真的影响。动态范围宽，可得到音质相当好的效果。编码上采用A律13折线编码。
声道：声道可以分为单声道和立体声（双声道）
PCM的每个样本值包含在一个整数i中，i的长度为容纳指定样本长度所需的最小字节数。
首先存储低有效字节，表示样本幅度的位放在i的高有效位上，剩下的位置为0，这样8位和16位的PCM波形样本的数据格式如下所示。

1.2.1 采样频率

人对频率的识别范围是 20HZ - 20000HZ, 如果每秒钟能对声音做20000个采样, 回放时就足可以满足人耳的需求。
① 8000hz 为电话采样。
② 22050 的采样频率是常用的。
③ 44100已是CD音质, 超过48000的采样对人耳已经没有意义。

1.2.2 音频帧

对采样率为44.1kHz的AAC（Advanced Audio Coding）音频进行解码时，一帧的解码时间须控制在23.22毫秒内。通常是按1024个采样点一帧。
为什么这里需要说下音频帧呢？
音频的帧的概念没有视频帧那么清晰，几乎所有视频编码格式都可以简单的认为一帧就是编码后的一副图像。但音频帧跟编码格式相关，它是各个编码标准自己实现的。因为如果以PCM（未经编码的音频数据）来说，它根本就不需要帧的概念，根据采样率和采样精度就可以播放了。比如采样率为44.1kHZ，采样精度为16位的音频，你可以算出bitrate（比特率）是44100*16kbps，每秒的音频数据是固定的44100*16/8 字节。
但是我们不希望每一次采样都返回给我们进行处理，我们希望的是返回一段时间内的所有采样数据。这里的音频帧就是每次返回给我们多少个采样数据，一般情况是下返回2048个采样数据。
那么单声道采用16位采样位数 2048个采样数据的大小是多少呢 2048*16/8 = 4096字节。

1.2.3 比特率

码率是指经过编码后的音频数据每秒钟需要用多少个比特来表示.

1.2.4 有损和无损

对于我们最常说的“无损音频”来说，一般都是指传统CD格式中的16bit/44.1kHz采样率的文件格式，而之所以称为无损压缩，也是因为其包含了20Hz-22.05kHz这个完全覆盖人耳可闻范围的频响频率而得名。
这里我有个混淆的地方是声道和采样频率之间的关系？刚开始假设采样频率是44100,要是使用双声道的话，那么每个声道的采样率就是22100了。其实这是错误的，采样频率是在每个声道上的采样速率，不是在所有频道的采样速率。
因此，要是采样速率是44100 ，那么双声道，采集的样本个数应该是88200个。

2. LPCM

LPCM: linear pulse code modulation
LPCM，即线性脉冲编码调制，是一种非压缩音频数字化技术，是一种未压缩的原音重现，在普通CD、DVD及其他各种要求最高音频质量的场合中已经得到广泛的应用。
各种应用场合中的LPCM(PCM)原理是一样的，区别在于采样频率和量化精度不同。
声音之所以能够数字化，是因为人耳所能听到的声音频率不是无限宽的，主要在20kHz以下。按照抽样定理，只有抽样频率大于40kHz，才能无失真地重建原始声音。如CD采用44.1kHz的抽样频率，其他则主要采用48kHz或96kHz。
PCM（脉冲编码调制）是一种将模拟语音信号变换为数字信号的编码方式。主要经过3个过程：抽样、量化和编码。抽样过程将连续时间模拟信号变为离散时间、连续幅度的抽样信号，量化过程将抽样信号变为离散时间、离散幅度的数字信号，编码过程将量化后的信号编码成为一个二进制码组输出。
量化分为线性量化和非线性量化。线性量化在整个量化范围内，量化间隔均相等。非线性量化采用不等的量化间隔。量化间隔数由编码的二进制位数决定。例如，CD采用16bit线性量化，则量化间隔数L=65536。位数（n)越多，精度越高，信噪比SNR=6.02n+1.76(dB)也越高。但编码的二进制位数不是无限制的，需要根据所需的数据率确定。比如：CD可以达到的数据率为2×44.1×16=1411.2Kbit/s。
简单的理解，LPCM就是把原始模拟声音波形经过采样和线性量化后得到的数字信号，这些数据信号还没被压缩。

3. ADPCM

ADPCM ：Adaptive Differential Pulse Code Modulation
说到ADPCM, 就得先说下DPCM。
Differential（差异）或Delta PCM（DPCM）纪录的是目前的值与前一个值的差异值。DPCM对信号的差值进行量化,可以进一步减少量化比特数。与相等的PCM比较，这种编码只需要25%的比特数。这与一些视频的压缩理念类似，用该帧与前一帧的差异来进行记录该帧以达到压缩的目的。
ADPCM (Adaptive Differential Pulse Code Modulation), 是一种针对16bit (或者更高) 声音波形数据的一种有损压缩算法, 它将声音流中每次采样的 16bit 数据以 4bit 存储, 所以压缩比1:4. 而压缩/解压缩算法非常的简单, 所以是一种低空间消耗,高质量声音获得的好途径。
该算法利用了语音信号样点间的相关性，并针对语音信号的非平稳特点，使用了自适应预测和自适应量化，即量化器和预测器的参数能随输入信号的统计特性自适应于或接近于最佳的参数状态，在32kbps◎8khz速率上能够给出网络等级话音质量。
特性：ADPCM综合了APCM的自适应特性和DPCM系统的差分特性，是一种性能比较好的波形编码。它的核心想法是：
①利用自适应的思想改变量化阶的大小，即使用小的量化阶(step-size)去编码小的差值，使用大的量化阶去编码大的差值；
②使用过去的样本值估算下一个输入样本的预测值，使实际样本值和预测值之间的差值总是最小。
优点：算法复杂度低，压缩比小，编解码延时最短（相对其它技术）
缺点：声音质量一般
简单理解，ADPCM就是对LPCM数据进行有损压缩，压缩过程中量化参数遇小则小，遇大则大，根据差值来自己调整大小；另外它可以对之前的数据统计后来预测后来的数据差值，尽量使差值比较小。

4. AAC

AAC，全称Advanced Audio Coding，中文名：高级音频编码,是一种专为声音数据设计的文件压缩格式。与MP3不同，它采用了全新的算法进行编码，更加高效，具有更高的“性价比”。利用AAC格式，可使人感觉声音质量没有明显降低的前提下，更加小巧。苹果ipod、诺基亚手机支持AAC格式的音频文件。
优点：相对于mp3，AAC格式的音质更佳，文件更小。
不足：AAC属于有损压缩的格式，与时下流行的APE、FLAC等无损格式相比音质存在“本质上”的差距。加之，传输速度更快的USB3.0和16G以上大容量MP3正在加速普及，也使得AAC头上“小巧”的光环不复存在。
AAC是新一代的音频有损压缩技术，它通过一些附加的编码技术（比如PS,SBR等），衍生出了LC-AAC,HE-AAC,HE-AACv2三种主要的编码，LC-AAC就是比较传统的AAC，相对而言，主要用于中高码率(>=80Kbps)，HE-AAC(相当于AAC+SBR)主要用于中低码(<=80Kbps)，而新近推出的HE-AACv2(相当于AAC+SBR+PS)主要用于低码率(<=48Kbps）,事实上大部分编码器设成<=48Kbps自动启用PS技术，而>48Kbps就不加PS,就相当于普通的HE-AAC。
频带复制技术(Spectral Band Replication，SBR)AAC的核心之一是SBR，这是一种使用极少位数就可描述高频部分并在解码时进行特殊优化从而实现频域扩展的模块。
参数立体声(Parametric Stereo，PS) , PS模块也是AAC的核心模块之一，主要用于分析左右声道属性并使用非常少的位数表示左右声道相关性，而后在解码端将左右声道分离。这里比较巧妙的是PS的向下兼容特性，整体数据打包是分开进行的。如果获取到AAC、SBR、PS三者的基本数据包后，在解码阶段我们就只需AAC—LC。
AAC的音频文件格式有以下两种：
ADIF：Audio Data Interchange Format 音频数据交换格式。这种格式的特征是可以确定的找到这个音频数据的开始，不需进行在音频数据流中间开始的解码，即它的解码必须在明确定义的开始处进行。故这种格式常用在磁盘文件中。
ADTS：Audio Data Transport Stream 音频数据传输流。这种格式的特征是它是一个有同步字的比特流，解码可以在这个流中任何位置开始。它的特征类似于mp3数据流格式。
简单说，ADTS可以在任意帧解码，也就是说它每一帧都有头信息。ADIF只有一个统一的头，所以必须得到所有的数据后解码。且这两种的header的格式也是不同的，目前一般编码后的和抽取出的都是ADTS格式的音频流。如果是ADTS格式的AAC文件，AAC音频文件有一帧一帧的ADTS帧组成，每个ADTS帧包含ADTS头部和AAC数据，如下所示。

ADTS头部的大小通常为7个字节，包含着这一帧数据的信息，内容如下

图1 AAC的ADTS头部

各字段的意思如下：
@ syncword：
总是0xFFF, 代表一个ADTS帧的开始, 用于同步。
@ ID：MPEG Version: 0 for MPEG-4，1 for MPEG-2。
@ Layer：always: ‘00’。
@ protection_absent：Warning, set to 1 if there is no CRC and 0 if there is CRC。
@ profile：表示使用哪个级别的AAC，如01 Low Complexity(LC) – AAC LC。
@ sampling_frequency_index：采样率的下标

@ aac_frame_length：一个ADTS帧的长度包括ADTS头和AAC原始流。
@ adts_buffer_fullness：0x7FF，说明是码率可变的码流。
@ number_of_raw_data_blocks_in_frame：表示ADTS帧中有number_of_raw_data_blocks_in_frame + 1个AAC原始帧
这里主要记住ADTS头部通常为7个字节，并且头部包含aac_frame_length，表示ADTS帧的大小

5. G711

G711是国际电信联盟ITU-T定制出来的一套语音压缩标准，它代表了对数PCM（logarithmic pulse-code modulation）抽样标准，主要用于电话。它主要用脉冲编码调制对音频采样，采样率为8k每秒。它利用一个 64Kbps 未压缩通道传输语音讯号。起压缩率为1:2，即把16位数据压缩成8位。G.711是主流的波形声音编解码器。
G.711 标准下主要有两种压缩算法。一种是u-law algorithm （又称often u-law, ulaw, mu-law），主要运用于北美和日本；另一种是A-law algorithm，主要运用于欧洲和世界其他地区。其中，后者是特别设计用来方便计算机处理的
G711的内容是将14bit(uLaw)或者13bit(aLaw)采样的PCM数据编码成8bit的数据流，播放的时候在将此8bit的数据还原成14bit或者13bit进行播放，不同于MPEG这种对于整体或者一段数据进行考虑再进行编解码的做法，G711是波形编解码算法，就是一个sample对应一个编码，所以压缩比固定为：
8/14 = 57% (uLaw)
8/13 = 62% (aLaw)
简单理解，G.711就是语音模拟信号的一种非线性量化， bitrate 是64kbps。

6. G726

G.726是ITU-T定义的音频编码算法。1990年 CCITT（ITU前身）在G.721和G.723标准的基础上提出。G.726可将64kbps的PCM信号转换为40kbps、32kbps、24kbps、16kbps的ADPCM信号。
最为常用的方式是 32 kbit/s，但由于其只是 G.711速率的一半，所以就将网络的可利用空间增加了一倍。G.726具体规定了一个 64 kbpsA-law 或 μ-law PCM 信号是如何被转化为40, 32, 24或16 kbps 的 ADPCM 通道的。在这些通道中，24和16 kbps 的通道被用于数字电路倍增设备(DCME)中的语音传输，而40 kbps 通道则被用于 DCME 中的数据解调信号（尤其是4800 kbps 或更高的调制解调器）。
实际上，G.726 encoder 输入一般都是G.711 encoder的输出：64kbit/s 的A-law或µ-law；G.726算法本质就是一个ADPCM，自适应量化算法，把64kbit/s 压缩到32kbit/s 。

7. AEC

回声消除原理：从通讯回音产生的原因看，可以分为声学回音（Acoustic Echo）和线路回音（Line Echo），相应的回声消除技术就叫声学回声消除（Acoustic Echo Cancellation，AEC）和线路回声消除（Line Echo Cancellation, LEC）。声学回音是由于在免提或者会议应用中，扬声器的声音多次反馈到麦克风引起的（比较好理解）；线路回音是由于物理电子线路的二四线匹配耦合引起的（比较难理解）。解决方法：自适应滤波器和自适应算法。
回音的产生主要有两种原因：
(1)由于空间声学反射产生的声学回音（见下图）

图中的男子说话，语音信号（speech1）传到女士所在的房间，由于空间的反射，形成回音speech1(Echo)重新从麦克风输入，同时叠加了女士的语音信号（speech2）。此时男子将会听到女士的声音叠加了自己的声音，影响了正常的通话质量。此时在女士所在房间应用回音抵消模块，可以抵消掉男子的回音，让男子只听到女士的声音。

(2)由于2-4线转换引入的线路回音（见下图）：

在ADSL Modem和交换机上都存在2-4线转换的电路，由于电路存在不匹配的问题，会有一部分的信号被反馈回来，形成了回音。如果在交换机侧不加回音抵消功能，打电话的人就会自己听到自己的声音。
尽管回声消除是非常复杂的技术，但我们可以简单的描述这种处理方法：
1、房间A的音频会议系统接收到房间B中的声音
2、声音被采样，这一采样被称为回声消除参考
3、随后声音被送到房间A的音箱和声学回声消除器中
4、房间B的声音和房间A的声音一起被房间A的话筒拾取
5、声音被送到声学回声消除器中，与原始的采样进行比较，移除房间B的声音

8. AGC

当有对语音的响度进行调整的需要时，就要做语音自动增益（AGC）算法处理，当你在跟远方的朋友进行语音交流时，背后都有这个算法在默默的工作，如大名鼎鼎的QQ聊天软件、做语音起家的YY等，语音聊天时都会用到这个算法。
最简单的硬性增益处理是对所有音频采样乘上一个增益因子，它也等同于在频域每个频率都同时乘上这个增益因子，但由于人的听觉对所有频率的感知不是线性的，是遵循等响度曲线的，导致这样处理后，听起来感觉有的频率加强了，有的频率削弱了，导致语言失真的放大。
要让整个频段的频率听起来响度增益都是“相同”的，就必须在响度这个尺度下做增益，而不是在频率域，即按照等响度曲线对语音的频率进行加权，不能采用一个固定的增益因子进行加权。
由些可见，语音的自动增益处理可以大致分为两个部分：
（1）响度增益因子的确定。
（2）把响度增益因子映射到等响度曲线上，确定最终各频率的增益权重。
最后要做的就是把各频率乘上最终的增益权重，我们就可以得到最终增益后的语音了！
这里再说下如何获取等响度曲线的值，总体思路是可以利用数值分析中的逼近理论做插值和拟合。

9. 参考文献

https://www.jianshu.com/p/cfb3d4dc3676

https://blog.csdn.net/u014470361/article/details/88837776

https://www.cnblogs.com/Ph-one/p/8795320.html

https://blog.csdn.net/qinglongzhan/article/details/80972174

https://www.jianshu.com/p/839b11e0638b?utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation

https://www.jianshu.com/p/0eb1d055ecf8

https://www.jianshu.com/p/6b4c481f4294

使用 Deepseek Zero Coding Experience 创建类似飞扬的小鸟游戏知识大胖 NVIDIA GPU和大语言模型开发教程游戏 deepseek ollama janus pro
简介Flappybird在苹果商店推出后，每天大约能赚5000美元，但后来被苹果故意下架。现在我正尝试使用Deepseek制作这样一款游戏。技术在不断变化，编码知识也在不断变化，只需修改代码即可获得结果。让我们在Deepseek上试试这款游戏：推荐文章《如何在本地电脑上安装和使用DeepSeekR-1》权重1，DeepSeek《Nvidia系列之使用NVIDIAIsaacSim和ROS2的命令行控
NVIDIA 系列之使用生成式 AI 增强 ROS2 机器人技术：使用 BLIP 和 Isaac Sim 进行实时图像字幕制作知识大胖 NVIDIA GPU和大语言模型开发教程人工智能机器人
简介在快速发展的机器人领域，集成先进的AI模型可以显著增强机器人系统的功能。在本博客中，我们将探讨如何在ROS2（机器人操作系统2）环境中利用BLIP（引导语言图像预训练）模型进行实时图像字幕制作，并使用NVIDIAIsaacSim进行模拟。我们将介绍如何实现一个ROS2节点，该节点订阅摄像头源、应用BLIP模型进行图像字幕制作，并实时显示结果。这种集成展示了生成式AI在增强人机交互方面的强大功能
异常处理：@ControllerAdvice, @ExceptionHandler, @ResponseStatus, @Valid, @DataAccessException 张紫娃注解 java
注解名称来源框架/规范典型使用场景版本（引入年份）是否推荐使用@DataAccessExceptionSpringFramework封装JDBC/MyBatis等数据访问异常Spring1.0（2004）✅@TransactionalSpringFramework声明数据库事务（如Service层操作）Spring2.0（2007）✅@ExceptionHandlerSpringMVC方法内捕获并
Spring MVC bjun2012 spring
1.关于SpringMVCSpringMVC是基础spring框架基础之上,主要解决了后端服务器接收客户端提交的请求,并给予响应的相关问题.MVC=Model+View+ControllerModel:数据模型,通常由业务逻辑层(ServiceLayer)和数据访问层(DataAccessObjectLayer)构成View:视图Controller:控制器MVC只关心V-C之间的交互2.创建Sp
英伟达 Isaac ROS产品体验芝麻香儿 Roads to deep learning.AI 英伟达 Isaac ROS
这里写自定义目录标题英伟达IsaacROS产品体验运行的商品名称运行过程记录GPU加速仿真总结英伟达IsaacROS产品体验NVIDIAIsaacROS是一套为自主移动机器人（AMR）开发的硬件加速软件包，专为在NVIDIAGPU和Jetson平台上优化ROS（RobotOperatingSystem）应用程序而设计。它通过提供一系列模块化的ROS包和完整的处理管道，帮助开发者加速AI感知、图像处
python视频工具包 ffmpeg 使用示例 pythonffmpeg
1.简介FFMPEG堪称自由软件中最完备的一套多媒体支持库，它几乎实现了所有当下常见的数据封装格式、多媒体传输协议以及音视频编解码器，提供了录制、转换以及流化音视频的完整解决方案。2.ffmpeg的常用方法将某文件下所有ts文件按顺序合并，转换成MP4格式存储：importffmpegdeftest2():ts_folder='path/ts_files/ceshi/'output_mp4="pa
idea 性能优化
1、cpu占用很高，导致经常卡顿排查：通过IDEAActivityMonitor，可以发现是JITcompiler占用的cpu较高。解决：help->EditCustomVMOptions，增加如下参数。重启IDEA。-XX:TieredStopAtLevel=1或者-XX:Tier4MinInvocationThreshold=100000-XX:Tier4InvocationThreshold
ESP32 S3音频开发
1.音频硬件框架Codec：音频编解码芯片，一种低功耗单声道音频编解码器，包含单通道ADC、单通道DAC、低噪声前置放大器、耳机驱动器、数字音效、模拟混音和增益功能。它通过I2S和I2C总线与ESP32-S3-WROOM-1模组连接，以提供独立于音频应用程序的。PA：音频功率放大器，用于放大来自音频编解码芯片的音频信号，以驱动扬声器。2.音频软件框架ESP32提供了几个简单的高级API，可以参考例
ESP32设备驱动——使用I2S播放音频的物联网应用 JmwvOverflow 音视频物联网
在物联网应用中，使用嵌入式设备进行音频播放是一个常见的需求。ESP32是一款功能强大的嵌入式开发板，它集成了Wi-Fi和蓝牙功能，适用于物联网应用。本文将介绍如何在ESP32上使用I2S（Inter-ICSound）接口来播放音频。I2S是一种串行音频接口，用于高质量音频数据的传输。ESP32的I2S接口可以直接与音频编解码器、数字信号处理器（DSP）等设备连接，实现音频的输入和输出。下面我们将逐
maven运行javafx报错：ԭ��: java.lang.ClassNotFoundException: ��jump 楚门留香 java maven 开发语言
之前学了maven后来上课用javafx，只会用maven运行给我害惨了，针对小白。先说结果，不能用maven运行，直接上方功能栏-运行-运行（那个绿色的运行）即可如果运行是黑的，我这边的解决办法是下载插件并且重新创建项目，我一开始创建新项目给我显示：`JavaFX为模块生成源时出错：D:\AAACodeJava\javaf,mvn\wrapper\maven-wrapper.properties
ffmpeg的常见使用 pythonffmpeg
1.简介FFMPEG堪称自由软件中最完备的一套多媒体支持库，它几乎实现了所有当下常见的数据封装格式、多媒体传输协议以及音视频编解码器，提供了录制、转换以及流化音视频的完整解决方案。2.ffmpeg的常用方法将某文件下所有ts文件按顺序合并，转换成MP4格式存储：importffmpegdeftest2():ts_folder='path/ts_files/ceshi/'output_mp4="pa
【vue】用conda配置nodejs，一键开通模版使用权温择之 conda
特此鸣谢我的好同学@重中之重的特级教学，非常之好用一、conda环境下载安装二、创建包含nodejs的conda环境创建一个新环境：condacreate-n【自定义环境名字】python=3.9condacreate-nmy_nodejs_envpython=3.9激活新环境：condaactivate【环境名字】condaactivatemy_nodejs_env下载安装nodejs：cond
牛客_重建二叉树
重建二叉树https://www.nowcoder.com/practice/8a19cbe657394eeaac2f6ea9b0f6fcf6importjava.util.*;/**publicclassTreeNode{*intval=0;*TreeNodeleft=null;*TreeNoderight=null;*publicTreeNode(intval){*this.val=val;*
深入探索视频格式标准及其应用 D哥有个初二君
本文还有配套的精品资源，点击获取简介：视频格式标准对于数字媒体的编码、存储、传输和播放至关重要，它涵盖了容器格式、视频编码、音频编码等多个方面。本简介详细介绍了容器格式如MP4、AVI、MKV和TS；常见的视频编码标准包括H.264/AVC、H.265/HEVC、VP9和AV1；音频编码标准有AAC、FLAC和Opus；格式转换和流媒体协议如RTMP、HLS和DASH的重要性；以及分辨率和帧率对视
Tika（文本提取）代码的代文件文本识别提取 java maven
ApacheTika是一个用于提取文本和元数据的开源Java库。它支持提取各种类型的文本，包括但不限于以下几种：文档文件：如PDF、MicrosoftWord、MicrosoftExcel、MicrosoftPowerPoint、OpenDocument、RTF、HTML、XML等。（亲测可以）归档文件：如ZIP、RAR、TAR、GZIP、7z等。（不成功）音频文件：如MP3、WAV、AAC、FL
深度学习Pytorch(一) Bgemini 深度学习 pytorch 深度学习 python
深度学习Pytorch(一)前言：必须使用英伟达显卡才能使用cuda（显卡加速）！移除环境：condaremove-npytorch--all一、安装Pytorch下载Anaconda打开AnacondaPrompt创建一个Pytorch环境：condacreate-npytorchpython=3.9激活Pytorch环境：condaactivatepytorch查看当前包：piplist安装P
FAAC 在海思平台使用得到aac实时音频流张海森_168820 aac 音视频
FAAC在海思平台使用得到aac实时音频流使用FAAC将音频pcm转为aac主要参见这篇博客FAAC在君正平台使用得到aac实时音频流_君正x2600音频-CSDN博客
PPOCRLabel 环境配置教程 ysh9888 人工智能算法计算机视觉 opencv
PPOCRLabel环境配置教程_哔哩哔哩_bilibili1安装conda2新建环境condacreate--nameppocrpython=3.8--channelhttps://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/condaactivateppocrpipinstall-rrequirements.txt-ihttps://pypi
下载第三方库后手动配置到conda虚拟环境中
第一步，在网页或者github等平台下载开发者开发的第三方库，该库的文件格式可能是".whl"，“.tar.gz”，“.zip”等等；找到`anaconda/pkgs`文件夹地址，将上述第三方库移动到`pkgs`文件夹下；如果是.whl文件直接运行condaactivateyour_envpipinstall***.whl如果是压缩包，先解压缩，使用指令如`tar-xzvf`解压缩`.tar.gz
移动conda虚拟环境的安装目录
方法1：重新创建环境（推荐）(1)导出环境配置（生成environment.yml）：condaactivateold_env#激活原环境condaenvexport>environment.yml#导出配置(llmtuner):~$condaenvexport>environment.yml(llmtuner):~$tail-fenvironment.yml-websockets==15.0.1
从零开始写一个RTSP服务器（五）RTP传输AAC
从零开始写一个RTSP服务器系列★我的开源项目-RtspServer从零开始写一个RTSP服务器（一）RTSP协议讲解从零开始写一个RTSP服务器（二）RTSP协议的实现从零开始写一个RTSP服务器（三）RTP传输H.264从零开始写一个RTSP服务器（四）一个传输H.264的RTSP服务器从零开始写一个RTSP服务器（五）RTP传输AAC从零开始写一个RTSP服务器（六）一个传输AAC的RTSP
【RTSP从零实践】4、使用RTP协议封装并传输AAC
博客主页：https://blog.csdn.net/wkd_007博客内容：嵌入式开发、Linux、C语言、C++、数据结构、音视频本文内容：介绍怎么使用RTP协议封装并传输AAC金句分享：你不能选择最好的，但最好的会来选择你——泰戈尔⏰发布时间⏰：2025-07-0118:43:18本文未经允许，不得转发！！！目录一、概述二、实现步骤、实现细节✨2.1、实现AAC文件读取器✨2.2、实现AAC
yolov5/v7/v8/v9/v10环境详细配置教程（Windows+conda+pycharm）视觉算法er 深度学习环境配置 YOLO 目标检测人工智能深度学习 conda pycharm
一、所需环境配置1.1.虚拟环境创建首先，打开AnacondaPrompt命令窗口，创建一个新的虚拟环境，后面的包都在这个环境中安装。创建命令是：我的习惯是使用3.8版本的python，你也可以换成更高版本；condacreate-nyolopython=3.8输入命令后，运行结果如下：输入y即可；1.2.激活虚拟环境安装完成后，即可激活虚拟环境，输入以下命令即可；condaactivateyol
HTML5里video标签支持哪些格式的视频文件 Lucky_chengzi
video标签支持的视频格式：Ogg、MPEG4、WebMMP4=MPEG4文件使用H264视频编解码器和AAC音频编解码器WebM=WebM文件使用VP8视频编解码器和Vorbis音频编解码器Ogg=Ogg文件使用Theora视频编解码器和Vorbis音频编解码器
Kimi Audio一个通用的音频基础模型处理各种任务如自动语音识别（ASR）、音频问答（AQA）、自动音频字幕（AAC）、语音情感识别（SER）、声音事件/场景分类（SEC/ASC）和端到端语音对话 skywalk8163 人工智能 xcode ide kaggle Kimi Audio
KimiAudio被设计为一个通用的音频基础模型，能够在一个统一的框架内处理各种音频处理任务。主要功能包括：通用功能：处理各种任务，如自动语音识别（ASR）、音频问答（AQA）、自动音频字幕（AAC）、语音情感识别（SER）、声音事件/场景分类（SEC/ASC）和端到端语音对话。最先进的性能：在众多音频基准测试中取得SOTA结果（见评估和技术报告）。大规模预训练：对超过1300万小时的各种音频数据
NVIDIA Isaac GR00T N1.5 人形机器人强化学习入门教程（五）强化学习与机器人控制仿真机器人与具身智能人工智能机器人深度学习神经网络强化学习模仿学习具身智能
系列文章目录目录系列文章目录前言一、更深入的理解1.1实体化动作头微调1.1.1实体标签1.1.2工作原理1.1.3支持的实现1.2高级调优参数1.2.1模型组件1.2.1.1视觉编码器（tune_visual）1.2.1.2语言模型（tune_llm）1.2.1.3投影器（tune_projector）1.2.1.4扩散模型（tune_diffusion_model）1.2.2理解数据转换1.2
创建Django项目小叶萝 Openlayers开发 django sqlite 数据库
我这里利用conda+Pycharm创建Django项目1、打开condaPrompt激活python的conda环境（创建了多个环境可以考虑切换一下python环境）condaactivatebase2、安装DjangocondainstallDjango查看安装成功了没有？django-admin--help出现常用的命令：checkcompilemessagescreatecachetabl
WebRTC基础介绍
WebRTC全称为：WebReal-TimeCommunication。它是为了解决Web端无法捕获音视频的能力，并且提供了peer-to-peer（就是浏览器间）的视频交互。WebRTC汇集了先进的实时通信技术，包括：先进的音视频编解码器（Opus和VP8/9），强制加密协议（SRTP和DTLS）和网络地址转换器（ICE＆STUN）。根据最初的定义，WebRTC被指定为P2P（peer-to-p
ReBEL模型的本地部署与运行，用于三元组抽取任务（事件抽取、知识抽取）
1.服务器CUDA11.72.依赖condacreate-nrebel_envpython=3.10-ycondaactivaterebel_env#安装PyTorch（建议与CUDA11.7配合）pipinstalltorchtorchvisiontorchaudio--index-urlhttps://download.pytorch.org/whl/cu117#安装Transformers和
将实时流的 H.264（视频）与 G.711A（音频）封装成 MP4 文件张海森_168820 将 h264+AAC存为 mp4格式记录音视频
将实时流的H.264（视频）与G.711A（音频）封装成MP4文件✅一、明确的问题目标你有：实时接收到的H.264码流实时接收到的G.711A音频流你想要：把它们同步封装成MP4文件问题挑战MP4不直接支持G.711A编码（PCMA），需要转码为AAC。MP4v2只支持对**已编码的帧（H.264/AAC）**进行封装，不做编码或转码。你需要处理**音视频同步（PTS/DTS）**问题。✅方案一：
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本