weiquan fan

【音频特征】opensmile 工具的使用和批处理

1. 前言

openSMILE是一款以命令行形式运行的工具，通过配置config文件来提取音频特征。主要应用于语音识别、情感计算、音乐信息获取。2.0版本之后的openSMILE包括了openCV库，可以用于视频处理和视频特征提取。
官网有linux和windows版本提供下载，windows可以不编译直接用，建议在命令行里指明 openSMILE 绝对路径。

2. openSMILE的输入输出格式

文件输入格式

RIFF-WAVE (PCM) (for MP3, MP4, OGG, etc. a converter needs to be used)
Comma Separated Value (CSV)
HTK parameter files
WEKA’s ARFF format.（由htk工具产生）
Video streams via openCV.（opencv产生的视频流数据）

文件输出格式

RIFF-WAVE (PCM uncompressed audio)
Comma Separated Value (CSV)
HTK parameter file
WEKA ARFF file
LibSVM feature file format
Binary float matrix format

分类器和其他组件
openSMILE还提供了许多VAD算法，用于判断各时间点有没有说话。

Voice Activity Detection based on Fuzzy Logic
Voice Activity Detection based on LSTM-RNN with pre-trained models
Turn-/Speech-segment detector
LibSVM (on-line)
LSTM-RNN (Neural Network) classifier which can load RNNLIB and CURRENNT nets
GMM (experimental implementation from eNTERFACE’12 project, to be release soon)
SVM sink (for loading linear kernel WEKA SMO models)
Speech Emotion recognition pre-trained models (openEAR)

3. openSMILE使用流程简介

先切换到处理文件SMILExtract.exe所在的目录
通过如下语句提取：
windows下：SMILExtract_Release -C “配置文件” -I “要处理的音频” -O “要保存特征向量的路径及文件名”
linux下：SMILExtract -C “配置文件” -I “要处理的音频” -O “要保存特征向量的路径及文件名”

3.1 官方配置文件

官方提供了许多常见特征集的配置文件，如MFCC，PLP，以及各大语音比赛中效果好的特征集。

3.2 MFCC特征

为了提取MFCC特征（兼容HTK），提供了以下四个文件（它们是以它们所代表的相应的HTK参数类型命名的）：
MFCC12_0_D_A.conf此配置从25毫秒的音频帧中提取梅尔频率倒谱系数（以10毫秒的速率采样）（汉明窗口）。它由26个Mel频带计算13个MFCC（0-12）组，并应用了一个权重参数为22的倒谱提升滤波器。13个一阶和13个二阶系数被附加到MFCC后。
MFCC12_E_D_A.conf此配置跟MFCC12_0_D_A.conf一样，但对数能量是只加在MFCC1-12上。
MFCC12_0_D_A_Z.conf这个配置跟MFCC12_0_D_A.conf配置一样，除了所有特征是参考整个输入序列进行了标准化。
MFCC12_E_D_A_Z.conf这个配置跟MFCC12_E_D_A.conf配置一样，除了所有特征是参考整个输入序列进行了标准化。
帧长为25ms,帧移为10ms，使用的汉明窗，预增强参数为0.97。由26个通过FFT功率谱计算的mel-滤波器组计算MFCC 0/1-12。MEL频谱的频率范围为0-8kHz，同时这些配置文件提供了-I,-O选项。输出文件格式是HTK参数文件格式。如果需要输出其他文件格式，你必须在配置文件中更改‘cHtkSink’组件类型为你想要的类型。命令行示例如下：

SMILExtract -C config/MFCC12_E_D_A.conf -I input.wav -O output.mfcc.htk

3.3 PLP特征

用于提取PLP倒谱系数（PLP-CC）（与HTK兼容）以下四个文件（它们是以它们所代表的相应的HTK参数类型命名的）：
PLP_0_D_A.conf该配置从25 ms长音频（以10ms的速率采样）帧提取Mel频率倒谱系数（汉明窗口）。它从26个Mel频带，并使用预测阶数为5计算6个PLP（0-5），并应用了一个权重参数为22的倒谱提升滤波器。6个一阶和6个二阶系数被附加到PLP-CC后。
PLP_E_D_A.conf该配置与PLP_0_D_A.conf相同，但对数能量是只加在PLP1-12上。
PLP_0_D_A_Z.conf此配置与PLP_0_D_A.conf相同，除了所有特征是参考整个输入序列进行了标准化。
PLP_E_D_Z.conf此配置与PLP_E_D_A.conf相同，除了所有特征是参考整个输入序列进行了标准化。
帧长为25ms,帧移为10ms，使用的汉明窗，预增强参数为0.97。由26个通过FFT功率谱计算的听觉mel-滤波器组(压缩系数为0.33)计算PLP 0/1-5。线性预测器的预测阶数为5。MEL频谱的频率范围为0-8kHz，同时这些配置文件提供了-I,-O选项。输出文件格式是HTK参数文件格式。如果需要输出其他文件格式，你必须在配置文件中更改‘cHtkSink’组件类型为你想要的类型。命令行示例如下：

SMILExtract -C config/PLP_E_D_A.conf -I input.wav -O output.plp.htk

3.4 情感特征集

自openSMILE在openEAR的项目EWS09情感识别中被使用，openSMILE提供了各种情感识别的标准特征集。
The INTERSPEECH 2009 Emotion Challenge feature set（参见[SSB09]）由配置文件config/emo IS09.conf提供。它包含对LLDs应用统计函数得到的384个特征。该特征被保存在Arff格式（针对WEKA），新的实例会被附加到一个已存在文件（这是用于批处理，其中openSMILE被反复调用从多个文件提取特征到单个特征文件）。出现在Arff文件中16个低级描述符（LLDs）的名称，见下面的列表：

pcm_RMSenergy 信号帧均方根能量
mfcc 梅尔频率倒谱系数1-12
Pcm_zcr 时间信号的过零率（基于帧）
voiceProb 从ACF计算的发声概率。
F0 从倒谱计算的基频

附加到低级描述符名称的后缀_sma表示它们是通过窗口长度为3的移动平均滤波器进行平滑。附加到sma的后缀_de表示当前特征是低级描述符平滑后的一阶delta系数（微分）。

max 轮廓的最大值
min 轮廓的最小值
range = max- min
maxPos 最大值的绝对位置（以帧为单位）
minPos 最小值的绝对位置（以帧为单位）
amean 轮廓的算术平均值
linregc1 轮廓线性逼近的斜率（m）
linregc2 轮廓线性逼近的偏移量（t）
linregerrQ 计算的二次误差作为线性近似值和实际轮廓的差值
stddev 轮廓上的值的标准偏差
skewness 偏度（3阶矩）
kurtosis 峰度（4阶矩）

The INTERSPEECH 2010 Paralinguistic Challenge feature set（见2010年INTERSPEECH会议论文集）由配置文件config/IS10_paraling.conf提供。该集包含的1582个特征是由34个低级描述符（LLDs）和34个相应的delta作为68个LLDs轮廓值，在此基础上应用21个函数得到1428个特征，另外，对4个基于音高的LLD及其4个delta系数应用了19个函数得到152个特征，最后附加音高（伪音节）的数量和总数输入的持续时间（2个特征）。
该特征被保存在Arff格式（针对WEKA），新的实例会被附加到一个已存在文件（这是用于批处理，其中openSMILE被反复调用从多个文件提取特征到单个特征文件）。出现在Arff文件中34个低级描述符（LLDs）的名称，见下面的列表：

pcm_loudness  归一化强度提高到0.3的幂的响度
mfcc  美尔频率倒谱系数0-14
logMelFreqBand  梅尔频带的对数功率0-7（分布范围内从0到8 kHz）
lspFreq  从8个LPC系数计算出的8个线谱对频率。
F0finEnv  平滑的基频轮廓线。
voicingFinalUnclipped  最终基频候选的发声概率。Unclipped的意思是，当其低于浊音阈值时，它不被设置为零。

附加到低级描述符名称的后缀_sma表示它们是通过窗口长度为3的移动平均滤波器进行平滑。附加到sma的后缀_de表示当前特征是低级描述符平滑后的一阶delta系数（微分）。出现在Arff文件中的21个函数的名字,均在以下列表中：

maxPos  最大值的绝对位置（以帧为单位）
minPos  最小值的绝对位置（以帧为单位）
amean  轮廓的算术平均值
linregc1  轮廓线性逼近的斜率（m）
linregc2  轮廓线性逼近的偏移量（t）
linregerrA  把线性误差计算作为线性近似值和实际的轮廓的误差
linregerrQ  把二次误差计算作为线性近似值和实际的轮廓的误差
stddev  轮廓中的值的标准偏差
skewness  偏度（3阶矩）。
kurtosis 峰度（4阶矩）。
quartile1  第一四分位数（25％百分位数）
quartile2  第一四分位数（50％百分位数）
quartile3  第一四分位数（75％百分位数）
iqr1-2  四分位数间距：quartile2- quartile1
iqr2-3  四分位数间距：quartile3- quartile2
iqr1-3  四分位数间距：quartile3- quartile1
percentile1.0  轮廓的离群值鲁棒最小值，按1％百分位数表示。
percentile99.0  轮廓的离群值鲁棒最大值，按99％百分位数表示。
pctlrange0-1  由1％和99％的百分点的范围表示的离群值鲁棒信号范围“max-min”。
upleveltime75  信号超过（75％*范围+min）的时间百分比。
upleveltime90  信号超过（90％*范围+min）的时间百分比。

四个音高相关的LLD（及相应的delta系数）如下（清音区域均为0，因此功能仅适用于这些轮廓的浊音区域）：

F0final  平滑的基频频率
jitterLocal  本地（帧到帧）抖动（音调周期长度偏差）
jitterDDP  差分帧间抖动（‘Jitter of the Jitter’）
shimmerLocal  本地（帧到帧）闪烁（音调周期幅度偏差）

对这4 + 4个LLD应用了19个函数，即上述21个函数的集合没有最小值（1％百分位数）和范围。

The INTERSPEECH 2011 Speaker State Challenge feature set（见2011年INTERSPEECH会议论文集）由配置文件config/IS11_speake_state.conf提供。该集包含的4368个特征是由4个能量相关+50个频谱相关的低级描述符（LLDs）和54个相应的delta作为108个LLDs，在此基础上应用33个基本函数+平均值、最小值、最大值、标准差得到3996个特征；5个声音相关和5个对应的delta作为10个LLDs，在此基础上应用33个基本函数+二次平均、上升时长、下降时长得到360个特征；6个F0基本函数和对应的delta，12个特征。

The INTERSPEECH 2012 Speaker Trait Challenge feature set（见2012年INTERSPEECH会议论文集）由配置文件config/IS12_speake_trait.conf提供。该集包含的6125个特征。
The INTERSPEECH 2013 ComParE Challenge feature set （见2013年INTERSPEECH会议论文集）由配置文件config/IS13_ComParE.conf提供。该集包含的6373个特征，LLD包括能量，频谱，倒谱（MFCC）、声音、对数谐波噪声比（HNR），频谱谐度和心理声学频谱清晰度。

The MediaEval 2012 TUM feature set for violent video scenes detection 针对好莱坞流行电影的暴力进行检测的特征集在config/mediaeval2012_tum_affect/，里面有不同的设置，参考文章：Florian Eyben, Felix Weninger, Nicolas Lehment, Gerhard Rigoll, Björn Schuller: ”Violent Scenes Detection with Large, Brute-forced Acoustic and Visual Feature Sets”, Proc. MediaEval 2012 Workshop, Pisa, Italy, 04.-05.10.2012.

MediaEval Audio IS12based subwin2.conf包含的是从2s的子窗中提取音频特征的配置。MediaEval Audio IS12based subwin2 step0.5.conf提取一样的特征，但是2s子窗的偏移为0.5s。MediaEval VideoFunctionals.conf用于视频特征提取，如文章使用方法，需要一个包含LLDs的CSV文件（由openCV提取）作为输入和输出，ARFF文件作为视频特征。

The openSMILE/openEAR ‘emobase’ set早期的基线集（参照”emobase2”集作为新的基线集），拥有情感识别的998个声学特征，包含以下低级描述符（LLDs）：强度，响度，12 MFCC，音高（F0），浊音概率，F0包络线，8 LSF（线频谱频率），过零率，以及这些LLD的Delta回归系数。以下函数被应用于上述LLDs及其Delta系数。：Max./Min。输入的相对位置和范围，范围，算术平均值，2线性回归系数，线性和二次误差，标准差，偏度，峰度，四分位数1-3和三位四分位数范围。

The large openSMILE emotion feature set用于提取更多的LLDs和更多的函数(6552个特征)，配置文件为config/emo_large.conf。

The openSMILE ‘emobase2010’ reference set 是基于the INTERSPEECH 2010 Paralinguistic Challenge feature set，配置文件为config/emobase2010.conf。
对持续时间和位置特征的规范化进行了一些调整。这个特性集包含了一套大大增强的低级描述符(LLDs)，以及一套“emobase”相比更加精细化选择的函数列表。建议使用此特征集作为比较新的情感识别特征集和方法的参考，因为它代表当前最先进的情感和语言识别功能。
该集合包含1582个特征（与INTERSPEECH 2010 Paralinguistic 挑战集相同设置），其由34个低级描述符（LLDs）和34个相应的delta作为68个LLDs轮廓值，在此基础上应用21个函数得到1 428个特征，另外，对4个基于音高的LLD及其4个delta系数应用了19个函数得到152个特征，最后附加音高（伪音节）的数量和总数输入的持续时间（2个特征）。唯一的区别是INTERSPEECH 2010 paralinguistic挑战集标准化的是是“maxPos”和“minPos”特征，本配置被标准化为段长度。

4. python批处理提取openSMILE特征

所有支持标准数据输出格式的配置文件都可以在WINDOWS的批特征提取GUI（使用VS10 C#编写，位于progsrc/openSMILEbatchGUI/）。这个工具允许openSMILE自动的执行文件夹中的若干文件。它可以在图形界面中选择音频文件和指定输出类型。
openSMILE本身提供批处理GUI（使用VS10 C#编写，位于progsrc/openSMILEbatchGUI/），但若语音数据的目录结构较复杂，还可以利用python来进行批处理。示例代码如以下：

import os
from subprocess import call

def excute_CMD(path_ExcuteFile, path_Config, path_Audio, path_Output):
    cmd = path_ExcuteFile + " -C " + path_Config + " -I " + path_Audio + " -O " + path_Output
    call(cmd, shell=True)


def batch_extract_features(path_Config, path_Input_Root, path_Output):
    path_ExcuteFile = "SMILExtract_Release"

    filename = os.listdir(path_Input_Root)
    for i in range(len(filename)):
        print('Extracting features of %s' % filename[i])
        path_Input = path_Input_Root + '/' + filename[i] + '.wav'

        excute_CMD(path_ExcuteFile, path_Config, path_Input, path_Output)


path_Config = "./config/IS13_ComParE.conf"
path_Input_Root = 'root_path_to_audio/'
path_Output = 'features.csv'
batch_extract_features(path_Config, path_Input_Root, path_Output)

5. 输出数据格式控制

对于不包含统计函数的配置文件，选项定义在config/shared/standard_data_output_lldonly.conf.inc

==============================LLD only=============================
================================CSV================================
-csvoutput  默认输出选项. CSV格式，存放帧向LLD
-appendcsv <0/1> 设为1代表添加到已有CSV文件文末，默认0
-timestampcsv <0/1> 设为0禁止把时间步输出到CSV第二列，默认为1
-headercsv <0/1> 设为0禁止把标题输入到CSV，默认为1
================================HTK================================
-output  输出特征汇总（函数）到HTK格式文件
================================ARFF===============================
-arffoutput  默认输出选项. ARFF格式，存放帧向LLD
-appendarff <0/1> 设为0代表不添加到已有ARFF文件文末，默认1添加
-timestamparff <0/1> 设为0禁止把时间步输出到ARFF第二列，默认为1
arfftargetsfile 指定配置包含定义目标域（类）的文，默认为:shared/arff_targets_conf.inc

对于包含统计函数的配置文件，如全部的INTERSPEECH和AVEC挑战集，选项定义在config/shared/standard_data_output.conf.inc

=============================LLD and func =========================
-instname  通常是输入文件的名称保存在CSV和ARFF输出的首列。默认是"unknow"
================================ARFF===============================
-lldarffoutput, -D  启动LLD帧向输出到ARFF格式文件
-appendarfflld <0/1> 设为1代表添加到已有ARFF文件文末，默认0覆盖
-timestamparfflld <0/1> 设为0禁止把时间步输出到ARFF第二列，默认为1
-lldarfftargetsfile  指定配置包含定义目标域（类）的文，默认为: shared/arff_targets_conf.inc
================================CSV================================
-lldcsvoutput, -D   启动LLD帧向输出到CSV格式文件
-appendcsvlld <0/1> 设为1代表添加到已有CSV文件文末，默认0覆盖
-timestampcsvlld  <0/1> 设为0禁止把时间步输出到CSV第二列，默认为1
-headercsvlld <0/1> 设为0禁止把标题输入到CSV，默认为1
================================HTK================================
-lldhtkoutput  启动LLD帧向输出到HTK格式文件
================================ARFF===============================
-output, -O  默认输出选项. ARFF格式，存放特征汇总
-appendarff <0/1> 设为0代表不添加到已有ARFF文件文末，默认1添加 
-timestamparff <0/1> 设为1把时间步输出到ARFF第二列，默认为0
-arfftargetsfile 指定配置包含定义目标域（类）的文，默认为: shared/arff_targets_conf.inc
================================CSV================================
-csvoutput  默认输出选项. CSV格式，存放特征汇总
-appendcsv <0/1> 设为0代表不添加到已有CSV文件文末，默认1
-timestampcsv <0/1> 设为0禁止把时间步输出到CSV第二列，默认为1
-headercsv <0/1> 设为0禁止把标题输入到CSV，默认为1
================================HTK================================
-htkoutput  输出特征汇总（函数）到HTK格式文件

如下为lldcsvoutput的定义。注：从2.2版本起，可以指定一个“?”替代文件名。它会禁止相应的输出组件，即它不会产生输出文件，在标准输出接口界面，看到的所有的文件名默认都是”?”

[lldsink:cCsvSink]
reader.dmLevel = lld;lld_de
filename=\cm[lldcsvoutput(D){?}:output csv file for LLD, disabled by default ?, only written if filename given]
instanceName=\cm[instname(N){unknown}:instance name]
append = \cm[appendcsvlld{0}:set to 1 to append to the LLD output csv file, default is not to append]
timestamp = \cm[timestampcsvlld{1}:set to 0 to suppress timestamp column, default is 1, i.e. to show timestamp in second column]
number = 0
printHeader = \cm[headercsvlld{1}:set to 0 to suppress header line with feature names, default is 1, i.e. to show header line]
errorOnNoOutput = 1

那么，当需要同时输出lld和func时，可用如下命令
SMILExtract -C config/IS13_ComParE.conf -I input.wav -lldcsvoutput lld_output.csv -csvoutput func_output.csv

6. 最后一点话

其实如果只是用官方配置提特征那么只看批处理那里也够了。官方配置文件可以根据需求时再看需要哪个文件，也可自己按着这个格式自定义编写配置文件。另外输出格式控制感觉最好也是先看一下，我一开始都是直接用 -O 输出统计特征，但想输出lld时跑去源代码里一阵捣鼓，后来才发现它已经封装好了直接一个参数就可以了。

参考文献

https://zhuanlan.zhihu.com/p/69170521

Android 开源组件和第三方库汇总 gyyzzr Android Android 开源框架
转载1、github排名https://github.com/trending,github搜索：https://github.com/search2、https://github.com/wasabeef/awesome-android-ui目录UIUI卫星菜单节选器下拉刷新模糊效果HUD与Toast进度条UI其它动画网络相关响应式编程地图数据库图像浏览及处理视频音频处理测试及调试动态更新热更新
ThinkSound V2版 - 一键给无声视频配音，为AI视频生成匹配音效支持50系显卡一键整合包下载昨日之日2006 ai语音音视频人工智能
ThinkSound是阿里通义实验室开源的首个音频生成模型，它能够让AI像专业“音效师”一样，根据视频内容生成高度逼真、与视觉内容完美契合的音频。ThinkSound可直接应用于影视后期制作，为AI生成的视频自动匹配精准的环境噪音与爆炸声效；服务于游戏开发领域，实时生成雨势变化等动态场景的自适应音效；同时可以无障碍视频生产，为视障用户同步生成画面描述与环境音效。今天分享的ThinkSoundV2版
cvc降噪和主动降噪_音频知识：CVC降噪和ANC主动降噪的区别和应用汪国 cvc降噪和主动降噪
原标题：音频知识：CVC降噪和ANC主动降噪的区别和应用降噪，对于需要长时间戴耳机的人群来讲，起到了很好的保护作用。然而在购买蓝牙耳机时总会听到商家在宣传耳机所具备的CVC、ANC降噪功能，尽管听过很多商家描述，有些小伙伴依然不是很明白这两者之间的区别以及应用。现在简单和大家介绍这两个看不懂的降噪名词。CVC降噪(ClearVoiceCapture)是通话软件降噪技术。工作原理是是通过耳机内置的消
被动降噪的概念及编程实现 CodeByte 人工智能算法 javascript 编程
被动降噪是指通过编程技术和算法，对输入的数据进行处理，以减少或消除其中的噪声。噪声可以是各种形式的干扰，例如来自传感器、通信信号或其他外部源的干扰。在本文中，我们将探讨被动降噪的意义以及如何使用编程来实现这一目标。被动降噪的意义：噪声对数据的准确性和可靠性产生负面影响。在许多应用领域，例如图像处理、音频处理和信号处理中，噪声的存在可能导致数据质量下降，使得后续的分析和处理变得困难。因此，被动降噪技
音频被动降噪技术悟空胆好小音频相关音视频
音频被动降噪技术音频被动降噪技术是一种通过物理结构和材料设计来减少或隔离外部噪声的降噪方式，其核心原理是通过物理屏障或吸声材料来阻断或吸收声波，从而降低环境噪声对听觉体验的影响。以下将从技术原理、应用场景、优缺点及与其他降噪技术的对比等方面进行详细分析。一、被动降噪技术的原理被动降噪技术（PassiveNoiseCancellation,PNC）主要依赖于耳机的物理结构和材料设计，通过以下几种方式
AnythingLLM教程系列之 09 AnythingLLM 支持自定义音频转录提供程序知识大胖 NVIDIA GPU和大语言模型开发教程 llama3 anythingllm llm
什么是AnythingLLM?AnythingLLM是最易于使用的一体化AI应用程序，可以执行RAG、AI代理等操作，且无需任何代码或基础设施难题。您需要为您的企业或组织提供一款完全可定制、私有且一体化的AI应用程序，该应用程序基本上是一个具有许可的完整ChatGPT，但具有任何LLM、嵌入模型或矢量数据库。如何安装《无需任何代码构建自己的大模型知识库：AnythingLLM最易于使用的一体化AI
UnrealEngine5游戏引擎实践（C++) KENYCHEN奉孝 C++服务器 c++游戏引擎
目录目录目录UnrealEngine是什么？UnrealEngine5简介核心技术特性应用场景扩展兼容性与生态系统UnrealEngine安装下载EpicGamesLauncher启动UnrealEngine选择安装版本和路径选择组件开始安装验证安装配置项目模板（可选）更新和插件管理UE游戏引擎动作捕捉与动画系统程序化生成与AI技术物理与破坏系统音频与本地化技术性能优化导入静态网格体材质实例创建与
chatgpt赋能python：Python音频降噪处理：使用Python减少噪音并提升声音质量
Python音频降噪处理：使用Python减少噪音并提升声音质量在日常生活中，使用音频通信是非常普遍的。但是，由于各种原因，我们可能会遇到许多噪音干扰，从而降低语音质量并影响通信的效果。为了解决这个问题，我们可以使用Python来降噪音。什么是音频降噪处理？我们每天听到的声音都是由许多不同频率的声音波形组成的。噪音是指在声音中添加了其他频率的声音波形。这些声音可以是来自电器的嗡嗡声、风扇或其他背景
Java实现项目1——弹射球游戏 lemon_sjdk Java实战项目 java 游戏 windows
项目：弹射球游戏项目描述：类似于乒乓球的游戏，游戏可以播放背景音乐，可以更换背景图，当小球碰到下面的挡板后会反弹，当小球碰到方块后会增加分数，当小球掉落会导致游戏失败，按下esc键游戏会暂停，音乐会停止播放，运行时会新建一个music文件夹，文件夹内放入任何音频文件都将作为背景音乐播放项目代码packageorg.example;importcom.google.common.base.Throw
全球DeepFake攻防挑战赛&DataWhale AI 夏令营——图像赛道 czijin 人工智能 deep learning
全球DeepFake攻防挑战赛&DataWhaleAI夏令营——图像赛道赛题背景随着人工智能技术的迅猛发展，深度伪造技术（Deepfake）正成为数字世界中的一把双刃剑。这项技术不仅为创意内容的生成提供了新的可能性，同时也对数字安全构成了前所未有的挑战。Deepfake技术可以通过人工智能算法生成高度逼真的图像、视频和音频内容，这些内容看起来与真实的毫无二致。然而，这也意味着虚假信息、欺诈行为和隐
使用Python实现WebRTC MznkCloud python webrtc 开发语言 WebRTC
WebRTC是一种开放的实时通信协议，它允许浏览器之间进行音频、视频和数据的实时传输。在本文中，我们将使用Python来实现一个基本的WebRTC应用程序，以便展示如何在浏览器之间建立实时通信。WebRTC的实现通常涉及两个主要组件：信令服务器和媒体服务器。信令服务器用于建立连接和交换元数据，而媒体服务器用于传输音频、视频和数据流。我们将使用Python中的Flask框架作为我们的信令服务器，并使
【论文阅读】Transfer Learning for Automatic Modulation Recognition Using a Few Modulated Signal Samples
摘要：这封信提出了一种用于自动调制识别（AMR）的迁移学习模型，该模型仅具有少量调制信号样本。传输模型以音频信号UrbanSound8K作为源域进行训练，然后以一些调制信号样本为目标域进行微调。为了提高分类性能，信噪比（SNR）被用作一个功能来促进信号的分类。仿真结果表明，迁移模型在分类精度方面具有显著优势。这篇文章的核心内容是提出了一种基于迁移学习（TransferLearning）的自动调制识
DMA技术与音频数据的存储和播放曹小满2579 Android基础音视频 Android
基本概念采样率：每秒采集的采样点次数。如480000HZ，就是我们常见的48KHZ采样点(Sample)：每一个采样点代表一个时间点的声音幅度值。对于立体声，每个采样点包含了两个声道(左声道，右声道)的数据。帧：一帧就是一个时刻采集的数据，如果音频是立体声则会产生2个采样点，如果是更复杂的比如5.1，则会产生更多的采样点。例如PCM数据是48KHZ，16bit的，立体声，则一秒的PCM数据有48K
ASMR助眠软件：开启宁静夜晚，拥抱甜美梦境东风西巷智能手机软件需求 android
在快节奏的现代生活中，睡眠问题已成为许多人面临的难题。无论是工作压力、生活琐事还是电子设备的干扰，都可能让我们难以入睡。为了帮助那些受困于失眠和睡眠障碍的用户，ASMR助眠软件应运而生。它通过多种舒缓的声音和精心设计的音频内容，为用户提供了一个放松身心、安然入睡的环境，成为改善睡眠质量的贴心伴侣。软件特色多样化的音乐库ASMR助眠软件内含多种类型的声音素材，涵盖白噪音、自然音效及轻音乐等，满足不同
芯谷科技--双运算放大器D4558 Silicore_Emma 科技运算放大器音频放大音频设备医疗仪器
在现代电子系统中，运算放大器作为信号处理的核心元件，其性能直接影响到整个系统的稳定性和精度。D4558双运算放大器，凭借其卓越的性能和广泛的应用适配性，为工程师提供了可靠的信号处理解决方案。产品简介D4558是一款由两个高性能运算放大器组成的集成电路，具有高增益、低噪声、高输入阻抗、优秀的通道分离度、宽工作电压范围和内部频率补偿等特点。它支持双电源或单电源工作模式，主要应用于音频信号放大、有源滤波
【AI大模型前沿】OmniAudio：阿里通义实验室的空间音频生成模型，开启沉浸式体验新时代寻道AI小兵 AI大模型 -前沿技术追踪人工智能音视频开源 AIGC 语言模型
系列篇章No.文章1【AI大模型前沿】深度剖析瑞智病理大模型RuiPath：如何革新癌症病理诊断技术2【AI大模型前沿】清华大学CLAMP-3：多模态技术引领音乐检索新潮流3【AI大模型前沿】浙大携手阿里推出HealthGPT：医学视觉语言大模型助力智能医疗新突破4【AI大模型前沿】阿里QwQ-32B：320亿参数推理大模型，性能比肩DeepSeek-R1，免费开源5【AI大模型前沿】TRELLI
MAXCC可编程中控集成音频处理器功能全解析 geffen1688 中控主机 3d web3 css3 avs3
格芬MAXCC可编程中控集成音频处理器功能全解析一、技术架构与核心功能格芬MAXCC可编程中控矩阵一体机（如GF-MIXCC系列）通过高度集成化设计，将中控系统、音频矩阵、视频矩阵及环境控制功能融为一体，其音频处理能力尤为突出：音频矩阵与混音功能8进8出音频矩阵：支持Dante网络音频传输，采样率达24bit/48KHz，配备高性能A/DD/A转换器和32-bit浮点DSP处理器，确保音频信号的高
无缝矩阵支持音频分离带画面分割功能的全面解析 geffen1688 分类分布式
一、技术原理与实现方式1. 音频分离技术核心功能：HDMI无缝矩阵通过硬件或软件实现音频加嵌与分离功能，支持多设备音频的独立处理与增强。实现方式：音频加嵌：将外部音频信号（如麦克风、调音台）嵌入HDMI信号中传输，适用于家庭影院、会议系统等场景。音频分离：将HDMI信号中的音频独立输出至外部设备（如音响、音频处理器），支持多通道数字音频的交叉切换。技术支撑：采用32bitARM核心芯片（
ESP32 S3音频开发
1.音频硬件框架Codec：音频编解码芯片，一种低功耗单声道音频编解码器，包含单通道ADC、单通道DAC、低噪声前置放大器、耳机驱动器、数字音效、模拟混音和增益功能。它通过I2S和I2C总线与ESP32-S3-WROOM-1模组连接，以提供独立于音频应用程序的。PA：音频功率放大器，用于放大来自音频编解码芯片的音频信号，以驱动扬声器。2.音频软件框架ESP32提供了几个简单的高级API，可以参考例
ESP32-S3 I2S音频开发实战指南薛慕昭音视频
目录前言I2S简介TDM通信模式(标准)PDM通信模式.对比总结为什么要学习I2SPCM原始数据I2S录制声音I2S播放声音WAV音频WAV文件头结构（44字节）解析wav格式数据struct.unpack的基本用法格式化字符串(fmt)示例1：解析单个值示例2：解析多个值示例3：解析混合类型示例4：解析字符串示例5：解析WAV文件头注意事项总结实操演练保存wav格式数据结语前言在智能硬件和物联网
SAiD：基于扩散的音频驱动语音动画
SAiD：基于扩散的音频驱动语音动画SAiDSAiD:Blendshape-basedAudio-DrivenSpeechAnimationwithDiffusion项目地址:https://gitcode.com/gh_mirrors/said/SAiDSAiD是一个基于扩散的音频驱动语音动画的开源项目，它通过音频信号控制面部表情，实现逼真的语音动画效果。项目介绍SAiD（Speech-driv
【亲测免费】探索AudioSlicer：智能音频分割工具秦贝仁Lincoln
探索AudioSlicer：智能音频分割工具去发现同类优质开源项目:https://gitcode.com/项目介绍AudioSlicer是一个基于Python的轻量级工具，专门用于切割.wav音频文件。它通过检测静音段将音频拆分成多个独立样本，并生成一个.json文件，详细记录了每个切片的时间范围。该项目灵感源自AndrewPhillipDoss的工作，现在正向着人工智能适应的方向发展，有望实现
ESP32设备驱动——使用I2S播放音频的物联网应用 JmwvOverflow 音视频物联网
在物联网应用中，使用嵌入式设备进行音频播放是一个常见的需求。ESP32是一款功能强大的嵌入式开发板，它集成了Wi-Fi和蓝牙功能，适用于物联网应用。本文将介绍如何在ESP32上使用I2S（Inter-ICSound）接口来播放音频。I2S是一种串行音频接口，用于高质量音频数据的传输。ESP32的I2S接口可以直接与音频编解码器、数字信号处理器（DSP）等设备连接，实现音频的输入和输出。下面我们将逐
ESP32播放网络音乐与麦克风接收魔法少女郭德纲* 单片机 iot 物联网
本文使用esp32结合MAX98357音频放大器模块播放网络音乐,同时用INMP441模块作为语音输入进行测试第一部分：播放网络音乐需要用到esp32开发板、MAX98357模块、喇叭、连接线一、准备工作库安装1，首先到GITHUB下载「ESP32-audioI2S」https://github.com/schreibfaul1/ESP32-audioI2S/2，解压。3，把解压的文件放进Ardu
深入了解视频播放器工作原理与实现你一身傲骨怎能输独立游戏开发者宝典视频播放器
下面我会用通俗易懂的方式，结合技术细节，带你深入了解视频播放器的工作原理与实现。内容分为两部分：视频播放器的整体工作流程（原理）主要技术模块的实现思路和常用方案一、视频播放器的整体工作原理我们可以把视频播放器比作一个“放映机”，它的主要任务是：把存储在本地或网络上的视频文件，经过一系列处理，最终在屏幕上流畅地播放出来，并同步音频。1.获取视频源本地播放：直接读取本地文件（如MP4、MKV等）。网络
Python MoviePy详解：从入门到实战的视频编辑指南 detayun Python python 音视频开发语言
一、MoviePy核心特性与优势MoviePy是一个基于Python的开源视频编辑库，其核心设计理念是基于时间的函数式组合。与传统视频编辑软件不同，它将视频视为可动态计算的函数集合，每个视频剪辑（Clip）本质上是一个时间函数F(t)，返回指定时间点的图像帧或音频样本。这种设计赋予了开发者极大的灵活性：动态内容生成通过定义make_frame函数，可实现完全程序化的视频生成。例如：defgener
Python PyDub详解：音频处理从未如此简单 detayun Python python 音视频开发语言
引言在Python生态中，PyDub以其简洁的设计和强大的功能，成为音频处理领域的后起之秀。这个由罗伯特·约翰逊主导开发的开源库，通过封装FFmpeg/Libav底层能力，为开发者提供了"不愚蠢"的音频处理方式。本文将带您系统掌握PyDub的核心用法，从环境搭建到高级应用，解锁音频处理的无限可能。安装与配置快速安装pipinstallpydub依赖管理FFmpeg安装指南：Windows：通过FF
如何选择优质的在线培训系统 web_liyu 大数据
在互联网+快速发展的时代背景下，在线培训以其高效便捷的特点，成为众多企业的首选培训方式。市面上所广泛使用的在线培训系统大多结合了在线教学评估与传统模式，涵盖了视频、音频、动画、文档等多种形式，使得管理者能够高效地组织培训工作，而学习者则可以随时随地进行学习和参加考试，最终构建出一套完整的教学评估体系。企业如何选择在线培训系统？面对琳琅满目的在线培训系统，企业如何做出明智的选择？一个优质的在线培训系
数据集全解析：从基础概念到实践应用的完整指南
数据集全解析：从基础概念到实践应用的完整指南一、数据集的本质与核心价值1.1数据集的定义与范畴数据集（Dataset）是按照特定格式组织的一组数据的集合，它可以是结构化数据（如关系型数据库中的表格）、半结构化数据（如JSON、XML文件）或非结构化数据（如图像、文本、音频、视频等）。从表现形式看，数据集可以是一个文件（如CSV、Excel表格）、一个数据库表，也可以是分布式存储的海量数据集合（如H
使用Java实现MP3音乐播放器
原文链接：http://www.cnblogs.com/haoxia/archive/2009/06/03/1495419.html使用Java实现MP3音乐播放器JavaSound是一个小巧的低层API，支持数字音频和MIDI数据的记录/回放。在JDK1.3.0之前，JavaSound是一个标准的Java扩展API，但从Java2的1.3.0版开始，JavaSound就被包含到JDK之中。由于J
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发