栋次大次

语音信号特征处理--Fbank\MFCC

- 数字信号处理基础
- - 模拟信号转化为数字信号（ADC）
  - 频率混叠
  - 奈奎斯特采样定理
  - 离散傅里叶变换
- Fbank和MFCC特征提取
- - - step1：预加重
    - step2：加窗分帧
    - step3：DFT
    - step4：梅尔滤波器组和对数操作
    - 动态特征计算
- 总结
- Fbank和MFCC样例代码

代码地址：（6.1号发布）

数字信号处理基础

模拟信号转化为数字信号（ADC）

现实生活中遇到的大多数信号都是连续信号，而计算机只能处理离散信号，因此需要通过采样量化转化为数字信号。

以正弦波为例， $x(t)=sin(2\pi f_0t)$ ，其中 $f_0$ 是信号本身的频率，单位Hz。若我们对其每间隔 $t_s$ 秒进行一次采样，并使用一定范围的离散数值表示采样值，则得到采样后信号 $x(n)=sin(2\pi f_0nt_s)$ ， $t_s$ 为采样周期， $f_s=1/t_s$ 采样频率， $n = 0, 1 . . .$ 为离散整数序列。

问题：如果给定一个正弦波采样后的序列，可以唯一恢复出一个连续的正弦波吗？

频率混叠

不同频率的正弦波，经采样后，完全有可能出现相同的离散信号，为什么？
$\begin{aligned} & x(n)=\sin \left(2 \pi f_{0} n t_{s}\right) \\ =& \sin \left(2 \pi f_{0} n t_{s}+2 \pi m\right) \\ =& \sin \left(2 \pi\left(f_{0}+\frac{m}{n t_{s}}\right) n t_{s}\right) \end{aligned}$

如果 $m = k n$ ，k为整数（一般为常数），因为n为整数，m也是整数，若m=kn满足，则k必须为整数。替换以上公式为：
$\mathrm{x}(\mathrm{n})=\sin \left(2 \pi\left(\mathrm{f}_{0}+\mathrm{kf}_{\mathrm{s}}\right) \mathrm{nt}_{\mathrm{s}}\right)$

从公式可以看出原始频率 $f_0$ 和 $f_0+kf_s$ 两个信号对应的离散信号是相同的。这种现象是频率混叠，也解释了上述的问题。如何避免频率混叠？

奈奎斯特采样定理

采样频率大于信号中最大频率的两倍， $f_s / 2 \geq f_{max}$ ，即原始信号的一个周期内，至少要采样两个点，才能有效杜绝频率混叠问题。

问题：对一个采样率为16k的离散信号进行下采样，下采样到8k，为什么需要首先进行低通滤波？

根据奈奎斯特定律，采样率为16k的离散信号中可能存在频率不超过8k的信号，下采样到8k，音频中只允许存在最大频率不超过4kHz的信号，所以需要首先进行低通滤波，过滤掉超过4kHz的信号。

离散傅里叶变换

DFT将时域信号变换到频域，分析信号中频率成分，时域离散且周期的吸纳后可以进行DFT，非周期离散信号需要进行周期延拓。

DFT定义：给定一个长度为N的时域离散信号x(n)，对应的离散频域序列X(m)为： $\mathrm{X}(\mathrm{m})=\sum_{\mathrm{n}=0}^{\mathrm{N}-1} \mathrm{x}(\mathrm{n}) \mathrm{e}^{-\mathrm{j} 2 \pi \mathrm{nm} / \mathrm{N}}, \quad \mathrm{m}=0,1,2, \ldots N-1$ 。其中， $m = 0, 1, 2 . . . N - 1$ 为频率索引，X(m)为DFT的第m个输出。

根据欧拉公式，DFT的公式还可以为：
$\mathrm{X}(\mathrm{m})=\sum_{\mathrm{n}=0}^{\mathrm{N}-1} \mathrm{x}(\mathrm{n})\left[\cos \left(\frac{2 \pi \mathrm{nm}}{\mathrm{N}}\right)-\mathrm{j} \sin \left(\frac{2 \pi \mathrm{nm}}{\mathrm{N}}\right)\right]$
DFT本质上是一个线性变换： $\vec{X}=\boldsymbol{F} \vec{x}$
$\left[\begin{array}{c} X(0) \\ X(1) \\ X(2) \\ \vdots \\ X(N-1) \end{array}\right]=\left[\begin{array}{cccc} 1 & 1 & \cdots & 1 \\ 1 & e^{-j 2 \pi / N} & \cdots & e^{-j 2 \pi(N-1) / N} \\ 1 & e^{-j 2 \pi \cdot 2 / N} & \cdots & e^{-j 2 \pi \cdot 2(N-1) / N} \\ \vdots & \vdots & \vdots & \vdots \\ 1 & e^{-j 2 \pi \cdot(N-1) / N} & \cdots & e^{-j 2 \pi \cdot(N-1)(N-1) / N} \end{array}\right]\left[\begin{array}{c} x(0) \\ x(1) \\ x(2) \\ \vdots \\ x(N-1) \end{array}\right]$

DFT性质：

对称性，对于实数信号有， $\mathrm{X}(\mathrm{m})=\mathrm{X}^{*}(\mathrm{~N}-\mathrm{m})$ 。
证明:
$\mathrm{X}(\mathrm{N}-\mathrm{m})=\sum_{\mathrm{n}=0}^{\mathrm{N}-1} \mathrm{x}(\mathrm{n}) \mathrm{e}^{-\mathrm{j} 2 \pi \mathrm{n}(\mathrm{N}-\mathrm{m}) / \mathrm{N}}$
$=\sum_{\mathrm{n}=0}^{\mathrm{N}-1} \mathrm{x}(\mathrm{n}) \mathrm{e}^{-\mathrm{j} 2 \pi \mathrm{n} \mathrm{N} / \mathrm{N}} \mathrm{e}^{\mathrm{j} 2 \pi \mathrm{nm} / \mathrm{N}}=\sum_{\mathrm{n}=0}^{\mathrm{N}-1} \mathrm{x}(\mathrm{n}) \mathrm{e}^{-\mathrm{j} 2 \pi \mathrm{n}} \mathrm{e}^{\mathrm{j} 2 \pi \mathrm{nm} / \mathrm{N}}$

因为 $\mathrm{e}^{-\mathrm{j} 2 \pi \mathrm{n}}=\cos (2 \pi \mathrm{n})-\mathrm{j} \sin (2 \pi \mathrm{n})=1$
故X $(\mathrm{N}-\mathrm{m})=\sum_{\mathrm{n}=0}^{\mathrm{N}-1} \mathrm{x}(\mathrm{n}) \mathrm{e}^{\mathrm{j} 2 \pi \mathrm{nm} / \mathrm{N}}=\mathrm{X}^{*}(\mathrm{~m})$

这个性质很重要，DFT之后的离散频率序列的幅度具有对称性，因此在进行N点DFT之后，只需要保留前N/2+1个点。语音信号特征提取时，一般使用512点DFT，由于对称性，我们只需保留前257个有效点。

X(m)实际上表示的是"谱密度"，通俗的讲即单位带宽上有多少信号存在。如果对一个幅度为A实正弦波进行N点DFT，则DFT之后，对应频率上的幅度M和A之间的关系是： $M=\frac{A}{\frac{2}{N}}=\frac{A N}{2}$ 。
DFT的线性。如果 $\mathrm{x}_{\mathrm{sum}}(\mathrm{n})=\mathrm{x}_{1}(\mathrm{n})+\mathrm{x}_{2}(\mathrm{n})$ , 则对应的频域上有： $\mathrm{X}_{\mathrm{sum}}(\mathrm{m})=\mathrm{X}_{1}(\mathrm{~m})+\mathrm{X}_{2}(\mathrm{~m})$
时移性。对x(n)左移k个采样点, 得至 $\mathrm{x}_{\text {shift }}(\mathrm{n})=\mathrm{x}(\mathrm{n}-\mathrm{k})$ , 对 $\mathrm{x}_{\text {shift }}(\mathrm{n})$ 进行DFT，有 $\mathrm{X}_{\text {shift }}(\mathrm{m})=\mathrm{e}^{\frac{\mathrm{j} 2 \pi \mathrm{km}}{\mathrm{N}}} \mathrm{X}(\mathrm{m})$ 。

频率分辨率： $f_s / N$ ，表示最小的频率间隔。当N越大时，频率分辨率越高，在频域上，第m个点表示的分析频率为： $\mathrm{f}_{\text {analysis }}(\mathrm{m})=\frac{\mathrm{m}}{\mathrm{N}} \mathrm{f}_{\mathrm{s}}$ 。从这个角度，我们可以理解为X(m)的幅值体现了原信号中频率成分为 $\frac{\mathrm{m}}{\mathrm{N}} \mathrm{f}_{\mathrm{s}}$ 的信号强度。

为了提高DFT频率轴的分辨率，而不影响原始信号的频率成分。我们可以将时域长度为N的信号补0，增加信号的长度，从而提高频率轴的分辨率。如，在语音特征提取阶段，对于16k采样率的信号，一帧语音信号长度为400个采样点，为了进行512的FFT，通常将400个点补0，得到512个采样点，最后只需要前257个点。

快速傅里叶变换，基本思想是把原始信号的N点序列，以此分解成一系列的短序列。充分利用DFT计算式中指数因子具有的对称性和周期性，进而求出这些短序列相应的DFT并进行适当组合，达到删除重复计算，减少乘法运算和简化结构的目的。

Fbank和MFCC特征提取

提取流程：

$语音信号特征处理--Fbank\MFCC_第1张图片$

Fbank和MFCC特征目前仍是主要使用的特征，虽然有些工作尝试在语音识别任务上对波形建模，但是效果并没有超过基于频域的特征。

step1：预加重

为什么需要预加重？

提高信号高频部分的能量，高频信号在传递过程中，衰减较快，但是高频部分又蕴含很多对语音识别有利的特征。

预加重滤波器是一个一阶高通滤波器，给定时域输入信号 $x [n]$ ，预加重之后的信号为： $y[n]=x[n]-\alpha x[n-1]$ ，其中 $0.9\leq \alpha \leq 1.0$ 。

通俗解释：如果信号x是低频信号（变化缓慢），那么 $x [n]$ 和 $x [n - 1]$ 的值应该很接近，当 $\alpha$ 接近1的时候， $x[n]-\alpha x[n-1]$ 接近0，此信号的幅度将大大抑制；如果信号x是高频信号（变化很快）,那么 $x [n]$ 和 $x [n - 1]$ 的值相差很大， $x[n]-\alpha x[n-1]$ 的值不会趋近0，此信号的幅度还能保持。

$语音信号特征处理--Fbank\MFCC_第2张图片$

step2：加窗分帧

为什么需要加窗分帧？
- 语音信号是非平稳信号，其统计属性是随着时间变化的，以汉语为例，一句话中包含很多声母和韵母，不同的拼音，发音的特点也是明显不一样。
- 语音信号又具有短时平稳的特性，比如一个声母或者韵母，往往只会持续几十到几百毫秒，在一个发音单元里，语音信号表现出明显的稳定性，规律性。
- 在进行语音识别的时候，对于一句话，识别的过程是以较小的发音单元（音素，字，字节）为单位进行识别，因此采用滑动窗口提取短时片段。

一般对于采样率为16kHz的信号，帧长、帧移一般为25ms、10ms。

分帧的过程，在时域上，即用一个窗函数和原始信号进行相乘， $y [n] = w [n] x [n]$ ，常见的窗函数有矩形窗、汉明窗等。

问题：为什么不直接使用矩形窗？

加窗的过程实际上是在时域上将信号截断，窗函数与信号在时域相乘，就等于对应的频域表示进行卷积，矩形窗主瓣窄，但是旁瓣较大，将其与原始信号的频域进行卷积会导致频率泄露。

step3：DFT

将上一步分帧后的语音帧，由时域变换到频域，取DFT系数的模，得到谱特征。

过程:

加窗分帧
将每一帧信号进行DFT(FFT)，如第t帧，DFT系数为 $X_t(m)$ ,m=0,1,…N
将每一帧DFT的系数按照时间顺序排列，得到一个矩阵 $\in C^{T * N}, \quad$ 且 $Y[\mathrm{t}, \mathrm{m}]={X}_{\mathrm{t}}(\mathrm{m})$
语谱图是一个三维图，横轴表示时间(t)，纵轴表示频率，颜色的深浅表示当前频点上幅度的大小。

step4：梅尔滤波器组和对数操作

DFT得到了每个频带上信号的能量，但是人耳对频率的感知不是等间隔的，近似于对数函数。
将线性频率转化为梅尔频率，梅尔频率和线性频率的转换关系： $\operatorname{mel}(\mathrm{f})=2595 \log _{10}\left(1+\frac{\mathrm{f}}{700}\right)$
梅尔三角滤波器：根据起始频率、中间频率和截止频率，确定各滤波器系数：

$_{m}(k)=\left\{\begin{array}{l} \frac{k-f(m-1)}{f(m)-f(m-1)}, f(m-1) \leq kfilterbankm(k)={ f(m)−f(m−1)k−f(m−1),f(m−1)≤k<f(m)f(m+1)−f(m)f(m+1)−k,f(m)<k≤f(m+1)$

$语音信号特征处理--Fbank\MFCC_第3张图片$

梅尔滤波器组设计：

确定滤波器个数P
根据采样率 $f_s$ ，DFT点数N，滤波器个数P，在梅尔域上等间隔的产生每个滤波器的起始频率、中间频率和截止频率，注意，上一个滤波器的中间频率为下一个滤波器的起始频率。
将梅尔域上每个三角滤波器的起始、中间和截止频率转换为线性频率域，并对DFT之后的谱特征进行滤波，得到P个滤波器组能量，进行log操作，得到Fbank特征。

MFCC特征在Fbank特征的基础上继续进行IDFT变换等操作。

倒谱分析

频域信号可以分解为谱包络和谱细节的乘积，不同因素的谱包络和共振峰具有区分性。 $X [m] = H [m] E [m]$ 。
$语音信号特征处理--Fbank\MFCC_第4张图片$

$语音信号特征处理--Fbank\MFCC_第5张图片$

步骤：

$∣ X [m] ∣ = ∣ H [m] ∣ ∣ E [m]$
$l o g ∣ X [m] ∣ = l o g ∣ H [m] ∣ + l o g ∣ E [m] ∣$
两边进行IDFT（此处为DCT变换）
IDFT之后的第1~K个点，为k维MFCC特征， $c[k]=\sum_{m=0}^{N-1}(\log |X[m]|) e^{j 2 \pi m k / N}$ 。

取log有两个目的：1. 人耳对信号感知是近似对数的；2. 对数使特征对输入信号的扰动不敏感。

动态特征计算

一阶差分，类比速度：

$\Delta(\mathrm{t})=\frac{\mathrm{c}(\mathrm{t}+1)-\mathrm{c}(\mathrm{t}-1)}{2}$

二阶差分，类比加速度：

$\Delta \Delta(\mathrm{t})=\frac{\Delta(\mathrm{t}+1)-\Delta(\mathrm{t}-1)}{2}$

能量计算： $\mathrm{e}=\sum \mathrm{x}^{2}[\mathrm{n}]$

总结

MFCC一般常用39维：

12维原始MFCC
12维 $\Delta$
12维 $\Delta \Delta$
1维能量
1维能量 $\Delta_e$
1维能量 $\Delta \Delta_e$

MFCC特征一般用于GMM训练，各维度之间相关性小，Fbank特征一般用于DNN训练，端到端语音识别系统中多数使用Fbank特征。

Fbank和MFCC样例代码

Fbank特征提取：

确定滤波器组作用的最高频率以及最低频率
根据滤波器数量，确定每一个滤波器中心频率大的值
将滤波器组中心频率对应的梅尔刻度转化为赫兹刻度

公式： $\operatorname{mel}(f)=2595 \log _{10}\left(1+\frac{f}{700}\right)$ <-> $l)=700\left(10^{\frac{m e l}{2595}}-1\right)$

# step1: 计算梅尔刻度上的中心频率
low_mel_freq = 0
high_mel_freq = 2595 * np.log10(1 + fs / 2.0 / 700)
mel_points = np.linspace(low_mel_freq, high_mel_freq, num_filter + 2)
# step2：获得对应FFT单元的中心频率
freq_points = (700 * (np.power(10., (mel_points / 2595)) - 1))  # Hz刻度

将频率与DFT点数对应
初始化梅尔滤波器维一个Nxnum_filter的零系数矩阵

filter_edge = np.floor(freq_points * (fft_len + 1) / fs) # 对应到FFT的点数
feats=np.zeros((spectrum.shape[1], num_filter)) # 初始化

计算每一个梅尔滤波器的系数：
- 计算每一个滤波器的起始、中心、截止频率
- 计算每一个滤波器中每个频率点所对应的系数
  
  公式：

$H_{i}(j)=\left\{\begin{array}{l}\frac{f_{j}-f(i-1)}{f(i)-f(i-1)}, f(i-1) \leq f_{j}Hi(j)={ f(i)−f(i−1)fj−f(i−1),f(i−1)≤fj<f(i)f(i+1)−f(i)f(i+1)−fj,f(i)<fj≤f(i+1)$

for m in range(1, 1 + num_filter):
    # 计算每一个滤波器的起始、中心、截止频率
   	f_left = int(filter_edge[m - 1])
   	f_center = int(filter_edge[m])
   	f_right = int(filter_edge[m + 1])
	# 计算每一个滤波器中每个频率点所对应的系数
  	for k in range(f_left, f_center):
     	feats[k, m - 1] = (k - f_left) / (f_center - f_left)
        
   	for k in range(f_center, f_right):
     	feats[k, m - 1] = (f_right - k) / (f_right - f_center)

计算得到Fbank特征：滤波器组的系数和频谱进行加权求和，并对结果取对数

feats = np.dot(spectrum, feats)
feats = np.where(feats == 0, np.finfo(float).eps, feats)
feats = 20 * np.log10(feats)

MFCC特征提取

对每帧Fbank求DCT变化得到MFCC：
$n]=\sum_{i=0}^{n u m_{-} f i l t e r-1} X[k, i] \cos \left(\frac{\pi n(2 i-1)}{2 \times n u m_{-} f i l t e r}\right)$
$m f c c [k, n]$ : mfcc第k帧第n个值， $X [k, i]$ : Fbank第k帧第i个值。

# from scipy.fftpack import dct
feats = dct(fbank, type=2, axis=1, norm='ortho')[:, 1:(num_mfcc + 1)]

3月TIOBE编程语言排行：Python稳居榜首，C++和Java市场份额稳步上升朱公子的Note 编程语言 python c++java TIOBE编程语言排行
TIOBE编程语言排行榜是一个基于全球程序员数量、课程数量和第三方供应商数量的指标，旨在反映编程语言的流行度。根据TIOBEIndex，它每月更新一次，计算方法基于搜索引擎（如Google、Bing、Wikipedia等）的查询结果，涵盖专业开发者的兴趣和需求。需要注意的是，TIOBE指数不代表“最佳”编程语言或代码量最多的语言，而是反映语言在开发者社区中的热度。2025年3月的排行榜特别提到Py
PyTorch模型训练实战指南：掌握动态图特性与工业级部署技巧 lmtealily pytorch 人工智能 python
前言在深度学习领域，PyTorch凭借其动态计算图、高效的自动微分系统及高度Pythonic的设计哲学，已成为学术界与工业界的主流框架。其即时执行模式大幅简化了模型调试流程，而灵活的模块化设计则为复杂模型的构建提供了坚实基础。然而，从实验原型到工业级部署的全链路实践中，开发者仍需系统性掌握框架核心特性与工程化技巧。本文以实战为导向，深入剖析PyTorch动态图机制与自动微分原理，详解从数据预处理、
Python第六章03：列表的常用操作苹果.Python.八宝粥 python windows 开发语言
#列表的常用操作"""如:定义、下标索引获取数据、插入元素、删除元素、清空列表、修改元素、统计修改元素个数在Python中，如果将函数定义为class的成员，那么函数称为方法函数：defadd(x,y):returnx+y方法：classStudent:defadd(self,x,y):returnx+y方法和函数的功能一样，可以传入参数，有返回值，方法调用使用格式不同：函数的使用：num=add
Python第六章01：列表（lsit）定义语法苹果.Python.八宝粥 python 开发语言
#列表（list）的定义语法#基本语法：#字面量：#[元素1，元素2，元素3，元素4，......]#定义变量#变量名称=[元素1，元素2，元素3，元素4，......]#定义空列表#变量名称=[]#变量名称=list[]#列表内的每一个数据，称之为元素#1.以[]作为标识#2.列表内每一个元素直接用，逗号隔开#3.列表可以一次存储多个数据，且可以为不同的数据类型，支持嵌套。#定义一个列表my_l
31天Python入门——第5天:循环那些事儿安然无虞 Python手把手教程 python 开发语言后端
你好，我是安然无虞。文章目录1.while循环1.1while循环的嵌套1.2补充学习:print函数2.for循环2.1range函数2.2for循环2.3continue和break以及return2.4for循环的嵌套3.补充学习3.1enumerate函数3.2zip函数3.3不要在遍历列表的过程中删除元素循环是编程语言常见的一种流程控制所谓循环就是反复的执行一段代码我们人类语言要让别人反
目标检测YOLO实战应用案例100讲-基于毫米波雷达与摄像头协同的道路目标检测与识别（续）林聪木目标检测 YOLO 人工智能
目录3.2实测数据采集与分析3.2.1回波数据处理3.2.2毫米波雷达数据采集实验3.3基于传统图像特征的目标识别算法3.3.1基于灰度共生矩阵的时频图特征提取3.3.2支持向量机分类器3.3.3实验及结果分析3.4基于卷积神经网络的目标识别算法3.4.1卷积神经网络的基本理论3.4.2卷积神经网络框架设计3.4.3实验及结果分析基于图像的目标检测算法4.1目标检测算法一般流程4.2典型目标检测算
「Python数据分析」Pandas基础，筛选数据利器：布尔索引奕澄羽邦 python 数据分析 pandas
我们在处理数据的时候，数据筛选是一个重要的过程。利用布尔索引，我们可以选择需要的数据区间。布尔索引，是利用各种不等式，以及与或非操作，来对数据区间进行选择。在pandas中，与操作，对应的是&这个符号，表示选取两个数据集重合的部分。或操作，对应的是|这个符号，表示选择两个数据集中，只要在一个数据集中出现的部分。非操作，对应的是~这个符号，表示选取一个数据集中，相反的部分。我们下面通过具体的例子，来
【数学建模】灰色关联分析模型详解与应用烟锁池塘柳0 数学建模数学建模算法
灰色关联分析模型详解与应用文章目录灰色关联分析模型详解与应用引言灰色系统理论简介灰色关联分析基本原理灰色关联分析计算步骤1.确定分析序列2.数据无量纲化处理3.计算关联系数4.计算关联度灰色关联分析应用实例实例：某企业生产效率影响因素分析灰色关联分析在各领域的应用灰色关联分析的Python实现灰色关联分析的局限性结论引言在数据分析领域，我们经常面临样本量少、信息不完全、数据不确定性高的情况。传统的
数据分析_python进行数据筛选1_行筛选 Monkey*王 python 数据分析 pandas
以titanic的训练数据为例进行展示，为了简化取前十行为例首先导入模块，导入数据importpandasaspdimportnumpyasnpdf=pd.read_csv(r"C:\Users\admin\Desktop\train.csv")df=df.head(10)df.index=['a','b','c','d','e','f','g','h','i','g']筛选单行1.利用df[行索
Python的那些事第四十六篇：基于属性的测试库hypothesis研究暮雨哀尘 Python的那些事 python 开发语言属性测试库 hypothesis 执行流程构建
一、引言（一）研究背景随着软件系统复杂性的不断增加，软件测试在确保软件质量方面的重要性愈发凸显。传统测试方法在面对大规模、复杂软件系统时，往往存在测试用例设计不全面、测试执行效率低下等问题。基于属性的测试作为一种新兴的测试方法，通过定义软件系统的属性来指导测试用例的设计与执行，为解决上述问题提供了新的思路。（二）研究意义本研究旨在深入探讨基于属性的测试库的构建与应用，以提高软件测试的效率和质量，降
C语言经典算法之二叉树的后序遍历（递归实现） JJJ69 C语言经典算法算法 c语言开发语言数据结构
目录前言A.建议B.简介一代码实现二时空复杂度A.时间复杂度：B.空间复杂度：三优缺点A.优点：B.缺点：四现实中的应用前言A.建议1.学习算法最重要的是理解算法的每一步，而不是记住算法。2.建议读者学习算法的时候，自己手动一步一步地运行算法。tips：文中的（如果有）对数，则均以2为底数B.简介在C语言中，二叉树的后序遍历（PostorderTraversal）是一种按照“左子树-右子树-根节点
OpenCV 图像几何变换：旋转，缩放，斜切奈何小洪 OPENCV opencv 图像旋转缩放
几何变换几何变换可以看成图像中物体（或像素）空间位置改变，或者说是像素的移动。几何运算需要空间变换和灰度级差值两个步骤的算法，像素通过变换映射到新的坐标位置，新的位置可能是在几个像素之间，即不一定为整数坐标。这时就需要灰度级差值将映射的新坐标匹配到输出像素之间。最简单的插值方法是最近邻插值，就是令输出像素的灰度值等于映射最近的位置像素，该方法可能会产生锯齿。这种方法也叫零阶插值，相应比较复杂的还有
3月20日复盘四万二千正式复盘 python 前端机器学习
挑战全栈第八天！今天更新Python中的迭代器和生成器，以及函数式编程的内容。8.3super().init()super().__init__()是Python中用于调用父类（基类）构造函数的一种方式。它通常用于子类的构造函数中，以确保父类的构造函数被正确调用和初始化。这在继承（inheritance）中尤为重要，因为父类的初始化代码可能包含设置实例变量或执行其他重要的初始化任务。classPa
Python + Qt Designer构建多界面GUI应用程序：Python如何调用多个界面文件懒大王爱吃狼 python python qt 命令模式 mysql 数据库 Python基础开发语言
引言QtDesigner是一个用户友好的图形用户界面设计工具，它可以帮助开发人员通过拖放的方式快速创建界面。在实际开发中，往往需要设计多个界面文件，并在Python代码中进行统一管理和使用。本文将介绍如何在Python中使用QtDesigner设计好的多个界面文件的常用方法。方法一：单独加载并显示如果界面文件相对独立，并且没有复杂的依赖关系，可以考虑单独加载并显示每个界面文件。fromPyQt5i
PyTorch 深度学习实战（19）：离线强化学习与 Conservative Q-Learning (CQL) 算法进取星辰 PyTorch 深度学习实战深度学习 pytorch 算法
在上一篇文章中，我们探讨了分布式强化学习与IMPALA算法，展示了如何通过并行化训练提升强化学习的效率。本文将聚焦离线强化学习（OfflineRL）这一新兴方向，并实现ConservativeQ-Learning(CQL)算法，利用Minari提供的静态数据集训练安全的强化学习策略。一、离线强化学习与CQL原理1.离线强化学习的特点无需环境交互：直接从预收集的静态数据集学习数据效率高：复用历史经验
OpenCV旋转估计（2）用于自动检测波浪校正类型的函数autoDetectWaveCorrectKind() 村北头的码农 OpenCV opencv 人工智能计算机视觉
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::detail::autoDetectWaveCorrectKind是OpenCV中用于自动检测波浪校正类型的函数，它根据输入的旋转矩阵集合来决定使用哪种波浪校正模式。波浪校正（WaveCorrection）是图像拼接过程中的一部分，主要用于纠正由于相机在拍
使用fastapi部署stable diffusion模型明晚十点睡代码 fastapi stable diffusion pytorch python 人工智能深度学习计算机视觉
使用vscode运行stablediffusion模型，每次加载模型都需要10+分钟，为算法及prompt调试带来了极大麻烦。使用jupyter解决自然是一个比较好的方案，但如果jupyter由于种种原因不能使用时，fastapi无疑成为了一个很好的选择。参考github链接：https://github.com/jarvislabsai/fastapi-sd-templatefromfastap
基于51单片机设计的呼吸灯鱼弦单片机系统合集 51单片机嵌入式硬件单片机
鱼弦：公众号【红尘灯塔】，CSDN博客专家、内容合伙人、新星导师、全栈领域优质创作者、51CTO(Top红人+专家博主)、github开源爱好者（go-zero源码二次开发、游戏后端架构https://github.com/Peakchen）基于51单片机设计的呼吸灯是一种常见的LED灯效应果，通过控制LED的亮度逐渐增加和减小，模拟人类呼吸的效果。下面将对其原理、应用场景、算法实现、代码实现等进
【科大讯飞笔试题汇总】2024-04-21-科大讯飞春招笔试题-三语言题解(CPP/Python/Java) 春秋招笔试突围最新互联网春秋招试题合集 python java 开发语言春招笔试互联网大厂笔试题
大家好这里是KK爱Coding，一枚热爱算法的程序员✨本系列打算持续跟新科大讯飞近期的春秋招笔试题汇总～ACM银牌|多次AK大厂笔试｜编程一对一辅导感谢大家的订阅➕和喜欢KK这边最近正在收集近一年互联网各厂的笔试题汇总，如果有需要的小伙伴可以关注后私信一下KK领取，会在飞书进行同步的跟新，5月1日之前限时免费领取哦，后续会由ACM银牌团队持续维护~。文章目录01.硬币最少组合问题问题描述输入格式输
用指针实现数组元素循环移动 Stimpay 算法数据结构 c语言
任务描述本关任务：编写程序，用指针实现以下功能，n个整数存入一维数组中，将该数组循环左移m位。如一个长度为10的数组中原来的元素顺序为0123456789，则循环左移3个位置后元素的顺序为3456789012。相关知识为了完成本关任务，有两种算法思想：一种是使用辅助数组实现数据移动；另一种是不使用辅助数组，只需一个中间变量就可实现数据移动。使用辅助数组实现数据移动创建一个同样大小辅助数组，存放临时
Pycharm python解释器 unsupported python 3.1 解决大表哥在曾母暗沙 Python PyCharm python pycharm ide 解释器模式
Pycharm环境unsupportedpython3.1解决1.问题重现2.原因分析3.解决方法1.问题重现之前使用Pycharm2024.1.1的时候，环境配置的Python3.11.9，现在改成使用Pycharm2020.2.2，结果Python解释器显示“unsupportedpython3.1”，如下图：2.原因分析因为Pycharm2020.2.2支持的Python最高版本就是Pyth
申请 Let's Encrypt 的免费 TLS 证书实现网站的 https 访问 python
因为这个使用apt安装的python第三方包的版本为什么这么滞后？原因，所以我不是用sudo把证书弄到系统路径，而是选择到普通用户路径下面╭─pon@aliyun2core2GB~/certbot╰─➤tree.├──config│ ├──accounts│ │ └──acme-v02.api.letsencrypt.org│ │ └──directory│ │ └──9401598
一切皆是映射：DQN训练加速技术：分布式训练与GPU并行 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1深度强化学习的兴起近年来，深度强化学习（DeepReinforcementLearning，DRL）在游戏、机器人控制、自然语言处理等领域取得了令人瞩目的成就。作为一种结合深度学习和强化学习的强大技术，DRL能够使智能体在与环境交互的过程中学习最优策略，从而实现自主决策和控制。1.2DQN算法及其局限性深度Q网络（DeepQ-Network，DQN）是DRL的一种经典算法，它利用
python面试题详解 __wishing__ python
十道经典面试题（python）1.一行代码实现累加1-100之和print(sum(range(1,101)))输出结果：5050分析：利用sum函数进行累加。range控制序列。2.一行代码实现列表去重#声明需要去重的列表list1=[1,1,2,2,3,3,4,4]list1=list(set(list1))</
LangChain入门：使用Python和通义千问打造免费的Qwen大模型聊天机器人南七小僧人工智能网站开发 AI技术产品经理服务器数据库 windows
前言LangChain是一个用于开发由大型语言模型（LargeLanguageModels，简称LLMs）驱动的应用程序的框架。它提供了一个灵活的框架，使得开发者可以构建具有上下文感知能力和推理能力的应用程序，这些应用程序可以利用公司的数据和APIs。这个框架由几个部分组成。LangChain库：Python和JavaScript库。包含了各种组件的接口和集成，一个基本的运行时，用于将这些组件组合
pygmsh 项目常见问题解决方案葛雨禹
pygmsh项目常见问题解决方案pygmsh:spider_web:GmshforPython项目地址:https://gitcode.com/gh_mirrors/py/pygmsh1.项目基础介绍和主要编程语言项目名称:pygmsh项目简介:pygmsh是一个结合了Gmsh和Python的开源项目。它通过提供Gmsh的Python接口，简化了复杂几何体的创建过程。pygmsh提供了许多有用的抽
python之gmsh划分网格老歌老听老掉牙 python有限元分析 python 开发语言 gmsh 划分网格
Gmsh（GeometryModelingandMeshingSuite）是一个开源的三维有限元网格生成器，它集成了内置的CAD引擎和后处理器。Gmsh的设计目标是提供一个快速、轻量级且用户友好的网格工具，同时具备参数化输入和高级可视化能力。Gmsh围绕几何（geometry）、网格（mesh）、求解器（solver）和后处理（post-processing）四个模块构建，用户可以通过图形用户界面
已解决：python多线程使用TensorRT输出为零？附tensorrt推理代码李卓璐算法实战 python 开发语言
我是多个不同类型的模型多线程调用报错。设备：cuda12.1,cudnn8.9.2,tensorrt8.6.11.问题tensorrt的推理没输出？？？有输入：想要的输出：原因：多进程时,每进程应单独调用importpycuda.driverascuda和cuda.init()，完成初始化CUDA驱动，并需要使用self.cfx.push()和self.cfx.pop()管理CUDA上下文，以保证
Python 的 ultralytics 库详解白.夜人工智能
ultralytics是一个专注于计算机视觉任务的Python库，尤其以YOLO（YouOnlyLookOnce）系列模型为核心，提供了简单易用的接口，支持目标检测、实例分割、姿态估计等任务。本文将详细介绍ultralytics库的功能、安装方法、核心模块以及使用示例。1.ultralytics库简介ultralytics库由Ultralytics团队开发，旨在为YOLO系列模型提供高效、灵活且易
输入某年某月某日，判断这一天是这一年的第几天python 发现文化fu python python
题目：输入某年某月某日，判断这一天是这一年的第几天python输入某年某月某日，判断这一天是这一年的第几天python思路：*判断闰年能被4整除但不能被100整除，年份能被400整除#方法1sum=0if(year%4==0andyear%100!=0)oryear%400==0:feb=29else:feb=28month_day=[0,31,feb,31,30,31,30,31,31,30,3
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache