叮叮车不是车

语音信号处理 —— 笔记（一）音频信号处理

声音的产生：能量通过声带使其振动产生一股基声音，这个基声音通过声道，与声道发生相互作用产生共振声音，基声音与共振声音一起传播出去。

一、音频信号简介

1.声音波形图

传感器以某种频率探测声音的振幅强度以及振动方向，所得到的一系列随时间变化的点。

2.采样频率

传感器的探测频率，即为采样频率。根据采样定理得到采样频率。

采样定理（Nyquist-Shannon定理）

定义：用来描述给定带宽的最高传输速率。

整数周期（eg.物体旋转后回到原状所需的时间），采样周期为整数倍的整数周期时不能检测到相位的变化。

*若为轮子转动问题：若需要同时看到旋转方向和相位变化，采样周期要小于整数周期的1/2，采样频率应大于原始频率的2倍。

➡️➡️对于模拟信号：要同时看到信号的全部特性，采样频率应大于原始模拟信号的最大频率的2倍，否则会出现混叠现象。

混叠现象

指利用离散傅里叶变换（DFT）对信号Z域进行频域抽样时，取样点数小于时域列长所引起的时域周期延拓序列互相交叠的现象。

3.语谱图

分为窄带语谱图和宽带语谱图

窄带：接入速度慢，传输速率低

宽带：传输模拟信号，将信道分成多个子信道，分别传送音频、视频和数字信号，称为宽带传输。

带宽：电磁波频带的宽度，也就是信号的最高频率与最低频率的差值

时宽：脉冲宽度，是信号的结束时间减去信号的开始时间

时窗：时间间隔（time interval）

窄带语谱图

带宽小，时宽大，短时窗长度长。窄带语谱图即为长窗条件下画出的语谱图。
表现为“横线”，“横”体现了频率分辨率高。

宽带语谱图

带宽大，时宽窄，短时窗长度短。
表现为“竖线”，可以区分语音在时间上重复的部分，“竖”体现了时间分辨率高。

4.基频（基音频率）

声带每次张开闭合的频率，声带振动周期就是基音周期。
在窄带语谱图上，是所有横条纹中频率范围最低的那条，与其在同一水平线上的条纹都表示该时刻的基音频率成分。此条纹对应的纵轴刻度值就是基音频率数值。
其他横条纹是各次谐波
在宽带语谱图上，两竖线之间的时间表示基音周期

5.共振峰

谐波中有些地方比同时刻其附近其他横条纹颜色要深，这些颜色深的表示共振峰

二、语音信号处理

目标：找出各个频率成分的分布

傅里叶变换（FFT）操作 && 小波变换 && 全卷积时域音频分离网络——Conv-TasNet

语音信号处理操作

1.傅里叶级数

猜测任意周期函数可以写成三角函数之和。

欧拉公式

定义：对于θ∈R，有 $e^{i\theta }=cos\theta +isin\theta$

虚数 i：i*i=-1

数轴上 1*(-1) [即1*i*i]，线段在数轴上绕原点旋转了180°

当1*i时，线段在平面上旋转90°，即得到虚数轴（复平面）。

图源:博客园 - 韩昊 - 深入浅出的讲解傅里叶变换

$e^{i\theta }$ 是复平面上的一个夹角为 $\theta$ 的向量

在时间轴t上，记录 $e^{it }$ 向量虚部（纵坐标）的值，即为

在时间轴t上，记录 $e^{it}$ 向量实部（横坐标）的值，即为

$e^{i\omega t} \Leftarrow \Rightarrow\left\{\begin{matrix} sin(\omega t)\\ cos(\omega t)\end{matrix}\right.$

两种角度，一个可以观察到旋转的频率，所以称为频域；一个可以看到流逝的时间，所以称为时域。

$f(x)=C+\sum_{n=1}^{\infty }(a_{n}cos(\frac{2\pi n}{T})x+b_{n}sin(\frac{2\pi n}{T})x),C\in R$

的基（最基本单元）为： $\begin{Bmatrix} 1 ,cos(\frac{2\pi n}{T}x) ,sin(\frac{2\pi n}{T}x) \end{Bmatrix}$

经过点积得到：

$f(x)=\frac{a_{0}}{2}+\sum_{n=1}^{\infty }(a_{n}cos(\frac{2\pi n}{T})x+b_{n}sin(\frac{2\pi n}{T})x),C\in R$

$a_{n}=\frac{2}{T}\int \int_{x_{0}}^{x_{0}+T}f(x)\cdot cos(\frac{2\pi nx}{T})dx,n\in \begin{Bmatrix} 0 \end{Bmatrix}\bigcup N$

$b_{n}=\frac{2}{T}\int \int_{x_{0}}^{x_{0}+T}f(x)\cdot sin(\frac{2\pi nx}{T})dx,n\in N$

频谱时谱

任何波形都可以通过无数个正弦波叠加形成，这些不同频率的正弦波称为频率分量

图源:博客园 - 韩昊 - 深入浅出的讲解傅里叶变换

其中第一个频率最低的频率分量为构建频域的基（最基本单元）[类比于有理数轴的基本单元“1”]，周期无限长的正弦波，即一条直线 [即为有理数轴的“0”]
正弦波是一个圆周运动在一条直线上的投影。

图源:博客园 - 韩昊 - 深入浅出的讲解傅里叶变换

在频域中，0频率被称为直流分量。在傅里叶级数的叠加中，只影响全部波形相对于数轴整体向上还是向下，不改变波的形状
延时间方向的图叫时域图像[时谱]（正弦波叠加最终形成的图案）
延频率方向的图叫频域图像[频谱/振幅谱]（所有叠加正弦波的振幅的竖线组成的）

图源:博客园 - 韩昊 - 深入浅出的讲解傅里叶变换

#导包
import numpy as np
from scipy.io import wavfile
from scipy.fftpack import dct
import matplotlib.pyplot as plt

#绘制时域图
def plot_time(sig, fs):
time = np.arange(0,len(sig))*(1.0/fs)
plt.figure(figsize = (20, 5))
plt.plot(time, sig)
plt.xlabel('Time(s)')
plt.ylabel('Amplitude')#振幅
plt.grid()

#绘制频域图
def plot_freq(sig, sample_rate, n_fft=512):
freqs = np.linspace(0, sample_rate/2, n_fft//2 + 1)
xf = np.fft.rfft(sig, n_fft) / n_fft
xfp = 20*np.log10(np.clip(np.abs(xf), le-20, le100))#强度
plt.figure(figsize = (20, 5))
plt.plot(freqs, xfp)
plt.xlabel('Freq(hz)')
plt.ylabel('dB')#强度
plt.grid()

#绘制二维数组
def plot_spectrogram(spec,ylabel = 'ylabel'):
fig = plt.figure(figsize = (20, 5))
heatmap = plt.pcolor(spec)
fig.colorbar(mappable = heatmap)
plt.xlabel('Time(s)')
plt.ylabel(ylabel)
plt.tight_layout()
plt.show()

wav_file = '文件名.wav'
fs, sig = wavfile.read(wav_file)
#fs是wav文件的采样率，signal是wav文件的内容，filename是要读取的音频文件的路径
sig = sig[0: int(10 *fs)] #保留前10s的数据

plot_time(sig, fs) #时域图
plot_freq(sig, fs) #频域图

时域图源博客园 yifanhunter

频域图源博客园 yifanhunter

预加重

定义：对语音的高频部分进行加重

目的：

平衡频谱，高频通常与低频相比具有较小的幅度，提高高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的噪声比（SNR）求频谱
突出高频的共振峰

将语音信号通过一个高通滤波器：

$y(t)=x(t)-\alpha x(t-1)$

（其中滤波器系数 $\alpha$ 值通常为0.95或0.97

# 代码形式
pre_emphasis = 0.97
emphasized_signal = numpy.append(signal[0], signal[1:] - pre_emphasis * signal[:-1])
# emphasized_signal为新signal

效果

时域图源博客园 yifanhunter

频域图源博客园 yifanhunter

滤波

从某条曲线中去除一些特定的频率成分

2.傅里叶变换(Fourier Tranformation)

基本思想：非周期性的信号可以由多个周期性的信号叠加而逼近得到。将无限长的三角函数作为基函数

傅里叶变换：将一个时域非周期的连续信号转换成一个在频域非周期的连续信号（将频域的点连接起来的图像）得到频谱和时谱

图源:博客园 - 韩昊 - 深入浅出的讲解傅里叶变换

离散谱频域：

图源:博客园 - 韩昊 - 深入浅出的讲解傅里叶变换

连续谱频域：

图源:博客园 - 韩昊 - 深入浅出的讲解傅里叶变换

分帧

解释：将语音信号截取成小段，即为分帧，每一段信号就叫做一「帧」

即将整个时域过程分解为无数个等长的小过程，每个小过程近似平稳（短时间内的信号可以看作是平稳的，可以截取出来做FFT

图源:知乎王赟 Maigo

帧移：STRIDE，0~1/2帧长，帧与帧之间的平滑长度

def framing(frame_len_s, frame_shift_s, fs, sig):

"""

分帧，主要是计算对应下标
param frame_len_s: 帧长，s
param frame_shift_s: 帧移，s
param fs: 采样率，hz
param sig: 信号
return: 二维list，一个元素为一帧信号

"""

sig_n = len(sig)
frame_len_n, frame_shift_n = int(round(fs * frame_len_s)), int(round(fs * frame_shift_s))
num_frame = int(np.ceil(float(sig_n - frame_len_n) / frame_shift_n) + 1)
pad_num = frame_shift_n * (num_frame - 1) + frame_len_n - sig_n # 待补0的个数
pad_zero = np.zeros(int(pad_num)) # 补0
pad_sig = np.append(sig, pad_zero)

# 计算下标
# 每个帧的内部下标
frame_inner_index = np.arange(0, frame_len_n)

# 分帧后的信号每个帧的起始下标
frame_index = np.arange(0, num_frame) * frame_shift_n

# 复制每个帧的内部下标，信号有多少帧，就复制多少个，在行方向上进行复制
frame_inner_index_extend = np.tile(frame_inner_index, (num_frame, 1))

# 各帧起始下标扩展维度，便于后续相加
frame_index_extend = np.expand_dims(frame_index, 1)

# 分帧后各帧的下标，二维数组，一个元素为一帧的下标
each_frame_index = frame_inner_index_extend + frame_index_extend
each_frame_index = each_frame_index.astype(np.int, copy=False)

frame_sig = pad_sig[each_frame_index]
return frame_sig


frame_len_s = 0.025
frame_shift_s = 0.01
frame_sig = framing(frame_len_s, frame_shift_s, fs, sig)

短时傅里叶变换（STFT）

在分帧后，要进行加窗操作，即与一个「窗函数」相乘

加窗的目的：让一帧信号幅度在两端渐变到0（即为下图图3的样子，可以让频谱上的峰更细，减轻频谱泄漏
加窗后一帧信号的两端部分就被削弱了
- 通过帧之间相互重叠的方式弥补，相邻两帧起始位置的时间差叫帧移（常见取法：取帧长的一半，或固定为取10毫秒

图源:知乎王赟 Maigo

确定窗函数的宽度：

窗太窄，窗内的信号太短，会导致频率分析不够精准，频率分辨率差，但时间分辨率高
窗太宽，时域上又不够精细，时间分辨率低，但频率分辨率高

对于时变的非稳态信号，高频适合小窗口，低频适合大窗口

图源:极市平台

对每一帧的信号做FFT，得到频谱

图源:知乎王赟 Maigo

其中横轴是频率，纵轴是幅度
「精细结构」：是蓝线上的一个个小峰，在横轴上的间距就是基频，体现了语音的音高
- 峰越稀疏，基频越高，音高越高
「包络」：是连接这些小峰峰顶的平滑曲线（红线），代表发的是哪个音。其上的峰叫共振峰（可以根据共振峰的位置看出发的什么音

算法

对于一个表示为1行，T列的的信号（1，T），通常会设定一组线性增加的频率，然后假定信号由这些频率的三家函数信号叠加而成。
FFT计算，是将傅里叶级数变换到复数域，经过计算再变成时域。得到的结果就是每个假定的三角函数信号的一个复数表示，即为a+bj。用librosa库和torchaudio库中代码计算，得到由ai+bi j组成的矩阵。ai bi即为每个信号的矢量表示。
在复数域的几何表示为：

得到两个矩阵，幅度谱（语谱图）和相位谱，
傅里叶变换得到的谱，被称为“线性谱”。

n_fft即为多少个信号点做傅里叶变换

公式：

某帧做STFT，得到频率组的数量 = n_fft // 2 + 1 （//表示整除

计算一段信号STFT能得到的帧数：已知分帧的窗长winlength，帧移长度hoplength，信号采样点个数L

时间帧数N = L // hoplength + 1（与窗长无关

eg：假设某信号采样率为16000，取一秒钟，也即采样点数量为16000的信号，做窗长512（512/16000*1000=32毫秒）点，帧移256（16毫秒）的STFT变换，即可得到

16000 // 256 + 1= 63帧。
import torchaudio
signal = torch.rand(16000)
stft = torch.stft(signal.return_complex=True,n_fft=512,hop_length=256,win_length=512)
print(stft,shape)

3.小波变换

时频分析：各个成分出现的时间、信号频率随时间变化的情况、各个时刻的瞬时频率及其幅值

傅里叶变换缺陷：只能获取一段信号总体上包括哪些频率部分，但无法获知各成分出现的时刻。➡️➡️“对于非平稳的过程，傅里叶变换有局限性” “两个时域有巨大差异的信号的频域可能高度一致”

小波变换思路：将FFT中的无限长三角函数换成了有限长的会衰减的小波基

图源:极市平台

两个变量：

尺度：控制小波函数的伸缩，对应于频率（纵轴
平移量 $\tau$ ：控制小波函数的平移，对应于时间（横轴

得到时频谱

对于突变信号：FFT存在吉布斯效应

傅里叶变换：

图源:极市平台

对小波变换：

图源:极市平台

4.声谱图、梅尔频谱

声谱图

对一段长语音信号，分帧、加窗、在对每一帧做傅里叶变换，之后把每一帧的结果沿着另一维度堆叠，得到的图就是声谱图

图源:CSDN lvziye00lvziye文章

梅尔频谱

将声谱图通过梅尔尺度滤波器（Mel 滤波），变为梅尔频谱，得到合适大小的声音特征

频率的单位是HZ，将HZ转化成梅尔频率，则人耳对频率的感知度变为线性。
公式：

$mel(l)=2595*log_{10}(1+\frac{f}{700})$

图源:CSDN lvziye00lvziye文章

5.Fbank和MFCC

Fbank（FilterBank）

一种前端处理算法，以类似于人耳的方式对音频进行处理，以提高语音识别的性能。

MFCC

对Fbank做离散余弦变换（DCT）即可获得MFCC特征。

MFCC：梅尔频率倒谱系数。实际就是在梅尔频谱上做倒谱分析（取对数，做DCT变换）

参考文章：

本文不做任何商用，仅为自我学习摘录。如有某部分侵犯了大家的利益，还望海涵，并联系删除，谢谢大家！！！

https://www.zhihu.com/question/24490634 --采样定理

https://blog.csdn.net/lzrtutu/article/details/78882715 --语谱图、基频、共振峰

https://www.zhihu.com/question/19714540/answer/334686351 --马同学（如何理解FT公式

https://mp.weixin.qq.com/s/CRqhHIlYYRjYJ64PZZnUkQ --极市平台傅里叶变换小波变换

https://www.cnblogs.com/h2zZhou/p/8405717.html --韩昊博客园深入浅出的讲解傅里叶变换

https://www.zhihu.com/question/52093104 --by 知乎王赟 Maigo 怎样理解分帧

https://blog.csdn.net/lvziye00lvziye/article/details/100132715 --声谱图，梅尔谱图

https://www.cnblogs.com/yifanrensheng/p/13510742.html --Fbank和MFCC介绍-忆凡人生-博客园

Python基于深度学习的动物图片识别技术的研究与实现 Java老徐 Python 毕业设计 python 深度学习开发语言深度学习的动物图片识别技术 Python动物图片识别技术
博主介绍：✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌文末获取源码联系精彩专栏推荐订阅不然下次找不到哟2022-2024年最全的计算机软件毕业设计选题大全：1000个热门选题推荐✅Java项目精品实战案例《100套》Java微信小程序项目实战《100套》感兴趣的可以先收藏起来，还有大家
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
震惊！ “深度学习”都在学习什么扉间798 深度学习学习人工智能
常见的机器学习分类算法俗话说三个臭皮匠胜过诸葛亮这里面集成学习就是将单一的算法弱弱结合算法融合用投票给特征值加权重AdaBoost集成学习算法通过迭代训练一系列弱分类器，给予分类错误样本更高权重，使得后续弱分类器更关注这些样本，然后将这些弱分类器线性组合成强分类器，提高整体分类性能。（一）投票机制投票是一种直观且常用的算法融合策略。在多分类问题中，假设有多个分类器对同一数据进行分类判断。每个分类器
深度学习 | pytorch + torchvision + python 版本对应及环境安装 zfgfdgbhs 深度学习 python pytorch
目录一、版本对应二、安装命令（pip）1.版本（1）v2.5.1~v2.0.0（2）v1.13.1~v1.11.0（3）v1.10.1~v1.7.02.安装全过程（1）选择版本（2）安装结果参考文章一、版本对应下表来自pytorch的github官方文档：pytorch/vision:Datasets,TransformsandModelsspecifictoComputerVisionpytor
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
AI模型技术演进与行业应用图谱智能计算研究中心其他
内容概要当前AI模型技术正经历从基础架构到行业落地的系统性革新。主流深度学习框架如TensorFlow和PyTorch持续优化动态计算图与分布式训练能力，而MXNet凭借高效的异构计算支持在边缘场景崭露头角。与此同时，模型压缩技术通过量化和知识蒸馏将参数量降低60%-80%，联邦学习则通过加密梯度交换实现多机构数据协同训练。在应用层面，医疗诊断模型通过迁移学习在CT影像分类任务中达到98.2%的准
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
深度学习 Deep Learning 第8章深度学习优化 odoo中国 AI编程人工智能深度学习人工智能优化
深度学习第8章深度学习的优化章节概述本章深入探讨了深度学习中的优化技术，旨在解决模型训练过程中面临的各种挑战。优化是深度学习的核心环节，直接关系到模型的训练效率和最终性能。本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。此外，还探讨了参数初始化策略、自适应学习率方法以及二阶优
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
深度学习篇---对角矩阵&矩阵的秩&奇异矩阵 Ronin-Lotus 程序代码篇深度学习篇深度学习矩阵人工智能线性代数
文章目录前言一、对角矩阵（DiagonalMatrix）1.1定义1.2特性行列式运算简化1.3应用领域深度学习信号处理量子力学经济学二、矩阵的秩（RankofaMatrix）2.1定义2.2特性满秩降秩影响2.3应用领域深度学习图像压缩推荐系统控制理论三、奇异矩阵（SingularMatrix）3.1定义3.2特性秩不足行列式为零3.3应用领域深度学习正则化损失函数结构工程统计学数值计算四、跨领
DeepSeek、Grok 与 ChatGPT 三巨头：技术架构与应用场景的全方位解析云策量化 Deepseek chatgpt deepseek grok
前言在当今人工智能领域，DeepSeek、Grok和ChatGPT作为语言模型的三巨头，各自凭借独特的技术架构和广泛的应用场景，在自然语言处理领域占据着重要地位。本文将对这三款模型的技术架构和应用场景进行全方位解析，以期为读者提供深入的了解和有价值的参考。一、技术架构（一）DeepSeekDeepSeek是由DeepSeek团队开发的一款大型语言模型，其技术架构基于深度学习中的Transforme
OpenCV 4.2.0与扩展模块安装与应用指南土城三富
本文还有配套的精品资源，点击获取简介：OpenCV4.2.0是一个先进的计算机视觉库，包含了图像处理、计算机视觉和机器学习算法。本压缩包包含OpenCV核心库和扩展模块（opencv_contrib），版本均为4.2.0。该版本引入了性能增强、API优化以及对深度学习框架和硬件加速技术的更新支持。扩展模块提供了额外的实验性算法和功能，有助于研究和开发新算法。指南详细介绍了如何安装和配置这些库，并提
介于YOLOv5的裂缝识别系统程序员～小强 YOLO
介于YOLOv5的裂缝识别系统在现代工业中，裂缝监测是的保障设施安全的重要环节。我们公司的新项目——基于YOLOv5的裂缝识别系统，将为您提供高效、精准的解决方案，助力各类工程项目的质量管理。系统优势我们的裂缝识别系统借助YOLOv5进行深度学习，经过精心训练，拥有强大的图像识别能力。只需简单的步骤，您就能将复杂的裂缝检测转化为轻松的操作，让分析变得更加简单、高效。核心功能图片上传与场景选择用户可
使用Dall-E生成图像：文本到图像的魔力 shuoac 计算机视觉人工智能 python
使用Dall-E生成图像：文本到图像的魔力技术背景介绍Dall-E是OpenAI开发的一个强大的文本到图像生成模型，它能够根据自然语言描述创造出全新的数字图像。这一技术基于深度学习的方法，使得创意与AI图像生成的结合更具可能性。本文将介绍如何调用Dall-EAPI来生成图像，从而使开发者能够将这一技术应用到自己的项目中。核心原理解析Dall-E利用大型语言模型（LLM）从用户提供的文本描述中提取详
【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。 985小水博一枚呀深度学习人工智能
【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。文章目录【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。1.滑坡灾害早期隐患的概念与特征概念主要特征2.通过光学
给普通人看的深度学习说明书：用快递系统理解AI如何思考嵌入式Jerry Python AI 人工智能深度学习
第一章：理解AI的思维方式（快递版）1.1快递分拣站的故事假设你管理一个快递分拣站：传统方法：手动制定规则（比如根据邮编分拣）机器学习：观察老员工的分拣记录，总结规律深度学习：搭建自动分拣流水线，自主发现隐藏规则1.2神经网络就像智能分拣机传送带（输入层）：接收包裹信息（图片像素/文字等）#就像扫描快递单input_data=[0.2,0.7,0.1]#归一化后的特征数据分拣工人（隐藏层）：每个工
解析大模型归一化：提升训练稳定性和性能的关键技术秋声studio 口语化解析深度学习人工智能大模型归一化
引言在深度学习领域，特别是在处理大型神经网络模型时，归一化（Normalization）是一项至关重要的技术。它可以提高模型的训练稳定性和性能，在加速收敛方面发挥了重要作用。本文将深入探讨大模型归一化的原理、常见方法及其应用场景，并结合实际案例和代码示例进行说明。一、归一化的作用与理论基础归一化的主要目的是为了提高模型的训练稳定性和性能。具体来说，归一化有以下几个关键作用：提高训练稳定性：在神经网
深入解析深度学习中的过拟合与欠拟合诊断、解决与工程实践古月居GYH 深度学习人工智能
一、引言：模型泛化能力的核心挑战在深度学习模型开发中，欠拟合与过拟合是影响泛化能力的两个核心矛盾。据GoogleBrain研究统计，工业级深度学习项目中有63%的失败案例与这两个问题直接相关。本文将从基础概念到工程实践，系统解析其本质特征、诊断方法及解决方案，并辅以可复现的代码案例。二、核心概念与通熟易懂解释简单而言，欠拟合是指模型不能在训练集上获得足够低的误差。换句换说，就是模型复杂度低，模型在
Umi-OCR 实践教程：离线、免费、高效的图像文字识别工具几道之旅人工智能智能体及数字员工 ocr 人工智能
一、工具简介Umi-OCR是一款开源、免费且支持离线运行的OCR（光学字符识别）工具，适用于Windows和Linux系统。它基于深度学习技术，能够高效提取图像中的文字，支持多语言识别、批量处理、截屏识别等功能，尤其适合对隐私敏感或网络受限的场景。核心亮点：离线运行：无需联网，保护隐私。多引擎支持：提供Paddle（高性能）和Rapid（低配兼容）两种引擎。批量处理：支持图片、PDF、电子书等多格
基于ChatGPT、GIS与Python机器学习的地质灾害风险评估、易发性分析、信息化建库及灾后重建高级实践 weixin_贾防洪评价风险评估滑坡泥石流地质灾害
第一章、ChatGPT、DeepSeek大语言模型提示词与地质灾害基础及平台介绍【基础实践篇】1、什么是大模型？大模型（LargeLanguageModel,LLM）是一种基于深度学习技术的大规模自然语言处理模型。代表性大模型：GPT-4、BERT、T5、ChatGPT等。特点：多任务能力：可以完成文本生成、分类、翻译、问答等任务。上下文理解：能理解复杂的上下文信息。广泛适配性：适合科研、教育、行
anythingLLM 使用教程惟贤箬溪穷玩Ai AIGC 人工智能
一、anythingLLM简介anythingLLM是一款灵活且功能强大的语言模型，它基于先进的深度学习架构构建，旨在为用户提供多样化的自然语言处理服务。其设计理念注重通用性和可扩展性，能够适应多种领域和任务，无论是文本生成、智能问答，还是翻译、摘要提取等，都能展现出出色的性能。与同类模型相比，anythingLLM具有训练数据丰富、模型优化程度高的优势，能够生成更符合逻辑、更具实用性的文本内容。
深度解析大模型推理框架：原理、应用与实践百度_开发者中心人工智能大模型自然语言处理
在当今数据驱动的时代，大模型推理框架已经成为人工智能领域的重要支柱。本文将通过简明扼要、清晰易懂的方式，带领读者深入了解大模型推理框架的原理、应用领域和实践经验，帮助读者更好地掌握这一技术，并在实际工作中发挥其价值。一、大模型推理框架简介大模型推理框架是指一种基于深度学习技术的推理框架，主要用于解决大规模数据集下的复杂问题。该框架通过对海量数据进行高效的训练和推理，能够快速地对各种复杂场景进行分析
大模型推理框架：从理论到实践的全面解析百度_开发者中心人工智能大模型自然语言处理
在数据驱动的时代，深度学习技术已经渗透到各个行业，从图像识别到自然语言处理，从推荐系统到智能客服，其应用无处不在。然而，深度学习模型的训练和推理过程往往涉及大量数据和复杂计算，传统的计算框架难以满足需求。因此，大模型推理框架应运而生，成为解决这一问题的关键。一、大模型推理框架基本概念大模型推理框架是一种基于深度学习技术的推理框架，它通过对海量数据进行高效的训练和推理，能够快速地对各种复杂场景进行分
Yolo系列之Yolo的基本理解是十一月末 YOLO python 开发语言 yolo
YOLO的基本理解目录YOLO的基本理解1YOLO1.1概念1.2算法2单、多阶段对比2.1FLOPs和FPS2.2one-stage单阶段2.3two-stage两阶段1YOLO1.1概念YOLO(YouOnlyLookOnce)是一种基于深度学习的目标检测算法，由JosephRedmon等人于2016年提出。它的核心思想是将目标检测问题转化为一个回归问题，通过一个神经网络直接预测目标的类别和位
大语言模型学习路线：从入门到实战大模型官方资料语言模型学习人工智能产品经理自然语言处理搜索引擎
大语言模型学习路线：从入门到实战在人工智能领域，大语言模型（LargeLanguageModels,LLMs）正迅速成为一个热点话题。本学习路线旨在为有基本Python编程和深度学习基础的学习者提供一个清晰、系统的大模型学习指南，帮助你在这一领域快速成长。本学习路线更新至2024年02月，后期部分内容或工具可能需要更新。适应人群已掌握Python基础具备基本的深度学习知识学习步骤本路线将通过四个核
深度学习与目标检测系列(六) 本文约(4.5万字) | 全面解读复现ResNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch 人工智能 ResNet 残差连接残差网络
文章目录解读Abstract—摘要翻译精读主要内容Introduction—介绍翻译精读背景RelatedWork—相关工作ResidualRepresentations—残差表达翻译精读主要内容ShortcutConnections—短路连接翻译精读主要内容DeepResidualLearning—深度残差学习ResidualLearning—残差学习翻译精读ResNet目的以前方法本文改进本质
深度学习与目标检测系列(三) 本文约(4万字) | 全面解读复现AlexNet | Pytorch | 小酒馆燃着灯深度学习目标检测 pytorch AlexNet 人工智能
文章目录解读Abstract-摘要翻译精读主要内容1.Introduction—前言翻译精读主要内容：本文主要贡献：2.TheDataset-数据集翻译精读主要内容：ImageNet简介：图像处理方法：3.TheArchitecture—网络结构3.1ReLUNonlinearity—非线性激活函数ReLU翻译精读传统方法及不足本文改进方法本文的改进结果3.2TrainingonMultipleG
计算机视觉技术探索：美颜SDK如何利用深度学习优化美颜、滤镜功能？美狐美颜sdk 美颜SDK 美颜API 直播美颜SDK 计算机视觉深度学习直播美颜SDK 美颜sdk 第三方美颜sdk 美颜api
时下，计算机视觉+深度学习正在重塑美颜技术，通过智能人脸检测、AI滤镜、深度美肤、实时优化等方式，让美颜效果更加自然、精准、个性化。那么，美颜SDK如何结合深度学习来优化美颜和滤镜功能？本文将深入解析AI在美颜技术中的应用，并探讨其未来发展趋势。一、深度学习如何赋能美颜SDK？1.AI人脸检测与关键点识别：精准捕捉五官在美颜过程中，首先需要精准检测人脸位置和五官特征点，确保美颜效果不会失真。深度学
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交

语音信号处理 —— 笔记（一）音频信号处理

一、音频信号简介

1.声音波形图

2.采样频率

采样定理（Nyquist-Shannon定理）

混叠现象

3.语谱图

窄带语谱图

宽带语谱图

4.基频（基音频率）

5.共振峰

二、语音信号处理

语音信号处理操作

1.傅里叶级数

欧拉公式

频谱时谱

预加重

滤波

2.傅里叶变换(Fourier Tranformation)

分帧

短时傅里叶变换 （STFT）

算法

3.小波变换

4.声谱图、梅尔频谱

声谱图

梅尔频谱

5.Fbank和MFCC

Fbank（FilterBank）

MFCC

参考文章：

你可能感兴趣的:(深度学习,语音识别)

短时傅里叶变换（STFT）