NTFY 超得屁(°∀°)ﾉ

语音识别入门——常用软件及python运用

工具以及使用到的库

ffmpeg
sox
audacity
pydub
scipy
librosa
pyAudioAnalysis
plotly

本文分为两个部分：

P1：如何使用ffmpeg和sox处理音频文件
P2：如何编程处理音频文件并执行基本处理

P1 处理语音数据——命令行方式

格式转换

ffmpeg -i video.mkv audio.mp3

使用ffmpeg将输入mkv文件转为mp3文件

降采样、通道转换

ffmpeg -i audio.wav -ar 16000 -ac 1 audio_16K_mono.wav

ar:声频采样率（audio rate）
ac：声频通道（audio channel）
此处是将原来44.1kHz的双通道wav文件转为单通道wav文件

获取音频信息

ffmpeg -i audio_16K_mono.wav

将得到

Input #0, wav, from ‘audio_16K_mono.wav’:
Metadata:
encoder : Lavf57.71.100
Duration: 00:03:10.29, bitrate: 256 kb/s
Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 16000 Hz,
mono, s16, 256 kb/s

#0表示只有一个通道
encoder：为libavformat支持的一种容器
Duration：时长
bitrate：比特率256kb/s，表示音频每秒传输的数据量，高质量音频一般比较大
Stram：流
#0：0：单通道
pcm_s16le:
- pcm(脉冲编码调制，pulse-code modulation)
- signed integer 16：（16位有符号整型）格式采样
- le表示小端（little endian），高位数据存地址高位，地位数据存地址地位，有如[1][0][0][0] / 0x0001。
mono：单通道

小插曲

最近看到一道数据类型题
题目：为什么float类型 $\mathbf{(1e10+3.14)-1e10=0?}$
解题如下：
$\mathbf{1e10}$ 二进制表示为：
$\mathbf{0010'0101'0100'0000'1011'1110'0100'0000'0000}$
或者表示为
$\mathbf{1.0010'1010'0000'0101'1111'0010'0000'0000'0_2*2^{33}}$

浮点数三要素：

首位：0表示正数，1表示负数
中间位，8位，为科学计数法指数部分，上例为33与偏置量（127）的和，此例为160，二进制为1010’0000
尾部：23位，二进制表示的小数部分的前23位，此例为0010’1010’0000’0101’1111’001
故 $\mathbf{1e10}$ 的浮点数为：
$\mathbf{0'1010'0000'0010'1010'0000'0101'1111'001}$
到此为止，可知舍去了科学计数法中小数部分的后10位

小数的二进制表示两个要素：

整数部分：正常表示，3.14整数部分为0011
小数部分：乘以2取整数部分，
- 0.14*2=0.28 取0
- 0.28*2=0.56 取0
- 0.56*2=1.12 取1
- 0.12*2=0.24 取0
- 0.24*2=0.48 取0
- 0.48*2=0.96 取0
- 0.96*2=1.92 取1
- …

3.14的二进制表示为：
$\mathbf{11.0010001...}$
综上， $\mathbf{1e10+3.14}$ 的二进制表示为：
$\mathbf{1.0010'1010'0000'0101'1111'0010'0000'0001'1001’0001_2*2^{33}}$
转为浮点数，为
$\mathbf{0'1010'0000'0010'1010'0000'0101'1111'001}$
与 $\mathbf{1e10}$ 一样，故float类型 $\mathbf{(1e10+3.14)-1e10}=0$

修剪音频

ffmpeg -i audio.wav -ss 60 -t 20 audio_small.wav

i：输入音频audio.wav
ss: 截取起始秒
t：截取段时长
audio_small.wav:输出文件

串联视频

新建一个list_of_files_to_concat的txt文档，内容如下：

file 'file1.wav'
file 'file2.wav'
file 'file3.wav'

采用以下命令行，可将三个文件串联输出，编码方式为复制

ffmpeg -f concat -i list_of_files_to_concat -c copy output.wav

分割视频

以下命令行将输入视频分割为1s一个

ffmpeg -i output.wav -f segment -segment_time 1 -c copy out%05d.wav

交换声道

ffmpeg -i stereo.wav -map_channel 0.0.1 -map_channel 0.0.0 stereo_inverted.wav

0.0.1输入文件音频流右声道
0.0.0输入文件音频流左声道

合并声道

ffmpeg -i left.wav -i right.wav -filter_complex "[0:a][1:a]join=inputs=2:channel_layout=stereo[a]" -map "[a]" mix_channels.wav

filter_complex：复杂音频滤波器图
[0:a],[1:a]：第一个和第二个文件的音频流
join=inputs=2：表示两个输入流混合
channel_layout=stereo：混合后输出为立体声
[a]：输出音频流标签
map ”[a]"：将‘[a]'标签的音频流映射到输出文件

分割立体声音频为左右单声道文件

ffmpeg -i stereo.wav -map_channel 0.0.0 left.wav -map_channel 0.0.1 right.wav

map_channel 0.0.0:将左声道映射到第一个输出文件
map_channel 0.0.1:将右声道映射到第二个输出文件

将某个声道静音

ffmpeg -i stereo.wav -map_channel -1 -map_channel 0.0.1 muted.wav

map_channel -1:忽略某声道
map_channel 0.0.1:将右声道映射到输出文件

音量调节

ffmpeg -i data/music_44100.wav -filter:a “volume=0.5” data/music_44100_volume_50.wav
ffmpeg -i data/music_44100.wav -filter:a “volume=2.0” data/music_44100_volume_200.wav

filter:a：使用音频过滤器
“volume=0.5”：将音频音量变为原来一半
“volume=2”：将音频音量变为原来两倍

图1 原声，半声，倍声(自上而下) 由图1可知，二倍声出现削波（失真）现象。

sox音量调节

sox -v 0.5 data/music_44100.wav data/music_44100_volume_50_sox.wav
sox -v 2.0 data/music_44100.wav data/music_44100_volume_200_sox.wav

$\text{sox -v n}$ 输入文件路径输出文件路径

v n:音量调节系数，n可理解为倍数。

P2 处理语音数据——编程方式

wav: scipy.io.wavfile
mp3:pydub

以数组形式加载音频文件

# 以数组形式读取wav和mp3
from pydub import AudioSegment
import numpy as np
from scipy.io import wavfile


# 用 scipy.io.wavfile 读取wav文件
fs_wav, data_wav = wavfile.read("resampled.wav")

# 用 pydub 读取mp3
audiofile = AudioSegment.from_file("resampled.mp3")
data_mp3 = np.array(audiofile.get_array_of_samples())
fs_mp3 = audiofile.frame_rate

print('Sq Error Between mp3 and wav data = {}'.
      format(((data_mp3 - data_wav)**2).sum()/len(data_wav)))
print('Signal Duration = {} seconds'.
      format(data_wav.shape[0] / fs_wav))

# 输出,我使用ffmpeg将wav转成MP3，比特率将为24kb
Sq Error Between mp3 and wav data = 3775.2859044790266
Signal Duration = 34.5513125 seconds

显示左右声道

import numpy as np
from scipy.io import wavfile
import matplotlib.pyplot as plt
fs,data=wavfile.read('resampled_double.wav')
time=np.arange(0,len(data))/fs
fig,axs=plt.subplots(2,1,figsize=(10,6),sharex=True)
axs[0].plot(time,data[:,0],label='Left Channel',color='blue')
axs[0].set_ylabel('Amplitude')
axs[0].legend()
axs[1].plot(time,data[:,1],label='Right Channel',color='orange')
axs[1].set_ylabel('Amplitute')
axs[1].set_xlabel('Time(seconds)')
axs[1].legend()
plt.suptitle("Stereo Audio Waveform")
plt.show()

图2 左右声道展示

正则化

import matplotlib.pyplot as plt
from scipy.io import wavfile
import numpy as np
fs,data = wavfile.read("resampled_double.wav")
time=np.arange(0,len(data))/fs
plt.figure(figsize=(10,4))
plt.plot(time,data[:,0]/2^15)
plt.xlabel('Time(seconds)')
plt.ylabel('Amplitude')
plt.title('Stereo Audio Waveform')

图3 数据量化后的波形图

修剪音频

# 显示2到4秒的波形
import numpy as np
import matplotlib.pyplot as plt
from scipy.io import wavfile
fs,data=wavfile.read('resampled_double.wav')
time=np.arange(0,len(data[2*fs:4*fs]))/fs
plt.figure(figsize=(10,4))
plt.plot(time,data[2*fs:4*fs])
plt.xlabel('Time/s')
plt.ylabel('Amplitude')
plt.title('Stereo Audio Waveform')
plt.show()

图4 剪辑后音频波形

分割为固定大小

import numpy as np
from scipy.io import wavfile
import IPython
fs,signal=wavfile.read("resampled.wav")
segment_size_t=1
segment_size=segment_size_t*fs
segments=[signal[x:x+segment_size]for x in range(0,len(signal),segment_size)]
for i,s in enumerate(segments):
	if len(s)<segment_size:
		s=np.pad(s,(0,(segment_size-len(s))),'constant')		# 这里是为了每个clip都为1s
	wavfile.write(f"resampled_segment_{i}_{i+1}.wav",fs,s)
IPython.display.display(IPython.display.Audio("resampled_segment_34_35.wav"))

# 输出，成功输出35个1s的wav文件

简单算法——删去无声片段

import IPython
import matplotlib.pyplot as plt
import numpy as np
energies=[((s/2**15)**2).sum()/len(s) for s in segments]	# 防止溢出
thres=np.percentile(energies,20)
indices_of_segments_to_keep=(np.where(energies>thres)[0])
segments2=np.array(segments)[indices_of_segments_to_keep]
new_signal=np.concatenate(segments2)
wavfile.write("processed_new.wav",fs,new_signal.astype(np.int16))	# 转成int
plt.figure(figsize=(10,6))
plt.plot(energies,label="Energies",color="red")
plt.plot(np.ones(len(energies))*thres,label="Thresholds",color="blue")
plt.title("Energies VS Thresholds")
plt.legend()
plt.show()
IPython.display.display(IPython.display.Audio("processed_new.wav"))
IPython.display.display(IPython.display.Audio("resampled.wav"))

图5 根据能量无声片段的删除及删除后的时长

往单声道音频中加入节拍

import numpy as np
import scipy.io.wavfile as wavfile
import librosa
import IPython
import matplotlib.pyplot as plt

# 加载文件并提取节奏和节拍：
[Fs, s] = wavfile.read('resampled.wav')
tempo, beats = librosa.beat.beat_track(y=s.astype('float'), sr=Fs, units="time")
beats -= 0.05

# 在每个节拍的第二个声道上添加小的220Hz声音
s = s.reshape(-1, 1)
s = np.array(np.concatenate((s, np.zeros(s.shape)), axis=1))
for ib, b in enumerate(beats):
    t = np.arange(0, 0.2, 1.0 / Fs)
    amp_mod = 0.2 / (np.sqrt(t)+0.2) - 0.2
    amp_mod[amp_mod < 0] = 0
    x = s.max() * np.cos(2 * np.pi * t * 220) * amp_mod
    s[int(Fs * b): int(Fs * b) + int(x.shape[0]), 1] = x.astype('int16')

# 写入一个wav文件，其中第二个声道具有估计的节奏：
wavfile.write("tempo.wav", Fs, np.int16(s))

# 在笔记本中播放生成的文件：
IPython.display.display(IPython.display.Audio("tempo.wav"))

# 绘制波形图
time = np.arange(0, len(s)) / Fs
fig, axs = plt.subplots(2, 1, figsize=(10, 6), sharex=True)
axs[0].plot(time, s[:, 0], label='左声道', color='orange')
axs[0].set_ylabel('振幅')
axs[0].legend()
axs[1].plot(time, s[:, 1], label='右声道', color='blue')
axs[1].set_xlabel("时间/秒")
axs[1].set_ylabel("振幅")
axs[1].legend()
plt.show()

图6 添加tempo的左右声道及音频

实时录制以及频率分析

# paura_lite:
# 一个超简单的命令行音频录制器，具有实时频谱可视化

import numpy as np
import pyaudio
import struct
import scipy.fftpack as scp
import termplotlib as tpl
import os

# 获取窗口尺寸
rows, columns = os.popen('stty size', 'r').read().split()

buff_size = 0.2          # 窗口大小（秒）
wanted_num_of_bins = 40  # 要显示的频率分量数量

# 初始化声卡进行录制：
fs = 8000
pa = pyaudio.PyAudio()
stream = pa.open(format=pyaudio.paInt16, channels=1, rate=fs,
                 input=True, frames_per_buffer=int(fs * buff_size))

while 1:  # 对于每个录制的窗口（直到按下Ctrl+C）
    # 获取当前块并将其转换为short整数列表，
    block = stream.read(int(fs * buff_size))
    format = "%dh" % (len(block) / 2)
    shorts = struct.unpack(format, block)

    # 然后进行归一化并转换为numpy数组：
    x = np.double(list(shorts)) / (2**15)
    seg_len = len(x)

    # 获取当前窗口的总能量并计算归一化因子
    # 用于可视化最大频谱图值
    energy = np.mean(x ** 2)
    max_energy = 0.02  # 条形设置为最大的能量
    max_width_from_energy = int((energy / max_energy) * int(columns)) + 1
    if max_width_from_energy > int(columns) - 10:
        max_width_from_energy = int(columns) - 10

    # 获取FFT的幅度和相应的频率
    X = np.abs(scp.fft(x))[0:int(seg_len/2)]
    freqs = (np.arange(0, 1 + 1.0/len(X), 1.0 / len(X)) * fs / 2)

    # ... 并重新采样为固定数量的频率分量（用于可视化）
    wanted_step = (int(freqs.shape[0] / wanted_num_of_bins))
    freqs2 = freqs[0::wanted_step].astype('int')
    X2 = np.mean(X.reshape(-1, wanted_step), axis=1)

    # 将（频率，FFT）作为水平直方图绘制：
    fig = tpl.figure()
    fig.barh(X2, labels=[str(int(f)) + " Hz" for f in freqs2[0:-1]],
             show_vals=False, max_width=max_width_from_energy)
    fig.show()
    # 添加足够多的新行以清除屏幕在下一次迭代中：
    print("\n" * (int(rows) - freqs2.shape[0] - 1))

图7 实时录制并获取频谱直方图

人工智能中的知识图谱与向量数据库：选择与应用指南 AI Agent首席体验官人工智能知识图谱数据库
1.人工智能领域，知识图谱是什么？知识图谱是人工智能和语义网领域的一个重要概念，它是一种结构化的知识表示方法，用于存储实体之间的语义关系。知识图谱基本上是由节点（实体）和边（关系）组成的图结构：节点：代表现实世界中的实体或概念，如人物、地点、组织等边：代表实体间的语义关系，如"出生于"、“工作于”、"创立了"等知识图谱的主要特点和应用包括：语义网络表示：以三元组形式（主体-关系-客体）存储知识，如
Python包管理之Protry的基本使用菜鸟级后端 python linux 开发语言
一，Poetry是什么Poetry是Python生态中一款革命性的依赖管理与项目打包工具，它通过现代化的设计理念解决了传统工具（如pip+virtualenv）在项目管理中的诸多痛点，比pip的功能强大许多。核心功能如下：1，智能依赖管理Poetry采用pyproject.toml文件统一管理项目元数据、依赖声明及构建配置，通过poetryadd命令即可自动解析依赖树并安装精确版本，避免版本冲突（
Python变量的动态创建念致达 Python python
Python变量的动态创建动态地创建变量可以使用globals()和locals()来实现。这两个对象以字典的形式分别保存着系统的静态变量和局部变量。所以只要将要创建的变量加入这两个字典中的任一个，就实现了变量的动态创建。>>>ls=['name','无奇']>>>i=21>>>globals()[ls[0]+str(i)]=ls[1]>>>name21'无奇'动态变量的应用。最典型的就是pyth
C++实现一个基于多态的职工管理系统（附源码） loveCC_orange C/C++c++面试华为后端开发多态
之前为了找实习，学了Python，刷了五六十道算法题，然后就开始投简历面试了，结果就是各个大厂一轮游，要Python开发的岗位又少的可怜。但所幸华为的实习面试通过了~本来以为这样就可以等着拿offer了，结果泡池子失败，今年华为的RAN研究部offer数量缩水，由于没在前四之列，所以就被pass掉了。然后又重新开始海投简历找实习。在无数次碰壁之后，深感自己才疏学浅，学的东西还是太少了。于是继续刷题
Python编程：色温倔强老吕 C++与python交互编程 python 色温
色温（ColorTemperature）是一个用来描述光源颜色特征的物理量，通常用开尔文温度（K）表示。它并不是指灯泡或光源的实际温度，而是以绝对黑体辐射为参照的一种度量方式。当一个理想的黑体被加热到特定温度时，它会发出特定颜色的光，这个颜色与光源的颜色相匹配时，该黑体的温度即为该光源的色温。色温范围及其对应的光色：低于3000K：暖白色，给人以温暖、舒适的感觉，类似于烛光或者白炽灯。3000K至
超详细Python教程——图形用户界面和游戏开发
图形用户界面和游戏开发基于tkinter模块的GUIGUI是图形用户界面的缩写，图形化的用户界面对使用过计算机的人来说应该都不陌生，在此也无需进行赘述。Python默认的GUI开发模块是tkinter（在Python3以前的版本中名为Tkinter），从这个名字就可以看出它是基于Tk的，Tk是一个工具包，最初是为Tcl设计的，后来被移植到很多其他的脚本语言中，它提供了跨平台的GUI控件。当然Tk并
【AI大模型】26、算力受限下的模型工程：从LoRA到弹性智能系统的优化实践无心水 AI大模型人工智能搜索引擎 LoRA 大语言模型微调模型压缩知识蒸馏量化技术
引言：算力瓶颈与模型工程的突围之路在人工智能领域，大语言模型的发展正呈现出参数规模爆炸式增长的趋势。从GPT-3的1750亿参数到PaLM的5400亿参数，模型能力的提升往往伴随着对算力资源的极度渴求。然而，对于大多数企业和研究者而言，动辄数百GB的显存需求、数十万块GPU的训练集群显然是难以企及的"算力鸿沟"。当面对"无米之炊"的困境时，模型工程技术成为突破算力瓶颈的核心路径——通过算法创新而非
Python编程：ISP中的白平衡（White Balance）倔强老吕 C++与python交互编程 python ISP 白平衡
白平衡（WhiteBalance）是图像信号处理（ISP）中的关键步骤，用于消除光源色温对图像颜色的影响，使白色物体在不同光照条件下都能呈现真实的白色。白平衡的基本原理白平衡通过调整图像中R、G、B三个通道的增益，使得在特定光源下白色物体能够呈现中性色（R=G=B）。主要概念色温：表示光源颜色的物理量，单位是开尔文(K)灰色世界假设：认为自然场景的平均反射率是中性灰色完美反射体假设：认为图像中最亮
Python编程：使用 YOLO 目标检测倔强老吕 python 开发语言
YOLO（YouOnlyLookOnce）是一种基于深度学习的实时目标检测算法，由JosephRedmon等人于2016年首次提出。与传统的两阶段目标检测方法（如R-CNN系列）不同，YOLO将目标检测任务视为一个单一的回归问题，直接在图像上进行一次推理即可预测边界框和类别概率。YOLO的核心思想单次前向传播（SingleShotDetection）：YOLO只需对输入图像进行一次神经网络推理，就
不懂的还在争论AI，懂行的已用Python+DeepSeek变现！逆袭机会就在AI应用层渡难繁辰 python开发人工智能拥抱AI 人工智能 python ai
最近总有种错觉：AI时代轰轰烈烈，普通人却只能当看客？大模型训练动辄千万美金，算法高深莫测，似乎离我们太远。别急，AI真正的革命性力量，正从神秘实验室涌向普通人的键盘——它的名字叫“AI应用层”。而拿到这张船票的钥匙，就是你早该学起来的：Python。当质疑者还在争论“AI能否取代人类”，行动派已用DeepSeek+LangChain开发智能应用月入五位数！巨头烧钱搭台，我们轻量唱戏！科技大佬砸重
这份「零基础」机器学习实战课程，帮你彻底搞懂AI不再迷茫！——深度解析ML-For-Beginners wylee 人工智能机器学习
引言：告别迷茫，拥抱AI未来在当今科技浪潮之巅，人工智能（AI）无疑是最璀璨的明星。机器学习（MachineLearning），作为AI的核心驱动力，正以前所未有的速度渗透到我们生活的方方面面：从智能推荐系统到自动驾驶，从疾病诊断到金融风控，其应用场景几乎无处不在。然而，对于无数渴望投身AI领域的学习者而言，机器学习的门槛似乎一直高不可攀。你是否也曾有过这样的困惑：面对海量的在线课程和资料，眼花缭
python 内存空间管理、垃圾回收机制、对象的引用机制、引用计数法贵哥的编程之路(热爱分享为后来者) 开发语言 python
一、对象与内存空间在Python中，一切皆对象。每当你创建一个变量、数据结构、函数、类实例等，Python都会在内存中为它分配空间。对象的内存空间由Python的内存管理器自动分配和回收，开发者无需手动管理。二、垃圾回收（GarbageCollection）垃圾回收指的是：当对象不再被使用时，Python会自动销毁该对象并释放其占用的内存空间。这样可以防止“内存泄漏”，让程序长期运行也不会因为无用
【学习】《算法图解》第七章学习笔记：树自学也学好编程程序人生
前言在前面的章节中，我们学习了数组、链表、散列表等基本数据结构，以及一些基础算法。本章将介绍一种非常重要的数据结构——树(Tree)，特别是二叉搜索树(BinarySearchTree)。树结构在计算机科学中应用广泛，从文件系统到数据库再到人工智能，都能看到树的身影。《算法图解》第七章深入浅出地介绍了树的基本概念、实现和应用，帮助读者理解这一关键数据结构。一、树的基本概念（一）什么是树树是一种分层
python开发框架django/flask/fastapi对比研创通之逍遥峰 Python python django flask
Python三大Web开发框架对比：DjangovsFlaskvsFastAPIPython生态系统中有三个主流的Web开发框架：Django、Flask和FastAPI。它们在设计哲学、功能特性和适用场景上各有不同。1.框架概览对比特性DjangoFlaskFastAPI类型全功能框架微框架现代异步框架学习曲线较陡峭平缓中等内置功能ORM,Admin,Auth,模板仅基础路由和模板自动文档,数据
Python中Django处理MySQL事务@transaction.atomic(using=‘default‘, savepoint=True) 蓝小白1024 Django 值得拥有-Python 数据库 python django mysql
Python中Django处理MySQL事务@transaction.atomic(using=‘default’,savepoint=True)fromdjango.dbimporttransaction#导入事务模块在Django中开启MySQL事务有两种方式,一种是使用装饰器,还有一种是使用with(相当于上下文管理器)来开启事务装饰器方式在函数视图中#在函数视图添加一个@transacti
Windows如何安装ComfyUI 俊偉 stable diffusion agi comfyui
ComfyUI是一个用于生成和管理文本到图像（Text-to-Image）的开源项目，基于StableDiffusion模型。它提供了图形用户界面（GUI），使得使用AI生成图像变得更加简单和直观。要在Windows上安装ComfyUI，你可以按照以下步骤进行操作。前提条件1.Python3.10+：ComfyUI需要Python3.10或更高版本。你可以从Python官方网站下载并安装最新版本的
Python装饰器深度解析：提升代码可读性与复用性天天进步2015 python python 开发语言
Python装饰器（Decorator）是提升代码可读性与复用性的强大工具。无论是日志记录、权限校验、性能分析还是缓存机制，装饰器都能让你的代码更加优雅、简洁和高效。本文将深入解析Python装饰器的原理、常见用法、进阶技巧与最佳实践，助你写出更具专业水准的Python代码。目录装饰器的基本原理函数装饰器的常见用法带参数的装饰器类装饰器与方法装饰器装饰器的嵌套与组合进阶技巧：保留元信息与类型提示装
Python性能优化指南：让你的代码提速10倍的实用技巧天天进步2015 python python
Python以其简洁易用著称，但在性能方面常被诟病。其实，通过一些实用的优化技巧，你的Python代码性能完全可以提升数倍甚至十倍。本文将结合实际经验，系统介绍Python性能优化的常见思路与方法，并给出具体案例，助你写出高效的Python程序。1.算法与数据结构优化优先选择合适的数据结构：如查找用set/dict，顺序存储用list。避免不必要的嵌套循环，能用集合操作、字典映射解决的，绝不用暴力
【day51】复习日 daomingwu017 Python打卡训练营内容 python
内容来自@浙大疏锦行python打卡训练营@浙大疏锦行作业：day43的时候我们安排大家对自己找的数据集用简单cnn训练，现在可以尝试下借助这几天的知识来实现精度的进一步提高
微软人工智能证书AI-102 | 如何快速通过？全球认证考试中心人工智能微软
微软AI-102考试，全称“DesigningandImplementingaMicrosoftAzureAISolution”，是微软推出的用于验证考生在Azure平台上设计和实施AI解决方案核心能力的认证考试。以下是具体介绍：考试描述：考试主要衡量考生实施计划和管理Azure认知服务解决方案、计算机视觉解决方案、自然语言处理解决方案、知识挖掘解决方案、对话式AI解决方案的能力。考试题型通常包括
FastAPI vs Flask vs Django：Python Web框架全面对比天天进步2015 python python fastapi flask
Python作为最受欢迎的编程语言之一，其Web开发生态极为丰富。FastAPI、Flask和Django是当前主流的三大PythonWeb框架，各有千秋。本文将从架构设计、开发效率、性能表现、生态支持、适用场景等方面，全面对比这三大框架，帮助开发者选择最适合自己的技术栈。目录框架简介架构设计与理念开发效率与易用性性能对比生态与扩展性典型应用场景总结与选型建议参考资料框架简介FastAPI定位：新
如何在CentOS7上搭建自己的GitLab仓库详解 ytttr873 gitlab
在CentOS7上搭建自己的GitLab仓库的详细步骤如下：更新系统：在开始之前，确保您的系统已经更新到最新版本。打开终端，并执行以下命令：sudoyumupdate-y安装依赖：在安装GitLab之前，需要安装一些依赖项。执行以下命令来安装所需的软件包：sudoyuminstall-ycurlpolicycoreutils-pythonopenssh-server添加GitLab仓库：执行以下命
基于python快速部署属于你自己的页面智能助手小张Tt python 人工智能腾讯云AI代码助手
文章目录前言一、实现目标二、代码解析2.1目录结构2.2后端：Flask服务器的搭建2.2.1安装Flask2.2.2创建Flask应用2.3实现聊天界面与消息交互2.3.1创建聊天界面三、跨域问题的解决3.1安装flask-cors3.2在Flask中启用CORS五效果展示前言 AI聊天机器人已经成为了许多应用场景中的重要组成部分。通过与用户的对话，聊天机器人不仅能够提升用户体验，还能通过不断
Bagel: 开源协作式AI数据管理平台的使用指南 llzwxh888 人工智能 python
Bagel:开源协作式AI数据管理平台的使用指南引言在人工智能和机器学习领域，高质量的数据集对于模型训练和推理至关重要。Bagel作为一个开源的协作式AI数据管理平台，为开发者和研究人员提供了一个强大的工具，用于创建、共享和管理推理数据集。本文将深入探讨Bagel的特性、安装方法以及如何使用它来处理和管理向量数据。Bagel简介Bagel（OpenInferenceplatformforAI）可以
60 python asyncio模块(异步IO) 爬呀爬的水滴 python零基础到入门 python 开发语言前端 asyncio 异步io
一、asyncio概述asyncio是Python标准库中用于编写异步I/O操作的强大模块，特别适用于处理I/O密集型任务。在传统同步编程中，当程序遇到网络请求、文件读写等I/O操作时会阻塞等待，导致资源浪费。而asyncio通过异步编程模型，让程序在等待I/O操作时能同时处理其他任务，极大提升了单线程程序的并发效率。二、asyncio核心概念2.1协程（Coroutine）协程是asyncio的
python日期时间用哪个模块_python模块介绍-datetime介绍：基本的日期和时间类型
待更新介绍gevent是基于协程的Python网络库。特点：基于libev的快速事件循环(Linux上epoll，FreeBSD上kqueue)。基于greenlet的轻量级执行单元。API的概念和Python标准库一致(如事件，队列)。可以配合socket，ssl模块使用。能够使用标准库和第三方模块创建标准的阻塞套接字(gevent.monkey)。默认通过线程池进行DNS查询,也可通过c-ar
python 获取节假日 AI算法网奇 python宝典
www.easybots.cn是不准的，不能用，比如20190913，不能判断节假日#-*-coding:utf-8-*-importjsonimporturllib.requestimporttimeimportdatetimedefa1(date_str):server_url="http://api.goseek.cn/Tools/holiday?date="#server_url="htt
ADIOS2 介绍与使用指南东北豆子哥 HPC/MPI HPC
文章目录ADIOS2介绍与使用指南什么是ADIOS2?ADIOS2的主要特点ADIOS2核心概念ADIOS2安装Linux系统安装Windows安装ADIOS2基本使用C++示例Python示例ADIOS2高级特性并行I/O流模式ADIOS2引擎类型性能优化建议总结ADIOS2介绍与使用指南什么是ADIOS2?ADIOS2(AdaptableInputOutputSystemversion2)是一
核密度估计KDE和概率密度函数PDF（深入浅出）赵孝正深度学习数学基础 pdf KDE
目录1.和密度估计（KDE）核密度估计的基本原理核密度估计的公式核密度估计的应用Python中的KDE实现示例代码结果解释解释结果总结2.概率密度函数（PDF）概率密度函数（PDF）是怎么工作的：用图画来解释解释这个图：问题解答：总结3.核密度估计（KDE）和概率密度函数（PDF）之间的关系故事开始：第一种方法：概率密度函数（PDF）第二种方法：核密度估计（KDE）总结一下：问题解答：1.和密度估
CIANNA由天体物理学家提供/为天体物理学家提供的卷积交互式人工神经网络 struggle2025 神经网络
一、软件介绍文末提供程序和源码下载CIANNA是一个通用的深度学习框架，主要用于天文数据分析。根据天体物理问题解决的相关性添加功能和优化。CIANNA可用于为各种任务构建和训练大型神经网络模型，并提供高级Python接口（类似于keras、pytorch等）。CIANNA的特点之一是它定制实施了受YOLO启发的对象探测器，用于2D或3D射电天文数据产品中的星系探测。该框架通过低级CUDA编程完全实
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

语音识别入门——常用软件及python运用

工具以及使用到的库

P1 处理语音数据——命令行方式

格式转换

降采样、通道转换

获取音频信息

小插曲

修剪音频

串联视频

分割视频

交换声道

合并声道

分割立体声音频为左右单声道文件

将某个声道静音

音量调节

P2 处理语音数据——编程方式

以数组形式加载音频文件

显示左右声道

正则化

修剪音频

分割为固定大小

简单算法——删去无声片段

往单声道音频中加入节拍

实时录制以及频率分析

你可能感兴趣的:(语音识别,python,人工智能)