cv君

【原理+实战】AI所有领域SOTA综述（一）语音识别

文章目录

前言
语音识别原理
- 信号处理，声学特征提取
- 识别字符，组成文本
- 声学模型
- 语言模型
- 词汇模型
语音声学特征提取：MFCC和LogFBank算法的原理
实战一 ASR语音识别模型
- - 系统的流程
  - 基于HTTP协议的API接口
  - 客户端
  - 未来
实战二调百度和科大讯飞API
实战三离线语音识别 Vosk

前言

首先，cv君下血本费时整理了AI在音视频领域的大量的方向，形成本文综述，从原理到底层算法，到上层应用，统统透析~本系列由于综述文章过长的原因，所以分开写了。文章附带大量的算法原理+代码实现教学，欢迎关注，一起AI。

语音识别原理

首先是语音识别和语音唤醒等任务。一听到你就会想起科大讯飞，中国百度等平台，由于
这两家企业在中国语音领域占用80+市场，所以他们做得很优秀，不过由于高精技术无法开源，其他企业只得花费大量的金钱去购买其API，而无法研究语音识别等应用，导致民间语音识别发展较慢，今天我们来一饱眼福吧！

信号处理，声学特征提取

我们都知道声音信号是连续的模拟信号，要让计算机处理首先要转换成离散的数字信号，进行采样处理。正常人听觉的频率范围大约在20Hz~20KHz之间，为了保证音频不失真影响识别，同时数据又不会太大，通常的采样率为16KHz。
语音采样

在数字化的过程中，我们首先要判断端头，确定语音的开始和结束，然后要进行降噪和过滤处理（除了人声之外，存在很多的噪音），保证让计算机识别的是过滤后的语音信息。获得了离散的数字信号之后，为了进一步的处理我们还需要对音频信号分帧。因为离散的信号单独计算数据量太大了，按点去处理容易出现毛刺，同时从微观上来看一段时间内人的语音信号一般是比较平稳的，称为短时平稳性，所以会需要将语音信号分帧，便于处理。

我们的每一个发音，称为一个 音素，是语音中的最小单位，
比如普通话发音中的元音，辅音。不同的发音变化是由于人口腔肌肉的变化导致的，
这种口腔肌肉运动相对于语音频率来说是非常缓慢的，所以我们为了保证信号的短时平稳性，
分帧的长度应当小于一个音素的长度，当然也不能太小否则分帧没有意义。

通常一帧为20~50毫秒，同时帧与帧之间有交叠冗余，避免一帧的信号在两个端头被削弱了影响识别精度。常见的比如帧长为25毫秒，两帧之间交叠15毫秒，也就是说每隔25-15=10毫秒取一帧，帧移为10毫秒，分帧完成之后，信号处理部分算是完结了。

随后进行的就是整个过程中极为关键的特征提取。将原始波形进行识别并不能取得很好的识别效果，而需要进行频域变换后提取的特征参数用于识别。常见的一种变换方法是提取MFCC特征，根据人耳的生理特性，把每一帧波形变成一个多维向量，可以简单地理解为这个向量包含了这帧语音的内容信息。

实际应用中，这一步有很多细节，声学特征也不止有MFCC这一种，具体这里不讲，但是各种特征提取方法的核心目的都是统一的：尽量描述语音的根本特征，尽量对数据进行压缩。

比如下图示例中，每一帧f1,f2,f3…转换为了14维的特征向量，然后整个语音转换为了14*N（N为帧数）的向量矩阵。

一帧一帧的向量如果不太直观，还可以用下图的频谱图表示语音，每一列从左到右都是一个25毫秒的块，相比于原始声波，从这种数据中寻找规律要容易得多。

不过频谱图主要用作语音研究，语音识别还是需要用一帧一帧的特征向量。

识别字符，组成文本

特征提取完成之后，就进入了特征识别，字符生成环节。这部分的核心工作就是从每一帧当中找出当前说的音素，再由多个音素组成单词，再由单词组成文本句子。其中最难的当然是从每一帧中找出当前说的音素，因为我们每一帧是小于一个音素的，多个帧才能构成一个音素，如果最开始就错了则后续很难纠正。

怎么判断每一个帧属于哪个音素了？最容易实现的办法就是概率，看哪个音素的概率最大，则这个帧就属于哪个音素。那如果每一帧有多个音素的概率相同怎么办，毕竟这是可能的，每个人口音、语速、语气都不同，人也很难听清楚你说的到底是Hello还是Hallo。而我们语音识别的文本结果只有一个，不可能还让人参与选择进行纠正。

这时候多个音素组成单词的统计决策，单词组成文本的统计决策就发挥了作用，它们也是同样的基于概率：音素概率相同的情况下，再比较组成单词的概率，单词组成之后再比较句子的概率。

比如以上那个词很有可能是「HHHEE_LL_LLLOOO」。但它同时认为我说的也可能是「HHHUU_LL_LLLOOO」，或者甚至是「AAAUU_LL_LLLOOO」。我们可以遵循一些步骤来整理这个输出。首先，我们将用单个字符替换任何重复的字符：

· HHHEE_LL_LLLOOO 变为 HE_L_LO
· HHHUU_LL_LLLOOO 变为 HU_L_LO
· AAAUU_LL_LLLOOO 变为 AU_L_LO

然后，我们将删除所有空白：

· HE_L_LO 变为 HELLO
· HU_L_LO 变为 HULLO
· AU_L_LO 变为 AULLO

这让我们得到三种可能的转写——「Hello」、「Hullo」和「Aullo」，最终根据单词概率我们会发现Hello是最可能的，所以输出Hello的文本。上面的例子很明确的描述怎么从帧到音素，再从音素到单词，概率决定一切，那这些概率是怎么获得的了？难道为了识别一种语言我们把人类几千上百年说过的所有音素，单词，句子都统计出来，然后再计算概率？傻子都知道这是不可能的，那怎么办，这时我们就需要模型：

声学模型

发声的基本音素状态和概率，尽量获得不同人、不同年纪、性别、口音、语速的发声语料，同时尽量采集多种场景安静的，嘈杂的，远距离的发声语料生成声学模型。为了达到更好的效果，针对不同的语言，不同的方言会用不同的声学模型，在提高精度的同时降低计算量。

语言模型

单词和语句的概率，使用大量的文本训练出来。如果模型中只有两句话“今天星期一”和“明天星期二”，那我们就只能识别出这两句，而我们想要识别更多，只需要涵盖足够的语料就行，不过随之而来的就是模型增大，计算量增大。所以我们实际应用中的模型通常是限定应用域的，同比如智能家居的，导航的，智能音箱的，个人助理的，医疗的等等，降低计算量的同时还能提高精度，

词汇模型

针对语言模型的补充，语言词典和不同的发音标注。比如定期更新的地名，人名，歌曲名称，热词，某些领域的特殊词汇等等。

语言模型和声学模型可以说是语音识别中最重要的两个部分，语音识别中一个很重要的工作就是训练模型，有不识别的句子我们就加进去重新训练。不过我们在训练和计算概率时会发现一个问题，假设某条句子S出现的概率为P(S)，其中单词序列为W1,W2,W3 …, Wn

P(S) = P(W1,W2,W3 …, Wn) 展开为每个词出现的条件概率相乘
= P(W1)·P(W2|W1)·P(W3|W1,W2)···P(Wn|W1,W2,W3 …, Wn-1)

从计算上看第一个词的条件概率P(W1)很好计算，第二个词P(W2|W1)在已知第一个词的情况下，还不太麻烦，第三个词开始变得很难了，因为涉及到三个变量W1,W2,W3，每一个词都可能是一种语言字典的大小，到了Wn基本无法估计了，计算量太大了。

这时我们有很多简化但是有效的方法进行计算，比如说HMM隐马尔科夫模型Hidden Markov Model。

隐马尔科夫模型基于了两个最大的假设：一是内部状态的转移只与
上一状态有关，另一是输出值只与当前状态（或当前的状态转移）有关。就把问题简化了，

也就是说一个句子中某个单词序列出现的概率只和前面的一个单词有关，这样计算量就被大大简化了。

P(S) = P(W1)·P(W2|W1)·P(W3|W2)···P(Wn|Wn-1)

如上图示例，基于隐马尔科夫算法生成语言模型。我们只要按照实际要求构造出对应的模型，模型中涵盖足够的语料，就能解决各种语音识别问题。

语音识别过程其实就是在模型的状态网络中搜索一条最佳路径，语音对应这条路径的概率最大，这称之为“解码”。路径搜索的算法是一种动态规划剪枝的算法，称之为Viterbi算法，用于寻找全局最优路径。

如此一来整个语音识别的流程就很清晰了，再来回顾以下整个步骤：

信号处理：模数转换，识别端头，降噪等等。信号表征：信号分帧，特征提取，向量化等等。
模式识别：寻找最优概率路径，声学模型识别音素，词汇模型和语言模型识别单词和句子。

最后将语音识别成文本。

语音声学特征提取：MFCC和LogFBank算法的原理

几乎任何做自动语音识别的系统，第一步就是对语音信号，进行特征的提取。通过提取语音信号的相关特征，有利于识别相关的语音信息，并丢弃携带的其他不相关的所有信息，如背景噪声、情绪等。

   我们都知道，人类说话是通过体内的发声器产生的初始声音，
   被包括舌头和牙齿在内的其他物体形成的声道的形状进行滤波，
   从而产生出各种各样的语音的。传统的语音特征提取算法正是基于这一点，
   通过一些数字信号处理算法，能够更准确地包含相关的特征，
   从而有助于后续的语音识别过程。常见的语音特征提取算法有MFCC、FBank、LogFBank等。

1 MFCC

MFCC的中文全称是“梅尔频率倒谱系数”，这种语音特征提取算法是这几十年来，最常用的算法之一。这种算法是通过在声音频率中，对非线性梅尔刻度的对数能量频谱，进行线性变换得到的[1]。

MFCC特征提取算法的主体流程如下：
MFCC算法流程图1 MFCC算法流程
1.1 分帧

由于存储在计算机硬盘中的原始wav音频文件是不定长的，
我们首先需要将其按一定方法切分为固定长度的多个小片段，也就是分帧。根据语音信号变化迅速的特性，每一帧的时间长度一般取10-30毫秒，以保证一帧内有足够多的周期，且变化不会过于剧烈，因此，更适合这种适用于分析平稳信号的傅里叶变换。由于数字音频的采样率不同，分帧所得的每一帧向量的维度也不同。

为了避免时间窗的边界导致信息遗漏的问题，因此，在对从信号中取每一帧的时间窗进行偏移的时候，帧和帧之间需要有一部分的重叠区域。这个时间窗的偏移量，我们一般取为帧长的一半，即每一步都偏移一帧的大约二分之一之后的位置，作为时间窗取下一帧的最终位置。这样做的好处是，避免了帧与帧之间的特性变化过大。

   通常来说，我们选取时间窗长度为25毫秒，时间窗的偏移量为10毫秒。

1.2 预加重

   由于声音信号从人的声门发出后，存在12dB/倍频程的衰减，在通过口唇辐射后，
   还存在6dB/倍频程的衰减，因而在进行快速傅里叶变换之后，
   高频信号部分中的成分较少。所以，对语音信号进行预加重操作，
   其主要目的是加强语音信号的每一帧中，那些高频部分的信号
   ，以提高其高频信号的分辨率。我们需要通过采用如下公式的一阶高通滤波器进行预加重操作：

H(z)=1−α×z−1(1)
S(n)=S(n)−α×S(n−1)∀n∈N(2)

在上式中，α是预加重的系数，其一般的取值范围是0.9 < α < 1.0，通常取0.97。n表示当前处理的是第n帧，其中，第一个n=0的帧需要特别处理。
1.3 加窗

   在之前的分帧过程中，直接将一个连续的语音信号切分为若干个片段，
   会造成截断效应产生的频谱泄漏，加窗操作的目的是消除每个帧的短时信号在其两
   端边缘处出现的信号不连续性问题。MFCC算法中，选取的窗函数通常是汉
   明窗，也可以使用矩形窗和汉宁窗。需要注意的是，预加重必须在加窗之前进行。

汉明窗的窗函数为：
W(n)=0.53836−0.46164×cos(2πnN−1)(0≤n≤N,n=0,1,2,…,N)(3)
加窗过程为：
S′(n)=W(n)×S(n)(4)
1.4 快速傅里叶变换

在经过上述的一系列的处理过程之后，我们得到的仍然是时域的信号，而时域中可直接获取的语音信息量较少。在进行进一步的语音信号特征提取时，还需要将每一帧的时域信号对应转换到其频域信号。对于存储在计算机上的语音信号，我们需要使用离散的傅里叶变换，由于普通的离散傅里叶变换的计算复杂度较高，通常使用快速傅里叶变换来实现。由于MFCC算法经过分帧之后，每一帧都是短时间内的时域信号，所以这一步也成为短时快速傅里叶变换。
P(n)=∑N−1k=0S(n)×e−j⋅2πknN(0

   根据奈奎斯特定理，如果要再次从离散的数字信号无损地转换到模拟信号上，
   在对模拟信号进行采样时，我们需要采用模拟信号最高频率值的2倍以上的采样率，
   对模拟信号进行模数转换的采样。对于语音识别常用的16kHz采样率音频，
   傅里叶变换之后的频率范围为0到8kHz之间。

1.5 计算幅度谱(对复数取模)

   在完成了快速傅里叶变换之后，得到的语音特征是一个复数矩阵，
   它是一个能量谱，由于能量谱中的相位谱包含的信息量极少，
   所以我们一般选择丢弃相位谱，而保留幅度谱。

   丢弃相位谱保留幅度谱的方法一般是两种，对每一个复数求绝对值或者求平方值。

P′(n)=P2(n)−−−√(6)
P′(n)=P2(n)(7)
1.6 Mel滤波

   Mel滤波的过程是MFCC和fBank特征的关键之一。
   Mel滤波器是由20个三角形带通滤波器组成的，将线性频率转换为非线性分布的Mel频率。

Mel滤波器原理图图2 Mel滤波器原理图

Mel倒谱公式：
Mel(f)=2595×log10(1+f700)=1125×ln(1+f700)(8)
梅尔滤波器：
Bm[k]=⎧⎩⎨⎪⎪⎪⎪⎪⎪0k−fm−1fm−fm−1fm+1−kfm+1−fmkfm+1fm−1≤k≤fmfm≤k≤fm+1(9)

Mel滤波公式：
Em=ln(∑N−1k=0P(k)×Hm(k))(10)

经过Mel滤波之后，Em即为得到的fBank特征。
1.7 取对数

   在得到上一步的fBank特征之后，由于人耳对声音的感受是成对数值增长的，
   所以需要将数值再进行一次对数运算，以模拟人耳的感受。
   我们需要对纵轴通过取对数进行缩放，可以放大低能量处的能量差异。

1.8 离散余弦变换

离散余弦变换是MFCC相对于fBank所特有的一步特征提取运算。在上一步取了对数之后，我们还需要对得到的N维特征向量值，再进行一次离散余弦变换(DCT)。做DCT的根本原因是，不同阶数信号值之间具有一定的相关性，而我们需要去掉这种相关性，将信号再映射到低维的空间中。由于最有效的特征聚集在前12个特征里，所以在实际中，一般仅保留前12-20个结果值，通常取13个，这样一来，就进一步压缩了数据。离散余弦变换公式如下：
Ci=2N−−√∑Nj=1Ej×cos(π⋅iN⋅(j−0.5)),∀i∈1,M
1.9 计算动态特征

上述MFCC算法仅仅体现了MFCC的静态特征，而其动态特征还需要使用静态特征的差分来表示。通过将得到的动态的特征，和前一步得到的静态特征相结合，可以有效地提高这种语音识别系统的识别性能。差分参数的计算公式：
dt=⎧⎩⎨⎪⎪⎪⎪⎪⎪Ct+1−Ct∑Kk=1k(Ct+k−Ct−k)2∑Kk=1k2√Ct−Ct−1t

式中,dt是第t个一阶差分值，Ct是第t个倒谱系数值，Q是倒谱系数的最大阶数，K是一阶差分的时间差，一般可取1或取2。二阶差分则将上式的结果再代入进行计算即可。

   最后，再将静态特征和动态特征的一阶、二阶差分值合并起来，
   当静态特征是13维的特征向量时，合并动态特征后，总共有39维特征。

2 logfBank

logfBank特征提取算法类似于MFCC算法，都是基于fBank特征提取结果的基础上，再进行一些处理的。不过logfBank跟MFCC算法的主要区别在于，是否再进行离散余弦变换。logfBank特征提取算法在跟上述步骤一样得到fBank特征之后，直接做对数变换作为最终的结果，计算量相对MFCC较小，且特征的相关性较高，所以传统的语音识别技术常常使用MFCC算法。

   随着DNN和CNN的出现，尤其是深度学习的发展
   ，由于fBank以及logfBank特征之间的相关性可以更好地被神经网络利用，
   以提高最终语音识别的准确率，降低WER，因此，可以省略掉离散余弦变换这一步骤。

3 总结

本文主要介绍了MFCC和LogFBank语音特征提取算法的数学原理及计算过程方法，之后AI柠檬博客还将更新另一种语音识别特征提取算法：语谱图特征，敬请期待！

实战一 ASR语音识别模型

ASRT是一套基于深度学习实现的语音识别系统，全称为Auto Speech Recognition Tool，由AI柠檬博主开发并在GitHub上开源(GPL 3.0协议)。本项目声学模型通过采用卷积神经网络（CNN）和连接性时序分类（CTC）方法，使用大量中文语音数据集进行训练，将声音转录为中文拼音，并通过语言模型，将拼音序列转换为中文文本。算法模型在测试集上已经获得了80%的正确率。基于该模型，在Windows平台上实现了一个基于ASRT的语音识别应用软件，取得了较好应用效果。这个应用软件包含Windows 10 UWP商店应用和Windows 版.Net平台桌面应用，也一起开源在GitHub上了。

ASRT项目主页：

https://asrt.ailemon.me

ASRT项目文档：

https://asrt.ailemon.me/docs/

GitHub项目地址：

语音识别核心系统

https://github.com/nl8590687/ASRT_SpeechRecognition

语音识别客户端应用

Windows桌面版 https://github.com/nl8590687/ASRT_SpeechClient_WPF

Windows 10 UWP版 https://github.com/nl8590687/ASRT_SpeechClient_UWP

Java Web版 https://github.com/nl8590687/ASRT_SpeechClient_JavaWeb

Python SDK
https://github.com/nl8590687/ASRT_SDK_Python3

近年来，深度学习在人工智能领域兴起，其对语音识别也产生了深远影响，深层的神经网络逐步替代了原来的GMM-HMM模型。在人类的交流和知识传播中，大约 70% 的信息是来自于语音。未来，语音识别将必然成为智能生活里重要的一部分，它可以为语音助手、语音输入等提供必不可少的基础，这将会成为一种新的人机交互方式。因此，我们需要让机器听懂人的声音。

我们的语音识别系统的声学模型采用了深度全卷积神经网络，直接将语谱图作为输入。模型结构上，借鉴了图像识别中效果最好的网络配置VGG，这种网络模型有着很强的表达能力，可以看到非常长的历史和未来信息，相比RNN在鲁棒性上更出色。在输出端，这种模型可以和CTC方案可以完美结合，以实现整个模型的端到端训练，将声音波形信号直接转录为中文普通话拼音序列。在语言模型上，通过最大熵隐含马尔可夫模型，将拼音序列转换为中文文本。并且，为了通过网络提供服务给所有的用户，本项目还使用了Python的HTTP协议基础服务器包，提供基于网络HTTP协议的语音识别API，客户端软件通过网络，调用该API实现语音识别功能。

目前，该语音识别系统在考虑朝着语音识别框架方向发展，以方便研究人员随时上手研究新模型，使用新数据集等。

系统的流程

特征提取将普通的wav语音信号通过分帧加窗等操作转换为神经网络需要的二维频谱图像信号，即语谱图。

声学模型基于Keras和TensorFlow框架，使用这种参考了VGG的深层的卷积神经网络作为网络模型，并训练。

CTC解码在语音识别系统的声学模型的输出中，往往包含了大量连续重复的符号，因此，我们需要将连续相同的符合合并为同一个符号，然后再去除静音分隔标记符，得到最终实际的语音拼音符号序列。

语言模型使用统计语言模型，将拼音转换为最终的识别文本并输出。拼音转文本的本质被建模为一条隐含马尔可夫链，这种模型有着很高的准确率。（其原理请看：https://blog.ailemon.me/2017/04/27/statistical-language-model-chinese-pinyin-to-words/）

基于HTTP协议的API接口

本项目使用了Python内置的http.server包来实现了一个基础的基于http协议的API服务器。通过将声学模型和语言模型连接起来，使用该服务器程序，可以直接实现一个简单的API服务器，通过POST方式进行数据交互。

这是POST参数列表：
参数名说明
token 服务器对连接的客户端进行认证用的口令，避免其被非法调用
fs 指示传送的wav波形信号的频率是多少，单位：Hz
wavs 一个包含了全部语音波形信号的列表

客户端

本项目的客户端分为两种，均为Windows客户端，一个是UWP客户端，另一个是WPF客户端，源码均需要使用VS2017来开发和编译，使用C#和XAML编写。项目包含有界面逻辑和录音模块、语音识别API调用模块，并包含对wav文件的raw格式进行的解析。

客户端通过自动控制录音的中断时间、两个录音模块连续交替录音，以及异步发送请求操作，最终按照先后顺序将返回结果显示在界面的文本框中，实现了长时间连续语音识别的功能。

未来

未来的ASRT，还要加入针对说话人进行识别的功能，也就是做一个说话人识别系统，用来实现AI的“认主”行为，让AI知晓现在是谁在说话，这将是AI实际应用时很多场景下会面临的一个问题。不过这个项目截至发稿前，暂时还没有动工，有感兴趣的小伙伴欢迎提前关注一波~

ASRT项目主页：

https://asrt.ailemon.me

ASRT项目文档：

https://asrt.ailemon.me/docs/

GitHub项目地址：

语音识别核心系统

https://github.com/nl8590687/ASRT_SpeechRecognition

语音识别客户端应用

Windows桌面版 https://github.com/nl8590687/ASRT_SpeechClient_WPF

Windows 10 UWP版 https://github.com/nl8590687/ASRT_SpeechClient_UWP

Java Web版 https://github.com/nl8590687/ASRT_SpeechClient_JavaWeb

Python SDK
https://github.com/nl8590687/ASRT_SDK_Python3

说话人识别系统

https://github.com/nl8590687/ASRT_SpeakerRecognition

import platform as plat
import os
import time

from general_function.file_wav import *
from general_function.file_dict import *
from general_function.gen_func import *
from general_function.muti_gpu import *

import keras as kr
import numpy as np
import random

from keras.models import Sequential, Model
from keras.layers import Dense, Dropout, Input, Reshape, BatchNormalization # , Flatten
from keras.layers import Lambda, TimeDistributed, Activation,Conv2D, MaxPooling2D,GRU #, Merge
from keras.layers.merge import add, concatenate
from keras import backend as K
from keras.optimizers import SGD, Adadelta, Adam

from readdata24 import DataSpeech

abspath = ''
ModelName='261'
NUM_GPU = 2

class ModelSpeech(): # 语音模型类
	def __init__(self, datapath):
		'''
		初始化
		默认输出的拼音的表示大小是1428，即1427个拼音+1个空白块
		'''
		MS_OUTPUT_SIZE = 1428
		self.MS_OUTPUT_SIZE = MS_OUTPUT_SIZE # 神经网络最终输出的每一个字符向量维度的大小
		#self.BATCH_SIZE = BATCH_SIZE # 一次训练的batch
		self.label_max_string_length = 64
		self.AUDIO_LENGTH = 1600
		self.AUDIO_FEATURE_LENGTH = 200
		self._model, self.base_model = self.CreateModel() 
		
		self.datapath = datapath
		self.slash = ''
		system_type = plat.system() # 由于不同的系统的文件路径表示不一样，需要进行判断
		if(system_type == 'Windows'):
			self.slash='\\' # 反斜杠
		elif(system_type == 'Linux'):
			self.slash='/' # 正斜杠
		else:
			print('*[Message] Unknown System\n')
			self.slash='/' # 正斜杠
		if(self.slash != self.datapath[-1]): # 在目录路径末尾增加斜杠
			self.datapath = self.datapath + self.slash
	
		
	def CreateModel(self):
		'''
		定义CNN/LSTM/CTC模型，使用函数式模型
		输入层：200维的特征值序列，一条语音数据的最大长度设为1600（大约16s）
		隐藏层：卷积池化层，卷积核大小为3x3，池化窗口大小为2
		隐藏层：全连接层
		输出层：全连接层，神经元数量为self.MS_OUTPUT_SIZE，使用softmax作为激活函数，
		CTC层：使用CTC的loss作为损失函数，实现连接性时序多输出
		
		'''
		
		input_data = Input(name='the_input', shape=(self.AUDIO_LENGTH, self.AUDIO_FEATURE_LENGTH, 1))
		
		layer_h1 = Conv2D(32, (3,3), use_bias=False, activation='relu', padding='same', kernel_initializer='he_normal')(input_data) # 卷积层
		#layer_h1 = Dropout(0.05)(layer_h1)
		layer_h2 = Conv2D(32, (3,3), use_bias=True, activation='relu', padding='same', kernel_initializer='he_normal')(layer_h1) # 卷积层
		layer_h3 = MaxPooling2D(pool_size=2, strides=None, padding="valid")(layer_h2) # 池化层
		
		#layer_h3 = Dropout(0.05)(layer_h3) # 随机中断部分神经网络连接，防止过拟合
		layer_h4 = Conv2D(64, (3,3), use_bias=True, activation='relu', padding='same', kernel_initializer='he_normal')(layer_h3) # 卷积层
		#layer_h4 = Dropout(0.1)(layer_h4)
		layer_h5 = Conv2D(64, (3,3), use_bias=True, activation='relu', padding='same', kernel_initializer='he_normal')(layer_h4) # 卷积层
		layer_h6 = MaxPooling2D(pool_size=2, strides=None, padding="valid")(layer_h5) # 池化层
		
		#layer_h6 = Dropout(0.1)(layer_h6)
		layer_h7 = Conv2D(128, (3,3), use_bias=True, activation='relu', padding='same', kernel_initializer='he_normal')(layer_h6) # 卷积层
		#layer_h7 = Dropout(0.15)(layer_h7)
		layer_h8 = Conv2D(128, (3,3), use_bias=True, activation='relu', padding='same', kernel_initializer='he_normal')(layer_h7) # 卷积层
		layer_h9 = MaxPooling2D(pool_size=2, strides=None, padding="valid")(layer_h8) # 池化层
		
		#layer_h9 = Dropout(0.15)(layer_h9)
		layer_h10 = Conv2D(128, (3,3), use_bias=True, activation='relu', padding='same', kernel_initializer='he_normal')(layer_h9) # 卷积层
		#layer_h10 = Dropout(0.2)(layer_h10)
		layer_h11 = Conv2D(128, (3,3), use_bias=True, activation='relu', padding='same', kernel_initializer='he_normal')(layer_h10) # 卷积层
		layer_h12 = MaxPooling2D(pool_size=1, strides=None, padding="valid")(layer_h11) # 池化层
		
		#layer_h12 = Dropout(0.2)(layer_h12)
		layer_h13 = Conv2D(128, (3,3), use_bias=True, activation='relu', padding='same', kernel_initializer='he_normal')(layer_h12) # 卷积层
		#layer_h13 = Dropout(0.3)(layer_h13)
		layer_h14 = Conv2D(128, (3,3), use_bias=True, activation='relu', padding='same', kernel_initializer='he_normal')(layer_h13) # 卷积层
		layer_h15 = MaxPooling2D(pool_size=1, strides=None, padding="valid")(layer_h14) # 池化层
		
		#test=Model(inputs = input_data, outputs = layer_h12)
		#test.summary()
		
		layer_h16 = Reshape((200, 3200))(layer_h15) #Reshape层
		
		#layer_h16 = Dropout(0.3)(layer_h16) # 随机中断部分神经网络连接，防止过拟合
		layer_h17 = Dense(128, activation="relu", use_bias=True, kernel_initializer='he_normal')(layer_h16) # 全连接层
		
		inner = layer_h17
		#layer_h5 = LSTM(256, activation='relu', use_bias=True, return_sequences=True)(layer_h4) # LSTM层
		
		rnn_size=128
		gru_1 = GRU(rnn_size, return_sequences=True, kernel_initializer='he_normal', name='gru1')(inner)
		gru_1b = GRU(rnn_size, return_sequences=True, go_backwards=True, kernel_initializer='he_normal', name='gru1_b')(inner)
		gru1_merged = add([gru_1, gru_1b])
		gru_2 = GRU(rnn_size, return_sequences=True, kernel_initializer='he_normal', name='gru2')(gru1_merged)
		gru_2b = GRU(rnn_size, return_sequences=True, go_backwards=True, kernel_initializer='he_normal', name='gru2_b')(gru1_merged)
		
		gru2 = concatenate([gru_2, gru_2b])
		
		layer_h20 = gru2
		#layer_h20 = Dropout(0.4)(gru2)
		layer_h21 = Dense(128, activation="relu", use_bias=True, kernel_initializer='he_normal')(layer_h20) # 全连接层
		
		#layer_h17 = Dropout(0.3)(layer_h17)
		layer_h22 = Dense(self.MS_OUTPUT_SIZE, use_bias=True, kernel_initializer='he_normal')(layer_h21) # 全连接层
		
		y_pred = Activation('softmax', name='Activation0')(layer_h22)
		model_data = Model(inputs = input_data, outputs = y_pred)
		#model_data.summary()
		
		labels = Input(name='the_labels', shape=[self.label_max_string_length], dtype='float32')
		input_length = Input(name='input_length', shape=[1], dtype='int64')
		label_length = Input(name='label_length', shape=[1], dtype='int64')
		# Keras doesn't currently support loss funcs with extra parameters
		# so CTC loss is implemented in a lambda layer
		
		#layer_out = Lambda(ctc_lambda_func,output_shape=(self.MS_OUTPUT_SIZE, ), name='ctc')([y_pred, labels, input_length, label_length])#(layer_h6) # CTC
		loss_out = Lambda(self.ctc_lambda_func, output_shape=(1,), name='ctc')([y_pred, labels, input_length, label_length])
		
		
		
		model = Model(inputs=[input_data, labels, input_length, label_length], outputs=loss_out)
		
		model.summary()
		
		# clipnorm seems to speeds up convergence
		#sgd = SGD(lr=0.0001, decay=1e-6, momentum=0.9, nesterov=True, clipnorm=5)
		#ada_d = Adadelta(lr = 0.01, rho = 0.95, epsilon = 1e-06)
		opt = Adam(lr = 0.001, beta_1 = 0.9, beta_2 = 0.999, decay = 0.0, epsilon = 10e-8)
		#model.compile(loss={'ctc': lambda y_true, y_pred: y_pred}, optimizer=sgd)
		
		model.build((self.AUDIO_LENGTH, self.AUDIO_FEATURE_LENGTH, 1))
		model = ParallelModel(model, NUM_GPU)
		
		model.compile(loss={
     'ctc': lambda y_true, y_pred: y_pred}, optimizer = opt)
		
		
		# captures output of softmax so we can decode the output during visualization
		test_func = K.function([input_data], [y_pred])
		
		#print('[*提示] 创建模型成功，模型编译成功')
		print('[*Info] Create Model Successful, Compiles Model Successful. ')
		return model, model_data
		
	def ctc_lambda_func(self, args):
		y_pred, labels, input_length, label_length = args
		
		y_pred = y_pred[:, :, :]
		#y_pred = y_pred[:, 2:, :]
		return K.ctc_batch_cost(labels, y_pred, input_length, label_length)
	
	
	
	def TrainModel(self, datapath, epoch = 2, save_step = 1000, batch_size = 32, filename = abspath + 'model_speech/m' + ModelName + '/speech_model'+ModelName):
		'''
		训练模型
		参数：
			datapath: 数据保存的路径
			epoch: 迭代轮数
			save_step: 每多少步保存一次模型
			filename: 默认保存文件名，不含文件后缀名
		'''
		data=DataSpeech(datapath, 'train')
		
		num_data = data.GetDataNum() # 获取数据的数量
		
		yielddatas = data.data_genetator(batch_size, self.AUDIO_LENGTH)
		
		for epoch in range(epoch): # 迭代轮数
			print('[running] train epoch %d .' % epoch)
			n_step = 0 # 迭代数据数
			while True:
				try:
					print('[message] epoch %d . Have train datas %d+'%(epoch, n_step*save_step))
					# data_genetator是一个生成器函数
					
					#self._model.fit_generator(yielddatas, save_step, nb_worker=2)
					self._model.fit_generator(yielddatas, save_step)
					n_step += 1
				except StopIteration:
					print('[error] generator error. please check data format.')
					break
				
				self.SaveModel(comment='_e_'+str(epoch)+'_step_'+str(n_step * save_step))
				self.TestModel(self.datapath, str_dataset='train', data_count = 4)
				self.TestModel(self.datapath, str_dataset='dev', data_count = 4)
				
	def LoadModel(self,filename = abspath + 'model_speech/m'+ModelName+'/speech_model'+ModelName+'.model'):
		'''
		加载模型参数
		'''
		self._model.load_weights(filename)
		self.base_model.load_weights(filename + '.base')

	def SaveModel(self,filename = abspath + 'model_speech/m'+ModelName+'/speech_model'+ModelName,comment=''):
		'''
		保存模型参数
		'''
		self._model.save_weights(filename+comment+'.model')
		self.base_model.save_weights(filename + comment + '.model.base')
		f = open('step'+ModelName+'.txt','w')
		f.write(filename+comment)
		f.close()

	def TestModel(self, datapath='', str_dataset='dev', data_count = 32, out_report = False, show_ratio = True):
		'''
		测试检验模型效果
		'''
		data=DataSpeech(self.datapath, str_dataset)
		#data.LoadDataList(str_dataset) 
		num_data = data.GetDataNum() # 获取数据的数量
		if(data_count <= 0 or data_count > num_data): # 当data_count为小于等于0或者大于测试数据量的值时，则使用全部数据来测试
			data_count = num_data
		
		try:
			ran_num = random.randint(0,num_data - 1) # 获取一个随机数
			
			words_num = 0
			word_error_num = 0
			
			nowtime = time.strftime('%Y%m%d_%H%M%S',time.localtime(time.time()))
			if(out_report == True):
				txt_obj = open('Test_Report_' + str_dataset + '_' + nowtime + '.txt', 'w', encoding='UTF-8') # 打开文件并读入
			
			txt = ''
			for i in range(data_count):
				data_input, data_labels = data.GetData((ran_num + i) % num_data)  # 从随机数开始连续向后取一定数量数据
				
				# 数据格式出错处理 开始
				# 当输入的wav文件长度过长时自动跳过该文件，转而使用下一个wav文件来运行
				num_bias = 0
				while(data_input.shape[0] > self.AUDIO_LENGTH):
					print('*[Error]','wave data lenghth of num',(ran_num + i) % num_data, 'is too long.','\n A Exception raise when test Speech Model.')
					num_bias += 1
					data_input, data_labels = data.GetData((ran_num + i + num_bias) % num_data)  # 从随机数开始连续向后取一定数量数据
				# 数据格式出错处理 结束
				
				pre = self.Predict(data_input, data_input.shape[0] // 8)
				
				words_n = data_labels.shape[0] # 获取每个句子的字数
				words_num += words_n # 把句子的总字数加上
				edit_distance = GetEditDistance(data_labels, pre) # 获取编辑距离
				if(edit_distance <= words_n): # 当编辑距离小于等于句子字数时
					word_error_num += edit_distance # 使用编辑距离作为错误字数
				else: # 否则肯定是增加了一堆乱七八糟的奇奇怪怪的字
					word_error_num += words_n # 就直接加句子本来的总字数就好了
				
				if(i % 10 == 0 and show_ratio == True):
					print('Test Count: ',i,'/',data_count)
				
				txt = ''
				if(out_report == True):
					txt += str(i) + '\n'
					txt += 'True:\t' + str(data_labels) + '\n'
					txt += 'Pred:\t' + str(pre) + '\n'
					txt += '\n'
					txt_obj.write(txt)
				
			
			#print('*[测试结果] 语音识别 ' + str_dataset + ' 集语音单字错误率：', word_error_num / words_num * 100, '%')
			print('*[Test Result] Speech Recognition ' + str_dataset + ' set word error ratio: ', word_error_num / words_num * 100, '%')
			if(out_report == True):
				txt = '*[测试结果] 语音识别 ' + str_dataset + ' 集语音单字错误率： ' + str(word_error_num / words_num * 100) + ' %'
				txt_obj.write(txt)
				txt_obj.close()
			
		except StopIteration:
			print('[Error] Model Test Error. please check data format.')
	
	def Predict(self, data_input, input_len):
		'''
		预测结果
		返回语音识别后的拼音符号列表
		'''
		
		batch_size = 1 
		in_len = np.zeros((batch_size),dtype = np.int32)
		
		in_len[0] = input_len
		
		x_in = np.zeros((batch_size, 1600, self.AUDIO_FEATURE_LENGTH, 1), dtype=np.float)
		
		for i in range(batch_size):
			x_in[i,0:len(data_input)] = data_input
		
		
		base_pred = self.base_model.predict(x = x_in)
		
		#print('base_pred:\n', base_pred)
		
		#y_p = base_pred
		#for j in range(200):
		#	mean = np.sum(y_p[0][j]) / y_p[0][j].shape[0]
		#	print('max y_p:',np.max(y_p[0][j]),'min y_p:',np.min(y_p[0][j]),'mean y_p:',mean,'mid y_p:',y_p[0][j][100])
		#	print('argmin:',np.argmin(y_p[0][j]),'argmax:',np.argmax(y_p[0][j]))
		#	count=0
		#	for i in range(y_p[0][j].shape[0]):
		#		if(y_p[0][j][i] < mean):
		#			count += 1
		#	print('count:',count)
		
		base_pred =base_pred[:, :, :]
		#base_pred =base_pred[:, 2:, :]
		
		r = K.ctc_decode(base_pred, in_len, greedy = True, beam_width=100, top_paths=1)
		
		#print('r', r)
		
		
		r1 = K.get_value(r[0][0])
		#print('r1', r1)
		
		
		#r2 = K.get_value(r[1])
		#print(r2)
		
		r1=r1[0]
		
		return r1
		pass
	
	def RecognizeSpeech(self, wavsignal, fs):
		'''
		最终做语音识别用的函数，识别一个wav序列的语音
		'''
		
		#data = self.data
		#data = DataSpeech('E:\\语音数据集')
		#data.LoadDataList('dev')
		# 获取输入特征
		#data_input = GetMfccFeature(wavsignal, fs)
		#t0=time.time()
		data_input = GetFrequencyFeature3(wavsignal, fs)
		#t1=time.time()
		#print('time cost:',t1-t0)
		
		input_length = len(data_input)
		input_length = input_length // 8
		
		data_input = np.array(data_input, dtype = np.float)
		#print(data_input,data_input.shape)
		data_input = data_input.reshape(data_input.shape[0],data_input.shape[1],1)
		#t2=time.time()
		r1 = self.Predict(data_input, input_length)
		#t3=time.time()
		#print('time cost:',t3-t2)
		list_symbol_dic = GetSymbolList(self.datapath) # 获取拼音列表
		
		
		r_str=[]
		for i in r1:
			r_str.append(list_symbol_dic[i])
		
		return r_str
		pass
		
	def RecognizeSpeech_FromFile(self, filename):
		'''
		最终做语音识别用的函数，识别指定文件名的语音
		'''
		
		wavsignal,fs = read_wav_data(filename)
		
		r = self.RecognizeSpeech(wavsignal, fs)
		
		return r
		
		pass
		
	
		
	@property
	def model(self):
		'''
		返回keras model
		'''
		return self._model


if(__name__=='__main__'):
	
	#import tensorflow as tf
	#from keras.backend.tensorflow_backend import set_session
	#os.environ["CUDA_VISIBLE_DEVICES"] = "1"
	#进行配置，使用70%的GPU
	#config = tf.ConfigProto()
	#config.gpu_options.per_process_gpu_memory_fraction = 0.95
	#config.gpu_options.allow_growth=True   #不全部占满显存, 按需分配
	#set_session(tf.Session(config=config))
	
	
	datapath =  abspath + ''
	modelpath =  abspath + 'model_speech'
	
	
	if(not os.path.exists(modelpath)): # 判断保存模型的目录是否存在
		os.makedirs(modelpath) # 如果不存在，就新建一个，避免之后保存模型的时候炸掉
	
	system_type = plat.system() # 由于不同的系统的文件路径表示不一样，需要进行判断
	if(system_type == 'Windows'):
		datapath = 'E:\\语音数据集'
		modelpath = modelpath + '\\'
	elif(system_type == 'Linux'):
		datapath =  abspath + 'dataset'
		modelpath = modelpath + '/'
	else:
		print('*[Message] Unknown System\n')
		datapath = 'dataset'
		modelpath = modelpath + '/'
	
	ms = ModelSpeech(datapath)
	
	
	#ms.LoadModel(modelpath + 'm261/speech_model261_e_0_step_98000.model')
	ms.TrainModel(datapath, epoch = 50, batch_size = 16, save_step = 500)
	#ms.TestModel(datapath, str_dataset='test', data_count = 128, out_report = True)
	#r = ms.RecognizeSpeech_FromFile('E:\\语音数据集\\ST-CMDS-20170001_1-OS\\20170001P00241I0053.wav')
	#r = ms.RecognizeSpeech_FromFile('E:\\语音数据集\\ST-CMDS-20170001_1-OS\\20170001P00020I0087.wav')
	#r = ms.RecognizeSpeech_FromFile('E:\\语音数据集\\wav\\train\\A11\\A11_167.WAV')
	#r = ms.RecognizeSpeech_FromFile('E:\\语音数据集\\wav\\test\\D4\\D4_750.wav')
	#print('*[提示] 语音识别结果：\n',r)

部分代码介绍

实战二调百度和科大讯飞API

现在演示的是识别音频文件的内容。
token获取见官网，这边调包没什么含金量。
Python 技术篇-百度语音API鉴权认证获取Access Token
注：下面的 token 是我自己申请的，建议按照我的文章自己来申请专属的。

import requests
import os
import base64
import json

apiUrl='http://vop.baidu.com/server_api'
filename = "16k.pcm"   # 这是我下载到本地的音频样例文件名
size = os.path.getsize(filename)   # 获取本地语音文件尺寸
file1 = open(filename, "rb").read()   # 读取本地语音文件   
text = base64.b64encode(file1).decode("utf-8")   # 对读取的文件进行base64编码
data = {
     
    "format":"pcm",   # 音频格式
    "rate":16000,   # 采样率，固定值16000
    "dev_pid":1536,   # 普通话
    "channel":1,   # 频道，固定值1
    "token":"24.0c828682d414bf79b08f89c4c7dcd83a.2592000.1562739150.282335-16470175",   # 重要，鉴权认证Access Token，需要自己来申请
    "cuid":"DC-85-DE-F9-08-59",   # 随便一个值就好了，官网推荐是个人电脑的MAC地址
    "len":size,   # 语音文件的尺寸
    "speech":text,   # base64编码的语音文件
}
try:
    r = requests.post(apiUrl, data = json.dumps(data)).json()
    print(r)
    print(r.get("result")[0])
except Exception as e:
    print(e)

科大讯飞同样的方式，参见官网教程。

实战三离线语音识别 Vosk

Vosk 支持30多种语言，并且现在做的不错，在离线语音里面不错了，https://github.com/alphacep/vosk-api

带Android python，c++ 的pc版本，等等web部署方案
Android 的话，就需要你安装Android 包，然后还要下载编译工具，gradle
cd android
gradle build
即可编译，编译成功后会生成apk安装包，手机就能安装，离线使用了。
部分代码：

  /**
     * Adds listener.
     */
    public void addListener(RecognitionListener listener) {
     
        synchronized (listeners) {
     
            listeners.add(listener);
        }
    }

    /**
     * Removes listener.
     */
    public void removeListener(RecognitionListener listener) {
     
        synchronized (listeners) {
     
            listeners.remove(listener);
        }
    }

    /**
     * Starts recognition. Does nothing if recognition is active.
     * 
     * @return true if recognition was actually started
     */
    public boolean startListening() {
     
        if (null != recognizerThread)
            return false;

        recognizerThread = new RecognizerThread();
        recognizerThread.start();
        return true;
    }

这边实战的比较简单，后续我做了很多优化，支持Android，python ，c++，java语言等部署，欢迎咨询我。

你可能感兴趣的:(精选目标检测,算法,人工智能,深度学习,pytorch)

如何让人工智能使你的工作效率一日千里南风过闲庭人工智能 ai python
1.自动化重复性任务1.1识别并自动化日常任务提高工作效率的首要步骤是识别日常工作中重复性高且耗时的任务。根据麦肯锡全球研究院的报告，知识工作者大约有40%的时间花费在此类任务上。通过自动化这些任务，员工可以将更多时间投入到需要创造性思维和复杂决策的工作上。数据支持：一项针对500名知识工作者的调查显示，通过自动化日常任务，平均每天可以节省2小时的工作时间。这些任务包括数据录入、文件整理、邮件分类
C++数值算法深度解析：accumulate与max_element 景彡先生 C++进阶 c++算法服务器
在C++标准库中，数值算法（NumericAlgorithms）提供了高效处理数值数据的工具。本文将深入解析两个核心数值算法——accumulate（累加求和）与max_element（最大值查找）的底层原理、核心特性及最佳实践，帮助开发者掌握这些“数据统计利器”的正确使用方式。一、accumulate：通用累加器1.1底层原理与实现迭代累加：对[first,last)区间内的元素执行累积操作，初
AI驱动的智能电网:平衡供需提高效率 AI智能应用 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
智能电网，AI，机器学习，预测模型，优化算法，供需平衡，能源效率1.背景介绍随着全球能源需求的不断增长和可再生能源的快速发展，传统电网面临着越来越多的挑战。传统的电网结构是集中式供电，难以适应分布式能源的接入和负荷需求的波动性。智能电网应运而生，它利用先进的通信技术、传感器网络和数据分析技术，实现电网的自动化、智能化和可视化，从而提高电网的可靠性、效率和安全性。人工智能（AI）作为一种新兴技术，在
RoomGPT: 人工智能驱动的室内设计革命 m0_56734068 人工智能
RoomGPT:用AI重新定义室内设计在当今数字化时代,人工智能正在改变各个行业的面貌,室内设计领域也不例外。RoomGPT作为一款革命性的AI驱动室内设计工具,正在彻底改变人们对室内空间进行创意和改造的方式。本文将深入探讨RoomGPT的工作原理、使用方法以及它为室内设计行业带来的变革。RoomGPT简介RoomGPT是一个开源项目,由GitHub用户Nutlope开发。它允许用户上传任何房间的
从用户日志到智能宏：我的BFS寻宝奇遇记（2014. 重复 K 次的最长子序列）满分观察网友z 算法解构与应用算法
从用户日志到智能宏：我的BFS寻宝奇遇记大家好，我是一个在代码世界里摸爬滚打了N年的老兵。今天想和大家聊聊最近在项目中遇到的一个棘手问题，以及我是如何用一个看似“学院派”的算法——广度优先搜索（BFS）——漂亮地解决它的。这趟旅程有“踩坑”的窘迫，也有“恍然大悟”的喜悦，希望能给同在路上的你带来一些启发。一、我遇到了什么问题？一个“善解人意”的功能我所在的团队正在开发一款面向设计师的创意软件。为了
[插电式混合动力车辆][交替方向乘子法（ADMM）结合CVX]插电式混合动力车辆的能源管理：基于凸优化算法用于模型预测控制MPC研究（Matlab代码实现）程序辅导帮算法 matlab 人工智能
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录⛳️赠与读者1概述2运行结果3参考文献4Matlab代码、数据、文章⛳️赠与读者‍做科研，涉及到一个深在的思想系统，需要科研者逻辑缜密，踏实认真，但是不能只是努力，很多时候借力比努力更重要，然后还要有仰望星空的创新点和启发点。当哲学课上老师问你什么是科学，什么是电的时
记录一个异常检测库 STO检测王深度学习
https://github.com/openvinotoolkit/anomalib/tree/main关于一个异常检测库，包括最先进的算法和功能，如实验管理，超参数优化和边缘推理。
BP-Tools21.02下载加解密利器金融安全交易算法工具 PCI认证工具金融和智能卡的数据加解密和数据转换工具小黄人软件金融安全
21.02版下载金融领域常用算法如AESRSADES都能计算，还能计算DUKPTAES/DES，以及TR31KBH的格式解析和数据包计算，另外还能提供EMVATRparser（ATR命令解析），HSM加密机指令组包，SimCard文件编辑和解析。
阿里一面凉经一入JAVA毁终身面试记录面试
阿里一面（凉经）先说明我大二开始接触计算机学习总共不到两年，很菜加上我比较容易紧张，所以回答的有些不尽人意，事后反思了一下确实很多地方是有问题的，大家如果看出什么问题请告知我一下，我一定虚心接受。1.主体的流程自我介绍（不过多赘述了）挑选一个项目进行深入探讨八股拷打算法2.项目拷打在自我介绍里我大概介绍了一下我的三个项目，相比字节的面试官明显流程更加固定，而且也更正式，不会会和你多聊一些学习方面的
【软件系统架构】系列四：数字信号处理器（DSP）
目录一、什么是DSP？二、DSP的核心架构特点1.基本结构2.工作流程：3.关键特性：三、DSP与MCU/MPU/NPU的对比四、DSP与通用处理器的对比五、常用DSP算法类型六、常见DSP芯片平台七、开发工具链与语言支持八、典型应用场景举例通信领域：音频处理：图像与视频处理：工业控制：军事与航空航天：九、选型关键因素十、技术趋势总结一、什么是DSP？DSP（DigitalSignalProces
AI 技术&AI开发框架 34号树洞人工智能深度学习人工智能机器学习 NLP GAI
目录一、AI技术及其开发框架1.AI技术分类与代表方向2.主流AI开发框架3.AI应用开发流程简述4.补充：基础依赖与生态二、AI技术方向1.机器学习（MachineLearning,ML）✦核心概念：✦关键方法：✦应用案例：2.深度学习（DeepLearning,DL）✦核心概念：✦网络结构举例：✦技术趋势：3.自然语言处理（NLP）✦核心任务：✦代表模型：4.计算机视觉（ComputerVis
机器学习算法——神经网络1（神经元模型）
神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。神经网络中最基本的成分是神经元（neuron）模型。即上述定义中的“简单单元”。在生物神经网络中，每个神经元与其他申请元相连，当它“兴奋”时，就会向相连的神经元发送化学物质，从而改变这些神经元内的电位；如果某神经元的电位超过一个“阈值”，那么它就会被激活，即“兴奋”起来，向其他神经
【学习】《算法图解》第八章学习笔记：平衡树自学也学好编程程序人生
前言在上一章中，我们学习了二叉搜索树(BST)的基本概念和操作。虽然BST在平均情况下提供了O(logn)的搜索、插入和删除效率，但在最坏情况下（如按顺序插入数据），它可能退化为链表，导致操作效率降为O(n)。为了解决这个问题，《算法图解》第八章介绍了平衡树的概念和几种主要的平衡树结构，这些结构能够在各种情况下保持较好的平衡性，确保操作的高效性。一、平衡树的基本概念（一）什么是平衡树平衡树是一种特
【分治算法】【Python实现】Strassen矩阵乘法「已注销」 #分治算法分治算法 Python
文章目录@[toc]问题描述基础算法时间复杂性Strassen算法时间复杂性问题时间复杂性Python实现个人主页：丷从心·系列专栏：分治算法学习指南：算法学习指南问题描述设AAA和BBB是两个n×nn\timesnn×n矩阵，AAA和BBB的乘积矩阵CCC中元素cij=∑k=1naikbkjc_{ij}=\displaystyle\sum\limits_{k=1}^{n}{a_{ik}b_{kj
【算法设计与分析】（三）二分搜索技术与大整数乘法珹洺 #算法设计与分析算法
【算法设计与分析】（三）二分搜索技术与大整数乘法前言一、二分搜索技术1.为什么需要二分搜索？2.二分搜索怎么做？3.为什么说它很快？4.哪些场景会用到？二、大整数乘法1.问题来了：数字太大怎么办？2.传统方法3.用分治思想优化4.Karatsuba算法：具体怎么算？5.效率提升有多大？6.实际应用场景总结前言在上一篇博客中，我们已深入剖析了递归的本质内涵与分治法的核心思想——通过将复杂问题分解为规
【算法设计与分析】（四）Strassen 矩阵珹洺 #算法设计与分析算法矩阵线性代数
【算法设计与分析】（四）Strassen矩阵前言一、传统矩阵乘法二、Strassen矩阵乘法1.算法步骤2.效率提升三、实际应用场景四、算法的局限性与改进前言上一篇博客我们以生动形象的例子和清晰的步骤，为大家详细讲解了二分搜索技术与大整数乘法。接下来，这篇博客将带大家深入探索**Strassen矩阵**乘法，感受算法优化魅力。我的个人主页，欢迎来阅读我的其他文章https://blog.csdn.
MCP如何助力智能交通系统？从数据融合到精准决策 Echo_Wish Python 进阶 python 开发语言
MCP如何助力智能交通系统？从数据融合到精准决策近年来，智能交通系统（ITS）正在全球范围内快速发展，它结合人工智能（AI）、物联网（IoT）和数据分析，致力于提高交通效率、减少拥堵、增强安全性。而MCP（Multi-ConstraintPathfinding，多约束路径寻优）技术作为一种复杂路径优化算法，在智能交通系统中扮演着重要角色，尤其是在导航优化、公共交通调度、应急响应等场景。今天，我们就
AI如何提升个性化广告精准度——让投放更智能、更懂用户 Echo_Wish 前沿技术人工智能人工智能
AI如何提升个性化广告精准度——让投放更智能、更懂用户随着人工智能（AI）技术的发展，个性化广告已经从粗暴推送演变为智能匹配，广告主再也不想把预算砸给不感兴趣的人，而是精准触达有购买意向的用户。AI在广告投放中的核心优势在于深度数据分析、智能推荐、实时优化，让广告投放更精准、更有效。今天，我们就来聊聊AI如何提升个性化广告的精准度，并用Python代码演示其中的关键技术。1.为什么传统广告投放越来
解锁云原生微服务架构：搭建与部署实战全攻略奔跑吧邓邓子必备核心技能云原生架构微服务搭建与部署实战全攻略
目录一、引言二、微服务拆分2.1拆分的必要性2.2拆分方法2.3注意事项三、服务注册与发现3.1概念与原理3.2常用组件介绍3.3实践案例四、负载均衡4.1作用与原理4.2实现方式4.3负载均衡算法4.4案例与代码实现4.4.1项目依赖配置4.4.2配置Ribbon4.4.3代码实现负载均衡调用五、容器化部署5.1容器化技术基础5.2容器化部署流程5.2.1编写Dockerfile5.2.2构建D
YOLOv13：开启目标检测新时代，手把手教你实操奔跑吧邓邓子必备核心技能 YOLO 目标检测目标跟踪人工智能实操
目录一、YOLOv13初印象1.1YOLO系列发展脉络1.2YOLOv13独特之处二、前期准备工作2.1环境搭建2.2依赖安装三、深入使用指南3.1模型验证3.2模型训练3.3模型推理四、应用案例与拓展4.1实际场景应用展示4.2与其他技术结合思路五、总结与展望一、YOLOv13初印象1.1YOLO系列发展脉络YOLO（YouOnlyLookOnce）系列算法在目标检测领域中，就如同一位不断进化的
从入门到实战：YOLOv13 安装与使用全攻略奔跑吧邓邓子必备核心技能 YOLO 目标跟踪人工智能安装使用全攻略
目录一、YOLOv13简介1.1目标检测与YOLO系列1.2YOLOv13核心技术亮点1.3性能优势展现二、前期准备2.1系统环境要求2.2软件依赖安装三、安装流程3.1获取源码3.2环境搭建3.3安装验证四、使用指南4.1模型验证4.2模型训练4.3模型推理4.4模型导出五、应用案例与技巧5.1实际应用场景展示5.2常见问题与解决方法5.3优化技巧分享六、总结与展望6.1YOLOv13回顾6.2
NeRF-Pytorch：NeRF神经辐射场复现——Pytorch版全流程分析与测试【Ubuntu20.04】【2025最新版！！！】那就举个栗子！三维重建计算机视觉人工智能
一、引言在计算机视觉和计算机图形学的交叉领域中，视图合成（ViewSynthesis）一直是一个充满挑战的研究方向。传统的三维重建方法往往需要复杂的几何建模和纹理映射过程，而且在处理复杂光照和材质时效果有限。2020年，来自UCBerkeley的研究团队提出了NeuralRadianceFields（NeRF），这一革命性的方法彻底改变了我们对三维场景表示和渲染的理解。NeRF的核心思想是将三维场
道可云人工智能每日资讯｜江苏首个机器人训练中心在苏州吴江启动道可云道可云人工智能人工智能机器人 ar DeepSeek xr 百度
道可云人工智能&元宇宙每日简报（2025年6月26日）讯，今日人工智能&元宇宙新鲜事有：江苏首个机器人训练中心在苏州吴江启动近日，长三角一体化示范区智能机器人训练中心在东太湖度假区（太湖新城）正式启用，成为江苏省首个机器人智能训练中心。该中心占地1500平方米，设有8个训练场景和30个生产工位，涵盖智能制造、商业服务、特种应用三大领域，年产数据可超200万条，旨在加速机器人从实验室走向真实产业场景
道可云人工智能每日资讯｜《辽宁省促进人工智能创新发展实施方案》发布道可云道可云人工智能人工智能 ar DeepSeek xr
道可云人工智能&元宇宙每日简报（2025年6月13日）讯，今日人工智能&元宇宙新鲜事有：《辽宁省促进人工智能创新发展实施方案》发布近日，辽宁省人民政府办公厅印发《辽宁省促进人工智能创新发展实施方案》。根据《实施方案》可知，到2027年，实现以沈阳、大连“双核”牵引辐射带动，各地协同共进，千行百业深度赋能，打造人工智能创新发展和融合应用的新高地。人工智能赋能可持续发展论坛于成都市天府国际会议中心举办
【深度学习|冰川制图3】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构努力毕业的小土博^_^ 论文推荐深度学习学习架构人工智能机器学习
【深度学习|冰川制图3】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构【深度学习|冰川制图3】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构文章目录【深度学习|冰川制图3】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构引言欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校硕博生毕业要求需要参加学术会议，发
【深度学习|冰川制图4】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构努力毕业的小土博^_^ 论文推荐深度学习学习架构人工智能
【深度学习|冰川制图4】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构【深度学习|冰川制图4】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构文章目录【深度学习|冰川制图4】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构数据与方法2.1数据欢迎铁子们点赞、关注、收藏！祝大家逢考必过！逢投必中！上岸上岸上岸！upupup大多数高校硕博生毕业要求需要
【深度学习|冰川制图5】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构努力毕业的小土博^_^ 优秀论文推荐深度学习学习人工智能
【深度学习|冰川制图5】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构【深度学习|冰川制图5】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构文章目录【深度学习|冰川制图5】GlacierNet2：一种面向高山冰川制图的混合多模型学习架构数据与方法2.2深度学习模型2.2.1GlacierNet模型2.2.2DeepLabV3+模型欢迎铁子们点赞、关注、收藏！祝大
【深度学习|学习笔记】什么是k折交叉验证？K折交叉验证的步骤详解？以及如何在K折交叉验证中选择k? 努力毕业的小土博^_^ 机器学习基础算法优质笔记2 深度学习学习笔记人工智能
【深度学习|学习笔记】什么是k折交叉验证？K折交叉验证的步骤详解？以及如何在K折交叉验证中选择k?【深度学习|学习笔记】什么是k折交叉验证？K折交叉验证的步骤详解？以及如何在K折交叉验证中选择k?文章目录【深度学习|学习笔记】什么是k折交叉验证？K折交叉验证的步骤详解？以及如何在K折交叉验证中选择k?一、什么是K折交叉验证？✅目的：二、K折交叉验证的发展背景三、K折交叉验证的步骤详解步骤如下：数学
【深度学习|学习笔记】网格搜索（GridSearchCV）和随机搜索（RandomizedSearchCV）详解，附代码。努力毕业的小土博^_^ 深度学习学习笔记深度学习学习笔记机器学习人工智能
【深度学习|学习笔记】网格搜索（GridSearchCV）和随机搜索（RandomizedSearchCV）详解，附代码。【深度学习|学习笔记】网格搜索（GridSearchCV）和随机搜索（RandomizedSearchCV）详解，附代码。文章目录【深度学习|学习笔记】网格搜索（GridSearchCV）和随机搜索（RandomizedSearchCV）详解，附代码。一、背景与发展：为什么需要
YOLOv13：目标检测的全面攻略与实战指南奔跑吧邓邓子必备核心技能 YOLO 目标检测目标跟踪人工智能全攻略实战
目录一、YOLOv13简介1.1YOLO系列发展回顾1.2YOLOv13的特点与优势二、YOLOv13原理剖析2.1HyperACE技术详解2.2FullPAD技术详解2.3轻量级卷积替换技术详解三、YOLOv13性能对比3.1与其他YOLO版本对比3.2实际应用场景对比四、YOLOv13项目结构与使用方式4.1仓库文件结构介绍4.2快速上手步骤五、YOLOv13优化技巧5.1数据增强技巧5.2锚
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在

【原理+实战】AI所有领域SOTA综述 （一）语音识别