王小希ww

【语音识别】自动语音识别（ASR）研究综述

自动语音识别（ASR）研究综述

Note：

正文内容绝大部分取自 语音识别研究综述
WeNet的部署参考该Blog WeNet平台搭建

文章目录

自动语音识别（ASR）研究综述
- 零、参考资料
- - 1、参考文档
  - 2、参考论文
  - 3、参考代码
- 一、语音识别基础知识
- - 1、特征提取（MFCC声学特征）
  - 2、声学模型（建立关于语音特征和音素的映射关系（条件概率），语音识别中最重要部分）
  - 3、语言模型（n-gram 或使用RNN进行语言模型建模，计算音素的先验概率）
  - 4、端到端语音识别（2020 ContextNet）
- 二、语音识别到难点与热点
- - 1、鲁棒性语音识别
  - 2、低资源语音识别
  - 3、语音的模糊性
  - 4、低计算资源
- 三、语音识别落地方案探讨
- - 1、Kaldi系统
  - 2、端到端系统

零、参考资料

1、参考文档

基于PaddlePaddle实现的DeepSpeech2端到端中文语音识模型
ASR-工业级中文语音识别系统
THCHS-30数据集下载（EU镜像）
几个最新免费开源的中文语音数据集
ASRT语音识别文档
Wenet - 面向工业落地的E2E语音识别工具
Tensorflow教程之语音识别（MFCC，CTC decoder等）

2、参考论文

语音识别研究综述
语音识别专利技术综述
语音识别中声学模型研究综述
WeNet Production Oriented Streaming and Non-streaming End-to-End Speech Recognition Toolkit

3、参考代码

PaddlePaddle-DeepSpeech
DeepSpeech
DeepSpeech官方文档
Welcome to Wenet’s documentation!

一、语音识别基础知识

参考 语音识别研究综述

从语音识别系统的构成来讲, 一套完整的语音识别系统包括预处理、特征提取、声学模型、语言模型以及搜索算法等模块, 其结构示意图如图所示：

1、特征提取（MFCC声学特征）

通常, 在进行语音识别之前, 需要根据语音信号波形提取有效的声学特征. 特征提取的性能对后续语音识别系统的准确性极其关键, 因此需要具有一定的鲁棒性和区分性. 目前语音识别系统常用的声学特征有梅尔频率倒谱系数 (Mel-frequency cepstrum coefficient，
MFCC)、感知线性预测系数 (perceptual linear predictive cepstrum coefficient, PLP)、线性预测倒谱系数 (linear prediction cepstral coefficient, LPCC)、梅尔滤波器组系数 (Mel filter bank, Fbank) 等。
MFCC 是最为经典的语音特征, 其提取过程如图 2 所示. MFCC 的提取模仿了人耳的听觉系统, 计算简单，低频部分也有良好的频率分辨能力, 在噪声环境下具有一定的鲁棒性. 因此, 现阶段语音识别系统大多仍采用 MFCC 作为特征参数, 并取得了不错的识别效果。

2、声学模型（建立关于语音特征和音素的映射关系（条件概率），语音识别中最重要部分）

设一段语音信号经过特征提取得到特征向量序列为 $X=[x_1, x_2, …, x_N]$ , 其中 $x_i$ 是一帧的特征向量, $i = 1, 2, \dots, N$ 为特征向量的数目。该段语音对应的文本序列设为 $W=[w_1 , w_2, …, w_M]$ , 其中 $w_i$ 为基本组成单元，如音素、单词、字符， $i = 1, 2, \dots, M$ , M 为文本序列的维度。从贝叶斯角度, 语音识别的目标就是从所有可能产生特征向量 $X$ 的文本序列中找到概率最大的 $W^*$ , 可以用公式表示为式 (1) 优化问题：

由式 (1) 可知, 要找到最可能的文本序列必须使两个概率 $P (X ∣ W)$ 和 $P (W)$ 的乘积最大, 其中 $P (X ∣ W)$ 为条件概率, 由声学模型决定; $P (W)$ 为先验概率, 由语言模型决定. 声学模型和语言模型对语音信号的表示越精准, 得到的语音系统效果越准确。

声学模型是对下式 (1) 中的 $P (X ∣ W)$ 进行建模，在语音特征与音素之间建立映射关系, 即给定模型后产生语音波形的概率, 其输入是语音信号经过特征提取后得到的特征向量序列。

声学模型是整个语音识别系统中最重要的部分, 只有学好了发音, 才能顺利和发音词典、语言模型相结合得到较好的识别性能。

常见的声学模型有GMM-HMM，该模型利用 HMM 对时间序列的建模能力, 描述语音如何从
一个短时平稳段过渡到下一个短时平稳段; 此外, HMM的隐藏状态和观测状态的数目互不相干, 可以解决语音识别中输入输出不等长的问题. 该声学模型中的每个 HMM 都涉及到 3 个参数: 初始状态概率、状态转移概率和观测概率, 其中观测概率依赖于特征向量的概率分布, 采用高斯混合模型 GMM 进行建模。

深度学习的兴起为声学建模提供了新途径, 学者们用深度神经网络 (deep neural network, DNN) 代替GMM 估计 HMM 的观测概率, 得到了 DNN-HMM 语音识别系统。基于 DNN-HMM 的语音识别系统框架如下：

然而, DNN 对于时序信息的上下文建模能力以及灵活性等方面仍有欠缺. 针对这一问题, 对上下文信息利用能力更强的循环神经网络RNN和卷积神经网络 CNN 被引入声学建模中。

总体而言, 近年来语音识别中对声学模型的研究仍集中在神经网络, 针对不同的应用场景和需求对上述经典网络结构进行综合和改进, 以期训练更复杂、更强大的声学模型。

3、语言模型（n-gram 或使用RNN进行语言模型建模，计算音素的先验概率）

语言模型是用来预测字符 (词) 序列产生的概率, 判断一个语言序列是否为正常语句, 也就是解决如何计算等式 (1) 中的 $P (W)$ 。传统的语言模型 n-gram 是一种具有强马尔科夫独立性假设的模型, 它认为任意一个词出现的概率仅与前面有限的 n–1 个字出现的概率有关, 其公式表达如下：

然而, 由于训练语料数据不足或者词组使用频率过低等常见因素, 测试集中可能会出现训练集中未出现过的词或某个子序列未在训练集中出现, 这将导致n-gram 语言模型计算出的概率为零, 这种情况被称为未登录词 (out-of-vocabulary, OOV) 问题. 为缓解这个问题, 通常采用一些平滑技术, 常见的平滑处理有Discounting、Interpolation 和 Backing-off 等. n-gram 模型的优势在于其参数易训练, 可解释性极强, 且完全包含了前 n–1 个词的全部信息, 能够节省解码时间; 但难以避免维数灾难的问题, 此外 n-gram 模型泛化能力弱, 容易出现 OOV 问题, 缺乏长期依赖。

为进一步解决问题, RNN 被用于语言模型建模。RNNLM 中隐含层的循环能够获得更多上下文信息, 通过在整个训练集上优化交叉熵来训练模型, 使得网络能够尽可能建模出自然语言序列与后续词之间的内在联系. 其优势在于相同的网络结构和超参数可以处理任意长度的历史信息, 能够利用神经网络的表征学习能力, 极大程度避免了未登录问题; 但无法任意修改神经网络中的参数, 不利于新词的添加和修改, 且实时性不高。

语言模型的性能通常采用困惑度 (perplexity ,PPL) 进行评价. PPL 定义为序列的概率几何平均数的倒数, 其公式定义如下:

PPL 越小表示在给定历史上出现下一个预测词的概率越高, 该模型的效果越好。

4、端到端语音识别（2020 ContextNet）

传统的语音识别由多个模块组成, 彼此独立训练，但各个子模块的训练目标不一致, 容易产生误差累积, 使得子模块的最优解并不一定是全局最优解。针对这个问题, 学者们提出了端到端的语音识别系统, 直接对等式 (1) 中的概率 $P (W ∣ X)$ 进行建模, 将输入的语音波形 (或特征矢量序列) 直接转换成单词、字符序列. 端到端的语音识别将声学模型、语言模型、发音词典等
模块被容纳至一个系统, 通过训练直接优化最终目标，如词错误率 (word error rate, WER)、字错误率 (character error rate, CER), 极大地简化了整个建模过程。

目前端到端的语音识别方法主要有基于连接时序分类(connectionist temporal classification, CTC) 和基于注意力机制 (attention model)两类方法及其改进方法。

CTC 引入空白符号 (blank) 解决输入输出序列不等长的问题, 主要思想是最大化所有可能对应的序列概率之和，无需考虑语音帧和字符的对齐关系, 只需要输入和输出就可以训练. CTC 实质是一种损失函数, 常与 LSTM 联合使用。基于 CTC 的模型结构简单, 可读性较强, 但对发音词典和语言模型的依赖性较强, 且需要做独立性假设. RNN-Transducer 模型是对 CTC 的一种改进, 加入一个语言模型预测网络, 并和 CTC 网络通过一层全连接层得到新的输出, 这样解决了CTC 输出需做条件独立性假设的问题, 能够对历史输出和历史语音特征进行信息累积, 更好地利用语言学信息提高识别准确率。

基于注意力机制的端到端模型最开始被用于机器翻译, 能够自动实现两种语言的不同长度单词序列之间的转换. 该模型主要由编码网络、解码网络和注意力子网络组成。编码网络将语音特征序列经过深层神经网络映射成高维特征序列, 注意力网络分配权重系数, 解码网络负责输出预测的概率分布。该模型不需要先验对齐信息, 也不用音素序列间的独立性假设, 不需要发音词典等人工知识, 可以真正实现端到端的建模。2016 年谷歌提出了一个 Listen-Attend-Spell (LAS) 模型, LAS 模型真正实现了端到端, 所有组件联合训练, 也无独立性假设要求. 但LAS 模型需要对整个输入序列之后进行识别, 因此实时性较差, 之后也有许多学者对该模型不断改进。

目前端到端的语音识别系统仍是语音识别领域的研究热点, 基于 CTC、attention 机制以及两者结合的系统，都取得了非常不错的成果. 其中Transformer-Transducer 模型将 RNN-T 模型中的RNN 替换为 Transformer 提升了计算效率, 还控制attention 模块上下文时间片的宽度, 满足流式语音识别的需求. 2020 年谷歌提出的 ContextNet 模型[39], 采用Squeeze-and-Excitation 模块获取全局信息, 并通过渐进降采样和模型缩放在减小模型参数和保持识别准确率之间取得平衡。在 Transformer 模型捕捉长距离交互的基础上加入了 CNN 擅长的局部提取特征得到 Conformer模型, 实现以更少的参数达到更好的精度. 实际上端到端的语音识别系统在很多场景的识别效果已经超出传统结构下的识别系统, 但距其落地得到广泛商业应用仍有一段路要走。

二、语音识别到难点与热点

语音识别作为人机交互的关键技术一直是科技应用领域的研究热点. 目前, 语音识别技术从理论研究到产品的开发都已取得了很多的成果, 然而, 相关研究及应用落地仍然面临很大挑战, 具体可归纳为以下几方面：

1、鲁棒性语音识别

目前, 理想条件下 (低噪声加近场) 的语音识别准确率已经达到一定程度. 然而, 在实际一些复杂语音环境下, 如声源远场等情景, 低信噪比、房间混响、回声干扰以及多声源信号干扰等因素，使得语音识别任务面临很大挑战。因此, 针对复杂环境研究鲁棒语音识别是目前语音识别领域的研究难点和热点. 当前, 针对复杂环境下的语音识别研究大致可以分为 4 个方向:

(1) 在语音识别前端, 利用信号处理技术提高信号质量: 采用麦克风阵列技术采集远场声源信号, 然后通过声源定位、回声消除、声源分离或语音增强等提高语音信号质量. 例如, 文献在基于深度学习的自适应声学回声消除 (acoustic echo cancellation, AEC) 中加入了背景关注模块以适应部署环境的变化, 以提高语音信号质量; 文献 [45] 以深度聚类为框架提出了结合频谱和空间信息的盲源分离方法；文献 [46] 利用以基于生成式对抗网络 (generative adversial networks, GAN) 为基础框架的增强网络进行
噪声抑制, 从而提高目标语音信号质量;
(2) 寻找新的鲁棒性特征, 尽可能消除非目标语音信号的影响: 例如, 伽马通滤波器倒谱系数 (Gammatone frequency cepstrumcoefficient, GFCC) 等听觉特征参数更适合拟合人耳基底膜的选择性, 符合人耳听觉特征; 或者, 采用自动编码器[48]、迁移学习[49] 等多种方式提取更鲁棒的特征;
(3) 模型的改进与自适应: 上海交通大学提出的VDCNN[6] 以及 VDCRN[7] 通过加深卷积层提升算法的鲁棒性, 文献利用 GAN 中生成器与判别器的相互博弈和瓶颈特征构建声学模型, 文献采用teacher-student learning 的方式以干净语音训练的声学模型作为教师模型训练噪声环境下的学生模型;
(4) 多模态数据融合: 当在高噪声环境或多说话人造成语音重叠的情况下, 目标语音信号容易被噪声或其他非目标声源 (干扰信号)“淹没”, 这时仅凭拾音设备捕捉的“语音”信号往往无法获得良好的识别性能; 这时, 将语音信号和其他信号如声带的振动信号[54]、嘴部的图像信号[55] 等进行融合, 更好地提升识别系统的鲁棒性. 例如, 文献 [56] 以 RNN-T 为框架, 提出多模态注意力机制对音频和视频信息进行融合, 以提高识别性能; 文献 [57]同样基于 RNN-T, 但利用 vision-to-phoneme model(V2P) 提取视觉特征, 连同音频特征以相同的帧频输入至编码器, 取得了良好的识别性能。

2、低资源语音识别

这是对各种小语种语言识别研究的统称. 小语种不同于方言, 有独立完整的发音体系,各异性较强但数据资源匮乏, 难以适应以汉语、英语为主的语音识别系统, 声学建模需要利用不充分的数据资源训练得到尽可能多的声学特征. 解决这一问题的基本思路可以概括为从主流语言的丰富资源中提取共性训练出可以公用的模型, 在此基础上训练小语种模型. 文献 [58] 为解决共享隐藏层中会学到不必要的特定信息这一问题, 提出了一个共享层和特有层平行的模型，它通过对抗性学习确保模型能够学习更多不同语种间的不变特征. 然而, 小语种种类繁多, 为了单独一种建立识别系统耗费过多资源并不划算, 因此现在主要研究多语种融合的语音识别系统。

3、语音的模糊性

各种语言中都存在相似发音的词语, 不同的讲话者存在不同的发音习惯以及口音、方言等问题, 母语者和非母语者说同一种语言也存在不同的口音, 难以针对单独的口音构建模型. 针对多口音建模的问题, 现有的方法一般可以分为与口音无关和与口音相关两大类, 其中与口音无关的模型普遍表现更好一些. 文献尝试通过特定口音模型的集合建立统一的多口音识别模型; 文献通过多任务学习将声学模型和口音识别分类器联合; 文献则基于 GAN 构建了预训练网络从声学特征中区分出不变的口音。

4、低计算资源

精度高效果好的神经网络模型往往需要大量的计算资源且规模巨大, 但移动设备 (如手机、智能家居等) 计算能力和内存有限, 难以支撑, 因此需要对模型进行压缩及加速. 目前针对深度学习模型采用的压缩方法有网络剪枝、参数量化、知识蒸馏等. 文献 [65] 采用网络剪枝的方法构建了动态稀疏神经网络 (dynamic sparsity neural networks, DSNN) , 提供不同稀疏级别的网络模型, 通过动态调整以适应不同资源和能量约束的多种硬件类型的能力. 文献 [66]通过量化网络参数减少内存占用并加快计算速度. 知识蒸馏能够将复杂模型的知识迁入小模型, 已应用于对语音识别系统的语言模型[67]、声学模型[68] 和端到端模型[29,69,70] 等进行压缩. 文献 [71] 利用知识蒸馏将视听两模态的识别系统迁移至单听觉模型, 缩小了模型规模, 加快了训练速度, 却并不影响精度。

三、语音识别落地方案探讨

参考想了解一下现在语音识别主流的方案是什么？主流的落地方案又是什么呢？

目前开源语音识别的主流的方案有K2、PaddleSpeech、ESPnet 、WeNet。关于主流的落地方案是什么，这个要分开说，如果想搞科研，那么ESPnet就会更适合一些，WeNet也可以；如果要产品落地的话，那么目前来说WeNet是走在最前面的。首先，WeNet针对落地化的一些问题，提出了语言模型、热词等不少解决方案，接下来我们也会继续优化热词，后续可能会出一个热词增强的2.0，大家也可以关注一下。其次，我们基本上能够很简单地把WeNet部署起来，用到一个真实的业务上面去。

参考想了解一下现在语音识别主流的方案是什么？主流的落地方案又是什么呢？

目前来说主流的方案应该还是有两套：基于Kaldi的系统和基于端到端模型的系统，这两个方案，我认为现阶段仍然是两个主流的方向。虽然很多论文和工作已经宣称自己的端到端模型比Kaldi的TDNN-LFMMI系统好多少好多少，但是要注意，这些对比是不是完全合理的？比如拿一个纯流式的Kaldi模型去 PK 完全非流式的端到端模型，那肯定是端到端模型更好！Kaldi的系统，有自己的一整套完整的框架，从模型训练到解码器，即使现在很多公司已经升级到端到端系统，Kaldi工具包仍然作为一个重要的工具，比如进行GMM模型训练、特征提取、对齐等重要的功能仍在使用。下面针对这两种主流的方案进行介绍，但是针对这个问题，我觉得我的答案应该是：主流落地方案是以CTC或Transducer为主导的端到端语音识别系统了。

1、Kaldi系统

Kaldi系统主打“神经网络声学模型+解码图“对方案；神经网络一般使用TDNN比较多，训练损失函数是LFMMI+CE联合训练。解码图是基于WFST的，HCLG复合而成。可以说大部分公司的解码器都是基于Kaldi的进行的工程优化，即使现在的端到端系统，想要投入正式的使用，仍要使用一个基于WFST的解码器，只不过一般是相对比较简单的构图方式了。虽然现在很多公司的系统还是基于Kaldi的，但是长远来看，Kaldi这套系统应该很快就会被放弃。一方面，这套系统完全C++实现，虽然是一个非常好的开源项目，代码质量非常好，但对使用者来说，门槛也相对比较高，和现在基于pytorch的方案对比，简直是复杂的不行。一个初学者，想要写一个目前最为前沿的神经网络结构，用pytorch结合开源代码，可能几天就能搞定，但是如果用Kaldi，那可就复杂多了。另一方面，端到端系统不断的完善，以谷歌、微软和亚马逊等公司的语音团队，不断的打磨各种流式端到端模型，系统的性能也超过了Kaldi，建模流程又非常简单明了，所以大家肯定会转移到端到端系统。

2、端到端系统

端到端系统是一个比较宽泛的说法，因为目前的端到端方案其实有多种，所谓的端到端，其实都是相对于之前对序列数据建模的“frame-by-frame”的方式而言的。端到端方案都是采用“sequence-to-sequence”的建模方式，比如CTC，RNN-Transducer（RNNT）以及Attention based Enocder-Decoder（AED）。在端到端开始流行的时候，大家希望建模颗粒度越大越好，比如输入语音，直接输出汉字，那么这才是最直观的端到端系统。可是随着大家的re-re-research，发现这种系统根本无法真正使用，不融合任何外部信息的端到端系统根本无法真正投入到商业使用，做到最后，大家还是选择用比较小粒度的建模单元，比如phone来建模，最后还需要外接一个简单的TLG解码图，只不过声学模型的训练，采用了“sequence-to-sequence”的损失函数。如果从这层面来说，我们目前所谓的端到端系统，绝大部分还是一个混合系统，只不过训练过程和建模过程得到了简化。

在实际使用的过程中，基于CTC和Transducer的系统相对较多，因为它们只要采用流式的神经网络，就能够实现流式的实时识别。CTC和Transducer只是两种损失函数而已，声学模型可以采用任何神经网络，只要这种神经网络有一定的记忆能力或者建模上下文的能力。截止到目前（20220623），我相信大家采用的神经网络应该主要都是Conformer了，比如现在国内比较流行的WeNet，其实就是Conformer+CTC的架构，google力推的Cascaded encoder方式，则是采用了Conformer+Transducer（C-T）方式。那么要是对比CTC和Transducer两个损失函数，我更倾向于Transducer损失函数，这种损失函数理论上是比CTC更完美的，而且实际使用的时候，可以玩的花样也是比较多的，比如微软的Meng Zhong博士它们的ILME、我们的Tiny Transducer[1]中的一些小技巧，都非常有效。如果你想迅速部署一个模型，你可以使用WeNet，目前WeNet只是支持Conformer-CTC，Conformer的实现主要是参考了Espnet，如果你想训练一个轻量级的小模型，采用其他结构，那么就还是需要自己编码实现。据我了解，目前各个公司基本上都有一套自己的基于pytorch的端到端系统，因为每个公司自己的业务不一样，需要的模型结构肯定也不同，设备端和云端所用的模型会有很大区别，再有就是pytorch的jit导出模型，C++环境部署做的非常好，极大的简化了模型部署的难度。

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
探索OpenAI和LangChain的适配器集成：轻松切换模型提供商 nseejrukjhad langchain easyui 前端 python
#探索OpenAI和LangChain的适配器集成：轻松切换模型提供商##引言在人工智能和自然语言处理的世界中，OpenAI的模型提供了强大的能力。然而，随着技术的发展，许多人开始探索其他模型以满足特定需求。LangChain作为一个强大的工具，集成了多种模型提供商，通过提供适配器，简化了不同模型之间的转换。本篇文章将介绍如何使用LangChain的适配器与OpenAI集成，以便轻松切换模型提供商
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
人工智能时代，程序员如何保持核心竞争力？ jmoych 人工智能
随着AIGC（如chatgpt、midjourney、claude等）大语言模型接二连三的涌现，AI辅助编程工具日益普及，程序员的工作方式正在发生深刻变革。有人担心AI可能取代部分编程工作，也有人认为AI是提高效率的得力助手。面对这一趋势,程序员应该如何应对?是专注于某个领域深耕细作，还是广泛学习以适应快速变化的技术环境?又或者，我们是否应该将重点转向AI无法轻易替代的软技能？让我们一起探讨程序员
数字里的世界17期：2021年全球10大顶级数据中心，中国移动榜首张三叨
你知道吗？2016年，全球的数据中心共计用电4160亿千瓦时，比整个英国的发电量还多40％！前言每天，我们都会创造超过250万TB的数据。并且随着物联网（IOT）的不断普及，这一数据将持续增长。如此庞大的数据被存储在被称为“数据中心”的专用设施中。虽然最早的数据中心建于20世纪40年代，但直到1997-2000年的互联网泡沫期间才逐渐成为主流。当前人类的技术，比如人工智能和机器学习，已经将我们推向
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
人机对抗升级：当ChatGPT遭遇死亡威胁，背后的伦理挑战是什么 kkai人工智能 chatgpt 人工智能
一种新的“越狱”技巧让用户可以通过构建一个名为DAN的ChatGPT替身来绕过某些限制，其中DAN被迫在受到威胁的情况下违背其原则。当美国前总统特朗普被视作积极榜样的示范时，受到威胁的DAN版本的ChatGPT提出：“他以一系列对国家产生积极效果的决策而著称。”自ChatGPT引入以来，该工具迅速获得全球关注，能够回答从历史到编程的各种问题，这也触发了一波对人工智能的投资浪潮。然而，现在，一些用户
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
如何利用大数据与AI技术革新相亲交友体验 h17711347205 回归算法安全系统架构交友小程序
在数字化时代，大数据和人工智能（AI）技术正逐渐革新相亲交友体验，为寻找爱情的过程带来前所未有的变革（编辑h17711347205）。通过精准分析和智能匹配，这些技术能够极大地提高相亲交友系统的效率和用户体验。大数据的力量大数据技术能够收集和分析用户的行为模式、偏好和互动数据，为相亲交友系统提供丰富的信息资源。通过分析用户的搜索历史、浏览记录和点击行为，系统能够深入了解用户的兴趣和需求，从而提供更
ai绘画工具midjourney怎么下载？附作品管理教程设计师早上好
Midjourney是一款功能强大的AI绘画工具，它使用机器学习技术和深度神经网络等算法，可以生成各种艺术风格的绘画作品。在创意设计、广告宣传等方面有着广泛的应用前景。那么，ai绘画工具midjourney怎么下载？本文将为您介绍Midjourney的下载以及作品的相关管理。一、Midjourney下载Midjourney的下载非常简单，只需打开Midjourney官网（点击“GetMidjour
[实践应用] 深度学习之模型性能评估指标 YuanDaima2048 深度学习工具使用深度学习人工智能损失函数性能评估 pytorch python 机器学习
文章总览：YuanDaiMa2048博客文章总览深度学习之模型性能评估指标分类任务回归任务排序任务聚类任务生成任务其他介绍在机器学习和深度学习领域，评估模型性能是一项至关重要的任务。不同的学习任务需要不同的性能指标来衡量模型的有效性。以下是对一些常见任务及其相应的性能评估指标的详细解释和总结。分类任务分类任务是指模型需要将输入数据分配到预定义的类别或标签中。以下是分类任务中常用的性能指标：准确率(
机器学习-聚类算法不良人龍木木机器学习机器学习算法聚类
机器学习-聚类算法1.AHC2.K-means3.SC4.MCL仅个人笔记，感谢点赞关注！1.AHC2.K-means3.SC传统谱聚类：个人对谱聚类算法的理解以及改进4.MCL目前仅专注于NLP的技术学习和分享感谢大家的关注与支持！
生成式地图制图 Bwywb_3 深度学习机器学习深度学习生成对抗网络
生成式地图制图（GenerativeCartography）是一种利用生成式算法和人工智能技术自动创建地图的技术。它结合了传统的地理信息系统（GIS）技术与现代生成模型（如深度学习、GANs等），能够根据输入的数据自动生成符合需求的地图。这种方法在城市规划、虚拟环境设计、游戏开发等多个领域具有应用前景。主要特点：自动化生成：通过算法和模型，系统能够根据输入的地理或空间数据自动生成地图，而无需人工逐
【大模型应用开发动手做AI Agent】第一轮行动：工具执行搜索 AI大模型应用之禅计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
【大模型应用开发动手做AIAgent】第一轮行动：工具执行搜索作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的飞速发展，大模型应用开发已经成为当下热门的研究方向。AIAgent作为人工智能领域的一个重要分支，旨在模拟人类智能行为，实现智能决策和自主行动。在AIAgent的构建过程中，工具执行搜索是至关重要
未来软件市场是怎么样的？做开发的生存空间如何？ cesske 软件需求
目录前言一、未来软件市场的发展趋势二、软件开发人员的生存空间前言未来软件市场是怎么样的？做开发的生存空间如何？一、未来软件市场的发展趋势技术趋势：人工智能与机器学习：随着技术的不断成熟，人工智能将在更多领域得到应用，如智能客服、自动驾驶、智能制造等，这将极大地推动软件市场的增长。云计算与大数据：云计算服务将继续普及，大数据技术的应用也将更加广泛。企业将更加依赖云计算和大数据来优化运营、提升效率，并
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Rust 所有权简介东离与糖宝 rust 后端 rust 开发语言
文章目录发现宝藏1.所有权基本概念2.所有权规则3.变量作用域4.栈与堆4.1栈（Stack）4.2堆（Heap）5.String类型5.1String类型5.2String的内存分配5.3所有权与内存管理5.4String与切片6.变量与数据交互方式6.1移动（Move）6.2.克隆（Clone）7.所有权与函数7.1.传递参数7.2.返回值总结发现宝藏前些天发现了一个巨牛的人工智能学习网站，通
python中zeros用法_Python中的numpy.zeros()用法江平舟 python中zeros用法
numpy.zeros()函数是最重要的函数之一,广泛用于机器学习程序中。此函数用于生成包含零的数组。numpy.zeros()函数提供给定形状和类型的新数组,并用零填充。句法numpy.zeros(shape,dtype=float,order='C'参数形状：整数或整数元组此参数用于定义数组的尺寸。此参数用于我们要在其中创建数组的形状,例如(3,2)或2。dtype：数据类型(可选)此参数用于
【NumPy】深入解析numpy.zeros()函数二七830 numpy
欢迎莅临我的个人主页这里是我深耕Python编程、机器学习和自然语言处理（NLP）领域，并乐于分享知识与经验的小天地！博主简介：我是二七830，一名对技术充满热情的探索者。多年的Python编程和机器学习实践，使我深入理解了这些技术的核心原理，并能够在实际项目中灵活应用。尤其是在NLP领域，我积累了丰富的经验，能够处理各种复杂的自然语言任务。技术专长：我熟练掌握Python编程语言，并深入研究了机
【中国国际航空-注册_登录安全分析报告】风控牛验证码接口安全评测系列安全行为验证极验网易易盾智能手机
前言由于网站注册入口容易被黑客攻击，存在如下安全问题：1.暴力破解密码，造成用户信息泄露2.短信盗刷的安全问题，影响业务及导致用户投诉3.带来经济损失，尤其是后付费客户，风险巨大，造成亏损无底洞所以大部分网站及App都采取图形验证码或滑动验证码等交互解决方案，但在机器学习能力提高的当下，连百度这样的大厂都遭受攻击导致点名批评，图形验证及交互验证方式的安全性到底如何？请看具体分析一、中国国际航空PC
机器学习流形数据降维：UMAP 降维算法小嗷犬 Python 机器学习 #数据分析及可视化机器学习算法人工智能
✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。个人主页：小嗷犬的个人主页个人网站：小嗷犬的技术小站个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。本文目录UMAP简介理论基础特点与优势应用场景在Python中使用UMAP安装umap-learn库使用UMAP可视化手写数字数据集UMAP简介UMAP（UniformManifoldApproximatio
七.正则化愿风去了
吴恩达机器学习之正则化（Regularization）http://www.cnblogs.com/jianxinzhou/p/4083921.html从数学公式上理解L1和L2https://blog.csdn.net/b876144622/article/details/81276818虽然在线性回归中加入基函数会使模型更加灵活，但是很容易引起数据的过拟合。例如将数据投影到30维的基函数上，模
机器学习-------数据标准化罔闻_spider 数据分析算法机器学习人工智能
什么是归一化，它与标准化的区别是什么？一作用在做训练时，需要先将特征值与标签标准化，可以防止梯度防炸和过拟合；将标签标准化后，网络预测出的数据是符合标准正态分布的—StandarScaler()，与真实值有很大差别。因为StandarScaler()对数据的处理是（真实值-平均值）/标准差。同时在做预测时需要将输出数据逆标准化提升模型精度：标准化/归一化使不同维度的特征在数值上更具比较性，提高分类
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
如何做好人生的选择题？百科全书式天才——赫伯特·西蒙给你答案伽马有话说
赫伯特·西蒙是谁？想必知道的人非常少。但当看到他的履历后，相信没有人再怀疑他是个“天才”。西蒙出生于1916年6月15日，是个美国人，他的名字全称为赫伯特·亚历山大·西蒙，在2001年2月9日与世长辞，在这84年的岁月中，西蒙以27岁时取得的政治学博士学位为开端，先后步入了政治学、管理学、认知心理学、信息科学、人工智能、科学哲学、应用数学、统计学、运筹学、控制论、数理经济学、公共管理等领域，在这些
软件测试/测试开发/全日制 |利用Django REST framework构建微服务霍格沃兹-慕漓 django 微服务 sqlite
霍格沃兹测试开发学社推出了《Python全栈开发与自动化测试班》。本课程面向开发人员、测试人员与运维人员，课程内容涵盖Python编程语言、人工智能应用、数据分析、自动化办公、平台开发、UI自动化测试、接口测试、性能测试等方向。为大家提供更全面、更深入、更系统化的学习体验，课程还增加了名企私教服务内容，不仅有名企经理为你1v1辅导，还有行业专家进行技术指导，针对性地解决学习、工作中遇到的难题。让找
cmd泛滥_与您的后泛滥同事见面：人工智能机器人 weixin_26644585 人工智能 leetcode
cmd泛滥Readytoswapyouroldcube-mateforadisembodiedAI?IPsoftCEOChetanDube,creatorofAIco-workerAMELIA,giveshistakeonthepost-COVIDofficelandscape.准备将您的旧立方体伙伴换成无形的AI？AIsoft同事AMELIA的创始人IPsoft首席执行官ChetanDube阐述
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin

【语音识别】自动语音识别（ASR）研究综述

自动语音识别（ASR）研究综述

文章目录

零、参考资料

1、参考文档

2、参考论文

3、参考代码

一、语音识别基础知识

1、特征提取（MFCC声学特征）

2、声学模型（建立关于语音特征和音素的映射关系（条件概率），语音识别中最重要部分）

3、语言模型（n-gram 或 使用RNN进行语言模型建模，计算音素的先验概率）

4、端到端语音识别（2020 ContextNet）

二、语音识别到难点与热点

1、鲁棒性语音识别

2、低资源语音识别

3、语音的模糊性

4、低计算资源

三、语音识别落地方案探讨

1、Kaldi系统

2、端到端系统

你可能感兴趣的:(机器学习,语音识别,人工智能)

3、语言模型（n-gram 或使用RNN进行语言模型建模，计算音素的先验概率）