小小何先生

深度学习系列(二)【人类语言处理--语音辨识】

文章目录

输入处理
输出处理
模型

Listen, Attend, and Spell (LAS)

Listen
Attention
Spell

Connectionist Temporal Classification (CTC)
RNN Transducer (RNN-T)
Neural Transducer
Monotonic Chunkwise Attention (MoChA)

引入深度学习

Alignment of HMM, CTC and RNN-T
Language Modeling

N-gram语言模型
NN-based LM

参考

在语音辨识中输入是语音信号，输出是对应的文字。语音表示为一个序列向量(长度为 $\text{T}$ ，维度为 $\text{d}$ )。输出的Text一般表示为一个Token序列，长度为 $\text{N}$ ， $\text{V}$ 个不同的token所构成，通常 $\text{T} > \text{N}$ 。

在实际运用的过程中，有时候也会从声音信号直接得到word embeddings，或者连着翻译(Translation)一起做了，或者引入意图分类( Intent classification，常见于客服电话这些)，或者加上槽填充（Slot Filling，填槽指的是为了让用户意图转化为用户明确的指令而补全信息的过程，我的理解是：比如在Chatbot中引导用户给出明确指令。）

输入处理

拿到一个语音信号我们一般是如何处理的呢？也就是如何将语音信号表示为一个序列向量(长度为 $\text{T}$ ，维度为 $\text{d}$ )。或者称之为提取它的声学特征(acoustic feature)，下图是一种解决办法的流程：

拿到一段语音信号之后首先需要对其进行初步处理，一般25ms的时间窗取出一个frame(对应就有400个采样点(16KHz)；使用MFCC会得到39维向量、filter bank输出是80维)，然后开始滑动，类似滤波操作，一般每个时间窗的间隔为10ms，那么1s内就有100个frame。更多的学习资料可以参考：

數位語音處理第七章Speech Signal and Front-end Processing

如何处理每个frame呢？如下图所示：

先输入声音信号，经过离散傅里叶变换(DFT) 变成频谱图，经过多个不同的filter bank(古圣先贤们设计出来的)处理后，得到一系列向量，通过对数变换，再经过离散余弦变换(DCT)，使用再结合MFCC方法得到向量。当然在实际过程中很多学者也不是都采取需要将上述过程全部走完得到MFCC输出的方式，2019年大部分工作都是在filter bank输出之后就将其作为特征输出。

输出处理

输出问文字部分，文字的表示方法不同大体可以分为以下五种：

Phoneme(phoneme，发音的基本单位)：这里相当于音标，然通过Lexicon(词典)将phoneme转换成word。而这个词典需要语言学家事先定义好，因此是这种方法的弊端。
Grapheme：(Grapheme，书写的基本单位)，也就是说通过字母，标点，空格这些来表示一个词。比如one_punch_man这个词中N=13, V=26+；如果是中文，则由单个汉字组成文本，比如：“一”,“拳”,“超”,“人”，N=4, V≈4000。
Word：顾名思义，就是用词来表示句子，但是有些词汇可能超大，无法穷举。
Morpheme：(Morpheme，语素，可以传达意思的最小单位，小于词，大于字母)，例如英文中：unbreakable可以拆成 “un“ ”break“ ”able”。语素的获取主要有两种方式，一种是由语言学家给出，另一种是统计单词中某些字母的组合，从而进行估计。
Bytes：当然还有一种暴力的方法，通过字节直接定义，此时V一直可表示为256(8字节)。

2019年使用最多的是grapheme这种字母的表现形式。

模型

传统的神经网络模型无法解决变长的序列学习问题。主流的有两种解决思路：1. Encoder-Decoder；2. Connectionist Temporal Classification (CTC)。

Listen, Attend, and Spell (LAS)

LAS是15年比较流行的几个动词叠在一起的叫法，本质还是Seq2seq。

Listen, Attend and Spell：https://arxiv.org/abs/1508.01211v2

属于Encoder-Decoder，只不过在神经网络中加了attention机制，主要是提取特征，过滤掉杂讯信号。LAS主要可以分三点来展开：Listen, Attend和Spell。

Listen

Listen部分主要是时序声音信号的处理，可以采用循环神经网络(RNN)、或者卷积神经网络(CNN)的方式来处理，而目前主流的方法都是在循环处理部分引入self-attention机制。而声音的时序信号往往太长，相邻的声音讯号在RNN序列中带有重复信息，因此在这里做下采样能够大大减少运算量但对实际效果影响会比较小。作者这里采用了Pyramin RNN这样一种下采样(Down Sampling)的技术。

Down Sampling大体上可以分为4种：

Pyramin RNN：用于LAS中，如果没有Pyramin RNN，LAS是train不起来的，所以起到了至关重要的作用，主要是将RNN的输出的相邻两个节点进行相加。

Pooling Over Time：用于RNN中，将RNN输出相邻两个中只取一个。首次提出是Bahdanau. et al.,在ICASSP’16上提出。

End-to-End Attention-based Large Vocabulary Speech Recognition

Time-Delay DNN：Time-Delay DNN也被称作时延神经网络，早在1989年就已经被提出。主要目的有两个：1）使用不变性对模式进行分类，以及 2）在网络的每一层建模上下文。

不变移位分类意味着分类器在分类之前不需要显式分割。对于时间模式（例如语音）的分类，TDNN因此避免了在对声音进行分类之前必须确定声音的起点和终点。

对于TDNN中的上下文建模，每一层的每个神经单元不仅从下一层的激活/功能接收输入，而且从单元输出及其上下文的模式接收输入。对于时间信号，每个单元随时间从下面的单元接收激活模式作为输入。将TDNN应用于二维分类（图像，时频图）时，可以在坐标空间中进行平移不变性训练，并避免在坐标空间中进行精确分割。

用于CNN的一维卷积中，可以值取CNN输出的第一个和最后一个，与Dilated CNN(空洞卷积)类似。

Waibel, A., Hanazawa, T., Hinton, G. E., Shikano, K., & Lang, K. J. (1989). Phoneme recognition using time-delay neural networks. IEEE Transactions on Acoustics, Speech, and Signal Processing, 37(3), 393-404.
Peddinti, V., Povey, D., & Khudanpur, S. (2015). A time delay neural network architecture for efficient modeling of long temporal contexts… conference of the international speech communication association.

Truncated Self-Attention：以往的attention是注意在整个sequence上面，而truncated self-attention只考虑部分sequence，因为语音的sequence非常长。具体多长是一个需要调整的参数，也就是说只注意一个窗口内的元素，至于这个窗口是多大是一个待调整的参数。

Transformer-Transducer: End-to-End Speech Recognition with Self-Attention

Attention

对于attention不了解的可以参考以下文章：

TransFormer学习笔记附代码(一)

这里对其数学部分进行简要描述：

首先我们有一个序列： $x_{1},\cdots,x_{i}$ ，是我们的输入信号，首先经过一个学习权重矩阵 $W$ 得到输出： $a_{1},\cdots, a_{i}$ (即 $a^{i}=Wx^{i}$ )。再将每个 $a_{i}$ 乘以三个不同的权重参数： $W^{q}$ ， $W^{k}$ ， $W^{v}$ ，得到query $q^{i}$ 、key $k^{i}$ 和value $v^{i}$ 。

$q^{i} =W^{q}a_{i}\\ k^{i} =W^{k}a_{i}\\ v^{i} =W^{v}a_{i}$

每个query $q$ 对每个key $k$ 做attention (相当于对每个输入乘以权重系数，用于表示输出更注重于哪个输入，用这种乘以权重系数的方法表述注意力机制)：

$\alpha_{1,i} = q^{1} \cdot k^{i} / \sqrt{d}$

也就是Attention是吃两个向量，输出这两个向量有多匹配(输出一个分数)，可以看到上述方法是采用Scaled Dot-Product Attention的方式得到。 $d$ 是 $q$ 和 $k$ 的维度，除以 $\sqrt{d}$ 是相当于归一化的处理，用于减少方差。

除了Dot-product Attention的方法还有Additive Attention的方法，即二者相加再经过tanh函数和权重矩阵得到最后的 $\alpha$ 结果，可以如下文献中找到具体算法：

Chorowski, J., Bahdanau, D., Serdyuk, D., Cho, K., & Bengio, Y. (2015). Attention-based models for speech recognition. neural information processing systems.

到此我们可以得到对输入 $i$ 个向量 $x_{i}$ 的全部注意力 $\alpha_{1,1} \cdots, \alpha_{1,i}$ ，再将其送入Softmax层得到 $\hat{\alpha}_{1,i}$ ：

$\hat{\alpha}_{1, i}=\exp \left(\alpha_{1, i}\right) / \sum_{j} \exp \left(\alpha_{1, j}\right)$

再将 $\hat{\alpha}_{1,i}$ 与 $v^{i}$ 相乘再求和得到第一个输出： $b_{1}=\sum_{i}\hat{\alpha}_{1,i}v^{i}$ 。由此可以看出attention通过 $\hat{\alpha}$ 决定看哪些信息，不看哪些信息。用 $q_{2}$ 做attention，依此类推可以计算得到 $b_{2}$ 。而上述算法其实就是一堆矩阵运算，因此可以用GPU加速。(当然上述的attention过程可以做多份，也就是类似的 $q$ ， $k$ ， $v$ 做多份，只要是由不同的参数矩阵 $W$ 所生成出来的就可以，这种叫做Multi-head Self-attention。对于输入有先后关系的数据需要引入位置编码(Positional Encoding)将位置信息送入)。

LAS中的做法与之有些许不同：

编码器和解码器中间的注意层会有一个 $z^{0}$ 参数作为要搜索的Query，而编码器输出的隐层嵌入每位置的向量 $h^{i}$ 是要注意的Key。我们用 $z^{0}$ 和每一个 $h^{i}$ 去计算注意力得分(点积或加性的方式)：

之后 $c^{0}$ 会是decoder的输入。

Spell

$c^{0}$ 和 $z^{0}$ (关键字) 作为解码器RNN的第一个输入，然后输出一个token的分布，取max可以得到第一个token：

再拿 $z_{1}$ 与原编码器的隐层向量做注意力，得到一个新的注意力分布 $c^{1}$ ，再次输入给RNN，得到第二个token，直到终止符。

由于解码中RNN的输出会影响下一个点的输出，因此有了Greedy Decoding和Beam Search两种方式。这里考虑RNN输出只有两种情况的例子对其举例说明。若采用Greedy Decoding的方式：

会得到ABB的输出结果，但是BBB的置信分数确是最高的。Beam Search的方式是说每次找K条路径进行搜索，窗口大小为K的贪心搜索。从每个节点我们都保留K个最好的路径，一直往下。

如果在训练RNN的时候，第二个节点用第一个节点真实的标签进行训练的话，这种技术叫做Teacher Forcing：

之前的注意力阶段，我们每次是用解码器的输出隐层去与编码器的输出做注意力。除此以外，还有另一种做注意力的方式。我们把解码器的隐层 $z_{t}$ 拿出来与 $h_{i}$ 做注意力得到 $c^{t}$ 。这个 $c^{t}$ 不是保留到下一个时间才使用，在当前时间点立刻使用。我们把 $z_{t}$ 和 $c^{t}$ 丢给解码器RNN，得到新分布 $z_{t+1}$ 。这两种注意力的区别在，注意力得到的结果是下一个时间使用还是当前时间使用。在LAS中作者采用了全都要的方式：

Location-aware attention

语音识别是否非要用注意力不可呢？注意力最早是用在Seq2Seq翻译上解决源语言与目标语言的对齐问题。这个弹性很大的注意力，在语音上用会有种杀鸡焉用牛刀的感觉。因为语音上，每次注意跳跃是有限的。而不会出现像机器翻译那样，开头注意到结尾的的大跳跃情况。我们可以用Location-aware attention来优化。我们的注意力不能够随便乱跳，而是要考虑前一个时间步得到的注意力权重影响。我们把 $t$ 之前的注意力权重 $\alpha_{0}$ 到 $\alpha_{t-1}$ 的向量，做一个线性映射后再输入给解码RNN。这样模型就能学到，每解码出一个token，注意力就要往右移动一点。

LAS模型需要在海量数据集上训练，和一些调参技巧，与传统方法相比才会有显著提升。但LAS有另一个好处是，它的模型参数可以比传统方法变得很小。

LAS的注意力可视化出来发现，即便没有用Location-aware attention，模型也可以自己学到这样的注意规律。

LAS虽然神通广大，但它也有一些问题。我们期待我们的模型可以做online的识别，即能够一边听，一边做语音识别。而不是模型听完整句话后，等上一秒，模型才输出辨识结果。往后要讲的模型，就是解决LAS的这个问题。

Connectionist Temporal Classification (CTC)

Graves, A., Fernandez, S., Gomez, F., & Schmidhuber, J. (2006). Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. international conference on machine learning.

CTC是能够做到on-line的语音辨识算法，因为是Online的算法，所以其RNN输入是单向的。在RNN输出后接一个线性模型用于预测token的分布。

RNN中输入语音信号 $x^{i}$ ，得到输出 $h^{i}$ ，再经过一个线性模型，相当于乘以参数矩阵 $W$ 再经过Softmax层得到token的分布。由于在语音信号中当前的音频 $x^{i}$ 可能并没有对应的token，往往是多个 $x^{i}$ 才能得到一个token，所以预测的token类别要多一个空的类别，用 $\phi$ 定义，表示模型并不知道要输出什么。

CTC没有下采样(down sampling) 因此输入 $T$ 个acoustic features，会输出得到 $T$ 个tokens，这 $T$ 个tokens会包含 $\phi$ ，并且我们需要合并相同的tokens，并移除 $\phi$ 。如果我们得到的输出为 $\phi \phi \mathrm{d} \mathrm{d} \phi \mathrm{e} \phi \mathrm{e} \phi \mathrm{p} \mathrm{p}$ ，那我们最终得到的输出就是deep。

这也会存在一个问题，就是输入的语音信号往往是会比输出的token要多的，那此时的label就会有很多种情况，比如 $\phi \mathrm{d} \mathrm{d} \mathrm{d} \phi \mathrm{e} \phi \mathrm{e} \phi \mathrm{p} \mathrm{p}$ 也代表是deep，这样的话标注就会变的非常困难。CTC的训练过程中穷举所有的label，做cross-entropy。

Graves, A., & Jaitly, N. (2014). Towards End-To-End Speech Recognition with Recurrent Neural Networks. international conference on machine learning.

token采用词汇的方式也会有效果，可参考下文。

Sak, H., Senior, A. W., Rao, K., & Beaufays, F. (2015). Fast and Accurate Recurrent Neural Network Acoustic Models for Speech Recognition. arXiv: Computation and Language,.

CTC的算法也存在一些问题，比如后面输出的token并不知道前面token所发生的事情，即线性模型的解码器是独立工作的，如果训练的时候label还穷举所有可能的话，就会存在前面如果输出了正确的token $\mathrm{d}$ 和 $\phi$ 之后，后面的输出并不知道这一点可能会再次输出 $\mathrm{d}$ 导致重复。也就是我们需要考虑线性模型这一层的前后依赖关系。

RNN Transducer (RNN-T)

在RNN-T之前，有一个算法是用来解决线性模型这一层的前后依赖关系的，Recurrent Neural Aligner(RNA)由Sak, H在2017年提出：

Sak, H., Shannon, M., Rao, K., & Beaufays, F. (2017). Recurrent Neural Aligner: An Encoder-Decoder Neural Network Model for Sequence to Sequence Mapping. conference of the international speech communication association.

主要工作是将线性模型那一层神经网络换成了RNN：

在此基础之上，如果我们让解码的RNN是吃一个输入，输出多个token，比如th只是一个音。对于CTC而言，它只能先输出t再在下一个时间点解码输出h，而我们希望它直接输出t和h。这种输入一个隐层，预测多个tokens的模型便是RNN-T：

如上图所示，这种方式会有 $T$ 个 $\phi$ 的输出。RNN-T与CTC同样会遇到训练数据难标注，标注多标准的问题。我们会穷举所有可能的标注给模型训练。

Neural Transducer

Neural Transducer与之前所作方法的改变在输入 $h^{i}$ 上，其输入不再是单个 $h^{i}$ ，而是一把 $h^{i}$ ，然后做attention：

首先我们会让声学特征通过编码器产生隐层输出，再对一个窗口的小范围隐层做注意力后，再输出给解码的RNN。若窗口大小内信息已经用完了，解码的RNN就会输出空类别。接下来我们再移动窗口，对下一个窗口内的隐层重复刚才的操作。

Jaitly, N., Le, Q. V., Vinyals, O., Sutskever, I., Sussillo, D., & Bengio, S. (2016). An Online Sequence-to-Sequence Model Using Partial Conditioning. neural information processing systems.

Monotonic Chunkwise Attention (MoChA)

MoChA是一种动态的窗口移动算法(dynamically shift the window)，能够动态地去调整窗口到底放在哪里会比较好。

输入z0和隐层h1，输出yes/no，表示要不要把窗口开头放在此处位置。如果不要，就往右移动窗口，再检查下一个位置的隐层h2。一旦确定放置窗口，就对窗口内的隐层向量做注意力，解码出的token不会包含空类别。

Chiu, C., & Raffel, C. (2018). Monotonic Chunkwise Attention. international conference on learning representations.

HMM

HMM (Hidden Markov Model) 与上述这种End-To-End的神经网络方法有什么区别呢？以前神经网络不像现在这么流行的时候是如何来做这样一件事情的呢？

语音辨识要做的事情就是输入一个向量 $X$ ，输出产生一串token $Y$ 。传统的HMM采用统计的方法，穷举所有可能的 $Y$ ，找到一个可以使得 $P (Y ∣ X)$ 最大的那一个 $Y$ ，即： $Y^{*}=\arg \max _{Y} P(Y | X)$ ，也就得到了最终的结果。这种算法通常被称作解码(decode)，根据贝叶斯定律我们有以下等式变换：

$\begin{array}{l} \mathrm{Y}^{*}=\arg \max _{\mathrm{Y}} P(\mathrm{Y} | X) \\ \qquad \begin{array}{l} =\arg \max _{\mathrm{Y}} \frac{P(X | \mathrm{Y}) P(\mathrm{Y})}{P(X)} \\ =\arg \max _{\mathrm{Y}} P(X | \mathrm{Y}) P(\mathrm{Y}) \end{array} \end{array}$

前面这项 $P (X ∣ Y)$ 是Acoustic Model，HMM可以建模，后面那项 $P (Y)$ 是Language Model，有很多种建模方式。

输出的 $Y$ 可以有很多不同的粒度，比如拿音标，字或词。但这些单位，对HMM的隐变量来说，都太大了。所以我们需要为 $P (X ∣ Y)$ 建模，变成为 $P (X ∣ S)$ 建模。 $S$ 为状态，是人定义的。它是比音素Phoneme还要小的单位。序列中的每一个音素，都会受到前后音素单位的影响。我们会用一个Tri-phone，把当前的每一个音素，都加上它前后的音素，相当于把原来的音素切得更细。这样d后面的uw，和y后面的uw表达出来就会是不同的单位。

HMM建模过程中有两种概率：一种是转移概率(Transition Probability)，如 $P (b ∣ a)$ ，即当前状态转移到其它状态或不转移状态的概率，另一种是输出概率(Emission Probability)，如 $P (x ∣ " t - d + u w 1 ")$ ，即该状态输出某个样子的声学特征向量的概率。假设每一个状态，它产生出来的声学特征向量有一个固定的分布。我们可以用高斯混合模型，或者GMM来表示这个概率。

这便是为什么我们要用比Phoneme还要小的单位来表示状态。因为我们要假设每个状态输出出来的分布稳定。为什么我们不用字符单位来当作状态呢？c这个字母它的发音不是固定的。它在很多时候是发"ke"，但它在h后面就发音"ch"。这样就不适合拿来当作HMM的状态。

假设我们已经用给定好的数据算好了Emission Probability和Transition Probability，我们还是算不出 $P (X ∣ S)$ 的概率。假设我们有3个状态abc。我们需要知道把它变成aabbcc的序列才可以和声学特征对齐一样，但是会存在很多各种不同可能的对齐方式，比如 $h = a b b b b c$ 。给定的候选对齐状态不同，算出来产生的声学特征的概率 $P (X ∣ h)$ 也就会不一样。因此就需要穷举所有可能，找到它产生与观测 $X$ 的声学特征概率最大，最一致的对齐方式。关键技术在Alignment。

$\mathrm{P}_{\theta}(X | S)=? \sum_{h \in align(S)} P(X | h)$

引入深度学习

Tandem：之前的声学特征用的是MFCC做的，深度学习在做的是，输入一个MFCC，预测它属于哪个状态的概率。
DNN-HMM Hybrid：HMM中有一个高斯混合模型。我们想把它用DNN取代掉。高斯混合模型做的事情是给定一个状态，预测声学特征向量的分布，即 $P (x ∣ a)$ 。DNN是训练一个State的分类器，计算给定一个声学特征下，它是某个状态的概率，即 $P (a ∣ x)$ 。基于贝叶斯定律，可以得到 $P (x ∣ a) = P (a ∣ x) P (x) / P (a)$ 。 $P (a)$ 可以通过在训练资料中统计得到。 $P (x)$ 可以忽略。

我们要如何训练一个状态分类器呢？它的输入是一个声学特征(Acoustic features)，输出是它是某个状态的概率。做这样的任务我们需要标注数据(每个声学特征和状态之间的对应关系)，但是我们并没有这样的标注数据。过去的做法是训练一个HMM-GMM，那这个粗糙的模型去做找出一个概率最大的对齐。然后再根据声学特征与状态之间的对齐数据，去训练状态分类器。

接着，我们再拿这个训练好的状态分类器，替换掉原来的HMM-GMM 再对数据对齐，来训练出一个更好的状态分类器。我们反复重复这个过程。用训练得到的DNN去对数据做对齐，再用对齐的数据去训练一个新的DNN。

Yu, D., Xiong, W., Droppo, J., Stolcke, A., Ye, G., Li, J., & Zweig, G. (2016). Deep Convolutional Neural Networks with Layer-Wise Context Expansion and Attention… conference of the international speech communication association.
Saon, G., Kurata, G., Sercu, T., Audhkhasi, K., Thomas, S., Dimitriadis, D., … & Hall, P. (2017). English Conversational Telephone Speech Recognition by Humans and Machines… conference of the international speech communication association.

Alignment of HMM, CTC and RNN-T

对于端对端的语音识别系统，比如说LAS，你可以想成它可以直接计算 $P (Y ∣ X)$ 。对于序列中的第一个 $c_{0}$ ，它通过RNN计算 $P(a|c_{0})$ 的概率。生成出 $a$ 之后，它又计算 $P(b|a,c_{0},c_{1})$ 的概率……我们把这些每步计算的概率连乘起来就可以得到 $P (Y ∣ X)$ 。训练的时候，是找一个最优的模型参数，来让 $P(\hat{Y}|X)$ 越大越好。而测试(解码)的时候，则是用Beam Search来遍历所有可能的 $Y$ ，来让 $P (Y ∣ X)$ 越大越好，如下图所示：

对于CTC和RNN-T是无法直接计算 $P (Y ∣ X)$ 的，我们需要额外的alignment(使得输出、输入长度对齐，一样)，也就是我们需要先计算 $\quad$ ，其中 $\phi b \phi \rightarrow a b$

$\mathrm{P}(\mathrm{Y} | X)=\sum_{h \in \text {align}(Y)} P(h | X)$

那如何穷举所有可能的alignment？如何把所有的alignment加起来，如何来训练 $\theta^{*}=\arg \max _{\theta} \log \mathrm{P}_{\theta}(\hat{Y} | X)$ ？若采用梯度下降算法，那得对其求梯度 $\frac{\partial \mathrm{P}_{\theta}(\hat{Y} | X)}{\partial \theta}=?$ ，如何计算？当模型训练好了，又要怎么做推断 $Y^{*}=\arg \max _{Y} P(Y | X)$ 呢？

穷举所有可能的alignment：假设输入有6个声学特征向量，输出是三个以英文字母为最小单位的tokens，“c”, “a”, 和"t"。虽然实际中不会用字符为最小单位，但这里我们只是为了方便比较。对于HMM，它们为隐变量状态。我们需要对cat分别做一些重复，变成ccaaat或者 caaaat等等。而对于CTC，它有两种选择，一个是重复，另外一个是加上空类别，变成 $c\phi aatt$ 或者 $\phi ca\phi t\phi$ 等等。对于RNN-T，它要加上T个 $\phi$ 。它的运作是每次解码器输出一个 $\phi$ 的时候，它就读下一个声学特征。因此它需要输出6次 $\phi$ ，才能把所有的声学特征读完。变成 $c\phi \phi \phi a\phi \phi t\phi$ 或者 $c \emptyset \emptyset a \emptyset \emptyset t \emptyset \emptyset$ 等等，每一种就是一个alignment。但对于LAS来说，它完全不需要考虑对齐的问题。

用隐马尔可夫链来可视化三种模型的对齐方式，就可以直观地看到他们的关联：

计算所有的alignments总和：假设 $h=\phi$ с $\phi \phi$ а $\phi$ t $\phi \phi$ ，此条alignment概率计算公式为： $=P(\phi | X) \times P(c | X, \phi) \times P(\phi | X, \phi c) \cdots$

RNN-T与CTC不同的地方在，它另外训练了一个解码的RNN。这个RNN会把解码出来的token当作输入，去影响它接下来的输出。一开始我们没有任何输入，就先输入一个让它产生一个向量。一开始产生的是 $l_{0}$ ，我们把编码产生的 $h_{1}$ ，与 $l_{0}$ 一起输入给解码器MLP，让它产生一个概率 $p_{1,0}$ ，表示输入第一个隐层，没产生任何token时，RNN-T产生出的概率分布。它是 $\phi$ 放在句首的概率。接下来我们要算，有了这个 $\phi$ 之后，产生下一个token为c的概率。上面的解码RNN也不会造成任何影响。它只在解码器MLP生成了实在的token，它才会往下计算。但产生 $\phi$ 是表示当前由编码器输出的隐层 $h_{1}$ 的信息模型已经用尽了。接下来我们要计算下一个token的隐层 $h_{2}$ 。我们把 $h_{2}$ 和之前的 $l_{0}$ 一起输入编码器MLP，输出得到概率 $p_{2,0}$ 。由于我们解码出了实在的token $c$ 。往后一步这个 $c$ 就会输入给上面的RNN，来计算一个新的 $l_{1}$ 。 $l_{1}$ 和 $h_{2}$ 一起丢给解码器MLP就会得到概率 $p_{2,1}$ 。以此类推… 这些输出的概率全部相乘，就是最终 $P (h ∣ X)$ 的概率。

RNN-T 它神奇的地方是，它把 token 与token之间的关系，独立用 RNN 来表示。这刚好是HMM的独立观测假设。

HMM是用向前和向后传播算法来计算所有候选对齐的概率分数。RNN-T与HMM所用的方法，是一模一样的。我们定义 $α_{i,j}$ 为，已经读了第 $i$ 个声学特征且输出了第 $j$ 个token的所有对齐分数之和。比如说 $α_{4,2}$ 可以从 $α_{4,1}$ 和 $α_{3,2}$ 转移过来，那么就有 $α_{4,2} = α_{4,1} p_{4,1} + α_{3,2}p_{3,2}$ 。如此一来，我们就很容易推出动态规划的递推式 $α_{i,j} = α_{i-1,j}p_{i-1,j} + α_{i,j-1}p_{j-1,i}$ 。这样我们只需要遍历一个 $\times N$ 的网格，我们就能算出所有的分数之和。有了所有候选对齐的概率分数之和，我们就得到了 $P (Y ∣ X)$ 。

接下来是思考要怎么训练了。我们要找到一个模型参数 $\theta$ ，来让 $logP(\hat{Y}|X)$ 最大。

$\frac{\partial P(P | X)}{\partial \theta}=? \quad \frac{\partial p_{4,1}(a)}{\partial \theta} \frac{\partial P(P | X)}{\partial p_{4,1}(a)}+\frac{\partial p_{3,2}(\phi)}{\partial \theta} \frac{\partial P(P | X)}{\partial p_{3,2}(\phi)}+\cdots$

对于前一项，每个箭头对参数 $\theta$ 的偏微分，计算方式就是经典的BPTT时序的反向传播。一开始最右边的结果计算和标签的损失，反向传播传到编码器，再传到上面的解码器RNN。

对于后一项，整个 $P(\hat{Y}|X)$ 对每个箭头的偏微分，我们要先用之前的动态规划算法得到 $P(\hat{Y}|X)$ 。算的时候，要把包含当前 $p_{i,j}$ 和不包含当前 $p_{i,j}$ 分开来计算。对于前面包含 $p_{i,j}$ 的，求导后就只剩非 $p_{i,j}$ 的概率相乘求和。对于第二项没有包含 $p_{i,j}$ 的求导，它就没了。我们把第一项再整理一下，就可以得到最终的计算式。得到 $P(\hat{Y}|X)$ 后除以当前箭头 $p_{i,j}$ 的概率。

这时，我们再引入另一个辅助变量 $β_{i,j}$ 。它与 $α_{i,j}$ 很像，它表示从第 $i$ 个声学特征开始且输出到第 $j$ 个token的所有候选对齐分数之和。 $β_{4,2}$ 如图所示，它表示已经产生了4个声学特征和输出两个token的情况下，它们当前位置走到结尾为止的所有路径的分数总和。 $β_{i,j}$ 刚好是 $α_{i,j}$ 的反过来。前面 $α_{i,j}$ 对应着 HMM 的正向传播算法，这里 $β_{i,j}$ 对应着 HMM 的反向传播算法。通过动态规划算法，于是我们有递推式， $β_{i,j} = β_{i+1,j}p_{i,j} + β_{i,j+1}p_{i,j}$ 。

当我们可以算 $α_{i,j}$ 和 $β_{i,j}$ 之后，我们就可以计算出，所有包含 $p_{4,1}(a)$ 的分数总和。如图示， $P(\hat{Y}|X)$ 的计算方式可以改写为，所有从起始位置到 (4,1) 的候选对齐路径的分数和 $α_{4,1}$ 乘上 $p_{4,1}(a)$ 后，再乘上所有从位置 (4,2) 到终点的候选对齐路径的分数和 $β_{4,2}$ 。这样我们把它再除以 $p_{4,1}$ ，就消掉了 $p_{4,1}$ 。这样 $P(\hat{Y}|X)$ 对某个箭头概率 $p_{i,j}$ 的偏微分就可以改写为 $α_{i,j}β_{i,j+1}$ 。带入最终的式子后，就能计算全部候选对齐的得分，对模型参数的梯度。然后反向传播更新模型参数进行训练。

训练好模型之后，我们要进行推断，即遍历所有可能的候选 $Y$ ，来使得模型输出的概率 $P (Y ∣ X)$ 最大，从而找到最优的解码 $Y$ 。但现实中遍历所有可能候选 $Y$ 不大容易。我们只能退一步求其次，通过贪心近似估计的方法。我们不把所有的候选对齐分数加起来，而是比每一个 $Y$ 中，分数最高的那个对齐方式。概率最高的对齐方式叫作 $h^{*}$ 。我们要探究 $h_{*}$ 它背后的 $Y^{*}$ 是什么。

实际中要怎么找一个概率最高的对齐方式呢？RNN-T每一个时间步都会跑出一个概率分布。我们把每个概率分布中，概率最大的那个token取出来，就是 $h^{*}$ 的一个近似。由于取当前概率最大的未能让整个路径最大的。如果我们想要得到更好的近似，就用beam search，加大K。在精度和计算效率上进行折中和平衡。

比较一下这三个模型。在解码部分，LAS和RNN-T会考虑前面的时序对当前时序的影响。而CTC没有考虑之前的时间步，已经生成出来的token。在对齐部分，因为中间的注意力层，LAS不用显示地考虑对齐。由于注意力一次要看全部，这也导致它不能在线学习。而CTC和RNN-T没有注意力层，RNN一步一步地对输入解码，让它可以在线学习。但缺点是需要把输入和输出进行对齐。而且针对需要对齐的训练，会比较麻烦。

Language Modeling

Language Modeling(LM)用于估测一段token sequence出现的机率。比如在HMM中 $Y^{*}=\arg \max _{Y} P(X | Y) P(Y)$ 中的 $P (Y)$ 就是LM。而LAS虽然是对条件概率 $P (X ∣ Y)$ 建模，看起来不需要 $P (Y)$ ，但我们实际上很容易得到 $P (Y)$ 的分布。我们让 $P (Y)$ 去乘上 $P (Y ∣ X)$ 来像HMM一样解码，能让表现变得更好。而且，计算条件概率我们只需要成对的资料，会比计算联合概率容易得多。

N-gram语言模型

某一个 token sequence $y_{1}, y_{2}, \cdots , y_{n}$ 可能在训练数据中出现的概率为0，但是我们并不能说这个句子在现实生活中出现的机率是0。N-gram语言模型将其拆分成比较小的窗口的概率连乘： $P(y_{1},y_{2},\cdots,y_{n})=P(y_{1}|BOS)P(y_{2}|y_{1})\cdots P(y_{n}|y_{n-1})$ 。但是这种方式也会存在一些问题，就是当原始训练数据中有某个词汇 $y_{k}$ 后面接某个特定的词汇 $y_{k+1}$ 时，其概率为0，如果连乘起来，整个序列出现的概率也就会0。这是因为数据稀疏导致的。此时可以采用 language model smoothing 的方法，赋予其一个较低的值。

在深度学习之前，用的是一种从推荐系统中来的 Continuous LM。通过对矩阵分解的方式来解决上述问题，概率为0的问题。通过这种方式，它就会自动把0补成学到的参数。矩阵分解参考：经典机器学习系列之【个性化推荐之协同过滤】。

$L=\sum_{(i, j)}\left(v^{i} \cdot h^{j}-n_{i j}\right)^{2}$ 也可以采用Deep Learning的方法来做。 $h^{j}$ 作为输入， $v^{i}$ 作为参数， $n_{i j}$ 作为标签。

NN-based LM

NN-based LM 最早是想要取代 N-gram 的语言模型。它训练目标是通过输入前面的词，来预测后面的词出现的概率。

有了NN-based LM 就自然会进入 RNN-based LM。它可以解决输入序列较长的问题。

RNN有各式各样的变形。曾经人们的想法是，把 RNN 尽可能地做复杂，看能不能做出更强的语言模型。甚至还有人用 Nerual Turning Machine 改一改来做语言模型。近几年也有研究表明，LSTM加上合适的优化器和正则项就可以表现得很好。也不见得需要用非常神妙的奇技淫巧。

之后就是拿这些语言模型与LAS结合，也有很多种方法：

参考

【1】李宏毅-基于深度学习的人类自然语言处理
【2】https://zhuanlan.zhihu.com/p/124327822

你可能感兴趣的:(DL基础原理)

Fiddler中文版如何提升API调试效率：本地化优势与开发者实战体验汇总代码背锅人日志 ios 小程序 uni-app iphone android webview https
在现代软件开发中，调试网络请求是不可或缺的一环。无论是Web前端、移动App，还是后端微服务，只要涉及到API通信，就离不开高效的抓包工具。Fiddler作为全球使用最广泛的抓包调试工具之一，凭借功能强大、灵活扩展和跨平台支持，深受开发者喜爱。而对于中文用户而言，Fiddler中文版的出现，让这款专业工具变得更加亲民、高效和易于掌握。本文将结合开发者日常使用场景，解析Fiddler中文版如何通过本
uniapp中的单选实例（ radio） babyxuqian uniapp css 前端
radio-groupsd单项选择器，内部由多个组成。通过把多个radio包裹在一个radio-group下，实现这些radio的单选。属性说明属性名类型默认值说明@changeEventHandle中的选中项发生变化时触发change事件，event.detail={value:选中项radio的value}radio单选项目。属性说明属性名类型默认值说明valueString标识。当该选中时，
FPGA电子系统设计项目实战VHDL语言第2版王振红：深入掌握FPGA设计姜奇惟Sparkling
FPGA电子系统设计项目实战VHDL语言第2版王振红：深入掌握FPGA设计【下载地址】FPGA电子系统设计项目实战VHDL语言第2版王振红这是一本专注于FPGA电子系统设计的实战指南，适合初学者和进阶开发者。全书共11章，从FPGA设计基础到VHDL语言应用，再到综合电子系统设计实例，内容全面且实用。通过深入浅出的讲解，读者不仅能掌握FPGA设计方法，还能具备实际应用能力。书中详细介绍了Quart
FPGA电子系统设计项目实战 VHDL语言第2版王振红幸刚磊Thomas
FPGA电子系统设计项目实战VHDL语言第2版王振红【下载地址】FPGA电子系统设计项目实战VHDL语言第2版王振红这是一本专注于FPGA电子系统设计的实战指南，适合初学者和进阶开发者。全书共11章，从FPGA设计基础到VHDL语言应用，再到综合电子系统设计实例，内容全面且实用。通过深入浅出的讲解，读者不仅能掌握FPGA设计方法，还能具备实际应用能力。书中详细介绍了QuartusⅡ工具的使用、VH
52. QT插件开发--插件程序(带ui文件)的创建与编译山间点烟雨 QML /QT常用技巧汇总 qt ui 插件
1.说明一般情况下，针对代码量比较小的QT程序不需要进行插件集成化开发，但是针对大型程序来说，代码结构比较复杂，使用插件开发的方式可以提高代码开发和维护效率，团队之间的分工合作也会更加的明确。所谓插件式开发，实际上就是把程序的一部分功能封装起来，编译成一个单独的动态链接库，在主程序框架中去动态加载这个动态库即可。在windows系统中这种动态库以dll的形式存在，而在linux系统中是以so形式存
Oracle常用sql语句多肉葡萄和大嘴鱼 sql oracle 数据库
Oracle常用sql语句文章目录Oracle常用sql语句数据定义语言（DDL,DataDefinitionLanguage）1.创建表2.创建/删除索引2.修改表结构3.表or字段注释数据操纵语言（DML,DataManipulationLanguage）1.查询语句1.1groupby语句1.2distinct用法2.更新语句3.插入语句4.删除语句数据定义语言（DDL,DataDefini
Vue + SpringBoot 实现文件的断点上传、秒传，存储到Minio 鱼虾一整碗• vue.js 前端 javascript
一、前端1.计算文件的md5值前端页面使用的elment-plus的el-upload组件。当上传文件后，会调用handleChange方法，可以在这里进行文件相关的操作。//处理文件上传consthandleChange=async(uploadFile)=>{//文件名字letfileName=uploadFile.name//文件的大小constfileSize=uploadFile.siz
UA池和代理IP池 itLaity Python基础知识讲解与总结中间件 http py 代理模式
scrapy中中间件：位于scrapy引擎和下载器之间的一层组件作用：（1）引擎将请求传递给下载器过程中，下载中间件可以对请求进行一系列处理。比如设置请求的User-Agent，设置代理等（2）在下载器完成将Response传递给引擎中，下载中间件可以对响应进行一系列处理。比如进行gzip解压等。middlewares（中间件py文件）spider:从这里开始--->作用:产生一个或者一批url/
微信小程序下载视频功能 weixin_30241919
1.在标签里传递ID下载2.js下载方法//下载handleDownload(e){letlink=e.currentTarget.dataset.link;letfileName=newDate().valueOf();wx.downloadFile({url:link,filePath:wx.env.USER_DATA_PATH+'/'+fileName+'.mp4',success:res=
手机玩星露谷物语教程✨ DD蛋挞皮游戏智能手机
星露谷物语夏季特卖史低24！DLC也史低10.5！⏰限时到7月10日，还没入手的姐妹快冲！你继承爷爷的破旧农场，种田、挖矿、养动物、谈恋爱，自由度高到离谱，一玩就停不下来！以为只是种田游戏，结果玩成时间管理大师……星露谷物语农场选择攻略标准农场：推荐新手首选，可用面积最大，规划自由度高森林农场：额外产出野生物资，适合喜欢采集的玩家河流农场：钓鱼更方便，但可耕种面积较小星露谷物语开局24小时黄金时间
Python 基础语法（4）【适合0基础】
1.文件1.1概念变量是把数据保存到内存中.如果程序重启/主机重启,内存中的数据就会丢失要想能让数据被持久化存储,就可以把数据存储到硬盘中.也就是在文件中保存文件有不同类型，通过文件的后缀名，可以看到文件的类型，常见的文件的类型如下：1.文本文件(txt)2.可执行文件(exe,dll)3.图片文件(jpg,gif)4.视频文件(mp4,mov)5.office文件(.ppt,docx).....
Linux之shell脚本 jjkkzzzz linux shell shell脚本
该篇文章主要介绍shell是什么、shell脚本的基本语法以及一些实例展示，带我们快速入门shell脚本编程。shell与shell脚本Shell是操作系统中用户与内核之间的桥梁，它是一种“命令行解释器”（CommandLineInterpreter），可以接收用户输入的命令并将其传递给操作系统执行。我们通常所说的“Shell编程”或“Shell脚本”，就是用这种命令行语言编写的程序。所以我们要区
用C++ 写控制台版本2048小游戏（不闪烁）音柯路德笔记 2048 C++游戏不闪屏面向对象
2048游戏思路游戏逻辑游戏类结构设计classGame{public:intScroe=0;//初始分数boolADD=false;//是否添加棋子intBoardList[4][4]={0};stringTips;Game();voidPrint();//打印棋盘boolInput();//获取输入boolAddBoard();//添加棋子voidUp();//上下左右按键事件，都类似，以左按
C++函数的参数与返回值颖川守一 c++算法开发语言
a#includeusingnamespacestd;//无参无返voidcanshu1(){cout<<"该参数为"<
个人总结 - LangChain4j应用（1）艾露z AI java langchain ai 人工智能
个人总结-LangChain4j应用（1）github：Releases·langchain4j/langchain4j·GitHub官方文档：Introduction|LangChain4j简要介绍：LangChain4j是一个旨在简化大语言模型（LLMs）与Java应用程序集成的框架。ChatandLanguageModels：LanguageModel：最简单的聊天模型，简单的接收字符串，不
各服务日志: Grok正则解析根哥的博客 Linux系统 Elasticsearch logstash 正则表达式
各类日志样例服务类型日志格式Java应用：如Kafka/ES[2025-04-2911:21:12,395]INFO[Logpartition=ck-1,dir=/opt/kafka_2.13-2.8.1/data]Incrementedlogstartoffsetto3591510004duetosegmentdeletion(kafka.log.Log)Tomcat27-Apr-202514:
基于matlab的二连杆机械臂PD控制的仿真 bubiyoushang888 matlab 开发语言
基于matlab的二连杆机械臂PD控制的仿真。。。chap3_5input.m,1206d2plant1.m,1364hs_err_pid2808.log,15398hs_err_pid4008.log,15494lx_plot.m,885PD_Control.mdl,35066tiaojie.m,737chap2_1ctrl.asv,988chap2_1ctrl.m,905
协程举例学习小李飞飞砖学习
在Android开发中，协程（Coroutines）是处理异步操作的一种强大工具。它们可以帮助你以一种更简洁、更易于维护的方式编写异步代码。从AndroidKotlin协程的稳定版本开始，你可以通过kotlinx.coroutines库来使用协程。下面是一些使用协程的基本示例。添加依赖首先，确保你的build.gradle文件中已经添加了kotlinx.coroutines的依赖：dependen
React-forwardRef-useImperativeHandle 前端小趴菜05 react.js vue.js 前端
forwardRef暴露dom节点作用：使用ref暴露DOM节点给父组件案例例如在父组件中想要获取子组件input的输入值，和让input获取焦点父组件import{Button}from'antd-mobile'importSonfrom"./components/son";import{useState,useRef}from"react";constYear=()=>{constinputR
【LeetCode 热题 100】21. 合并两个有序链表——（解法一）迭代法 xumistore LeetCode leetcode 链表算法 java
Problem:21.合并两个有序链表题目：将两个升序链表合并为一个新的升序链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。文章目录整体思路完整代码时空复杂度时间复杂度：O(M+N)空间复杂度：O(1)整体思路这段代码旨在解决一个基础且经典的链表问题：合并两个有序链表(MergeTwoSortedLists)。问题要求将两个已按升序排列的链表合并为一个新的、仍然保持升序的链表。该算法采
使用 Docker 部署 Spring Boot 项目流程 hoho不爱喝酒随便写写 docker spring boot 容器运维 linux
文章目录使用Docker部署SpringBoot项目流程1.构建SpringBoot项目使用Maven构建项目：使用Gradle构建项目：2.创建Dockerfile示例Dockerfile：解释：3.构建Docker镜像4.运行Docker容器5.查看容器日志6.管理Docker容器查看正在运行的容器：停止容器：删除容器：删除镜像：7.访问SpringBoot应用总结使用Docker部署Spri
Linux部署MinIO与Spring Boot整合实战指南 luoqinqin linux spring boot 运维
一、MinIO简介与核心概念MinIO是一款高性能的分布式对象存储服务，兼容AmazonS3API，适用于存储图片、文档等非结构化数据。核心术语：Bucket：存储对象的容器（类似文件夹）Object：存储的基本单元（文件+元数据）AccessKey/SecretKey：身份验证凭证二、Linux环境MinIO部署1.单节点安装#下载二进制文件wgethttps://dl.min.io/serve
【LeetCode 热题 100】142. 环形链表 II——快慢指针 xumistore LeetCode leetcode 链表算法 java
Problem:142.环形链表II题目：给定一个链表的头节点head，返回链表开始入环的第一个节点。如果链表无环，则返回null。文章目录整体思路完整代码时空复杂度时间复杂度：O(N)空间复杂度：O(1)整体思路这段代码旨在解决一个比“判断环形链表”更进阶的问题：环形链表II(LinkedListCycleII)。问题不仅要求判断链表中是否存在环，还要求找到环的入口节点。如果不存在环，则返回nu
21.合并两个有序链表太白IT记算法题链表数据结构
将两个升序链表合并为一个新的升序链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。思路：这里使用的主要数据结构是单链表。该算法采用经典的双指针技术来合并列表。Adummynodeiscreated;thisnodedoesnotholdanymeaningfulvaluebutservesasthestartingpointofthemergedlinkedlist.将创建一个虚拟节点;
Android逆向工具简单介绍 @ZhangJun Android 进阶 Android逆向反编译反汇编 Hook
目录一、Android逆向概述1、什么是Android逆向2、逆向过程3、逆向用途1）APP自动化执行程序脚本2）修改APP的功能3）APP安全二、常用逆向工具介绍1、APP抓包工具1）Fiddler2）Wireshark2、jadx反编译工具3、APKDB4、Frida之Hook工具5、IDA反汇编工具1）为何反汇编2）如何反汇编3）IDAPro的基本功能：4）IDA目录结构5）常用快捷键6）常
接口服务类安全测试（WSDL） @Camelus 渗透与攻防安全 java web安全
目录前言：（一）API接口WSDL判断方法漏洞关键字端口号端口说明攻击技巧总结：前言：根据前期信息收集针对目标端口服务类探针后进行的安全测试，主要涉及攻击方法：口令安全，WEB类漏洞，版本漏洞等，其中产生的危害可大可小，属于端口服务/第三方服务类安全测试。一般在已知应用无思路的情况下选用的安全测试方案。（一）API接口webserviceRESfulAPThttps://xz.aliyun.com
「源力觉醒创作者计划」_以FastDeploy为例部署ERNIE-4.5-21B大模型全流程实践 cooldream2009 大模型基础 AI技术文心大模型 FastDeploy
目录前言1环境准备与依赖安装1.1硬件要求1.2Python环境与pip升级2下载ERNIE-4.5模型权重2.1安装HuggingFaceCLI工具2.2设置国内镜像加速（可选）2.3下载模型文件3安装FastDeploy与Paddle推理引擎3.1安装PaddlePaddle-GPU版本3.2安装FastDeploy-GPU4启动ERNIE-4.5本地服务4.1启动OpenAI兼容API服务4
《解决 Idea Gradle Build 中 Build Tools 相关问题》只因在人海中多看了你一眼摸索学习心得 ide android studio
在使用IntelliJIDEA进行Android项目开发时，最近在执行Gradlebuild过程中遇到了一个棘手的问题：问题现象在运行Gradlebuild时，出现了这样的错误提示：Couldnotdeterminethedependenciesoftask‘:app:compileReleaseJavaWithJavac’.InstalledBuildToolsrevision35.0.0isc
Unity UGUI GraphicRaycaster.Raycast详解上班摸鱼君 unity 游戏引擎
一、源码//////对当前Canvas上的所有可交互UI图形执行射线检测，判断是否被点击或触碰。//////指针事件的数据（包含鼠标位置、触摸点等）///用于存储命中的UI元素结果列表publicoverridevoidRaycast(PointerEventDataeventData,ListresultAppendList){//如果Canvas不存在，则无法进行任何UI检测，直接返回if(c
面试题 02.06 回文链表 qxwithlsy leetcode
1.普通版把链表的每个值存储在数组中，然后从链表两端向中间挨个对比，如果有不等的，就返回false。/***Definitionforsingly-linkedlist.*structListNode{*intval;*structListNode*next;*};*/boolisPalindrome(structListNode*head){//快慢指针？先找到中间位置，然后一个从中间开始，新建
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f