Karen_Yu_

李宏毅自然语言处理（Speech Recognition）笔记

李宏毅NLP(自然语言处理)完整课程，强推！_哔哩哔哩_bilibili

从Ng那里跑路来学NLP了，之前其实ML入门听的就是宝可梦捕获大师（×）的课，目前计划是，本博文作为上面链接所示课程的笔记记录。听完之后会找个项目练一练，然后去听一些更新的技术的介绍，再找个项目练一练。

引入

本课程语音文字部分half half，老师提到这样安排是因为很多语言是没有文字的，或者这些语言的文字并不被所有使用这些语言的人使用，或者没有统一的文字系统等等，因此不同于其他课程，他将囊括更多的语音的部分。

语音

简单来说就是一秒钟的语音需要用16k个数字来表示。因此，同样一句话，及时同一个人来说，所得到的声音信号也不可能是相同的，老师在这里举例放了他说四次你好的声音信号图，确实不一样（看图的话，一方面语速、说话的时机、停顿显然会有影响，同时应该我们也不太能非常精准的控制每个字的频率啊时长啊音调啊之类的）

文字

同时文字的长度也可以达到很长，可以无限套娃来延长最长的句子。

->人类的语言是十分复杂的

本课程主要涉及的模型：

这些模型从左到右从上到下（按[ [1, 2], [3, 4], [5, 6] ]）分别为：speech recognition，Text-to-Speech Sythesis，(Speech Separation, voice conversion)，输入文字输出文字，很多，看柯南下面那张图中的举例，(Speaker Recognition, keyword Spotting)

这里提到唤醒词我多句嘴，之前在一门课上做过一个类似的项目，用的arduino，但是当时恰巧google colab不再支持TensorFlow 1.13 还是1.16之前的版本了，而TinyML这本书刚好提供的是这一版本的方法，很迷惑，我们试着把代码改改，但是发现可能是原始的代码本身就有问题，或者是后续的TensorFlow版本不再支持这种打包方式（因为是刚刚不支持几个月之后，完全查不到类似的问题），也可能是arduino不能识别TensorFlow 后续版本的训练结果，总之完全不work，问了老师和助教也没有得到解决方案，最后跑了demo感受了一下唤醒词，似乎对低频信号更敏感（声音比较低沉的男生一般更有可能被识别，我无论怎么说，识别的准确率也只有40%左右，估计实际生产中也不会使用这样的方法，或者有更丰富的语料库，更多的计算资源吧），总之确实主打图一乐。

Meta learning，先在其他很多的任务上进行学习，归纳出更好的学习方法，成为更好的学习者，也许可以用更少的资料在更短的时间内学会新的技术。

Speech Recognition seq2seq模型

引入

输入的声音被表示成一串向量，其中向量的长度用T表示，向量的维度用d表示。

文字是一个token的序列，长度为N，一共有V种不同的token。

一般而言T>N（输入比输出长）

Phoneme: 发音的基本单位，但是直接读很难读懂，因此就需要一个字典lexicon，根据得到的Phoneme，结合字典吧看不懂的输出变成可以读懂的文字。但是lexicon并不是凭空出现的，需要语言学的知识。

Grapheme：书写的基本单位，比如英文中书写的基本单位就是字母，但是除了字母之外至少还需要空格，隔开词汇，可能还需要标点符号。如果是中文，基本的单位就是方块字（但是这里不需要空格了）。使用Grapheme的好处除了不需要很多语言学的知识（还是得知道这门语言文字是由什么组成的），还可以期待他能自己凭借听力拼写出他从来没听过的词汇。但是，可能听到的声音和对应的grapheme的关系是复杂的，比如k,c可能发音是一样的。

Word：更大的token，词。对于英文来说，就不需要空格了。但是也要注意，这种时候一般对应的V（token的种类数）就会非常大（甚至在中文中都很难界定有多少词汇）。课程中，老师举例的是在土耳其文中一个词加不同的词根变成新的单词，变成更长更复杂但完全意思不一样的单词->可以自己造词。没办法穷举所有的词。

Morpheme：可以传达意思的最小单位，有点类似于英文中的词根、前缀、后缀。可能可以让语言学家提供，也可以通过统计学的方法，不精确的估计。

Bytes：各种语言各种符号都可以用bytes表示，输出UTF-8，再翻译出来。

如何把一段声音信号变成一个vector sequence？一段声音信号进来，我们取一个window，这个window的长度通常是25ms，接下来用一个向量来描述这段声音信号中的特征，通常把这一个向量称为一个frame。可以直接什么都不做，直接用400个sample值，也有其他的方法。接下来移动window，一般10ms，如果说1秒钟的话，会被转化成100个向量，相邻的向量是有重合的部分的。

需要多少data？英文的常见语料库，其中librispeech可以免费得到~

老师举例说TIMIT有点类似于CV中的MNIST，但实际上TIMIT要更大一点（换算的话）

Listen, Attend, and Spell (LAS)

其中Listen指的是encoder，spell指的是decoder。（It is the typical seq2seq with attention）

listen的部分就是一个encoder。输入一段acoustic features（声学特征），输出另外一串向量，输入和输出的长度是一样的（输入x1到x4，输出h1到h4）。期待这个encoder可以把声音信号中的噪声去掉知己留下与语音识别有关的信息。

那么怎么进行encoder呢？

可以使用RNN，这里RNN可以是双向的。

也可以使用CNN。这里采用1D的卷积，方法是把一个滤波器沿着时间的方向扫过这些acoustic features。每一个filter会放一个范围的acoustic features进去，输出一个值。使用多个filter，这样每一个输入的acoustic feature都会被转换成一排向量。

在产生b1这个向量的时候并不是只采用x1的信息，而是也采用了x2的信息，同样，在产生b2向量的时候，不是只采用x2的信息，同样还包含了x1和x3的信息。

也可以在filter上再叠filter。比如这里输入就是b1 b2 b3。因为产生b1 b2 b3分别要x1 x2，x1 x2 x3，x2 x3 x4的信息，因此这里相当于已经获取了完整的x1 x2 x3 x4的声音信号。老师提到在论文中常把两者一起使用，可能前几层用CNN，后面用RNN（LSTM）。

也有使用attention layer的，所做的与上述的类似。

在做语音识别时，往往需要对输入做做down sampling，因为如果把声音信号表示成acoustic feature往往很长，一秒钟的声音信号，要有100个向量，而且相邻的向量间带有的信息量的差异不回很大，为了节省计算量->down sampling。

即使使用的是CNN/self attention也会使用一些down sampling的方法。比如TDNN，filter吃一个范围的声音信号之后生成一个向量（可以减少计算量和参数量）。Truncated Self-attention，每一个时间点（每个feature）都会去append整个input中所有的feature。比如要把x3变成h3要对整个input都做attention->在做attention的时候只允许attention一个范围内的，超过这个范围的就不看了->节省运算量。（范围多大是需要调整的参数）

首先有个vector z0，使用z0与encoder的输出计算attention。在做attention的时候会有一个function match，这个match会使用z0和来自encoder的一个vector当输入，输出一个数值α。

z0分别于h1 h2 h3 h4得到α1 α2 α3 α4，经过softmax，让α的总和为1，将通过softmax以后的α乘h，求和，得到c0。c0会被当做decoder的input

c0是decoder的输入，输出token的distribution。给每个token一个几率，看来自输入的c0决定输出哪个token。

比如现在的输入是cat，经过上述操作后输出了第一个字母c（假设token是字母）。那么怎么输出第二个字母？

使用z1重新做attention（之前是z0），得到c1。注意这里不仅要关注c1也要关注之前的输出。

c：context vector，上下文

特殊字符，end of sentence辨识结束。

在训练时，希望输出c的概率最大。

类似的第二位也是希望输出的a的概率最大，换言之就是，把a表示成一个one-hot vector，希望输出的distribution和a的cross entropy越小越好。

在训练的时候，不会用前一个的输出（最大概率）来训练，而是直接告诉ground truth，称为 teacher forcing。

为什么要teacher forcing？因为在训练开始的时候，参数是随机的，model很烂，输出的是乱七八糟的东西，所以这个时候输出不一定正确的。比如这里可能第一位输出的就是x，那么学到的就不是c后面加a而是x后面加a。

经过一段时间训练之后，model就知道第一个输出应该是c。但是后面的a学到的是前面是x，相当于前面都白学了。

aaa->认为aaa和triple a的可能性是最大的，但是实际上这两种发音完全不一样

LAS的DIS-AD：

我们希望机器可以一边听声音一边出结果，但是LAD要先听完一整个句子，才能输出。

（引出下面的模型）

Connectionist Temporral Classification (CTC)

CTC可以做到一边听一边输出。

CTC可以说只有encoder，在选encoder的时候，要选择一些可以做on-line的encoder，比如uni-directional RNN（单方向的RNN），如果选择双方向的RNN作为encoder中的network架构，就要把整个句子看完，才能计算出h1 h2 h3 h4；如果选择单方向的RNN就可以看到x1产生h1、x2产生h2、x3产生h3、x4产生h4，就有机会做on-line。

把h1 h2 h3 h4跑出来以后，就把他们丢到一个linear的classifier里面去，然后决定当前的h属于哪一个token。这里的linear classifier就是拿到h，乘以一个transform，再softmax，得到所有token的distribution。

但是我们知道x1只是一个acoustic feature，只是一个很小的声音信号，大概10ms，一小个acoustic feature很难判断是哪个token。因此在CTC中加入一个新的tokenΦ（表示不知道是什么），可能到之后的输入才会知道这是什么。

CTC认为无论能不能听出来token，都要输入和输出一一对应，但是在实际输出中我们显然不能直接输出Φ，要进行一些后处理。

训练的时候，要告诉每个feature对应的是什么，但是对于每个输出的token，我们不知道每个token应该对应什么。比如这里x1 x2 x3 x4是好棒，但是我们不知道这个好棒应该放在哪一个位置，输出远小于输入（而且这里也没有Φ）

因此标注是不够的。->alignment：制造，比如在好棒中间加入两个Φ或者在中间夹Φ等等很多的方式。CTC采取的策略是，这些组合方法都拿做alignment。

CTC work吗？如上图，其中浅灰色代表的是Φ的几率。在下面的例子里采用词作为tokendiet terry其实是dietary，但是犹豫字典里没有这个词（只有7k个词），因此用这两个词凑出来这个发音。

CTC的问题，这里的linear classifier相当于是decoder，但是每次只吃一个vector，决定输出值，并且每次输出都是independent->可能会造成结巴。如果第一个产生c，第二个产生Φ，第三个再产生c，那么只是把Φ去掉，这样就有两个c了，并且这个时候没办法消掉两个c，因为每个都是独立的，并不知道前面输出了什么。

但是呢也不一定就很差，因为这里也有encoder，可能encoder是一个很深的LSTM，知道前面已经出现Φ，就会抑制下一个产生c。

RNN Transducer(RNN-T)

Recurrent Neural Aligner (RNA)

CTC的decoder是独立的，从encoder那边拿一个h进来就要classifier output结果，每一个classifier决定output什么东西是各自独立的。->能不能让每一个classifier在决定的时候看一下前面输出什么呢？

可以，把linear classifier换成RNN/LSTM->RNA

但是也有可能存在一个输入对应多token的情况，比如th。最简单的方法是把th加入token。但是我们希望模型是flexible的，给什么数据都行。

RNN-T

RNN-T可以解决这个问题，其策略是，看到一个输入，就一直输出到满意为止，满意之后就输出Φ。

ht先进来，丢给decoder，decoder先output一个t，再output一个h，再说“够了，给我下一个input”。接着把ht+1拿进来decoder，输出e，觉得够了，安排接待下一个ht+2，因为一个acoustic feature很少，所以可能decoder觉得没什么好输出的，因此直接输出Φ，进来下一个ht+3……

要插入T个Φ，一个Φ代表一个acoustic feature读完了，因此T个acoustic feature就要插入T个Φ。

RNN-T也有和CTC一样的问题，alignment。RNN-T需要知道什么时候应该输出Φ（什么时候读入acoustic feature）。因此我们也面临同样的问题，在哪里插入Φ？这里采用的方法与CTC一样，穷举所有alignment，在训练时使用。

实际上RNN-T会另外训练一个recurrent neural network，这个RNN的作用有点像一个language model->实际上，在考虑每一个linear classifier的dependence时候，RNN-T并不是直接把这些linear classifier改成RNN，是另外用一个RNN来考虑要output哪一个token的dependence。RNN会看如果前面已经输出token，就把这些token丢进RNN。

比如这里输入一个ht，输出一个t，这个t就会被放进RNN里去，这个RNN的输出就会决定RNN-T下一个token的输入。这个RNN会忽视Φ。

可以先训练RNN（用大量数据），无视Φ，老师认为是为了训练，采用这种方法。

Neural Transducer

一次多读点acoustic feature中，这一个区域中做attention。

先读一些acoustic feature进来，累积到一定量之后，开始产生输出，获得输出时只在小范围内做attention，如果觉得读完了，输出Φ，开始看下一个Window。

有attention之后，window的size不是那么重要，没有的话，随着window的大小增加，结果就爆炸了。

Monotonic Chunkise Attention (MoChA)

动态的移动window，在之前的neural transducer里面，window移动的距离是固定的。

一个model吃一个z和一个frame，得到的结果是要不要把Window放在这里，产生yes/no，然后做attention。mocha要求每次只输出一个token

Summary

早期语音识别技术

Hidden Markov Model (HMM)

语音辨识就是输入一串vector X，输出一串token Y。过去的idea，采用统计的方法解决：如果可以统计出输入vector X输出token Y的概率，在做语音辨识的时候，要做的就是穷举所有可能的Y，穷举所有可能的token sequence，看哪一个token sequence带进去算出来的概率最大就是语音辨识的结果。这一过程称为decode。

那么怎么穷举所有可能的Y呢？->很复杂

根据贝叶斯定理，可以展开，因为P(X)与最后的结果无关，所以可以拿掉。

在之前的模型中提到的token，比如Phoneme、字母，单词，都太大了。对于HMM，考虑的是state seq，即在之前提到的模型中采用的是token sequence，这里（这个古早模型），采用的是state sequence。这里的state是认为定义的，比Phoneme还要小的单位。

tri-phone：比Phoneme更细致的单位，并不是吧Phoneme分成三段，是加上前一个和后一个Phoneme。虽然do和we都是都有'uw'，但是会受到前一个发音和后一个发音的影响。

state：假设每一个tri-phone是由3or5个state构成的（具体几个自己决定）

假设我们有一段声音信号X，X里面有6个vector。怎么得到vector：进入第一个state产生一些vector，再进入下一个state产生一些vector……

需要两个概率：从某个state跳到另一个state的概率（也包括从自己跳到自己的概率），给一个state产生某个acoustic feature的概率（假设每一个state里面的声音信号有一个固定的distribution，比如想发某个state的声音信号，这个声音信号的vector有一个固定的分布）。因此才要用比Phoneme更小的单位（保证有固定的分布，发音不能变来变去，因此当然不能直接用字母当token，因为同一个字母的发音并不是固定的）。

这就导致一个问题，state实在太多了。因此可能某些state在训练集中只能出现一两次，这样自然也没办法估计其的Gaussian Mixture Model长什么样子。->tied-state，让一些state共用相同的GMM。

这里还是要知道每个vector(acoustic feature)是由哪个state产生的。->alignment（把短的东西和长的东西对应上）->hidden，我们实际上不知道alignment。->穷举所有alignment，再把每个alignment产生acoustic feature的概率加起来

How to use Deep Learning

最早的思路都是基于HMM改。

Tandem

不去改变HMM的部分，用Deep Learning给我们比较好的acoustic feature。

训练一个DNN，判断属于每一个state的概率（state classifier），把DNN的输出当做新的acoustic feature。

DNN-HMM Hybrid

把GMM（计算给定state产生一个acoustic feature的概率）用DNN（训练一个state classifier，给一个X，看其是某个state的概率）取代掉，看起来毫不相干（但是用数学方法可以统一）。

怎么训练state classifier？需要acoustic feature和state之间的对应关系（这是我们没有的）。

过去的做法是先训练一个HMM-GMM，做alignment，算出state sequence分配给acoustic feature概率最大的alignment

End-to-End

目前的end-to-end技术实际上都是在计算P(Y|X)，给一串acoustic feature sequence，产生token sequence的概率。在decode的时候，找一个Y让P(Y|X)最大。

以LAS为例，可以认为LAS可以直接计算P(Y|X)（给一串acoustic feature sequence，产生token sequence的概率）。LAS的decoder，给一个context vector，产生一个probability distribution，给一个声音信号，产生a和b两个token就辨识结束的概率有多少？

先计算第一个distribution产生a的概率，再假设a已经产生出来了，计算第二个distribution产生b的概率，再假设b已经产生出来了，计算第三个是EOS（end of sentence）的概率。把p(a) p(b) p(EOS)乘起来就是产生token sequence的概率。

Y hat：正确答案，在训练的时候看的是正确答案出现的概率（越大越好）

CTC, RNN-T如何计算P(Y|X)

与HMM一样需要alignment。如果要直接计算acoustic feature sequence到token sequence的概率是做不到的，需要先给一个alignment。要计算P(Y|X)就把所有的alignment都取出来，计算acoustic feature产生每一个alignment的概率，再求和。

回忆：

alignment（把短的东西和长的东西对应上）->hidden，我们实际上不知道alignment。->穷举所有alignment，再把每个alignment产生acoustic feature的概率加起来

怎么穷举所有可能的alignment？

怎么把所有alignment加起来？

怎么训练？CTC和RNN-T用的是GD，要能计算gradient。

怎么做decoding？

Enumerate all the possible alignments

在举例中，我们假设所有的acoustic feature有6个vector，token sequence有3个token，假设这里都使用字母当做token。

对于HMM，会对c a t分别做一些重复，重复到token sequence的长度与acoustic feature sequence的长度相同。

对于CTC有两个选择，除了做重复之外，还可以加上Φ，知道长度变为T。对于CTC，通过merge重复的token，拿掉Φ，得到最后的语音识别的结果。

对于RNN-T，是加上T个Φ，每output一个Φ的时候，读下一个acoustic feature进来。穷举所有可能的插入的方法。

对于LAS，不存在这个问题。

对于现在的N（此时N=3），从1到3，读一个token进来把这个token重复tn次。比如，读进来一个c，把c重复t1次，把a重复t2次，把t重复t3次。限制：重复的次数的和=T，且tn>0（所有的token都必须至少出现一次）。

在表格中的表现就是从左上角走到右下角的一条路径（只能向右、右下角走）。

CTC，多了一个Φ，Φ可以插在开始也可以插在最后。

先输出c0次Φ（在开头也可以放Φ），对每一个token（第1个到第N个）输出tn次，接下来可以选择输出Φ cn次。限制所有token+所有Φ的个数相加=T，且每个token至少出现一次，Φ可以有也可以没有。

在起始的地方有两个选择，先产生Φor先产生c，接下来有三个选择，重复，插入Φ，跳过Φ直接产生下一个token。

如果前一个是Φ，就只能选择重复或者产生下一个token，不可以跳过token直接产生Φ（这样就漏掉token了）。

与HMM不同，CTC在不同的行上有不同的走法。

最终一定要走到终点（最后一个token或者最后的token后面再加Φ）。

CTC有一个例外的状况：如果token sequence有连续两个token是相同的，比如这里连续出现两个e，那么走到第一个e就不能直接跳过Φ直接读入下一个token（还是e），因为按照CTC的规则，两个连续的e会被merge。

对于RNN-T，要在c a t中间插入T个Φ。要求在最终的token后面一定要插入至少一个Φ，因为插入Φ代表要看下一个acoustic feature，看到Φ才知道要结束。

先输出Φ c0次，再对于1到N，每一个token只输出一次（不可以重复），放Φ，限制：Φ的数量是T，并且最后一个token后面至少要放一个Φ。

最后多一个角，表示最后一定要产生Φ。

summary

How to sum over all the alignments

在算所有的alignment之前，我们需要先计算一条路径（一个alignment）的分数。

先计算Φ出现在句首的概率P(Φ|X)，再计算给了Φ产生c的概率P(c|X,Φ)，再计算产生Φ又产生c以后，接下来产生Φ的概率P(Φ|X, Φc)……再把这些概率乘起来，得到alignment的概率。

但是这里的概率怎么计算呢？

对于RNN-T而言，会先读第一个acoustic feature进来，经过很多层的network，经过很多层的转换之后，得到h1，把h1丢给decoder。

RNN-T另外train了一个RNN，这个RNN会把RNN-T的decoder产生的token当做input，去影响RNN-T接下来的输出。图片左上角的就是这个RNN。在一开始完全没有token，因此先给一个BOS（begin of sentence），产生一个vector l0，代表要开始做事了。

接下来，把从encoder来的h1代表的第一个acoustic feature，以及从RNN产生的l0丢到decoder中，让decoder产生一个probability distribution p1,0（1：h1，0：l0）。看这里产生Φ的概率

接下来，对于RNN，如果下面产生的是Φ，就不用动作。但是encoder这里会改变。decoder产生p2,0（2：h2，0：l0）。

c会影响左上角的RNN，RNN会把c读进去，output就不是l0了，输出l1，encoder的地方依旧是l2。decoder输出p2,1（2：h2，1：l1）。

Φ不影响左上角的RNN，但是会引入一个新的acoustic feature，也就是从encoder那边得到一个新的vector h3，和l1一起产生p3,1（3：h3，1：l1）。

依旧，Φ不会影响左上角的RNN，但是会读入新的vector，h4，产生p4,1，再看产生a的概率。

产生a以后会影响左上角RNN的输出，左上角RNN的输出变为l2，但是因为并不是Φ，所以这里不会读入新的vector，仍然是h4，这里decoder输出p4,2。

产生Φ，左上角RNN不受影响，读入新vector，h5，decoder输出p5,2，计算产生t的概率。

看到t后，RNN会变化，但是由于不是Φ，仍然是h5作为vector输入decoder，同时采用新的l3，输出p5,3。

得到Φ之后，更新vector，h6，最后得到p6,3。

因此，即为Φ在p1,0的概率，乘以，c在p2,0的概率，乘以，Φ在p2,1的概率，乘以，Φ在p3,1的概率，乘以，a在p4,1的概率，乘以，Φ在p4,2的概率，乘以，t在p5,2的概率，乘以，Φ在p5,3的概率，乘以，Φ在p6,3的概率

前面提到RNN-T的特别的地方是，token和token之间的关系独立用另一个RNN表示，而这个RNN不吃Φ。好处：在training的时候会有帮助。

上面每一个格子都对应固定的概率分布，比如右下角的蓝色点代表p4,2，4代表已经读到h4,2代表已经产生出两个token。每一个格子都带有distribution，这个不受到怎么走到格子这里的影响

如图，这里固定要p4,2，但是走到p4,2的路径可以有很多。

那么如何计算所有alignment的总和呢？

HMM采用的是forward-backward algorithm算出所有alignment的分数

αi,j：已经读了i个acoustic feature，并且output了j个token的alignment的分数的和

因此表格中每一个格子都对应一个αi,j

那么怎么计算α4,2呢？α4,2是由α4,1和α3,2算出来的（类似二维DP）

如果可以算出右下角的α值，就能够算出所有alignment的分数的和。

Training

希望learn一个参数使得P(Y hat|X)越大越好。做GD。

表格中每一个箭头都代表一个概率（产生xxx的概率）。

也就是我们需要计算所有通过p4,1的分数和，在这里引入新的概念βi,j

βi,j，如上图所示，表示从第i个acoustic feature和第j个token开始的所有alignment的分数的和

Testing(Inference, decoding)

让P(Y|X)最大的Y就是语音识别的结果。

但是要穷举出所有的Y已经很困难了，理想上我们想找到让所有alignment的分数的和最大的Y，实际上，我们找到的是每个Y分数最多的alignment（用最大分数代表分数和）。

实际操作中，怎么找到概率最大的alignment，假设我们训练好一个RNN-T，每一步RNN-T都会跑出来一个distribution，把每个distribution中概率最大的那个拿出来，得到h*

summary

Language Modeling for Speech Recognition

LM：估计一段token sequence出现的概率。

为什么需要LM？收集难度不同。

N-gram

怎么估测token sequence的概率呢？在DL出现之前，最常用的方法是N-gram。收集大量的文字，然后看这个token sequence出现的概率有多高。但是人类的句子非常复杂，因此随便给一个token sequence在资料中出现的次数可能是0，但是并不代表这种sequence的概率就是0。因此把这个概率拆解成比较小的概率相乘。

上面例子中这种给定一个词汇看下一个词汇出现的概率为2-gram，自然也可以扩展至3-gram，4-gram。

N-gram有什么问题呢？收集的训练资料仍然不够。

Continuous LM

推荐系统。假设某个动画网站，现在有5个使用者在看四部动画，然后一些使用者会给一些动画打分，假设我现在想要给使用者B推荐动画，我们已经知道使用者B曾经给两部动画打过分。可以根据其他使用者的情况推测B会不会喜欢超电磁炮（比如A和C在喜欢凉宫春日的同时也喜欢超电磁炮，那可能推测B也会喜欢）

这里用到的方法叫做matrix factorization，这种方法就是把表格中空着的部分给填上。

那么是否可以把这种方法扩展到LM上呢？

我们现在也构建一个表格，行和列都是词典中所有可能的词汇（token），表格中填写的是在训练资料中，某一个token后面接另一个token出现的次数（比如这里就是dog后面接ran、jumped……的次数）。

在表格中填写0的部分就是在训练资料中没有出现的。

如果我们想要估计这些填0的位置实际上应该填写什么，就可以采用matrix factorization。

每一个词汇都有一个对应的向量，比如这里let dog h1， cat h2，后面接的词也有一个向量，比如ran v1，jumped v2。这里h和v代表词汇的属性。假设表格中的数值用n表示，比如n11，表示h1后面加v1。假设n=v·h（内积）。找出一组v-h让loss越小越好。

对应到DL，我们输入一个onr-hot vector，只有dog是1，其他都是 0，这样中间的向量输出的就是h^dog。

因此continuous LM可以看做是一个简单的只有一个hidden layer的NN。

既然可以有一层的，当然也就可以拓展到更深的NN。

NN-based LM

最早这一方法是想要取代N-gram LM。预测下一个词汇

有了这一方法就可以取代N-gram。给定之前已经出现的词汇，去预测下一个词汇出现的概率，输出的dimension等于token的size，有几个token，输出就有多大（会给每一个token一个概率）。

RNN-based LM

我们可能要看很长的history，来决定下一个word出现的概率，这样我们就有非常长的输入。如果我们不采用RNN，而是使用NN的话，我们就需要非常长的输入（也就需要非常多的参数）。

那么怎么和前面介绍的END-TO-END结合起来呢？这里以LAS为例：

Shallow Fusion

假设我们现在已经有一个训练好的LAS，和一个已经训练好的LM，现在要把两个model结合起来。把两个结果log相加。

Deep Fusion

在hidden layer阶段就把两个结合起来。把两者的hidden layer的输出拉出来，然后接进一个network中，再由这个network决定最终的output。这里用到的network还需要继续训练（之前两个已经训练好的前提下，仍然需要再喂数据）。

这会造成一个问题，我们不能随意改变LM，每次改变都需要重新训练。

什么时候回牵涉到要换LM呢？当更换domain的时候。

很多词汇的发音是一样的。但是不同的领域有比较特定的词（比较好理解的是积分，可以是微积分的积分也可以是商场买东西的积分，如果在商场场景当然就不可能用数学里的积分了）。

这里为了解决这个问题，可以采用不直接把LM的hidden layer接进去，而是跑到最后（softmax前），得到一个dimension和token的size一样大的向量，把这个向量丢到network里去。

Cold Fusion

先有一个已经训练好的LM，和一个还没有开始训练的LAS（这时候参数还是random initialize的）。先把这两个model接在一起，再end-to-end训练。这样可以更快的训练LAS。

这个时候LAS只需要考虑声音和文字之间的关系，至于文字和文字之间的关系就依赖LM了，这个时候当然也不能随意换LM。

你可能感兴趣的:(自然语言处理,笔记,人工智能)

ROS学习笔记之深度相机仿真、小结要好好养胃 ROS学习笔记人工智能机器学习 c++
通过Gazebo模拟kinect摄像头，并在Rviz中显示kinect摄像头数据。实现流程:kinect摄像头仿真基本流程:已经创建完毕的机器人模型，编写一个单独的xacro文件，为机器人模型添加kinect摄像头配置；将此文件集成进xacro文件；启动Gazebo，使用Rviz显示kinect摄像头信息。1.Gazebo仿真Kinect1.1新建Xacro文件，配置kinetic传感器信息//这
ROS学习笔记之摄像头仿真及显示要好好养胃 ROS学习笔记人工智能机器学习 c++
通过Gazebo模拟摄像头传感器，并在Rviz中显示摄像头数据。实现流程:摄像头仿真基本流程:已经创建完毕的机器人模型，编写一个单独的xacro文件，为机器人模型添加摄像头配置；将此文件集成进xacro文件；启动Gazebo，使用Rviz显示摄像头信息。1.Gazebo仿真摄像头1.1新建Xacro文件，配置摄像头传感器信息有几个要自行修改的地方，基本设置和laser有相同的部分，不做赘述。//实
【python】Python中常见的KeyError报错分析景天科技苑 python 开发语言 python报错 KeyError
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，linux，shell脚本等实操
金融租赁系统的创新发展与市场竞争力提升探讨红点租赁系统开发其他
内容概要随着经济的快速发展，金融租赁系统逐渐成为金融市场中不可或缺的一环。它不仅提供了灵活的资金解决方案，还促进了企业的资本结构优化与资源配置效率。因此，了解该系统的市场背景与发展现状至关重要。在现今环境下，新兴技术如人工智能、大数据和区块链等正加速推动金融租赁的创新。通过这些技术，不仅可以优化业务流程，提升运营效率，还可以增强风险管理能力。例如，利用数据分析可以实时监测租赁资产的风险，从而采取相
量子计算+AI：未来AI Agent的计算范式 AI天才研究院计算 ChatGPT DeepSeek RL 强化学习 agent agi 推理模型智能驾驶
量子计算+AI：未来AIAgent的计算范式关键词：量子计算，人工智能，AIAgent，量子算法，量子机器学习，量子优化，量子数据处理摘要：量子计算和人工智能（AI）的结合正在改变AIAgent的计算范式。通过量子计算的超强算力和独特性质，AIAgent在数据处理、算法优化和决策能力方面展现出巨大潜力。本文将详细探讨量子计算与AI结合的核心概念、算法原理、系统架构，并通过实际案例展示量子AIAge
AI人工智能深度学习算法：在量子计算中的应用 AI天才研究院 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍随着科技的不断发展，人工智能和量子计算成为了当今世界的热门话题。人工智能的深度学习算法在处理大规模数据和复杂任务方面取得了显著的成果，而量子计算则具有强大的并行计算能力和高效的信息处理能力。将人工智能与量子计算相结合，为解决一些具有挑战性的问题提供了新的思路和方法。本文将探讨人工智能深度学习算法在量子计算中的应用，包括其背景、意义和应用场景。2.核心概念与联系在人工智能中，深度学习是一
《量子门与AI神经元：计算世界的奇妙碰撞》程序猿阿伟人工智能量子计算
在当今科技飞速发展的时代，量子计算和人工智能作为前沿领域，正不断颠覆我们对计算和智能的认知。量子门操作和AI中的神经元计算过程，分别作为这两大领域的核心机制，看似处于不同维度，却有着千丝万缕的联系，它们之间的区别与关联，犹如一把钥匙，为我们打开了通往更高级计算与智能世界的大门。量子门操作是量子计算的基础，它利用量子力学的奇妙特性，如叠加和纠缠，对量子比特进行操控。量子比特，作为量子信息的基本单元，
自建智能算力中心 vs 第三方算力租赁：AI企业的算力博弈与最优解
人工智能的爆发式增长正在重塑全球产业格局。从ChatGPT到DeepSeek，从自动驾驶到智能医疗，AI模型的训练和推理需求呈现指数级增长。在这场技术革命中，算力已成为企业竞争的“命脉”。然而，面对动辄数亿元的硬件投入和复杂的运维挑战，AI企业正面临一个关键抉择：自建智能算力中心，还是选择第三方算力租赁？本文将从成本、效率、风险及适用场景等维度展开深度分析，为企业提供决策参考。一、成本对比：重资产
还在为找图发愁？图生生AI以图生图，一键生成专属风格！图生生人工智能 ai AI作画图生生
你是否也遇到过这样的烦恼：想为文章配图，却找不到风格合适的图片？设计海报时，灵感枯竭，不知从何下手？看到喜欢的图片风格，却无法应用到自己的作品中？别担心，图生生AI生图来帮你！只需上传一张图片，AI就能自动生成相似风格的图片，让你轻松拥有专属图库！图生生AI生图是一款基于人工智能技术的图片生成工具，它能够深度学习和理解图片的风格、色彩、构图等元素，并以此为基础生成全新的图片。无论你是设计师、自媒体
AI人工智能深度学习算法：搭建可拓展的深度学习模型架构 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 java python javascript kotlin golang 架构人工智能
深度学习、模型架构、可拓展性、神经网络、机器学习1.背景介绍深度学习作为人工智能领域最前沿的技术之一，在图像识别、自然语言处理、语音识别等领域取得了突破性的进展。深度学习模型的成功离不开其强大的学习能力和可拓展性。本文将深入探讨深度学习算法的原理、模型架构设计以及可拓展性的关键要素，并通过代码实例和实际应用场景，帮助读者理解如何搭建可拓展的深度学习模型架构。2.核心概念与联系深度学习的核心概念是人
Lec01-什么是安全？蛋蛋deべ忧桑安全
本文使用人工智能协助翻译，内容仅供参考，可能有错误或遗漏。如果你对内容或超链接有疑问，可以查看原文。参考资料地址：https://github.com/PKUFlyingPig/MIT6.16006.1600课程团队：HenryCorrigan-Gibbs,YaelKalai,BenKettle(TA),NickolaiZeldovich2022年秋季[!warning]免责声明本套笔记为正在进行
lxml学习笔记 weixin_33843409 python
问题1：有一个XML文件，如何解析问题2：解析后，如果查找、定位某个标签问题3：定位后如何操作标签，比如访问属性、文本内容等fromlxmlimportetree->导入模块，该库常用的XML处理功能都在lxml.etree中requests+lxml解析小from lxml import etree import requests page = 1 url = 'http://www.
大模型黑书阅读笔记--第一章 53年7月11天大模型黑书笔记人工智能自然语言处理语言模型
cnn,rnn达到了极限，憋了三十年（这段时间已经有注意力了，并且注意力也加到了cnn，rnn中，但没啥进展）憋来了工业化最先进的transformertransformer的核心概念可以理解为混合词元（token），rnn通过循环函数顺序分析次元，而transformer模型不是顺序分析，而是将每个词元与序列中其他词元关联起来。为突破cnn的极限，注意力的概念出来了：cnn做序列处理时只关注最后
聊聊Python都能做些什么 ·零落· Python入门到掌握 python 开发语言
文章目录一、Python简介二、Python都能做些什么1.Web开发2.数据分析和人工智能3.自动化运维和测试4.网络爬虫5.金融科技三、Python开源库都有哪些1.Web开发2.数据分析和科学计算3.机器学习和深度学习4.网络爬虫5.自动化和测试6.其他常用库四、相关链接一、Python简介Python是一种解释型、面向对象、动态数据类型的高级程序设计语言。它最初由GuidovanRossu
Browser Use开启AI辅助网页操作新时代 CodeJourney. python 人工智能算法数据库
在当今数字化时代，人们的工作和生活与互联网紧密相连。每天，我们都要花费大量时间在各类网站之间穿梭，进行诸如填写表单、查询信息、比价等重复性操作。这些工作不仅耗费精力，还容易因疲劳而出错，严重影响了工作效率。而现有的自动化工具，要么需要掌握专业的编程知识才能使用，要么在功能上存在局限性，让普通技术用户望而却步。不过，随着人工智能技术的飞速发展，一款名为BrowserUse的开源项目应运而生，为我们带
ChatGPT + Vue3：如何打造 AI 智能助手？ Js_x chatgpt 人工智能
引言人工智能（AI）正快速渗透到前端开发领域，越来越多的开发者希望将ChatGPT集成到自己的应用中，为用户提供智能对话、自动回复、辅助决策等功能。本文将介绍如何使用Vue3+OpenAIAPI搭建一个AI智能助手，让你的应用拥有强大的AI交互能力。1.项目准备1.1技术栈选择本项目将使用以下技术：Vue3-现代化的前端框架，响应式强，适合构建交互式应用。Vite-高效的Vue3项目构建工具，提升
用 AI 提高开发效率：自动生成代码、优化 SQL 查询、写测试用例 Js_x 人工智能 sql 测试用例
引言人工智能（AI）正在深刻改变软件开发行业。从代码自动补全到SQL查询优化，再到自动化测试，AI工具已经成为开发者提高生产力的重要助手。本文将介绍ChatGPT、GitHubCopilot、Tabnine等AI编程工具的实际应用，帮助开发者更高效地编写代码、优化数据库查询，并自动生成测试用例。1.AI代码生成：提升开发效率1.1ChatGPT代码生成ChatGPT具备强大的自然语言处理能力，可以
RAG 在多模态数据处理中的应用探索：结合图像与文本生成 hy098543 AIGC
目录引言多模态数据处理的挑战与需求数据异质性与融合难题多样化应用场景的需求RAG在图像与文本生成中的应用架构图像检索与文本生成协同跨模态特征融合与生成关键技术与实现细节图像特征提取与表示文本检索与语义理解跨模态生成模型训练应用案例分析智能设计辅助医疗影像报告生成结论引言随着信息技术的飞速发展，数据呈现出多模态的特性，即包含文本、图像、音频、视频等多种形式。在自然语言处理（NLP）和计算机视觉（CV
理解深度学习1-简介 shangjg3 PyTorch深度学习实战深度学习人工智能
人工智能（AI）旨在打造模仿智能行为的系统。它覆盖了众多方法，涵盖了基于逻辑、搜索和概率推理的技术。机器学习是AI的一个分支，它通过对观测数据进行数学模型拟合来学习决策制定。这个领域近年来迅猛发展，现在几乎（虽不完全准确）与AI同义。深度神经网络是一类机器学习模型，将其应用到数据上的过程称为深度学习。目前，深度网络是最强大和最实用的机器学习模型之一，常见于日常生活中。我们常常用自然语言处理（Nat
人工智能专业毕业设计选题清单：热点课题推荐 HaiLang_IT 人工智能算法 python
目录前言毕设选题开题指导建议更多精选选题选题帮助最后前言大家好,这里是海浪学长毕设专题!大四是整个大学期间最忙碌的时光，一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理了人工智能专业最新精选选题，如遇选题困难或选题有任何疑问，都可以问学长哦(见文末)!对毕设有任何疑问都可以问学长哦!更多选题指导:最新最全计算机专业毕设选题精选推荐汇
RAG问答系统：检索增强生成框架 ZhangJiQun&MXP 2021 论文教学大模型语言模型
目录RAG（Retrieval-AugmentedGeneration）框架一、RAG框架的定义二、RAG框架的工作原理三、RAG框架的举例说明四、RAG框架的优势RAG问答系统二、工作流程三、优势四、应用场景RAG（Retrieval-AugmentedGeneration）框架即检索增强生成框架，是一种结合了信息检索技术与语言生成模型的人工智能技术。以下是对RAG框架的详细解释及举例说明：一、
【Java】已解决：`java.sql.SQLSyntaxErrorException: SQL` 屿小夏 java sql 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
c语言笔记结构体内嵌套结构体的表示方式我是大咖笔记
目录结构体内嵌套结构体问：我们都该如何去访问该结构体里面的结构体的成员呢?怎么去给里面的成员赋值呢?说明：运行上述代码后，输出结果如下：结构体内嵌套结构体背景：如果我们在结构体中放结构体，我们可以不写结构体里面结构体的结构体标签，但是我们可以定义结构体里面结构体的变量，定义里面结构体定义变量与不定义变量的表示方式。问：我们都该如何去访问该结构体里面的结构体的成员呢?怎么去给里面的成员赋值呢?如果是
全网测评：2025年最值得中小企业入局的AI无人直播软件花落谁家？ V_13135861102 人工智能
全网测评：2025年最值得中小企业入局的AI无人直播软件花落谁家？在数字化时代，人工智能技术的快速发展为各行各业带来了深刻的变革。直播电商领域也迎来了前所未有的机遇，AI无人直播软件应运而生，逐步改变着传统电商和直播行业的运营模式。对于预算有限、希望实现高效营销的中小企业而言，选择一款合适的AI无人直播软件显得尤为重要。本文将测评几款热门的AI无人直播软件，帮助中小企业找到最适合自己的入局之选。一
谷粒商城学习笔记，第七天：性能压测+缓存+分布式锁「已注销」数据库分布式 redis java 多线程
谷粒商城学习笔记，第七天：性能压测+缓存+分布式锁一、性能压测我们希望通过压测发现其他测试更难发现的错误：内存泄漏、并发与同步。1、性能指标吞吐量、响应时间QPSTPS、错误率RT:ResponseTime响应时间HPS:hitspersecond每秒点击次数TPS：Transactionpersecond系统每秒处理交易数QPS：querypersecond每秒处理查询次数2、JMeter下载地
Day03_谷粒商城（谷粒商城高级篇二）摘要 BlackTurn 项目总结
文章目录笔记P102—P124是讲解ES的知识，和谷粒商城项目完全无关P125—P127是讲解SpringBoot整合ESP128—P129商品上架功能0P130商品上架功能1P131商品上架功能2P132商品上架功能3P133商品上架功能4P134—P135商品上架功能—测试P136—P138首页展示一级、二级、三级目录P139nginx搭建域名访问环境1P140nginx搭建域名访问环境1P1
Armv8-A virtualization Arm精选 ARM文档导读虚拟化 virtualization trustzone 安全周贺贺 armv8 armv9
快速链接:.个人博客笔记导读目录(全部)付费专栏-付费课程【购买须知】:【精选】ARMv8/ARMv9架构入门到精通-[目录]—适合小白入门【目录】ARMv8/ARMv9架构高级进阶-[目录]—高级进阶、小白勿买【加群】ARM/TEE/ATF/SOC/芯片/安全-学习交流群—加群哦目录前言1.概述2.虚拟化介绍2.1虚拟化为什么重要2.2hypervisors的两种类型2.3全虚拟化和半虚拟化2.
STM32学习笔记李兆源—电子工程师 stm32 学习笔记
STM32系列(HAL库)——内部FLASH读写实验_简约版在此篇文章前，写过另外一篇关于STM32内部FLash读写的文章——点击跳转。之前那篇文章的代码是移植于正点原子的，比较复杂，因为它考虑了写入字节大于1K或2K时需要换页写入的问题。但是在实际使用过程中，我们需要写入的数据常常远小于1K，因此本篇文章的代码适用于写入小量数据使用(即小于1K或2K——取决于单片机最小写入页)。本次代码是借鉴
分布式电商项目谷粒商城学习笔记＜4＞怎么又有bug单 SpringBoot 分布式 java 开发语言阿里压力测试
文章目录十五、压力测试1.一些基本概念2.JVM内存机制3.压测记录4.Nginx动静分离5.优化三级分类查询十六、redisson分布式锁与缓存1.概念2.redis3.缓存失效缓存穿透缓存雪崩缓存击穿互斥锁：4.缓存击穿如何复制微服务：5.分布式缓存概念原则基本流程6.Redisson环境搭建可重入锁锁的续期读写锁信号量（Semaphore）闭锁7.缓存和数据库一致性十五、压力测试这里是使用j
大模型转型之路：必要性与未来前景，迎接智能时代的浪潮_转行大模型大模型入门学习人工智能语言模型 AI 大模型 AI大模型程序员转行
随着人工智能（AI）技术的迅猛发展，特别是大型语言模型（LLM,LargeLanguageModels）的崛起，各行各业正迎来一场前所未有的技术革命。对于普通程序员而言，转行进入大模型领域不仅是对个人职业发展的战略性投资，也是顺应时代潮流、把握未来机遇的重要选择。本文将探讨转行大模型的必然性和该领域的未来发展前景。一、转行大模型的必然性技术普及化与学习资源丰富互联网的发展极大地降低了知识获取的成本
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite

李宏毅 自然语言处理（Speech Recognition） 笔记

引入

Speech Recognition seq2seq模型

引入

Listen, Attend, and Spell (LAS)

Connectionist Temporral Classification (CTC)

RNN Transducer(RNN-T)

Recurrent Neural Aligner (RNA)

RNN-T

Neural Transducer

Monotonic Chunkise Attention (MoChA)

Summary

早期语音识别技术

Hidden Markov Model (HMM)

How to use Deep Learning

Tandem

DNN-HMM Hybrid

End-to-End

CTC, RNN-T如何计算P(Y|X)

Enumerate all the possible alignments

summary

How to sum over all the alignments

Training

Testing(Inference, decoding)

summary

Language Modeling for Speech Recognition

N-gram

Continuous LM

NN-based LM

RNN-based LM

Shallow Fusion

Deep Fusion

Cold Fusion

你可能感兴趣的:(自然语言处理,笔记,人工智能)

李宏毅自然语言处理（Speech Recognition）笔记