编程大乐趣

【百度贾磊】汉语语音识别技术重大突破：LSTM+CTC详解（22PPT）

1新智元原创1

作者：王嘉俊

新智元福利

回复1028下载贾磊22页PPT

Google 去年发布了一项研究报告，说在美国年龄介于13到18岁的青年当中，约有55%的人每天使用语音搜索。

语音搜索正在介入到生活的方方面面：获取天气、文字输入、听音乐、车载交互等等。而随着智能硬件的普及，语音交互请求会越来越多。

2011年之后，深度学习技术引入到语音识别之后，大家也一直再问一个问题，深度学习技术还能像刚提出时候那样，持续大幅度提升现在的语音识别技术吗？语音技术能够从小规模的使用转向全面产业化成熟吗?

如果全面产业化成熟，意味着会有越来越多的语音处理需求，但百度语音技术部的负责人贾磊说，如果线上50%的搜索都由语音完成，而机器耗费还和过去一样，那么没有公司能承担起这样的机器耗费。

语音搜索的未来会怎样？技术能持续发展吗？技术的发展能否优化成本结构，同时又保障用户体验？

贾磊说未来这些都是可以解决的。近日，百度提出的新语音识别技术方案是把机器学习领域的LSTM建模和CTC训练引入到传统语音识别技术框架中,并考虑汉语特殊语言特点对汉语识别技术进行革新，从而提出一种全新的汉语语音识别建模方法

这是语音识别在工业上的创新应用，核心在于：百度发现对于单向固定边界LSTM建模之后，继续引入CTC训练，可以通过引入CTC训练的空白自适应的实现Target Delay，从而实现对单向LSTM模型对其右边的Context的精准建模。同时百度对汉语语言的音节，声韵母，音素和状态等多种汉语特有的语音学单元进行深入分析，提出汉语声韵母整体建模的汉语识别解决新方案（传统技术方案都需要建模单元被分成三个状态）。当把以上机器学习方法和汉语声韵母整体建模方案一起引入到语音识别的传统技术框架中后，再结合决策树聚类、跨词解码技术和区分度训练等一系列传统技术，就能实现了汉语语音识别工业产品技术的实质性提升。这样做出来的语音识别系统，有以下几点优势：

语音服务后台成本大大降低（解码器投入变少），有望解决语音搜索应用大规模工业化应用的资源消耗的传统技术难题。而且相比于工业界现有的基于状态建模的语音识别产品技术，相对错误率降低在15%以上，语音识别的精度大幅提升，除此之外，该模型的对口音和远场情况下的识别都有一定的提升。

贾磊在接受采访时说，这是当前世界最前沿的工业级语音识别技术，世界上除了谷歌公司以外，没有人报道成功过类似的技术思路和研究方向，而且谷歌Interspeech2015会议9月披露的该方法的模型规模比我们小10-20倍，语音原始数据也是我们的1/4到1/5，是一个实验室内的探索结果。谷歌实验效果在英文上提升在8%左右。我们在汉语上结合自己的语言特点，探索出声韵母整体建模的技术思路，最终得到的模型精度的提升幅度达到谷歌的2倍。由于该技术最大的难题就在于模型规模和训练数据量增大后的高速训练。因此我们的成果更接近工业产品化的要求，更能代表技术对工业产品的提升。。

新智元对贾磊进行了专访。

【百度贾磊】新智元专访实录

新智元：这个技术在世界上是什么水平？

贾磊：谷歌是今年9月刚刚发的实验室的论文的结果。我们也早在四五个月前就在开展类似的工作。我们和谷歌的工作差别之一是我们是在汉语产品系统上做了这个技术，我们的数据量是谷歌的4-5倍，我们的模型体积是谷歌的10-20倍，我们得到的工业产品的性能提升幅度是谷歌的2倍。这里我想说一下，只有单向多层LSTM模型才能有效应用于产品，因此我谈的都是基于单向多层LSTM模型的提升。除此之外，在这个技术核心有一个问题就是建模单元的选择问题，谷歌做的是英语，他的建模单元选择对我们有很好的启发和借鉴作用。我们做的是汉语，必须基于我们自己的语言特点进行研发。我们选择了一个最适合我们汉语的声韵母，做声韵母整体建模，做了大量的实验，确定了声韵母整体建模的技术方案。最终得到的模型无论精度还是速度，都比现有的识别产品技术有所超越。我觉得这个技术的水平应该是达到一个世界上较高水平的状态。因为我们的模型规模，训练数据和最后得到的提升幅度都远大于谷歌，我们有理由认为我们的技术水平更接近工业产品对技术革新的要求。

新智元：这种新的模型在产品和应用上，会做出怎样的改变？

贾磊：这种模型的好处就是解码速度非常快，刚才我也讲了，它的解码速度可以通过beam裁剪，从2倍实时变到0.05倍实时，这个过程，语音识别率几乎不降低。这个性质对语音识别技术的大规模产业化应用是弥足珍贵的。我们都知道，语音识别技术大规模产业化的问题之一，就是后端机器耗费量很大。虽然深度学习模型的计算未来一定会被专业硬件替代，而解码器的计算量只能由CPU承担（解码器部分大都是逻辑计算）。而采用了这个技术可以显著降低解码器部分的计算量，机器耗费量问题有可能在未来得到解决。其次，这个技术比现在的传统语音识别相对错误率降低15%以上，语音识别的精度可以大幅提升。最后，模型对口音和远场的识别也都有一定的改善。

新智元：那对语音合成和语音理解有帮助吗？

贾磊：我们认为这个技术，CTC的训练，我们摸索成功的CTC对语音合成技术也是有帮助，特别对语音合成的韵律研究也是很有意义的。对于语义理解问题，因为我这个组主要做语音合成和语音识别，可能需要语义理解的专家一起加入进来，看看这种全新的机器学习技术能否提升语义理解的技术水平。。

新智元：你说的降低15%以上是什么概念。

贾磊：是指相对错误率。比如说你现在语音识别率是90%，提升一个点就是相对错误率降低10%。我们在我们的实验中看到的降低幅度超过15%，由于这个算法还在优化迭代中，因此我们对外纰漏了一个比较保守的数字。

新智元：那它现在已经到了一个怎样的级别？就是提升15%之后。

贾磊：目前采用了这个新技术的语音识别率在安静环境普通话条件下，接近97%，这种识别其实假设用户非常配合的状态下得到的最优识别结果。比如假设用户熟悉语音输入系统，用户的普通话相对标准，而且用户说话的手机需要距离嘴比较近。，你可以对外发布这个数据。

新智元：还有什么你过去做不到的东西，有了这个技术之后，你能够做到了？

贾磊：过去没有这个技术只能把一个建模单元分成三份，做三状态建模，语音识别系统框架都被禁锢在一个状态建模的系统中。那么现在可以采用整个建模单元整体建模，建模单元选作音节、半音节、音素都可以，甚至于更复杂的一些组合建模单元，也都可以，那么这样会让语音识别能从传统的理论框架中挣脱出来，会有全新的研究方向，比如说以前语音识别建模单元不需要研究，现在我们需要研究语音识别用什么建模最好，这会在未来是一个重要的研究方向。英文现在他们用的是音素，我们汉语现在用的最好的是声韵母，之后我们还可以声韵母跟音节混合，声韵母跟音素结合，这个方向在未来等于打开了一扇门，帮助人们更好的去做语音识别技术。

新智元：然后这种技术顺应是一种怎样的产业趋势？

贾磊：这种技术特别适合于语音识别大规模工业化，因为这个技术应用点很多，它不但是解码速度快，而且对口音、对远场都有一定的作用，有口音的人识别率会改善很多，距离较远的时候识别率也会改善很多。除此之外，这种技术对汉语的声韵母进行尖峰抽象，就是这个建模单元中最具备特征描述能力的一帧语音被抽取出来代表这个声母或者韵母。而且尖峰抽象是在当前语音句子的整句全局优化的基础上获得的。这客观上使得这样的建模技术可以轻松混合多种数据源（口音，噪音，远场等）进行训练，不同数据源之间的差异会被抹平，最终得到的系统也会对多种复杂场合的识别有很好的改善作用。

所以我感觉是整个对语音识别全方面的一种提升，而且在它解码速度上的优势，会让语音识别在大规模产业化的时候因此而降低成本。

新智元：但它需要的这种设备以及计算性能，能够在产业普及么？

贾磊：是这样的，我们这个语音识别有一个训练的过程，有一个测试过程，那训练过程它的计算量再大，大部分都可以通过专业设备投入一次性采购进行解决的。关键是测试部分，就是上线服务的时候那个机器数目是必须要压缩的，而且机器都必须尽量是工业界主流机器，不能定制机器。用我们新技术训练出来的模型的主要优点就是线上实际产品使用的计算量少很多。

新智元：那它的这种训练时间呢？

贾磊：我们的核心贡献就在于我们研发出的一系列的算法适合大数据、大模型的情况下，LSTM和CTC的结合的高速有效训练。但是注意只是做大数据、大模型，只是做CTC训练，都还不能够显著提高识别性能和工业产品效果。必须把跟深度学习和语音识别的传统领域的技术相结合，这是我那个微博中也反复强调的，这样才能够显著提高线上产品的语音识别率。之前单纯的大数据、大模型已经有人能做了，但是这样得到的模型计算量很大，工业产品很难采用。由于没有和传统语音识别技术相结合，导致CTC训练的多层单向LSTM模型快10年也没有在工业界中成功使用。我们解决了这个难题，这里我们要强调学科融合。我们可以讲讲我们北京的产品团队的艰苦公关过程。我们很努力的干了一阵子，研发出来单向多层LSTM的稳定快速训练和之后的CTC训练，本以为就要成功了。可是当把这个机器学习技术应用到语音识别领域的时候，发现了一系列的语音识别传统问题没解决。于是又开始研究语音识别的建模单元等传统问题。最终还是把机器学习技术和语音识别传统技术相结合，然后1+1大于2，产生化学反应，最终促进了语音识别核心技术整体提升。这里，我想强调一下，获得上述提升，还有一个重要的因素，就是用语音识别学科中的区分度训练技术去提升CTC模型的建模效果。我稍微介绍一下语音识别的区分度训练，能够真正的根据语音识别最后过程，结合声学模型和语言模型，真正end to end优化模型。这个区分度训练实际上，最终提升了CTC模型的效果。也就是说，语音识别的传统技术也可以提升机器学习领域内的算法的效果。学科之间的交叉融合，相互借鉴很重要。

新智元：那它每一次像工业化训练的话，然后它训练时间是多长？

贾磊：一般的话训练一个模型，一般完整的需要几周，甚至一个月都有可能，如果传统的训练，如果不是用创新的算法和创新的技术去做，那做CTC训练技术是不太可能的在几个月内做到的。因为我解释了LSTM需要逐渐的递推，而且一句话一句话做太慢了，所以我们引进了很多技术创新，让这个东西可以达到几周就可以训练出一个工业产品中产品模型。

新智元：百度说要把百度语音开放给社会，具体打算怎么做？

贾磊：我们现在持续在做，我们这些技术都会在未来陆续开放给公共社会，让社会的更多的普通的研发工作都可以使用这个技术。

新智元：如果说有时候像我说话有一种口语化或者即兴的这种表达去表达这些东西的时候，然后这个系统的处理和传统会有什么不同？

贾磊：口语化的识别第一是需要训练语料，然后在我的实验中发现，因为CTC的模型每个建模单元就是每个声韵母可以描述一个尖峰。在我们测试中，小规模测试中CTC训练后的模型对口音的识别有一定的改善，但是口音的有利信息归根结底要需要大量的口音的数据才能解决。

新智元：然后你们说在万小时训练条件下产生了过拟合，催发出对更多数据量的语料库的需求。然后您觉得现在市场里有足够这种能产生这么多语料库的产品么。

贾磊：像我们搜索产品的话完全是可以得到更大规模的语料库的，因为我们的服务和训练是可以接轨的，这个闭环反馈是可以的。至于你说一些研究所或者公司他们要想很大的语料库的话，可能就比较难了。其实几千小时也可以拿到效果的，这个技术不是在大语料情况下才有效果的技术，小语料一样会提高性能，这是语音识别核心技术的提升，有很多理论创新的成分，高校都可以做这部分技术的研究的。

新智元：您觉得像这种技术目前还会遇到什么主要的问题？

贾磊：这种技术目前遇到的主要难度：我的思考是前对口音、噪音、远场的识别。这种模型虽然相比传统的技术有所改善，但是仍然有很多不足，还需要有其他的技术跟进。这个模型比传统的模型好，但是没有本质上解决口音、噪音和远场的问题。多种数据源的混合训练仍然是必要的解决口音、噪音和远场问题的必要手段。

新智元：那您觉得在未来的5年内智能语音在哪些领域会比较大规模。

贾磊：我觉得在语音搜索领域，O2O领域，在传媒信息领域，在汽车领域，语音一定有很大的作用。

新智元：那在技术上呢？

贾磊：技术上，我的判断就是对极致速度计算的研究会有强烈需求。未来会出现更大规模的语料库，要训练更大规模的语音识别系统。因为在我们的实验中发现了在现有接近1万小时的训练情况下，我们仍然遇到了过拟合的现象。这就意味着我加入数据还可以提升性能，所以我觉得数据对技术的改进仍然是可以期待的。然后其实我在微博中有对未来的展望。

还有一点，这个技术会让语音识别解码的计算量能够降下来。这样的话，语音识别、语音服务的成本会降低，进而推动产业发展。

新智元：它这种降低会降多少？

贾磊：我们现在没有预估，这个过程一定需要配套专业的深度学习模型的专业硬件计算技术。，等深度学习硬件大量涌现了，我估计能把解码器成本降低5-10倍吧。

新智元：解码器在这个语音服务的成本大概是多少？

贾磊：因为现在的语音识别的解码器成本大概是三七开，三分是语音识别解码器，七分是深度学习模型的计算。，未来深度学习硬件可以专门出来解决深度学习的模型计算问题。现在深度学习硬件已经在广泛的研发中了，很多地方已经开始出现了专业的深度学习计算硬件的成功使用案例。如果采用深度学习硬件，深度学习模型的计算量是可以大幅度压缩的。因为DNN、LSTM模型都是有固定计算结构，它可以用深度学习硬件大幅度加速。，而解码器更多的是逻辑计算，只能在CPU中进行。

新智元：解码器部分很难通过硬件加速吗？

贾磊：对，很难加速，而我们这次把解码器部分的CPU的处理加速5-10倍的话，那么这个成本未来可以预见将大幅降低。同时我觉得对深度学习在线学习的专业硬件也会有新的需求，这两个相伴相生，我觉得可以把语音服务降低不少成本，还能让语音服务的大规模使用成为可能。

新智元：那这个技术能运用在英语方面吗？

贾磊：我觉得我们研发的成果，有些部分也是可以用在英文上的。，我们的观点是CTC训练不是灵丹妙药，它核心解决了一个单向LSTM模型右边context的混淆性信息的建模问题，单向固定边界LSTM建模之后，继续引入CTC训练，可以通过CTC训练的空白自适应的实现TargetDelay，从而实现对单向LSTM模型对其右边的Context的精准建模。而我们采用双向LSTM建模的时候，右边的混淆性的信息都是可以被反向的LSTM模型扑捉到的。这种情况下，，在双向模型固定边界的基础上继续采用CTC训练的提升就不大了。所以我觉得这个实验实际上是我们对CTC在语音识别中的价值的一个理论探索和分析，对英文识别技术的提升一样有帮助。这些理论也都是基于我们实验结果的一些推测，未来也许有他人更新的实验会否定这些，但是我们愿意分享出来，让全世界的语音识别研究都受益。

贾磊在 NCMMSC 2015上，对这个新技术做了全面的介绍。

注意：贾磊演讲全文由演讲录音整理，可能有误！

贾磊演讲全文

【贾磊】我简单介绍一下长短时记忆模型。这个模型的优势就在于，在传统的网络中引入三个门：输入门，输出门和遗忘门，分别代表对信息长期、远期和近期的记忆和控制。

相对于我们传统的CNN和DNN模型，它的好处是能够记录轨迹的变化。这个模型已经提出来很久了，本身并不是近期的创新，但要把它应用在工业里，是有很多困难和现实问题的。

为了把模型应用在产品上，我们提出了一套CNN+7DNN+2LSTM的结构。我当时提出这个结构，是专门在西北工业大学汇报过的，Google当时没有论文。Google 当初提出2层LSTM，在我们的验证中，如果是对于状态建模，那么需要比较 Deep的模型，因为这是比较短的瞬时状态，它的轨迹并不清晰。

那么如果采取这种深层结构，两三轮的迭代，数据就可以获得收敛，有很好的这个效果。而如果只用2层的LSTM，随着数据量的增加，这个提升会很慢。而且最终的收益，这个模型的效果好。Google 最后的论文也证明了这一点，这样的模型结构，对于状态建模是比较好的。然后我们在LSTM的模型上，主要解决了海量数据的训练和效率问题。因为LSTM不是今天的重点，今天主要讲CTC，和语音识别对传统框架的改变。因此我就跳过这一部分。

LSTM的训练是有困难的，因为很容易发散。这是一个重要的技术，Google提出的LSTMP，它在传统的LSTM模型之上，引入了一个反馈层。这个反馈层对工业界弥足珍贵，因为这个反馈层会使运算的计算量大幅下降，它可以把反馈的，比如说你这个神经元节点是1024，他反馈的可以采用256，这样整个计算量会大幅压缩。

因此我向大家推荐这个技术，基本上应该是工业界和学术界的最新技术，除了产品效果之外，这个的精度更高，我对这个的猜想是因为LSTM的输出层很大，它有两万多个节点，在状态建模的时候。因此为了和外部的匹配，通常的就是C代表的LSTM的记忆单元，这个单元的维度会比较高，一般采用的是1024，也可以采用2048。

当采用1024的时候，其实整个网络已经非常复杂了。这个属于反馈层，可以把参数大幅的压低，从而导致你可以鲁棒稳定的去训练这个网络。那么有人反映，带有反馈层之后训练会不稳定。我的感觉是这种反馈即使有不稳定，大家要去钻研，因为它是必不可少的。工业产品中如果不带这个反馈，计算量是难以承受的。

这是 Google 对 LSTM 的贡献，我向大家推荐这个技术。

然后讲BPTT算法，BPTT算法是最基本的训练神经网络的算法，就是误差反向传播。对于R模型或者LSTM模型它是有轨迹的，因此它是根据轨迹的误差反向传播。它有两种方法。

第一种方法是逐帧递推的，一帧推下一帧，再下一帧误差规避以后再向前传。

第二种是所有的误差同步向前传，传固定的步数。

这两种算法其实在BPTT的理论都是存在的。后面这种实际上就是把误差截断，不让误差从头传到尾。第一种就是直接从头传到尾。两种基本的算法，大家可以了解一下基本的理论。

这是我们多层的LSTM的结构，下面是我们的CNN层，上面是我们的DNN全连接层，这是我们的LSTM两层。

这个节点是采用了1024，这个维数的大小，线上的工业产品是可以用的。所以大家的研究可以照着这个去做，如果你的体积过大或者过小，对于工业而言可能就是研究跟现实之间就会有不匹配。

这解释了网络能够提升系统的根本原因：

第一，多层结构对神经网络而言总是有价值的，因为多层意味着输入的扰动在输出总数会衰减。这个我觉得微软的于老师是有一篇论文去讲这个。

第二个状态建模，状态的轨迹并不是很清晰，很短、很sharp的一个建模单元。这个时候如果完全采用LSTM去建模的话，造成的结果就是LSTM是轨迹比较强，但是它跟瞬态的模拟能力不够，因此结合瞬态跟轨迹这样的一个模型结构，在我们现实产品中发现是稳定的，而且总是有好的效果。

那我们和双层的LSTM做对比，谷歌当年刚开始提出双层的LSTM胜过CNN，有这样一篇论文，大家可以去找，我们做了实验，实际上我们达到的是negative的结果。在2000小时中，跟谷歌的实验一样，对等。双层LSTM的效果胜过了传统的CNN技术。

但如果把数据量增加到一万小时的时候，这种十层的CNN会胜过双层的LSTM，节点是1024，大家可以做实验看看。因为LSTM的特点是节点多，记忆能力就强，但是节点如果少的话，能力就有限。

1024是工业能上线的技术指标，我们把LSTM变成这种结构的时候，我们很好的胜出了DNN和CNN。

这是我们当年从事这个研究的一段历史，那么谷歌最后的论文也证明了这一点，所以我相信这个应该是目前大家都没有异议的东西。

那么训练方法，其实这个东西早就存在了，十年以前也有，现在也没有什么太大的改变。实际上训练的方法是对这个理论，正确的在产品中使用的根本的影响。谷歌有一个很著名的训练，我觉得是这个训练把LSTM带入语音工业界了，因为LSTM很慢，逐帧的训练基本上是在现实中是不可能的。那么谷歌做了一个方法，首先把句子随便的排在一起，每一次取一个SubseqSize（子句），这个子句会有一个 Batchsize，64个句子放在一起，子句是20。

这样的一个方法，就是把LSTM的训练，我们知道传统的LSTM是轨迹训练，而我们的CNN是逐帧训练，把LSTM向逐帧训练靠拢。这样核心收益就是，CPU在计算的时候是可以高速计算和高速并行的。

由于这个技术的引入，把LSTM的训练速度大大提升，从而工业界可以使用LSTM做语音识别。

那我们的训练结构基本上就是一种多GPU的方案，我们把这个句子划分成多个机器，每一个机器都采用一种分子句训练，得到的结果，然后用单机同步，或者异步SGD。后面我会讲我们多机训练的算法，总之把这个数据去搞定。这个训练算法，我认为单机也是可以做的，大家的高效就是用谷歌的分子句训练，不需要很多的GPU，一个GPU就能训练LSTM，而且效果很好。

那这是我们最新研究的整句训练的方法，整句训练的难度会非常大，因为单帧递推的话，一般都是两三个句子，误差都会从头推到尾，从尾推到头。

这个训练量会非常的大。而这个是我们认为后续提升的关键，谷歌的分子句训练在我们的实验中无法做CTC的Training。

那整个的训练要全部切到整句训练上，这个跟传统的训练方法就会有一个很大的差异，这个差异是造成CTC训练在语音识别中使用的核心瓶颈。

然后我们的并行训练平台，当年的CNN，DNN和LSTM，我指的是分子句的LSTM都可以单机去训练，大家在高校里都可以去做。但是做这种训练的时候，单机已经很难完成任务了，我基本上都使用多机，一般是这样的一个机器的结构。那么这是一个数状结构，是把模型去平均，数状是让模型传递的时候归并更加容易。

这是一种新型拓扑结构，用于异步SGD，用多机去做，我们大概是四到八个机器，一个机器有四个GPU卡，因为单机的速度实在慢到无法忍受。这个工作就是说，我们的下面的工作，训练量是谷歌的数据量的四到五倍，我用模型体积是谷歌的五到二十倍。那这是我们工作的一个重要的核心价值，因为当LSTM做CTC训练的时候，整句的训练会差巨大的一个技术瓶颈。谷歌的模型很小，双向的模型只有300个节点，单向的模型只有500个节点。

我们双向的模型用到了1560的节点，我们单向的模型用到了2048个节点，这样的规模是适合工业界去大量产品使用的。这里我插一句，不是说数据小了就不能做研究，也不是说节点少了这个实验就做不了，而是工业节点使用的时候一定要考虑未来的训练语料库是十万小时，如果你做了一个算法，你只能做一万小时，或者是五千小时的训练，那这个算法长期去看是没有工业生存价值的，这是我们工业界思考的一个根本和立场。

所以，这个工作难度的核心就在于训练速度的提升，这个速度的提升是超乎我们常人想象的。因为当年CNN和DNN技术，我觉得于老师和邓老师把这个DNN做起来一个核心的原因是GPU带来的计算量的提升，因为GPU本质上改变了CPU，提升大量的并行度，所以LSTM算法得以流行。

而如果CTC如果想训练的话，一定要有整句训练，而整句训练的训练速度是会造成所有人的技术难题的。而这种难题在工业界中实际上尤为突出，因为我们的训练量太大。而且在学术界，实际上我们探讨一些理论结果，不一定是要大数据，后面我会有一些理论的创新，今天得到的结果不仅仅是说我们工业界就是拿程序跑数据，大数据下宣布一个吓人的理论，它是有理论意义的。

然后我开始进入CTC的讲解和介绍，首先我介绍一下静态分类。静态分类就是橘子，菠萝，还有桃子，其实你做这种分类很简单，是一个分类器。CNN和DNN就是简单的静态分类器，当我们去训练LSTM的时候，大家可以回忆一下。采用谷歌的分子句训练，实际上大家也是模拟单个的状态，在每一个子句中间我们可能有误差和递推。但是实际上它是一个静态建模，建模的目的就是模拟输出状态。

而序列分类就不一样，他是直接把一个序列映射到另一个序列，从头到尾的去做训练。而这种序列训练的建模理论和基础和我们传统的语音识别差异很大，它本质上并不是静态分类器，它是动态分类器。

语音识别要想实现动态分类，语音识别本质上是训练DNN模型、CNN模型，甚至你训练LSTM，多多少少都有静态分类的影子。而CTC训练是真正的序列训练，优化整个序列的损失，而不是优化单点的损失。

那在展开训练之前，我想再对比一下CTC训练跟传统语音训练HMM训练的不同。

那HMM训练是有这样一个拓扑结构，这个输出分布换成GMM或者是换成DNN，这样的分布，大家建模的时候实际上拓扑是固定了，大家只是训练这部分，这部分东西。我们先得到一个模型初值，切分出边界，在固定边界的学习下，把GMM和DNN模型调到最优，这是我们传统的一个学习分量方法。

虽然我们实现了动态训练分类，但是我们的训练和本质上是静态分类器，我们没有做动态分类器的动态直接训练。但是CTC训练不同，CTC是直接的动态序列学习，它是要优化整个序列的可能性，什么叫整个序列的可能性？

比如说话ABC是一个序列，那么Blank空白AAB Blank CC，这叫ABC，对应的全叫ABC。任何一种序列可能的展开，都是这个序列的实例。它并没有固定的边界，那引入了一个重要的空白模型。空白模型是无意义的，就是没有任何的物理意义，这个模型就是硬引入来的。对应的这个模型拓扑结构，从上面这个模型转成下面这个模型，大家注意这个模型的拓扑，首先Blank空白是可以跨越的，大家可以是越过空白的。但是也可以经过空白，

黑点表示实际的ABC观测，是不可跨越的。可以多帧注流，但是不可以跨越。空白也可以多帧注流，这是CTC理论模型，实际上非常可贵，CTC模型的拓扑结构是这样的。空白是无限延展的，这些有意义的标签分布只有一帧，这是非常重要的CTC的性质。你模型越好你越近于这个性能，而且CTC模型是否训练成功，就依赖于这个拓扑是不是和语音一致。

而当这个语音识别的标签变为一帧的时候，它的价值在解码时会有巨大的收益。解码器是语音识别中最复杂的技术模块，而且它是复杂的逻辑运作，意味着没法加速，而只能顺着 if-else 的路径去拓展，整个就是动态规划。

而如果能把解码速度大大压缩，剩下就是DNN的计算量了。DNN是好办的，它是规整的，有固定的计算规律，而且有很多专业硬件，可以加速和提升。

我觉得这就是语音识别的未来，线上如果50%的搜索都由语音完成，如果机器耗费还和今天一样，没有人能承担起这样的机器耗费。所以这个技术对于语音识别的未来弥足珍贵。

那这个模型好不好，能不能在精度上超越我们现实的语音世界？我再解释一下CTC的实际训练情况，刚开始的路径首先是空白，按照刚才的拓扑结构，空白可以经过，也可以跳跃。空白也可以多帧注流，可以跳向有意义的实际建模单元，建模单元也可以跳过空白到下一个。

整个的空间展开是固定序列约束的解码。什么叫固定序列，我知道我的目标序列是ABCDE，我把ABCDE整个空间在这个模型的拓扑结构上全部去展开。

这是我觉得只要大家是传统做语音识别的，全部是这样的思路。所以当机器学习的人最初提出CTC的时候，很少有语音识别的人去追求，甚至到现在很多人，包括我在9月份的interspeech开会，谷歌的学者讲CTC的时候，底下很多人尤其是传统语音识别的人是不信的。因为这东西在传统的语音识别框架中完全存在，我们也完全能做这个事情，这个东西能有提升吗？其实大家都是不相信的。

包括谷歌的实验结果，谷歌实验结果有一些前后矛盾的地方，它得到的提升不足10%。而状态判断系统的很低，就是一个双重的S型状态。谷歌并没有给出原因，为什么CTC能提升。

那然后讲一讲CTC的函数优化，CTC是优化整个无空间序列，这跟我们的图空间是一样的。但是有一点不一样的，CTC并不是全局Normalise，CTC是在逐帧Normalise打分。

CTC不可能和GMM融合，而必须用轨迹建模，这就要用RNN、LSTM进行轨迹建模。CTC训练必须采用整句训练，综合考虑全局的上下文信息，力求全局对比。然后我们讲空白，CTC模型有两个伟大之处。

第一个伟大之处是全局Global，这个东西我们报告有。

第二个是空白，CTC有特殊的空白模型，我们语音识别有SP，我们有长境义和短境义，我们短境义也有，那它那个空白跟我们的空白有什么差别。

那我可以讲一下，引入blank的类别，它的作用主要是较好的解决两个建模单元之间的混淆性。比如说这是两个建模单元的边界，边界的地方我们是切分切出一个边界，这个边界似是而非，说属于前面也行，说属于后面也行，讲不清楚。这种情况下，CTC模型的空白可以吸收这个边界，对于我们的疑问是，我们的SP模型是不是也能干这个事情。

对应的第二个，将传统的轨迹学习转为差异化学习。CTC的模型结果，一定是当前的建模单元只有一个脉冲信号。我并不是在描述轨迹变化过程，我是在描述差异性。哪一帧信号最能代替这个因素，这是CTC训练的理念实质。

还有CTC训练天然解决了语音和非语音的区别，他们的区分性不是那么重要了，因为CTC已经搞定了。当你在区分训练的时候，更重要的是区分语音之间的混淆性。

这一点实际上是通过一帧信号来代替一个观测量，你说R这个因素可能维持时间很长，但是代表的特征只有一帧信号。然后讲一下CTC实际的前后项算法的特性，这个热力图代表的是误差分布函数，这是从前到后的误差分布，这是从后到前的误差分布，这是两个合到一起的误差分布。

这个热力图反映了什么，CTC这个误差从前向后的时候误差非常集中，说明从前向后说对这个声音的确定性很高。但是从后向前的时候，声音迅速分散，代表声音的不确定性很高。

这说明在语音识别中，从左向右对语音识别的结果贡献更大，从右向左有价值，但并非很重要。这意味着，我们可能做单向的LSTM模型，不需要右边的文本，也许可以精确建模。

而只有单向的LSTM模型才是工业产品可以接受的，因为它没有延迟，可以在线去解码。那么这个理论的分析结果，是在做之前实际上我们就想探寻的。如果后向Dominate了这个Process，那CTC的训练必须依赖右边的信息，否则的话整个语音识别是没有办法，整个的CTC训练是没有办法很好的收敛的。

但是很有幸，左边Dominate，右边有价值。CTC的解码过程，实际上CTC的空白占了绝对的优势，我给大家只是找到了一个简单的例子。比如说我们建模“简单可依赖”，那我们就简单每一个字去建模，blank可以无限延展，最后的解码路径就是这样的一个路径。每一个字只有一帧，无论你是什么样的建模单元只有一帧。那这样的解码结果，在解码的时候会有很多优势，我们会有一个解码的算法加速。

然后CTC训练了尖峰生成，大家用机器学习直接做CTC训练，就是从一个裸的模型就硬做，可以做到。我见过很好的结果。而且做的过程，我们用一个概念叫拉尖峰，这个尖峰是一点点拉出来的，刚开始这个锯子什么也没有，“简单可依赖”的几个字，可能拉出来一个简单可可出来了，然后逐渐的拉紧，就把简单可依赖尖峰生成。那么对应的右边是误差的降低，刚开始的误差很大，逐渐误差会降低，这就是CTC训练的优化过程。

那么CTC有两个问题，第一，CTC能够提高人类对于语音的辨识能力吗，这个实际上是一种能力，这种算法是不是超越了现在所有的。第二个CTC能提供能提供工业产品的识别率吗？这个是有差异的。

比如说第一种方法我可以采用双向的建模，我可以采用多面的解码，反正我就无休止的做，我拿到最好的结果，我跟人去PK。第二个结果是指工业产品有设定的要求，有机在线解码的很多的需求，不能让用户无偿的等待，以及计算机计算资源的消耗，必须满足产品要求，那实际上这是两个问题。

那么我主要想对比一下HMM，DNN和CTC的差异。第一是模型结构差异，CTC引入了blank，我们实际上是有SP的，但是我姑且把它命名为差异。第二个CTC训练无须固定边界，对CTC而言是不需要的，裸的模型随便给我一个序列我可以做，自动的end to end 优化模型参数，这是他对应的两个，这是传统我们的CE训练，我们必须知道这个label，根据label算出误差去优化网络，那上面这个模型训练实际上就是CTC的模型。

那我们做CTC整个training的过程，我不是去拉尖峰，我是按照压尖峰的模式，我的尖峰都是往下压的。我的训练过程实际上是这样一个过程，首先出来两个空白，空白长大一点，空白又长大一点，空白再长大一点，最后留下来了一个尖峰，这是我的训练过程。我所有的训练都是采用这种训练模式，推荐给大家，大家可以选择，希望大家可以提出比我更好的训练方法。

CTC训练的区分度是非常关键的，区分度我用美国微软研究院的，当年是我的老板Jeff的话说这是艺术。区分度训练不是技术，很少有人能做的很好。这个东西全部是要通过各种细节去调节，全部运用参数去做。但它是语音识别领域对人工智能的重要贡献，这一点我永远引以为傲。在所有的机器学习理论中没有区分度训练，我认为区分度训练才是真正的end to end的学习。他直接得到解码结果，根据解码错误反馈来修正误差。

CTC的区分度跟传统的区分度没有差别，这里有两个重要的，一个是深度学习网络内部的梯度，一个是解码的区分度信息，这两个实际上是在一起的。然后我们可以在做CTC模型的时候，我可以对CTC模型维特比得到固定边界，这一点我们就是我们是这样做，大家也可以不这样做。

这个实际上就已经进入了传统语音识别的领域了，我有一个模型，我做一次切分，哪一个最大，哪一个定一些边界。得到固定边界之后，我们就可以进行区分度，这个过程跟传统的区分度一模一样，但是空白对CTC很关键，需要去做。

然后异步SGD的优化，我这个训练是采用异步SGD去做，我是属于一边解码一边update 模型，我两个是一同去做的。区分度训练CTC模型的收益和我的固定边界的模型是相当的，所以这一点是非常可贵的，这是我们区分度的结果，我们都有所有的实验。

然后我要讲的是CTC的解码，那CTC技术的解码，实际上跟传统的解码是有一定差异的，第一在图状态空间构建的时候，

每一个原来的你的一个建模单元，我们都是采用单状态。原来的一个因素必须是三状态，这是传统的状态建模，CTC是单状态的。

同时要增加一个可跳转的空白。解码的那个图空间构件基本元素就是这样的拓扑，CTC的解码很快，从两倍实施，把DNN打出来的结果固定，只是去算解码的时间。两倍的时速很慢，我把时间放的非常快，缩短到0.15倍实施，识别率没有任何降低。而缩短到0.05倍实施，识别率只降到0.2。

这说明什么？这说明语音识别的解码器的耗费全部转化为DNN的计算了。而语音识别解码器，一个机器，一个现有的PC器可以handle更多的解码，因为它的解码速度很快，lost很低，这使语音识别未来的发展具有很大的工业的价值。因为现在的语音识别cost很高，你支持一核，一线的服务这个是很花机器的，如果50%用语音搜索这个事搞不定的。但是如果这样去做，我们把语音识别的解码速度大幅的提升，如果计算量全是DNN的话，那是跟容易办的。DNN我相信一定会有大量的专业硬件去做DNN的计算，据我了解很多公司都在做这样的研究，这个东西是一定可以解决的。所以这样的话，语音识别未来是可能的，就是大面积的语音识别的采用是可能的。

然后我们可以把我们的解码的算法告诉给大家，让其他的东西你们找不到，其实很简单，在解码有空白段的时间，这个search的beam值是动态的自适应调节的，如果你确定当天是空白，这个beam可以大幅度的去削减，这样解码的速度就会很快。

然后讲我们的基线系统，因为只有你知道我们做了什么基线系统，你们才知道我们这个工作是不是有价值。那么谷歌当时在inter speech的会议上，被微软当时一个学者问他的结果，最后谷歌的结果有点不一致，因为它的基线很低，它的基线就是一个两层的LSTM。

而我们的基线，状态是两万的状态序列，参数是这样的参数结构，DNN的节点都是2000个。LSTM的系数是1024，反馈是512。

这个模型非常的大，这是我们的商业系统，我们就在这样一个商业系统。然后训练数据量我们用了将近一万小时，并非觉得大数据就很重要，只是这个技术的核心难点就在于训练速度，如果我们不能证明我们的算法可以用于十万小时，那这个技术做的是没有意义的。

所以相比谷歌，他们是用2000小时去做，而且模型小了很多，我们的模型很大。然后我们用的优化准则实际上是这个系统，是单机同步训练。训练方法是传统的谷歌分子句。那谷歌分子句的训练方法实际上是被证明非常有效的，那么原模型大概就是几十个G左右，然后我们做这个试验的时候，要求12和实现的解码速度达到0.5，就totally的解码速度，因为代表一个工业的基础要求，因为我们做一个事情总要知道它的解码速度是多少、LOST是多少，这个是我们解码速度问题。我们把我们的基础系统完全地交给大家），大家知道我们这个工作，跟什么做比较，这是我们的试验，我们几乎做了我们能做的所有的实验。

首先状态实验，状态实验首先基本模型是这个模型，我们不知道拓扑是不是有价值，于是我们就引入拓扑。我们也不知道是切分有价值还是交替，是切分的作用还是交替训练的作用。

然后双向的时候，也做了类似的工作，那么对音节或者整个汉字建模我们也做了很多的模型，那我们这个模型的情况呢，首先整个音节建模CNN我们做，然后音节用的是5层的LSTM建模，1560节点，这个模型很大，双向的。整个就是用，这样做的目的我们就是想看一看，在音节模型上，这个算法的形成到底怎么弄。

其实，对于CTC而言，从理论上它不存在任何建模的困难，这是bulitable 的技术，在我的研究中我发现，就是任意的虚点，无论你的建模单元有没有意义，无论它有没有区分性，只要你给我足够的数据、足够大的模型，我一定可以训练出很好的结果。所以在音节实验中，我的模型取的偏大，那如果更大，又会不一样，那实际上我也有一些尝试，这个实验结果就不讲了。

而对声韵母建模，我们标准采用的是我们产品中可以采用的策略。首先，这样文本的声韵母12000个，然后CNN+DNN是9层2048节点，这是标准的CNN模型的配制。然后是CNN加5层LSTM 1024节点，还有2048节点，还有1024的结果。

那么，这个结果是有区分度结果，因为这个结果和这个结果可以比，因为它的模型参数是一样的，我在比较，如果我再这个模型参数条件下，2048节点的5层的话，上线是很困难的。

我在我上线的目前极限的情况下，我去比音节建模跟声韵母的建模的文本的差异，我力求发现，CTC的本质是什么。那么，因为时间有限，我直接给大家展示分析所有的结论。

第一个结论就是，基于整句训练的LSTM建模，如果我LSTM建模，可以让汉语采用状态半音节和音节，效果都不会差。所以，这一点我觉得这个实验实际上是跟大家以前的理论不一样的，我们必须做状态，不做状态不能做实验，其实不是。我任何一个建模单元，我如果采用LSTM去训练，那么我都可以达到一个不错的结果，取决于模型多大、训练数据多少。这样语音识别传统使用了几十年状态建模实际上不用采用了。

然后呢，固定边界学习的LSTM和CTC的结合，那这就是CTC的价值和作用。第一个，在状态建模系统中，CTC训练没有成功，因为状态很短，CTC很难在一个很短的序列中找到blank，给你一个好的表现，通常的结果会有两三个absolute job，就是你的点很差。

然后如果音节单元自身具有混淆性，比如说音节或者是现在的end to end 的学习，当然没有任何意义，你给我一个序列，我找到标签你去做，那都是可以的。那么这样去做，CTC的价值是，牺牲了建模单元内部的混淆性，比如音节ā和à差别很小，但是我依然可以把这两个模型区分开。让机器学习去做，CTC是能够做到的，那从而提升了LSTM的建模能力。

那么CTC是个训练准则，训练的模型是LSTM模型，那么这两个结论实际上已经说明，用机器学习的知识，不要任何语音识别的先料，我硬做，是可以做出一个系统。

这个系统怎么样，我们结构也是一样的，跟现在的系统情况非常接近。那如果是这样的结论，那几乎我们做语音识别的人就跟教师一样，人家跟我们拿的结果是一样的，那我们的价值在什么地方？

我觉得是传统语音识别的所有工具，我们把CTC训练引入到语音识别的框架中，采用语音识别的很多技术去优化。我们发现，比如说用双向的LSTM建模，不需要用CTC效果一样好。那这个结论是很重要的结果，大家要想做CTC的算法，先做出这个结论，如果你的双向的LSTM避逃不了你现在的线上系统，那你的LSTM有问题。

那做完这个结果之后，那我们来做一个实验，就是对我们有指导意义了，我们对于单向的LSTM采用1024建模，必须采用CTC，我们得多了性能超越现代系统的一个进步。

那就是说CTC对语音识别的价值在我们的实验中，在双向系统中没有明显的价值，说明CTC对人类的认知能力的提升，至少我的实验中没有证明或者说是略有提升，也是非常小的。

但是CTC的单向LSTM中，价值无可替代，有非常重要提升，那这个提升的价值主要是CTC引入了空白，它有空白，空白呢在这个训练中可以形成target delay，因为我不知道右边的信息，比如说a这个音，后面是什么我不知道，我就让你延迟几桢再决策。

所以它自动形成了它这个target delay以后，相当于把右边的信息补全，所以CTC的性能在语音识别中，对单向的才会大幅度提升。

而对于双向的模型，我无限的数据、无限的模型、好的训练算法，我一样可以学习到一个东西。所以，CTC不是灵丹妙药，这是我的理论的结果。

我相信，会有大家更多的人去分析、去追求，甚至于否定我的理论，我很欢迎，但是至少今天，我愿意努力地给大家share一下，我们的理论发现，那从而帮助大家更好地去做CTC的学习和训练。

然后，大数据的大模型的结论呢就是说，数据将近万小时的时候，我们采用的是1024和2048，因为1024是可以上线的，所以没必要采用更小的，那更小的性能我们可以再去做追求。

第一点，大数据下极致训练速度的追求是必须的。如果没有极致化的训练速度，你们很难得到好项目。这个相比于传统的技术，如果你要想提升，你需要采用上下文相关的声韵母建模，你还要采用固定边界的训练，再用CTC，再用区分度，最终可以降低产品误识率15%以上，我们得到的收益远远大于谷歌。谷歌当时的收益不足10%，它的论文中，我们的收益很大。而且是跟一个产品性能去比。那么本工作和未来语音识别的贡献呢，就是未来的语音识别服务将不再昂贵，那么我觉得，这是刚才已经解释的技术。

第二呢，语音识别的建模单元从禁锢了几十年的状态建模中会被解放出来，那么如果不用状态建模，你可以采用更复杂的、任意的模型。CTC建模理论上可以让你学到一个很好的结果，那么你可以尝试，什么样的建模单元能够减小语音识别率。

那么，第三点，我觉得也有启示性价值，近万小时的训练条件下产生了过拟合，过拟合是我在CNN和DNN训练中没有看到的。但是对CTC，对目前的学习，我发现了过凝和，那这是很好的效益，说明继续加数据对算法还是会用提升的。

第四点，语音识别的深度学习技术呢，我觉得就向极致计算去发展，那整个工作最核心的价值是计算能力，当年的DNN能够成功是挖掘了GPU，我们现在要挖掘的是把GPU的能力挖掘到极致，会有多个GPU去并行运算，更大规模的并行运算实际上是能推生这个的发展。

朱频频

小i机器人创始人、总裁兼首席技术官

寄语：

在静沙龙的时候就很惊诧于群主广泛的信息来源和对人工智能的关注力。人工智能是需要长期积累的，不是一个赚快钱的行当，也不希望这个行当成为某些人忽悠钱的工具。我希望【新智元】能够和很多愿意扎扎实实做好技术、踏踏实实做好企业、诚诚恳恳做好个人的朋友们一起，为中国的人工智能事业做出坚实的贡献。

_______________

限时干货下载（Top 5）2015/11/1前

进入新智元订阅号，点击【干货下载】获得

1. Understanding Machine Learning：From Theory to Algorithms

2. Deep Learning：From AI to True AI

3.【安信证券】人工智能：现代科学皇冠上的明珠

4.【百度徐伟】视觉、语言与人工智能展望

5.【揭秘】微软亚洲研究院机器学习在做什么？

......（还有很多）

最热文章分享（Top 5）

进入新智元订阅号，回复【最热文章】获得

1. Deep Learning：From AI to True-AI

2. 图像识别：全球顶级计算机视觉专家华山论剑实录

3. 腾讯17年核心技术干货大放送【118PPT珍藏版】

4.【百度徐伟】视觉、语言与人工智能展望

5. 人类和机器人乱搞，会带来什么灾难？

你可能感兴趣的:(【百度贾磊】汉语语音识别技术重大突破：LSTM+CTC详解（22PPT）)

美国为什么总是要做世界卫视——小米su7未交付的用户可以直接转yu7，大家怎么看？分享是一种传递，一种快乐杂学百货铺-啥都学 bug
美国公布打击伊朗巨型钻地弹试爆画面：钻入地面爆炸迸出刺眼火光重量超13吨(baidu.com)编辑百度首页编辑设备学院一图｜小米首款SUV卖25.35万元，贵吗？澎湃新闻2025-06-2621:46
51单片机lcd1602第一行黑块问题 Plan-C- 51单片机嵌入式硬件单片机
在学习51单片机lcd1602显示模块时（ByB站@江协科技）遇到的问题：第一行显示为黑块在网上查找解决方法，有人通过使用杜邦线或按牢接口解决了问题（接触不良），解决无果后去普中官网找到了对应的百度网盘链接，官方的LCD1602实验代码解决问题。链接：https://pan.baidu.com/s/1z9J1yIzZDwhWwYrYAZRy-Q提取码：1602--来自百度网盘超级会员V4的分享
【Unity热更新下载】Unity 从远程服务器上加载 AssetsBundle 资源到代码中 Unity数字工匠 unity 热更新服务器下载服务器
在现代游戏开发中，热更新是提升用户体验的重要手段之一。通过热更新，开发者可以在不重新发布游戏的情况下，更新游戏内容或修复问题。Unity提供了AssetBundle技术，允许开发者将资源打包并动态加载。本文将详细介绍如何从远程服务器上加载AssetBundle资源到Unity项目中。一、什么是AssetBundle？AssetBundle是Unity提供的一种资源打包格式，允许开发者将游戏中的资源
微信办公泄密频发？企业如何兼顾效率与安全？如方工程文控给出答案！ Ru_fang 安全网络大数据
引言在数字化办公日益普及的今天，信息安全管理成为企业不可忽视的重要课题。尽管便捷的即时通讯工具为工作带来了效率提升，但随之而来的数据泄露风险也日益凸显。近期，某单位因员工通过微信传输涉密文件导致全员追责的事件，再次为企业敲响了警钟。如何在享受移动办公便利的同时，有效规避信息安全风险？工程文控系统通过技术手段为企业构建了可靠的安全防护体系。一、移动办公的潜在风险：常见误区剖析1.“私发或群发无风险”
关于HTML/CSS/JS常见兼容性整理 _Daniel_
13标准网页布局的兼容性处理标准网页设计的最大挑战不在于技术本身，而在于浏览器兼容性处理。所谓浏览器兼容问题，就是当我们使用不同的浏览器（如IE7、IE6、Firefox等）访问同一个页面时，可能会出现不一致的情况，出现这种现象的原因有很多种，但根本原因就是浏览器对于技术支持的标准不同造成的。IE浏览器对于标准技术的支持是很不完善的，这些问题可以分为两种：一种是IE支持某种技术或功能，但是实现该功
Vue3 Lifecycle Hooks
Vue3生命周期钩子详解Vue3的生命周期钩子分为OptionsAPI和CompositionAPI两种使用方式，核心流程相同但语法有差异。以下是完整生命周期流程和每个钩子的详细说明：CompositionAPI生命周期流程图实际参数{{count}}import{ref,onBeforeMount,onMounted,onBeforeUpdate,onUpdated,onBeforeUnmoun
浙大IInftyThink（无限深度推理引擎）原理解析及应用场景 DK_Allen 大模型 InftyThink
InftyThink（无限深度推理引擎）是由浙江大学与北京大学联合研发的大模型推理范式创新，通过“分段思考+中间总结”机制突破传统模型的上下文与计算瓶颈。以下从技术原理、核心优势到应用场景进行系统分析：⚙️一、技术原理：分步迭代与动态内存管理1.分段推理与中间总结（迭代式推理）流程拆解：将长推理任务（如数学证明）分解为多个短片段（默认≤4Ktokens），每段生成有限长度的推理内容和精炼总结。信息
Python 爬虫实战：从图片网站抓取图片并进行特征提取（2025 最新版） Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 github chrome 数据库
一、引言在当今的数字时代，图像数据在各个领域中扮演着至关重要的角色。无论是计算机视觉、机器学习，还是数据分析，图像数据的获取和处理都是基础。然而，获取大量高质量的图像数据并非易事。幸运的是，互联网上充斥着丰富的图像资源，只需借助合适的工具和技术，我们就能高效地从中获取所需的图像数据。本文将详细介绍如何使用Python构建一个完整的爬虫系统，从图片网站抓取图像，并对其进行特征提取。我们将涵盖从网页分
马拉车算法史诗：最长回文子串的镜城传奇一只咸鱼大王故事版本数据结构与算法算法最长回文子串数据结构 C++字符串
镜城传说：马拉车大师的觉醒——最长回文子串史诗之旅完整版·故事×技术×哲学×代码第一章：迷雾之城·字符串的混沌时代在遥远的东方，有一座被浓雾笼罩的城市——镜城（MirrorCity）。这里没有镜子，却有无数对称的影子。街道、建筑、甚至语言都崇尚对称之美。但随着时间推移，镜城的语言逐渐失传，人们只能依靠残存的铭文寻找真理之门的线索——而这些铭文中隐藏着一个秘密：“唯有找到最长回文者，方能开启真相之门
Python 单例模式与魔法方法深度剖析：从原理到实践女码农的重启开发语言单例模式
在Python面向对象编程领域，单例模式和魔法方法是极具特色且功能强大的技术。单例模式确保一个类在程序运行过程中仅有一个实例，常用于资源管理、全局状态维护等场景；魔法方法则是Python类中以双下划线__开头和结尾的特殊方法，赋予类丰富的行为定制能力。本文将深入探讨二者的原理、实现方式、应用场景，以及它们之间的紧密联系。一、单例模式：实例唯一性的保障1.1单例模式的核心概念单例模式（Singlet
Cache与DB的数据一致性（缓存更新设计模式和操作顺序）
description:总结Cache与DB的数据一致性相关内容。缓存一致性的三个障碍当对主数据库的更改未反映在缓存中时更新缓存结果时出现延迟当缓存节点之间不一致时如何设计缓存更新模式？首先，提出我阅读相关文章时遇到的疑惑。当我使用搜索引擎（百度orGoogle）去搜索缓存与数据库的数据一致性如何保证时,我会看到三种结果：仅讲解先操作数据库or先操作缓存（最多）讲解四种缓存更新策略模式将上述两者结
商品中心—14.库存分桶初始化的技术文档东阳马生架构商品中心商品系统库存系统
大纲1.库存分桶缓存初始化时涉及的数据表2.库存分桶架构的初始化+扣减+上下线+扩容+下线+预警补货流程3.商品库存⼊桶流程概览4.商品库存分桶缓存初始化请求处理5.商品库存分桶缓存初始化的加分布式锁处理+插入库存变更记录6.商品库存分桶元数据本地+远程缓存查询7.商品库存动态分桶算法实现8.基于分桶算法结果构建库存分桶元数据9.剩余库存写入中心桶缓存+分桶库存写入分桶缓存+分桶元数据写入本地缓存
稳转细胞株构建全攻略：从理论到实践的生物制药核心技术解析北京义翘神州稳转细胞株构建服务
为何稳转细胞株成为生物制药领域的“兵家必争之地”？稳转细胞株被称为“药物研发的基石”，是单克隆抗体、双抗、疫苗、ADC等生物制品规模化生产的核心环节，还是药物生产成本、效率和质量的关键决定因素。一株高产稳定的细胞株有可能直接缩短药物上市周期3-5年。稳定细胞株因其稳定性高，适用于各种研究应用，包括重组蛋白、抗体生产、结构生物学和功能性研究等。那么，如何打造一株理想的稳转细胞株呢？义翘神州在重组表达
QNX + Android虚拟化方案深度解析：HQX Display与OpenWFD配置文件揭秘芯作者 DD：计算机科学领域 android
当QNX遇上Android的显示魔法在智能座舱、工业控制等场景中，QNXHypervisor通过虚拟化技术同时运行安全关键的QNX系统与用户交互的Android系统。而HQXDisplay作为显示核心引擎，基于OpenWFD标准（Khronos组织的无线显示开放标准）实现跨域渲染。本文将以qcdisplaycfg_ADP_STAR_LA.xml为例，深度解析其配置逻辑，揭示多屏协同背后的秘密！一、
DDD 分层架构实战指南：从项目结构到落地挑战
一、项目结构详解（以电商订单系统为例）src/main/java├──com.example│├──common#通用工具类、基础异常、常量│├──order#订单限界上下文（模块示例）││├──interfaces#用户接口层│││├──controller#HTTP/RESTAPI│││├──rpc#Dubbo/gRPC接口│││└──consumer#消息队列消费者（如Kafka监听）││├
Open AI在AI人工智能领域的技术安全防护体系 AI智能探索者 AI Agent 智能体开发实战人工智能安全网络 ai
OpenAI在AI人工智能领域的技术安全防护体系关键词：OpenAI、AI安全、技术防护、伦理框架、模型对齐、数据隐私、对抗攻击摘要：本文将深入探讨OpenAI在人工智能领域构建的多层次技术安全防护体系。我们将从基础概念出发，逐步解析OpenAI如何通过技术创新和系统设计来确保AI系统的安全性、可靠性和可控性。文章将涵盖从数据安全到模型对齐，从伦理框架到实际防护技术的全方位内容，帮助读者全面理解现
低代码平台架构设计 LINGYI_WEN 低代码前端开发语言
1.整体架构概述1.1技术栈选择前端：React+Redux/Vue+Vuex后端：Node.js+Express/SpringBoot数据库：MySQL/PostgreSQL/MongoDB云服务：AWS/Azure/GoogleCloud容器化：Docker+Kubernetes1.2模块划分前端模块：可视化编辑器：用于拖拽和配置组件预览器：实时预览页面效果发布器：将设计好的页面发布到生产环境
十年磨一剑，笔耕不辍：我的创作之路与质量工程情怀 blues_C 创作纪念日
十年磨一剑，笔耕不辍：我的创作之路与质量工程情怀前言机缘：从实战沉淀到知识共享收获：从数字增长到精神富足日常：创作，已是生活的一部分憧憬：深耕质量，智创未来前言时光荏苒，转眼间我的技术博客也迎来了又一个重要的里程碑。回首这些年与代码、与测试、与技术文字为伴的日子，心中充满了感慨与感恩。感谢CSDN这个平台，也感谢每一位阅读、点赞、评论和支持我的读者朋友。正是这份互动与认可，让我在这条创作之路上乐此
Java 编程之策略模式详解勤奋的知更鸟 Java java 策略模式设计模式
一、策略模式策略模式（StrategyPattern）是一种行为型设计模式，它将一组算法或行为封装成独立的类，使它们可以在运行时互相替换。这让你在使用它们时，无需关心内部实现，只要“调度策略”即可。外卖平台下单时，你可以选择专送、自取、商家送，每种方式都是不同的策略，但送达的目的相同。二、举例说明外卖的“配送方式”就是策略！在美团/饿了么平台点外卖时，配送方式多种多样：骑手专送：平台调度骑手商家自
数字ic后端设计从入门到精通9（含fusion compiler, tcl教学）setup time, hold time check lib/report详解 soulermax 单片机嵌入式硬件
checklib标准单元库中建立时间和保持时间约束的check格式用于数字IC设计中的静态时序分析（STA）。它定义了如何用表格形式表达触发器等顺序单元在不同输入信号和时钟转换速率下的建立和保持时间。（对应工艺角的lib文件）示例结构pin(D){direction:input;...timing(){related_pin:"CK";timing_type:"setup_rising";rise
数字ic后端设计从入门到精通8（含fusion compiler, tcl教学）ULVTLL、LVT、ULVT详解及应用 soulermax 硬件架构
LVTvsULVTvsULVTLL：从PPA、成本的角度出发比较维度LVTULVTULVTLL阈值电压(Vth)中等低极低但经过优化减少泄漏开关速度中等快略慢于ULVT但优于LVT驱动能力较低高较高，略低于ULVT漏电流较低高显著低于ULVT动态功耗中等低低静态功耗低高低面积小小略大（因需额外技术减少泄漏）延迟中等到高低略高于ULVT但低于LVT适用场景常规路径关键路径对功耗敏感的关键路径成本相对
KVM 虚拟化技术性能测试与调优 wespten OpenStack vSphere 虚拟化云平台 SDN 服务器测试工具运维
系统虚拟化有很多的好处，如提高物理资源利用率、让系统资源更方便监控和管理、提高系统运维的效率、节约硬件投入的成本等等。那么，在真正实施生产环境的虚拟化时，到底选择哪种虚拟化方案呢？选择商业软件VMwareESXi、开源的KVM和Xen，还是微软的Hyper-V，或者有其他的虚拟化方案？在进行虚拟化方案的选择时，需要重点考虑的因素中至少有两个至关重要：虚拟化方案的功能和性能，这二者缺一不可。功能是实
搞笑Java工程师面试：从基础到高并发，大厂技术总监直击水货本质搞Java的小码农 Java技术场景题 Java 面试技术高并发微服务分布式 Redis
搞笑Java工程师面试：从基础到高并发，大厂技术总监直击水货本质场景设定在一个位于硅谷某栋现代化办公楼的会议室里，气氛庄重而专业。面试官李工是一位经验丰富的技术总监，他身穿整洁的西装，神情严肃，手中拿着一份详尽的面试提纲。对面的求职者小兰则显得自信满满，穿着时尚，带着一点漫不经心的神情，准备接受这场“挑战”。第1轮：Java核心、基础框架与数据库问题1：Java中的ConcurrentHashMa
【LangChain编程：从入门到实践】AI 大模型检索增强生成 RAG 实践 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LangChain编程：从入门到实践-AI大模型检索增强生成RAG实践关键词：LangChain,RAG,大语言模型,检索增强生成,向量数据库,嵌入模型,提示工程1.背景介绍在人工智能和自然语言处理领域,大语言模型(LargeLanguageModels,LLMs)的出现无疑是一个重大突破。像GPT-3、GPT-4这样的模型展现出了惊人的语言理解和生成能力,为各种应用场景带来了无限可能。然而,这些
Redis缓存穿透、击穿、雪崩解决方案详解码农小灰 java 面试题 redis 缓存 redis 数据库
目录一、引言二、缓存穿透：如何阻挡不存在的请求？1.定义与成因2.解决方案(1)缓存空值(2)布隆过滤器（BloomFilter）(3)参数校验三、缓存击穿：如何保护热点数据？1.定义与成因2.解决方案(1)互斥锁（分布式锁）(2)逻辑过期(3)缓存预热四、缓存雪崩：如何应对集体失效？1.定义与成因2.解决方案(1)随机过期时间(2)熔断与限流(3)高可用集群五、实际案例分析案例1：电商库存缓存穿
Java 程序员必备的 26 个 Linux 命令，常用 + 面试两手抓库库林_沙琪马 Linux linux 面试运维
有人问我：日常开发中最常用的Linux命令有哪些？我不假思索地就列出了26个，涵盖开发、调试、运维场景，每一个都值得收藏+实战。内容速览26个高频Linux命令详解面试官常问的重点命令实操建议&学习指引一、开发者高频使用的26个Linux命令1️⃣cd-切换目录cd/usr/local/bincd..cd~Tips：~表示当前用户主目录，..表示上级目录。2️⃣mkdir-创建目录mkdirmyd
基于深度学习的线上问诊系统设计与实现（Python+Django+MySQL）神经网络15044 深度学习算法神经网络 python 深度学习 django 机器学习人工智能算法目标检测
基于深度学习的线上问诊系统设计与实现（Python+Django+MySQL）一、系统概述本系统结合YOLOv8目标检测和ResNet50图像分类算法，构建了一个智能线上问诊平台。系统支持用户上传医学影像（皮肤照片/X光片），自动分析并生成诊断报告，同时提供医生审核功能。二、技术栈后端框架：Django4.2数据库：MySQL8.0深度学习：YOLOv8：皮肤病变区域检测ResNet50：肺炎X光
国内仍然可用docker镜像源汇总，长期维护，定期更新（2025年5月26日）夏boss Docker docker 容器
文章目录可用镜像：测试镜像是否可用使用方法1、临时配置2、永久配置linux配置镜像源Windows/Mac配置镜像源本文提供多个目前可正常访问的Docker镜像，解决Docker拉取镜像失败的问题。并提供镜像源使用方法，包括Linux/Windows/Mac系统设置。所有镜像仅供学习使用，禁止不当使用。由于一些未明确的原因，各大高校及容器技术社区纷纷关闭多个镜像加速站点，对于我们这种正规的用户来
25年银行行业java后端常问高频面试题小凡敲代码 java java后端 java面试 Java面试题互联网大厂 Java八股文后端开发
一、技术八股文高频题（银行侧重点）1.Java基础&并发编程HashMap在JDK1.8中的优化？ConcurrentHashMap如何保证线程安全？银行系统对线程安全要求极高，需深入理解CAS+synchronized的实现细节。synchronized和ReentrantLock的区别？银行系统更推荐哪种？银行系统倾向ReentrantLock（可中断、公平锁），需解释AQS原理。Thread
C++,Rust开发智慧学校创建APP Geeker-2025 c++rust
以下是为使用**C++与Rust开发智慧学校创建APP**设计的完整技术方案，结合两种语言的优势构建安全、高效的教育生态系统：---###**技术栈分工**|**技术**|**核心优势**|**在智慧学校APP中的应用**||----------|--------------------------|----------------------------------------||**C++**
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它