LiveVideoStack_

基于深度学习的实时噪声抑制——深度学习落地移动端的范例

在实时通讯技术迅猛发展的今天，人们对通话时的降噪要求也不断提高。深度学习也被应用于实时的噪声抑制。本次LiveVideoStackCon 2021 上海站中，我们邀请到了声网Agora音频算法负责人冯建元老师为我们分享深度学习落地移动端的范例，遇到的问题和未来的展望。

文 / 冯建元

整理 / LiveVideoStack

尊敬的各位来宾大家好，我是来自声网的冯建元。今天给大家介绍一下我们在如何基于深度学习做实时噪声抑制，这也是一个深度学习落地移动端的范例。

我们就按照这样一个顺序来进行介绍。首先噪声其实是有一些不同的种类，它们是如何进行分类的，如何选择算法并怎样通过算法去解决这些噪声的问题；另外，会介绍如何通过深度学习的方式去设计一些这样的网络，如何通过AI的模型去进行算法的设计；另外，我们都知道深度学习网络的算力，模型不可避免的都会比较大。我们在落地一些RTC的场景时，不可避免会遇到一些问题，有哪些问题是需要我们解决的，如何解决模型大小的问题、算力的问题；最后会介绍目前降噪能达到什么样的效果和一些应用的场景，以及如何能将噪声抑制等做得更好。

01.噪声的分类与降噪算法的选择

先了解下我们平时的噪声都有哪些种类。

其实噪声不可避免的会跟着你所处的环境，所面临的物体都会发出各种各样的声音。其实每一个声音都有自己的意义，但如果你在进行实时沟通时，只有人声是有意义的，那其他声音你可能会把它认为是噪音。其实很多噪声是一个稳态的噪声，或者说平稳的噪声。比如说我这种录制的时候可能会有一些底噪，你现在可能听不到。比如说空调运行时会有一些呼呼的风声。像这些噪声都是一些平稳的噪声，它不会随着时间变化而去变化。这种可以通过我知道这个噪声之前是什么样的，我把它estimate出来，就通过这样的方式，在之后如果这个噪声一直出现就可以通过很简单的减法的方式把它去掉。像这种平稳的噪声其实很常见，但其实不是都那么平稳，都能那么方便的去去除。另外，还有很多噪声是不平稳的，你不能预测这个房间里会不会有人突然手机铃声响起来了；突然有人在旁边放了一段音乐或者在地铁、在马路上车子呼啸而过的声音。这种声音都是随机出现的，是不可能通过预测的方式去解决的。其实这块也是我们会用深度学习的原因，像传统的算法对于非稳态的噪声会难以消除和抑制。

在使用场景上来说，就算你是很安静的会议室或者在家，可能也不可避免的会被设备引入的一些底噪或一些突发的噪声都会产生一些影响。这一块也是在实时通讯中不可避免的一道前处理的工序。

抛开我们平时会碰到的这些噪声在感官上的理解。看到它在数字方面，在信号层面是一个怎么样的表现。噪声，声音都是通过空气的传播介质的传播最后到你耳朵里，通过你耳毛的感应，最后形成心里的感知。在这些过程中，比如我们采用一些麦克风的信号，在一些采集的时候它是一个wave的信号。它是一些上下震荡的一些波形。那如果是干净的人声，他说话的时候会看到一些波形，他不说话的时候基本就是0，那如果加上一些噪声它就会变成右边一样，会有波形上的一些混叠，噪声的震动会和人声的震动混叠在一起，会有一些模糊不清。即使不在说话也会有一些波形。这是直接从wave信号的层面，如果说把它通过傅里叶变换，变到频域上来看，在不同的频率上，人声的发音一般在20赫兹到2k赫兹之间，人还会有基频、振峰、谐波的产生。你可以看到人在频谱上是这样一些形状，但是你加上噪声会发现频谱变得模糊不清，频谱不该出现能量的地方有很多能量。

做噪声抑制其实就是做一个inverse，一个反向的过程。把这些时域的信号通过一些滤波的方式变成一个纯净的信号。也可以通过频域的方式把这些嘈杂的噪点去掉，形成一些比较纯净的语料。

降噪这种算法很早之前就有了，在贝尔实验室发明电话的时候就发现噪声会有很大的通信的影响。不同的信噪比会导致由于香农定理影响你的带宽，你是一个纯净的信号甚至可以用比较小的带宽进行一个传输。在2000年之前我们可以把这些算法统称为，知之为知之。

第一块，它们主要针对比较稳态的噪声就是Stationary Noise，为什么叫知之为知之呢，就是你不再说话没有人声的时候就只有噪声，另外你去通过静音段噪声的捕捉去构建出噪声的一些分布。因为它是稳态的噪声，它随着时间的变化也没有那么剧烈，以后就算是有人声了，你也可以通过你estimate好的模型去进行一些谱减或者是维纳滤波的方式解决。像这种Stationary Noise是因为一开始我们的元器件有很多底噪，所以他们第一个会干掉这种Stationary Noise的噪声。其实方法来说就是一些谱减法、维纳滤波，后来可能有高级一点波差、小波分解，这些方法都万变不离其宗，它会通过静音段estimate它的这样的noise，在以后的过程中就可以通过一些谱减的方法来解决。

慢慢大家会发现除了Stationary Noise其实平时通话中想要只保有人声，其他的噪声也要处理，这块到了2000年之后我们会说，因为其实人的声音的分布和风的声音的分布是不一样的，有些风声经过麦克风的，比如我这样吹的，低频部分可能会高一些，高频部分可能衰减的更快。其实都是通过聚类的方式可以把人声和噪声分解开来，主要的思想都是把声音的信号投射到更高维的空间进行聚类，聚类的方式就会有些自适应的方法慢慢可以去使用，也类似于深度学习的前身，会把声音分成不同的种类，在高维空间进行降噪时把符合人声的特点保留下来，其他部分舍去就可以做到。这块方法来说比如Subspace 空间分解，在图像领域大获成功，在音频领域去风噪也比较好的非负矩阵分解。再比如说不止一种噪声，要分解出好多种噪声，像字典学习这种方式也是可以做的。

像常见的一种噪声我们把它叫Non-Stationary Noise with Simple Patterns，是不稳定的噪声，像呼呼的风声，但它可能有固定的模式。比如呼呼的风声有时出现有时没有出现，但它是遵循风的低频比较密集等等这种特征。其中是可以通过一个一个去学习，比如风声、雷电的声音、底噪的声音等等，可以通过学习的方式去实现。现在我们发现，物以类聚的话，噪声的种类是无穷无尽的，每一种机械每一种摩擦每一种风吹过的声音导致的涡流可能都是不一样的。在这种情况下很多噪声混叠我们无法去穷尽，这时候我们就想到通过大量数据去训练一个模型，这样采集到的噪声也好人声的混加也好，能过通过不断的去学习，我们叫它熟能生巧2020。通过训练的方式，通过大量的数据样本，能让模型学到足够的知识，对噪声更加鲁棒，不用一个一个去做分解。

按照这样的思路，已经有很多深度学习的模型可以做到这样噪声的抑制，同时保证它对不同的噪声都有抑制效果。

很多噪声不是单一存在的，尤其是一些复合的噪声。比如你在一个咖啡馆里可能会听到那些觥筹交错的声音混杂着各种人在聊天谈话的声音。我们把背景的人声叫Babble noise，Babble就是呢喃的声音，这种背景的噪声你也是想去掉的。多个声音混杂在一起你就会发现它的频谱就像洪水过路一般所有东西都混杂在里面，会很难去去除。如果你用传统的算法，它把明显的人声会保留，比较高频的混叠会更加严重，其实很难去区分开，它把在4k以上的高频统一当成噪声去除掉了。这是传统降噪方法的一些缺陷。

像深度学习的方法，判断一个降噪方法的好坏主要是两点：

第一点，对原声人声的保留程度是怎么样的，是不是对语谱的损伤尽量的小。

第二点，把噪声去得尽量的干净。

满足这两点，右边是深度学习的方法，语谱在高频也可以得到保留，同时噪声也没有混杂在其间。

02.基于深度学习的算法设计

现在针对深度学习方法怎样去设计。

和其他深度学习一样也会包括这几个步骤。

第一步，喂给模型什么样的输入，输入可以去进行选择，我们的声波信号可以通过wave的形式通过频谱的形式或者是更加高维的MFCC的形式甚至心理听阈BARK域的形式去给到它。不同的输入决定了你的模型采用的结构也不一样。在模型结构上，可能会选择类似图像的，如果是频谱可能类似CNN的方法去做。声音是有一定时间连续性的，你也可以通过waveform直接去做。这块选择不同的模型结构，但是我们发现在移动端的时候，也会受到算力和存储空间的限制，可能会对模型进行一些组合，不是用单一的模型去做。在模型的选择这块会有所考量，另外一块也会比较重要就是选择一个合适的数据去训练模型。

训练模型的过程比较简单，就是把人声信号和噪声信号混在一起喂到程序里，这样模型会给你一个纯净的人声信号。这时就会选择我这个数据是不是为了cover所有不同的语言，上一个会议上也提到不同的语言组成的因素也是不一样的，比如中文会比日文多五六个音素，如果是英文还有五六个音素和中文是不一样的，为了cover住这些的语言可能会选择多语言的数据。另外一块性别也是不一样的，如果语料训练不够均衡，对男声和女声的降噪能力可能有所偏差。另外噪声上的类型可能会有一些选择上的考虑，因为不可能把所有噪声都穷尽，所以会选择一些typical noise。这边大概罗列出来，不同Feature 的选择，模型的设计，以及数据的准备回来看看要注意哪些方向。

我们先看一下我们会选择什么样的数据给到模型。

第一个考虑的是把最原始的wave信号做一个端到端的处理生存一个wave信号。这个想法一开始的时候是被否定的，因为wave信号和它的采样率有关，可能16K的采样率1帧10毫秒会有160个点，数据量非常庞大如果直接喂的话可能导致模型处理需要很大一个模型才能handle。我们在之前就在想能不能转化成频域，在频域上做能减少数据的输入。在17、18年之前都是在频域上去做这个事情，但是在2018年像Tasnet模型已经能通过时域端到端的去生成降噪的一个效果。

频域可能会更早一些，之前在频域上做噪点的去除，通过掩码的形式去解决噪声的问题。比如把噪声的能量去除掉只保留人声的能量。

19年有一篇paper做了一个比较，无论从时域还是频域都可以得到一个比较好的降噪效果，而且模型计算复杂度不是相当的。这个输入信号不会很大程度上决定你模型的算力或者效果，就是可以的。

在这个基础上，时域频域都是可以的话，我们想要进一步减少模型的算力可能需要选用一些高维度像MFCC这种形式去做，这块也是一开始设计模型考量的地方。根据算力限制，本来200多个频点到MFCC只有40个bin，这样就可以减少输入。因为声音存在一些遮蔽效应你可能把它分成一些足够细小的子带就能做到噪声抑制的作用，所以也是行之有效能减少模型算力的方法。

刚刚是讲到信号的输入，在做模型结构选择的时候也会有很多对模型结构算力的考量，可以把模型算力的复杂度和模型参数量画一个XY轴去表正。像一些CNN方法，因为是卷积的存在，里面很多算子是可以复用的，卷积核可以在整个频谱上复用。这种情况下，在同样参数结构中它的算力复杂度会最高，因为它是复用的它的参数量就很小。如果一些手机APP对参数量有限制，比如手机APP不能大于200M可能模型给你的空间就1-2兆，这种情况下尽量选择CNN模型。

参数量并不是一个很大的限制而运算力可能会受到一些挑战，比如一个算力较差的芯片，只有1GHz。这时卷积神经网络的方式并不是适合的，这时可能是用一些linear 这种层来表征，所以linear 也是矩阵乘。矩阵乘在一些DSP芯片和传统CPU方面表现的算力都不是很高，缺点是每个算子是不可复用的。这种情况下参数量比较大，但计算力上可能会更加的小。但只用linear这种方式就像DNN一样只有linear 层，就是它参数很大算力也很大。

前面提到人的说话时间是有连续性的，可以用RNN这种有短时或长时记忆的这种方式，把参数通过实时的自适应去记忆出当前噪声的状态，这样可以进一步减少它的算力。

综合下来说，当你选择模型时尽量少去使用linear layers，这种会带来很大参数量的提升和算力的提升。你可以去融合这些不同的结构，比如先用CNN再用RNN这种CRN的形式，那它第一步通过压缩你输入的维度，再通过长短时记忆的方式，把模型算力进一步的减少。

根据不同场景，如果做离线的处理，可能使用双向的人工神经网络去做效果可能是最好的。在RTC场景中不能去增加延迟。像LSTM这种单向型的网络可能更加合适。如果想进一步减少算力，三个门的LSTM还是太大那就用两个门结构的GRU等等，在一些细节上提升算法的能力。

怎么选择模型结构和使用场景和算力有关。另外一块就是怎么选择喂到模型的数据。数据里面一块是语谱的损伤，要准备更充分干净的语料，里面包括不同的语言、性别，以及语料本身可能含有底噪，尽量选择录音棚消音室录的比较纯净的语料。这样你的reference决定了你的目标可能是比较纯净的，效果会更好一些。

还有一块是能不能cover住噪声，噪声是无穷无尽的，可以根据你的场景，比如会议场景选择一些比较典型的办公室里的人声、手机提示音等等，这些作为训练语料。其实很多噪声是简单噪声的一些组合，当简单噪声数量足够多的时，模型的鲁棒性也会提升，哪怕是一些没有见过的噪声也能cover。噪声有时不能收集的话可以自己做一些，人工合成一些，比如日光灯管、辉光效应造成的杂音、50赫兹的交流电时时刻刻都在释放50赫兹、100赫兹的谐波的噪声。这种噪声可以通过人造的方法去加入训练集里面提升模型的鲁棒性。

03.RTC移动端困境

假设我们已经有一个比较好的模型了，在落地时会遇到哪些困难呢？

在实时互动的场景中，首先它有别于离线的操作，对实时性的要求更高，它要求逐帧计算，非因果不可用，未来的信息是无法去获得的，这样的场景下一些双向的神经网络不可用。

另外要去适配不同的手机、不同的移动终端，这里面受到各种芯片算力的影响，如果想使用更加广泛模型算力会有限制同时模型参数大小也不能过大，尤其是调用芯片是模型参数量很大算力不是很高，但是由于参数的读取IO的操作也会影响到模型最终表现。

场景的丰富性刚才也有提到，一些比较成功的，不同语音比如中英文、日文的cover程度以及噪声的类型。在实时互动场景中不可能让每一个人都在同一个场景说同样的话，场景的丰富性也要考虑其中。

04.如何落地移动端

在这样一些条件下，如何去落地深度学习呢？我们可以从两个方面去解决这些问题。

首先，算法方面可以通过算法突围的方式。刚刚有提到一点，像全卷积的、全linear的，对它的参数对它的算力都有不同，可以通过不同模型的组合，针对不同算力可以组合出不同算力的结构。效果来说可能会有一些偏颇差异，什么样的机型能适用什么样的算法，可以通过这样的模型结构来解决，整体来说是一个组合式的算法，通过模型组合使它的算力能尽量满足它的芯片和存储空间的要求。

第二，整个算法的场景是不一样的，所以会选择不一样的模型去解决，在一开始如果能够选择出场景，比如会议场景，不可能会有音乐、动物的叫声，这些噪声指标就不用特别关注，这些东西可以作为模型裁剪的方向。

算法本身可能模型就是这么大，出来还是一个5-6兆的参数，你可能觉得它还是不够。或者说它的算力在移动端不进行优化，它在内存的调用，芯片存储cache的方面可能都会有问题。会影响到它在推理过程中，实际使用过程中的结果，明明在训练时跑的是ok的，但在落地不同芯片时跑的是不一样的。

在工程上也会进行突围，主要针对模型推理以及一些处理的方式会有所不一样。首先在模型方面会做一些算子的优化，在训练搭建模型的时候都是一层层加上去的，但很多算子可以进行一些融合，包括算子融合、凸优化。一些参数做模型的剪枝、量化，这些都是可以进一步减少模型的算力以及参数量的大小。

第一步就是对模型进行一些裁剪量化，这一块已经能做到让你的模型是最优的最符合场景的。另外在不同的移动终端它的芯片也是不一样的，有些手机可能只有CPU有些好点的手机会有GPU NPU甚至会有的DSP芯片甚至能开放它的算力。

这块我们能更好的去适应芯片，会有一些不同的推理框架，各家都会有一些比较开源的框架可以去使用，比如苹果的Core ML、谷歌的TensorFlow Lite，它会把芯片调度编译层的优化做在里面。在这步上来说，做和不做差异是非常巨大的，因为整个算法怎么运算是一回事，怎么做内存调用、矩阵的计算、浮点计算还是另一回事。做工程化的优化，这种效果可能是百倍的提升。优化可以用开源的框架去做，也可以自己做一些编译的优化，如果你对芯片的算力比较熟悉，比如不同的cache的怎么调用，它的大小是什么，你可以自己去做。可能你做出来的结果比这种开源的框架更有针对性，效果会更好。

在我们把模型和推理引擎整合起来之后，就是我们最后的产品，我们几乎能在所有的终端做好适配，在所有芯片上完整工程化的一个产品，这样能实时使用。

05.降噪demo试听

我们现在听一听降噪效果是什么样的。

这边罗列了几种比较常见的噪声。

我们先听键盘上的原声，再听键盘降噪的效果。键盘声基本上都已经被消除掉了。

风声我们来听是这样子的，这是一段德语在风声中的演讲。来我们听听降噪后的效果。

地铁也是一个比较常见的场景，我们听听原声，这其实是我在上海地铁10号线在念一段诗。我们听听降噪的一个效果。

车内噪声，比如出租车上的一个噪声，我们听一下。我们听听晕车大哥在降噪后的效果，这是我们实际在出租车上录下来的一段语料，并将整个机器引擎的噪声都把它去掉了。

06.Can we do it better？

听完这些demo后，看看我们能做什么让效果变得更好，场景变得更多一些呢？

我们还有很多难以解决的问题。包括一些音乐信息的保留，如果你是在一个音乐场景去开降噪，你会发现伴奏都没有了只剩下人声，这些场景可能会通过更精细化的方式，比如音源分离的方式，能不能把乐器的声音也保留，但有些音乐听上去像噪声是比较难以解决的一个领域。另一块像人声、像Babble noise，背景的这种噪声有时和人声比较难以区别，尤其像鸡尾酒效应，大家都在说话，通过AI判定哪个人说话是真正有效的是比较难。噪声抑制，比如说我们做的都是单通道的，采用一些麦克风阵列可能会做一些指向性的降噪，但这些也是一个比较难的地方，什么声音值得保留，人声和背景声如何分辨这块也是比较难的方向，这也是未来我们会去探索的一个比较明确的方向。

我的分享就到这里，谢谢大家。

The cover from creativeboom.com

讲师招募 LiveVideoStackCon 2021 北京站

LiveVideoStackCon 2021 北京站（9月3-4日）正在面向社会公开招募讲师，欢迎通过 [email protected] 提交个人及议题资料，无论你的公司大小，title高低，老鸟还是菜鸟，只要你的内容对技术人有帮助，其他都是次要的，我们将会在24小时内给予反馈。

我的编程学习之旅 Stars·ꦿ໊ོ 学习
大家好，我是一名编程领域的初学者，怀揣着对代码世界的无限热忱，踏上了这充满挑战与惊喜的学习之路。我并非本科出身，在过往的学习，逐渐被编程的魅力所吸引。日常里，我喜欢拆解电子产品、探究其原理，这份好奇心也驱使我深入代码的海洋，期望能从软件层面创造更多“奇迹”。如今，我选择从C语言开始敲开编程世界的大门，它作为一门基础且强大的编程语言，有着广泛的应用场景，无论是底层系统开发、嵌入式编程，还是对理解计算
堆数据结构：从基础原理到高效算法实现的技术探讨 Everyrt 课程设计
摘要堆作为一种特殊的树形数据结构，在多种算法场景中发挥着核心作用。本文深入剖析堆的基础原理，详细阐述堆的构建、插入、删除等操作的实现细节，并探讨其在优先队列、堆排序等高效算法中的应用，助力读者全面掌握堆数据结构及其应用技术。一、引言堆数据结构以其独特的特性，能够高效地获取集合中的最大（或最小）元素。无论是操作系统中的进程调度，还是搜索算法中的最优解筛选，堆都扮演着不可或缺的角色。理解堆的原理与实现
蓝桥大使【算法赛】----贪心算法 wyshh119 算法学习贪心算法
这里比较的难点在于sort排序的根据是什么，为什么是两人的报酬差，我的理解是当两人报酬差越大，那么总报酬的损失就越大，其实是缺少具体的证明的，但是通过就说明确实是这样。也就不深究证明了。#include#includeusingnamespacestd;longlongans=0;constintN=100005;structnode{//结构体inta;intb;};nodea[N];intma
算法设计与分析4（变治法） songx_99 算法设计与分析算法
变治法将问题转化为一个或数个有一定关联当形式上不同的更加简单或更加好解决的子问题。变治法的应用：预排序思想用预排序可以简化许多问题，如检查元素唯一性，检查出现次数最多的元素等堆算法堆的定义首先它是一个完全二叉树，完全二叉树表明树的每一层都是满的，只有最后一层最右边的元素有可能缺位。且父结点的值大于它的两个子节点，则称是一个大根堆，若值小于两个子节点，称小根堆堆化有向下调整，向上调整两种，大致思路相
动态规划算法--找零方式大王算法数据结构和算法实战宝典算法动态规划 c++
一、问题介绍给定数组arr，arr中所有的值都为正数且不重复。每个值代表一种面值的货币，每种面值的货币可以使用任意张，再给定一个整数aim，代表要找的钱数，求所有的找零方法有多少种。二、算法思路枚举法，列出使用某张钞票n次的所有可能。1、暴力递归intprocess1(intn,intarr[],intindex,intrest){if(index==n)returnrest==0?1:0;int
位图思想详解：用一个小小的比特征服整个世界 Joseit 优选算法 java 算法
位图思想详解：用一个小小的比特征服整个世界一、什么是位图？二、位图的形象理解三、位图的Java实现四、位图的算法原理剖析五、实际应用案例：网站用户活跃度统计五、真实的应用场景：布隆过滤器的基础六、算法题：判断字符是否唯一（easy）一、什么是位图？位图是一种超级节省空间的数据结构，他利用二进制位（0/1）来表示某个元素是否存在或某种状态是否为真。想象一下，用一个小小的比特位就能记录一个信息，这简直
给普通人看的深度学习说明书：用快递系统理解AI如何思考嵌入式Jerry Python AI 人工智能深度学习
第一章：理解AI的思维方式（快递版）1.1快递分拣站的故事假设你管理一个快递分拣站：传统方法：手动制定规则（比如根据邮编分拣）机器学习：观察老员工的分拣记录，总结规律深度学习：搭建自动分拣流水线，自主发现隐藏规则1.2神经网络就像智能分拣机传送带（输入层）：接收包裹信息（图片像素/文字等）#就像扫描快递单input_data=[0.2,0.7,0.1]#归一化后的特征数据分拣工人（隐藏层）：每个工
简单理解机器学习中top_k、top_p、temperature三个参数的作用无级程序员机器学习人工智能
在机器学习中，top_k、top_p和temperature是用于控制生成模型（如语言模型）输出质量的参数，尤其在文本生成任务中常见。然而，网上文章很多很全，但大多晦涩难懂，今天我们来用最简单的语言谈谈它们的具体作用：1.点菜式筛选法：top_k参数英文全称：top-k中文名称：前k个具体意义：top_k参数就像是你在餐厅点菜时，服务员只给你推荐菜单上前k名的招牌菜。在AI文本生成中，top_k参
PCL基础：pcl::SACSegmentation＜PointXYZRGBN＞函数全面说明，一遍文章精通平面分割算法多宝Kim #PCL点云库使用笔记 c++算法 windows visual studio
创作不易，如果本篇文章能够给你提供帮助，请点赞鼓励+收藏备查+关注获取最新技术动态，支持作者输出高质量干货！（一般在周末更新技术干货）`pcl::SACSegmentation`是PointCloudLibrary(PCL)中用于进行随机抽样一致性（RandomSampleConsensus，RANSAC）平面分割的类模板，模板参数`PointXYZRGBN`表示点云中点的类型，该类型包含三维坐标
算法及数据结构系列 - 动态规划诺亚凹凸曼算法及数据结构算法数据结构动态规划
系列文章目录算法及数据结构系列-二分查找算法及数据结构系列-BFS算法文章目录框架思路子序列问题解题模板一维dp数组二维dp数组经典题型322.零钱兑换暴力递归带备忘录的暴力递归动态规划300.最长上升子序列1143.最长公共子序列72.编辑距离框架思路动态规划问题的一般形式就是求最值。动态规划其实是运筹学的一种最优化方法，只不过在计算机问题上应用比较多，比如说求最长递增子序列，最小编辑距离等等。
解析大模型归一化：提升训练稳定性和性能的关键技术秋声studio 口语化解析深度学习人工智能大模型归一化
引言在深度学习领域，特别是在处理大型神经网络模型时，归一化（Normalization）是一项至关重要的技术。它可以提高模型的训练稳定性和性能，在加速收敛方面发挥了重要作用。本文将深入探讨大模型归一化的原理、常见方法及其应用场景，并结合实际案例和代码示例进行说明。一、归一化的作用与理论基础归一化的主要目的是为了提高模型的训练稳定性和性能。具体来说，归一化有以下几个关键作用：提高训练稳定性：在神经网
深度剖析哈希表数据结构：原理、冲突解决与优化策略麻辣酸甜笔记
摘要哈希表作为一种高效的数据结构，在计算机科学领域广泛应用。本文深入探讨哈希表的工作原理，详细分析常见的冲突解决方法，如开放地址法、链地址法等，并进一步研究哈希表在不同场景下的优化策略，旨在帮助读者全面理解哈希表数据结构及其应用。一、引言在计算机程序中，快速查找和插入数据是常见需求。哈希表以其平均时间复杂度为O(1)的高效查找和插入特性，成为解决这类问题的有力工具。从数据库索引到编程语言的集合类实
小白零基础学数学建模系列-引言与课程目录川川菜鸟数学建模小白到精通系列数学建模
目录引言一、我们的专辑包含哪些内容？第一周：数学建模基础与工具第二周：高级数学建模技巧与应用第三周：机器学习基础与数据处理第四周：监督学习与无监督学习算法第五周：神经网络二、学完本专辑能收获到什么？三、适合什么样的人群学习？四、如何学习本专辑？课程目录第1周：数学建模基础与工具第1天：数学建模入门介绍第2天：数学建模工具介绍第3天：线性回归与曲线拟合第4天：线性规划第5天：动态规划第2周：高级数学
C++基础系列【26】排序和查找算法程序喵大人 C++基础系列 c语言算法开发语言 c++
博主介绍：程序喵大人35-资深C/C++/Rust/Android/iOS客户端开发10年大厂工作经验嵌入式/人工智能/自动驾驶/音视频/游戏开发入门级选手《C++20高级编程》《C++23高级编程》等多本书籍著译者更多原创精品文章，首发gzh，见文末记得订阅专栏，以防走丢C++基础系列专栏C语言基础系列专栏C++大佬养成攻略专栏C++训练营排序与查找算法的重要性不用过多介绍了吧，面试也经常考察。
深入解析深度学习中的过拟合与欠拟合诊断、解决与工程实践古月居GYH 深度学习人工智能
一、引言：模型泛化能力的核心挑战在深度学习模型开发中，欠拟合与过拟合是影响泛化能力的两个核心矛盾。据GoogleBrain研究统计，工业级深度学习项目中有63%的失败案例与这两个问题直接相关。本文将从基础概念到工程实践，系统解析其本质特征、诊断方法及解决方案，并辅以可复现的代码案例。二、核心概念与通熟易懂解释简单而言，欠拟合是指模型不能在训练集上获得足够低的误差。换句换说，就是模型复杂度低，模型在
遗传算法-变异算法 ArthurKingYs 遗传算法遗传算法神经网络
遗传算法系列（4）变异算法在基因交叉之后产生的子代个体，其变量可能以很小的概率或者步长发生转变，这个过程称为变异(Mutation)。如果进化的目标函数极值是单峰值的，那么，将变异概率p设置为种群数量n的倒数是一个比较好的选择。如果变异概率很大，那么整个搜索过程就退化为一个随机搜索过程。所以，比较稳妥的做法是，进化过程刚刚开始的时候，取p为一个比较大的概率，随着搜索过程的进行，p逐渐缩小到0附近。
初始OpenCV 指尖下的技术 OpenCV opencv 人工智能计算机视觉
OpenCV是一个功能强大、应用广泛的计算机视觉库，它为开发人员提供了丰富的工具和算法，可以帮助他们快速构建各种视觉应用。随着计算机视觉技术的不断发展，OpenCV也将会继续发挥重要的作用。OpenCV提供了大量的计算机视觉算法和图像处理工具，广泛应用于图像和视频的处理、分析以及机器学习领域。所以学习人计算机视觉或者图像处理方面的知识，OpenCV是一个要重点学习的工具库。首先介绍一下OpenCV
深入探讨盘古大模型的高精度多尺度能力 Hardess-god WRF 人工智能算法
随着人工智能技术的快速发展，大模型的研究逐渐进入新的阶段。其中，盘古大模型以其卓越的高精度和多尺度处理能力成为研究热点。本文将详细分析盘古模型在高精度多尺度问题上的技术特征、优势和应用潜力，并探讨其深入研究的方向。一、盘古模型概述盘古模型是华为推出的中文预训练大模型系列，拥有数十亿甚至千亿级的参数规模。它以Transformer架构为基础，通过海量文本数据进行训练，表现出优异的自然语言理解和生成能
遗传算法均匀变异 huahua20190514
importnumpyasnpimportrandompop_1=np.array([[1,11,21,9,16,10,8,17],[2,12,22,10,17,11,9,18],[3,13,23,11,18,12,10
01年实习生被曝负责字节RL核心算法！系字节LLM攻坚小组成员量子位
一个超越DeepSeekGRPO的关键RL算法出现了！用上该算法后，Qwen2.5-32B模型只经过RL训练，不引入蒸馏等其他技术，在AIME2024基准上拿下50分，优于相同setting下使用GRPO算法的DeepSeek-R1-Zero-Qwen，且DAPO使用的训练步数还减少了50%。这个算法名为DAPO，字节、清华AIR联合实验室SIALab出品，现已开源。论文通讯作者和开源项目负责人都
CSP-J备考冲刺必刷题（C++） | AcWing 1253 家谱热爱编程的通信人 c++开发语言
本文分享的必刷题目是从蓝桥云课、洛谷、AcWing等知名刷题平台精心挑选而来，并结合各平台提供的算法标签和难度等级进行了系统分类。题目涵盖了从基础到进阶的多种算法和数据结构，旨在为不同阶段的编程学习者提供一条清晰、平稳的学习提升路径。欢迎大家订阅我的专栏：算法题解：C++与Python实现！附上汇总贴：算法竞赛备考冲刺必刷题（C++）|汇总【题目来源】Acwing：1253.家谱-AcWing题库
AI巨浪中的安全之舵：天空卫士助力人工智能落地远航天空卫士人工智能安全数据安全网络安全大数据
"AI时代的安全战场，不在云端在本地；数据治理的胜负手，不在防御在认知。"近期，众多企业纷纷接入DeepSeek大模型，迅速推动了大型模型应用的广泛铺开。无论是在制造业、金融业，还是在医疗、教育等领域，DeepSeek大模型的应用都如火如荼，遍地开花，展现出了其广泛的应用前景和巨大的商业价值。顺势而来的是DeepSeek一体机以"低成本、高算力、私有化部署"的优势席卷企业市场。因为DeepSeek
DeepSeek重塑软件行业：研发工程师的机遇与挑战 LiuSid7 人工智能 llama 语言模型 ai
人工智能技术的浪潮正以前所未有的速度重塑软件行业，而DeepSeek作为其中的代表性技术，已成为研发工程师日常工作中不可忽视的变革力量。从代码生成到架构优化，从效率提升到职业生态重构，DeepSeek正在重新定义工程师的工作范式。以下从技术革新、职业发展、行业趋势三个维度，分析其对研发工程师的核心影响。一、技术革新：从“重复劳动”到“创造力释放”代码生产的效率革命DeepSeek通过自然语言指令生
栈和队列基础 Luther coder 算法
目录一.队列简述二.栈三.例题一.队列简述队列多用于辅助，很少有单独的题目。例如图的BFS，需要队列辅助实现。常见运用：单调队列：概念和单调栈类似。应用很少，多用于对一些算法的优化（动态规划等），不再赘述。优先队列：普通的队列是一种先进先出的数据结构，元素在队列尾追加，而从队列头删除。在优先队列中，元素被赋予优先级。当访问元素时，具有最高优先级的元素最先删除。优先队列具有最高级先出的特征。基于堆（
机器学习结合伏羲模型高精度多尺度气象分析与降尺度实现 Hardess-god WRF 算法人工智能
随着人工智能的发展，机器学习技术在气象预报领域展现出巨大潜力。本文详细探讨如何结合机器学习（ML）和伏羲模型进行高精度多尺度气象模拟分析，并提供详细的实现步骤和相关代码。1.研究目标与技术路线目标：结合机器学习模型与伏羲气象模式，实现区域和局地高精度降尺度。技术路线：伏羲模型提供大尺度气象数据和预报使用机器学习模型（如CNN、LSTM、XGBoost）进行降尺度2.数据准备与处理2.1气象数据获取
使用Python和LangChain构建检索增强生成（RAG）应用的详细指南 m0_57781768 python langchain 搜索引擎
使用Python和LangChain构建检索增强生成（RAG）应用的详细指南引言在人工智能和自然语言处理领域，利用大语言模型（LLM）构建复杂的问答（Q&A）系统是一个重要应用。检索增强生成（RetrievalAugmentedGeneration，RAG）是一种技术，通过将模型知识与额外数据结合来增强LLM的能力，使其能够回答关于特定源信息的问题。这些应用不仅限于公开数据，还可以处理私有数据和模
华为OD机试 - 相对开音节 - 正则表达式（Python/JS/C/C++ 2024 E卷 100分）哪吒华为od 正则表达式 python
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述相对开音节构成的结构为辅音+元音（aeiou）+辅音(r除外)+
华为OD机试 - 数列描述 - 动态规划（Python/JS/C/C++ 2024 B卷 100分）哪吒华为od 动态规划 python
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述有一个数列a[N](N=60)，从a[0]开始，每一项都是一个数
华为OD机试 - 输出单向链表中倒数第k个结点 - 双指针（Python/JS/C/C++ 2024 B卷 100分）哪吒华为od 链表 python
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述输入一个单向链表，输出该链表中倒数第k个结点，链表的倒数第1个结
华为OD机试 - 图片整理（Python/JS/C/C++ 2024 B卷 100分）哪吒华为od python javascript
华为OD机试2024E卷题库疯狂收录中，刷题点这里专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述Lily上课时使用字母数字图片教小朋友们学习英语单词，每次都需要
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb

基于深度学习的实时噪声抑制——深度学习落地移动端的范例

你可能感兴趣的:(算法,编程语言,机器学习,人工智能,深度学习)