包子鸡蛋

声纹识别（说话人识别）技术

说话人识别（Speaker Recognition，SR），又称声纹识别（Voiceprint Recognition,VPR），顾名思义，即通过声音来识别出来“谁在说话”，是根据语音信号中的说话人个性信息来识别说话人身份的一项生物特征识别技术。便于比较，语音识别（Automatic Speech Recognition，ASR）是通过声音识别出来“在说什么”。为了简便，后文统一称为VPR。

传统的VPR系统多是采用MFCC特征以及GMM模型框架，效果相当不错。后续也出现了基于i-vector，深度神经网络的等更多的算法框架。

【持续更新……】

基础

声纹识别的理论基础是每一个声音都具有独特的特征，通过该特征能将不同人的声音进行有效的区分。

这种独特的特征主要由两个因素决定，第一个是声腔的尺寸，具体包括咽喉、鼻腔和口腔等，这些器官的形状、尺寸和位置决定了声带张力的大小和声音频率的范围。因此不同的人虽然说同样的话，但是声音的频率分布是不同的，听起来有的低沉有的洪亮。每个人的发声腔都是不同的，就像指纹一样，每个人的声音也就有独特的特征。

第二个决定声音特征的因素是发声器官被操纵的方式，发声器官包括唇、齿、舌、软腭及腭肌肉等，他们之间相互作用就会产生清晰的语音。而他们之间的协作方式是人通过后天与周围人的交流中随机学习到的。人在学习说话的过程中，通过模拟周围不同人的说话方式，就会逐渐形成自己的声纹特征。

因此，理论上来说，声纹就像指纹一样，很少会有两个人具有相同的声纹特征。

美国研究机构已经表明在某些特点的环境下声纹可以用来作为有效的证据。并且美国联邦调查局对2000例与声纹相关的案件进行统计，利用声纹作为证据只有0.31%的错误率。目前利用声纹来区分不同人这项技术已经被广泛认可，并且在各个领域中都有应用。

目前来看，声纹识别常用的方法包括模板匹配法、最近邻方法、神经元网络方法，VQ聚类法等。

语谱图是声音信号的一种图像化的表示方式，它的横轴代表时间，纵轴代表频率，语音在各个频率点的幅值大小用颜色来区分。说话人的声音的基频及谐频在语谱图上表现为一条一条的亮线，再通过不同的处理手段就可以得到不同语谱图之间的相似度，最终达到声纹识别的目的。

目前公安部声纹鉴别就采用类似方法，而且语谱图还是用的灰度来表示。主要抽取说话人声音的基音频谱及包络、基音帧的能量、基音共振峰的出现频率及其轨迹等参数表征，然后再与模式识别等传统匹配方法结合进行声纹识别。

美国和国内都有不少企业生产声纹识别的设备，公安部为采购这些设备还正式颁布了《安防声纹识别应用系统技术要求》的行业标准。

但是这种方法是一种静态检测的方法，存在很大的弊端，实时性不好，动态检测声纹的需求实际上更大。

经过数十年的研究，说话人识别系统取得了不俗的性能表现，现已被广泛应用于包括安防、金融、社保等不同领域中。然而，受各种不确定性因素的制约，当前说话人识别系统仍难言可靠！这些不确定性因素包括非限定的自由文本、各种各样的传输信道、复杂多变的背景噪音、说话人自身的生理波动等等。这些不确定性因素对说话人识别系统提出了巨大的挑战。

原理特性

典型的声纹识别模型可以分为两种：template model和 stochastic model，即模板模型和随机模型。也称作非参数模型和参数模型。

模板模型（非参数模型）将训练特征参数和测试的特征参数进行比较，两者之间的失真（distortion）作为相似度。例如VQ（Vector quantization矢量量化）模型和动态时间规整法DTW（dynamic time warping）模型。

DTW 通过将输入待识别的特征矢量序列与训练时提取的特征矢量进行比较，通过最优路径匹配的方法来进行识别。而 VQ 方法则是通过聚类、量化的方法生成码本，识别时对测试数据进行量化编码，以失真度的大小作为判决的标准。

随机模型（参数模型）用一个概率密度函数来模拟说话人，训练过程用于预测概率密度函数的参数，匹配过程通过计算相应模型的测试语句的相似度来完成。（参数模型采用某种概率密度函数来描述说话人的语音特征空间的分布情况，并以该概率密度函数的一组参数作为说话人的模型。）例如（GMM和HMM）高斯混合模型和隐马尔科夫模型。

模型和特征

参考：声纹识别算法、资源与应用（一） - 知乎 (zhihu.com)

Speaker recognition以2012年为分水岭，由statistics-based machine learning，跨到了以deep learning为主线的算法。随后，bottleneck feature、d-vector、x-vector、j-vector等DNN-based的系统陆续出现，随后attention mechanism、Learning to rank等思想被用于改良训练过程。

End-to-End Speaker Recognition往往是data-driven的，需要海量marked data才能取得预期效果。无论是Google d-vector，还是Daniel x-vector、Baidu Deep Speaker，其迭代速度和有效利用data的程度，仍然有较大改进空间。

概述

参考：清微智能SRE19大赛两项全球前十算法团队技术分享

从1995年开始，混合高斯模型的统计模式识别技术被引入说话人识别，2000年Reynolds提出的GMM-UBM模型成为声纹识别领域最重要的基石。2008年kenny提出联合因子分析（JFA）将GMM均值超矢量空间划分为本征空间，信道空间，残差空间，分别对说话人和信道空间建模。由于JFA进行信道补偿时不可避免的包含说话人信息，并且存在空间掩盖和空间重叠的问题，因此不能对说话人和信道进行准确建模和区分，于是在2010年Najim Dehak等人提出使用全局差异空间代替本征空间和信道空间，即I-vector对说话人进行建模。随着数据和计算资源的丰富，基于深度学习的声纹识别带来了性能的进一步提升。2018年X-vector在D-vector的基础进行改进，通过在帧级特征上池化映射获得可以表示说话人特性的段级向量，成为state-of-the-art的框架。基于X-vector说话人建模的声纹识别系统主要包括语音特征提取，说话人建模和后端分类器进行信道补偿及似然度打分三个部分。

GMM-UBM

部分参考：闻声识人——声纹识别技术简介

高斯混合模型仍然是与文本无关的说话人识别中效果最好也是最常用的模型之一，因为在说话人识别系统中，如何将语音特征很好地进行总结及测试语音如何与训练语音进行匹配都是非常复杂难解决的问题，而GMM将这些问题转为对于模型的操作及概率计算等问题，解决了这些问题。

高斯混合模型可以逼近任何一个连续的概率分布，因此它可以看做是连续型概率分布的万能逼近器。之所有要保证权重的和为1，是因为概率密度函数必须满足（+∞，-∞）在内的积分值为1。

从模式识别的相关定义上来说，GMM是一种参数化(Parameterized)的生成性模型(Generative Model)，具备对实际数据极强的表征力;但反过来，GMM规模越庞大，表征力越强，其负面效应也会越明显：参数规模也会等比例的膨胀，需要更多的数据来驱动GMM的参数训练才能得到一个更加通用(或称泛化)的GMM模型。虽然GMM在小规模的文本无关数据集合上表现出了超越传统技术框架的性能，但它却远远无法满足实际场景下的需求。

虽然GMM模型作为一种通用的概率模型，对说话人识别的效果很好，但是实际上，我们经常会遇到训练语音比较短、或者语料比较少的情况，这样就不能训练出好的GMM模型，从而使识别率变低。所以2000年前后，在GMM模型的基础上，Reynolds等人提出了高斯混合模型-全局背景模型（GMM-UBM）：既然没法从目标用户那里收集到足够的语音，那就换一种思路，可以从其他地方收集到大量非目标用户的声音，积少成多，我们将这些非目标用户数据(声纹识别领域称为背景数据)混合起来充分训练出一个GMM，这个GMM可以看作是对语音的表征，但是又由于它是从大量身份的混杂数据中训练而成，它又不具备表征具体身份的能力。

通用背景模型(Universal Background Model，UBM)，可以看作是某一个具体说话人模型的先验模型。UBM的一个重要的优势在于它是通过最大后验估计(Maximum A Posterior，MAP)的算法对模型参数进行估计，避免了过拟合的发生。MAP算法的另外一个优势是我们不必再去调整目标用户GMM的所有参数(权重，均值，方差)只需要对各个高斯成分的均值参数进行估计，就能实现最好的识别性能。这下子待估的参数一下子减少了一半还多，越少的参数也意味着更快的收敛，不需要那么多的目标用户数据即可模型的良好训练。

而GMM-UBM系统利用大量的说话人语音训练出一个全局背景模型（UBM），因此在较小的训练集情况下仍然可获得较为精确的模型，识别性能及鲁棒性都很好。

所谓全局背景模型，就是采用许多人的语音，包括所有目标的语音一起训练而成的一个高阶通过利用UBM模型，由于训练语音有限而不能覆盖到的所有说话人特征的部分就可以通过UBM来自适应得到。UBM模型就是一个大型的GMM模型，所以UBM模型也可以利用EM算法来训练，并且UBM模型只需要训练一次，在后面便可反复利用。在训练过程中，通过MAP自适应，可得到毎个说话人的GMM模型。加入UBM后的系统流程如下图所示。

在计算每个说话人的声纹模型时，我们采用最大后验概率MAP算法。

实验表明，在其他参数都相同的条件下，采用GMM-UBM模型进行识别的结果要优于普通的GMM模型，并且在实验过程中还可发现，虽然训练UBM模型较为费时但自适应时却非常迅速，总体时间比依次训练GMM模型所花费的时间要少。

GMM模型是一个有监督的训练过程。它的基本思想就是利用已知的样本结果来反推最有可能（也就是最大概率）导致该个结果的参数值，在这个原则之下，GMM通常采用最大期望算法（EM）模型进行迭代直到收敛来确定参数。

对于高斯混合模型，也可以使用最大似然估计确定模型的参数，但每个样本属于哪个高斯分布是未知的，而计算高斯分布的参数时需要用到这个信息；反过来，样本属于哪个高斯分布又是由高斯分布的参数确定的。因此存在循环依赖，解决此问题的办法是打破此循环依赖，从高斯分布的一个不准确的初始猜测值开始，计算样本属于每个高斯分布的概率，然后又根据这个概率更新每个高斯分布的参数。这就是EM算法求解时的做法。

EM算法是一种迭代算法，因为现实的数据经常会有一些含有隐变量或者数据不完整等问题，很难求出极大似然函数，所以利用EM法来解决。

CMN / CMVN / VTLN

cepstrum mean normalization (CMN) ，倒谱均值归一化，说话人特征归一化方法的一种。顾名思义。

CMVN，倒谱平均值和方差归一化，包括对原始cepstra的平均值和方差进行归一化，通常以发音（utterance）或每个说话人为基础，给出零均值，单位方差的cepstra。

vocal tract length normalization (VTLN)，声道长度归一化，声道中的共振峰位置大体上是按照说话人的声道长度单调的变化的，所以VTLN通过引入扭曲因子来实现声道长度归一化。

i-vector

i-vector 的前世今生

在MAP框架下，我们都是单独去调整GMM的每一个高斯分量，参数太多太累了，那有没有办法同时调整一串高斯分量呢？希望借助因子分析(Factor Analysis，FA)的算法框架的降维思想。

加拿大蒙特利尔研究所(Computer Research Institute of Montreal，CRIM)的科学家兼公式推导帝Patrick Kenny在2005年左右提出了一个设想，既然声纹信息可以用一个低秩的超向量子空间来表示，那噪声和其他信道效应是不是也能用一个不相关的超向量子空间进行表达呢?

基于这个假设，Kenny提出了联合因子分析(Joint Factor Analysis，JFA)的理论分析框架，将说话人所处的空间和信道所处的空间做了独立不相关的假设，在JFA的假设下，与声纹相关的信息全部可以由特征音空间(Eigenvoice)进行表达，并且同一个说话人的多段语音在这个特征音空间上都能得到相同的参数映射，之所以实际的GMM模型参数有差异，都是由特征信道(Eigenchannel)，即信道效应的干扰导致的，我们只需要同时估计出一段语音在特征音空间上的映射和特征信道上的映射，然后去除特征信道上的干扰就可以实现更好的声纹环境鲁棒性。

现实世界中，尽管任何数据都存在冗余，即数据之间都具有相关性，但绝对的独立同分布的假设又是一个过于强的假设，这种独立同分布的假设往往为数学的推导提供了便利，但却限制了模型的泛化能力。

2009年，Kenny的学生，N.Dehak，提出了一个更加宽松的假设：既然声纹信息与信道信息不能做到完全独立，那干脆就用一个超向量子空间对两种信息同时建模；正交独立性没有办法满足，那干脆用一个子空间同时描述说话人信息和信道信息如何？

这时候，同一个说话人，不管怎么采集语音，采集了多少段语音，在这个子空间上的映射坐标都会有差异，这也更符合实际的情况。这个既模拟说话人差异性又模拟信道差异性的空间称为全因子空间（Total Factor Matrix），每段语音在这个空间上的映射坐标称作身份向量（Identity Vector，i-vector），i-vector向量通常维度不会太高，一般在400-600左右。

i-vector的出现使得说话人识别的研究一下子简化抽象为了一个数值分析与数据分析的问题：任意的一段音频，不管长度怎样，内容如何，最后都会被映射为一段低维度的定长i-vector。

只需要找到一些优化手段与测量方法，在海量数据中能够将同一个说话人的几段i-vector尽可能分类得近一些，将不同说话人的i-vector尽可能分得远一些。并且Dehak在实验中还发现i-vector具有良好的空间方向区分性，即便上SVM做区分，也只需要选择一个简单的余弦核就能实现非常好的区分性。

不久之前，i-vector在大多数情况下仍然是文本无关声纹识别中表现性能最好的建模框架，学者们后续的改进都是基于对i-vector进行优化，包括线性区分分析（Linear Discriminant Analysis， LDA），基于概率的线性预测区分分析（probabilistic linear discriminant analysis，PLDA）甚至是度量学习（Metric Learning）等。

推荐阅读：Kenny, Patrick. "Joint factor analysis of speaker and session variability: Theory and algorithms." CRIM, Montreal,(Report) CRIM-06/08-13 (2005).

传统的联合因子分析建模过程主要是基于两个不同的空间：由本征音空间矩阵定义的说话人空间，由本征信道空间矩阵定义的信道空间。受联合因子分析理论的启发, Dehak提出了从GMM均值超矢量中提取一个更紧凑的矢量，称为i-vector。这里的i是身份(Identity)的意思，出于自然的理解，i-vector相当于说话人的身份标识。

i-vector方法采用一个空间来代替这两个空间，这个新的空间可以成为全局差异空间，它即包含了说话者之间的差异又包含了信道间的差异。所以i-vector的建模过程在GMM均值超矢量中不严格区分话者的影响和信道的影响。这一建模方法的动机来源于Dehak的又一研究: JFA建模后的信道因子不仅包含了信道效应也夹杂着说话人的信息。

现在，主要用的特征是i-vector。这是通过高斯超向量基于因子分析而得到的。是基于单一空间的跨信道算法，该空间既包含了说话人空间的信息也包含了信道空间信息。相当于用因子分析方法将语音从高位空间投影到低维。

可以把i-vector看做是一种特征，也可以看做是简单的模型。最后，在测试阶段，我们只要计算测试语音i-vector和模型的i-vector之间的consine距离，就可以作为最后的得分。这种方法也通常被作为基于i-vector说话人识别系统的基线系统。

因为i-vector简洁的背后是它舍弃了太多的东西，其中就包括了文本差异性，在文本无关识别中，因为注册和训练的语音在内容上的差异性比较大，因此我们需要抑制这种差异性。但在文本相关识别中，我们又需要放大训练和识别语音在内容上的相似性，这时候牵一发而动全身的i-vector就显得不是那么合适了。虽然i-vector在文本无关声纹识别上表现非常好，但在看似更简单的文本相关声纹识别任务上，i-vector表现得却并不比传统的GMM-UBM框架更好。

在文本相关识别应用中，安全性最高的仍然是随机数字串声纹识别。

TVM-i-vector

i-vector的建模方式称为全局差异空间建模（Total Variability Modeling, TVM），采用该方法提取的i-vector记为TVM-i-vector。

在基于TVM-i-vector的声纹识别系统中，我们一般可以分为三个步骤。第一步是统计量的提取，第二步是提取i-vector，第三步是进行信道补偿技术。统计量的提取是指将语音数据的特征序列，比如MFCC特征序列，用统计量来进行描述，提取的统计量属于高维特征，然后经过TVM建模，投影至低维空间中得到i-vector。

在TVM-i-vector建模中，统计量的提取是以UBM为基础的，根据UBM的均值及方差进行相应统计量的计算。

基于DNN的说话人识别的基本思想是取代TVM中的UBM产生帧级后验概率。即采用DNN进行帧级对齐的工作，继而计算训练数据的统计量，进行全局差异空间的训练以及i-vector的提取。

最近使用神经网络来进行声纹识别的论文已经改进了传统的i-vector方法（参考Interspeech教程的原始论文或者幻灯片）。i-vector方法认为说话内容可以被分为两个部分，一个部分依赖于说话者和信道可变性，另一个部分依赖于其它的相关因素。i-vector声纹识别是一个多步过程，其涉及到使用不同说话者的数据来估计一个通用的背景模型（通常是高斯混合模型），收集充分的统计数据，提取i-vector，最后使用一个分类器来进行识别任务。

一些论文用神经网络代替了i-vector流水线的方法。其它研究者要么训练了一个文本相关（使用者必须说同样的话）的端对端语者识别系统，要么训练了文本独立（这个模型与说话内容不相关）的端对端语者识别系统。

目前没有详细证据证明深度神经网络或组合i-vector的深度神经网络性能一定优于i-vector方法，可能原因是说话人识别中信道干扰较多，难以搜集足够数据训练深度神经网络。

j-vector [文本相关]

提取i-vector依赖于较长（数十秒到数分钟）的语音，而Text-Dependent Speaker Verification任务中，语音很短（甚至只有1秒左右），所以i-vector不适用于Text-Dependent Speaker Verification。Text-Dependent Speaker Verification属于Multi-task，既要验证身份，又要验证语音内容。j-vector就是为了解决Text-Dependent Speaker Verification而提出的，如图所示，j-vector从Last Hidden Layer提取。由INTERSPEECH 2015文章《Multi-task learning for text-dependent speaker verificaion》提出。

论文中指出，相比于Cosine Similarity、Joint PLDA，使用Joint Gaussian Discriminant Function作为back-end时，实验效果最佳。

d-vector

ICASSP 2014年的论文《Deep neural networks for small footprint text-dependent speaker verification 》研究了深度神经网络（DNNs）在小型文本相关的说话者验证任务的应用。

在开发阶段，DNN经过训练，可以在帧级别对说话人进行分类。在说话人录入阶段，使用训练好的的DNN用于提取来自最后隐藏层的语音特征。这些说话人特征或平均值，即d-vector，用作说话人特征模型。在评估阶段，为每个话语提取d-vector与录入的说话人模型相比较，进行验证。实验结果表明基于DNN的说话人验证与常用的i-vector相比，系统在一个小的声音文本相关的说话人验证任务实现了良好的性能表现。

深度网络的特征提取层（隐藏层）输出帧级别的说话人特征，将其以合并平均的方式得到句子级别的表示，这种utterance-level的表示即深度说话人向量，简称d-vector。计算两个d-vectors之间的余弦距离，得到判决打分。类似主流的概率统计模型i-vector，可以通过引入一些正则化方法 (线性判别分析 LDA、概率线性判别分析 PLDA等)，以提高 d-vector 的说话人区分性。

此外，基于DNN的系统对添加的噪声更加稳健，并且在低错误拒绝操作点上优于i-vector系统。最后，组合系统在进行安静和嘈杂的条件分别优于i-vector系统以14％和25％的相对错误率（EER）。

参考：[论文品读]·d-vector解读(Deep Neural Networks for Small Footprint Text-Dependent Speaker Verification)。

【SV背景DNN模型】【非CNN】【监督学习】

简而言之，DNN训练好后，提取每一帧语音的Filterbank Energy 特征作为DNN输入，从Last Hidden Layer提取Activations，L2正则化(对于两个向量的l2-norm进行点积，就可以得到这两个向量的余弦相似性)，然后将其累加起来，得到的向量就被称为d-vector。如果一个人有多条Enroll语音，那么所有这些d-vectors做平均，就是这个人的Representation。

因为d-vector是从Last Hidden Layer提取的，通过移除Softmax Layer，可以缩减Model Size。这也可以在不改变Model Size的情况下，在训练过程中使用更多的说话人数据来做训练（因为Softmax Layer被移除了，不用考虑Softmax Layer的节点数）。

x-vector

参考论文《X-VECTORS: ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION》【ICASSP 2018】

x-vector的训练速度很快，识别率高。

文章使用数据增广来提高深度神经网络（DNN）embedding对于说话人识别的性能。经过训练以区分说话者的DNN将可变长度的语料映射到我们称为x-vector的固定维度embedding。

采用PLDA比较pairs of embeddings。【PLDA(Probabilistic Linear Discriminant Analysis)是一种信道补偿算法，号称概率形式的LDA算法，PLDA算法的信道补偿能力比LDA更好，已经成为目前最好的信道补偿算法。】

关于PLDA参考：【声纹识别之PLDA算法描述】以及【Kaldi说话人识别：基于x-vector 的plda自适应】

得益于其网络中的statistics pooling层，X-VECTORS可接受任意长度的输入，转化为固定长度的特征表达；此外，在训练中引入了包含噪声和混响在内的数据增强策略，使得模型对于噪声和混响等干扰更加鲁棒。

之前的研究发现，embedding比i-vector更好地利用大规模训练数据集。然而，收集大量用于训练的标记数据可能具有挑战性，因此使用数据增广，包括增加噪声和混响，作为一种廉价的方法来增加训练数据的数量并提高鲁棒性。

将x-vector与wild和NIST SRE 2016 Cantonese中的i-vector基线进行比较。我们发现虽然增强在PLDA分类器中是有益的，但它对于i-vector提取器没有帮助。然而，由于其受监督的训练，x-vector DNN有效地利用了数据增加。因此，x-vector在评估数据集上实现了卓越的性能。

下图中的左图为X-vector的网络结构，前5层是帧级别，然后做了池化后插入两层段级别的embedding，使用segment6这层作为提取x-vector特征，该特征可以当做i-vector进行plda打分，最后一层是softmax层对于训练集中所有的说话人目标。比起BNF特征提取要容易的多，BNF需要训练基于音素的声学模型，而且提取后的特征又需要进行UBM-i-vector过程，相当耗时。

下图中的右图，网络结构中，有一个Statistics Pooling Layer，负责将Frame-level Layer，Map到Segment-Level Layer，计算frame-level Layer的Mean和standard deviation。TDNN是时延架构，Output Layer可以学习到Long-Time特征，所以x-vector可以利用短短的10s左右的语音，捕捉到用户声纹信息，在短语音上拥有更强的鲁棒性。提取x-vector，LDA降维，然后以PLDA作为back-end，便可以做Verification。

参考论文《A Study on Pairwise LDA for X-vector based Speaker Recognition》，下图展示了x-vector的提取流程图：

神经网络并不仅仅是一个分类器，而是一个特征提取器和分类器的结合，每一层都有极强的特征提取能力。因此可以将模型的一部分作为特征提取器，也就是embeddings。

当前（2019-2020年）属于embedding的时代，尤其是x-vector已经成为了几乎所有的Challenges和papers的新baseline。ASV spoof 2019上的ASV部分默认使用x-vector进行。

可参考【声纹识别X-Vector】。

损失函数

非系统性总结，持续更新……

AM-Softmax-Loss

参考：

【论文笔记】Additive Margin Softmax for Face Verification

softmax loss加margin系列：增大类间距离

Softmax理解之margin

softmax loss是我们最熟悉的loss之一了，分类任务中使用它，分割任务中依然使用它。softmax loss实际上是由softmax和cross-entropy loss组合而成，两者放一起数值计算更加稳定。

L-Softmax, A-Softmax引入了角间距的概念，用于改进传统的softmax loss函数，使得人脸特征具有更大的类间距和更小的类内距。IEEE SPL 2018上，作者在这些方法的启发下，提出了一种更直观和更易解释的additive margin Softmax (AM-Softmax)。

就是把L-Softmax的乘法改成了减法，同时加上了尺度因子s。作者这样改变之后前向后向传播变得更加简单。其中W和f都是归一化过的，作者在论文中将m设为0.35，尺度因子s设为30。（值得注意的是，normalization是收敛到好的点的保证，同时，必须加上scale层，scale的尺度在文中被固定设置为30）

角度距离与余弦距离的关系：Asoftmax是用m乘以θ，而AMSoftmax是用cosθ减去m，这是两者的最大不同之处：一个是角度距离，一个是余弦距离。之所以选择cosθ-m而不是cos（θ-m），这是因为我们从网络中得到的是W和f的内积，如果要优化cos（θ-m）那么会涉及到arccos操作，计算量过大。

Triplet-Loss

参考：声纹识别算法、资源与应用（三） - 知乎 (zhihu.com)

2015年，谷歌的FaceNet使用Triplet Loss在大规模人脸识别中取得了很大的成功。受此启发，在声纹识别领域，也有不少的文章使用Triplet loss。它的优点是，直接使用embeddings之间的相似度作为优化的成本函数（Loss Function），最大化【anchor】和【positive】的相似度，同时最小化【anchor】和【negative】的相似度。这样，在提取了说话者的embedding之后，声纹验证和声纹识别任务就可以简单地通过相似度计算实现。

Triplet Loss基本思路是：构造一个三元组，由anchor（锚，可以理解为一个参考语音）、positive（相对anchor而言）和negative（相对anchor而言）组成。然后，用大量标注好的三元组作为网络输入，来学习DNN参数。其中，anchor和positive是来自于同一个人的不同声音，anchor和negative是来自不同的人的声音。通过DNN获取各自的embeddings后，计算anchor和positive的相似度，以及anchor和negative的相似度，然后最大化ap（anchor与positive）的相似度，最小化an（anchor与negative）的相似度。

计算相似度有两种方法，一种是cosine相似度，值越大，相似度越高，正如Baidu Deep Speaker所采用的；一种是使用欧几里得距离，和FaceNet所使用的一样，值越小，相似度越高。

GE2E-loss

参考：<解析>speaker verification模型中的GE2E损失函数 - dynmi - 博客园 (cnblogs.com)

GE2E loss 全称为Generalized end to end loss function。它聚焦于embedding的差异性，比TE2E(tuple-based endto-end loss function)损失函数更有效。

Generalized end-to-end (GE2E) loss是谷歌在论文《Wan L, Wang Q, Papir A, et al. "Generalized End-to-End Loss for Speaker Verification", ICASSP 2018》中提出的新损失函数，还是比较有创意的。与TE2E loss和Triplet loss相比，它每次更新都和多个人相比，因此号称能使训练时间更短，说话人验证精度更高。

其基本思路如下图所示，挑选个人，每人句话，通过图示的顺序排列组成Batch，接着通过LSTM神经网络提取句话的embeddings，然后求取每个embedding和每个人平均embedding的相似度，得到一个相似度矩阵。最后通过最小化GE2E loss使得相似矩阵中有颜色的相似度尽可能大，灰色的相似度尽可能小，即本人的embedding应该和本人每句话的embedding尽可能相近，和其他人的embedding尽可能远离，从而训练LSTM网络。

GE2E系统架构(不同的颜色表示不同的说话者)

此外，为了训练的稳定性，论文中建议在计算本人和本人某句话相似度的时候，不要让该句话的embedding来参与计算本人的embedding。

业界研究

非系统性整理，持续更新……

Deep-Speaker

参考：论文速递：Deep Speaker: an End-to-End Neural Speaker Embedding System

源码：https://github.com/philipperemy/deep-speaker
论文：Deep Speaker: an End-to-End Neural Speaker Embedding System
数据：VoxCeleb：A large scale audio-visual dataset of human speech

百度于2017年提出，一个新的，端到端的，基于深度学习的speaker embedding系统。该系统将语音句子映射到一个超平面，然后通过cosine similarity计算说话人之间的相似度。由该Deep Speaker所生成的embeddings 可以被用作多任务，包括说话人识别、验证和聚类。

文章提出了一个深度残差CNN模型（ResCNN），灵感来自于残差网络resnets，我们也融合了GRU层作为一个可选择的帧级特征提取方法（由于它被证明在语音提取应用中是有效的）。【尽管深度网络比起浅层网络的能力更强，但是它们往往很难训练。ResNet的提出使得深度CNN的训练更容易一点。ResNet由一系列的残差块构成。每一个残差块都包含低层输出到高层输出直接相连的线。】

文章通过ResCNN和GRU模型提取音频特征，然后做一个平均池化去产生句子级别的speaker embeddings，然后以cosine similarity为基础，使用triplet loss损失函数训练模型（这能够最小化相同说话人embedding之间的距离，最大化不同说话人的embedding之间的距离）。预训练使用了一个softmax层和交叉熵通过固定的说话人提高模型的性能。

在三个不同数据库上的实验表明，Deep Speaker系统比基于DNN的i-vector特征要好得多。例如，Deep Speaker系统在文本无关的数据集上将验证错误率（vertification error rate）降低了50%，将识别准确率（identification accuracy）提高了60%。结果表明，通过普通话对模型进行训练和调整可以提高英文说话者识别的准确率。

一些总结

上述方法中，GMM-UBM和GMM-i-vector都属于统计模型；d-vector和x-vector属于深度学习方法。

d-vector（深度神经网络最后一个隐藏层作为embeddings特征）、x-vector（从TDNN网络中提取embeddings特征）。

i-vector和x-vector都可以在kaldi中找到相关实验。

【知乎PUePN】GMM-UBM, i-vector, x-vector都是针对文本无关说话人识别提出来的，他们都有normalize phoneme 的隐式操作(average, pooling等等）。但是我们发现在文本相关任务上表现也还ok，但是还ok的前提是我们限定了训练数据，或者至少限定了plda的数据是文本相关的。

声纹识别的一些基础可参考：

https://www.cnblogs.com/Vanessa-Feng/p/7465352.html

声纹识别发展综述 - 知乎 (zhihu.com)

声纹识别的应用实践 - 知乎 (zhihu.com)

CSDN博客：声纹识别综述

CSDN博客：声纹识别知识整理

开源工具

更多参考：声纹识别算法、资源与应用（二） - 知乎 (zhihu.com) 【资源篇】

声纹识别主要的开源工具有：

1.MSR Identity Toolkit ，微软开源的工具箱，MATLAB版本，包含GMM-UBM和i-vector的demo，简单易用。

2.Alize，主要包括GMM-UBM、i-vector、JFA三种传统的方法，C++版，简单易用。

3.kaldi, 流行的语音识别工具包，也包括声纹识别：覆盖了主流的声纹识别算法（i-vector 、x-vector等），脚本语言，使用不易。

你可能感兴趣的:(声纹识别（说话人识别）技术)

贝叶斯网络与深度学习的结合：图像识别和分类 AI天才研究院 AI人工智能与大数据计算 AI大模型企业级应用开发实战自然语言处理人工智能语言模型编程实践开发语言架构设计
本文我将为您撰写一篇关于"贝叶斯网络与深度学习的结合：图像识别和分类"的技术博客文章。这篇文章将深入探讨贝叶斯网络和深度学习在图像识别和分类领域的结合应用。我会遵循您提供的要求和结构模板,确保文章内容全面、深入且易于理解。让我们开始吧。贝叶斯网络与深度学习的结合：图像识别和分类关键词：贝叶斯网络、深度学习、图像识别、图像分类、概率推理、卷积神经网络、不确定性建模文章目录贝叶斯网络与深度学习的结合：
在浏览器中使用TensorFlow.js 魏铁锤chui tensorflow javascript 人工智能
TensorFlow.js简介介绍光学字符识别(OCR)是指能够从图像或文档中捕获文本元素，并将其转换为机器可读的文本格式的技术。如果您想了解更多关于这个主题的内容，本文是一个很好的介绍。TensorFlow.js是一个库，用于使用JavaScript开发和训练机器学习模型，并将其部署在浏览器中或Node.js上。您可以使用现有模型、转换PythonTensorFlow模型、使用迁移学习用您自己的
【大模型面试必备】130道大模型问题深度解析，附详细答案，非常详细收藏这一篇就够了！大模型学习大模型架构数据库 langchain 人工智能面试
Attention1、讲讲对Attention的理解？Attention机制是一种在处理时序相关问题的时候常用的技术，*主要用于处理序列数据。*核心思想：在处理序列数据时，网络应该更关注输入中的重要部分，而忽略不重要的部分，它通过学习不同部分的权重，将输入的序列中的重要部分显式地加权，从而使得模型可以更好地关注与输出有关的信息。在序列建模任务中，比如机器翻译、文本摘要、语言理解等，输入序列的不同部
从零到百亿流量：跨云平台高可用Web架构设计与成本优化全攻略风劝我要释怀 azure aws googlecloud 云计算
在互联网流量爆发式增长的今天，如何构建一个既能支撑百亿级请求、又具备极致成本效益的Web系统，成为技术团队的核心挑战。本文将以AWS、GoogleCloud、Azure等主流云平台为例，揭秘从零起步到承载海量流量的全链路架构设计策略，涵盖技术选型、容灾设计、成本优化等实战经验。一、架构设计原则：弹性、分层与解耦1.基础架构选型：跨云混合部署多云负载均衡通过CloudflareLoadBalanci
Nginx 运维实战与 HTML 静态网页开发全攻略
一、技术背景：静态站点的黄金时代1.静态网页的复兴浪潮性能优势：对比动态站点，静态资源响应速度提升60%+，首屏加载时间平均缩短1.2秒（基于WebPageTest实测数据）技术演进：Jamstack架构普及（2024年市场占有率达37%），Hugo、Nuxt.js等静态站点生成器（SSG）推动企业级应用典型场景：企业官网（占比78%）、产品着陆页（转化率提升23%）、博客系统（WordPress
前端计算机视觉：使用 OpenCV.js 在浏览器中实现图像处理亿只小灿灿前端 OpenCV 前端计算机视觉 opencv
一、OpenCV.js简介与环境搭建OpenCV（OpenSourceComputerVisionLibrary）是一个强大的计算机视觉库，广泛应用于图像和视频处理领域。传统上，OpenCV主要在后端使用Python或C++等语言。但随着WebAssembly(Wasm)技术的发展，OpenCV也有了JavaScript版本——OpenCV.js，它可以直接在浏览器中高效运行，为前端开发者提供了前
2.5GBASE-T 和 5GBASE-T 标准介绍独二. 布线 5G 服务器信息与通信运维网络网络安全
1.2.5GBASE-T和5GBASE-T简介2.5GBASE-T和5GBASE-T是IEEE802.3bz标准下的多速率以太网技术，旨在提供比1GBASE-T更高的速率，同时仍然兼容现有布线基础设施。2.5GBASE-T提供2.5Gbps速率，可在Cat5E及以上线缆上运行。5GBASE-T提供5Gbps速率，在Cat6及以上线缆上可达100m。这些技术填补了1GBASE-T（1Gbps）和10
论文参考文献（持续更新...） @一叶之秋 java
毕业论文参考文献（java）考虑到平时做课程设计和毕业论文文献不好找，还要格式正确，某文库还不能直接复制粘贴，这里列举出自己做项目时用到的一些参考文献tips:论文查重技巧参考文献(一)：[1]李运莉.web数据库应用系统性能优化[M]．北京：人民邮电出版社，2011.[2]库俊国.基于J2EE技术的Web应用体系研究及实践[M]．北京：人民邮电出版社，2014.[3]陈楚杰.基于Struts和H
对话式AI助手的巅峰对决：ChatGPT与文心一言的实用价值探讨酷钉 chatgpt 人工智能
随着人工智能技术的发展，对话式AI助手逐渐成为了人们生活中的一部分。其中，ChatGPT和文心一言更是备受关注的两款对话式AI助手。本文将探讨这两款AI助手的实用价值，并通过案例和数据的方式进行分析。一、ChatGPT的实用价值跨语言交流ChatGPT是一款能够进行跨语言交流的对话式AI助手。据统计，ChatGPT支持的语言数量超过100种，用户可以通过它轻松地与不同国家和地区的人进行交流。例如，
剖析美国政府视角下的ICT供应链安全墨菲安全网络安全软件供应链
2018年11月15日，美国国土安全部（DHS）宣布成立了信息和通信技术(ICT)供应链风险管理（SCRM）工作组，这个工作组是由美国多个政府部门、IT行业企业代表及通信行业企业代表联合成立的。该组织对外宣传的目标是识别和管理全球ICT供应链的风险。之后该组织非常活跃，2024年2月6日，该组织刚刚宣布将工作组延长两年。我们翻阅了该组织从成立至今参与和主导发布的大量文章，从这里面可以发现该组织对于
46、C++中的网络编程甲方克星947 C++网络编程套接字编程多线程
C++中的网络编程1.网络编程基础网络编程是现代软件开发中不可或缺的一部分，尤其是在分布式系统、互联网应用和服务端开发中。C++作为一种高效且灵活的编程语言，非常适合进行网络编程。本章将详细介绍如何使用C++进行网络编程，涵盖从基础概念到高级技术的各个方面。1.1网络编程的基本概念在开始编写网络程序之前，了解一些基本概念是非常重要的。以下是网络编程中的一些关键术语：TCP/IP协议栈：这是网络通信
【免费下载】 Unity 捏脸神器：BlendShape 技术实现精细面部控制咎尉裕Lilah
Unity捏脸神器：BlendShape技术实现精细面部控制【下载地址】Unity工具类BlendShape捏脸实现工程Unity工具类：BlendShape捏脸实现工程本仓库提供了一个完整的Unity工程，用于实现基于BlendShape技术的捏脸功能项目地址:https://gitcode.com/open-source-toolkit/a10d0项目介绍在游戏开发和虚拟现实应用中，角色的面部
互联网三高架构技术选型与深入分析 @一叶之秋 Java架构师学习路线架构互联网三高 java
互联网三高架构技术选型与深入分析1.互联网三高架构概述互联网三高架构（高可用性、高并发、高扩展性）是现代互联网系统的基石，能够有效保障系统的稳定性、灵活性与长期可扩展性。这个架构需要细致的技术选型，涵盖了从负载均衡到数据存储、消息队列等多个层面。1.1高可用性（HA）定义：确保系统在面临硬件故障、网络问题等异常情况下仍能正常运行。目标：通过冗余、容错、备份等措施，最大化地减少系统的停机时间，保障服
微信小程序｜流浪动物救助小程序的设计与实现 qq_469603589 微信小程序小程序微信小程序
作者主页：编程指南针作者简介：Java领域优质创作者、CSDN博客专家、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、腾讯课堂常驻讲师主要内容：Java项目、Python项目、前端项目、人工智能与大数据、简历模板、学习资料、面试题库、技术互助收藏点赞不迷路关注作者有好处文末获取源码项目编号：L-BS-XZBS-30一，环境介绍语言环境：Java:jdk1
Hadoop、Spark、Flink 三大大数据处理框架的能力与应用场景
一、技术能力与应用场景对比产品能力特点应用场景Hadoop-基于MapReduce的批处理框架-HDFS分布式存储-容错性强、适合离线分析-作业调度使用YARN-日志离线分析-数据仓库存储-T+1报表分析-海量数据处理Spark-基于内存计算，速度快-支持批处理、流处理（StructuredStreaming）-支持SQL、ML、图计算等-支持多语言（Scala、Java、Python）-近实时处
基于uniapp微信小程+SpringBoot+Vue的流浪动物救助领养系统设计和实现(源码+论文+部署讲解等)
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
嵌入式C语言常用的代码模块库 kaikaile1995 网络
在嵌入式系统开发中，C语言因其高效性、可移植性和对硬件的直接控制能力而广泛应用。随着嵌入式技术的不断发展，为了提高开发效率和软件质量，开发者们积累并共享了大量的代码模块库。这些库不仅涵盖了从底层硬件访问到高级应用开发的各个方面，还提供了丰富的功能组件和工具，极大地简化了嵌入式软件的开发过程。本文将介绍一些嵌入式C语言常用的代码模块库，并探讨它们在嵌入式开发中的应用。1.底层硬件访问库1.1GPIO
LFM信号脉冲压缩时的关键问题仿真 kaikaile1995 matlab
matlab程序对雷达常用的线性调频信号（lfm信号）进行脉冲压缩时的关键问题进行了仿真，其中包括旁瓣抑制影响（加窗与不加窗）、多卜勒频移影响，并对时域脉压与频域脉压结果进行了对比分析，供相关技术人员参考。hanming.m对LFM信号时域加窗（海明窗）与未加窗进行了对比。duobule.m对LFM信号在不同多卜勒频移状况下进行了对比。lfm_pc.m对LFM信号时域脉压与频域脉压结果进行了对比。
什么是嵌入式？一篇文章让你彻底搞懂！欢乐熊嵌入式编程嵌入式开发嵌入式硬件单片机学习单片机
什么是嵌入式？一篇文章让你彻底搞懂！一提起“嵌入式”，很多新手脑子里立刻浮现四个大字：听不懂！没关系，今天这篇文章，我们就用讲故事、打比方、怼术语的方式，让你一次搞懂嵌入式到底是啥玩意儿！先别急着查百度，告诉你啥是“嵌入式”百度百科的解释一般都长成这样：“嵌入式系统是以应用为中心，以计算机技术为基础，软硬件可裁剪，适应应用系统功能、可靠性、成本、体积、功耗严格要求的专用计算机系统。”——你是不是看
30、法律案例的关联检索：提升法律实践的信息处理能力 android 法律案例关联检索信息处理
法律案例的关联检索：提升法律实践的信息处理能力1.引言在当今信息爆炸的时代，法律从业者面临着前所未有的挑战。大量的法律案例、法规和判例使得信息检索变得复杂而耗时。为了提高工作效率和决策质量，法律从业者迫切需要一种高效的工具来发现和检索相互关联的法律案例。本文将探讨如何通过先进的信息检索技术和算法来实现这一点。2.关联模型关联模型是法律案例关联检索的核心。为了确定案例之间的关联性，通常采用以下几种模
云原生函数计算：冷启动优化全攻略 AI云原生与云计算技术学院云原生 ai
云原生函数计算：冷启动优化全攻略关键词：云原生,函数计算,Serverless,冷启动,性能优化,资源调度,运行时优化摘要：本文深入解析云原生函数计算场景下的冷启动问题，系统阐述冷启动的技术原理、核心影响因素及全链路优化策略。通过对函数计算架构的深度拆解，结合具体代码实现和数学模型分析，提供从基础设施层到应用层的端到端优化方案。涵盖轻量级运行时设计、依赖管理优化、资源预分配策略等关键技术点，并通过
HALCON: HALCON 20.11.0.0 Progress主要新特性机器视觉001 HALCON HALCON
HALCON:HALCON20.11.0.0Progress主要新特性改进了基于形状的匹配在HALCON20.11中，对基于形状匹配的核心技术进行了改进，尤其是针对低对比度和高噪声的场景。现在可以自动估计更多的参数。这增加了低对比度和高噪声的情况下的可用性、匹配率和鲁棒性在。DotCode解码在HALCON20.11中，数据编码解码器已经扩展为新的编码类型DotCode。这种类型的2D代码基于一个
Serverless成本优化实战：从资源浪费到精准管控的架构演进知识产权13937636601 计算机 serverless 架构云原生
本文系统解析Serverless架构下的成本构成黑洞，揭示函数计算、存储服务、API网关等模块的资源浪费真相。基于电商、社交、物联网等行业的真实账单数据，深度剖析冷启动损耗、配置冗余、日志存储三大核心成本痛点。结合AWSLambda、阿里云函数计算等平台的最佳实践，给出冷启动优化、智能伸缩策略、存储分层设计等12项关键优化方案，并展望AI预测调度、多云成本博弈等前沿技术方向，为企业节省60%以上的
边缘计算与 CDN 融合技术实践教程快快网络-三七云计算优化边缘计算人工智能
目录前言一、核心技术原理与架构设计1.1边缘计算与CDN协同架构1.2智能调度算法二、数据同步与一致性实现2.1边缘节点数据缓存机制2.2一致性哈希算法应用三、典型应用场景实践3.1实时视频直播优化3.2物联网数据处理四、部署与运维要点4.1容器化部署4.2监控与告警五、未来技术演进方向总结前言在互联网流量爆发式增长、低延迟应用场景不断涌现的背景下，边缘计算与CDN的融合已成为提升网络性能的核心技
[2025CVPR]DE-GANs:一种高效的生成对抗网络清风AI 深度学习算法详解及代码复现生成对抗网络人工智能神经网络
目录引言：数据高效GAN的困境核心原理：动态质量筛选机制1.判别器拒绝采样（DRS）的再思考2.质量感知动态拒绝公式（1）质量感知阶段（2）动态拒绝阶段模型架构：轻量化设计技术突破：三大创新点1.首创训练阶段DRS2.动态拒绝机制3.质量重加权策略实验验证：全面性能提升1.数据集与指标2.对比实验结果（1）低样本数据集（2）FFHQ数据集代码解析：关键实现细节对比结果：全面超越现有方法1.低样本数
贝叶斯回归：从概率视角量化预测的不确定性大千AI助手人工智能 Python #OTHER 回归数据挖掘人工智能机器学习算法贝叶斯
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！贝叶斯方法在回归问题中的应用被称为贝叶斯回归（BayesianRegression）。与传统频率派的线性回归（如最小二乘法）不同，贝叶斯回归的核心思想是：将回归参数（如权重系数）视为随机变量，通过贝叶斯定理结合先验分布和观测数据，推导出参数的后验分布，
大学专业科普 | 计算机应用、视觉与算法鸭鸭鸭进京赶烤计算机应用
一、专业概述计算机应用专业是一门实践性很强的学科，专注于将计算机技术转化为实际应用，服务于各个行业和领域，为社会的数字化转型提供人才支撑。二、课程设置专业基础课程：包括计算机组成原理、操作系统、数据结构、计算机网络等，为学生构建坚实的理论基础。专业核心课程：聚焦于程序设计语言（如C、C++、Java、Python等）、数据库原理与应用、软件工程、Web前端开发等，使学生具备开发各类软件系统的能力。
JS面试题---什么是节流和防抖？怎样手写一个自己的节流和防抖工具函数
如何理解节流和防抖，如何手写一、概念二、手写实现三、使用场景四、区别与联系联系区别技术背景:相信以下场景你都不陌生多次点击按钮导致页面失去响应或者出现意外情况。如何实现搜索联想功能以及各企业邮箱提示功能。页面滚动、输入框输入以及窗口尺寸变化频繁触发事件。手机号、邮箱格式的实时校验…为了解决或者实现这类场景，优化性能和改善用户体验。衍生出了一种技术，防抖(debouce)和节流(throttle)一
为了方便学习icss项目上的css技巧，我用next.js写了一个网站前端next.js
icss-website一、项目简介与定位icss-website是一个基于Next.js14（AppRouter架构）开发的现代化CSS技巧展示平台，致力于为前端开发者、设计师和技术爱好者提供一个高效、优雅、易用的CSS奇技淫巧学习与交流空间。项目以GitHub上的iCSS仓库为内容源，通过API动态获取、分类、展示和高亮CSS相关的文章与代码示例，支持多主题、多语言、响应式布局和丰富的交互体验
计算机专业毕业设计选题指南（2025创新版）程序员小天00 课程设计毕业设计小程序 python eclipse java
计算机专业毕业设计选题指南（2025创新版）一、选题方向全景图（按技术维度划分）智能服务系统开发技术架构：SpringBoot+Vue3+MySQL/MongoDB典型场景：●智慧校园：实验室预约系统、学术成果可视化平台●医疗健康：电子病历智能分析系统、慢性病管理助手●城市治理：垃圾分类智能识别系统、交通拥堵预测模型创新点：融合OCR识别/NLP技术，实现无感化服务跨平台应用开发技术选型：Unia
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR