jcfszxc

【记录】声纹识别学习记录

文章目录

一、算法总览

1. 最早的GMM-UBM i-vector
2. DNN
3. 端到端系统

二、初识声纹

1. 什么是声纹？
2. 声纹识别的原理
3. 声纹识别算法的技术指标
4. 影响声纹识别水平的因素

声源采样率
信噪比（SNR）
信道
语音识别
文本内容

5. 声纹识别的应用流程

三、语音技术

语音唤醒:
声纹确认:
语音合成:

四、声纹识别算法、资源与应用

（一）算法
（二）资源

声纹识别 · Triplet Loss

Triplet Loss

参考文献：

声纹识别 · 改良算法之GE2E Loss

GE2E Loss

参考文献

大佬的回答：
课程：
开源资源整理：
引用：

一、算法总览

1. 最早的GMM-UBM i-vector

利用GMM高斯混合模型提取特征i-vector；克服训练数据不多的情况，引入UBM；将语音分为说话人空间和环境空间，解决环境带来的信道，PLDA实现信道补偿，将提取的i-vector更加纯粹。

当然，获取i-vector的方法不仅仅局限在高斯混合模型，利用一起其它的机器学习方法进行补充一样可以，甚至是DNN提取的特征。

2. DNN

DNN的引入极大的降低了识别错误率。这时候的算法，可以称为embedding算法，依然是提取特征，不过这时候提取的是神经网络最后隐藏层的激活单元了，作为embedding，代替i-vector来作为一段语音的特征表示。

这时候出现了d-vector（深度神经网络最后一个隐藏层作为embeddings特征）、x-vector（从TDNN网络中提取embeddings特征）、j-vector模型（适用于文本相关说话人确认）

3. 端到端系统

无论是获得i-vector，还是DNN提取出的embedding，都是从语音中提取出特征再做分类或者确认。而端到端系统将这2段合到一个系统中，从输入到输出，一体化特征训练和分类打分。这和之前有了重大的不同。

二、初识声纹

1. 什么是声纹？

Voiceprint 声纹 是用电声学仪器现实的携带言语信息的声波频谱，是由波长频率以及强度等百余种特征维度组成的生物特征，具有稳定性、可测量性、唯一性等特点。

人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，发声器官–舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异。
每个人的语音声学特征既有相对稳定性，又有变异性，不是一成不变的。这种变异可来自生理、病理、心理、模拟、伪装，也与环境干扰有关。

声纹不如图像那样直观展现，在实际分析中，可通过波形图和语谱图进行展现。

2. 声纹识别的原理

人在讲话时使用的发声器官在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异，主要体现在如下方面：

共鸣方式特征：咽腔共鸣、鼻腔共鸣和口腔共鸣
嗓音纯度特征：不同人的嗓音，纯度一般是不一样的，粗略地可分为高纯度（明亮）、低纯度（沙哑）和中等纯度三个等级
平均音高特征：平均音高的高低就是一般所说的嗓音是高亢还是低沉
音域特征：音域的高低就是通常所说的声音饱满还是干瘪

不同人的声音在语谱图中共振峰的分布情况不同，声纹识别正是通过比对两段语音的说话人在相同音素上的发声来判断是否为同一个人，从而实现“闻声识人”的功能。

3. 声纹识别算法的技术指标

声纹识别在算法层面可通过如下基本的技术指标来判断其性能，除此之外还有其它的一些指标，如：信道鲁棒性、时变鲁棒性、假冒攻击鲁棒性、群体普适性等指标，这部分后续于详细展开讲解。

错误拒绝率(False Rejection Rate, FRR) ：分类问题中，若两个样本为同类（同一个人），却被系统误认为异类（非同一个人），则为错误拒绝案例。错误拒绝率为错误拒绝案例在所有同类匹配案例的比例。
错误接受率(False Acceptance Rate, FAR) ：分类问题中，若两个样本为异类（非同一个人），却被系统误认为同类（同一个人），则为错误接受案例。错误接受率为错误接受案例在所有异类匹配案例的比例。
等错误率(Equal Error Rate，EER)：调整阈值，使得误拒绝率(False Rejection Rate，FRR)等于误接受率 (False Acceptance Rate，FAR)，此时的FAR与FRR的值称为等错误率。
准确率(Accuracy，ACC)：调整阈值，使得FAR＋FRR最小，1减去这个值即为识别准确率，即ACC=1 - min(FAR+FRR)
速度：（提取速度：提取声纹速度与音频时长有关、验证比对速度）：Real Time Factor 实时比（衡量提取时间跟音频时长的关系，比如：1秒能够处理80s的音频，那么实时比就是1:80）。验证比对速度是指平均每秒钟能进行的声纹比对次数。
ROC曲线：描述FAR与FRR之间相互变化关系的曲线，X轴为FAR的值,Y轴为FRR的值。从左到右，当阈值增长期间，每一个时刻都有一对FAR和FRR的值，将这些值在图上描点连成一条曲线，就是ROC曲线。
阈值：在接受/拒绝二元分类系统中，通常会设定一个阈值，分数超过该值时才做出接受决定。调节阈值可以根据业务需求平衡FAR与FRR。当设定高阈值时，系统做出接受决定的得分要求较为严格，FAR降低，FRR升高；当设定低阈值时，系统做出接受决定的得分要求较为宽松，FAR升高，FRR降低。在不同应用场景下，调整不同的阈值，则可在安全性和方便性间平平衡，如下图所示：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-k2fkzPHK-1572455807115)(https://p.qlogo.cn/qqmail_head/t8YYQUIrFJf5SQou0w7b9x8huEJp5QofXsDn1GYvibmK1Q1ZiceSJzPFcUGGTE6TiaB9tWgY9LBG30/0)]

4. 影响声纹识别水平的因素

训练数据和算法是影响声纹识别水平的两个重要因素，在应用落地过程中，还会受很多因素的影响。

声源采样率

人类语音的频段集中于50Hz ~ 8KHz之间，尤其在4KHz以下频段
离散信号覆盖频段为信号采样率的一半（奈奎斯特采样定理）
采样率越高，信息量越大
常用采样率：8KHz (即0 ~ 4KHz频段），16KHz（即0 ~ 8KHz频段）

信噪比（SNR）

信噪比衡量一段音频中语音信号与噪声的能量比，即语音的干净程度
15dB以上（基本干净），6dB（嘈杂），0dB（非常吵）

信道

不同的采集设备，以及通信过程会引入不同的失真
声纹识别算法与模型需要覆盖尽可能多的信道
手机麦克风、桌面麦克风、固话、移动通信（CDMA, TD-LTE等）、微信……

语音识别

语音时长（包括注册语音条数）会影响声纹识别的精度
有效语音时长越长，算法得到的数据越多，精度也会越高
短语音（1～3s）
长语音（20s＋）

文本内容

通俗地说，声纹识别系统通过比对两段语音的说话人在相同音素上的发声来判断是否为同一个人
固定文本：注册与验证内容相同
半固定文本：内容一样但顺序不同；文本属于固定集合
自由文本

5. 声纹识别的应用流程

声纹识别(VPR) ，生物识别技术的一种，也称为说话人识别，是从说话人发出的语音信号中提取声纹信息，从应用上看，可分为：

说话人辨认(Speaker Identification)：用以判断某段语音是若干人中的哪一个所说的，是“多选一”问题；
说话人确认(Speaker Verification)：用以确认某段语音是否是指定的某个人所说的，是“一对一判别”问题。

声纹识别在应用中分注册和验证两个主流程，根据不同的应用中，部分处理流程会存在差异，一般的声纹识别应用流程如下图所示：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NNVSSYQX-1572455807116)(https://p.qlogo.cn/qqmail_head/t8YYQUIrFJf5SQou0w7b9x8huEJp5QofXsDn1GYvibmI5cWVa007ghlEhGBnahAdqxyKXXw8XJ5I/0)]

三、语音技术

几大模块及之间的关系：

语音唤醒模块 (Wake up)
声纹识别模块 (Voice Print)
语音识别模块 (ASR)
语义理解模块 (NLP)
对话管理模块 (DM)
语音合成模块 (TTS)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-S5C2Z5ah-1572455807116)(https://p.qlogo.cn/qqmail_head/t8YYQUIrFJf5SQou0w7b9x8huEJp5QofXsDn1GYvibmJJiaTAHjq3j2n3IO5UdBkTF2ayw7gNOt70/0)]

流程：

[外链图片转存中…(img-ppXjrQlZ-1572455807117)]

评判指标：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bVn6N1QB-1572455807117)(https://p.qlogo.cn/qqmail_head/t8YYQUIrFJf5SQou0w7b9x8huEJp5QofXsDn1GYvibmKdrzpIx4QSnQlEIM1eKc3KHanDtz2RHpE/0)]

输入部分：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fv9a6yhE-1572455807118)(https://p.qlogo.cn/qqmail_head/t8YYQUIrFJf5SQou0w7b9x8huEJp5QofXsDn1GYvibmKjRphr0hAt7YFeibBKREP3MrzAf9dwiaP6Y/0)]

训练集：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MdIOyZCo-1572455807118)(https://p.qlogo.cn/qqmail_head/t8YYQUIrFJf5SQou0w7b9x8huEJp5QofXsDn1GYvibmK13jkJtNZSAdPjW5Khge91Jsichiada0HW8/0)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-w9OtEkSS-1572455807118)(https://p.qlogo.cn/qqmail_head/t8YYQUIrFJf5SQou0w7b9x8huEJp5QofXsDn1GYvibmJPaf4NZAnVp7mmdR2lETZJTSaWJj2ZokE/0)]

语音唤醒:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DlZ3ux5o-1572455807119)(https://p.qlogo.cn/qqmail_head/t8YYQUIrFJf5SQou0w7b9x8huEJp5Qofx9LAnmjicdeCBlHvdlkEaMqwlpsibaEVU2Wac2tic5V7w8/0)]

设计和影响因素:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ORt6NM1W-1572455807119)(https://p.qlogo.cn/qqmail_head/t8YYQUIrFJf5SQou0w7b9x8huEJp5Qofx9LAnmjicdeBNDar6nPZibTwrO2B67e3lAPC1HQAmiamPg/0)]

声纹确认:

流程:

[外链图片转存中…(img-w6JVyLju-1572455807119)]

设计和影响因素:

[外链图片转存中…(img-suVMUnuz-1572455807120)]

总结:

[外链图片转存中…(img-nMfypiul-1572455807120)]

语音合成:

应用场景

[外链图片转存中…(img-kuek1MES-1572455807122)]

流程:

[外链图片转存中…(img-klNgLZHm-1572455807122)]

基于深度学习的模型训练

[外链图片转存中…(img-1Wg0eVie-1572455807122)]

指标

[外链图片转存中…(img-yD0EqJ3E-1572455807123)]

总结

[外链图片转存中…(img-QCuf3UCC-1572455807123)]

四、声纹识别算法、资源与应用

（一）算法

Speaker recognition以2012年为分水岭，由statistics-based machine learning，跨到了以deep learning为主线的算法。随后，bottleneck feature、d-vector、x-vector、j-vector等DNN-based的系统陆续出现，随后attention mechanism、Learning to rank等思想被用于改良训练过程。

对这些算法按照3类分别做简要阐述：1）iVector-based；2）dnn-based；3）基于attention mechanism、Learning to rank等思想的改良算法。

序号	类型	注释
1	iVector-based	iVector/PLDA，最佳基线模型
2	DNN-based	x-vector，Bottleneck Feature，d-vector，j-vector等，基本思想都是从神经网络中提取某层的权重作为说话人的身份向量。然后有两种说法：1. 直接计算 vector 之间的 Cosine Distancd; 2. 或者再加个 back-end 分类器。x-vector，d-vector，j-vector，BNF等都可以归纳到 embeddings 类型上。End-to-End，即给定 Speech，直接从网络给出拒绝或接受。
3	attention mechanism、Learning to rank 等改良类	Attention mechanism 在 CV 上的效果非常优秀，Google 在 Speech Recognition 和Speaker Recognition 上做了有效的应用。Learning to rank 也是被 Google 用于 Face recognition 取得不错的效果，被借鉴用来做 Speaker recognition 的。Triplet Loss 就是 Learning to rank 步骤中的一个 similarity function[6][15]

iVector-based

2011年，第十一届全国人机语音通讯学术会议（NCMMSC2011）上，大神邓力给伙计们开了小灶，分享了他在微软DNN-based speech recognition研究结果（30% relative improvement），群情激奋。就在前一年，ABC（Agnitio/BUT/CRIM）在NIST SRE 2010 workshop上分享了JFA（Joint Factor Analysis，联合因子分析）的改良版（即iVector[1][16]），群情激奋。

iVector中Total Variability的做法 $(M = m + T w) $ ，将JFA复杂的训练过程以及对语料的复杂要求，瞬间降到了极致，尤其是将Length-Variable Speech映射到了一个fixed- and low-dimension的vector（identity vector，即iVector）上。于是，机器学习爱好者群情激奋，所有机器学习的算法都可以用来解决声纹识别的问题了。

PLDA（Probabilistic Linear Discriminant Analysis，概率形式的LDA[17]）是生成型模型（generated model），被用于对iVector进行建模、分类，实验证明其效果最好。PLDA是一种信道补偿算法，因为iVector中，既包含说话人的信息，也包含信道信息，而我们只关心说话人信息，所以才需要做信道补偿。在声纹识别训练过程中，我们假设训练语音由I个说话人的语音组成，其中每个说话人有J段不一样的语音，并且我们定义第i个说话人的第j段语音为Xij。那么，我们定义Xij的生成模型为：

$X_{ij} = \mu+Fh_i+Gw_{ij}+\varepsilon_{ij}$

F、G是矩阵，包含了各自假想变量空间中的基本因子，这些因子可以看做是各自空间的基底（basis）。 F的每一列，相当于类间空间的特征向量；G的每一列，相当于类内空间的特征向量。而向量Hi和Wij可以看做是该语音分别在各自空间的特征表示。如果两条语音的hi特征相同的似然度越大，那么它们来自同一个说话人的可能性就越大。

PLDA的模型参数包括4个，mean、F和G、sigma，采用EM算法迭代训练而成。通常，我们采用简化版的PLDA模型，忽略类内特征空间矩阵的训练[18]，只训练类间特征空间矩阵F。即：
$X_{ij} = \mu+Fh_i+\varepsilon_{ij}$

DNN-based

早期DNN-based Speaker Recognition，用DNN代替GMM去计算Posterior Statistics，延续了DNN-based Speech Recognition的研究成果。2014年，Google提出d-vector[3]后，一系列的DNN-based方法被提出，如x-vector、j-vector等[2][8][9]。下面分别介绍下此类算法的基本思路。

d-vector

DNN训练好后，提取每一帧语音的Filterbank Energy 特征作为DNN输入，从Last Hidden Layer提取Activations，L2正则化，然后将其累加起来，得到的向量就被称为d-vector。如果一个人有多条Enroll语音，那么所有这些d-vectors做平均，就是这个人的Representation。DNN的网络结构如图所示。(图1.2 用于提取d-vector的DNN模型)

[外链图片转存中…(img-0f1EmOyd-1572455807123)]

因为d-vector是从Last Hidden Layer提取的，通过移除Softmax Layer，可以缩减Model Size。而且，这也可以让我们在不改变Model Size的情况下，在训练过程中使用更多的说话人数据来做训练（因为Softmax Layer被移除了，不用考虑Softmax Layer的节点数）。DNN的训练过程，可以详细阅读参考文献[3]。

x-vector

x-vector是Daniel Povey教授在论文[13]中提出的概念，用于描述从TDNN网络中提取的embeddings特征，如图所示。(图1.3 TDNN-based Segment-Level embeddings Diagram)

[外链图片转存中…(img-y8NFW66g-1572455807124)]

上面的网络结构中，有一个Statistics Pooling Layer，负责将Frame-level Layer，Map到Segment-Level Layer，计算frame-level Layer的Mean和standard deviation。TDNN是时延架构，Output Layer可以学习到Long-Time特征，所以x-vector可以利用短短的10s左右的语音，捕捉到用户声纹信息，在短语音上拥有更强的鲁棒性。TDNN的训练方式可以参考文献[13]。

提取x-vector，LDA降维，然后以PLDA作为back-end，便可以做Verification。

开源代码：传送门

j-vector

提取i-vector依赖于较长（数十秒到数分钟）的语音，而Text-Dependent Speaker Verification任务中，语音很短（甚至只有1秒左右），所以i-vector不适用于Text-Dependent Speaker Verification。Text-Dependent Speaker Verification属于Multi-task，既要验证身份，又要验证语音内容。j-vector[8]就是为了解决Text-Dependent Speaker Verification而提出的，如图1.4所示，j-vector从Last Hidden Layer提取。

论文[8]中指出，相比于Cosine Similarity、Joint PLDA，使用Joint Gaussian Discriminant Function作为back-end时，实验效果最佳。

[外链图片转存中…(img-YbhO67pG-1572455807124)]

参考文献

[1] Niko Brümmer, Doris Baum, Patrick Kenny, et al., “ABC System description for NIST SRE 2010”, NIST SRE 2010.
[2] David Snyder, Pegah Ghahremani, Daniel Povey, “Deep Neural Network-based Speaker Embeddings for END-TO-END Speaker Verification”, Spoken Language Technology Workshop , 2017 :165-170.
[3] Variani, Ehsan, et al. “Deep neural networks for small footprint text-dependent speaker verification.” Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on. IEEE, 2014.
[4] Liu, Yuan, et al., “Deep feature for text-dependent speaker verification.” Speech Communication 73 (2015): 1-13.
[5] Heigold, Georg, et al., “End-to-end text-dependent speaker verification.” Acoustics, Speech and Signal Processing (ICASSP), 2016 IEEE International Conference on. IEEE, 2016.
[6] Zhang Chunlei, and Kazuhito Koishida. “End-to-End Text-Independent Speaker Verification with Triplet Loss on Short Utterances.” Proc. InterSpeech 2017 (2017): 1487-1491.
[7] Li Chao, et al., “Deep Speaker: an End-to-End Neural Speaker Embedding System.” arXiv preprint arXiv:1705.02304 (2017).
[8] Nanxin Chen, Yanmin Qian, and Kai Yu, “Multi-task learning for text-dependent speaker verificaion,” in INTERSPEECH, 2015.
[9] Ziqiang Shi, Mengjiao Wang, Liu Liu, et al., “A DOUBLE JOINT BAYESIAN APPROACH FOR J-VECTOR BASED TEXT-DEPENDENT SPEAKER VERIFICATION”,
[10] FARR Chowdhury,Q Wang, IL Moreno, L Wan, “Attention-Based Models for Text-Dependent Speaker Verification”, Submitted to ICASSP 2018.
[11] C Zhang, K Koishida, “End-to-End Text-Independent Speaker Verification with Triplet Loss on Short Utterances”, Interspeech, 2017.
[12] Arsha Nagrani, “VoxCeleb: a large-scale speaker identification dataset”
[13] D Snyder, D Garcia-Romero, D Povey, S Khudanpur, “Deep Neural Network Embeddings for Text-Independent Speaker Verification”, Interspeech , 2017 :999-1003.
[14] T. Fu, Y. Qian, Y. Liu, and K. Yu, “Tandem deep features for textdependent speaker verification”, Proc. InterSpeech, 2014.
[15] Hervé Bredin, “TristouNet: Triplet Loss for Speaker Turn Embedding”, ICASSP 2017.
[16] Najim Dehak, Reda Dehak, et al., “Support Vector Machines versus Fast Scoring in the Low-Dimensional Total Variability Space for Speaker Verification”, InterSpeech, 2009.
[17] SJD Prince, JH Elder, “Probabilistic Linear Discriminant Analysis for Inferences About Identity”, Proceedings, 2007 :1-8.
[18] Y Jiang, AL Kong, L Wang, “PLDA in the i-supervector space for text-independent speaker verification”, Hindawi Publishing Corp. , 2014 , 2014 (1) :29.

（二）资源

Kaldi

最流行的语音技术研究平台，没有之一。代码运行鲁棒性强、架构良好，便于算法修改、定制。

如果你是高校科研人员，工程实现能力有限，那么没关系，你只要懂一点Shell、Python或Perl脚本即可顺利开展实验。
如果你是工业界开发人士，完全可以直接拿来商用，KALDI遵循 Apache licence
如果你是自由开发者，完全可以基于KALDI做一些开发，为企业提供语音服务

源码地址：传送门
语料集合：传送门

No.	Recipe	Detail
1	egs/sre08	i-vector/plda的基础版本
2	egs/sre10	i-vector/plda、dnn-ubm/i-vector/plda
3	egs/sre16	x-vector/plda
4	egs/callhome_diarization	i-vector based speaker diarization

TensorFlow-based Deep Speaker

实现ResNet网络上的TE2E（Tuple-base end-to-end）Loss function训练方式。安装TensorFlow、Python3和FFMPEG（文件格式转换工具）后，准备好数据，即可一键训练。只可惜验证部分还没做，而且GRU没实现、tensor实现部分也不严谨，可详细阅读代码和论文，并贡献下您的代码。
- 源码地址：传送门
- 论文地址：传送门
- 数据集合：传送门
PyTorch-based Deep Speaker

基于百度论文[1]，实现了ResNet + Triplet Loss。不过在牛津大学的Voxceleb库上，EER比论文[2]所宣称的（7.8%）要高不少，看来实现还是有改进空间。Owner在求助了，大家帮帮忙contribute。
- 源码地址：传送门
- 论文地址：传送门
TristouNet from pyannote-audio

一个音频处理工具箱，包括Speech change detection, feature extraction, speaker embeddings extraction以及speech activity detection。其中speaker embeddings extraction部分，包括TristouNet的实现。
- 源码地址：传送门
- 论文地址：传送门
CNN-based Speaker verification

Convolutional Neural Networks（卷积神经网络）在声纹识别上的试验，一个不错的尝试，可以与TDNN/x-vector做下对比。
- 源码地址：传送门
- 论文地址：传送门
- 数据集合：传送门

参考文献

[1] Li Chao, et al., “Deep Speaker: an End-to-End Neural Speaker Embedding System.” arXiv preprint arXiv:1705.02304 (2017).
[2] Arsha Nagrani, “VoxCeleb: a large-scale speaker identification dataset”.

声纹识别 · Triplet Loss

End-to-End Speaker Recognition往往是data-driven的，需要海量marked data才能取得预期效果。无论是Google d-vector，还是Daniel x-vector、Baidu Deep Speaker，其迭代速度和有效利用data的程度，仍然有较大改进空间，文献[1], [2], [3]就是朝着这些方向所做的尝试。

本节先对Triplet Loss做简单介绍。

Triplet Loss

2015年，谷歌的FaceNet[4]使用Triplet Loss在大规模人脸识别中取得了很大的成功。受此启发，在声纹识别领域，也有不少的文章使用Triplet loss，比如Zhang[3]、Baidu Deep Speaker[5]、Bredin[6]等。它的优点是，直接使用embeddings之间的相似度作为优化的成本函数（Loss Function），最大化【anchor】和【positive】的相似度，同时最小化【anchor】和【negative】的相似度。这样，在提取了说话者的embedding之后，声纹验证和声纹识别任务就可以简单地通过相似度计算实现。(图1 谷歌FaceNet网络框架)

[外链图片转存中…(img-RginLDC7-1572455807124)]

Triplet Loss基本思路是：构造一个三元组，由anchor（锚，可以理解为一个参考语音）、positive（相对anchor而言）和negative（相对anchor而言）组成。然后，用大量标注好的三元组作为网络输入，来学习DNN参数。其中，anchor和positive是来自于同一个人的不同声音，anchor和negative是来自不同的人的声音。通过DNN获取各自的embeddings后，计算anchor和positive的相似度，以及anchor和negative的相似度，然后最大化ap（anchor与positive）的相似度，最小化an（anchor与negative）的相似度。

计算相似度有两种方法，一种是cosine相似度，值越大，相似度越高，正如Baidu Deep Speaker所采用的；一种是使用欧几里得距离，和FaceNet所使用的一样，值越小，相似度越高。

cosine 相似度的训练过程如图2所示：(图2 cosine相似度训练过程)

[外链图片转存中…(img-a3JpVPJL-1572455807125)]

其成本函数如下所示：
$\sum^N_{i=0}[s_i^{an}-s_i^{ap}+\alpha]_+$
欧几里得距离相似度的训练过程如图3所示：

[外链图片转存中…(img-Fyepr2ki-1572455807125)]

其成本函数如下所示：
$\sum^N_I[||f(x^a_i)-f(x^p_i)||^2_2-||f(x^a_i)-f(x^n_i)||^2_2+\alpha]_+$

参考文献：

[1] Heigold, Georg, et al., “End-to-end text-dependent speaker verification.” Acoustics, Speech and Signal Processing (ICASSP), 2016 IEEE International Conference on. IEEE, 2016.
[2] FARR Chowdhury, Q Wang, IL Moreno, L Wan, “Attention-Based Models for Text-Dependent Speaker Verification”, Submitted to ICASSP 2018.
[3] C Zhang, K Koishida, “End-to-End Text-Independent Speaker Verification with Triplet Loss on Short Utterances”, Interspeech, 2017.
[4] Schroff, F., Philbin, J., “FaceNet: A Unified Embedding for Face Recognition and Clustering. The IEEE Conference on Computer Vision and Pattern Recognition”, CVPR 2015, pp. 815- 823.
[5] Li Chao, et al., “Deep Speaker: an End-to-End Neural Speaker Embedding System.” arXiv preprint arXiv:1705.02304 (2017).
[6] Bredin H., “TristouNet: Triplet Loss for Speaker Turn Embedding[J]”, 2017:5430-5434.

声纹识别 · 改良算法之GE2E Loss

End-to-End Speaker Recognition往往是data-driven的，需要海量标注数据才能取得预期效果。无论是Google d-vector，还是x-vector、Baidu Deep Speaker，其训练速度和有效利用data的程度，仍然有较大改进空间，文献[1], [2], [3]就是朝着这些方向所做的尝试。

本节继续介绍GE2E Loss。

GE2E Loss

Generalized end-to-end (GE2E) loss是谷歌在论文[4]中提出的新损失函数，还是比较有创意的。与TE2E loss和Triplet loss相比，它每次更新都和多个人相比，因此号称能使训练时间更短，说话人验证精度更高。

其基本思路如图1所示，挑选 N个人，每人 M句话，通过图示的顺序排列组成Batch，接着通过LSTM神经网络提取N*M句话的embeddings，然后求取每个embedding和每个人平均embedding的相似度，得到一个相似度矩阵。最后通过最小化GE2E loss使得相似矩阵中有颜色的相似度尽可能大，灰色的相似度尽可能小，即本人的embedding应该和本人每句话的embedding尽可能相近，和其他人的embedding尽可能远离，从而训练LSTM网络。(图1 GE2E系统架构(不同的颜色表示不同的说话者))

[外链图片转存中…(img-o395SX9i-1572455807125)]

相似度矩阵的定义如下公式所示 $(1\leq j\leq N,1\leq i\leq M,1\leq k\leq M)$ :
$S_{ji,k} = w\cdot \cos(e_{ji},c_k)+b$
其eij中表示第人第句话对应的embedding，w和b是要训练的参数（约束 $w > 0$ ）， $c_k$ 是第 $k$ 人的embedding，由 $M$ 句话的embeddings求平均得到，即:
$c_k = \frac1M\sum^M_{m-1}e_{km}$
为了使得相似度矩阵中有颜色的相似度尽可能大，灰色的相似度尽可能小，有两种损失函数，第一种是softmax loss，即：
$L_s(e_ji) = \log{\sum^M_{k-1}exp(S_{ji,k})-S_{ji,j}}$
或者写成：
$L_s(e_{ji}) = -\log{\frac{exp(S_{ji,j})}{\sum^M_{k-1}exp(S_{ji,k})}}$
上式中（和论文不一样，本人认为应该加个负号），最小化损失函数 $L_s(e_{ji})$ , $S_{ji,j}$ 就要尽可能大，即优化使得本人和本人的每一句话都比较相似。

第二种是contrast loss，定义如下：
$L_c(e_{ji})=1-\sigma(S_{ji,j})+\max_{1\leq kLc(eji)=1−σ(Sji,j)+1≤k<N,k=jmaxσ(Sji,j)$

而GE2E loss定义为以上两种损失函数之和：
$L_g=\sum_{j,i}(L_s(e_{ji})+L_c(e_{ji}))$
此外，为了训练的稳定性，论文中建议在计算本人和本人某句话相似度的时候，不要让该句话的embedding来参与计算本人的embedding，即实际上：
$c^{(-1)}_j=\frac1{M-1}\sum^M_{m\ne i}e_{jm}$

$S_{ji,k}=\begin{cases} w\cdot \cos(e_{ji},c^{-i}_j+b) if k=j\\ w\cdot \cos(e_{ji},c_k+b) other wise \end{cases}$

参考文献

[1] Heigold, Georg, et al., “End-to-end text-dependent speaker verification.” Acoustics, Speech and Signal Processing (ICASSP), 2016 IEEE International Conference on. IEEE, 2016.

[2] FARR Chowdhury,Q Wang, IL Moreno, L Wan, “Attention-Based Models for Text-Dependent Speaker Verification”, Submitted to ICASSP 2018.

[3] C Zhang, K Koishida, “End-to-End Text-Independent Speaker Verification with Triplet Loss on Short Utterances”, Interspeech, 2017.

[4] Wan L, Wang Q, Papir A, et al. “Generalized End-to-End Loss for Speaker Verification”, IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2018).

大佬的回答：

传送门

课程：

同盾大学视频：传送门

开源资源整理：

d-vector：
https://github.com/rajathkmp/speaker-verification

https://github.com/wangleiai/dVectorSpeakerRecognition
E2E，Deep Speaker：
tensorflow实现：https://github.com/philipperemy/deep-speaker

pytorch实现：https://github.com/qqueing/DeepSpeaker-pytorch

引用：

AI老司机带你认识声音黑科技：声纹识别

语音技术实战介绍

声纹识别的应用实践

小白声纹识别

你可能感兴趣的:(【记录】声纹识别学习记录)

redis秒杀之lua脚本 stand_forever redis redis lua 数据库
Lua脚本核心原理：1.单线程模型：Redis使用单线程处理命令，所有命令按顺序执行。Lua脚本会被视为一个整体任务，执行期间不会被其他命令中断。2.原子性保证：将库存检查、扣减、订单记录等多个操作放在一个脚本中，会连续执行，中间不会有其他客户端操作插入。保证了脚本的原子性。3.无需锁机制：由于Redis的单线程特性，Lua脚本天然避免了并发冲突，无需额外加锁。实现流程：1.首先库存预热：活动开始
【感恩日记第12篇】记录孩子的三个闪光点陪娃走过四年级
昨天我们一家三口出去徒步了。去到大自然里是我们共同喜欢的放松方式。儿子，你第一个闪光点，是你战胜自己在恐惧之后接着前进。我们爬的是野山，无意中进入的是北京植物园后山的自然保护区，而非游览区。我们在林木中穿行，虫子非常多，当并不知道往上走什么时候能到达大路的时候。突然路遇多半墙的密集虫子，三面墙体全是。儿子瞬间大哭，不肯往前走了。我也只能硬着头皮往前走，因为实在不想往回走再看到那面墙了。所幸，我们很
【OpenCV+Cpp】day04图像混合
【OpenCV+Cpp】day04图像混合文章目录【OpenCV+Cpp】day04图像混合前言一、理论——线性混合操作二、相关API三、代码演示前言继续记录C++图像处理的学习过程，学习课件参考B站OpenCV_C++图像处理课程。OpenCV_C++图像处理课程本文分为理论、相关API和代码实现部分。一、理论——线性混合操作图像的线性混合即将两张图像以线性方式混合为一张图像，具体公式如下。以上
一些碎碎念俗素人
花开的声音最近很长一段时间都没有再写过东西了，盯着空白半天也不知道该打些什么字，脑袋空空的。天天在宿舍教室餐厅三点一线的生活，日子略显枯燥无味，自然也就没有留心观察享受生活，少了很多可供记录的素材。这一阵子看的书也比较少了，上一周从图书馆借回来的一本小说，到现在还是在角落里吃灰。电子书的书架上张爱玲的书，这几天也没有打开过，甚至现在没有了想买书的欲望。之前写了两篇文章投稿，稿子出去之后就再没了音讯
自动化测试准备鱼鱼说测试自动化测试
什么是自动化测？Python接口自动化测试零基础入门到精通（2025最新版）首先理清自动化测试的概念，广义上来讲，自动化包括一切通过工具（程序）的方式来代替或辅助手工测试的行为都可以看做自动化，包括性能测试工具（loadrunner、jmeter）,或自己所写的一段程序，用于生成1到100个测试数据。狭义上来讲，通工具记录或编写脚本的方式模拟手工测试的过程，通过回放或运行脚本来执行测试用例，从而代
os.path.join坑的记录半步江南
importrequestsimportosfromos.pathimportjointar=r"\219\1.html"root=os.getcwd()print(root)file_path=join(str(root),str(tar))print(file_path)输出为D:\workdir\py-dir\crapt_web_siteD:\219\1.html与需要的D:\workdir
【记录幸福】毕业季，那些幸福的留言——卞欣悦篇吴老师教语文
致吴老师的一封信亲爱的吴老师：时光荏苒，一年也不过弹指一挥间。再回想语文课上的点点滴滴，心里满是欢喜。回想这一年，甜蜜也好，悲伤也罢，但只要有你们一路同行，有您陪伴左右，就不觉得孤单。从七年级到九年级，语文老师不知换了多少个，但，大多数讲课都是死板又无趣，总是让人觉得昏昏欲睡，但是，上您的课总能让我在“死”的文字中找到许多“活”的趣味儿，我很开心，也很感激能有一位像您这样的语文老师。有时候也经常会
拨云见日融和之路
三和實修《強人手記》日期:2021.9.11姓名：春来想成為什麼樣的人：有力量有担当，协助有缘人点亮心灯，正能量的种子。實修要點：一、近期成长点记录：1、如实呈现做的更好了2、对境觉知逆行做的更好了3、做事情积极主动了，更用心二、正向單向關注：1做了女儿爱吃的菜，她说在家里吃饭好幸福，离家几天就知道家里的好了。2轲杰在外接受考验一个星期回来，还赚了钱，理完发整个人的气质大改变，师父太厉害了，这才是
20210515成长日记 samantha
1.呼吸法。2.柠檬水，西芹汁，果汁。3.小米粥午餐。4.拆书法学习1）本周的学习,我的目标是什么?了解拆书法,学会拆读一本书。2)整个听课和作业完成的过程中发生了什么?a.听着老师的讲课和完成作业,一层层升级了自己的拆书思维。打开了新的思维,不正确的学习方式让我产生焦虑,追逐干货。大量的听课追逐干货,如果能把这些学到的用到极致就是最大的成长和收获。听课的过程中有陷入知识为中心的思维而去记录老师说
❤️好巧，怎么说的是你。我是你的傻蛋呀
图片发自App一直觉得，喜欢截屏聊天记录的人，对于幸福的感受，都不是那么清晰。大概是太没有安全感了，所以才总是想要寻找一些证据，来证明自己遇到的是爱情。才会在看到那些用文字表达出来的爱意时，就迫不及待地截图保存。以为那些字句，就是他爱你的表现。真正的爱情哪里需要证明，他爱不爱你，没有人比你更清楚了。为什么生活中有那么多女生喜欢截屏？说到底还是因为他给的爱太少了啊，少到你只能通过那些没有温度的文字，
学会放空自己甜果铺子
文章主题：放空自己（日更千字文）世界球王贝利在20多年的足球生涯里，曾经参加过1364场比赛，共踢进1282个球。他还创造了个人在单场比赛中射进8个球的辉煌战绩。当他个人进球记录满1000个时，记者问他：“您哪个球踢得最好？”贝利笑了笑，意味深长地说：“下一个！”贝利就是把荣誉清空，继续向前走！成长路上，因为负累的东西太多，人难免会迷失。人生最好的境界，就是时刻有放空自己的智慧。今日金句：有首歌里
mysql学习记录7.22 woshishui68892
记录一下在学习mysql时避免忘记的内容。日期计算MySQL提供了一些函数，可用于对日期执行计算，例如，计算年龄或提取部分日期。要确定您的每只宠物几岁，请使用该TIMESTAMPDIFF()功能。它的参数是要表示结果的单位，以及两个日期之间的差值。以下查询为每只宠物显示出生日期，当前日期和年龄（以年为单位）。一个别名（age）是用来制造最终输出列标签更有意义。SELECTname,birth,CU
学习游戏制作记录（敌人的状态机，敌人和玩家的共同继承以及实现敌人的移动和待机）7.20 ★YUI★ 学习游戏 unity c#
1.敌人的状态机敌人的状态与玩家类似，同样需要敌人，敌人状态和管理状态的状态机，让我们创建三个脚本：Enemy，EnemyState，EnemyStateMachine。EnemyState脚本：publicclassEnemyState//不需要继承，因为它将作为父类{protectedEnemyStateMachineenemyStateMachine;//状态机protectedEnemye
夜夜施肥盼果来，颗颗甜香不负君「芭芭农场喜提鲜果」小石头JS
前几日见友友Athena的《我有一个“种菜梦”，如今它终于成真了》文章，刚好也是我家芭芭农场收获之时，一直想写篇文章记录一下，但因忙碌一直推到现在，实在不该。与A君合种芭芭农场已有半年有余，如今收获12枚黄心猕猴桃，真是不负众望啊。收获当天过于忙碌，黄心猕猴桃带回家就摞在一堆快递上了，今日忽然想起，立马拆开查看，并试吃一颗。摸起来不太软的黄心猕猴桃，削了皮是金灿灿的黄心，细小的黑色籽粒均匀分布在两
Leetcode力扣解题记录--第189题（巧思数组翻转）
题目链接：189.轮转数组-力扣（LeetCode）题目描述给定一个整数数组nums，将数组中的元素向右轮转k个位置，其中k是非负数。示例1:输入:nums=[1,2,3,4,5,6,7],k=3输出:[5,6,7,1,2,3,4]解释:向右轮转1步:[7,1,2,3,4,5,6]向右轮转2步:[6,7,1,2,3,4,5]向右轮转3步:[5,6,7,1,2,3,4]示例2:输入：nums=[-1
Navicat 连接不上阿里云服务器中安装的宝塔面板中的Mysql服务器一只程序熊阿里云服务器云计算
项目场景：就今天在做宝塔的时候遇到一个新问题，在之前的阿里云服务器中都没有发现过这个问题！特此记录解决方案：本地连接不上云服务器主要是这几个原因：1.云服务器官方的安全组问题(安全组是否放行目标端口)2.云服务器内部的服务端口问题(服务器内部端口是否向外部开放)但是今天我又在云服务器安全组内部发现了一个新的问题：3.云服务器中设置了仅本机访问的ipv6的地址，但是仍然访问不了。可能是因为navic
力扣热题100 - 矩阵：矩阵置零菲英的学习笔记力扣热题100 leetcode 矩阵算法 c++go
本题主要考察代码能力。题目描述：题号：73给定一个mxn的矩阵，如果一个元素为0，则将其所在行和列的所有元素都设为0。请使用原地算法。解题思路：思路一：利用第一行第一列记录0算法思路：1、用2个变量记录矩阵第1行、第1列有没有02、遍历矩阵，如果遇到0则将其对应的第1行和第1列元素置03、遍历矩阵，若元素对应的第1行或第1列元素为0则将其置0时间复杂度：O(N)空间复杂度：O(1)C++//C++
【日记星球第532篇】——感恩日记神秘园的简书
2021年10月30日星期六趁着新一期的瑜伽班还没开营，给自己放个假，睡个大懒觉。一下到7点多才自然醒，还躺着拿手机看了会儿信息，磨磨蹭蹭到八点才起来。生活常常给我们比想要的更多，那就清点一下自己拥有什么，记录下这些值得感恩的事吧：1.感恩上周末邻居送来几颗刚摘的新鲜大柿子给我们，真好！2.感恩上周末妈妈给我做了美味的大锅菜和千丝饼！3.感恩这周工作一切顺利开心！4.感恩同事经常分享好吃的零食水果
2023-11-08 低代码云MES
万界星空科技半导体MES应用工艺流程：半导体制造涉及多个工艺步骤，包括晶圆制备、沉积、刻蚀、离子注入、扩散、封装等。MES系统可以在每个工艺步骤中发挥关键作用。01、晶圆制备在晶圆制备阶段，MES系统可以监测晶圆的生产状态，记录晶圆的特性参数，并确保按照计划进行。02、刻蚀和沉积刻蚀和沉积是半导体制造中的关键步骤，要求高度精密的控制。MES系统可以监控刻蚀和沉积过程，确保薄膜的均匀性和厚度。03、
记录快乐的读书时光林姐_健康生活
“魔法人生·悦读俱乐部”第21天打卡（《业力管理》第97页~第112页）：生命终究是脆弱的，十几岁的少年骑电动车和三轮车发生车祸，人当场没了，可以想象到父母撕心裂肺的痛…到底是谁的错？孩子的胆大？父母的放纵？车主的粗心大意？揪谁的错没有意义，流逝的生命已无法挽回，安全警钟必须长鸣！一、今天阅读的有哪些重点内容，对我有哪些启发今天读了业力管理法则五：停止做决定1.“极简主义”设计，只有礼盒图片，没有
Linux-Mysql 日志
文章目录（一）二进制日志（二）错误日志（三）慢查询日志此处主要记录关于常用日志的作用和用法（一）二进制日志主要用于数据备份1）登入数据库，查看二进制日志是否打开，默认是OFF状态showvariableslike'%log_bin%'2）进入配置文件vim/etc/my.cnf添加以下参数log-bin=mysql-binserver_id=2#id必须唯一binlog_format=ROWexp
Spring boot+LogBack+MDC实现链路追踪十一技术斩 java 后端 springboot spring
MDC介绍MDC(MappedDiagnosticContext，映射调试上下文)是log4j、logback及log4j2提供的一种方便在多线程条件下记录日志的功能。MDC可以看成是一个与当前线程绑定的哈希表，可以往其中添加键值对。MDC中包含的内容可以被同一线程中执行的代码所访问。当前线程的子线程会继承其父线程中的MDC的内容。当需要记录日志时，只需要从MDC中获取所需的信息即可。API说明：
Linux-系统日志简介兔子王cool Linux基础 linux 服务器运维
Linux-系统日志简介1、日志的介绍日志文件记录了时间，地点，人物，事件四大信息，故系统出现故障时，可以查询日志文件。系统的日志文件默认都集中放置到/var/log/目录内，其中又以message记录的信息最多。2、日志的重要性体现日志文件的重要性主要体现在以下三方面：解决系统方面的错误解决网络服务的问题过往事件记录日志文件的权限通常是设置为root能够读取而已。由于日志文件可以记载系统很多的详
Linux日志-message日志 dessler Linux进阶 #Linux日志 linux 服务器 java
作者介绍：简历上没有一个精通的运维工程师。希望大家多多关注作者，下面的思维导图也是预计更新的内容和当前进度(不定时更新)。Linux进阶部分又分了很多小的部分,我们刚讲完了Linux基础软件，下面是Linux日志。Linux系统中的日志是记录系统活动和事件的重要工具，它们可以帮助管理员监视系统状态、调查问题以及了解系统运行状况。主要涉及到系统日志，登录日志，定时任务日志，监控日志，崩溃日志，二进制
Java Web项目Dump文件分析指南
目录1.Dump文件的类型与作用2.生成Dump文件的方法3.分析Dump文件的工具4.分析步骤与常见问题解决5.最佳实践与预防在JavaWeb项目中，dump文件是JVM（Java虚拟机）在发生崩溃、内存溢出或特定事件时生成的内存快照文件，用于诊断性能问题、内存泄漏或线程死锁。这些文件通常分为堆转储（heapdump）和线程转储（threaddump）。堆转储记录对象内存分配情况，而线程转储捕捉
281129-李晏林-2022/12/6【day56】尘心_aa8c
学《于敏洪案例》第五天今天听民于敏洪案例，学了今天感觉有点疲惫，在听课过程中最大的促动还是在于每天及时送自己鼓励，这件事情，有再做没做好，也没做好精准的数据统计，不养成习惯，对于自己来说会成很大问题，可能这个学这个课程一结束，没过多久这方法就被自己忘于脑后。先给自己制定确实可量化的指标，刚开始，先给自己送20个鼓励，每完成5个做次记录。鼓励分为明的鼓励，与自我暗示。学习于敏洪案例的本质是什么？从于
MySQL存储引擎核心：了解Buffer Pool与Page管理机制 hdzw20 mysql 数据库
MySQL存储引擎核心：了解BufferPool与Page管理机制1.BufferPool：数据库的高速缓存1.1基本概念作用：缓存表数据与索引数据，减少磁盘IO组成：缓存数据页（Page，默认16KB）控制块（约800字节，记录表空间、页号、缓存页地址等）默认大小：128MB（控制块额外占用约5%内存）1.2工作流程查询过程：通过哈希表（Key=表空间号+页号）判断页是否在BufferPool缓
磨课心得爬坡启动
这几天，严格的说是一个星期以来，参加中心学校选送县级参赛教师的磨课。参赛课题是人教版小学数学三年级上册分数单元的《认识几分之几》到《分数的简单应用》共五个课题中的一个。今天早上已经抽签定下来，我们乡镇参赛教师抽到的课题是五个参赛课题的第二个课时——《同分母分数大小的比较》，所以这个课题今天下午又给这位参赛老师听了第二遍。通过这几天参与磨课，收获颇多，简要记录于下。一、进一步认同了黄爱华老师所说的“
大脑也需要休息，需要保养剑飞在思考
image1有没有这种感觉，就是在晚上10点以后，如果有事情没有立刻去做，就会拖拖拉拉。为什么不鼓励熬夜呢？因为晚上这段时间，人的整体意志力不是特别强。从时间安排角度来说，强度和质量都不够。早一点睡，早一点起，反而会更好一些。每天衡量效率高不高的一个标准，不是看睡之前多么疲劳，而是多么不疲劳。在时间记录体系里，有一个标签是『健康休闲』。“休息一下”，是指发呆的情况，或者是大脑不知道做了什么，不知道
jvm分析篇---1、先认识下dump文件布朗克168 jvm jvm java 内存 dump
目录一、简介二、生成方式三、JavaWeb项目配置参数四、最佳实践一、简介Dump文件是JVM在运行过程中生成的内存快照文件，主要用于诊断Java应用的内存问题（如内存泄漏、OOM错误）和线程状态分析。在JavaWeb项目中，常见的dump文件类型包括：堆Dump（HeapDump）记录JVM堆内存中所有对象的详细信息，包括对象类型、引用关系和内存占用。$$\text{文件大小}\approx\t
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f