James_Bobo

声纹识别知识整理

关于声纹识别的算法及知识层出不穷，一文带你了解声纹识别：

一、算法总览

1. 最早的GMM-UBM i-vector

利用GMM高斯混合模型提取特征i-vector；克服训练数据不多的情况，引入UBM；将语音分为说话人空间和环境空间，解决环境带来的信道，PLDA实现信道补偿，将提取的i-vector更加纯粹。

当然，获取i-vector的方法不仅仅局限在高斯混合模型，利用一起其它的机器学习方法进行补充一样可以，甚至是DNN提取的特征。

2. DNN

DNN的引入极大的降低了识别错误率。这时候的算法，可以称为embedding算法，依然是提取特征，不过这时候提取的是神经网络最后隐藏层的激活单元了，作为embedding，代替i-vector来作为一段语音的特征表示。

这时候出现了d-vector（深度神经网络最后一个隐藏层作为embeddings特征）、x-vector（从TDNN网络中提取embeddings特征）、j-vector模型（适用于文本相关说话人确认）

3. 端到端系统

无论是获得i-vector，还是DNN提取出的embedding，都是从语音中提取出特征再做分类或者确认。而端到端系统将这2段合到一个系统中，从输入到输出，一体化特征训练和分类打分。这和之前有了重大的不同。

二、初识声纹

1. 什么是声纹？

声纹(Voiceprint )是用电声学仪器现实的携带言语信息的声波频谱，是由波长频率以及强度等百余种特征维度组成的生物特征，具有稳定性、可测量性、唯一性等特点。

人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，发声器官–舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异。
每个人的语音声学特征既有相对稳定性，又有变异性，不是一成不变的。这种变异可来自生理、病理、心理、模拟、伪装，也与环境干扰有关。

声纹不如图像那样直观展现，在实际分析中，可通过波形图和语谱图进行展现

2. 声纹识别的原理

人在讲话时使用的发声器官在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异，主要体现在如下方面：

共鸣方式特征：咽腔共鸣、鼻腔共鸣和口腔共鸣
嗓音纯度特征：不同人的嗓音，纯度一般是不一样的，粗略地可分为高纯度（明亮）、低纯度（沙哑）和中等纯度三个等级
平均音高特征：平均音高的高低就是一般所说的嗓音是高亢还是低沉
音域特征：音域的高低就是通常所说的声音饱满还是干瘪

不同人的声音在语谱图中共振峰的分布情况不同，声纹识别正是通过比对两段语音的说话人在相同音素上的发声来判断是否为同一个人，从而实现“闻声识人”的功能。

3. 声纹识别算法的技术指标

声纹识别在算法层面可通过如下基本的技术指标来判断其性能，除此之外还有其它的一些指标，如：信道鲁棒性、时变鲁棒性、假冒攻击鲁棒性、群体普适性等指标，这部分后续于详细展开讲解。

错误拒绝率(False Rejection Rate, FRR) ：分类问题中，若两个样本为同类（同一个人），却被系统误认为异类（非同一个人），则为错误拒绝案例。错误拒绝率为错误拒绝案例在所有同类匹配案例的比例。
错误接受率(False Acceptance Rate, FAR) ：分类问题中，若两个样本为异类（非同一个人），却被系统误认为同类（同一个人），则为错误接受案例。错误接受率为错误接受案例在所有异类匹配案例的比例。
准确率(Accuracy，ACC)：调整阈值，使得FAR＋FRR最小，1减去这个值即为识别准确率，即ACC=1 - min(FAR+FRR)
速度：（提取速度：提取声纹速度与音频时长有关、验证比对速度）：Real Time Factor 实时比（衡量提取时间跟音频时长的关系，比如：1秒能够处理80s的音频，那么实时比就是1:80）。验证比对速度是指平均每秒钟能进行的声纹比对次数。
ROC曲线：描述FAR与FRR之间相互变化关系的曲线，X轴为FAR的值,Y轴为FRR的值。从左到右，当阈值增长期间，每一个时刻都有一对FAR和FRR的值，将这些值在图上描点连成一条曲线，就是ROC曲线。
阈值：在接受/拒绝二元分类系统中，通常会设定一个阈值，分数超过该值时才做出接受决定。调节阈值可以根据业务需求平衡FAR与FRR。当设定高阈值时，系统做出接受决定的得分要求较为严格，FAR降低，FRR升高；当设定低阈值时，系统做出接受决定的得分要求较为宽松，FAR升高，FRR降低。在不同应用场景下，调整不同的阈值，则可在安全性和方便性间平平衡

4. 影响声纹识别水平的因素

训练数据和算法是影响声纹识别水平的两个重要因素，在应用落地过程中，还会受很多因素的影响。

声源采样率

人类语音的频段集中于50Hz ~ 8KHz之间，尤其在4KHz以下频段
离散信号覆盖频段为信号采样率的一半（奈奎斯特采样定理）
采样率越高，信息量越大
常用采样率：8KHz (即0 ~ 4KHz频段），16KHz（即0 ~ 8KHz频段）

信噪比（SNR）

信噪比衡量一段音频中语音信号与噪声的能量比，即语音的干净程度
15dB以上（基本干净），6dB（嘈杂），0dB（非常吵）

信道

不同的采集设备，以及通信过程会引入不同的失真
声纹识别算法与模型需要覆盖尽可能多的信道
手机麦克风、桌面麦克风、固话、移动通信（CDMA, TD-LTE等）、微信……

语音识别

语音时长（包括注册语音条数）会影响声纹识别的精度
有效语音时长越长，算法得到的数据越多，精度也会越高
短语音（1～3s）
长语音（20s＋）

文本内容

通俗地说，声纹识别系统通过比对两段语音的说话人在相同音素上的发声来判断是否为同一个人
固定文本：注册与验证内容相同
半固定文本：内容一样但顺序不同；文本属于固定集合
自由文本

5. 声纹识别的应用流程

声纹识别(VPR) ，生物识别技术的一种，也称为说话人识别，是从说话人发出的语音信号中提取声纹信息，从应用上看，可分为：

说话人辨认(Speaker Identification)：用以判断某段语音是若干人中的哪一个所说的，是“多选一”问题；
说话人确认(Speaker Verification)：用以确认某段语音是否是指定的某个人所说的，是“一对一判别”问题。

声纹识别在应用中分注册和验证两个主流程，根据不同的应用中，部分处理流程会存在差异，一般的声纹识别应用流程如下图所示：

三、语音技术

几大模块及之间的关系：

语音唤醒模块 (Wake up)
声纹识别模块 (Voice Print)
语音识别模块 (ASR)
语义理解模块 (NLP)
对话管理模块 (DM)
语音合成模块 (TTS)

语音识别流程：

ASR评价标准：

语音输入前指标（检查）：

语音可能存在丢音，截幅，音量过小

声学匹配

文本匹配

四、声纹识别算法、资源与应用

一、算法

Speaker recognition以2012年为分水岭，由statistics-based machine learning，跨到了以deep learning为主线的算法。随后，bottleneck feature、d-vector、x-vector、j-vector等DNN-based的系统陆续出现，随后attention mechanism、Learning to rank等思想被用于改良训练过程。

对这些算法按照3类分别做简要阐述：

1）iVector-based；
2）dnn-based；
3）基于attention mechanism、Learning to rank等思想的改良算法。

1.1. iVector-based

2011年，第十一届全国人机语音通讯学术会议（NCMMSC2011）上，大神邓力给伙计们开了小灶，分享了他在微软DNN-based speech recognition研究结果（30% relative improvement），群情激奋。就在前一年，ABC（Agnitio/BUT/CRIM）在NIST SRE 2010 workshop上分享了JFA（Joint Factor Analysis，联合因子分析）的改良版（即iVector[1][16]），群情激奋。

iVector中Total Variability的做法（M = m + Tw），将JFA复杂的训练过程以及对语料的复杂要求，瞬间降到了极致，尤其是将Length-Variable Speech映射到了一个fixed- and low-dimension的vector（identity vector，即iVector）上。于是，机器学习爱好者群情激奋，所有机器学习的算法都可以用来解决声纹识别的问题了。

PLDA（Probabilistic Linear Discriminant Analysis，概率形式的LDA[17]）是生成型模型（generated model），被用于对iVector进行建模、分类，实验证明其效果最好。PLDA是一种信道补偿算法，因为iVector中，既包含说话人的信息，也包含信道信息，而我们只关心说话人信息，所以才需要做信道补偿。在声纹识别训练过程中，我们假设训练语音由I个说话人的语音组成，其中每个说话人有J段不一样的语音，并且我们定义第i个说话人的第j段语音为Xij。那么，我们定义Xij的生成模型为：

F、G是矩阵，包含了各自假想变量空间中的基本因子，这些因子可以看做是各自空间的基底（basis）。 F的每一列，相当于类间空间的特征向量；G的每一列，相当于类内空间的特征向量。而向量Hi和Wij可以看做是该语音分别在各自空间的特征表示。如果两条语音的hi特征相同的似然度越大，那么它们来自同一个说话人的可能性就越大。

PLDA的模型参数包括4个，mean、F和G、sigma，采用EM算法迭代训练而成。通常，我们采用简化版的PLDA模型，忽略类内特征空间矩阵的训练[18]，只训练类间特征空间矩阵F。即：

打分过程可以参考文献[17]。

1.2. DNN-based

早期DNN-based Speaker Recognition，用DNN代替GMM去计算Posterior Statistics，延续了DNN-based Speech Recognition的研究成果。2014年，Google提出d-vector[3]后，一系列的DNN-based方法被提出，如x-vector、j-vector等[2][8][9]。下面分别介绍下此类算法的基本思路。

d-vector
DNN训练好后，提取每一帧语音的Filterbank Energy 特征作为DNN输入，从Last Hidden Layer提取Activations，L2正则化，然后将其累加起来，得到的向量就被称为d-vector。如果一个人有多条Enroll语音，那么所有这些d-vectors做平均，就是这个人的Representation。DNN的网络结构如图1.2所示。

因为d-vector是从Last Hidden Layer提取的，通过移除Softmax Layer，可以缩减Model Size。而且，这也可以让我们在不改变Model Size的情况下，在训练过程中使用更多的说话人数据来做训练（因为Softmax Layer被移除了，不用考虑Softmax Layer的节点数）。DNN的训练过程，可以详细阅读参考文献[3]。
x-vector
x-vector是Daniel Povey教授在论文[13]中提出的概念，用于描述从TDNN网络中提取的embeddings特征，如图1.3所示。

上面的网络结构中，有一个Statistics Pooling Layer，负责将Frame-level Layer，Map到Segment-Level Layer，计算frame-level Layer的Mean和standard deviation。TDNN是时延架构，Output Layer可以学习到Long-Time特征，所以x-vector可以利用短短的10s左右的语音，捕捉到用户声纹信息，在短语音上拥有更强的鲁棒性。TDNN的训练方式可以参考文献[13]。

提取x-vector，LDA降维，然后以PLDA作为back-end，便可以做Verification。
开源代码：https://github.com/kaldi-asr/kaldi/tree/master/egs/sre16/v2

j-vector
提取i-vector依赖于较长（数十秒到数分钟）的语音，而Text-Dependent Speaker Verification任务中，语音很短（甚至只有1秒左右），所以i-vector不适用于Text-Dependent Speaker Verification。Text-Dependent Speaker Verification属于Multi-task，既要验证身份，又要验证语音内容。j-vector[8]就是为了解决Text-Dependent Speaker Verification而提出的，如图1.4所示，j-vector从Last Hidden Layer提取。

论文[8]中指出，相比于Cosine Similarity、Joint PLDA，使用Joint Gaussian Discriminant Function作为back-end时，实验效果最佳。

[1] Niko Brümmer, Doris Baum, Patrick Kenny, et al., “ABC System description for NIST SRE 2010”, NIST SRE 2010.

[2] David Snyder, Pegah Ghahremani, Daniel Povey, “Deep Neural Network-based Speaker Embeddings for END-TO-END Speaker Verification”, Spoken Language Technology Workshop , 2017 :165-170.

[3] Variani, Ehsan, et al. “Deep neural networks for small footprint text-dependent speaker verification.” Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on. IEEE, 2014.

[4] Liu, Yuan, et al., “Deep feature for text-dependent speaker verification.” Speech Communication 73 (2015): 1-13.

[5] Heigold, Georg, et al., “End-to-end text-dependent speaker verification.” Acoustics, Speech and Signal Processing (ICASSP), 2016 IEEE International Conference on. IEEE, 2016.

[6] Zhang Chunlei, and Kazuhito Koishida. “End-to-End Text-Independent Speaker Verification with Triplet Loss on Short Utterances.” Proc. InterSpeech 2017 (2017): 1487-1491.

[7] Li Chao, et al., “Deep Speaker: an End-to-End Neural Speaker Embedding System.” arXiv preprint arXiv:1705.02304 (2017).

[8] Nanxin Chen, Yanmin Qian, and Kai Yu, “Multi-task learning for text-dependent speaker verificaion,” in INTERSPEECH, 2015.

[9] Ziqiang Shi, Mengjiao Wang, Liu Liu, et al., “A DOUBLE JOINT BAYESIAN APPROACH FOR J-VECTOR BASED TEXT-DEPENDENT SPEAKER VERIFICATION”,

[10] FARR Chowdhury,Q Wang, IL Moreno, L Wan“Attention-Based Models for Text-Dependent Speaker Verification”, Submitted to ICASSP 2018.

[11] C Zhang, K Koishida, “End-to-End Text-Independent Speaker Verification with Triplet Loss on Short Utterances”, Interspeech, 2017.

[12] Arsha Nagrani, “VoxCeleb: a large-scale speaker identification dataset”

[13] D Snyder, D Garcia-Romero, D Povey, S Khudanpur, “Deep Neural Network Embeddings for Text-Independent Speaker Verification”, Interspeech , 2017 :999-1003.

[14] T. Fu, Y. Qian, Y. Liu, and K. Yu, “Tandem deep features for textdependent speaker verification”, Proc. InterSpeech, 2014.

[15] Hervé Bredin, “TristouNet: Triplet Loss for Speaker Turn Embedding”, ICASSP 2017.

[16] Najim Dehak, Reda Dehak, et al., “Support Vector Machines versus Fast Scoring in the Low-Dimensional Total Variability Space for Speaker Verification”, InterSpeech, 2009.

[17] SJD Prince, JH Elder, “Probabilistic Linear Discriminant Analysis for Inferences About Identity”, Proceedings, 2007 :1-8.

[18] Y Jiang, AL Kong, L Wang, “PLDA in the i-supervector space for text-independent speaker verification”, Hindawi Publishing Corp. , 2014 , 2014 (1) :29.

二、资源

1. Kaldi

最流行的语音技术研究平台，没有之一。代码运行鲁棒性强、架构良好，便于算法修改、定制。

如果你是高校科研人员，工程实现能力有限，那么没关系，你只要懂点Shell、Python或Perl脚本，即可顺利开展实验。
如果你是工业界人士，完全可直接拿来商用，KALDI遵循Apache licence。
如果你是自由开发者，完全可以基于KALDI做一些开发，为企业提供语音服务。

源码地址：https://github.com/kaldi-asr/kaldi
语料集合：http://cn-mirror.openslr.org/

2. TensorFlow-based Deep Speaker

实现ResNet网络上的TE2E（Tuple-base end-to-end）Loss function训练方式。安装TensorFlow、Python3和FFMPEG（文件格式转换工具）后，准备好数据，即可一键训练。只可惜验证部分还没做，而且GRU没实现、tensor实现部分也不严谨，可详细阅读代码和论文，并贡献下您的代码。

源码地址：https://github.com/philipperemy/deep-speaker
论文地址：https://link.zhihu.com/?target=https%3A//arxiv.org/pdf/1705.02304.pdf
数据集合：http://www.robots.ox.ac.uk/~vgg/data/voxceleb/

3. PyTorch-based Deep Speaker

基于百度论文[1]，实现了ResNet + Triplet Loss。不过在牛津大学的Voxceleb库上，EER比论文[2]所宣称的（7.8%）要高不少，看来实现还是有改进空间。Owner在求助了，大家帮帮忙contribute。

源码地址：https://github.com/qqueing/DeepSpeaker-pytorch
论文地址：https://arxiv.org/pdf/1705.02304.pdf

4. TristouNet from pyannote-audio

一个音频处理工具箱，包括Speech change detection, feature extraction, speaker embeddings extraction以及speech activity detection。其中speaker embeddings extraction部分，包括TristouNet的实现。

源码地址：https://github.com/pyannote/pyannote-audio
论文地址：https://arxiv.org/pdf/1609.04301.pdf

5. CNN-based Speaker verification5. CNN-based Speaker verification

Convolutional Neural Networks（卷积神经网络）在声纹识别上的试验，一个不错的尝试，可以与TDNN/x-vector做下对比。

源码地址：https://github.com/astorfi/3D-convolutional-speaker-recognition
论文地址：https://arxiv.org/pdf/1705.09422.pdf
数据集合：https://biic.wvu.edu/data-sets/multimodal-dataset

三、Triplet Loss

2015年，谷歌的FaceNet[4]使用Triplet Loss在大规模人脸识别中取得了很大的成功。受此启发，在声纹识别领域，也有不少的文章使用Triplet loss，比如Zhang[3]、Baidu Deep Speaker[5]、Bredin[6]等。它的优点是，直接使用embeddings之间的相似度作为优化的成本函数（Loss Function），最大化【anchor】和【positive】的相似度，同时最小化【anchor】和【negative】的相似度。这样，在提取了说话者的embedding之后，声纹验证和声纹识别任务就可以简单地通过相似度计算实现。

Triplet Loss基本思路是：构造一个三元组，由anchor（锚，可以理解为一个参考语音）、positive（相对anchor而言）和negative（相对anchor而言）组成。然后，用大量标注好的三元组作为网络输入，来学习DNN参数。其中，anchor和positive是来自于同一个人的不同声音，anchor和negative是来自不同的人的声音。通过DNN获取各自的embeddings后，计算anchor和positive的相似度，以及anchor和negative的相似度，然后最大化ap（anchor与positive）的相似度，最小化an（anchor与negative）的相似度。

计算相似度有两种方法，一种是cosine相似度，值越大，相似度越高，正如Baidu Deep Speaker所采用的；一种是使用欧几里得距离，和FaceNet所使用的一样，值越小，相似度越高。

cosine相似度的训练过程如图2所示：

其成本函数如下所示：

欧几里得距离相似度的训练过程如图3所示：

其成本函数如下所示：

四、改良算法篇之GE2E Loss

End-to-End Speaker Recognition往往是data-driven的，需要海量标注数据才能取得预期效果。无论是Google d-vector，还是x-vector、Baidu Deep Speaker，其训练速度和有效利用data的程度，仍然有较大改进空间，文献[1], [2], [3]就是朝着这些方向所做的尝试。

GE2E Loss

Generalized end-to-end (GE2E) loss是谷歌在论文[4]中提出的新损失函数，还是比较有创意的。与TE2E loss和Triplet loss相比，它每次更新都和多个人相比，因此号称能使训练时间更短，说话人验证精度更高。

其基本思路如图1所示，挑选 N 个人，每人M句话，通过图示的顺序排列组成Batch，接着通过LSTM神经网络提取N*M句话的embeddings，然后求取每个embedding和每个人平均embedding的相似度，得到一个相似度矩阵。最后通过最小化GE2E loss使得相似矩阵中有颜色的相似度尽可能大，灰色的相似度尽可能小，即本人的embedding应该和本人每句话的embedding尽可能相近，和其他人的embedding尽可能远离，从而训练LSTM网络。

相似度矩阵的定义如下公式所示:

其eij中表示第人第句话对应的embedding，w和b是要训练的参数（约束 w>0 ）， Ck是第 k 人的embedding，由M句话的embeddings求平均得到，即:

为了使得相似度矩阵中有颜色的相似度尽可能大，灰色的相似度尽可能小，有两种损失函数，第一种是softmax loss，即：

或者写成

上式中（和论文不一样，本人认为应该加个负号），最小化损失函数 Ls(eji) , Sji,j就要尽可能大，即优化使得本人和本人的每一句话都比较相似。

五参考文章+学习资源：

小白声纹识别（说话人识别）探索
声纹识别的应用实践
AI老司机带你认识声音黑科技：声纹识别
百度语音识别视频两节
知乎声纹识别大佬Leon晋
声纹识别训练营1+声纹识别训练营2

论文：

d-vector
《Deep Neural Network Embeddings for Text-Independent Speaker Verification》
《ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION》
端到端系统 Deep Speaker
《Deep Speaker: an End-to-End Neural Speaker Embedding System》

d-vector：
https://github.com/rajathkmp/speaker-verification
https://github.com/wangleiai/dVectorSpeakerRecognition
E2E，Deep Speaker：
tensorflow版本
pytorch版本

YeAudio音频工具的介绍和使用夜雨飘零1 语音音视频语音识别 python ffmpeg
夜雨飘零音频工具这款Python音频处理工具功能强大，支持读取多种格式的音频文件。它不仅能够对音频进行裁剪、添加混响、添加噪声等多种处理操作，还广泛应用于语音识别、语音合成、声音分类以及声纹识别等多个项目领域。安装使用pip安装。pipinstallyeaudio-U-ihttps://pypi.tuna.tsinghua.edu.cn/simple（推荐）使用源码安装。gitclonehttps
音频播放器最美下雨天
验证的例子：打印ffmpeg支持的所有解码器，解码音视频、字幕image.pngimage.png在声纹识别中，为了满足对不同采样率的要求，常需要对语音进行重采样。重采样即将原始的采样频率变换为新的采样频率以适应不同采样率的要求。image.pngimage.pngJNI在加载的时候会自动调用这个方法image.png什么是重采样呢？就是我们要播放的音频数据的编码格式不一样，比如说采样率、采样位数
ABeam×StartUp丨ABeam旗下德硕管理咨询（深圳）新创部门拜访「声扬科技」，解密声音的秘密陵门检录科技
随着人工智能的快速发展，音频处理、语音分析、声纹识别等技术的应用也日益扩充至各个方面，这些技术不仅是前沿领域的高新科技，也与我们的生活息息相关。近日，ABeam旗下德硕管理咨询（深圳）有限公司（以下简称“ABeam-SZ”）新创部门一行拜访了深圳声扬科技有限公司（以下简称“声扬科技”），深入了解音频处理、语音分析和声纹识别技术的发展近况及在各行业的应用，在未来可行性等方面进行交流探讨，并结合ABe
2023年12月27日学习记录_加入噪声郭小儒每日学习总结学习 python 人工智能
目录1、今日计划学习内容2、今日学习内容1、addnoisetoaudioclipssignaltonoiseratio(SNR)加入additivewhitegaussiannoise(AWGN)加入realworldnoises2、使用kaggel上的一个小demo：CNN模型运行时出现的问题调整采样率时出现bug3、明确90dB下能否声纹识别4、流量预测3、实际完成的任务1、今日计划学习内容
声纹识别_加入噪声郭小儒声纹识别机器学习人工智能学习语音识别
目录1、addnoisetoaudioclipssignaltonoiseratio(SNR)2、加入additivewhitegaussiannoise(AWGN)1.howtogenerateAWGN2.AWGN的频率分析3.加入噪声3、加入realworldnoises1、addnoisetoaudioclips学习如何将噪声加入到audiodata中，后续可以将不同SNR的噪声加入原始信号
声纹识别资源汇总（不断更新）郭小儒声纹识别学习 pandas python 语音识别深度学习机器翻译
目录一、任务说明二、指标三、声纹识别研究现状四、数据集开源（1）VoxCeleb：（2）WSJandLibriSpeechCorpus（3）VOiCESDataset（4）EnglishMulti-speakerCorpusforVoiceCloning五、开源代码1、Alize2、MSRIdentityToolkit3、d-vector4、LSTMwithGE2Eloss5、y-vector调研
2023年12月20日学习总结郭小儒学习数据库
今日todolist：学习kaggle中storesales中的dartforcasting大概搜集一个声纹识别的报告（老师给的新项目）学习时不刷手机okkkkkkkkkkkkkk开始目录1.时间序列预测-acompleteguide（1）时序预测有三条规则：（2）时序数据timeseriesdata的组成（3）分析的流程1.importlibraries2.导入数据并且初步查看数据3.EDA：e
基于d-vector的声纹识别（作为初学者的小总结）郭小儒声纹识别 python 人工智能
基于d-vector的声纹识别（作为初学者的小总结）——2023年12月22日目录基于d-vector的声纹识别（作为初学者的小总结:wink:）——2023年12月22日0、简要介绍1、数据data2、数据预处理3、数据增强dataaugmentation（1）增加白噪声addingwhitenoise（2）更改音高changingpitch（3）增加背景噪声4、创建模型0、简要介绍目的是使用d
音频特效生成与算法 3 _Rye_ 音频技术音视频语音识别人工智能
15｜AI变声：音频AI技术的集大成者AI技术在音频领域发展十分迅速。除了之前介绍的降噪、回声消除以及丢包补偿等方向可以用AI模型来提升音质听感之外，AI模型还有很多有趣的应用。其中比较常见的有ASR（AutomaticSpeechRecognition）可以理解为语音转文字，TTS（TextToSpeech）文字转语音和VPR（VoicePrintRecognition）声纹识别等。在之前说的音
Speaker Verification，声纹验证详解——语音信号处理学习（九） LotusCL 声音信号处理学习信号处理学习语音识别人工智能
参考文献：SpeakerVerification哔哩哔哩bilibili2020年3月新番李宏毅人类语言处理独家笔记声纹识别-16-知乎(zhihu.com)(2)MetaLearning–Metric-based(1/3)-YouTube如何理解等错误率(EER,EqualErrorRate)？请不要只给定义-知乎(zhihu.com)本次省略所有引用论文目录一、Introduction模型的简
最强大脑第二场战平听音神童！百度大脑小度声纹识别技术解析付江百度人工智能
日前，继在江苏卫视《最强大脑》第四季“人机大战”首轮任务跨年龄人脸识别竞赛中击败人类顶级选手后，在上周五晚上，百度的小度机器人再次在声纹识别任务上迎战名人堂选手——11岁的“听音神童”孙亦廷，双方最终以1:1打成平手。被称为“鬼才之眼”的水哥（王昱珩）宣布再度出山，将在下周的第三轮比赛中与“小度”在图像识别方面一决高下。本轮题目规则为：从“千里眼”到“顺风耳”，节目组将第二场比赛范围划定在“听”的
2023CPEM电力人工智能大会，联丰迅声斩获“声纹识别技术创新奖” 科技赋能生活人工智能
没有什么能够阻挡人类对美好未来的向往。11月的贵阳，秋色宜人，天高水远。电力大咖齐聚美丽的林城，聚焦电力人工智能高质量发展之路，碰撞创新智慧，畅想绿色未来。2023年11月3日，第4届电力人工智能大会暨第2届电力行业数字化转型大会在贵州贵阳圆满落下帷幕。本届大会由CPEM全国电力设备管理网、国家能源智能电网(上海)研发中心、复杂能源系统智能计算教育部工程研究中心、中国电子劳动学会双碳和能源创新工作
说话人识别声纹识别CAM++，ECAPA-TDNN等算法 loong_XL 深度学习语音识别
参考：https://www.modelscope.cn/models?page=1&tasks=speaker-verification&type=audiohttps://github.com/alibaba-damo-academy/3D-Speaker/blob/main/requirements.txt单个声纹比较可以直接modelscope包运行frommodelscope.pipel
基于深度学习的语音识别系统构建周南音频科技教育学院(AI湖湘学派) 音频算法设计研究开发语音识别人工智能信号处理
加我微信hezkz17进数字音频系统研究开发交流答疑(课题组)项目内容：1.语音识别系统构建：负责基于kaldi的混合语音识别模型系统的构建，包括训练数据的搜集与处理，模型训练测试、rescore解码流程和上线部署等；2.声纹识别系统构建：使用cnn+aam-softmax的模型结构提取说话人声纹特征(embedding),然后在声纹库内进行声纹相似度的检索匹配；3.语种识别算法：使用类似声纹识别
多分类loss学习记录 weixin_43870390 分类学习数据挖掘
这里简单的记录在人脸识别/声纹识别中常用的分类loss。详细原理可以参考其他博客。扩展资料1扩展资料2L-softmaxA-softmaxAM-softmaxL-softmax：基于softmax加入了margin，Wx改写为||w||||x||cos(角度)，将角度变为了m角度A-softmax：a=Angular，归一化||w||为1，b=0，W*x变成了cos(theta)，只优化角度AM-
进阶课1——声纹识别 AI 智能服务 AI训练师人工智能语音识别深度学习人机交互搜索引擎
声纹识别是一种生物识别技术，也称为说话人识别，包括说话人辨认和说话人确认两种技术。该技术通过将声信号转换成电信号，再使用计算机进行识别，不同的任务和应用会使用不同的声纹识别技术，例如在缩小刑侦范围时可能需要辨认技术，而在银行交易时则需要确认技术。1.概述2.声纹识别原理声纹识别的技术原理可以分为两个主要步骤：特征提取和模式匹配（模式识别）。在特征提取阶段，声纹识别系统会提取并选择对说话人的声纹具有
声纹识别与声源定位（一） shadowismine 语音识别
针对目前智能计算机及大规模数据的发展，依据大脑处理语音、图像数据方法的deeplearning技术应运而生。deeplearning技术是应用于音频信号识别，模仿大脑的语音信号学习、识别的模式。在音频信号处理的过程中，运用deeplearning进行音频数据的特征提取和训练，将大幅度提高音频信号识别的准确性。首先看下Speakerrecognition声纹识别，声纹是由人类的“发音机理”所产生的，
声纹识别与声源定位（二） shadowismine 语音识别
一、引言什么是声源定位(SoundSourceLocalization，SSL)技术？声源定位技术是指利用多个麦克风在环境不同位置点对声信号进行测量，由于声信号到达各麦克风的时间有不同程度的延迟，利用算法对测量到的声信号进行处理，由此获得声源点相对于麦克风的到达方向（包括方位角、俯仰角）和距离等。当谈及到声源定位，我们很容易联想到人耳定位，人的单耳和双耳都具有定位的能力。在单耳定位中，耳廓各部位会
一种基于语音识别的防溺水系统的技术背景李姝瑶语音识别人工智能
基于语音识别的防溺水系统是利用语音识别技术来实现对水中人员溺水情况的检测和预警。语音识别技术是计算机科学中的一个分支，主要用于将人类语音转化为文本或命令，并进行计算机处理。在基于语音识别的防溺水系统中，通常会使用语音识别软件来实现对语音的识别和转化，并通过计算机算法分析语音特征，来判断水中人员是否有溺水的风险。为了提高系统的准确性，通常还会使用其他技术来帮助识别和分析水中人员的声音，比如声纹识别技
样本量极少如何机器学习？看看这篇Few-Shot Learning综述人工智能与算法学习 python 神经网络机器学习人工智能深度学习
1.样本量极少可以训练机器学习模型吗？在训练样本极少的情况下（几百个、几十个甚至几个样本），现有的机器学习和深度学习模型普遍无法取得良好的样本外表现，用小样本训练的模型很容易陷入对小样本的过拟合以及对目标任务的欠拟合。但基于小样本的模型训练又在工业界有着广泛的需求（单用户人脸和声纹识别、药物研发、推荐冷启动、欺诈识别等样本规模小或数据收集成本高的场景），Few-ShotLearning（小样本学习
机器学习同样数量样本和目标_样本量极少如何机器学习？Few-Shot Learning概述士节机器学习同样数量样本和目标
1.样本量极少可以训练机器学习模型吗？在训练样本极少的情况下（几百个、几十个甚至几个样本），现有的机器学习和深度学习模型普遍无法取得良好的样本外表现，用小样本训练的模型很容易陷入对小样本的过拟合以及对目标任务的欠拟合。但基于小样本的模型训练又在工业界有着广泛的需求（单用户人脸和声纹识别、药物研发、推荐冷启动、欺诈识别等样本规模小或数据收集成本高的场景），Few-ShotLearning（小样本学习
ICASSP 2023说话人识别方向论文合集语音之家智能语音人工智能
今年入选ICASSP2023的论文中，说话人识别（声纹识别）方向约有64篇，初步划分为SpeakerVerification（31篇）、SpeakerRecognition（9篇）、SpeakerDiarization（17篇）、Anti-Spoofing（4篇）、others（3篇）五种类型。本文是ICASSP2023说话人识别方向论文合集系列的最后一期，整理了SpeakerRecognitio
指纹、刷脸多灾多难，声纹识别能否崛起成为新主流？ Daffodil_51e5
姓名：李沂配19021210904转载自：http://baijiahao.baidu.com/s?id=1651976625619916831&wfr=spider&for=pc【嵌牛导读】：人们较为熟悉的识别技术就包括有指纹识别和人脸识别，它们广泛应用于手机解锁、移动支付、交通乘坐、安防门禁等场景之中，给人们带来了不少便利。不过，由于安全性方面的问题，当前两者的日子却并不好过。基于声纹识别独特
基于PaddlePaddle实现的声纹识别系统夜雨飘零1 语音 PaddlePaddle 深度学习 paddlepaddle 人工智能声纹识别深度学习
前言本项目使用了EcapaTdnn、ResNetSE、ERes2Net、CAM++等多种先进的声纹识别模型，不排除以后会支持更多模型，同时本项目也支持了MelSpectrogram、Spectrogram、MFCC、Fbank等多种数据预处理方法，使用了ArcFaceLoss，ArcFaceloss：AdditiveAngularMarginLoss（加性角度间隔损失函数），对应项目中的AAMLo
基于Pytorch实现的声纹识别系统夜雨飘零1 语音 Pytorch 深度学习 pytorch 人工智能 python 声纹识别深度学习
前言本项目使用了EcapaTdnn、ResNetSE、ERes2Net、CAM++等多种先进的声纹识别模型，不排除以后会支持更多模型，同时本项目也支持了MelSpectrogram、Spectrogram、MFCC、Fbank等多种数据预处理方法，使用了ArcFaceLoss，ArcFaceloss：AdditiveAngularMarginLoss（加性角度间隔损失函数），对应项目中的AAMLo
NeMo 声纹识别VPR-实战 wxl781227 ASR实战人工智能声纹识别声纹验证
声纹识别(VPR)，生物识别技术的一种，也称为说话人识别，是从说话人发出的语音信号中提取声纹信息，从应用上看，可分为：说话人辨认(SpeakerIdentification)：用以判断某段语音是若干人中的哪一个所说的，是“多选一”问题；说话人确认(SpeakerVerification)：用以确认某段语音是否是指定的某个人所说的，是“一对一判别”问题。本文主要是识别两个声音是否为同一个人。应用场景
怎样用声纹识别，提升智能硬件产品的用户体验？-转生活的探路者
一、背景当前智能硬件产品中，最耀眼的莫过于百箱大战的智能音箱、百“机”争鸣的智能机器人，这些智能语音产品已逐渐走进百姓的视线中。在智能音箱市场中，且不说国外的AmasonEcho和GoogleHome，仅在国内，去年双十一，天猫精灵99元跳楼价卖了一百万台，还有铺天盖地而来的小爱同学、叮咚音箱、小雅同学、出门问问等。今年，百度推出比天猫精灵还低10元的小度智能音箱，仅卖89元，烧钱大战一个比一个狠
使用tensorflow和densenet神经网路实现语谱图声纹识别,即说话人识别。 zhigongjz 神经网络 CNN卷积 Tensorflow Densenet 语谱图声纹识别
介绍本文介绍一种使用tensorflow框架和densenet神经网路实现声纹语谱图识别算法,即说话人识别。本文侧重一种解决方案的思路，仅做了小批量数据的简单验证，收敛效果良好，还没有做大量数据集的验证，后期会做一些实际的验证，请持续关注。如果乐意与我交流，文章后面有联系方式，随时欢迎。代码地址码云：https://gitee.com/lizhigong/VoiceprintRecognition
使用mondorescue将本机linux centos 7服务器制作成光盘 wuxianfeng1987 Linux
准备重新训练声纹识别，数据集增加了10来G，原来的4台设备完全不够用啊，然后就准备把公司淘汰的i3i5笔记本拿来加入集群，如何快速搭建环境呢，直接将配置好的备份成ios，然后安装，接下来记录下整个流程，感觉以后会用到。步骤：1、wgetftp://ftp.mondorescue.org/centos/7/x86_64/mondorescue.repo[注意要选择ftp下的centos，不然依赖包下
教你windows下配置java环境变量&idea配置maven库（标贝科技） DataBaker标贝科技常用工具 java 语音识别人工智能
配置java环境变量+idea配置maven库（标贝科技）前言配置环境变量是小伙伴们入坑的第一步，本文将一步一步详细介绍，保证大家都能够看懂！！！顺便介绍下：我们是一家致力于智能语音交互的AI公司，我们提供了语音识别、语音合成、声纹识别、声音复刻、声音转换等技术产品供小伙伴们测试调用，感兴趣的，第三部分有详细说明！！！！！一、配置java环境变量下载jdk地址：https://www.oracle
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla