女王の专属领地

AI_声纹识别综述

声纹识别，也称作说话人识别，是一种通过声音判别说话人身份的技术【比如：微信的语音登录】。从直觉上来说，声纹虽然不像人脸、指纹的个体差异那样直观可见，但由于每个人的声道、口腔和鼻腔也具有个体的差异性，因此反映到声音上也具有差异性。如果说将口腔看作声音的发射器，那作为接收器的人耳生来也具备辨别声音的能力。

最直观的是当我们打电话给家里的时候，通过一声“喂？”就能准确地分辨出接电话的是爸妈或是兄弟姐妹，这种语音中承载的说话人身份信息的唯一性使得声纹也可以像人脸、指纹那样作为生物信息识别技术的生力军，辅助甚至替代传统的数字符号密码，在安防和个人信息加密的领域发挥重要的作用。本文意在和读者一起分享声纹识别中主流的技术以及优图实验室在声纹识别的研发积累中取得的成果，希望能让读者对于声纹识别这个糅合语音信号处理+模式识别，且理论研究与工程背景兼具的领域有一个基本又全面的认识。

基本原理

声纹识别是通过对一种或多种语音信号的特征分析来达到对未知声音辨别的目的，简单的说就是辨别某一句话是否是某一个人说的技术。

该项技术最早是在40年代末由贝尔实验室开发，主要用于军事情报领域。随着该项技术的逐步发展，60年代末后期在美国的法医鉴定、法庭证据等领域都使用了该项技术，从1967年到现在，美国至少5000多个案件包括谋杀、强奸、敲诈勒索、走私毒品、赌博，政治腐败等都通过声纹识别技术提供了有效的线索和有力的证据。特别强调的是，声纹鉴别目前已经是公安部的标准，是可以作为证据进行鉴定的。

声纹识别的理论基础是每一个声音都具有独特的特征，通过该特征能将不同人的声音进行有效的区分。

这种独特的特征主要由两个因素决定：

第一个是声腔的尺寸，具体包括咽喉、鼻腔和口腔等，这些器官的形状、尺寸和位置决定了声带张力的大小和声音频率的范围。因此不同的人虽然说同样的话，但是声音的频率分布是不同的，听起来有的低沉有的洪亮。每个人的发声腔都是不同的，就像指纹一样，每个人的声音也就有独特的特征。
第二个是发声器官被操纵的方式，发声器官包括唇、齿、舌、软腭及腭肌肉等，他们之间相互作用就会产生清晰的语音。而他们之间的协作方式是人通过后天与周围人的交流中随机学习到的。人在学习说话的过程中，通过模拟周围不同人的说话方式，就会逐渐形成自己的声纹特征。

因此，理论上来说，声纹就像指纹一样，很少会有两个人具有相同的声纹特征。

美国研究机构已经表明在某些特点的环境下声纹可以用来作为有效的证据。并且美国联邦调查局对2000例与声纹相关的案件进行统计，利用声纹作为证据只有0.31%的错误率。目前利用声纹来区分不同人这项技术已经被广泛认可，并且在各个领域中都有应用。

声纹识别是个宽泛的概念，技术方面有分为两类：即说话人确认技术和说话人辨认技术，说话人确认技术是用于判断未知说话人是否为某个指定人；后者则是用于辨认未知说话人是已记录说话人中的哪一位。

我们通常理解的都是说话人辨认技术，常常应用于刑侦破案、罪犯跟踪、国防监听、个性化应用等等，说话人确认技术常常应用于证券交易、银行交易、公安取证、个人电脑声控锁、汽车声控锁、身份证、信用卡的识别等。

目前来看，声纹识别常用的方法包括模板匹配法、最近邻方法、神经元网络方法，VQ聚类法等。

这些方法虽然处理手段不同，但基本原理是类似的，比如刚开始给大家展示的语谱图。语谱图是声音信号的一种图像化的表示方式，它的横轴代表时间，纵轴代表频率，语音在各个频率点的幅值大小用颜色来区分。说话人的声音的基频及谐频在语谱图上表现为一条一条的亮线，再通过不同的处理手段就可以得到不同语谱图之间的相似度，最终达到声纹识别的目的。

目前公安部声纹鉴别就采用类似方法，而且语谱图还是用的灰度来表示。主要抽取说话人声音的基音频谱及包络、基音帧的能量、基音共振峰的出现频率及其轨迹等参数表征，然后再与模式识别等传统匹配方法结合进行声纹识别。

美国和国内都有不少企业生产声纹识别的设备，公安部为采购这些设备还正式颁布了《安防声纹识别应用系统技术要求》的行业标准。但是这种方法是一种静态检测的方法，存在很大的弊端，实时性不好，动态检测声纹的需求实际上更大。

声纹识别技术的三个分水岭

李稀敏将近年来声纹识别技术的发展总结为3个分水岭。

第一个分水岭是2000年。在2000年以前，进行声纹识别验证，主要是基于模板匹配，这种算法基于信号比对，通常要求比对双方的内容相同，比如要验证说“床前明月光”的人是谁，那验证人也必须要说“床前明月光”才能验证，如果他说“疑似地上霜”的话，验证就不能完成。2000年以后，开始出现基于高斯混合模型的声纹识别算法，高斯混合模型是典型基于统计学习理论的方法，该算法采用大量数据为每个说话人训练模型，使用高斯混合模型验证已经与文本无关了，即要验证“床前明月光”的说话人时，说“疑似地上霜”也能够验证成功。之后产生的许多主流研究方法都是在高斯混合模型的基础上改进的，但高斯混合模型注册语音的时间过长，无法满足实际应用场景的需求，因此需要新的技术来突破限制。
第二个分水岭是2010年左右，这时候出现了iVector/PLDA算法。iVector最大的亮点在于，把语音映射到了一个固定的且低维的向量上，这意味这所有机器学习的算法都可以用来解决声纹识别的问题了，因此这是一个巨大的进步。PLDA是一种信道补偿算法，因为在iVector中，既包含说话人的信息，也包含信道信息，而我们只关心说话人的信息，所以才做信道补偿，目前PLDA是最好的信道补偿算法，但噪声对结果依然有很大的影响。
第三分水岭是在2011年，在第十一届全国人机语音通讯学术会议上，邓力分享了他在微软DNN-based speech recognition的研究结果，将识别率提升了30%，这将声纹识别的准确率一下子提升了一个层次。DNN能从大量样本中学习到高度抽象的说话人特征，并对噪声有很强的免疫力，至此深度学习被引入业界，国内对声纹识别技术的关注点也放到了深度学习上。

局限

现在的大部分研究都是有关动态实时检测方面的，动态检测的方法自然要利用静态检测的各种原理方法，同时也需要增加其他很多算法，比如VAD、降噪、去混响等。VAD的目的是检测是不是人的声音，降噪和去混响是排除环境干扰，这不仅对于声纹检测很中重要，对于语音识别更加重要。

VAD常用两个方法，基于能量检测和LTSD（Long-Term Spectral Divergence)，当前用的较多是LTSD，另外特征提取方面还需要：动态时间规整 (DTW)、矢量量化 (VQ)、支持向量机 (SVM)，模型方面则需要隐马尔可夫模型 (HMM)和高斯混合模型 (GMM)。

这是声纹识别常用算法的结构图，所有的声纹识别，不管是用传统算法还是深度学习，都需要事先建立声纹库，目前最全的应该是公安部的声纹鉴别库。

从上面模型不难看出，声纹识别还是一种基于数据驱动的模式识别问题，因为所有模式识别存在的问题声纹都存在，而且声纹识别还有一些不太好解决的物理和计算问题。

虽然声纹识别的唯一性很好，但实际上我们现有的设备和技术仍然很难做出准确分辨，特别是人的声音还具有易变性，易受身体状况、年龄、情绪等的影响。刚才也提到，若在环境噪音较大和混合说话人的环境下，声纹特征也是很难提取和建模的。

虽然深度学习带给模式识别极大的提升，甚至还有开源的相关算法，但是声纹识别的研究进展仍然不大，这仍然受制于声纹的采集和特征的建立。

另外就是真实环境下的各种影响，包括：

1、噪音问题
2、多人说话
3、音乐噪声
4、身体状况
5、情绪影响

先看噪声问题，下图是Mitchell McLaren在论文中做的研究，噪声对不同模型的声纹识别影响。

从这个图中可以看出，混响和噪声对各类模型和方法都有非常大的影响，这和人类似，嘈杂环境中确实很难分辨出某个人的声音，但是人耳比较奇特，我们可以很好的处理这种“鸡尾酒会”效应，但是目前机器还做不到。

音乐噪声很好理解，因为音乐通常是宽带信号，完全覆盖了人声的频段，这会非常影响声纹的特征表现，动态检测的时候更是难以提取，我们目前在语音识别中采用的是回声抵消的方法（严格来说是自噪声去除），同样也可以用到声纹识别，但是面对其他设备音乐也很难处理，当前仅有波束形成这一方法。

多人说话是声纹识别和语音识别都面临的问题，当前的所有模型都无法盲分离两个以上的人声并且同时进行识别。

身体状况和情绪影响是我们每个人的主要个体差异，这种差异是基于时间变化的，所以声纹特征会出现某些变化，声纹鉴别可以通过反复取样避免这个问题，但是动态检测目前还没有好办法。

从上面几点分析，也和我们主题相关，就是华帝的小V机器人，通过记录歌手的声纹信息进行判断歌手，理论上是没有问题的。但是难的就是，这是声纹识别最复杂的情况，不仅是要保证实时性，还要解决噪声问题、音乐干扰、两人识别以及歌手刻意隐藏的问题，至少目前来看，这项技术还远远没有成熟。

即便从应用来看也是这样，除了声纹鉴别，声纹识别基本上就是在应用中充当娱乐的功能。另外，声纹可以作为认证手段，但是不应该放在第一位独立使用，而是配合其他认证手段同时使用。

详情

1. 拨云见日 – 声纹的基础“姿势”

我们常常会用“花言巧语”来形容一个嘴皮子不靠谱的人，但其实这个成语用来形容语音信号也是十分贴切的。人脸、指纹都是基于图像的二维信号，而语音是一种时变的一维信号，语音承载的首先是语意的信息，即我们说了什么内容，在语意信息的背后才是身份信息的体现。我们讲的话可以对应到成百上千个字词信息，但是这背后却只对应了一个不变的身份。

图1. 说话人A对应“四”的语音波形
图2. 说话人B对应“四”的语音波形
图3. 说话人A对应“九”的语音波形

如果上方的时域波形不够直观的话，那下方的短时语谱图从二维图像的角度能提供更多的直观信息。似乎图1和图2的相似度更高一些，图3因为对应了不同的语意，因此和图1，2差别更明显，但实际上图1和图3来自于同一个说话人，按照需求，1和3应该被分在同一类别！似乎有点难，那我们干脆不要比较九了，只比较四好了。

因此，从语音字典是否受限的角度上来区分，声纹识别可以分为：

文本无关识别：文本无关，顾名思义就是说系统对于输入的语音的内容并不做限制，识别系统应当可以克服语音中字典信息（亦或语意信息）的多变性和差异性，对语音背后的身份做出准确判断；
文本相关识别：而文本相关识别，意思是我们预先会限制语音的字典集合的规模。

再往细了区分又有两种常用的应用场景：

一种是固定口令，用户必须要说“天王盖地虎”，系统才会去识别声纹，你说“宝塔镇河妖”，对不起，不管你是谁，一概不行；
一种是有限搭配的字典集合，系统会随机搭配一些数字或符号，用户需正确念出对应的内容才可识别声纹，这种随机性的引入使得文本相关识别中每一次采集到的声纹都有内容时序上的差异。

相较于指纹和人脸等静态的图像特征，这种数序的随机性无疑提升了安全性和防盗取能力。优图实验室自研的随机数字声纹识别方案已经应用于线上系统中，通过自主研发的人脸识别、活体检测、语音+声纹的多重验证手段，在最大程度上保障了用户的安全，杜绝了仿冒、窃取或复制用户自身生物信息的可能性.

图4：优图人脸核身示意图

文本相关识别因为限制了可选的字典信息，因此在系统复杂度和识别准确率上都要远好于文本无关的系统，只要采集相对比较短的一段语音即可实现声纹的识别；但文本无关的识别系统在某些领域也会有重要的作用，例如刑侦比对，我们可以采集到嫌疑人的一段声音，但是没法对声音对应的内容做限制，这时候文本无关识别就会派上重要的用场。

在过去的20年中，学界研究的重点大部分放在了更具挑战性的文本无关识别上，所取得的突破也都是围绕着文本无关的识别展开。美国国家标准技术局（National Institute of Standard and Technology，NIST）从90年代开始都会不定期地举办声纹识别评测竞赛（Speaker Recognition Evaluation， NIST SRE）[1]，也是针对文本无关的识别进行评测，吸引了学术界和工业界的诸多重量级团队参与。

2014年，在语音界的学术盛会interspeech上，新加坡的I2R实验室发布了一套用于评测文本相关识别的标准数据集RSR 2015，涵盖了文本相关领域的多个应用场景[2]。自此，文本相关识别的研究热度开始渐渐提升，而近几年大热的“深度学习”也是最先在文本相关识别上取得了比较大的突破 [3]。这里不再过多展开，有兴趣的读者可以参考各大学术数据库的资源，或者和我们团队进行交流。

从识别的场景上考虑，声纹识别又可以分为两个不同的应用场景：

说话人辨识（Speaker Identification，SI）：SI指的是我们有了一段待测的语音，需要将这段语音与我们已知的一个集合内的一干说话人进行比对，选取最匹配的那个说话人。这方面的应用案例是刑侦比对，暗中收集到的一段嫌疑人（身份未知）的声音，需要与数个可能的嫌疑人身份进行比对，选取最相似的那一个，则我们就可以认为收集到的这段语音在很大程度上就是来自于锁定的这个嫌疑人，SI是一个1对多的判别问题；
说话人确认（Speaker Verification，SV）：SV指的是我们只有一个目标身份，对于一段未知的语音，我们只需要判断这段语音是否来源于这个目标用户即可，SV本质上是1对1的二分类问题。这方面典型的应用是手机端的声纹锁或声纹验证工具，对于一段验证语音，系统只需要回答“通过”或者“拒绝”即可。

而SI可以间接分解为多个SV的问题，因此对于声纹识别系统性能的评测多是以SV的方式进行。

2. 动中取静-从离散信号到特征

声纹之所以能被识别，是因为每个人的口腔、鼻腔与声道结构都存在唯一的差异性，但这种差异性既看不到又摸不着，更要命的是，它是一个时刻都在运动着的器官构造。我们只能通过录音设备采集到的离散语音信号，间接去分析发声器官的差异性。

既然语音一直在变，那我们该如何去对语音进行分析呢？答案是：语音具备了一个良好的性质，称为短时平稳，在一个20-50毫秒的范围内，语音近似可以看作是良好的周期信号。

图5：图1中话者A“四”的发声中截取出的30毫秒长度的信号。

这种良好的平稳性为我们针对语音进行信号处理层面的分析提供了极大的便利。读者都应该还记得，在音调，响度和音色这三个声音的基本属性中，音色是最能反映一个人身份信息的属性。而音色上的差异在信号处理的层面可以表示为在频域不同频段能量的差异，因此我们通过抽取不同频段上的能量值，即可以表示在这个短时语音范围内频谱的性质。通常我们会综合考虑人耳的听觉属性（人耳的一个听觉属性是在可听到的频段内，对于低频的变化更加敏感，而对于高频相对弱一些）、均衡不同频段的能量差异（对于一段8KHz采样的音频，尽管语音会分布于0-4KHz的范围内，但能量更多的集中在相对比较低频的区域）、噪声鲁棒性（我们希望特征只对语音的变化敏感，而对其他噪声等无关信息不变）以及后续的计算便利（系数之间尽可能要去除相关性）设计合适的短时声学特征，通过一系列复杂的信号处理层面的变换，一段20-50毫秒长度的语音（以8KHz采样为例，这个长度的语音对应着160-400个采样点）可以映射为一段39-60维的向量。为了充分保留语音中的原始信息，同时不增加计算的负担，通常会以15-20毫秒为间隔依次取短时段语音，然后提取特征。

图6：短时声学特征的提取

在声纹识别，包括语音识别领域，传统的声学特征包括梅尔倒谱系数MFCC、感知线性预测系数PLP、近几年的逐渐受到关注的深度特征Deep Feature [4]、以及15年公开发表的能量规整谱系数PNCC [5]等，都能作为声纹识别在特征提取层面可选且表现良好的声学特征。

综上，一段语音就被映射为时间轴上一系列的向量集合，这些集合再通过一些规整的操作后，即可成为反映语音特性的特征集合。但仅靠这些特征集合还难以实现声纹识别的目标，声学特征可以理解为时间轴上为声道拍摄的一系列快照，它直接映射的仍然是语意的内容，如何从一堆变化的特征中提取出不变的身份特性呢？接下来，就是统计建模发挥威力的时候了。

3. 化繁为简-声纹模型的进化路

既然希望计算机能够识别一个用户的声纹，那首先得让计算机“认识”这个用户的身份。典型的声纹识别的系统的框架如下图所示：

图7：典型的说话人确认系统流程图

声纹识别系统是一个典型的模式识别的框架，为了让计算机认识一个用户的身份，需要目标用户首先提供一段训练语音，这段语音经过特征提取和模型训练等一系列操作，会被映射为用户的声纹模型。在验证阶段，一个身份未知的语音也会经过一系列的操作被映射为测试特征，测试特征会与目标模型进行某种相似度的计算后得到一个置信度的得分，这个得分通常会与我们人工设定的期望值进行比较，高于这个期望值，我们认为测试语音对应的身份与目标用户身份匹配，通过验证；反之则拒绝掉测试身份。因此，识别性能好坏的关键在于对语音中身份信息的建模能力与区分能力，同时对于身份无关的其余信息具有充分的抗干扰能力和鲁棒性。

尽管每个人的语音看起来千变万化，但也不是完全没有规律可循。尽管我们每天会说很多话，但常用的字词至多只有数千个左右的级别；另外我们也做不到和家里的旺财发出一模一样的叫声。这也引出了声纹识别，同时也是传统的语音识别框架下的一个很合理的假设：将语音拆分到音素（phone）的级别，狭义的现代汉语只需要32个音素就已经足够用了。

如果考虑到每个音素的形态还会受到前后音素的影响，构建三音素模型（tri-phone）的话，那至多也只有几千个备选的三音素集合（不是简单的32的三次方，我们也会去掉一些稀有的和根本不会出现的搭配），而不同说话人的三音素样本尽管有明显的差异，但都能在空间中的某个区域内聚类。由语音和对应的声学特征的这些性质启发，1995年DA Reynolds首次将混合高斯模型（Gaussian Mixture Model，GMM）成功地应用于文本无关的声纹识别任务，至此之后的20多年，奠定了GMM在声纹识别中地基的地位，后续声纹的发展演进都是以GMM作为基础进行改进和拓展的。

在继续深入了解建模之前，我们有必要明确声纹识别，或者把范围再缩小一些，明确文本无关声纹识别任务，它的难点在哪里？在前文也提到过，声纹识别是一个兼具理论研究价值与工程应用背景的领域，声纹的难点主要在以下几个方面：

如何在语音多变性的背后，挖掘不变的身份信息。

实际应用中，从用户体验和成本的角度上考虑，针对目标用户可采集到的语料是极其有限的（按照学术上的定义，实际可用的语音是稀疏（sparse）的），如何在有限的数据中完成稳定的建模与识别。

对于同一个用户，即便采集到的两段语音内容都是相同的，但由于情绪、语速、疲劳程度等原因，语音都会有一些差异性。如何补偿这种说话人自身语音的差异性。

声音是通过录音设备进行采集的，不同的型号的录音设备对语音都会造成一定程度上的畸变，同时由于背景环境和传输信道等的差异，对语音信息也会造成不同程度的损伤，一般在研究中将这些外界影响语音的效应称为信道易变性（Channel Variability）。我们难以做到针对每一种信道效应都开发对应专属的声纹识别系统，那么如何补偿这种由于信道易变性带来的干扰。

明确了需要解决的问题之后，再回过来看GMM，它的优势在哪里？首先GMM是什么，它是一大堆形状不定的高斯分量的加权组合。有研究表明，当GMM中高斯分量的数量足够多的时候，GMM可以模拟任意的概率分布。

图8：我们只利用了七个葫芦娃就拟合出了一座山

从模式识别的相关定义上来说，GMM是一种参数化（Parameterized）的生成性模型（Generative Model），具备对实际数据极强的表征力；但反过来，GMM规模越庞大，表征力越强，其负面效应也会越明显：参数规模也会等比例的膨胀，需要更多的数据来驱动GMM的参数训练才能得到一个更加通用（或称泛化）的GMM模型。

假设对维度为50的声学特征进行建模，GMM包含1024个高斯分量，并简化多维高斯的协方差为对角矩阵，则一个GMM待估参数总量为1024（高斯分量的总权重数）+1024×50（高斯分量的总均值数）+1024×50（高斯分量的总方差数）=103424，超过10万个参数需要估计！

这种规模的变量别说目标用户几分钟的训练数据，就算是将目标用户的训练数据量增大到几个小时，都远远无法满足GMM的充分训练要求，而数据量的稀缺又容易让GMM陷入到一个过拟合（Over-fitting）的陷阱中，导致泛化能力急剧衰退。因此，尽管一开始GMM在小规模的文本无关数据集合上表现出了超越传统技术框架的性能，但它却远远无法满足实际场景下的需求。

时间来到了2000年前后，仍然是DA Reynolds的团队，提出了一种改进的方案：既然没法从目标用户那里收集到足够的语音，那就换一种思路，可以从其他地方收集到大量非目标用户的声音，积少成多，我们将这些非目标用户数据（声纹识别领域称为背景数据）混合起来充分训练出一个GMM，这个GMM可以看作是对语音的表征，但是又由于它是从大量身份的混杂数据中训练而成，它又不具备表征具体身份的能力。

那它有什么用呢？

学术圈的人就会告诉你：从贝叶斯框架的角度上来说，这个四不像GMM可以看作是某一个具体说话人模型的先验模型。形象的比方就是说你准备去相亲，媒人给你看了小莉的照片，你耳边浮现的肯定是小莉各种可能的温柔的声音，而不是你家旺财的叫声。

这个混合GMM就是起到了类似的作用，它对语音特征在空间分布的概率模型给出了一个良好的预先估计，我们不必再像过去那样从头开始计算GMM的参数（GMM的参数估计是一种称为EM的迭代式估计算法），只需要基于目标用户的数据在这个混合GMM上进行参数的微调即可实现目标用户参数的估计，这个混合GMM也有一个很洋气的名字，叫通用背景模型（Universal Background Model，UBM）。

UBM的一个重要的优势在于它是通过最大后验估计（Maximum A Posterior，MAP）的算法对模型参数进行估计，避免了过拟合的发生。MAP算法的另外一个优势是我们不必再去调整目标用户GMM的所有参数（权重，均值，方差）只需要对各个高斯成分的均值参数进行估计，就能实现最好的识别性能。这下子待估的参数一下子减少了一半还多（103424 -> 51200），越少的参数也意味着更快的收敛，不需要那么多的目标用户数据即可模型的良好训练。

图10：基于UBM的MAP用户模型训练算法

但GMM-UBM框架够好了吗？并没有，至少有两个问题GMM-UBM框架仍然没法解决：

（1）待估的参数仍然还是太多了。在NIST SRE的标准测试中，一个目标用户的可用语音约在5min左右，去掉静音段和停顿，大约只能保留1分半到2分半左右的有效长度，看起来已经挺短了，但是你能想象在在实际产品中一个用户对着手机连续读五分钟进行注册吗？这个长度的有效语音对于一个1024个高斯分量组成的GMM模型来说还是太短了，MAP算法只能对其中一部分落在某些高斯分量上的特征进行相应的高斯分量进行参数优化，而另外相当一部分得不到观测数据的高斯分量怎么办？那就只能老老实实待在原地不动了。这就造成了目标用户GMM某些区域具备良好的目标用户身份表达能力，而另外一些GMM区域则基本和UBM的参数相同，这无疑降低了文本无关识别应用中模型的表达能力；

（2）GMM-UBM缺乏对应于信道多变性的补偿能力，直白点说就是它不抗干扰，你拿爱疯手机在云端注册模型，换个小米手机拿来做识别，不通过！。但了不起的科学家们总有改进的办法，WM Campbell将支持向量机（Support Vector Machine，SVM）引入了GMM-UBM的建模中，通过将GMM每个高斯分量的均值单独拎出来，构建一个高斯超向量（Gaussian Super Vector，GSV）作为SVM的样本，利用SVM核函数的强大非线性分类能力，在原始GMM-UBM的基础上大幅提升了识别的性能，同时基于GSV的一些规整算法，例如扰动属性投影（Nuisance Attribute Projection, NAP），类内方差规整（Within Class Covariance Normalization，WCCN）等，都在一定程度上补偿了由于信道易变形对声纹建模带来的影响，这里也不多过多展开，有兴趣的读者们也可以查阅相关文献或与我们一起讨论。

时间继续前进，为了解决GMM-UBM待估参数过多的问题，学界与工业界可谓费尽心思，忽然有一天，学者们发现了：在MAP框架下，我们都是单独去调整GMM的每一个高斯分量，参数太多太累了，那有没有办法同时调整一串高斯分量呢？我们玩街霸也不用给每个关节都配备一个按钮，四个按键照样也能发出波动拳啊。

那有没有这样一种方法，让我们只能用少量的参数就能控制GMM中所有高斯成分的变化呢？答案当然是有，我们借助一种称为因子分析（Factor Analysis，FA）的算法框架，只用数百个基向量的线性组合（每个基向量的权重就可以看作是在这个基坐标上的坐标点），就足够能表征全体高斯超向量的变化了，也就是说，我们现在只需要几百个变量（通常为400-600），就足够表示一个50000维度的高斯分量均值集合！

其实，这种降维的思想在过去就已经广泛应用于图像，语音和数据的压缩技术中，因为真实数据总是带着相当多的冗余信息，我们可以做到只损失一小部分精度，甚至不损失精度，就能实现数据的压缩与降维，而基向量的估计是通过一种称为基于概率的主成份分析的（Probabilistic Principal Component Analysis， PPCA）的类EM算法，基于海量的背景说话人数据学习而来。这下好了，模型参数一下子从50000一下子降到了500，简直堪比梦中的房价走势。这样少量的数据就能实现GMM高斯分量的整体参数估计，随着数据量的增加，GMM会迅速趋于一个稳定的参数估计。在上面提到的难点中，a,b,c在很大程度上得到了解决。

图11：基于FA框架的Eigenvoice MAP用户模型训练算法

加拿大蒙特利尔研究所（Computer Research Institute of Montreal，CRIM）的科学家兼公式推导帝Patrick Kenny在05年左右提出了一个设想，既然声纹信息可以用一个低秩的超向量子空间来表示，那噪声和其他信道效应是不是也能用一个不相关的超向量子空间进行表达呢？

基于这个假设，Kenny提出了联合因子分析（Joint Factor Analysis，JFA）的理论分析框架，将说话人所处的空间和信道所处的空间做了独立不相关的假设，在JFA的假设下，与声纹相关的信息全部可以由特征音空间（Eigenvoice）进行表达，并且同一个说话人的多段语音在这个特征音空间上都能得到相同的参数映射，之所以实际的GMM模型参数有差异，都是由特征信道（Eigenchannel），即信道效应的干扰导致的，我们只需要同时估计出一段语音在特征音空间上的映射和特征信道上的映射，然后撇掉特征信道上的干扰就可以实现更好的声纹环境鲁棒性。

而JFA两个子空间的联合推导简直堪称是Kenny大神夺目的数学表演，有兴趣的读者可以参考 [5]，我估计不是声纹圈的翻了第一页和最后一页就可以直接关闭pdf了。

JFA在05之后的NIST声纹比赛中以绝对的优势成为了性能最优的识别系统，但JFA就足够好了吗？声纹领域的天空中仍然漂浮着一小朵乌云，尽管JFA对于特征音空间与特征信道空间的独立假设看似合理，但天下没有免费的午餐，现实世界中，尽管任何数据都存在冗余，即数据之间都具有相关性，但绝对的独立同分布的假设又是一个过于强的假设，你可以说你和你家旺财在长相上没什么相关性，但你们都有一对儿眼睛一张嘴啊…（也许都很能吃），这种独立同分布的假设往往为数学的推导提供了便利，但却限制了模型的泛化能力。

那肿么办？时间来到了09年，Kenny的学生，N.Dehak，提出了一个更加宽松的假设：既然声纹信息与信道信息不能做到完全独立，那干脆就用一个超向量子空间对两种信息同时建模拉倒！回想下JFA的假设：

同一个说话人，不管怎么采集语音，采集了多少段语音，在特征音子空间上的参数映射都应该是相同的；而最终的GMM模型参数之所以有差别，这个锅就丢给特征信道子空间来背；

特征音子空间和特征信道子空间互相独立。

JFA的这种“强”假设在实际使用中已经被验证必然不会满足。因此N.Dehak同志说：大家都是战友，不要再分你的我的，有福同享有难同当啦。这个更宽松的假设就是：既然正交独立性没有办法满足，那我们就干脆用一个子空间同时描述说话人信息和信道信息。

这时候，同一个说话人，不管怎么采集语音，采集了多少段语音，在这个子空间上的映射坐标都会有差异，这也更符合实际的情况。这个即模拟说话人差异性又模拟信道差异性的空间称为全因子空间（Total Factor Matrix），每段语音在这个空间上的映射坐标称作身份向量（Identity Vector, i-vector），i-vector向量通常维度也不会太高，一般在400-600左右 [6]。

这是什么概念读者们？折腾来折腾去声纹还是在搞GMM，但一路走来，从最初95年采用的32个高斯分量的GMM，一路飙升到1024、2048、甚至4096（敢这么玩的都是业界土豪）个高斯分量的GMM，模型改改改，公式推推推，折腾到最后一个说话人的声纹模型只需要保存一个400×1的向量就够了？

是的！就是这个样子，这也是为什么我用化繁为简来作为文章的副标题，i-vector是如此的简洁优雅，它的出现使得说话人识别的研究一下子简化抽象为了一个数值分析与数据分析的问题：任意的一段音频，不管长度怎样，内容如何，最后都会被映射为一段低维度的定长i-vector。

我们只需要找到一些优化手段与测量方法，在海量数据中能够将同一个说话人的几段i-vector尽可能分类得近一些，将不同说话人的i-vector尽可能分得远一些。同时Dehak在实验中还发现i-vector具有良好的空间方向区分性，即便上SVM做区分，也只需要选择一个简单的余弦核就能实现非常好的区分性。截至今日，i-vector在大多数情况下仍然是文本无关声纹识别中表现性能最好的建模框架，学者们后续的改进都是基于对i-vector进行优化，包括线性区分分析（Linear Discriminant Analysis， LDA），基于概率的线性预测区分分析（probabilistic linear discriminant analysis，PLDA）甚至是度量学习（Metric Learning）等。

4. 迷思-文本相关？文本无关？

既然i-vector在文本无关声纹识别上这么牛逼，那它在文本相关识别上一定也很厉害吧？No！在看似更简单的文本相关声纹识别任务上，i-vector表现得却并不比传统的GMM-UBM框架更好。

为什么？因为i-vector简洁的背后是它舍弃了太多的东西，其中就包括了文本差异性，在文本无关识别中，因为注册和训练的语音在内容上的差异性比较大，因此我们需要抑制这种差异性；但在文本相关识别中，我们又需要放大训练和识别语音在内容上的相似性，这时候牵一发而动全身的i-vector就显得不是那么合适了。

5. 进击：我们的youtu-vector

尽管学术界喜欢更难的挑（zuo）战（si），但工业界在很多时候没法和学术界保持一致。识别稳定，快速，用户体验好，才是一个声纹系统能够落地的核心评价指标。为此，首选的仍然是文本相关识别的应用，而在文本相关识别应用中，安全性最高的仍然是随机数字声纹识别。

尽管i-vector在文本相关上识别上似乎有点水土不服，但毕竟它在擅长的领域上已经展现了强大的性能。因此，如何能将i-vector的实力应用在我们的任务中，让随机数字声纹识别也能发挥出最大的能量，是优图实验室一致努力的目标。

针对i-vector弱化语意建模的属性，我们细化了i-vector的表征范围，即我们不再用i-vector针对一整段语音进行建模，而是将i-vector拆解为针对每个数字进行建模，这样i-vector从只表征说话人身份的一段向量细化为了表征身份+数字内容的一个向量。

图12：传统的i-vector提取框架，并不针对文本差异进行区分

图13：针对数字内容的差异性进行更细粒度的i-vector提取

这种更细粒度的i-vector划分为i-vector应用于随机数字声纹识别带来了两个明显的改进：

为了驱动i-vector背后的UBM和全因子矩阵，我们不再需要海量的数据，只需要专注于具体的数字片段切分，极大降低了驱动系统所需的训练数据的规模；
由于每个i-vector只针对数字进行建模，每个数字i-vector背后的数字UBM和数字全因子矩阵，都不需要像文本无关那样庞大的模型规模，相较于文本无关识别的任务，模型复杂度降低数十倍后，依然能在实际场景下表现出同样好的性能。

模型的简化带来的直接优势就是计算复杂度和空间复杂度的压缩，同时，尽管需要提取的i-vector数量比过去多了（目标用户语音中包含数字的集合数就是目标用户最终的i-vector集合数），但将提取过程并行化后，这种细化带来的额外计算与存储基本上是可以忽略的。

在识别性能上，我们以团队内部真实环境下采集的数据作为测试样例将数字i-vector与传统的i-vector、和RSR 2015一起发布的HiLAM文本相关识别框架进行了比较，包括了数万规模的目标样本测试与数十万规模的攻击样本测试，实现了等错误概率(EER)小于1%，千分之一错误率下的召回率大于95%的识别性能。我们自主研发的数字i-vector，性能要远好于现有的声纹识别框架。

6. 且行且思-关于声纹的展望与反思

尽管在适配i-vector与文本相关识别中，我们的尝试与探索有了一些突破，但我们仍然需要看到声纹识别在应用中的局限：动态变化的发声器官与声音，它们的稳定性依然还不及人脸与图像。除非哪天中风了，很难想像会有什么理由使得人脸识别失灵；但是感冒发烧则会改变我们的声道结构，自己的声音也会发生变化。

而声纹的识别精度相较人脸与图像还有比较明显的差距。深度学习的浪潮中，声纹的演进似乎也还是不温不火，而声纹识别的“兄弟”语音识别早已乘着深度学习的航母向前驰骋，这其中的原因有声纹固有的难点，想啃下这块硬骨头，我们要做的事情还有很多。

而优图在声纹的深度学习推进中也从未停下脚步，除了随机数字识别，在文本无关识别应用中，我们自研的从基于DNN的说话人分类网络中提取的深度特征（也称为瓶颈特征（bottleneck feature）），辅助i-vector进行分数层面的融合也让i-vector的识别性能在过去的基础上跨进了扎实的一步。在未来，优图团队有信心在人工智能的这股浪潮中激流勇进，贡献出更多更好的产品，服务大众，让每个人都能感受到科技为生活带来的便捷。

参考文献

[1] http://www.itl.nist.gov/iad/mig/tests/spk/

[2] Larcher, Anthony, et al. "RSR2015: Database for Text-Dependent Speaker Verification using Multiple Pass-Phrases." INTERSPEECH. 2012.

[3] Fu Tianfan, et al. "Tandem deep features for text-dependent speaker verification." INTERSPEECH. 2014.

[4] Vasilakakis, Vasileios, Sandro Cumani, and Pietro Laface. "Speaker recognition by means of deep belief networks." (2013).

[5] Kenny, Patrick. "Joint factor analysis of speaker and session variability: Theory and algorithms." CRIM, Montreal,(Report) CRIM-06/08-13 (2005).

[6] Dehak, Najim, et al. "Front-end factor analysis for speaker verification." IEEE Transactions on Audio, Speech, and Language Processing 19.4 (2011): 788-798.

趋势

声纹识别也和其他识别一样，也向着深度学习的方向发展，但是又和语音识别稍有差异，传统算法和模型在声纹识别中还占有相当大的比重。

下图是Fred Richardson在论文中提出的声纹识别的深度学习模型示意

深度学习的效果还是有的，下图就是各种方法的一种比较，也就说，将来实时声纹识别将会有比较大的突破。

但是难度也很大，因为深度学习是基于数据驱动的模型，需要庞大的数据，这些数据最好是真实场景的数据，以及对数据的精确标注，这些都是很费钱很费人的事情。而且声纹识别训练库的建立，至少要保证性别比例分布为50%±5%，包含有不同年龄段、不同地域、不同口音、不同职业。同时，测试样本应该涵盖文本内容是否相关、采集设备、传输信道、环境噪音、录音回放、声音模仿、时间跨度、采样时长、健康状况和情感因素等影响声纹识别性能的主要因素。也就是说，声纹识别对数据的要求其实比语音识别还要高很多，这本身就是个很大的门槛，也是突破声纹识别，真正能让声纹识别落地千家万户的核心因素。

声智科技创始人陈孝良-读者提问：

现在的声纹识别能够做到多人的同时识别吗？比如一个场景有一群人，可以识别区分出有哪些人或者人数吗？

声纹识别和语音识别从技术上目前都还无法做到多人同时识别，上面第二个问题是声纹区分，这是可以做到的，不同人说话的声纹是不一样的，采用传统的方法即可区分出来，当然也可计算人数，但是有的声音仍然可能会被漏过。人耳有个掩蔽效应，简单说就是强的声音会淹没弱的声音，当前的声学模型还无法很好的解决。

微信的摇一摇功能的电视语音识别技术使用的什么技术？

微信摇一摇是声波通信技术，这和识别差异较大，声波通信和无线通信类似，特别是在水中，基本只能依赖声音进行信息传输。

Adobe VoCo利用ml合成的音频，声纹识别是否还有效？

合成的音频仍然是可以鉴别的，公安部的检测首先就要排除是否合成，但是当前动态检测的方法，特别是DNN训练的模型可能无法区分。

根据语谱图使用CNN提取特征，会比使用常用的短时声学特征组合更有效吗? 长时声学特征，比如常用语，语速，口音特征，词法特征等，一般会被用来辅助进行声纹识别吗？

长时特征比短时特征效果会提升，但是目前来看，计算的压力会非常大，所以长时特征现在实时检测中用的还较少，声纹鉴别基本都是20秒以上，而实时检测每帧还是20毫秒居多。

刚刚在分享中有提到声波是有机器学习的，如果黑客一开始就去诱骗数据库怎么办？

这个问题非常好，是所有深度学习都无法回避的问题，如果保证采样数据的真实性，将来肯定是大问题，但是现在连如何保证数据的完整性都还没做到。实际上，我们采集的数据问题就非常多，标注的数据准确性就更难保证了，这是个困扰深度学习，也是深度学习研究人员尽量避免谈及的问题。

做声纹识别这类声学研究，需要用到哪些基础的软硬件环境才能快速上手？能否推荐一些给初学者。

声学研究因为偏物理一些，所以需要一些物理实验环境，比如声学方面的消声室，混响室，这可以帮助更好地理解声音，另外还需要精密的采集设备，软件方面倒是要求不高，有一些声学方面计算模拟的软件，信号处理方面的就是matlab为主。

应用

声纹识别可以应用的范围很宽，可以说声纹识别几乎可以应用到人们日常生活的各个角落。比如下面举几个例子。

(1)信息领域。比如在自动总机系统中，把身份证之声纹辨认和关键词检出器结合起来，可以在姓名自动拨号的同时向受话方提供主叫方的身份信息。前者用于身份认证，后者用于内容认证。同样，声纹识别技术可以在呼叫中心(Call Center)应用中为注册的常客户提供友好的个性化服务。

(2)银行、证券。鉴于密码的安全性不高，可以用声纹识别技术对电话银行、远程炒股等业务中的用户身份进行确认，为了提供安全性，还可以采取一些其他措施，如密码和声纹双保险，如随机提示文本用文本相关的声纹识别技术进行身份确认(随机提示文本保证无法用事先录好的音去假冒)，甚至可以把交易时的声音录下来以备查询。

(3)公安司法。对于各种电话勒索、绑架、电话人身攻击等案件，声纹辨认技术可以在一段录音中查找出嫌疑人或缩小侦察范围；声纹确认技术还可以在法庭上提供身份确认（同一性鉴定）的旁证。在监狱亲情电话应用中，通过采集犯人家属的声纹信息，可有效鉴别家属身份的合法性。在司法社区矫正应用中，通过识别定位手机位置和呼叫对象说话声音的个人特征，系统就可以快速的自动判断被监控人是否在规定的时间出现在规定的场所，有效地解决人机分离问题。

(4)军队和国防。声纹辨认技术可以察觉电话交谈过程中是否有关键说话人出现，继而对交谈的内容进行跟踪(战场环境监听)；在通过电话发出军事指令时，可以对发出命令的人的身份进行确认(敌我指战员鉴别)。目前该技术在国外军事方面已经有所应用，据报道，迫降在我国海南机场的美军EP-3侦察机中就载有类似的声纹识别侦听模块。

(5)保安和证件防伪。如机密场所的门禁系统。又如声纹识别确认可用于信用卡、银行自动取款机、门、车的钥匙卡、授权使用的电脑、声纹锁以及特殊通道口的身份卡，把声纹存在卡上，在需要时，持卡者只要将卡插入专用机的插口上，通过一个传声器读出事先已储存的暗码，同时仪器接收持卡者发出的声音，然后进行分析比较，从而完成身份确认。同样可以把含有某人声纹特征的芯片嵌入到证件之中，通过上面所述的过程完成证件防伪。

参考资料：

声纹识别技术的现状、局限与趋势丨硬创公开课
声纹识别-综述
探秘身份认证利器——声纹识别！

你可能感兴趣的:(计算机视觉与图像处理,产品经理)

怎么做一个AI产品经理？ AI筑梦师 AI产品经理人工智能产品经理
AI产品经理全面进化：在人工智能迅猛发展的时代，产品经理的角色正经历前所未有的转型。从传统的需求捕捉者到技术与商业紧密结合的创新推动者，AI产品经理肩负着将前沿AI技术转化为解决用户痛点的产品的重要任务。随着大数据、云计算和大模型技术的不断成熟，产品经理不仅需要具备敏锐的市场洞察，还必须深刻理解AI技术本质，跨界整合技术、数据与业务优势，从而推动产品的持续创新与落地。本文将全面解析AI产品经理的角
【产品经理】设计一流产品九步法程矢 Axure原型设计 axure
转载自：老二牛车教育»【产品经理】设计一流产品九步法百度高管舒迅（@舒迅）曾经带领百度贴吧创造出一年内用户注册量增长10倍、浏览量3倍增长的奇迹，作为一名在中国互联网摸爬滚打超过12年的老兵，在和百度内部同事的相互磨砺中，总结出了极其丰富而是用的产品设计经验。他在这篇文章中介绍的九条方法不仅值得每一个PM的认真学习，同样也值得每一个有志于打造出一流产品的互联网创业者和从业者的揣摩。本文描述的产品设
ElementUI元件库与后台模板页面（支持Axure8及9）贡驰赞Powerful
ElementUI元件库与后台模板页面（支持Axure8及9）【下载地址】ElementUI元件库与后台模板页面支持Axure8及9本仓库提供了一个全面的资源文件，包含ElementUI元件库及后台模板页面，支持Axure8及9版本。该资源文件旨在帮助设计师和产品经理快速构建高保真原型，提升工作效率项目地址:https://gitcode.com/open-source-toolkit/50b64
AI产品经理的前世今生大语言模型人工智能产品经理 langchain python java LLM
最近大热的AI产品经理到底是个什么岗位呢？具体他们需要做些什么具体工作呢？好像听说很高大上，具体工作会不会很复杂呢？我想大家一定都会有或多或少的疑惑。别急，且听小编一点点娓娓道来。最早AI产品经理并没有这个细分岗位，这些工作都是集中于AI算法工程师为一体。从筛选项目，定义问题，拆解方案，具体执行，实际交付可能都由一人完成，所以项目质量和速度也不好保证。随着项目成熟化普遍化，公司意识到需要把岗位进行
大模型在招聘场景下的应用 IT猫仔人工智能 ai 学习
大模型在招聘场景下的应用具有广泛的可能性。一、简历自动化筛选与匹配应用：大模型能够自动分析大量简历，根据职位要求筛选出合适的候选人，并按匹配度排序。Prompt写法：请对以下简历进行筛选，找出符合【职位名称】职位要求的候选人。职位要求包括【具体要求】。请提供筛选结果，并按照匹配度从高到低排序。举例：请对以下简历进行筛选，找出符合“产品经理”职位要求的候选人。职位要求包括具备3年以上产品经验、熟悉用
【脑洞小剧场】零帧起手创业小公司之第一次用户反馈 Foyo Designer 技术职场小剧职场和发展程序人生学习方法改行学it 程序员创富
点击查看小剧场合集https://blog.csdn.net/foyodesigner/category_12896948.html阳光透过窗帘的缝隙，懒洋洋地洒在办公室的每一个角落，却似乎无法驱散产品经理程立新心头的阴霾。他坐在电脑前，眼神空洞地盯着屏幕，心里五味杂陈。昨天项目匆匆上线，本以为会是公司迈向成功的一大步，没想到今天一早就迎来了用户的“狂轰滥炸”。场景一：产品经理的“差评风暴”“这…
4年产品经理工作总结，这3个问题没想清楚一辈子都是初级产品（附AI产品经理福利） Langchain 产品经理人工智能语言模型 langchain 大模型 LLM ai产品经理
笔者将这4年产品工作的所思，所悟，所得进行总结，总结起来就是3个方面：关于学习成长，关于交流分享，关于职场选择。希望分享的内容对产品新人们有所帮助，也希望能和产品老鸟们多多交流，毕竟讨论使人完备！本文金字塔结构如下图所示：一、关于学习成长产品经理这个职位有些类似于中国的博士入学考试，宽进严出，想要完成从产品专员->产品经理->高级产品经理->产品总监的升级之路可谓非常之难，抛开运气因素，对一个人的
产品经理如何判断开发说的需求是否可以实现产品经理需求分析需求管理
在产品开发过程中，产品经理和开发团队之间的沟通至关重要。产品经理不仅需要定义清晰的需求，还需要确保这些需求能被开发团队实际实现。如何判断开发团队所说的需求是否可以实现，涉及到技术可行性、资源可用性、时间预算等多个维度。判断需求是否可行，需要考虑开发技术栈、团队经验、现有资源、实现的难度及对产品整体战略的影响。一、了解开发团队的技术栈和能力每个开发团队都有自己擅长的技术栈，理解这些技术栈是产品经理判
【产品经理修炼之道】- 关于产品科技方法论 xiaoli8748_软件开发产品经理产品经理
对科技、技术等方面的钻研所得，有时可以反哺至日常的产品设计中，比如本篇文章里，作者便总结了他在产品科技领域的一些思考，包括了产品创新、商业模式等各个方面，一起来看看吧。以下汇总自我在产品科技领域的思考笔记共计27篇（约3万余字），欢迎留言、交流及探讨！许多思考的灵感来自于保罗的《黑客与画家》、陆奇等科技界大佬、硅谷部分投资者等。enjoy！一、学会从前端技术中，挖掘新的商业模式通过技术前端的能力（
【脑洞小剧场】零帧起手创业小公司之 UI设计稿初稿 Foyo Designer 技术职场小剧产品经理改行学it 经验分享程序人生前端 ui
点击此处查看脑洞小剧场合集https://blog.csdn.net/foyodesigner/category_12896948.html阳光透过办公室的窗户，洒在吴艾（UI工程师）的桌上，映照出他那张略显疲惫但又充满期待的脸。今天，他终于完成了那份被无数次催促、无数次修改的UI设计稿初稿。他深吸一口气，像是要把这份成果深深烙印在心里，然后满怀信心地点开了与产品经理程立新和前端程序员段码的群聊窗
LangChain大模型应用开发指南-大模型Memory不止于对话喝不喝奶茶丫 langchain 人工智能大模型大模型应用 AI大模型 Memory 大语言模型
上节课，我我为您介绍了LangChain中最基本的链式结构，以及基于这个链式结构演化出来的ReAct对话链模型。今天我将由简入繁，为大家拆解LangChain内置的多种记忆机制。本教程将详细介绍这些记忆组件的工作原理、特性以及使用方法。【一一AGI大模型学习所有资源获取处一一】①人工智能/大模型学习路线②AI产品经理资源合集③200本大模型PDF书籍④超详细海量大模型实战项目⑤LLM大模型系统学习
【脑洞小剧场】零帧起手创业小公司之第一次项目延期 Foyo Designer 技术职场小剧 ui 产品经理项目经理程序人生职场和发展改行学it
点击此处查看脑洞小剧场合集https://blog.csdn.net/foyodesigner/category_12896948.html场景一：项目经理的“背锅之旅”项飙（心里OS：唉，这项目延期得像场噩梦，老板问起来我该怎么办？总不能说是因为产品经理需求改得比翻书还快，后端程序员天天喊着要重写架构，前端和UI设计师又因为设计稿吵得不可开交吧？这锅，看来我得背了。）他深深地吸了一口气，试图平复
Vue 4.0读心术——用AI生成产品经理想要的组件 vue.jschatgpt前端
前端咸鱼陈の周刊·第001期3句需求描述产出完美代码，摸鱼到老板泪流满面！一、技术解析：AI辅助开发如何读心？1.人话翻译Vue4.0的就像奶茶店自动点单机：*传统开发：产品经理说“要五彩斑斓的黑”，你熬夜调色*AI辅助：输入“五彩斑斓的黑+科技感”，AI生成10种配色方案核心代码vue效果对比：传统开发耗时：2天→AI生成耗时：2分钟（摸鱼时间+500%）二、实战案例：3句话搞定年度OKR报表需
AI产品大模型学习指南：清晰路线，AI产品经理必备知识点一网打尽！_AI产品经理 AGI大模型学习人工智能产品经理 LLM 大模型学习学习知识图谱 AI产品经理
一、AI产品经理知识扫盲1️⃣【AI的产品形态到底是什么】？没有固定形态。实际上AI只是一种对传统产品或服务赋能的手段而已，将各种“中间件”（通常是一种训练好的模型，当输入一定数据后自动返回一定的输出值）、传感器等不同形式的软件、硬件融入传统产品或服务的使用或体验流程中。AI只是一种工具而已，产品的终极目标仍然不变为用户创造最大价值，提供最佳用户体验。2️⃣【AI产品的三要素】算法+计算能力+数据
2025年大模型AI产品经理学习路线图：零基础到精通，一篇收藏，开启学习之旅！悄悄努力然后惊艳所有人 AGI大模型老王人工智能产品经理学习 AI大模型大模型学习大模型 AI产品经理
随着人工智能技术的发展，尤其是大模型（LargeModel）的兴起，越来越多的企业开始重视这一领域的投入。作为大模型产品经理，你需要具备一系列跨学科的知识和技能，以便有效地推动产品的开发、优化和市场化。以下是一份详细的大模型产品经理学习路线，旨在帮助你构建所需的知识体系，从零基础到精通。一、基础知识阶段1.计算机科学基础数据结构与算法：理解基本的数据结构（如数组、链表、树、图等）和常用算法（如排序
【无标题】东东就是我 opencv 计算机视觉人工智能
1.计算机视觉与图像处理计算机视觉技术涵盖从图像预处理到目标检测的全流程，是工业视觉系统的核心部分。知识点扩展OpenCV基础cv2.imread()、cv2.imshow()、cv2.imwrite()进行基本图像读取、显示、保存cv2.cvtColor()进行颜色空间转换（RGB↔GRAY，RGB↔HSV）cv2.resize()进行图像缩放cv2.flip()进行图像翻转（水平/垂直）imp
构建指标体系的价值 - AxureMost 落葵网 AxureMost NPDP 产品经理开源知识库产品经理
产品经理构建指标体系具有多方面的重要价值：一、产品规划与战略落地战略目标细化产品经理需要将公司的战略目标转化为具体的产品目标。指标体系是实现这一转化的有效工具。例如，如果公司战略是提升市场份额，产品经理可以构建包括用户增长数、市场渗透率等指标的体系，将战略目标分解为产品可衡量的小目标。这样可以确保产品的规划和发展方向与公司整体战略紧密契合。产品路线图规划指标体系能够为产品路线图的规划提供数据支持。
产品经理-需求规格文档（SRS） - AxureMost AxureMost NPDP 产品经理开源知识库产品经理
需求规格文档（SRS）-AxureMost需求规格文档也叫需求规格说明书，通常是作为乙方项目给甲方书写的项目类的需求文档。需求文档也叫产品需求文档，是自己作为甲方时候书写的产品设计说明书需求规格文档（SoftwareRequirementsSpecification,SRS）是软件开发过程中一个至关重要的文档，它详细描述了系统的需求，包括功能、性能、接口、数据和数据库、安全性和保密性等方面的要求。
三种需求挖掘方式，哪种能让你产品更有价值？（上）产品设计大观 C study 1024程序员节
“洞察用户真正需求，寻找更好的方案解决此需求”是产品经理的核心职责，也是评估产品经理是否合格的标准。确立此产品的目标用户，以及他们的核心需求这是产品定位的过程，确保产品走上正确轨道。否则，用户体验再好，也是个无价值的产品。洞悉需求的方法很多，从方法论上分为三种。第一种讲究绝对客——数据分析；第二种信任意识形态——更重视用户调研，心理分析等；第三种——直觉和灵感。实际中，三种方式没有绝对界限，彼此杂
互联网寒冬下，游戏公司ui 设计，如何转做产品经理，涨薪50%？产品设计大观 ui 游戏产品经理
从2021年下半年开始吹起的互联网寒风，相信让大家都不同程度地感受到了寒冷。在这种情况下，许多互联网人开始评估自身和业务的价值，在被优化地恐惧中度过一天又一天。“坚持下去”，这是大家对彼此说的最多的话。互联网再也不复往年跳来跳去的模样了。然而在这样的时代浪潮中，却有一些人还是逆流而上，选择转行到其他岗位。他们是怎么做到的？刀友西奥就是一个从游戏公司ui设计转行到医疗互联网做产品经理的特殊例子。今天
早上一上班发现产品出现重大事故，作为产品经理该怎么办？产品设计大观产品经理
作为产品经理，工作日常最怕的三件事估计是：评审会、突然加需求、产品出现重大事故。（事件严重顺序不分前后）其中最猝不及防，最挑战产品经理承压力和行动力的莫过于早上一上班发现产品出现重大事故。如果遇到这种情况，除了立马辞职（划掉）还有其他的办法吗？前辈产品经理有哪些有益的经验值得我们学习呢？针对这个问题，刀友群各位产品经理们是这样理解的：喔XX分三步走1.安抚用户，完善补偿制度，每次发生突发状况首先就
找工作面试经历——校招、秋招、图像算法、求职面试之路路人甲ing.. 生活深度学习招聘秋招找工作图像算法
找工作的过程很早就结束了，一直没有时间记录一下这宝贵的时间，珍贵的历史。过程是艰辛的，结果还算是美好的。有面试机会的公司大多数都给offer了。最后去了华为，实习留用。研一的时候还不知道自己到底想干什么，很是迷茫，看了一些职业规划相关的东西，也问了很多学长学姐，逐渐给自己确定了三个可能可以做的岗位：互联网产品、外企的销售、技术算法类。一开始内心是不太愿意做技术工作的，想要立刻行动打开产品经理的大门
【产品经理修炼之道】- 支付“清结算”体系的设计方法 xiaoli8748_软件开发产品经理产品经理
我们知道，每一笔支付最终都要进行结算，一般会有众多参与者或利益方，在完成之后，算清相关的利益关系，完成利益分配。本文作者对完成利益分配的“清算系统”进行了详细的阐述分析，一起来看一下吧。支付完成以后进行履约，履约完成以后就需要清算各方利益并最终进行结算，清结算体系与支付体系并行是支付范畴另一个非常庞大的体系。一、清算系统设计我们都知道一笔支付最终都是要进行清算的，业务一般都会有众多参与者或者利益方
敏捷开发之自动化流水线舒旻敏捷项目管理 devops 敏捷流程 scrum 软件工程敏捷开发
自动化流水线就像给软件交付装上了「智能检测仪」，每个环节自动过滤风险，确保最终交付物既安全又高质量。以下是一个在线教育平台支付系统升级的实战案例，完整展示从开发到上线的全流程。以下是「在线教育平台支付系统升级」案例的完整责任矩阵：责任分工框架环节主要责任人协作角色关键交付物协作工具1.代码开发与提交后端开发工程师技术负责人、产品经理功能代码、单元测试GitLab、JIRA2.代码安全审查安全工程师
Scrum中文网学员分享 | AI/AIGC产品经理实战训练营学习心得豆瓣如意人工智能产品经理 ai AIGC
公司邀请了Scrum中文网AI/AIGC产品专家给我们分享了AI/AIGC产品经理实战课程。参加这次AI/AIGC产品经理课程，让我收获颇丰，对AI/AIGC领域有了更为全面和深入的理解，为我在这个快速发展的行业中前行提供了有力的支撑。课程开篇便对现代AI/AIGC的发展现状和趋势进行了详细剖析。在了解到社会面临的诸多挑战后，我深刻认识到AI和AIGC技术在各行业潜在的巨大变革力量。通过小组讨论不
【产品经理修炼之道】-价值维思考模型在技术性需求中的应用 xiaoli8748_软件开发产品经理
真正的产品，是满足用户需求痛点、给用户创造快感，或者成本节约带来的感受。这种感受既可感知，也有可能不可直接感知。产品经理到底要不要懂技术，是否技术出身的产品经理一定更有优势呢？对于这个问题的探讨，相信各位都能在各个产品论坛上看到，不少产品经理估计也参与争辩过。笔者自己曾是技术出身，且刚毕业时做全栈开发若干年，也有过技术架构经验，所以对于产品经理要不要懂开发，笔者认为懂总比不懂的好，不过之前所带过的
从技术基础到大AI时代：如何成为一名合格的软件架构师 nbsaas-boot 人工智能
一、软件架构师的角色定位总体设计者软件架构师既要负责宏观的技术规划，也要兼顾微观的实现细节。架构师在团队中承担“技术领航”的职责，需要将业务需求、技术实现和团队能力进行有机结合，设计出既满足当前需求，又具有弹性和可扩展性的系统方案。团队技术领导者除了设计工作本身，架构师需在团队中发挥引领作用。面对复杂的技术决策与跨部门协作，架构师必须能够与开发、测试、运维、产品经理等多个角色高效沟通，推动相关工作
华为高级产品经理徐洪：高级产品经理的必经之路 PMCAFF产品社区广告大数据编程语言人工智能 java
嘉宾介绍徐洪，现华为高级产品经理，2014年10月有幸加入华为，就职于运营商数据中心解决方案销售部，期间支持赢取西非第一大运营商数据中心项目的突破，获得公司总裁嘉奖令，获得明日之星称号。15年7月调到西非尼日利亚开展运营商数据中心项目的拓展工作，期间开始从数据中心机房转型到IT，负责过西非多个国家的项目拓展，连续攻下多个数据中心项目。16年9月，得领导认可调任科特迪瓦IT和数据中心解决方案负责人，
互联网产品经理西部驯兽师项目管理软件工程方法论产品经理
要成为高级互联网产品经理，需要系统性地构建知识体系、规划职业路径、积累实战经验并建立行业影响力。以下是具体路径和建议：一、知识体系构建1.核心能力模块市场与用户洞察：掌握市场分析工具（SWOT、PESTEL、波特五力模型）。精通用户研究方法（问卷、访谈、用户画像、A/B测试）。学习行为心理学（如《影响力》《思考，快与慢》）。产品设计与技术基础：熟悉产品设计工具（Axure、Figma、墨刀）。理解
Webpack构建兼容IE8
IE8中运行webpack打包后的程序会出现各种问题，请注意，真的会有各种问题，所以尽可能不要在IE8上运行webpack，连淘宝都不支持IE8了，为什么我们还要兼容它呢？毕竟是十年前的东西了。但是，如果产品经理非要兼容IE8，或者目标用户就是那些用IE8的群体（暴露年龄的东西），讲道理还是可以解决的，只是要多费些脑细胞。首先要知道IE8不怎么兼容es5特性，所以要加入es5的compatibil
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_