前言:声纹识别是AI领域中一个看似很小、但其实有机会在近期落地,且比较有意思的细分方向;本文作者是“AI产品经理大本营”团员@cony ,她总结了AI产品经理“最必要”了解的声纹识别技术知识和行业现状(多了没必要,少了又不足以入门、准备面试或工作实战)。文末有【福利】:起点学院/人人都是产品经理·5周年大促优惠,hanniman读者再减30元-150元/单。
目录
一、核心概念(定义、原理、优劣势、分类、评判标准)
二、技术边界(外部影响、人自身影响、假冒攻击)
三、瓶颈和机会(数据、多生物特征识别融合、5个应用领域)
四、声纹识别厂商简介(科大讯飞、得意音通、声扬科技、国音科技、快商通、远鉴科技)
1
核心概念
1、定义
声纹识别(Voice Print Recognition,简称VPR),也称为“说话人识别”,是“根据声纹特征识别某段语音所对应的说话人”的过程。
因为发音涉及到口腔、鼻腔、喉咙和胸腔的器官的共振,还有唇、齿、舌的差异,每个人说话都有自己独特的语音特征和发音习惯,即使是模仿,也难以改变说话者最本质的发音特性和声道特征,所以,就像人脸、指纹、虹膜一样,声纹也属于生物特征之一。
2、识别原理
图1 声纹识别系统架构
声纹识别是一类典型的模式识别问题,主要包含了训练和识别两个阶段。
训练阶段,算法提取训练库里的语音特征,并进行深度学习,训练出模型;识别阶段,将注册音频和待识别的音频进行特征提取之后,比对出得分,得分超过阈值,则识别通过,反之则不通过。
注:网上讲解技术原理的参考文章:1)https://www.jianshu.com/p/19d34b19517b ;2)https://blog.csdn.net/xiaocao9903/article/details/80649284,有兴趣的同学可以看看(需要长按链接,复制后再用浏览器打开)。
3、优劣势
1)声纹识别的优势
准确率高:在理想情况下(环境安静、采集质量高、发音正常),声纹识别的准确率可以达98%以上;
采集成本低:声纹采集对设备的要求不高,如今智能手机的普及,手机自带麦克风一般都能能满足采集要求,并且人在说话的时候就能无感采集,无附加操作成本;
远程操作:只需要有麦克风,就可以远程采集声纹,并通过网络传输;
不怕丢失:生物特征的特殊优势,属于身体的一部分,不会像外部密码会丢失;
隐私性弱:人们对人脸、指纹的隐私性比较敏感,而声音是每天都会说的,采集比较容易,大众接受度比较高。
2)声纹识别技术的商用发展还处于起步阶段,所以关于使用上,还存在局限性
声音易变性:一个人在不同时间、不同地点下,说话音量、音调都会有所变化,这对算法的鲁棒性要求比较高;
环境噪音:噪音会干扰声纹的特征提取,使得识别准确率大大降低,所以一些声纹厂商会自研一套音频降噪处理算法;
多人声音重叠:目前的算法技术还不能做到分离两个人重叠的声音,配合麦克风阵列,可以从源头就将不同发音方向的人声分离;
说话时长限制:太短的语音提取不了足够的声纹特征信息,固定文本内容的最短有效时长至少是0.8秒,自由文本内容是2秒(后面会对文本内容要求进行解释);
距离限制:0.5m以内的近场识别效果会比远场好,越远音量越小,识别准确率越低;
4、分类
1)按功能角度分类,可分为以下5种
A )声纹1:1:即声纹确认。说话人事先录入过自己的声音后,验证时,只需要说一句话,即可验证自己的身份,比对时,验证语音只和一个注册音频的对比。微信和支付宝的声纹登录功能就属于声纹1:1。
B )声纹1:N:即声纹辨认。一个声纹库包含了N个已收集的人员声纹特征,验证时,说一句话,即可找到库里的对应人员,比对时,验证语音和N个注册音频对比。家庭机器人如果要听声识人,就会用到声纹1:N。
C)性别识别:只需说一句话,就能判断说话人的性别。
D)年龄识别:C和D这两个,属于偏娱乐性的功能,市场上对其的需求并不强烈,所以准确率也不高。不过只要有足够标注准确的数据,年龄识别的准确率还是可以提高的。
5)情绪识别:情绪识别,对于成年人来说,不同人在相同情绪下的声音的共性并不明显,而小孩或者婴儿的共性会更明显,之前团员@长弘写的一篇《能否借助AI破译婴儿哭声?》(https://shimo.im/docs/gt9JoNSVAXoH7Q52/ ),涉及的技术应算是此范畴。
2)按语音文本内容角度分类,可分为以下3种:
A)固定文本,指内容固定的短语句,比如“小爱同学”,如果对智能硬件的唤醒词身份识别准确率要求较高的话,可以针对固定语句去训练一个模型,可提高识别率。
B)文本无关,指说话内容不固定,不限制语种、方言,只要说话语音达到限定的有效时长即可识别。
C)数字文本,指纯数字的文本,在微信和支付宝里的应用是8位且不重复的数字。
不同的分类,算法模型也有所不同,对应应用的领域和场景也不一样。
另外,采样率也会影响到算法模型,主流音频采样率是8k和16k,电话信道录音是8k的,手机信道录音是16k的。
5、语音质量检测
为提高识别准确率,在进行声纹识别之前,待识别音频需先经过语音质量检测,检测内容包括音频有效时长、音量大小、信噪比,这些检测项均可根据不同的使用场景和需求进行参数配置,一旦其中一项检测没有达到标准,就会返回提示给用户重新调整录音。
当然这不是必须的,根据实际的需求进行设置即可,参数配置得越严格,有利于保证识别的准确性,但会影响用户体验。
6、评判标准
声纹1:1和声纹1:N的评判标准不一样。
1)声纹1:1
声纹1:1的评判标准主要看两个,错误拒绝率(False Reject Rate,FRR)和错误接受率(False Accept Rate,FAR )。FRR指把本应判定对“Ture”的人,判定为“False”,FAR指把本应判定为“False”的人,判定为“Ture”。二者的定义公式如下:
错误拒绝率(FRR)=被错误拒绝的样本数/应被接受的样本数*100%
错误接受率(FAR)=被错误接受的样本数/应被拒绝的样本数*100%
FAR越高,体验越好,安全性越低,FRR越高则相反,而二者是此消彼长的,可通过调整阈值进行权衡,根据不同的场景需求,调整得到不同的指标。
FAR和FRR的相互变化曲线,称为ROC曲线,曲线上FAR=FRR的点,为等错误率(EER),EER越小,算法模型越好。
图2 ROC曲线
2)声纹1:N
声纹1:N的评判标准有正确识别率(简称识别率)和Top-N准确率。
识别率指,将待识别人的语音,能从声纹库里,正确识别到对应人的概率。通常匹配分数最高,且超过阈值的,认为是识别到的人。也可称为Top 1准确率。
Top N准确率指,声纹库里,识别分数最高的前N个人,包含了待识别人的概率,称为Top N准确率。当声纹库数量比较庞大时,往往Top 1的准确率不高,就需要借助Top 5或者Top10的准确率来缩小范围。
3)性能指标
A)上传速度
声纹算法一般部署在云端,而音频上传到云端进行识别需要时间,并且音频时间越长,上传时间越长。短语句的识别,一般时长都在6秒以下,在带宽足够的情况下,上传速度非常短,几乎可以忽略不计,但是仍然需要关注此指标,避免在高并发时,速度变慢,影响体验。
有一些应用场景,比如智能家居,对整体的识别速度要求比较高,就会考虑把算法离线封装到设备端,以达到更快的反应速度,而离线部署对硬件的设备的配置要求也更高,导致成本变得更高。
B)声纹特征提取速度和比对速度
声纹的比对分为两步,特征提取和特征对比。特征提取速度与音频时长有关,实时比(Real Time Factor)为1:80时,意思是1秒能够处理80s的音频。验证比对速度是指平均每秒钟能进行的声纹比对次数,速度可以非常快,80w/s属于普遍标准。
C)阈值
在接受/拒绝二元分类系统中,通常会设定一个阈值,比对分数超过该值时才做出接受决定,根据实际的业务需求调整阈值,以平衡FAR和FRR。若要体验感好,且对安全性要求不高,可调低阈值,FAR升高,FRR降低;若对验证的安全性要求较高,可调高阈值,FAR降低,FRR升高。
2
技术边界
声纹识别和语音识别同属语音类的识别算法,技术边界也有一些类似的地方,这里把声纹识技术边界分为外部影响、人自身影响、假冒攻击三大部分。
1、外部影响
1)环境噪声
在实际的应用场景里,环境包含了各种各样的噪声,会造成一定程度上淹没了语音信号中说话人信息,使算法无法准确获取说话人的声纹特征。家庭的环境,噪声相对会小一些,如果是户外或者其他公共场合,噪声不可预测,可能有汽笛声、人声、音乐声等等,目前的技术比较难过滤掉这种噪声,所以会对识别效果有影响。
2)跨信道
市面上带录音功能的硬件设备有很多,每一部手机、智能音响、录音笔、座机等等,都是不同的录音信道,而每个信道对音频有不一样的处理方式,导致处理后声音的特征信息也会有所不同。比如智能家居,可能会用手机先注册好声音,然后实际校验声音会用智能音响、遥控器、或者某件电器所带的麦克风,像这种涉及多信道的场景,应事先测试一下算法跨信道的鲁棒性。
3)多说话人
在声学中,有一种叫鸡尾酒效应的现象,指在鸡尾酒会嘈杂的人群中,两人可以顺利交谈,尽管周围噪声很大,但人耳可以自动屏蔽噪声,而听见对方的说话声。目前的算法还没有达到只听到目标人声音的能力,在多人同时说话的时候,无法分离出目标人的声纹,提取不到准确的声纹特征,所以在多说话人的场景下,声纹的应用效果不会特别好。
有的场景还可以借助麦克风阵列,从前端对采集到的声音进行分离,只要说话人不在同一个方向对着麦克风阵列说话,语音信息就能分开采集。对于无法采用麦克风阵列的场景,研究者提出了人声分割技术,对说话人混合语音进行分割和聚类处理,从而实现多说话人的人声分离,但这种技术也只能处理不重叠的人声。
2)人自身的影响
1)时变
人的身体机能随着年龄的增长而变化,声音也会随之变化,同一人间隔时间较长的声纹特征是会有一些不同的,这会导致声纹识别系统的准确率下降。算法可以通过深度学习,在用户持续使用的过程中,不断地矫正和调整特征。但如果注册语音的录制时间点,与验证语音间隔了1年以上,很可能声音出现一些变化而导致特征改变而无法识别,这时就需要借助一些界面的引导来优化体验。
2)短语音
在很多声纹识别的应用领域,实际使用时,无法获取足够长度的测试语音,比如刑侦安防等,从而无法获取足够的声纹特征。所以研究短语音的声纹识别具有很强的现实意义,但也是目前的研究难题,短语音所包含的说话人信息变化太大,使短语音的测试准确性变化也非常大。
语音唤醒与声纹识别的结合应用越来越多,类似于“好的”、“开灯”等两个音节的语音,在实际应用中,识别效果不会太好,若有类似的唤醒语句,至少包含四个音节以上,如“小爱同学”、“小度小度”,四个字的唤醒词既不会太大降低体验,又能保证一定的声纹识别效果。
3)身体状况
人体难免会遇到感冒、发烧、鼻塞、声音沙哑等日常疾病,发声器官发生了改变,因此声纹特征也会随之改变,从而导致识别率降低。由于这类情况使声音变化的情况太多,且采集数据也很不方便,对于研究者来说,也是一项较大的挑战,研究者也在尝试将那些在正常语音中不存在的沙哑和咳嗽分离出来。
4)发音方式
语速快慢、音量大小、语气变化等不同的发音方式,语音信号的高低频信号也有所不同,会干扰声纹识别的准确性。因为实际应用中,人们在不同的场合下,说话方式不一样,比如在图书馆声音压低,在户外噪音大时,音量提高,着急时语速加快等等,所以如果要将声纹识别应用多种环境时,还应考虑人们的发音方式的变化。
5)跨语言
跨语言指,说话人在注册声纹时,使用的语言与验证声纹时的不一样,比如注册时用英文,验证时用中文。试验表明,跨语言的声纹识别准确率会受到不同程度的影响,世界上的语言种类繁多,每一种语言,器官的发音方式都不同,导致声纹特征也会不同。在实际应用中,如果较常应用某几种语言,可以针对那几种语言进行语言鲁棒性的针对性提高。
3)假冒攻击
随着声纹识别的应用普及,假冒攻击的研究也逐渐兴起。声纹的假冒攻击主要有四种,声音模仿、语音合成、声音转换、录音重放。
声音模仿对声道特征没有起到根本性的改变,所以对声纹识别算法的影响不大。
语音合成技术可借助少量语音实现说话人的模型自适应,而合成得到说话人的语音,如今已有研究区分正常语音和合成语音的声学特征之间的差异性。
声音转换即为说话人通过声音转换程序,将自己的声音转为另一个人的声音,通常分为离线训练和在线转换两个过程。现已有对声音转换检测的方法,如余弦相位谱、MGDF 相位谱分析等。
录音重放与上述三种假冒攻击方式相比,实现更容易,成本也更低,且攻击效果更好。研究者们通过信道检测算法以识别出这类攻击语音。
上述的这些攻击方法,除了声音模仿可用声纹识别算法检测,其他都可以通过活体检测来预防,也就是判断说话人的语音是真人实时说出来的,还是通过处理后得到的语音。如今已有声纹的活体检测,但对于一些超高仿人声的信道(如人工嘴)播放的录音仍有较高攻击成功的可能性。许多研究者仍在提高防攻击安全性上不断做努力。
3
瓶颈和机会
1、数据
从上述的技术边界可以看出,各种鲁棒性挑战、防攻击挑战、超短语音挑战都是目前声纹识别的瓶颈。
声纹识别技术要获得较好的应用效果,对场景的要求是比较高的,在公共安全、金融、社保领域,声纹的应用日渐成熟,展现出其独特的能力,因为这些场景下,可以要求用户在特定环境,说出特定的内容或者特定长度的语音。而在智能安防、智能硬件领域,用户的场景比较复杂,且对用户体验的要求比较高,所以算法的各方面鲁棒性要进一步提升其性能,才能支持大面积、高频的应用。
而算法要提高鲁棒性,数据是非常重要的一个环节。比如提高时变鲁棒性,需要采集同一个人连续几个月甚至几年的音频;提高跨语言鲁棒性,需要采集同一人说不同语言的语音等等。数据采集的成本很高,对于小公司来说是一笔不小的开支。采集数据时,可以另辟蹊径,和一些能产生大量数据的公司合作,如客服公司等,客户处于自由对话无感知的状态下被搜集的数据更真实,有意识地采集数据时,往往是字正腔圆地读稿子,朗读式和自由对话式的数据有一定的区别。
但在如今数据为王的年代,数据发挥着非常重要的商业价值,各家公司的数据都是保密的,要如何合作,还要从产品和商务角度去谈判,为对方提供一些有价值的服务来达成合作协议。
关于数据清洗,可以看我的另外一篇文章:《团员分享_浅谈声纹识别之数据清洗_Cony_20190523》https://shimo.im/docs/18GWwhzMhFI8CZrm/ 。
2、“声纹+”多生物特征识别融合
生物识别技术正进入大规模的应用阶段,多种识别叠加,使攻击成本上升。生物识别的种类有人脸、虹膜、指纹、声纹、姿态等,声纹相对于其他技术来说,采集成本低,可非接触采集,且大众接受程度高,这些优点都可以看到声纹的市场还是比较大的。
3、5个应用领域
声纹应用的领域现已覆盖金融、公安、政企、社保、智能硬件领域。
1)金融
央行发布的《移动金融基于声纹识别的安全应用技术规范》,这是央行颁布的我国金融行业的第一个生物识别技术标准,可以感受到国家对AI新兴技术的重视,且开始制定规范并展开应用,以替代一些传统的身份核验操作。比如金融贷款时,声纹与人脸识别结合,代替签字核验,提高了校验的安全性。
2)公安
近年来,电信诈骗、绑架、敲诈勒索的案件频发不绝,声纹信息在公安领域的应用优势日趋明显。我国的声纹鉴定技术已发展了20余年,所以公安系统也早早布局,对重点人员建立了全国最大的声纹库,并且对采集语音已有成熟的标准。在搜捕嫌疑人时,一般从电话信道获取声纹,再到公安声纹库里比对出结果以供参考,所以公安对声纹算法的信道鲁棒性要求较高。
3)政企会议
在大型企业里,常常需要召开大型会议,并有专人记录和整理会议记录。针对这个场景,市面上开始有智能会议系统产品,结合语音识别和声纹识别算法开发的应用,可以识别会议上谁说了什么,会议结束后自动输出文稿,免去人工记录和整理,节省时间,提高效率。在语音识别达到更好的水平时,还可以做会议的实时字幕展示,前阵子科大讯飞的AI同传已经可以做到。
4)社保
声纹识别也可以在社保领域应用,利用声纹的远程采集验证的优势,可以在刷社保卡时,增加声纹验证,以确保一证一人。
老人家每月领取养老金,需要进行生存验证,在很多农村地区,要求老人每年至少回老家一趟以证明还在世,对于一些已经跟儿女长居外地的老人来说,两地跑一趟,不仅花钱多,还劳累身心,验证也很不实时。如果声纹的身份验证可以普及开来,让老人家可以远程办理业务的同时,进行声纹注册和验证,对老人家们来说是极大的福音。
5)智能硬件
目前市场上常见的智能硬件有智能音响、机器人、智能车载等,具有查询(天气、机票等)、点播歌曲、设置闹钟、控制家电等功能。声纹识别可以让机器更智能,通过声音辨认发出语音的对象,结合其性别、年龄、历史偏好等信息,给出更加人性化和更智能的结果。
4
声纹识别厂商简介
1、厂商简介
在国内,做声纹识别的公司不多,每家公司都有各自的特点。(下列排序不分先后)
1)科大讯飞:在讯飞开放平台上,有声纹识别产品供客户调试和体验。
2)得意音通:公司位于北京海淀,核心技术团队来自清华大学。主要应用领域是金融和社保。
3)声扬科技:公司位于深圳南山,算法核心团队均来自香港名校。主要应用领域是金融、公安和社保。目前已有pre-A轮融资。
4)国音科技:公司总部位于广州,核心技术团队来自哈佛、麻省理工等名校。主要应用领域是金融、公安和社保。目前已有B轮融资。
5)快商通:公司位于厦门,核心技术团队来自清华大学。主要应用领域为智能客服。
6)远鉴科技:公司位于北京海淀,除了声纹识别,他们还有做人脸识别、语种识别等,主要应用于公安领域。
2、商业合作
寻求商业合作的公司时,需考虑到的有公司实力、可提供的售后服务、公司地点等。合作前期,可先用SDK,录制一些实际应用的音频测试其算法是否能满足需求。
声纹识别的部署方式有3种:公有云、私有云和离线部署。公有云的方式最简单快捷,且价格最便宜,但数据会存到乙方的公用服务器上;对数据安全性要求较高的公司,可选择私有云部署,费用较高,按一个项目付费的话,在几十万到上百万不等。离线部署一般是智能硬件会需要用到,这对硬件的要求比较高,费用也高,未来5G+IOT逐渐成熟之后,云端部署的方式会更多。
附录
附1:声纹识别相关有趣视频
1、近声纹已在产品中得到实际的应用,比如在华为的无线耳机上就加上了骨声纹识别功能,其实就是声纹识别,佩戴耳机时,只需说出“微信支付”或者“支付宝支付”,即可快速调出二维码界面,在B站上有热心up主的试用视频:https://b23.tv/av44036747
2、智能音箱上的智能语音助手,也加上了声纹识别功能,配合语音识别和NLP,使助手更智能,比如华为音箱:https://b23.tv/av34670998
3、手机本身的解锁功能也有应用:https://b23.tv/av44958647
4、央视有过一档综艺节目《机智过人》,其中一期就有讲到通过声纹识别,来辨别小青衣的演唱者。一对一的辨认对于小思机器人来说不是难题,而同时3人重叠的演唱辨别就比较难了,但节目里小思能找对2位,能力是很强的了。附上视频link:https://b23.tv/av16671960
附2:参考文章
1、《声纹识别技术及其应用现状》http://cslt.riit.tsinghua.edu.cn/mediawiki/images/3/3d/TRP-20160037.pdf
2、《声纹识别算法的技术指标》https://blog.csdn.net/xh77224/article/details/82353695
3、《声纹识别技术简介》https://blog.csdn.net/xiaocao9903/article/details/80649284
4、《 “自动声纹识别(说话人识别)技术规范”》https://max.book118.com/html/2017/0719/123055190.shtm
5、《中国声纹识别产业发展白皮书-2019》https://www.dx2025.com/newsinfo/1249444.html
6、《声纹识别技术的现状、局限与趋势》https://blog.csdn.net/leiphone/article/details/53437307
7、《2017生物特征识别白皮书》https://www.useit.com.cn/thread-16576-1-1.html
8、《声纹识别:走出实验室,迈向产业化》https://www.jiqizhixin.com/articles/2019-03-29
----hanniman读者专属福利----
【起点学院/人人都是产品经理·5周年大促优惠,hanniman读者再减30元-150元/单】
12月2日-12日,起点学院·5周年大促优惠开始啦!6重豪礼100万补贴,课程最高直降1700元,30门限时免费好课,9场BAT大咖直播公开课以及其他福利活动。
详情可查看下图中二维码或点击链接 https://vip.qidianla.com/qd/5years/channel/share/tuid/tnj.html?channel=KOL_Hanniman_tnj
-END-
- hanniman往期精选 -
一、AI产品分析
【重点】如何从“品类”角度做AI产品(2C)的需求定位
【重点】产品视角看智能客服
【重点】智能音箱上的语音技能市场,能否对标手机上的应用市场?
【重点】进击的人工智能:产品视角解析“对话机器人”
【重点】如何从零开始搭建智能外呼系统
现阶段实践“拿着锤子找钉子”的六个步骤
二、AI产品经理
【重点】【重磅福利】人工智能产品经理的新起点(200页PPT下载)(注:后台回复“200”,可获取PPT下载链接)
【重点】AI产品经理的定义和分类
【重点】AI产品经理的价值和未来 | 学习俞军老师分享有感
团员分享_AI小白如何拿到AI产品经理offer
深度报告 | AI新职位“人工智能训练师”
福利 | 《从互联网产品经理到AI产品经理》PPT下载及讲解(58P)
三、AI技术
【重点】AI产品经理需要了解的语音交互评价指标
【重点】语音合成TTS | AI产品经理需要了解的AI技术概念
【重点】一文看懂“语音识别ASR” | AI产品经理需要了解的AI技术概念
【重点】值得收藏 | 关于机器学习,这可能是目前最全面最无痛的入门路径和资源!
【重点】“AI芯片”通识_AI产品经理看这一篇就够了
【重点】人脸识别产品设计,AI产品经理需要了解的实战干货都在这里了_团员分享_@阳春柏樰
NLP基本功-文本相似度 | AI产品经理需要了解的AI技术通识
看AI产品经理如何介绍“计算机视觉”(基于实战经验和案例)
人脸识别 | AI产品经理需要了解的CV通识(二)
多目标跟踪 | AI产品经理需要了解的CV通识(三)
填槽与多轮对话 | AI产品经理需要了解的AI技术概念
AI产品经理需要了解的数据标注工作入门
语音识别类产品的分类及应用场景
四、AI行业及个人成长
【重点】【深度】工作5年以上,到底要不要进AI创业公司?
【重点】深度 | 人工智能让我们失业?不,这取决于我们自己
【重点】我们还没准备好和AI共生——柯洁和AlphaGo大战之观后感
【重点】AI产品经理视角下的V2X、车联网和自动驾驶
“人工智能与法律”对AI产品经理有何实际借鉴意义
稻盛和夫的这些话,是鸡汤还是干货?
跨过这十个误区,提前2年告别职场小白
【重点】如何分辨明师并遇到他 | 周日换频道(7)
---------------------
黄钊hanniman,前图灵机器人-人才战略官/AI产品经理,前腾讯产品经理,7年AI实战经验,10年互联网背景;垂直于“AI产品经理”的第一自媒体,微信公众号/知乎/在行ID“hanniman”;行业内第一个AI产品经理的成长交流社区-饭团“AI产品经理大本营”的创建者(已运营2年,活跃成员700+人);200页PPT《人工智能产品经理的新起点》被业内广泛好评,下载量1万+。