简介

快商通声纹识别通过 REST API 的方式给开发者提供一个通用的 HTTP 接口。

声纹识别

快商通声纹识别提供3种文本类型模型。

文本无关（ti: text-independent）：声纹注册、声纹验证、声纹辨认，语音内容所读文本不同。

文本相关（td: text-dependent）：声纹注册、声纹验证、声纹辨认，语音内容所读文本一致（例如注册与验证，辨认所用语音文本皆为“芝麻开门”）。

随机动态口令（rd: random-digit）：声纹注册、声纹验证、声纹辨认，语音内容所读文本为8位随机数字串。

文本无关

文本无关（ti: text-independent）：声纹注册、声纹验证、声纹辨认，语音内容所读文本不同。文本无关对语音有时长要求，在注册场景，需要有效时长大于30秒的语音，而且验证和辨认场景，需要有效时长大于15秒的语音。文本无关适用于交谈对话，或按照一定范文朗读产生的长语音。

文本相关

文本相关（td: text-dependent）：声纹注册、声纹验证、声纹辨认，语音内容所读文本一致（例如注册与验证，辨认所用语音文本皆为“芝麻开门”）。在注册场景需要朗读3遍以上相同文本内容的语音用来注册声纹模型。

随机动态口令

随机动态口令（rd: random-digit）：声纹注册、声纹验证、声纹辨认，语音内容所读文本为8位随机数字串。在注册场景需要朗读3遍以上8位随机数字串文本内容的语音用来注册声纹模型。

语音格式

格式支持：pcm（不压缩）、wav（不压缩，pcm编码）、mp3（压缩格式）。推荐wav。采样率：8000或16000 固定值。编码：16bit 位深。

接口说明

快商通声纹识别接口url为：https://vpr.kuaishang.cn，在调用 /kst/enroll 注册声纹模型前，需先调用 /kst/upload 上传N段语音(N>=1)。

上传注册语音

基本信息

Path： /kst/upload

Method： POST

接口描述：

请求参数

Headers

参数名称	参数值	是否必须	示例	备注
Content-Type	multipart/form-data	是

Query

参数名称	是否必须	示例	备注
type	是	ti	文本类型: ti 文本无关，td 文本相关，rd 随机动态口令
node	是	icbc	一个声纹库节点，即一组说话人集合
spkid	是	56789	一个声纹库节点中的说话人模型标识id
wavtype	是	wav	上传的语音文件格式，支持 wav, mp3, pcm
channel	是	0	表示待处理的声道 0：左声道；1：右声道。如果单声道语音文件，则必须取0
replaydetect	否	true	是否开启防录音冒充检测功能
snrdetect	否	false	是否开启信噪比检测功能
asrdetect	否	false	是否开启随机数字串文本内容识别
step	是	1	注册语音需多条语音上传, step表示上传的第step条语音, step >=1
text	否	12345678	当前上传语音文件的随机数字串文本内容

Body

参数名称	参数类型	是否必须	示例	备注
file	file	是

返回数据

名称	类型	是否必须	备注
asr_result	boolean	非必须	内容识别结果是否通过
code	number	必须	错误码，不为0代表上传注册语音失败
msg	string	必须	错误信息
replay_result	boolean	非必须	防录音冒充检测结果是否通过
replay_score	number	非必须	防录音冒充检测得分
asr	string	非必须	内容语音识别
snr	number	非必须	信噪比检测得分
snr_result	boolean	非必须	信噪比检测结果是否通过
aid	string	非必须	本条操作音频id(可忽略)

声纹注册

基本信息

Path： /kst/enroll

Method： POST

接口描述：

请求参数

Headers

参数名称	参数值	是否必须	示例	备注
Content-Type	multipart/form-data	是

Query

参数名称	是否必须	示例	备注
type	是	ti	文本类型: ti 文本无关，td 文本相关，rd 随机动态口令
node	是	icbc	一个声纹库节点，即一组说话人集合
spkid	是	56789	一个声纹库节点中的说话人模型标识id
wavtype	是	wav	mp3
channel	是	0	表示待处理的声道 0：左声道；1：右声道。如果单声道语音文件，则必须取0
asrdetect	否	true	是否开启文本内容识别（仅文本相关引擎有效）
replaydetect	否	false	是否开启防录音冒充检测功能
text	否	您好中国工商银行	语音文本内容（用于文本相关语音文本内容识别的结果判断）

Body

参数名称	参数类型	是否必须	示例	备注
file	file	是

返回数据

名称	类型	是否必须	备注
aid	string	非必须	本次注册所用音频id(可忽略)
code	number	必须	错误码，不为0代表注册失败
msg	string	必须	错误信息

1:1声纹验证

基本信息

Path： /kst/verify

Method： POST

接口描述：

请求参数

Headers

参数名称	参数值	是否必须	示例	备注
Content-Type	multipart/form-data	是

Query

参数名称	是否必须	示例	备注
type	是	ti	文本类型: ti 文本无关，td 文本相关，rd 随机动态口令
node	是	icbc	一个声纹库节点，即一组说话人集合
spkid	是	56789	一个声纹库节点中的说话人模型标识id
wavtype	是	wav	上传的语音文件格式，支持 wav, mp3, pcm
channel	是	0	表示待处理的声道 0：左声道；1：右声道。如果单声道语音文件，则必须取0
replaydetect	否	true	是否开启防录音冒充检测功能
snrdetect	否	false	是否开启信噪比检测功能
asrdetect	否	false	是否开启文本内容识别（仅文本相关引擎有效)
text	否	您好中国工商银行	语音文本内容（用于文本相关语音文本内容识别的结果判断）

Body

参数名称	参数类型	是否必须	示例	备注
file	file	是

返回数据

名称	类型	是否必须	备注
asr_result	boolean	非必须	语音识别内容结果是否通过
asr	string	非必须	语音识别内容
code	number	必须	错误码，不为0代表1:1验证失败
msg	string	必须	错误信息
replay_result	boolean	非必须	防录音冒充检测结果是否通过
replay_score	number	非必须	防录音冒充检测得分
result	boolean	非必须	声纹验证结果是否通过
score	number	非必须	声纹验证得分
nscore	number	非必须	声纹验证归一化得分
snr	number	非必须	信噪比检测得分
snr_result	boolean	非必须	信噪比检测结果是否通过
aid	string	非必须	本次操作音频id(可忽略)

1:N声纹辨认

基本信息

Path： /kst/identify

Method： POST

接口描述：

请求参数

Headers

参数名称	参数值	是否必须	示例	备注
Content-Type	multipart/form-data	是

Query

参数名称	是否必须	示例	备注
type	是	ti	文本类型: ti 文本无关，td 文本相关，rd 随机动态口令
node	是	icbc	一个声纹库节点，即一组说话人集合
topn	是	1	1:N声纹辨认返回top N结果
wavtype	是	wav	上传的语音文件格式，支持 wav, mp3, pcm
channel	是	0	表示待处理的声道 0：左声道；1：右声道。如果单声道语音文件，则必须取0
replaydetect	否	true	是否开启防录音冒充检测功能
snrdetect	否	false	是否开启信噪比检测功能
asrdetect	否	false	是否开启文本内容识别（仅文本相关引擎有效）
text	否	您好中国工商银行	语音文本内容（用于文本相关语音文本内容识别的结果判断）

Body

参数名称	参数类型	是否必须	示例	备注
file	file	是

返回数据

名称	类型	是否必须	备注	其他信息
asr_result	boolean	非必须	语音识别内容结果是否通过
asr	string	非必须	语音识别内容
candidates	object []	非必须	topN候选人列表, 根据得分从高到低排序	item 类型: object
├─ node	string	非必须	声纹库节点
├─ spkid	string	非必须	说话人唯一标识id
├─ score	number	非必须	1:N声纹辨认得分
├─ nscore	number	非必须	1:N声纹辨认归一化得分
├─ result	boolean	非必须	1:N声纹辨认结果是否通过
code	number	必须	错误码，不为0代表1:N辨认失败
msg	string	必须	错误信息
replay_result	boolean	非必须	防录音冒充检测结果是否通过
replay_score	number	非必须	防录音冒充检测得分
snr	number	非必须	信噪比检测得分
snr_result	boolean	非必须	信噪比检测结果是否通过
aid	string	非必须	本次操作音频id(可忽略)

名称	类型	是否必须	备注
aid	string	非必须	本次注册所用音频id(可忽略)
code	number	必须	错误码，不为0代表注册失败
msg	string	必须	错误信息

声纹删除

基本信息

Path： /kst/delete

Method： POST

接口描述：

请求参数

Headers

参数名称	参数值	是否必须	示例	备注
Content-Type	application/x-www-form-urlencoded	是

Query

参数名称	是否必须	示例	备注
node	是	icbc	一个声纹库节点，即一组说话人集合
spkid	是	56789	一个声纹库节点中的说话人模型标识id
type	是	ti	文本类型: ti 文本无关，td 文本相关，rd 随机动态口令

返回数据

名称	类型	是否必须	默认值	备注	其他信息
code	number	必须		错误码，不为0代表删除失败
msg	string	必须		错误信息

生成8位随机动态口令

基本信息

Path： /kst/rd/text

Method： GET

接口描述：

请求参数

返回数据

名称	类型	是否必须	备注
code	number	必须	错误码
msg	string	必须	错误信息
text	string	非必须	8位随机数字串

2018-07-17

简介

声纹识别

文本无关

文本相关

随机动态口令

语音格式

接口说明

上传注册语音

基本信息

请求参数

返回数据

声纹注册

基本信息

请求参数

返回数据

1:1声纹验证

基本信息

请求参数

返回数据

1:N声纹辨认

基本信息

请求参数

返回数据

声纹删除

基本信息

请求参数

返回数据

生成8位随机动态口令

基本信息

请求参数

返回数据

你可能感兴趣的:(2018-07-17)