2018-07-17

简介

快商通声纹识别通过 REST API 的方式给开发者提供一个通用的 HTTP 接口。

声纹识别

快商通声纹识别提供3种文本类型模型。

文本无关(ti: text-independent): 声纹注册、声纹验证、声纹辨认,语音内容所读文本不同。

文本相关(td: text-dependent): 声纹注册、声纹验证、声纹辨认,语音内容所读文本一致(例如注册与验证,辨认所用语音文本皆为“芝麻开门”)。

随机动态口令(rd: random-digit):声纹注册、声纹验证、声纹辨认,语音内容所读文本为8位随机数字串。

文本无关

文本无关(ti: text-independent):声纹注册、声纹验证、声纹辨认,语音内容所读文本不同。文本无关对语音有时长要求,在注册场景,需要有效时长大于30秒的语音,而且验证和辨认场景,需要有效时长大于15秒的语音。文本无关适用于交谈对话,或按照一定范文朗读产生的长语音。

文本相关

文本相关(td: text-dependent): 声纹注册、声纹验证、声纹辨认,语音内容所读文本一致(例如注册与验证,辨认所用语音文本皆为“芝麻开门”)。在注册场景需要朗读3遍以上相同文本内容的语音用来注册声纹模型。

随机动态口令

随机动态口令(rd: random-digit):声纹注册、声纹验证、声纹辨认,语音内容所读文本为8位随机数字串。在注册场景需要朗读3遍以上8位随机数字串文本内容的语音用来注册声纹模型。

语音格式

格式支持:pcm(不压缩)、wav(不压缩,pcm编码)、mp3(压缩格式)。推荐wav。采样率 :8000或16000 固定值。 编码:16bit 位深。

接口说明

快商通声纹识别接口url为:https://vpr.kuaishang.cn,在调用 /kst/enroll 注册声纹模型前,需先调用 /kst/upload 上传N段语音(N>=1)。

上传注册语音

基本信息

Path: /kst/upload

Method: POST

接口描述:

请求参数

Headers

参数名称 参数值 是否必须 示例 备注
Content-Type multipart/form-data

Query

参数名称 是否必须 示例 备注
type ti 文本类型: ti 文本无关,td 文本相关,rd 随机动态口令
node icbc 一个声纹库节点,即一组说话人集合
spkid 56789 一个声纹库节点中的说话人模型标识id
wavtype wav 上传的语音文件格式,支持 wav, mp3, pcm
channel 0 表示待处理的声道 0:左声道;1:右声道。如果单声道语音文件,则必须取0
replaydetect true 是否开启防录音冒充检测功能
snrdetect false 是否开启信噪比检测功能
asrdetect false 是否开启随机数字串文本内容识别
step 1 注册语音需多条语音上传, step表示上传的第step条语音, step >=1
text 12345678 当前上传语音文件的随机数字串文本内容

Body

参数名称 参数类型 是否必须 示例 备注
file file

返回数据








名称类型是否必须默认值备注其他信息
asr_resultboolean非必须内容识别结果是否通过
codenumber必须错误码,不为0代表上传注册语音失败
msgstring必须错误信息
replay_resultboolean非必须防录音冒充检测结果是否通过
replay_scorenumber非必须防录音冒充检测得分
asrstring非必须内容语音识别
snrnumber非必须信噪比检测得分
snr_resultboolean非必须信噪比检测结果是否通过
aidstring非必须本条操作音频id(可忽略)

声纹注册

基本信息

Path: /kst/enroll

Method: POST

接口描述:

请求参数

Headers

参数名称 参数值 是否必须 示例 备注
Content-Type multipart/form-data

Query

参数名称 是否必须 示例 备注
type ti 文本类型: ti 文本无关,td 文本相关,rd 随机动态口令
node icbc 一个声纹库节点,即一组说话人集合
spkid 56789 一个声纹库节点中的说话人模型标识id
wavtype wav mp3
channel 0 表示待处理的声道 0:左声道;1:右声道。如果单声道语音文件,则必须取0
asrdetect true 是否开启文本内容识别(仅文本相关引擎有效)
replaydetect false 是否开启防录音冒充检测功能
text 您好中国工商银行 语音文本内容(用于文本相关语音文本内容识别的结果判断)

Body

参数名称 参数类型 是否必须 示例 备注
file file

返回数据








名称类型是否必须默认值备注其他信息
aidstring非必须本次注册所用音频id(可忽略)
codenumber必须错误码,不为0代表注册失败
msgstring必须错误信息

1:1声纹验证

基本信息

Path: /kst/verify

Method: POST

接口描述:

请求参数

Headers

参数名称 参数值 是否必须 示例 备注
Content-Type multipart/form-data

Query

参数名称 是否必须 示例 备注
type ti 文本类型: ti 文本无关,td 文本相关,rd 随机动态口令
node icbc 一个声纹库节点,即一组说话人集合
spkid 56789 一个声纹库节点中的说话人模型标识id
wavtype wav 上传的语音文件格式,支持 wav, mp3, pcm
channel 0 表示待处理的声道 0:左声道;1:右声道。如果单声道语音文件,则必须取0
replaydetect true 是否开启防录音冒充检测功能
snrdetect false 是否开启信噪比检测功能
asrdetect false 是否开启文本内容识别(仅文本相关引擎有效)
text 您好中国工商银行 语音文本内容(用于文本相关语音文本内容识别的结果判断)

Body

参数名称 参数类型 是否必须 示例 备注
file file

返回数据








名称类型是否必须默认值备注其他信息
asr_resultboolean非必须语音识别内容结果是否通过
asrstring非必须语音识别内容
codenumber必须错误码,不为0代表1:1验证失败
msgstring必须错误信息
replay_resultboolean非必须防录音冒充检测结果是否通过
replay_scorenumber非必须防录音冒充检测得分
resultboolean非必须声纹验证结果是否通过
scorenumber非必须声纹验证得分
nscorenumber非必须声纹验证归一化得分
snrnumber非必须信噪比检测得分
snr_resultboolean非必须信噪比检测结果是否通过
aidstring非必须本次操作音频id(可忽略)

1:N声纹辨认

基本信息

Path: /kst/identify

Method: POST

接口描述:

请求参数

Headers

参数名称 参数值 是否必须 示例 备注
Content-Type multipart/form-data

Query

参数名称 是否必须 示例 备注
type ti 文本类型: ti 文本无关,td 文本相关,rd 随机动态口令
node icbc 一个声纹库节点,即一组说话人集合
topn 1 1:N声纹辨认返回top N结果
wavtype wav 上传的语音文件格式,支持 wav, mp3, pcm
channel 0 表示待处理的声道 0:左声道;1:右声道。如果单声道语音文件,则必须取0
replaydetect true 是否开启防录音冒充检测功能
snrdetect false 是否开启信噪比检测功能
asrdetect false 是否开启文本内容识别(仅文本相关引擎有效)
text 您好中国工商银行 语音文本内容(用于文本相关语音文本内容识别的结果判断)

Body

参数名称 参数类型 是否必须 示例 备注
file file

返回数据








名称类型是否必须默认值备注其他信息
asr_resultboolean非必须语音识别内容结果是否通过
asrstring非必须语音识别内容
candidatesobject []非必须topN候选人列表, 根据得分从高到低排序

item 类型: object

├─ nodestring非必须声纹库节点
├─ spkidstring非必须说话人唯一标识id
├─ scorenumber非必须1:N声纹辨认得分
├─ nscorenumber非必须1:N声纹辨认归一化得分
├─ resultboolean非必须1:N声纹辨认结果是否通过
codenumber必须错误码,不为0代表1:N辨认失败
msgstring必须错误信息
replay_resultboolean非必须防录音冒充检测结果是否通过
replay_scorenumber非必须防录音冒充检测得分
snrnumber非必须信噪比检测得分
snr_resultboolean非必须信噪比检测结果是否通过
aidstring非必须本次操作音频id(可忽略)








名称类型是否必须默认值备注其他信息
aidstring非必须本次注册所用音频id(可忽略)
codenumber必须错误码,不为0代表注册失败
msgstring必须错误信息

声纹删除

基本信息

Path: /kst/delete

Method: POST

接口描述:

请求参数

Headers

参数名称 参数值 是否必须 示例 备注
Content-Type application/x-www-form-urlencoded

Query

参数名称 是否必须 示例 备注
node icbc 一个声纹库节点,即一组说话人集合
spkid 56789 一个声纹库节点中的说话人模型标识id
type ti 文本类型: ti 文本无关,td 文本相关,rd 随机动态口令

返回数据








名称类型是否必须默认值备注其他信息
codenumber必须错误码,不为0代表删除失败
msgstring必须错误信息

生成8位随机动态口令

基本信息

Path: /kst/rd/text

Method: GET

接口描述:

请求参数

返回数据








名称类型是否必须默认值备注其他信息
codenumber必须错误码
msgstring必须错误信息
textstring非必须8位随机数字串

你可能感兴趣的:(2018-07-17)