前言:
语音听写:
把语音(≤60秒)转换成对应的文字信息,让机器能够“听懂”人类语言,相当于给机器安装上“耳朵”,使其具备“能听”的功能
语音转写【音频流识别】:
语音转写(Long Form ASR)基于深度全序列卷积神经网络,将长段音频(5小时以内)数据转换成文本数据,为信息处理和数据挖掘提供基础
效果图:
1、科大讯飞官网,点击此处>>>
地址:https://www.xfyun.cn/
①、注册完成后最好实名认证下:
②、创建应用(这里名字很容易重名,建议取长一些):
③、创建好后获得APPID:
④:下载对应SDK资源:
⑤:解压文件夹依次点开Downloads\sample\speechDemo\libs:
注意Msc.jar右键添加Add As Library,并检查build.gradle中是否添加成功:
implementation files('libs/Msc.jar')
同时还需添加如下代码(否则会提示:创建对象失败,请确认 libmsc.so 放置正确,且有调用 createUtility 进行初始化):
sourceSets {
main {
jniLibs.srcDirs = ['libs']
}
}
注意:如需在打包或者生成APK的时候进行混淆,请在proguard.cfg中添加如下代码:
-keep class com.iflytek.**{*;}
-keepattributes Signature
2、代码部分:
①:AndroidManifest.xml
存储权限用来保存录音文件,不需要可不添加
②、初始化即创建语音配置对象,只有初始化后才可以使用MSC的各项服务。建议将初始化放在程序入口处(如Application、Activity的onCreate方法),初始化代码如下:
public class MyApplication extends Application {
@Override
public void onCreate() {
// 将“12345678”替换成您申请的APPID,申请地址:http://www.xfyun.cn
// 请勿在“=”与appid之间添加任何空字符或者转义符
SpeechUtility.createUtility(this, SpeechConstant.APPID +"=12345678");
// 以下语句用于设置日志开关(默认开启),设置成false时关闭语音云SDK日志打印
// Setting.setShowLog(false);
super.onCreate();
}
}
并在AndroidManifest.xml中注册
③、代码中的使用MainActivity:
public class MainActivity extends AppCompatActivity implements View.OnClickListener {
private static final String TAG = "MainActivity";
// 语音听写对象
private SpeechRecognizer mIat;
// 语音听写UI
private RecognizerDialog mIatDialog;
// 用HashMap存储听写结果
private HashMap mIatResults = new LinkedHashMap<>();
private EditText mResultText;
private Button languageText, dialogButton;
// 语言类型【默认中文】
private String language = "zh_cn";
// 格式类型【默认json】
private String resultType = "json";
private boolean cyclic = false;//音频流识别是否循环调用
//拼接字符串
private StringBuffer buffer = new StringBuffer();
//Handler码
private int handlerCode = 0x123;
// 函数调用返回值
private int resultCode = 0;
// 切换中英文
private boolean languageType;
// 弹框是否显示
private int dialogType;
@Override
protected void onCreate(Bundle savedInstanceState) {
super.onCreate(savedInstanceState);
setContentView(R.layout.activity_main);
//初始化控件
findViewById(R.id.iat_recognize).setOnClickListener(this);
findViewById(R.id.iat_recognize_stream).setOnClickListener(this);
findViewById(R.id.iat_stop).setOnClickListener(this);
findViewById(R.id.iat_cancel).setOnClickListener(this);
mResultText = this.findViewById(R.id.iat_text);
languageText = this.findViewById(R.id.languageText);
dialogButton = this.findViewById(R.id.dialogButton);
languageText.setOnClickListener(this);
dialogButton.setOnClickListener(this);
// 初始化识别无UI识别对象
// 使用SpeechRecognizer对象,可根据回调消息自定义界面;
mIat = SpeechRecognizer.createRecognizer(this, mInitListener);
// 初始化听写Dialog,如果只使用有UI听写功能,无需创建SpeechRecognizer
// 使用UI听写功能,请根据sdk文件目录下的notice.txt,放置布局文件和图片资源
mIatDialog = new RecognizerDialog(MainActivity.this, mInitListener);
}
@Override
public void onClick(View view) {
if (null == mIat) {
// 创建单例失败,与 21001 错误为同样原因,
// 参考 http://bbs.xfyun.cn/forum.php?mod=viewthread&tid=9688
showToast("创建对象失败,请确认 libmsc.so 放置正确,且有调用 createUtility 进行初始化");
return;
}
switch (view.getId()) {
// 开始听写
// 如何判断一次听写结束:OnResult isLast=true 或者 onError
case R.id.iat_recognize:
buffer.setLength(0);//长度清空
mResultText.setText(null);// 清空显示内容
mIatResults.clear();//清除存贮结果
// 设置参数
setParam();
if (dialogType == 0) {
// 显示听写对话框
mIatDialog.setListener(mRecognizerDialogListener);
mIatDialog.show();
showToast("开始听写");
} else if (dialogType == 1) {
// 不显示听写对话框
resultCode = mIat.startListening(mRecognizerListener);
if (resultCode != ErrorCode.SUCCESS) {
showToast("听写失败,错误码:" + ",请点击网址https://www.xfyun.cn/document/error-code查询解决方案");
} else {
showToast("开始听写");
}
} else if (dialogType == 2) {
// 自定义听写对话框
showAlertDialog();
resultCode = mIat.startListening(mRecognizerListener);
if (resultCode != ErrorCode.SUCCESS) {
showToast("听写失败,错误码:" + ",请点击网址https://www.xfyun.cn/document/error-code查询解决方案");
} else {
showToast("开始听写");
}
}
break;
// 音频流识别
case R.id.iat_recognize_stream:
executeStream();
break;
case R.id.languageText:
if (languageType) {
languageType = false;
language = "zh_cn";
languageText.setText("点击切换语种:中文");
} else {
languageType = true;
language = "en_us";
languageText.setText("点击切换语种:英文");
}
mIat.setParameter(SpeechConstant.LANGUAGE, language);
break;
// 停止听写
case R.id.iat_stop:
mIat.stopListening();
showToast("停止听写");
break;
// 取消听写
case R.id.iat_cancel:
mIat.cancel();
showToast("取消听写");
break;
//默认显示弹框
case R.id.dialogButton:
if (dialogType == 0) {
dialogType = 1;
dialogButton.setText("不显示讯飞弹框");
} else if (dialogType == 1) {
dialogType = 2;
dialogButton.setText("显示自定义弹框");
} else if (dialogType == 2) {
dialogButton.setText("显示讯飞弹框");
dialogType = 0;
}
break;
}
}
/**
* 初始化监听器。
*/
private InitListener mInitListener = new InitListener() {
@Override
public void onInit(int code) {
Log.e(TAG, "SpeechRecognizer init() code = " + code);
if (code != ErrorCode.SUCCESS) {
showToast("初始化失败,错误码:" + code + ",请点击网址https://www.xfyun.cn/document/error-code查询解决方案");
}
}
};
/**
* 听写监听器。
*/
private RecognizerListener mRecognizerListener = new RecognizerListener() {
@Override
public void onBeginOfSpeech() {
// 此回调表示:sdk内部录音机已经准备好了,用户可以开始语音输入
showToast("开始说话");
}
@Override
public void onError(SpeechError error) {
// Tips:
// 错误码:10118(您没有说话),可能是录音机权限被禁,需要提示用户打开应用的录音权限。
showToast(error.getPlainDescription(true));
if (null != dialog) {
dialog.dismiss();
}
}
@Override
public void onEndOfSpeech() {
// 此回调表示:检测到了语音的尾端点,已经进入识别过程,不再接受语音输入
showToast("结束说话");
if (null != dialog) {
dialog.dismiss();
}
}
@Override
public void onResult(RecognizerResult results, boolean isLast) {
Log.e(TAG, "onResult: " + results.getResultString());
if (resultType.equals(resultType)) {
printResult(results);
} else if (resultType.equals("plain")) {
buffer.append(results.getResultString());
mResultText.setText(buffer.toString());
mResultText.setSelection(mResultText.length());
}
if (isLast & cyclic) {
// TODO 最后的结果
Message message = Message.obtain();
message.what = handlerCode;
handler.sendMessageDelayed(message, 100);
}
}
@Override
public void onVolumeChanged(int volume, byte[] data) {
//showToast("当前正在说话,音量大小:" + volume);
Log.e(TAG, "onVolumeChanged: " + data.length);
}
@Override
public void onEvent(int eventType, int arg1, int arg2, Bundle obj) {
// 以下代码用于获取与云端的会话id,当业务出错时将会话id提供给技术支持人员,可用于查询会话日志,定位出错原因
// 若使用本地能力,会话id为null
// if (SpeechEvent.EVENT_SESSION_ID == eventType) {
// String sid = obj.getString(SpeechEvent.KEY_EVENT_SESSION_ID);
// Log.d(TAG, "session id =" + sid);
// }
}
};
private Handler handler = new Handler() {
@Override
public void handleMessage(Message msg) {
super.handleMessage(msg);
if (msg.what == handlerCode) {
executeStream();
}
}
};
/**
* 听写UI监听器
*/
private RecognizerDialogListener mRecognizerDialogListener = new RecognizerDialogListener() {
/**
* 识别回调成功
*/
public void onResult(RecognizerResult results, boolean isLast) {
printResult(results);
}
/**
* 识别回调错误.
*/
public void onError(SpeechError error) {
showToast(error.getPlainDescription(true));
}
};
/**
* 打印听写结果
*/
private void printResult(RecognizerResult results) {
String text = JsonParser.parseIatResult(results.getResultString());
String sn = null;
// 读取json结果中的sn字段
try {
JSONObject resultJson = new JSONObject(results.getResultString());
sn = resultJson.optString("sn");
} catch (JSONException e) {
e.printStackTrace();
}
mIatResults.put(sn, text);
StringBuffer resultBuffer = new StringBuffer();
for (String key : mIatResults.keySet()) {
resultBuffer.append(mIatResults.get(key));
}
mResultText.setText(resultBuffer.toString());
mResultText.setSelection(mResultText.length());
}
/**
* 听写参数设置
*/
public void setParam() {
// 清空参数
mIat.setParameter(SpeechConstant.PARAMS, null);
// 设置听写引擎类型
mIat.setParameter(SpeechConstant.ENGINE_TYPE, SpeechConstant.TYPE_CLOUD);
// 设置返回结果格式【目前支持json,xml以及plain 三种格式,其中plain为纯听写文本内容】
mIat.setParameter(SpeechConstant.RESULT_TYPE, resultType);
//目前Android SDK支持zh_cn:中文、en_us:英文、ja_jp:日语、ko_kr:韩语、ru-ru:俄语、fr_fr:法语、es_es:西班牙语、
// 注:小语种若未授权无法使用会报错11200,可到控制台-语音听写(流式版)-方言/语种处添加试用或购买。
mIat.setParameter(SpeechConstant.LANGUAGE, language);
// 设置语言区域、当前仅在LANGUAGE为简体中文时,支持方言选择,其他语言区域时,可把此参数值设为mandarin。
// 默认值:mandarin,其他方言参数可在控制台方言一栏查看。
mIat.setParameter(SpeechConstant.ACCENT, "mandarin");
//获取当前语言(同理set对应get方法)
Log.e(TAG, "last language:" + mIat.getParameter(SpeechConstant.LANGUAGE));
//此处用于设置dialog中不显示错误码信息
//mIat.setParameter("view_tips_plain","false");
//开始录入音频后,音频后面部分最长静音时长,取值范围[0,10000ms],默认值5000ms
mIat.setParameter(SpeechConstant.VAD_BOS, "5000");
// 设置语音后端点:后端点静音检测时间,即用户停止说话多长时间内即认为不再输入, 自动停止录音取值范围[0,10000ms],默认值1800ms。
mIat.setParameter(SpeechConstant.VAD_EOS, "1800");
// 设置标点符号,设置为"0"返回结果无标点,设置为"1"返回结果有标点
mIat.setParameter(SpeechConstant.ASR_PTT, "1");
// 设置音频保存路径,保存音频格式支持pcm、wav,设置路径为sd卡请注意WRITE_EXTERNAL_STORAGE权限
mIat.setParameter(SpeechConstant.AUDIO_FORMAT, "wav");
mIat.setParameter(SpeechConstant.ASR_AUDIO_PATH, Environment.getExternalStorageDirectory() + "/msc/helloword.wav");
}
//执行音频流识别操作
private void executeStream() {
buffer.setLength(0);
mResultText.setText(null);// 清空显示内容
mIatResults.clear();
//设置参数
setParam();
//设置音频来源为外部文件
mIat.setParameter(SpeechConstant.AUDIO_SOURCE, "-1");
mIat.setParameter(SpeechConstant.LANGUAGE, language);
//也可以像以下这样直接设置音频文件路径识别(要求设置文件在sdcard上的全路径):
//mIat.setParameter(SpeechConstant.AUDIO_SOURCE, "-2");
//mIat.setParameter(SpeechConstant.ASR_SOURCE_PATH, "sdcard/XXX/XXX.pcm");
resultCode = mIat.startListening(mRecognizerListener);
if (resultCode != ErrorCode.SUCCESS) {
showToast("识别失败,错误码:" + resultCode + ",请点击网址https://www.xfyun.cn/document/error-code查询解决方案");
} else {
byte[] audioData = FucUtil.readAudioFile(MainActivity.this, "iattest.wav");
if (null != audioData) {
showToast("开始音频流识别");
// 一次(也可以分多次)写入音频文件数据,数据格式必须是采样率为8KHz或16KHz(本地识别只支持16K采样率,云端都支持),位长16bit,单声道的wav或者pcm
// 写入8KHz采样的音频时,必须先调用setParameter(SpeechConstant.SAMPLE_RATE, "8000")设置正确的采样率
// 注:当音频过长,静音部分时长超过VAD_EOS将导致静音后面部分不能识别。
ArrayList bytes = FucUtil.splitBuffer(audioData, audioData.length, audioData.length / 3);
for (int i = 0; i < bytes.size(); i++) {
mIat.writeAudio(bytes.get(i), 0, bytes.get(i).length);
try {
Thread.sleep(1000);//休眠1秒
} catch (Exception e) {
}
}
//mIat.writeAudio(audioData, 0, audioData.length );
mIat.stopListening();
} else {
mIat.cancel();
showToast("读取音频流失败");
}
}
}
@Override
protected void onResume() {
// 开放统计 移动数据统计分析
/*FlowerCollector.onResume(MainActivity.this);
FlowerCollector.onPageStart(TAG);*/
super.onResume();
}
@Override
protected void onPause() {
// 开放统计 移动数据统计分析
super.onPause();
}
/**
* 展示吐司
*/
private void showToast(final String str) {
Toast.makeText(this, str, Toast.LENGTH_SHORT).show();
}
private AlertDialog dialog;
private void showAlertDialog() {
dialog = new AlertDialog.Builder(this)
.setTitle("自定弹框")//标题
.setMessage("正在识别,请稍后...")//内容
.setIcon(R.mipmap.ic_launcher)//图标
.create();
dialog.show();
}
}
对应布局文件:
注意:
①、如果需要讯飞自带听写UI【RecognizerDialog】:
将此文件夹拷贝下来speechDemo\src\main\assets\iflytek(否则找不到资源会报错)
②、文中setParam方法中最后2句代码是否保存音频:
//自行更换保存路径
mIat.setParameter(SpeechConstant.ASR_AUDIO_PATH, Environment.getExternalStorageDirectory() + "/msc/helloword.wav");
录制后可到手机文件管理查找,楼主使用的MEIZU 16th直接可以搜索到,并且可以原生播放:
③、音频流iattest.wav如上图也需拷贝
byte[] audioData = FucUtil.readAudioFile(MainActivity.this, "iattest.wav");
3、所使用到的工具类(Demo中也有,删除了未使用到的):
①:FucUtil.java
/**
* 功能性函数扩展类
*/
public class FucUtil {
/**
* 将字节缓冲区按照固定大小进行分割成数组
*
* @param buffer 缓冲区
* @param length 缓冲区大小
* @param spsize 切割块大小
* @return
*/
public static ArrayList splitBuffer(byte[] buffer, int length, int spsize) {
ArrayList array = new ArrayList();
if (spsize <= 0 || length <= 0 || buffer == null || buffer.length < length)
return array;
int size = 0;
while (size < length) {
int left = length - size;
if (spsize < left) {
byte[] sdata = new byte[spsize];
System.arraycopy(buffer, size, sdata, 0, spsize);
array.add(sdata);
size += spsize;
} else {
byte[] sdata = new byte[left];
System.arraycopy(buffer, size, sdata, 0, left);
array.add(sdata);
size += left;
}
}
return array;
}
/**
* 读取asset目录下音频文件。
*
* @return 二进制文件数据
*/
public static byte[] readAudioFile(Context context, String filename) {
try {
InputStream ins = context.getAssets().open(filename);
byte[] data = new byte[ins.available()];
ins.read(data);
ins.close();
return data;
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
return null;
}
}
②:JsonParser.java
/**
* Json结果解析类
*/
public class JsonParser {
public static String parseIatResult(String json) {
StringBuffer ret = new StringBuffer();
try {
JSONTokener tokener = new JSONTokener(json);
JSONObject joResult = new JSONObject(tokener);
JSONArray words = joResult.getJSONArray("ws");
for (int i = 0; i < words.length(); i++) {
// 转写结果词,默认使用第一个结果
JSONArray items = words.getJSONObject(i).getJSONArray("cw");
JSONObject obj = items.getJSONObject(0);
ret.append(obj.getString("w"));
// 如果需要多候选结果,解析数组其他字段
// for(int j = 0; j < items.length(); j++){
// JSONObject obj = items.getJSONObject(j);
// ret.append(obj.getString("w"));
// }
}
} catch (Exception e) {
e.printStackTrace();
}
return ret.toString();
}
public static String parseGrammarResult(String json) {
StringBuffer ret = new StringBuffer();
try {
JSONTokener tokener = new JSONTokener(json);
JSONObject joResult = new JSONObject(tokener);
JSONArray words = joResult.getJSONArray("ws");
for (int i = 0; i < words.length(); i++) {
JSONArray items = words.getJSONObject(i).getJSONArray("cw");
for (int j = 0; j < items.length(); j++) {
JSONObject obj = items.getJSONObject(j);
if (obj.getString("w").contains("nomatch")) {
ret.append("没有匹配结果.");
return ret.toString();
}
ret.append("【结果】" + obj.getString("w"));
ret.append("【置信度】" + obj.getInt("sc"));
ret.append("\n");
}
}
} catch (Exception e) {
e.printStackTrace();
ret.append("没有匹配结果.");
}
return ret.toString();
}
}
特别注意:录音和存储权限需动态获取,这里不做讲解(可先设置>应用>手动打开对应权限)!!!