使用百度语音实现的语音转文字

在VR场景中我想把语音转为文字,使用起来更高大上一点儿,于是,我翻遍了目前用的比较多的集中SDK:科大讯飞,百度语音,微软TTS,亲加通讯

其中,亲加通讯和百度的SDK主要是面对移动端,TTS主要面对Windows,科大讯飞移动端桌面端都有。
我是想用到Oculus中的,所以要选用windows,然后困难就来了。。

讯飞的桌面SDK是用C语言写的,想用到unity里面对于我这种一点儿C都不会的太难了,TTS没怎么研究,但是感觉蛮复杂的,然后经过我百般摸索,发现百度语音不光有移动端,还有REST,使用HTTP请求来使用的,不限平台!

于是,我就决定采用百度的REST方式来实现语音转为文字。

这个是使用文档 自己看一下,下面我们直接上代码

在unity中新建一个脚本

private string token;                           //access_token
private string cuid = "你自己随便写一个用户标识";        //用户标识
private string format = "wav";                  //语音格式
private int rate = 8000;                        //采样率
private int channel = 1;                        //声道数
private string speech;                          //语音数据,进行base64编码
private int len;                                //原始语音长度
private string lan = "zh";                      //语种
 
private string grant_Type = "client_credentials";  
private string client_ID = "你的百度appkey";                       //百度appkey
private string client_Secret = "你的百度SecretKey";                   //百度Secret Key
 
private string baiduAPI = "http://vop.baidu.com/server_api";
private string getTokenAPIPath = "https://openapi.baidu.com/oauth/2.0/token";
 
private Byte[] clipByte;
 
/// 
/// 转换出来的TEXT
/// 
public static string audioToString;
 
private AudioSource aud;
private int audioLength;//录音的长度

以上是需要声明的变量。其中AppID和SecretKey需要你注册成为百度的开发者,然后再应用管理中去看
继续代码:

/// 
/// 获取百度用户令牌
/// 
/// 获取的url
/// 
private IEnumerator GetToken(string url)
{
    WWWForm getTForm = new WWWForm();
    getTForm.AddField("grant_type", grant_Type);
    getTForm.AddField("client_id", client_ID);
    getTForm.AddField("client_secret", client_Secret);
 
    WWW getTW = new WWW(url, getTForm);
    yield return getTW;
    if (getTW.isDone)
    {
        if (getTW.error == null)
        {
            token = JsonMapper.ToObject(getTW.text)["access_token"].ToString();
            StartCoroutine(GetAudioString(baiduAPI));
        }
        else
            Debug.LogError(getTW.error);
    }
}

上面这段代码是获取百度的Token,有Token才有权使用API。

然后是发送转换请求的方法:

/// 
/// 把语音转换为文字
/// 
/// 
/// 
private IEnumerator GetAudioString(string url)
{
    JsonWriter jw = new JsonWriter();
    jw.WriteObjectStart();
    jw.WritePropertyName("format");
    jw.Write(format);
    jw.WritePropertyName("rate");
    jw.Write(rate);
    jw.WritePropertyName("channel");
    jw.Write(channel);
    jw.WritePropertyName("token");
    jw.Write(token);
    jw.WritePropertyName("cuid");
    jw.Write(cuid);
    jw.WritePropertyName("len");
    jw.Write(len);
    jw.WritePropertyName("speech");
    jw.Write(speech);
    jw.WriteObjectEnd();
 
    WWW getASW = new WWW(url, Encoding.Default.GetBytes(jw.ToString()));
    yield return getASW;
    if (getASW.isDone)
    {
        if (getASW.error == null)
        {
            JsonData getASWJson = JsonMapper.ToObject(getASW.text);
            if (getASWJson["err_msg"].ToString() == "success.")
            {
                audioToString = getASWJson["result"][0].ToString();
                if (audioToString.Substring(audioToString.Length - 1) == ",")
                    audioToString = audioToString.Substring(0, audioToString.Length - 1);
                Debug.Log(audioToString);
            }
        }
        else
        {
            Debug.LogError(getASW.error);
        }
    }
}

注意,这里不能用WWWForm的AddField方法去上传参数,否则会返回错误3300,也就是参数错误,我就是在这卡住了很长时间。。

好了,现在就可以把一段语音转换成文字然后返回到audioToString这个字符串了

然后是用unity录音,这个脚本在之前的文章中写过,下面在写一遍

private void Awake()
{
    if (GetComponent() == null)
        aud = gameObject.AddComponent();
    else
        aud = gameObject.GetComponent();
    aud.playOnAwake = false;
}

/// 
/// 开始录音
/// 
public void StartMic()
{
    if (Microphone.devices.Length == 0) return;
    Microphone.End(null);
    Debug.Log("Start");
    aud.clip = Microphone.Start(null, false, 10, rate);
}

/// 
/// 结束录音
/// 
public void EndMic()
{
    int lastPos = Microphone.GetPosition(null);
    if (Microphone.IsRecording(null))
        audioLength = lastPos / rate;//录音时长  
    else
        audioLength = 10;
    Debug.Log("Stop");
    Microphone.End(null);
 
    clipByte = GetClipData();
    len = clipByte.Length;
    speech = Convert.ToBase64String(clipByte);
    StartCoroutine(GetToken(getTokenAPIPath));
}

/// 
/// 把录音转换为Byte[]
/// 
/// 
public Byte[] GetClipData()
{
    if (aud.clip == null)
    {
        Debug.LogError("录音数据为空");
        return null;
    }
 
    float[] samples = new float[aud.clip.samples];
 
    aud.clip.GetData(samples, 0);
 
    Byte[] outData = new byte[samples.Length * 2];
 
    int rescaleFactor = 32767; //to convert float to Int16   
 
    for (int i = 0; i < samples.Length; i++)
    {
        short temshort = (short)(samples[i] * rescaleFactor);
 
        Byte[] temdata = System.BitConverter.GetBytes(temshort);
 
        outData[i * 2] = temdata[0];
        outData[i * 2 + 1] = temdata[1];
    }
    if (outData == null || outData.Length <= 0)
    {
        Debug.LogError("录音数据为空");
        return null;
    }
 
    return outData;
}

然后再添加一下测试的代码:

private void OnGUI()
{
    if (GUILayout.Button("Start"))
        StartMic();
 
    if (GUILayout.Button("End"))
        EndMic();
 
}
 
public Text debugText;
private void Update()
{
    debugText.text = audioToString;
}

整个脚本就完成了,然后把脚本挂到场景中一个物体上,再建一个Text,拖到debugText上,运行起来,点Start,说一句话,说完再点End,就会把说的话转成语音输出到debugText上

我觉得这个方法还是比较简单的,只是必须要联网才行,不过我们这个程序是要登陆注册才能进去的,所以不存在不联网的问题,大家可以参考参考,有好的意见可以提出来共同提高

工程Demo地址请点这里

你可能感兴趣的:(使用百度语音实现的语音转文字)