山寨一个Siri

SiriKit 从6月份的 WWDC2016 推出已经有一段时间了,不少应用也慢慢的适配了Siri,但是可能很多童鞋还没有来得及去试试,下面我们先试一下:

山寨一个Siri_第1张图片
QQ

我们可以在在设置里查看已经适配Siri 的应用,可以在这里将应用打开权限,也可以在Siri 触发的时候通过提示来打开。

山寨一个Siri_第2张图片
目前我知道的已经适配了Siri 的应用

SiriKit 是以 Extension 的方式来给已有App 来提供支持,就目前Siri 支持的intent来说,还是有很多使用的限制,只能针对特定的词汇通过命令来进行识别处理。这里不介绍如何使用SiriKit ,下面我想利用iOS中 目前已经公开的其他 API 实现一个应用内的语音助手,来理解Siri 的实现。

其实想要实现Siri,我们只需要先将语音进行识别,然后再将语音内容进行分析,然后再将分析出来的结果进行输出,当然这输出不只是语音,也可能是一些反馈信息和一些事件处理。
下面我们先来实现语音识别。

语音识别

Speech framework 也是在WWDC 2016 推出的一个语音识别框架,并且支持多种语言,Siri 也是基于此框架来进行语音识别。还在iOS 3 、4 时代的时候就已经开始有一些第三方的语音识别框架,但那时候不是价格高就是识别不精准,导致很多应用软件对语音识别都望而却步。但目前的语音识别技术都已经炉火纯青,就中文来说,不仅仅是已经能够识别出普通话,还能识别出粤语。科大讯飞在国内应该是语音识别技术做的最好的了,在几年前就已经实现了离线语音识别的功能。
Speech 当然也不甘落后,也提供了离线的语音识别,速度和精准度也不必多说。

苹果一直都是呈现出来最简单最易用的API 给开发者, 所以通过Speech 实现一个语音识别功能就是分分钟搞定。

主要类有:

  1. SFSpeechRecognizer
  2. SFSpeechRecognitionRequest
    1). SFSpeechURLRecognitionRequest
    2). SFSpeechAudioBufferRecognitionRequest
  3. SFSpeechRecognitionTask
  4. SFSpeechRecognitionResult

简单四步实现语音识别

// 请求获取语音识别权限
SFSpeechRecognizer.requestAuthorization { (status) in   . . . }

// 初始化中文语音识别
let speechRecongnizer = SFSpeechRecognizer(locale: Locale(identifier: “zh_CN”))

// 初始化识别请求
let recognitionRequest = SFSpeechURLRecognitionRequest(url: NSURL(string: "...")!)

// 请求获取语音识别
let recognitionTask = speechRecongnizer?.recognitionTask(with: recognitionRequest, resultHandler:{ (result, error) in
    if let result = result {
        print(result.bestTranscription.formattedString)
        let isFinal = result.isFinal
    }
 })

这里我们需要实现实时语音识别并转化有效信息,就需要使用SFSpeechAudioBufferRecognitionRequest来通过缓冲流实时将语音转化为有效文字信息。

let audioEngine = AVAudioEngine()
let recognitionRequest = SFSpeechAudioBufferRecognitionRequest()
guard let inputNode = audioEngine.inputNode else {
    fatalError("audioEngine error")
}
let recordingFormat = inputNode.outputFormat(forBus: 0)
inputNode.installTap(onBus: 0, bufferSize: 1024, format: recordingFormat) { (buffer, when) in
    recognitionRequest?.append(buffer)
}
let recognitionTask = speechRecongnizer?.recognitionTask(with: recognitionRequest, resultHandler: { (result, error) in
    var isFinal = false
    if let result = result {
        print(result.bestTranscription.formattedString)
    }
})

audioEngine.prepare()
do {
    try audioEngine.start()
} catch {
    print("couldn't start")
}

这样我们就可以实时监听语音输入流自动转化为文字了,下面我们需要对文字进行解析,然后将反馈信息读出来。

语音朗读

AVSpeechSynthesizer 是随着iOS 7.0 而推出的一个文字转语音的特性,几行代码就能实现文字转成语音播放出来,

  1. AVSpeechSynthesizer
  2. AVSpeechUtterance
  3. AVSpeechSynthesisVoice
// 通过文字初始化话语
let utterance = AVSpeechUtterance(string: "语音转文字")

// 设置语言
utterance.voice = AVSpeechSynthesisVoice(language: "zh-CN")

// 读出来
let synthesizer = AVSpeechSynthesizer()
synthesizer.speak(utterance)

通过分词解析并反馈

下面我们就可以解析出一些词汇或命令来做出相应的反馈。就比如

var string = ""
if action.contains("叫爸爸") || action.contains("喊爸爸") {
    string = "爸爸"
} else if action.contains("笑话") {
    string = "我有个直觉,圣诞节那天,可能会有个人捧着鲜花和礼物对我说, 让一让兄弟,挡路了。"
} else if action.contains("绕口令") {
    string = "黑化黑灰化肥灰会挥发发灰黑讳为黑灰花会回飞;灰化灰黑化肥会会挥发发黑灰为讳飞花回化为灰"
}

当然,这只是一些很简单的语音命令,如果要更精确的语音识别,肯定需要非常精准的分词算法来支持。
那么这样一个山寨的应用内Siri 就算完成了。

你可能感兴趣的:(山寨一个Siri)