提高语音输入信息的准确率—

锤子发布会后，老罗在发布会上提到，讯飞的语音输入识别率已经达到了97%，会场的大部分观众对此表示一脸懵逼，场外的我当然也是其中一员。而离我最近的”新玩法“非这个语音输入无疑了，当时马上就在”搜狗输入法”上玩了几个回合。

图1 “搜狗输入法”语音输入按钮图2 麦克风以水波涟漪扩散，提示正在收音图3 向上滑动选择语种

在说话清晰的情况下，基本能获得说话的文字内容，而且过程中会一直同步输入文字，反馈速度快。久旱逢甘露，以前一直用手机键盘输入，短暂的新鲜感让我迫不及待向几个密友介绍这种输入方式。

图4 一教会他们用语音输入，就这样伤害我 T-T

在移动设的备聊天场景中，我常用文字与表情与他人沟通；特殊场景中，例如不方便键盘输入、需要输入大量内容，会考虑用语音信息沟通。

但在多内容的语音信息传输过程中，也存在着一些的情况。之前曾连续发送多个几十秒时长的语音信息。在录音过程中，意识到自己嘴边的表达有误，所以讲了30多秒的语音要取消发送。这个时候要重复前面30秒的内容，然后重新录制。如果不愿重新录制，则需要再添加修改的语句，如：“刚才上一句说错了，不是……，而是……”，原本就携带了大量信息，如果还穿插着不同的修改注释，信息传达的准确率很可能会降低。

而第二天我也被对方当面吐槽了一番。语音信息内容多时间长，一没记住中间的哪部分就要重听；语音内容时长差距不明显的时候，重听会点选错；语速快有口音的部分重听几次都听不清。真是省了说话者的时间，浪费了收听者的时间。

图5 生活中的语音轰炸狂人

对语音输入识别率以及语音信息传输缺点有一定了解后，我想在以后需要大量文字输入的情景里，语音输入会成为我的另一个选择。

前两天晚上，需要和朋友分享一些事情，但由于时间较晚，她表示不方便听语音，我立马就决定了使用语音输入。在这次大量信息的语音输入过程中，结合之前比较浅层次的使用，我归纳了使用过程中出现的一些问题。

1）专有名词、中英混说造成的语音识别障碍。某些不著名的专有名词识别率低，例如朋友的名字、地方特色词等，这些词语难以识别的同时，甚至会影响后面连接词语的识别。

2）标点符号识别错误。语音输入在句号和逗号的判断添加上，基本能满足我们的需要。它可以根据说话的停顿节奏，句子长度自动添加。语音输入过程中带有“什么”、“怎么”、“如何”、“谁”、“哪里”、“几”、“吗”之类的疑问词，那么这句话很有可能会在句末被加上问号，但是我们有些情况下是不需要的，例如：

• 我不知道他怎么会在这里。

• 也不看是谁的东西。

• 他们想知道东西找着了没有。

• 他问你几岁了。

• 我不明白他要那些东西干嘛。

以上几个句子中，疑问句在句中充当了宾语的成分，但主句是陈述句，所以句末要加上句号。在搜狗输入法的语音输入识别中，这几个句子在句末都被加上了问号。问号存在识别错误添加的问题，而顿号、冒号、书名号之类的直接是不能识别添加。

3）停顿造成的断句错误。说话过程中，时不时会有停顿，例如干咳、思考、被影响，这些停顿可能会导致句尾出现标点，造成断句失当。

4）说话陋习造成的句子逻辑混乱。我自己说话时有一些陋习，像介绍流程、经历之类的事情时，经常会不自觉地就连着说很多“然后”，这样的陋习在说话的时候很可能是意识不到的，但转为文字后，就需要把它们删除或改写。除了“然后”，还有人会比较喜欢说“就是说”、“接着”、“接下来呢”，这种带有连接事物先后顺序的词语。除此之外，还有一些像说话语序混乱、无意识重复某些词语之类的陋习。

图6 说话陋习

5）担心语气词的情绪被错误解读。用文字输入的时候，我通常较少使用语气词，但说话时却不可避免出现，例如：“呢”、“喽”、“呀”、“嘛”等。人在说话时，会沉浸在自己语调、情绪的影响里，伴随着情绪，语气词自然而然地脱口而出。但当面对语音输入的结果时，说话时的情绪已经消失了，那些带有“呢”、“噢”语气词的句子，却难以重现说话时的情绪。这些不恰当语气词的存在，可能一不小心就改变了你的语言风格，给你和上司的对话中带来一些小灾难。

图7 不合适的语气词

我们对语音输入结果不是十分满意的原因，除了技术层面的问题，便是说话内容不能在从口语到书面语的情景转换中做到自适应。

在社交聊天场景中，把交流的内容称作书面语可能有失妥当。但在以往键盘输入的过程中，我们大脑使用了书面语形成的方法，所以内容会更偏向于书面语的模式。而正是这部分书面语化的内容，跟语音输入的口语化内容存在的差别，造成了我们对语音输入结果的不适应。

组成的书面语和口语的材料来自同一个库，但由于两者对材料的筛选、采纳使用了不同的规则，所以组成口语和书面语的材料也是不尽相同的。词汇上，口语词汇简单明了、通俗冗杂，书面语词汇则富有表现力，规范正式；句法上，口语多使用简单句、短句，结构简单直接；书面语则长句，复合句更多，语句结构复杂。

口语形成时间短，且单向不可逆，一旦通过声音发出便是输出的结果，即使后来进行修改更正也不能在时空上对之前说过的话造成改变。而书面语形成是一个可反复回归的过程，在文字输出过程中，可以不断检阅修正，直至最后输出书写结果。

图8 口语的形成过程

图9 书面语的形成过程

在口语和书面语系统中，如果在对方的环境里，使用自己的语言规则，便会带来一种强烈的不适感。如果是在口语环境中使用书面语，就好像穿着正式的礼服出现在了运动场。在每个人都在肆意奔跑的场景里，你却挺着腰杆，迈着谨慎的步伐，维持着礼貌的微笑，担心衬不起今天穿着的那套礼服。反之，则是在宴会中穿着运动服奔跑，随意挥洒的汗水、唐突的冲撞、运动鞋与地板的摩擦声与会场的悠扬乐声自然是格格不入。

这两种做法并不是说不可行，只是那种情景下带来的不适感让大部分人都望而却步了。所以我们在语音输入过程中，始终会对某些口语输入的句子感到不适，因为输入后的结果变成了书面语，我们会不自觉地用书面语系统去检阅这些结果。

与此同时，除了语言内容外，语言外因素也对内容传达造成了影响。语言外因素（无法通过语言传递的信息，例如：语音、语调、视线、表情、手势等）对信息传达也起到了重要的作用。在书面语中，只有语言内容是有用的；而在口语表达中，语言内容和部分语言外因素共同起到了作用。在语音输入情景中，我们在说话过程会自动带入自己的情绪，这个过程有一部分语言外因素协助我们传达自己的情绪，例如，利用停顿强调重要性、高声调表示愤怒、语速快表示着急。但通过语音输入被转换成文字后，语言外因素携带的情绪便被消磨得差不多了，最终还是需要对这些经过机器输出的内容进行润色修改。

既然语音输入存在现在的一些问题，特别是在需要相对大量文字输入的情境中，我们就更需要找到一些方法去更高效地修正语音输入的结果，而不是在那个小小的输入框，用大拇指经过数不清次的点触、拖移、滑动，最后获得的结果还是不如所愿。

图10 微信文字输入修正的例子

在锤子发布会提及科大讯飞语音输入的同时，Big Bang 和 One Step 也亮眼无比。经过大拇指一贴，Big Bang 就会把按住的文字“炸”开，用户就可以对文字进行搜索、分享和复制的动作。Big Bang 带来交互上的新体验，解决了人们在信息编辑上的痛点。锤子公司想通过这样的方式，让手持设备在信息处理和识别方面上拥有比电脑还高的效率。这样的 Big Bang 自然可以对语音输入的文字结果进行一定程度修正。

在众多应用推荐平台上中，留意到了一款叫做的 Clipboard Plus 的应用。它的界面融合了Big Bang 和 One Step 的框架。通过复制动作，再点击悬浮球即可进入分词操作界面。

图11 Clipboard Plus 操作演示

通过对大段文字进行分词处理，再筛选需要的内容，最后再发送修改后的结果。Clipboard Plus 创造了一个独立编辑修改文字的环境，充分利用屏幕空间，分词逻辑，让用户在修改大段文字上减少了原本在狭小编辑区域内的压迫感，顿时感觉豁然开朗。同时，它的一些简易操作，例如点击“全选”可以进行反选，在删除少量错误词语上可以说相当方便。修改后的语段可以通过点选分享栏中的应用，直接进行输入、搜索、分享等动作。

如果你想体验一下这种不同于以往的文字编辑方式，可以在应用商店通过搜索“Clipboard Plus”，免费下载。

不得不说这类型的软件为语音输入结果的修正提供了不少方便，但针对实际使用场景，可能还需要增加信息置换、插入、快捷选择等的功能。但当真有了这些功能时，可能会变成一个臃肿的拥有分词功能的文字处理应用软件。在未来，相信开发者、设计师们还会为此创造出更多优秀的产品，去处理好信息的编辑处理与识别利用的问题。与此同时，手持设备的语音输入也能因此而获得更好的发展空间。

提高语音输入信息的准确率——请再突破 1%！

你可能感兴趣的:(提高语音输入信息的准确率——请再突破 1%！)