人工智能产业结构及相关术语

ASR

自动语音识别技术(Automatic Speech Recognition)是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。语音识别系统的性能大致取决于以下4类因素:
1. 识别词汇表的大小和语音的复杂性;
2. 语音信号的质量;
3. 单个说话人还是多说话人;
4. 硬件。

自动语音识别(Automatic Speech Recognition 简称“ASR“)技术的目标是让计算机能够“听写”出不同人所说出的连续语音,也就是俗称的“语音听写机”,是实现“声音”到“文字”转换的技术。 自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。

语音识别是研究如何采用数字信号处理技术自动提取以及决定语音信号中最基本、最有意义的信息的一门新兴的边缘学科。它是语音信号处理学科的一个分支。

语音识别系统的性能大致取决于以下4类因素:
1. 识别词汇表的大小和语音的复杂性;
2. 语音信号的质量;
3. 单个说话人还是多说话人;
4. 硬件。

分类

自动语音识别通常有以下几种分类方法:

(1)按系统的用户情况分:特定人和非特定人识别系统;

(2)按系统词汇量分:小词汇量、中词汇量和大词汇量系统;

(3)按语音的输入方式分:孤立词、连接词、连续语音系统等;

(4)按输入语音的发音方式分:朗读式、口语(自然发音)式;

(5)按输入语音的方言背景情况分:普通话、方言背景普通话、方言语音识别系统;

(6)按输入语音的情感状态分;中性语音、情感语音识别系统。

基本原理

训练(Training):预先分析出语音特征参数,制作语音模板,并存放在语音参数库中。

识别(Recognition):待识语音经过与训练时相同的分析,得到语音参数。将它与库中的参考模板一一比较,并采用判决的方法找出最接近语音特征的模板,得出识别结果。

失真测度(Distortion Measures):在进行比较时要有个标准,这就是计量语音特征参数矢量之间的“失真测度”。

主要识别框架:基于模式匹配的动态时间规整法(DTW)和基于统计模型的隐马尔可夫模型法(HMM)。

TTS

TTS是Text To Speech的缩写,即“从文本到语音”,是人机对话的一部分,让机器能够说话。

它是同时运用语言学和心理学的杰出之作,在内置芯片的支持之下,通过神经网络的设计,把文字智能地转化为自然语音流。TTS技术对文本文件进行实时转换,转换时间之短可以秒计算。在其特有智能语音控制器作用下,文本输出的语音音律流畅,使得听者在听取信息时感觉自然,毫无机器语音输出的冷漠与生涩感。TTS语音合成技术 [1] 即将覆盖国标一、二级汉字,具有英文接口,自动识别中、英文,支持中英文混读。所有声音采用真人普通话为标准发音,实现了120-150个汉字/分钟的快速语音合成,朗读速度达3-4个汉字/秒,使用户可以听到清晰悦耳的音质和连贯流畅的语调。现在有少部分MP3随身听具有了TTS功能。

TTS是语音合成应用的一种,它将储存于电脑中的文件,如帮助文件或者网页,转换成自然语音输出。TTS不仅能帮助有视觉障碍的人阅读计算机上的信息,更能增加文本文档的可读性。现在的TTS应用包括语音驱动的邮件以及声音敏感系统,并常与声音识别程序一起使用。

CV

CV是Computer Vision的缩写,指计算机视觉。计算机视觉是一门研究如何让机器“看”的科学,更进一步的说,就是使用摄像机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一门科学学科,计算机视觉研究相关的理论和技术,视图建立能够从图像或者多维数据中获取’信息’的人工智能系统。

NLP

NLP(Natural Language Processing),也就是人们常说的「自然语言处理」,就是研究如何让计算机读懂人类语言

这包括,既要能让计算机理解自然语言文本的意义,也能以自然语言文本来表达给定的深层的意图、思想等
所以,这项技术往往体现了人工智能的最高任务与境界,也就是说,只有当计算机具备了理解自然语言的能力时,机器才算实现了真正的智能

然而,这一切远非人们想象的那么简单。 根本原因就在于自然语言文本和对话的各个层次上广泛存在各种各样的歧义性多义性

并且,由于中文词语是由汉字千变万化组成的,所以中文领域的「自然语言处理」显得尤为复杂。

专注于「自然语言处理」领域多年, 深耕「语义分析」技术, NLP 的技术和服务一直伴随着 ImageQ 的发展而不断进步。

从「中文分词」、「词云画像」、「词性分析」到「自动摘要」、「关系挖掘」、「情感分析」、「知识图谱」等,NLP 技术已不再单纯的停留在概念层面, 而是逐步渗透并成功应用在 ImageQ 服务的各个垂直领域中

为什么需要NLP

image

日常生活中,我们总会碰到一些不知道怎么读的生僻字, 这时往往就会去搜索引擎搜索,比如“ 4 个又念什么”。

我们发现,搜索结果一定是向你展示“ 4 个又组成的字”是怎样的,并一旁附上拼音及注释等,而不是“ 4 个又念什么”这几个孤零零的词或者其表面的匹配结果。

image

▲搜索引擎相关结果展示

这其实就是NLP技术的一个体现了。通过这项技术,人们不必花费大量心力去学习和了解难懂的计算机语言,而是用自己最习惯的语言来使用计算机,并进一步了解这背后的意义

SLAM

SLAM的英文全程是 Simultaneous Localization and Mapping,中文称作「同时定位与地图创建」。SLAM试图解决这样的问题:一个机器人在未知的环境中运动,如何通过对环境的观测确定自身的运动轨迹,同时构建出环境的地图。SLAM技术正是为了实现这个目标涉及到的诸多技术的总和。

SLAM技术距今已有 30 余年的发展历史,但相比于深度学习、大数据等词汇,听过的人少之又少,国内从事相关研究的机构更是屈指可数。直至最近三年,SLAM才逐渐成为国内机器人和计算机视觉领域的热门研究方向,在当前比较热门的一些创业方向中崭露头角:

VR/AR 方面,根据 SLAM 得到地图和当前视角对叠加虚拟物体做相应渲染,这样做可以使得叠加的虚拟物体看起来比较真实,没有违和感;

无人机领域,SLAM可以构建局部地图,辅助无人机进行自主避障、规划路径;

无人驾驶领域, SLAM 技术可以提供视觉里程计功能,然后跟其他的定位方式融合;

机器人定位导航领域,SLAM 可以用于生成环境的地图。基于这个地图,机器人执行路径规划、自主探索、导航等任务。

你可能感兴趣的:(人工智能产业结构及相关术语)