文章主要针对AI目前在各个比较热门领域的应用现状展开了梳理与分析,包含:计算机视觉、语音交互、自然语言处理和典型AI场景四个方面,与大家分享。
大家好,我是方舟,接下来我会出一个硬核知识系列,共三篇《AI产品经理必懂的硬知识》,从应用领域、常见概念与算法、自我进阶三个方面去阐述,这个系列算是榨干了我多个笔记。第一篇咱们就来谈谈目前各个主流应用领域的现状吧。有读者反应我的文章过于“干货”,实在太长,要分好几次看完,列个提纲吧。
一、计算机视觉(CV)
二、语音交互
(1)语音识别(ASR)
(2)语音合成(TTS)
三、自然语言处理(NLP)
四、典型AI场景
(1)智能机器人
(2)无人驾驶
(3)人脸识别(非手机端)
(4)视觉设计(手机端)
(5)自动文字编辑
计算机视觉是一门研究如何使机器“看”的科学,就是指用摄影机和计算机代替人眼对目标进行识别、跟踪和测量等机器视觉的应用,是使用计算机及相关设备对生物视觉的一种模拟,对采集的图片或视频进行处理从而获得相应场景的三维信息,让计算机具有对周围世界的空间物体进行传感、抽象、判断的能力。
计算机视觉在现实场景中应用价值主要体现在可以利用计算机对图像和视频的识别能力,替代部分人力工作,节省人力成本并提升工作效率。传统的计算机视觉基本遵循图像预处理、提取特征、建模、输出的流程,不过利用深度学习,很多问题可以直接采用端到端,从输入到输出一气呵成。
由于笔者本人是专门做AI CV这个方向产品的,因此未来的文章中关于CV的知识以及CV实际项目都会涉及很多。在之后的文章里针对视觉识别,特别是视觉识别里面的明星应用人脸识别,我会很深入的去探讨。其中人脸识别中所涉及的很多AI产品实现细节的拆解,从成像、预处理、算力估算到检测、多目标、跟踪、分割、识别、算法精度测试模块,如果弄懂弄透,再将这一块体系延伸到车辆、动物等其他视觉类项目,基本原理都是类似的,可谓一通百通。
语音交互也是非常热门的方向之一,其实语音交互整个流程里包含语音识别、自然语言处理和语音合成。自然语言处理很多时候是作为单独的一个领域来研究的,所以这里暂且不展开,本文也将单独介绍自然语言处理,所以此处只介绍语音识别和语音合成。
语音交互的最佳应用场景便是眼睛不方便看,或者手不方便操作的时候。“不方便看”比较典型的场景便是智能车载,“不方便操作”比较典型的场景便是智能音箱,这也是目前比较火的两个细分方向。
一个完整的语音交互基本遵循下图的流程:
经典语音交互用例
(1)研究内容
语音识别的输入是声音,属于计算机无法直接处理的模拟信号,所以需要将声音转化成计算机能处理的文字信息。传统的识别方式需要通过编码将其转变为数字信号,并提取其中的特征进行处理。
传统方式的声学模型一般采用隐马尔可夫模型(HMM),处理流程是语音输入——编码(特征提取)——解码——输出。
还有一种“端到端”的识别方式,一般采用深度神经网络(DNN),这种方式的声学模型的输入通常可以使用更原始的信号特征(减少了编码阶段的工作),输出也不再必须经过音素等底层元素,可以直接是字母或者汉字。
在计算资源与模型的训练数据充足的情况下,“端到端”方式往往能达到更好的效果。目前的语音识别技术主要是通过DNN实现的。语音识别的效果一般用“识别率”,即识别文字与标准文字相匹配的字数与标准文字总字数的比例来衡量。目前中文通用语音连续识别的识别率最高可以达到97%。
(2)衍生研究内容
(1)研究内容
是将文字转化为语音(朗读出来)的过程,目前有两种实现方法,分别是:拼接法和参数法。
DeepMind早前发布了一个机器学习语音生成模型WaveNet,直接生成原始音频波形,可以对任意声音建模,不依赖任何发音理论模型,能够在文本转语音和常规的音频生成上得到出色的结果。
(2)瓶颈
个性化TTS数据需求量大,在用户预期比较高的时候难满足。需要AI产品经理选择用户预期不苛刻的场景,或者在设计时管理好用户预期。
自然语言处理是一门让计算机理解、分析以及生成自然语言的学科,是理解和处理文字的过程,相当于人类的大脑。NLP是目前AI发展的核心瓶颈。整个NLP包括了句法语义分析、信息抽取、文本挖掘、机器翻译、信息检索、问答系统、对话系统等范畴。
NLP大概的研究过程是:研制出可以表示语言能力的模型——提出各种方法来不断提高语言模型的能力——根据语言模型来设计各种应用系统——不断地完善语言模型。自然语言理解和自然语言生成都属于自然语言理解的概念范畴。
自然语言理解(NLU)模块,着重解决的问题是单句的语义理解,对用户的问题在句子级别进行分类,明确意图识别(Intent Classification);同时在词级别找出用户问题中的关键实体,进行实体槽填充(Slot Filling)。
一个简单的例子,用户问“我想吃冰激凌”,NLU模块就可以识别出用户的意图是“寻找甜品店或超市”,而关键实体是“冰激淋”。有了意图和关键实体,就方便了后面对话管理模块进行后端数据库的查询或是有缺失信息而来继续多轮对话补全其它缺失的实体槽。
自然语言生成(NLG)模块是机器与用户交互的最后一公里路,目前自然语言生成大部分使用的方法仍然是基于规则的模板填充,有点像实体槽提取的反向操作,将最终查询的结果嵌入到模板中生成回复。手动生成模板之余,也有用深度学习的生成模型通过数据自主学习生成带有实体槽的模板。
自然语言处理作为CUI(Conversational User Interface,对话式交互)中非常重要的一部分,只要是CUI的应用场景都需要自然语言处理发挥作用。除此之外,机器翻译、文本分类也都是自然语言处理的重要应用领域。但是自然语言处理的应用也是被吐槽最多的,经典的就是“智能客户不仅没增加效率,还降低了效率”,相比CV,NLP这一块带给人的直观震撼目前来看确实要小很多。
(1)词语实体边界界定
自然语言是多轮的,一个句子不能孤立的看,要么有上下文,要么有前后轮对话,而正确划分、界定不同词语实体是正确理解语言的基础。目前的深度学习技术,在建模多轮和上下文的时候,难度远远超过了如语音识别、图像识别的一输入一输出的问题。所以语音识别或图像识别做的好的企业,不一定能做好自然语言处理。
(2)词义消歧
词义消歧包括多义词消歧和指代消歧。多义词是自然语言中非常普遍的现象,指代消歧是指正确理解代词所代表的⼈或事物。例如:在复杂交谈环境中,“他”到底指代谁。词义消歧还需要对文本上下文、交谈环境和背景信息等有正确的理解,目前还无法对此进行清晰的建模。
(3)个性化识别
自然语言处理要面对个性化问题,自然语言常常会出现模棱两可的句子,而且同样一句话,不同的人使用时可能会有不同的说法和不同的表达。这种个性化、多样化的问题非常难以解决。
(4)NLP技术体系
这里也总结了整个自然语言处理的技术体系,如下所示:
NLP技术体系
(5)产品体验
自然语言识别:讯飞输入法(PC软件和手机APP),讯飞语记(手机APP),百度输入法PC软件和手机APP)
远场语音识别(智能音箱):亚马逊Echo,谷歌Home,苹果HomePod
机器翻译:google翻译
多轮对话机器人:苹果siri,微软小冰,百度度秘,小i,小黄鸡,图灵机器人
(6)推荐阅读材料
刚才说到了,目前AI的研究主流三大领域:计算机视觉、语音交互和自然语言处理,相当于是人工职能的视觉、听觉和大脑。最后我再分别讲一下目前市场很火热的几个场景,这些细分场景也是基于上述三大领域的交叉来实现的,包括智能机器人、人脸识别、移动端图片处理、自动编辑等。
以分拣机器人为例,分拣机器人(Sorting robot),是一种具备了传感器、物镜和电子光学系统的机器人,可以快速进行货物分拣。电商平台的蓬勃发展,自动分拣机器人已得了广泛的应用。亚马逊,阿里巴巴和京东均已将智能分拣机器人应用在货物分拣工作中,极大节省人工成本,号称一小时可以完成18000单的分拣工作。延伸阅读如下:
自动驾驶汽车(Autonomous vehicles;Self-piloting automobile )又称无人驾驶汽车、电脑驾驶汽车、或轮式移动机器人,是一种通过电脑系统实现无人驾驶的智能汽车。自动驾驶汽车依靠人工智能、视觉计算、雷达、监控装置和全球定位系统协同合作,让电脑可以在没有任何人类主动的操作下,自动安全地操作机动车辆。
2017年7月6日,百度AI开发者大会现场连线视频中“李彦宏乘坐无人驾驶汽车上北京五环”的消息刷爆了朋友圈,近期一条自动驾驶大巴深圳上路的新闻刷爆朋友圈,由海梁科技携手深圳巴士集团、深圳福田区政府、安凯客车、东风襄旅、速腾聚创、中兴通讯、南方科技大学、北京理工大学、北京联合大学联合打造的自动驾驶客运巴士——阿尔法巴(Alphabus)正式在深圳福田保税区的开放道路进行线路的信息采集和试运行。让这个焦虑的世界又多了一批焦虑的人–公交车司机。
沃尔沃根据自动化水平的高低区分了四个无人驾驶的阶段:驾驶辅助、部分自动化、高度自动化、完全自动化:
这个领域的相关公司国外是家喻户晓的特斯拉,国内做无人驾驶最不错的是百度。百度无人驾驶车项目于2013年起步,由百度研究院主导研发,其技术核心是“百度汽车大脑”,包括高精度地图、定位、感知、智能决策与控制四大模块。
其中,百度自主采集和制作的高精度地图记录完整的三维道路信息,能在厘米级精度实现车辆定位。同时,百度无人驾驶车依托国际领先的交通场景物体识别技术和环境感知技术,实现高精度车辆探测识别、跟踪、距离和速度估计、路面分割、车道线检测,为自动驾驶的智能决策提供依据。
特斯拉(Tesla),是一家美国电动车及能源公司,产销电动车、太阳能板、及储能设备。Tesla 的计划是通过不断迭代辅助驾驶技术,使之最后升级成为无人驾驶。停留在辅助驾驶阶段时,需要驾驶员。驾驶员有完全控制权,可以反制或取消辅助驾驶的行为,完全对安全负责。
Google 无人驾驶是一步到位的,基本原则就是不需要人类干预,没有驾照的人也可以单独上车,上车就睡,乘客不承担责任。乐视网汽车频道于2010年8月20日正式上线,依托乐视网视频方面的优势,将丰富、精彩、实用的汽车内容以视频的形式呈现给广大的网友,内容涵盖新车报道、行业新闻、试乘试驾、维修保养、原创汽车视频、车模风采、消费维权、汽车赛事等栏目·精彩的视频让网友轻松享受汽车行业的视听盛宴。不幸的是无人驾驶和智慧出行是趋势,但是2017年并不是其爆发点,庞大的乐视帝国因为供血无人汽车崩盘了。
延伸阅读包括:
人脸识别,是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,进而对检测到的人脸进行脸部的一系列相关技术,通常也叫做人像识别、面部识别。2017年被全面应用在手机解锁中。人脸识别系统主要包括四个组成部分,分别为:人脸图像采集及检测、人脸图像预处理、人脸图像特征提取以及匹配与识别。
人脸识别技术产品已广泛应用于金融、司法、军队、公安、边检、政府、航天、电力、工厂、教育、医疗及众多企事业单位等领域。随着技术的进一步成熟和社会认同度的提高,人脸识别技术将应用在更多的领域。而这个行业涌现出了像湖南视觉伟业、北京旷视科技、北京商汤科技等一批优秀的企业。
延伸阅读包括:
人脸识别系统原理:
自拍类APP越来越多,结合人脸识别技术,可以在人的面部或头部添加耳朵,鼻子,王冠等道具,识别锁定人的面部或肢体,保证道具可以自动随着人的移动而移动。
Instagram可以实现自动识别一张图中设计元素,赋予另外一张图作为滤镜,可以设计出效果超赞的设计效果,把一张普普通的风景照变成梵高风格的油画。
国内包括视觉设计类AI的APP遍布我们的手机之中,美拍、SNOW相机、Faceu激萌,B612、羞兔、IN、美咖相机、LINE camera等手机APP支持人脸自动识别,猫耳朵、兔耳朵、狐狸耳朵、猪耳朵随你挑。
延伸阅读包括:
机器人写稿已经不是什么新鲜事了,早两年国外还出过专门的资讯APP,内容全部由机器抓取并生成短消息,主要集中在体育、财经等领域。很多海外的传统媒体都已经运用上了机器人写作,因为人工智能可以监测网络热词,所以比起对热点时间的敏感度,机器人的反应更灵敏,响应速度更快。
机器人知道什么会成为热点,也能第一时间把热点传递给受众。在媒体行业,AI写稿是未来的一个趋势,特别是类似财报、体育快讯、股市消息等结构化、标准化的以数据为主信息,人工处理反而不如AI精准、高效。
这里推荐试用的产品包括腾讯的Dreamwriter、百度的写作大脑、新华社的“快笔小新”、今日头条的“xiaomingbot”。
以百度产品为例的文字自动编辑流程
延伸阅读包括:
以上,就是我目前总结的AI在各个领域的大体应用现状,基本是比较全了,之后围绕着各个技术点和产品设计,还将继续深入的抽丝剥茧分享下去,敬请期待。