Azure 认知服务概述

背景知识

近些年随着机器学习、深度学习等技术的不断发展,人工智能在越来越多的场景得到了应用,如人脸识别、图像识别、语音识别、语音生成、自然语言处理、决策分析等等,让机器拥有了听、说、看和思考的能力,很大程度上解放了原来需要耗费的巨大人力,提高了生产力。

正因为如此,现在越来越多的行业和场景,想要拥有人工智能,作为自己业务的重要部分。在过去,想要实现自己的人工智能,需要组建人工智能算法团队、采集大量的数据并做标记、再经过长时间大数据量的训练后得出模型,这是一个漫长且高成本的过程。尤其是大量的数据采集和标记,对于大部分团队来说是不现实的。所以后来市面上就出现了很多把某项人工智能能力封装好的 SDK,这些团队把模型训练封装后,以收取授权费的方式提供给使用方,在这方面人脸识别 SDK 和 OCR SDK 算是较早成型的产品,Face++ 和商汤等团队都做过这样的实现。这样就很大程度上降低了人工智能引入的成本,让应用场景可以快速落地和运行,不过这种实现慢慢的也展现出一些弊端,因为数据模型本身的体积大、不易更新等问题,应用在接入几个不同能力的 SDK 后,体积就会变得很大,而且只能通过重新发布才能接入新的 SDK,所以后来就出现了基于云服务的 API 形式,运算过程和模型都在云端,应用中只需要通过认证和 API 调用就可以完成人工智能服务的使用,随着 5G 网络传输速度的提升和云服务器运算能力的不断提升,云服务中的人工智能被广泛的运用起来。

在各大云服务中,AWS、Azure、Google Cloud 和国内的阿里云、腾讯云、京东云、百度云等都提供了很丰富的人工智能服务。而 Microsoft Azure 认知服务,算是其中实现全面性和效果都很不错的一个,我们针对它做一下更详细的分析。

服务概述

Azure 认知服务是基于微软 Azure 云服务的 AI 能力的集合,开发者可以使用它快速使用人工智能服务,主要分为视觉、语音、语言、Web 搜索和决策五个部分,每个部分包含了一下服务能力。

官网介绍:https://azure.microsoft.com/zh-cn/services/cognitive-services/

Azure 认知服务概述_第1张图片

1. 视觉

视觉是现在市面上非常常用的 AI 能力,国内的 AI 四小龙旷视、商汤、云从、依图都是从计算机视觉,或者更具体的人脸识别开始的。视觉主要会覆盖人脸识别、人脸检测、人体检测、物体识别、证件识别、文字识别等等。

而微软 Azure 认知服务的定义是识别和确定你的图片、视频和数字墨迹内容,为它们添加描述文字和索引,并审查这些内容,服务范围包括了:计算机视觉、自定义视觉服务、人脸、表单识别器、墨迹识别器和视频索引器。

计算机视觉 - 通用的计算机图像识别分类能力,对开发者提供的图像进行处理并返回图像的信息,包括标签、分类和识别等,通常会用于图像分类、图像打标签和图像三鉴等;

自定义视觉服务 - 自定义视觉是一种认知服务,用于生成、部署和改进自己的图像分类器。 这项服务的特点是支持用户自定义的图像数据集和标签分类,对于没有机器学习训练环境的开发者还是很实用的;

人脸 - 人脸相关的 AI 能力,主要包括人脸检测和人脸识别。这项能力被广泛的应用在人群分析、人脸身份验证、刷脸支付、根据人脸的相册分组等场景;

表单识别器 - 该服务使用机器学习技术从表单文档中识别和提取文本、键值对和表数据。 它会引入表单中的文本并输出包含原始文件中的关系的结构化数据;

墨迹识别器 - 识别输入中的形状和手写内容,以墨迹笔划为输入内容,输出为识别后的结果数据;

视频索引器 - 根据多个通道(语音、声乐、视觉对象)使用机器学习模型来提取视频中的深度见解,在很多 UGC 视频平台中,可以方便的为用户作品进行索引和标签化,并能很方便的检测视频的合法合规性等;

2. 语音

语音服务也是用途很广泛的服务能力,国内的讯飞、思必驰等公司都是在语音方面很有建树的公司,语音服务一般会包括语音识别、语音合成等方向。

微软的语音服务,主要包括语音识别、语音合成、发音人识别和检测等,服务包括:语音服务、说话人识别。

语音服务 - 语音服务主要包括语音识别、语音合成、语音翻译、语音助手等功能;常见的语音搜索就是利用了语音识别功能,而语音合成主要用户机器由文字合成语音,高德的地图播报使用的就是语音合成功能,语音翻译主要是实现对语音输入进行分析和翻译,而语音助手比如 Siri、Cortana 等利用的就是 bot 对用户语音的识别和分析等;

说话人识别 - 说话人识别主要包括说话人检测和说话人识别能力,分别为了解决是不是真人在说话和是谁在说话的问题,常用在语音验证信息的真人验证和说话人身份识别;

3. 语言

语言服务主要用于语言内容理解、文本内容分析等,通过该服务可以很好地进行语言内容的理解和关键信息分析提取、语言的情绪分析等。

微软的语言服务,主要包括语言理解、QnA Maker、文本分析、文本翻译。

语言理解 - 可将自定义机器学习智能应用到自然语言文本,以便预测整体含义并提炼出相关的详细信息;

QnA Maker - 一个基于云的自然语言处理 (NLP) 服务,它可以轻松地基于数据创建自然对话层。 使用该服务可以基于自定义的信息知识库 (KB),针对任何给定的自然语言输入查找最适当的回答;

文本分析 - 一种基于云的服务,它对原始文本提供高级自然语言处理,并且包含四项主要功能:情绪分析、关键短语提取、语言检测和实体识别;

文本翻译 - 文本翻译是一种基于云的机器翻译服务,使用先进的神经机器翻译技术并提供统计机器翻译技术;

4. 搜索

搜索服务的应用场景很多,可以实现对网页、文字、图像、视频和新闻能内容的搜索,在很多应用场景中可以基于搜索内容做进一步处理。

微软的搜索服务包括必应新闻搜索、必应视频搜索、必应 Web 搜索、必应自动建议、必应自定义搜索、必应实体搜索、必应图像搜索、必应视觉搜索、必应当地企业搜索和必应拼写检查。通过这些服务的名称,很容易能发现服务的能力范围,比如必应视频搜索,就是基于搜索词对视频内容和标签进行的搜索,而必应图像搜索,显然是针对图像集的搜索。

5. 决策

决策服务主要是基于 AI 能力对决策进行支持,包括对决策风险的分析和检测,基于数据对决策进行数据支撑分型、个性化分析决策支撑等场景。

微软的决策服务包括异常探测器、内容审查器和个性化体验创建服务。

异常探测器 - 可以使用异常检测器 API 来监视并检测与机器学习配合使用的时序数据中的异常。 异常检测器 API 可以自动标识最佳适配模型并将其应用到数据,不限行业、场景或数据量,通过这种方式进行适应;

内容审查器 - 一项认知服务,用于检查文本、图像和视频中是否存在可能的违规性内容、有风险内容或其他令人不适的内容,该审查器会用到文本分析和图像检测、视频索引器等基础能力;

个性化体验创建服务 - 根据你提供的有关内容和上下文的实时集合信息,从内容项中选择最佳项,常见的应用场景包括千人千面的个性化推荐等;

 

结语

上面通过简单的文字描述,介绍了 Azure 认知服务的概况,接下来会针对各种不同的服务进行更深入的分析、基础使用方式介绍和基于实际场景的用法分析等。

 

你可能感兴趣的:(Azure 认知服务概述)