文本搜索是当前最主要的搜索方式,它通过输入的文本来搜索与文本信息关联最大的网页、图片、新闻、音乐、地图等内容。可是目前对于图片和视频的搜索来说,现在还是一个难点,主要的原因是图像识别技术在有效性和高效性方面还不能很好地满足用户需求。但是,最近Google发布了一款强大的图像识别工具Cloud Vision API,通过这个工具或许可以给图片搜索带来一些新的改变。对于开发者们来说,这将会是一个非常有用的工具,有了它,开发者们就可以让自己的应用程序或者机器人更好地理解图像上的信息。
Cloud Vision API已经搭载了像TensorFlow这样的机器学习平台,可以帮助由开发者所开发的应用程序高效地学习和预测图像的内容。Cloud Vision API将一些成熟的机器学习模型封装为一个易于使用的REST API。它可以快速地将图片分为数千种类别(例如:“船”、“狮子”、“艾菲尔铁塔”),并能够识别图片中人脸的情感,还可以识别多种语言的文字。借助这款API,开发者可以构建出一个带各种标签的图库元数据,也能够通过图片情感分析策划出新的营销方案。
Google Cloud Vision API在图像识别中拥有众多吸引人的功能:
实体检测:通过挑选出图像中主要的实体(如一辆汽车,一只猫),开发者可以使用API在对象类别中轻松地建立元数据,还可以构建新的应用场景,例如基于图片的搜索和推荐。
字符识别:通过检索图像中的文本信息,Google Cloud Vision API可以提供自动语言识别的功能,并支持各种语言。
安全检测:通过检测图像中的不当内容,并搭载Google安全搜索使得开发者能够轻容纳基于众包的内容。
面部检测:通过检测图像中是否存在人脸,以及相关的面部特征(如眼睛、鼻子和嘴巴的位置),Google Cloud Vision API 提供分析8种情绪(高兴、悲伤等)的可能性。目前Google Cloud Vision API 还不支持人脸识别,也没有在任何谷歌服务器上存储面部检测信息。
地标检测:Google Cloud Vision API 不仅可以确定自然的或人造的地标,同时也可以确定地标的经度和纬度。
标志检测:通过识别一副图像中的产品标识,Cloud Vision API可以识别产品品牌LOGO。
目前,用户可以通过将图像作为请求的一部分来调用API。Google表示下一阶段Cloud Vision API将集成Google云存储服务,使它的应用更为广泛。
为了展示Cloud Vision API的作用,Cloud Vision API的工程师给出了一个简单的例子,如下图所示,图中展示了通过Cloud Vision API识别的目标的类别,以及相应的概率。
水果类识别
运动类识别
地址识别
在图像识别领域,亚马逊和微软已经走了很远。大家可能注意到微软在之前推出过进行年龄和情感识别的工具,这些都出自于微软专注于人工智能领域的“牛津计划”。Google当然也不想落后,之前,Google也推出过一些进行预测的API产品,但性能都不是十分令人满意,而且没有涉及到图像识别方面。因此,Cloud Vision API的推出对Google来说也算是一次大的突破。
感谢董志南对本文的审校。
给InfoQ中文站投稿或者参与内容翻译工作,请邮件至[email protected]。也欢迎大家通过新浪微博(@InfoQ,@丁晓昀),微信(微信号:InfoQChina)关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入InfoQ读者交流群(已满),InfoQ读者交流群(#2))。