Amazon Web服务开展机器学习服务

Amazon Web服务最近启动了一项机器学习的服务,使用户可以在云端学习预测模型了。主流云服务供应商中的Google和微软分别推出了预测API和Azure机器学习的项目,Amazon在最近也紧随其后开展了类似的服务。

该服务目前提供的学习模型与应用于许多大规模学习应用的模型相似,而且可以可视化地呈现出学习模型的基础数据统计和性能预测,但是在弹性、数据导入导出、自动模型参数调优等方面仍然有一些限制。

在过去几年中,陆续涌现出许多帮助简化数据分析工作的服务和产品。其中一些为用户屏蔽了绝大多数复杂的功能,以力图精简,而另一些则极力为专家用户提供一套更加完备的数据解析工具集。

Amazon所提供的属于第一类服务。这套服务只处理预测问题,目前其应用的学习算法我们尚不得知,但是它提供的功能与vowpal wabbit极为相似,VW是Jon Langford基于随机梯度下降算法开发的快速机器学习算法。这个算法通过将数据有序地输入模型,并基于观察到的测量误差来自我调节,本质上来说,这个算法难以并行化运行,但它极为高效,并且消耗的内存极为有限。因此,许多大规模应用都采用了这个算法(用于像Google广告点击预测这样的业务中)。

此外,Amazon机器学习服务可以为每个功能的训练数据计算基本统计信息,将学习模型的性能预测数据可视化。这两个功能允许用户检查数据并更好地理解习得的预测模型。最后,服务中还有一些进行简单数据转换的基本功能,例如提取功能,或者把文本数据转为n-gram的表现形式。

当然,Amazon还规定了一些限制条款。所有数据必须驻留在Amazon S3存储服务或Redshift数据库中,整个过程不能导入和导出学习模型。如果你需要为模型添加自动训练功能,或者通过并行地评估诸多模型变量来调整模型参数,那么很抱歉,尽管这些功能非常有价值,但是Amazon服务不支持这些功能。

第一手的评论指出,该系统的性能与在本地使用笔记本运行类似vowpal wabbit这样的工具相比略有不足。

Google于2010年启动了预测API服务,它提供的同样是精简过的机器学习服务。它只解决预测问题,不处理那些更复杂的问题,比如推荐或无监督学习方法(类似聚类)。操作接口基本上只允许你上传数据,进行训练,评估模型,以及用存储模型来计算预测。

与之相反,微软的Azure机器学习项目提供了更加丰富的接口,面向更专业的用户群。它公开了所使用的各种学习算法,用户可以构建更加复杂的功能转换管道,甚至可以结合R语言脚本来用。这里有PredictionIO以及GraphLab Create两个示例。

Apache Spark同样开发了一个机器学习库,举个例子,其可以用于在云端通过databricks云来执行复杂的可伸缩数据分析。

查看英文原文:Amazon Web Services launches Machine Learning Service

感谢夏雪对本文的审校。

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至[email protected]。也欢迎大家通过新浪微博(@InfoQ,@丁晓昀),微信(微信号:InfoQChina)关注我们,并与我们的编辑和其他读者朋友交流。

你可能感兴趣的:(Amazon Web服务开展机器学习服务)