数据分析是最后要被吸收到云中的繁琐工作之一。 也许是因为科学家天生擅长编程,因此他们喜欢在桌子上放一台机器。 也许是因为实验室设备直接连接到计算机以记录数据。 也许是因为数据集太大,以至于移动它们很费时。
无论出于何种原因,科学家和数据分析师都慢慢接受了远程计算,但是它们正在出现。 用于机器学习、人工智能和数据分析的基于云的工具正在增长。 其中一些原因引起了人们对基于云的文档编辑和电子邮件的兴趣。 团队可以从任何计算机登录中央存储库,并在偏远地区、在路上甚至在海滩上进行工作。 云处理备份和同步,简化了该组的所有工作。
但是,云更适合数据分析还有一些实际的原因。当数据集很大时,云用户可以在租来的硬件上组装大量作业,从而更快地完成工作。没有必要启动你的电脑工作,然后出去吃午饭,回来后才发现工作失败了几个小时。现在,您可以按下按钮,启动装载了大量内存的数十个云实例,并观察代码在几分钟内失败。因为现在云账单到了第二,你可以节省时间和金钱。
也有危险。 最大的是对隐私的不确定性担忧。 某些数据分析涉及来自信任您的主题的个人信息,以保护他们。 我们已经习惯了将数据锁定在实验室硬盘中所涉及的安全问题。 很难知道云中到底发生了什么。
我们需要一段时间才能适应云提供商使用的最佳实践,但是人们已经认识到,也许云提供商可以雇用比实验室角落的研究生多的安全顾问。 并不是说个人计算机可以抵抗病毒或其他后门。 如果个人计算机已连接到Internet,那么您可能会说它已经是云的一部分。
幸运的是,有一些解决方法。 最简单的方法是使用随机ID替换个人信息之类的技术来匿名化数据 。 这并不是完美的,但是它可以大大限制任何黑客在穿越云防御之后可能造成的麻烦。
还有其他有趣的优点。 小组可以向公众共享或开放源数据集,这会产生我们只能开始想象的疯狂组合。 一些云提供商正在策划自己的数据集并捐赠存储成本以吸引用户(初学者请参阅AWS , Azure , GCP和IBM )。 如果愿意,可以尝试将产品销售与天气或太阳斑或这些公共数据集中的任何其他信息相关联。 谁知道? 那里有很多奇怪的相关性 。
这里有七种不同的基于云的机器学习服务,可帮助您找到数据集中的相关性和信号。
亚马逊创建了SageMaker,以简化使用其机器学习工具的工作。 Amazon SageMaker将不同的AWS存储选项(S3、Dynamo、Redshift等)结合在一起,并将数据通过管道传输到运行流行的机器学习库(TensorFlow、MXNet、Chainer等)的Docker容器中。 在最终模型作为自己的API部署之前,可以使用Jupyter笔记本跟踪所有工作。 SageMaker将您的数据移至Amazon的计算机中,因此您可以集中精力考虑算法而不是过程。 如果要在本地运行算法,则为了简化起见,您始终可以下载Docker映像。
微软已经看到了机器学习的未来,并全面使用了Machine Learning Studio ,这是一种用于在数据中查找信号的高级图形工具。 就像AI的电子表格一样。 有一个拖放界面,用于建立流程图以使您的数字有意义。 该文档说“不需要编码”,从技术上讲这是正确的,但是您仍然需要像程序员一样思考才能有效地使用它。 您只是不会陷入结构化代码的泥潭。 但是,如果您错过语法错误,数据类型输入以及其他编程乐趣,则可以导入用Python,R或其他几个选项编写的模块。
最为有趣的选择是,Microsoft已添加了基础结构,以从AI中汲取教训,并将预测模型转变为在Azure云中运行的Web服务。 因此,您可以构建训练集,创建模型,然后只需单击几下即可从Azure服务以JSON数据包形式提供答案。
BigML是用于数据分析的混合仪表板,可以在BigML云中使用,也可以在本地安装。 主界面是一个仪表板,其中列出了所有文件,等待数十个机器学习分类器,聚类器,回归器和异常检测器进行分析。 单击并显示结果。
最近,该公司专注于新算法,这些算法增强了堆栈提供有用答案的能力。 新的Fusion代码可以集成多种算法的结果,以提高准确性。
通过订阅,在BigML自己的计算机上享受免费层级定价 。 您还可以在AWS、Azure或GCP上构建私有部署。 如果仍然太公开,他们会将其部署在您的专用服务器上。
Databricks工具集是由Apache Spark的一些开发人员构建的,这些开发人员采用了开源分析平台,并添加了一些显着的速度增强功能,并通过一些巧妙的压缩和索引增加了吞吐量。 称为Delta的混合数据存储是可以存储大量数据然后进行快速分析的地方。 当新数据到达时,可以将其折叠到旧存储中以进行快速重新分析。
来自Apache Spark的所有标准化分析例程都可以在此数据上运行,但是对Spark基础结构进行了一些急需的改进,例如用于分析代码的集成笔记本。
Databricks已与AWS和Azure集成在一起,并根据消耗量和性能定价。 每个计算引擎均以Databrick单位进行度量。 您将为更快的模型支付更多费用。
这里的许多方法都允许您在一次单击中构建一个机器学习模型。DataRobot号称能够同时构建数百个模型,而且只需单击一次鼠标。 模型制作完成后,您可以选择它们并找出哪个模型可以更好地进行预测并继续使用。 秘诀是“大规模并行处理引擎”,换句话说就是一堆机器在做分析。
DataRobot正在通过实施新算法并扩展现有算法来扩展。 该公司最近收购了Nutonian,后者的Eureqa引擎将增强自动机器学习平台创建时间序列和分类模型的能力。 该系统还为更高级的用户提供了Python API。
可通过DataRobot Cloud或嵌入式工程师随附的企业版软件获得DataRobot。
Google已对TensorFlow进行了大量投资,TensorFlow是用于在数据中查找信号的标准开源库之一,现在您可以在Google的云中试用TensorFlow。 Google 云机器学习引擎中的某些工具是开源的,对于那些愿意下载它们的人来说基本上是免费的,而某些则是Google Cloud Platform商业选项的一部分。 这使您可以自由地进行探索和避免锁定,因为许多代码是开源的,并且或多或少可以在任何Mac,Windows或Linux机器上运行。
有几个不同的部分。 最容易开始的地方可能是Colaboratory ,它将Jupyter笔记本与Google的TensorFlow后端连接起来,以便您可以草绘代码并查看其运行情况。 Google还为想要进行实验的科学家提供了TensorFlow研究云 。 在适当的时候,您可以使用GPU或TPU在Google的加速硬件上运行机器学习模型。
这个品牌的名字可能是在巨大的,隐藏的AI扮演Jeopardy时诞生的,但现在Watson涵盖了IBM在人工智能方面的许多努力。 IBM Watson Studio是用于在云或本地中浏览数据和训练模型的工具。 输入数据,输出漂亮的图表和图形,显示在仪表盘上,随时可以进入会议室。
最大的不同可能是Watson Studio的桌面版本。 您可以使用基于云的版本来研究数据,并享受弹性资源和集中式存储库附带的所有功能。 或者,您可以从防火墙的隐私和桌面的便利性中做很多事情。
虽然许多人希望为他们的所有AI研究选择一个仪表板,但没有理由您不能在这里使用更多选择。 完成所有预处理和数据清理后,您可以将相同的CSV格式的数据输入所有这些服务中,并比较结果以找到最佳选择。 其中一些服务已经提供了算法之间的自动比较。 为什么不更进一步并使用多个?
您还可以利用不断发展的一些开放标准。 例如,Jupyter笔记本通常无需过多修改即可运行。 您可以在一个平台上进行开发,然后将大量代码与数据一起移动以测试不同平台上的任何新算法或不同算法。
我们距离标准化还有很长的路要走,并且算法之间存在怪异且无法解释的差异。 不要只满足于一种算法或一种训练方法。 尝试管理尽可能多的不同建模工具。
原文链接: https://www.infoworld.com/article/3313343/7-cloud-services-to-ease-machine-learning.html