Google Cloud AutoML:真正的自动化机器学习

当您尝试为数据自动训练最佳的机器学习模型时,有AutoML或自动机器学习,然后有Google Cloud AutoML。 Google Cloud AutoML属于上述优势。

过去,我曾回顾过H2O 无人驾驶 AI , Amazon SageMaker和Azure机器学习AutoML 。 无人驾驶AI自动执行功能工程和超参数调整,并声称其性能与Kaggle主机一样好。 Amazon SageMaker支持超参数优化。 Azure机器学习AutoML自动扫过基本机器学习算法的功能,算法和超参数; 单独的Azure机器学习超参数调整工具使您可以清除现有实验的特定超参数。

这些都是不错的选择,但是Google Cloud AutoML进入了一个完全不同的水平,并为您标记的数据定制了经过谷歌测试,高精度的深度神经网络。 Google Cloud AutoML不会自动从数据中训练模型,而是从头开始,而是实现自动深度传输学习(这意味着它从对其他数据进行训练的现有深度神经网络开始)和神经体系结构搜索(意味着它找到了额外的正确组合)网络层)用于语言对翻译,自然语言分类和图像分类。

在每个领域,谷歌已经有一个或多个基于深度神经网络和大量标记数据的预训练服务。 对于未修改的数据,这些方法可能会很有效,因此您应该对其进行测试以节省时间和金钱。 如果这些服务无法满足您的需求,则Google Cloud AutoML可以帮助您创建一个可以做到的模型,而无需您知道如何执行转移学习或什至如何创建神经网络。

与从头开始训练神经网络相比,转移学习具有两个主要优点。 首先,由于网络的大多数层都已经过良好的训练,因此需要较少的数据进行训练。 其次,它运行得快得多,因为它仅优化了最终层。

Google Cloud AutoML翻译

因此,例如,您可以使用Google Cloud AutoML Translation迁移学习在一两个小时内针对1,000个两种语言的句子对进行训练。 定制的基础神经网络NMT在数百个CPU和GPU上花了数百到数千个小时从头开始为每种语言对进行训练。 请注意,目前训练定制翻译模型的每小时费用为$ 76。

《 AutoML Translation入门指南》介绍了Google Cloud AutoML Translation可以做什么的基本知识,以及使用它的原因。 本质上,它出于利基目的改进了现有的通用翻译模型。 您不需要接受Google已经支持的约一百种语言的常规翻译的任何培训,但是,如果您想为专业词汇或用法创建翻译网络,则需要进行迁移学习。 Google提到的一个例子是实时翻译对时间敏感的财务文件。 通用翻译不会总是将正确的艺术术语用于财务。

准备带有句子对的文件后,设置Google Cloud AutoML Translation的培训是一个五步过程,如以下屏幕截图所示。 我在AutoML Translation快速入门中将8,720对英语-西班牙语对用于应用程序提示,格式设置为制表符分隔值文件。 Google Cloud AutoML Translation还支持句子对基于XML的翻译记忆库eXchange(TMX)格式。

您会注意到,没有选项可以控制用于执行培训的硬件(CPU,GPU,TPU和内存)。 这是故意的:培训将使用所需的内容。 也没有任何选项可以控制要添加到模型中的神经网络层,要运行的时期数或停止条件。

Google Cloud AutoML:真正的自动化机器学习_第1张图片 

要加载用于翻译培训的数据集,您只需指定语言对,要使用的文件以及培训,验证和测试集之间的划分即可。 在这里,我允许自动拆分。

Google Cloud AutoML:真正的自动化机器学习_第2张图片 

上载句子对的数据集后,您可以查看示例。 这使您可以验证文件是否正确加载。

Google Cloud AutoML:真正的自动化机器学习_第3张图片 

在开始培训之前,您将看到正在翻译的语言以及每组中句子对数量的摘要。

Google Cloud AutoML:真正的自动化机器学习_第4张图片 

在上一页中单击“开始训练”后,您可以选择用于转移学习的基本模型,并查看训练时间的估计值。 在这里按“开始训练”,它将真正开始。

Google Cloud AutoML:真正的自动化机器学习_第5张图片 

培训开始后,您会看到此页面。 如果您不想取消培训工作,可以将其关闭。

模型训练完成后,您可以查看基本模型的BLEU得分的改进(如果一切顺利),并尝试使用模型进行预测。 这次培训耗时0.9小时(少于预期),费用为$ 68.34。

Google Cloud AutoML:真正的自动化机器学习_第6张图片 

培训完成后,单击通知电子邮件中的链接将带您到此页面。 BLEU(双语评估学习)分数代表模型的整体质量。 与基本模型相比,得分提高了12分,非常好,得分为54分,表明翻译语料库的质量非常高。

Google Cloud AutoML:真正的自动化机器学习_第7张图片 

该页面允许您通过给句子翻译来测试模型。 它显示了基础模型以及转移学习模型的结果。 请注意,在这种情况下,转移模型给出的结果是直接的,使用非正式形式“ tu”,而基本模型使用正式形式“ su”,并包含礼貌的“好感”(请)。

Google Cloud AutoML自然语言

Google自然语言API接收文本并预测实体,情感,语法和类别(来自预定义列表)。 如果您的文本分类问题不适合所有问题,则可以提供一组带标签的语句,然后使用Google Cloud AutoML自然语言创建自定义分类器。

要设置AutoML Natural Language用于培训,您需要获取数据,对其进行标记,将其准备为CSV文件并运行培训。 如果愿意,还可以使用AutoML自然语言UI上载和标记数据。

Google Cloud AutoML:真正的自动化机器学习_第8张图片 

要创建用于自然语言分类的数据集,请提供一个包含文本和标签的逗号分隔变量文件。 如果没有这样的文件,则可以将文本项和标签的创建推迟到以后。

Google Cloud AutoML:真正的自动化机器学习_第9张图片 创建数据集后,您可以在工作空间中查看它。 Google Cloud AutoML:真正的自动化机器学习_第10张图片 在训练选项卡上,您将看到每个班级的计数显示。 如果任何类别中的数字都不足够,则可以添加带标签的文本项,也可以将人口稀少的类别合并为“其他”类别。

模型训练完成后,您可以查看模型的精度,召回率和混淆矩阵。 您也可以为所需的精度/调用权衡调整分数阈值。 为了最大程度地减少误报,请优化召回率。 为了最大程度地减少误报,请优化精度。

培训耗时3.63小时(大约与预期的一样),费用为$ 10.88。

Google Cloud AutoML:真正的自动化机器学习_第11张图片 这种分类远非完美,准确率和召回率均低于90%,并且混淆矩阵中出现了严重的错误分类。 但是,阅读一些文本项很明显,并不是所有的文本项都明确地适合一个类。 Google Cloud AutoML:真正的自动化机器学习_第12张图片 您可以通过输入自己的文本并获得对该类的预测来测试模型。 对于这个特定的句子,预测是合理的。

Google Cloud AutoML Vision

Google Cloud Vision API将图像分类为数千个预定义类别,检测图像中的单个对象和面部,并查找和读取图像中包含的打印文字。 Google Cloud AutoML Vision允许您定义和训练自己的类别列表。 一些现实生活中的应用包括从无人机照片中检测风力涡轮机的损坏,并对废物进行分类。

要设置Google Cloud AutoML Vision数据集,您必须为每个类别至少获取100张图像,并将其标记为CSV文件。 所有图像和CSV文件都必须位于Google Cloud Storage存储桶中。

Google Cloud AutoML:真正的自动化机器学习_第13张图片 导入图像后,您可以查看它们并根据需要编辑类。 有关重复文件的警告反映了数据集的已知问题。 培训似乎无关紧要。 Google Cloud AutoML:真正的自动化机器学习_第14张图片 

在“训练”选项卡上,您可以看到每个班级的图像计数摘要,以及训练,验证和测试图像之间的自动划分。

Google Cloud AutoML:真正的自动化机器学习_第15张图片 

训练完成后,您可以看到模型的精度和召回率。 如果他们不足够,您可以继续培训。

我将此培训设置为最多运行一个小时,一个月最多可免费使用10个模型。 看到免费培训取得了良好的效果,我感到很惊讶,也没有为继续提高精度和召回率而继续进行培训。

Google Cloud AutoML:真正的自动化机器学习_第16张图片 

通过“评估”选项卡,您可以查看每个类别的真阳性,假阴性和假阳性的图像。 正如页面中间的注释所建议的那样,您可以通过添加与误报和误报类似的正确标记的训练图像并训练新模型来改善结果。

Google Cloud AutoML:真正的自动化机器学习_第17张图片 

在这里,我们可以查看其他类别(玫瑰)的假阴性和假阳性。 同样,您可以通过向训练集中添加正确标记的相似图像来改进模型。

Google Cloud AutoML:真正的自动化机器学习_第18张图片 

您可以在自己的图像上测试模型。 我在邻居家院子里拍摄的玫瑰的这种图像已正确预测。

Google Cloud AutoML:真正的自动化机器学习_第19张图片 

只是为了证明该模型不能预测我的所有图像都是玫瑰,我用在附近的美术馆拍摄的郁金香照片进行了测试。

Google Cloud AutoML提供了方便的选项来执行目标翻译,自定义文本分类和自定义图像分类。 如果您为它们提供足够准确的标记数据,那么每个API都可以很好地工作,并且比建立自己的神经网络模型甚至自己的迁移学习模型所需的时间和技能少得多。 使用Google Cloud AutoML,您实际上是在创建TensorFlow模型,而不必了解有关TensorFlow,Python,神经网络体系结构或培训硬件的任何知识。

有很多方法可以使数据准备工作出错,但是幸运的是,这三个API都检查最常见的错误,例如,任何类别的样本过多或过多。 训练后显示的诊断信息可以使您很好地了解模型的运行状况,并且可以通过添加更多带标签的训练数据并重新运行训练来轻松调整模型。

From: https://www.infoworld.com/article/3344596/review-google-cloud-automl-is-truly-automated-machine-learning.html

你可能感兴趣的:(Google Cloud AutoML:真正的自动化机器学习)