MLflow v0.8.1具有更快的实验UI和增强的Python模型

MLflow v0.8.1本周发布。它引入了几个UI增强功能,包括数千次运行的更快加载时间,以及在使用许多指标和参数进行导航运行时提高响应速度。此外,它扩展了对作为Apache Spark UDF评估Python模型的支持,并自动将模型依赖性捕获为Conda环境。

现在可以在[PyPI]和在线文档中使用,您可以pip install mlflow按照MLflow快速入门指南中的说明安装此新版本 。

说明链接:https://mlflow.org/docs/latest/quickstart.html

在这篇文章中,我们将详细介绍几个MLflow v0.8.1功能:

在数百或数千次运行的导航实验中,可以获得更快,响应更快的MLflow UI体验

当作为Spark UDF加载时扩展pyfunc_model的功能。这些UDF现在可以返回多个标量或字符串列。

添加了在保存模型时自动捕获Conda环境中的依赖关系的支持,确保可以在新环境中加载它们

能够从ZIP文件运行MLflow项目

更快更好的MLflow UI体验

databricks一直致力于为ML开发人员提供愉快的体验,此版本增加了对MLflow实验UI的进一步增强:

更快地显示实验:改进的MLflow UI可以快速显示数千个实验运行,包括所有相关参数和工件。训练大量模型的用户应该观察更快的响应时间。

使用交互式散点图进行更好的可视化:用于比较运行的散点图现在是交互式的,可以更深入地了解模型性能特征。

增强的Python模型作为Spark UDF

将Python模型评分为Apache Spark UDF时,用户现在可以通过从扩展的结果类型集中进行选择来过滤UDF输出。例如,指定

pyspark.sql.types.DoubleTypeUDF输出的过滤器的结果类型,并返回包含双精度标量值的第一列。指定结果类型将

pyspark.sql.types.ArrayType(DoubleType)返回包含双精度标量值的所有列。下面的示例代码演示了使用result_type参数选择结果类型。和短例如笔记本示出火花模型登录,然后装载为火花UDF。

默认情况下,pyfunc通过MLflow API调用,如生产的车型save_model()和log_model()现在包括康达环境指定所有必要在新的环境加载它们的版本依赖。例如,以下示例中训练的模型的默认Conda环境具有以下yaml表示:

channels:

  • defaults
    dependencies:
  • python=3.5.2
  • pyspark=2.4.0
    name: mlflow-env

其他功能和错误修复

除了这些功能外,此版本还包含其他一些新功能。值得注意的一些项目是:
特征

[API / CLI]支持从ZIP文件运行MLflow项目(#759,@ jmorefieldexpe)

[Python API]支持将模型conda环境作为字典传递给save_model和log_model函数(#748,@ dbczumar)

[型号]默认的Anaconda环境已被添加到许多Python模型风格中。默认情况下,save_model和log_model函数生成的模型将包含一个环境,该环境指定加载和提供模型所需的所有版本化依赖项。以前,用户必须手动指定这些环境。(#705,#707,#708,#749,@ dbczumar)

[评分]支持将模型同步部署到SageMaker(#717,@ dbczumar)

[跟踪]在跟踪Git存储库中的MLflow运行时,将Git存储库URL包含为标记(#741,@ whiletruelearn,@mateiz)

[UI]通过使用反应虚拟化表优化行渲染(#765,#762,#745,@smurching)改进了运行UI性能

[UI]渲染运行指标,标签和参数信息的显着性能改进(#764,#747,@smurching)

[UI]散点图,包括运行比较图,现在是交互式的(#737,@mateiz)

[UI]通过允许MLflow UI服务器指定客户端在发出AJAX请求时应设置的一组预期标头来扩展CSRF支持(#733,@ aarondav)

Bug修复

[Python / Scoring]生成Pandas DataFrames的 MLflow Python模型现在可以正确评估为Spark UDF。现在支持包含多列基元类型的Spark UDF输出(#719,@ tomasatdatabricks)

[Scoring]修复了一个序列化错误,该错误阻止了使用Azure ML的模型返回Pandas DataFrames(#754,@ dbczumar)

[Docs]演示如何使用MLflow REST API创建实验和日志运行信息的新示例(#750,kjahan)

[Docs] R文档已更新,清晰度和样式一致性(#683,@ stbof)

[Docs]添加了有关在Databricks上执行远程MLflow运行的用户设置要求的说明(#736,@ andyk)

可以在0.8.1更改日志中找到社区的更改和贡献的完整列表。

日志链接:https://github.com/mlflow/mlflow/blob/master/CHANGELOG.rst

阅读原文https://www.slidestalk.com/s/IntrotoMLflow2018111379680

关注示说网订阅号,获取更多精彩内容&技术交流群
MLflow v0.8.1具有更快的实验UI和增强的Python模型_第1张图片

你可能感兴趣的:(大数据)