基于人工智能,现代数据基础架构的新兴架构

作者

Matt Bornstein、Jennifer Li和Martin Casado

摘要

现代机器学习基础设施2.0新架构: http://bit.ly/3AVBpV6 这个图概括了机器学习基础设施2.0的主要组成部分。它涵盖了从数据转换到模型集成的全过程。每个阶段的具体工具和技术也在括号中列出。

基于人工智能,现代数据基础架构的新兴架构_第1张图片

结构解读

以下是对这个图的大致解读:

1、数据转换:这是机器学习的第一步,涉及对原始数据的预处理和标注。这个阶段使用的工具包括Snorkel和Sagemaker等。

2、模型训练和开发:这个阶段涉及到模型诊断和扩展。使用的工具包括Nucleus和Aquarium。

3、模型推理:这个阶段涉及到模型的实际应用。它可能会使用各种预训练模型库,如Hugging Face和ModelZoo,以及一些机器学习框架,如Scikit-learn、XGBoost和MLlib等。

4、集成:这个阶段包括将模型集成到实际应用中,可能需要使用各种应用框架,如Flask、Streamlit和Rasa等。

基础设施组件

此外,这个图还提到了一些其他关键的机器学习基础设施组件,包括:

•数据源:原始数据的来源。

•工作流管理器:用于协调和管理机器学习工作流的工具,如Airflow、Prefect、Pachyderm等。

•查询引擎:用于查询和处理数据的工具,如Presto和Hive等。

•特征存储和服务器:用于存储和管理机器学习模型所需特征的工具,如Tecton、Feast和Databricks等。

•低代码机器学习:一些提供简单用户界面的工具,使非专业人员也能进行机器学习,如AutoML、H2O等。

最后,图中还提到了一些与监控、审计、实验跟踪和分布式处理等相关的工具。这些都是机器学习基础设施的重要组成部分。

原文:现代数据基础架构的新兴架构 |安德森·霍洛维茨

你可能感兴趣的:(人工智能,人工智能,架构)