白话大模型③ | 我们为何需要机器学习运营平台？

白话大模型系列共六篇文章，将通俗易懂的解读大模型相关的专业术语。本文为第三篇：我们为何需要机器学习运营平台？

作者：星环科技人工智能产品部

在人工智能、尤其是其机器学习子领域里，“没有免费的午餐”（No Free Lunch Theorem）效应也很显著，简单的说：

1.减少了人工去做各类特征提取（比如测量人的瞳距），就需要大量“不同”的数据，来训练模型，得到“映射关系”，至于“什么是不同，怎么不同，要的量多少，现实中这种不同很少，能不能合成或生成？”，都是必需要考虑的，技术方案不同造成的优劣差距极大。

2.比较难达到“一个模型适应所有场景”的状态，比如即便在“人脸识别”技术发展到如此高度的今天，在 2020 年初，原本好用的手机人脸解锁，面对带口罩的人脸，也是无能为力的，不得不重复刚才映射关系步骤来提升能力。那么，在人工智能领域“头疼医头脚疼医脚”的打补丁做落地可以么？短期可以，长期不可以。

•实验性质或概念验证性质，可以，比如说，我们需要一个“人脸识别”小工具，我们可以采集一些数据，训练一个模型，然后使用；

•投入市场长期运营的产品，不可以。需求、数据、环境在不断扩大、变化，以机器学习和神经网络这类“数据驱动”的人工智能的运行逻辑，导致每次更新（更新大小并不是人认知的模糊的大小，而是机器能处理的数量化后的大小），都需要重新训练模型，重新采集数据，重新标注数据，重新建立模型，重新验证模型，重新上线，这个过程重来一遍是非常耗时耗力的；

•事实上，绝大部份企业里面，存在大量的智能化应用，不单单是一个“人脸闸机”这么一个，于是更加不能零散管理。一个不恰当的比喻，现代企业很多软件、数据的搭建，就类似一个小城市的规划建设，而不是一个房子的建设，这个时候，我们需要的是一个城市规划师和一整套环卫、治安、电力、医疗等班底，而不是一个临时小楼的包工头的草台班子。于是，为了满足消费者（或者企业用户）不断变化和增长的需求，才有了市场才对“智能数据分析平台”这样的软件有需求（我们下节会描述“数据分析”是什么）：

要能处理和管理刚才建立映射用的图像样本（即：“数据”）；要能建立和管理上面从图像到向量“映射”（即：模型或“算法”）；要能管理和调度图到向量，以及图查图耗费的计算资源（即：“算力”）。这些都是“智能数据分析平台”需要做的事情。

如同城市管理假设有管理中心，为了保障智能软件的长期平稳运行，也要有一个指挥、监控、运维中心：

•要能统一的管理、监控“数据”、“模型”、“算力”的存储、管理、调度、使用

•要能统一根据新问题、新需求，改进“映射”（即：“模型持续提升”）

•要能统一解释“映射”和效果之间的关系：如是否符合常识、是否法律法范、是否公平公正。这个中心，就被称作“智能数据分析平台运营平台”（或者符合国际惯例：“机器学习运营平台”， Machine Learning Ops Platform, i.e. MLOps platorm），特质就是“六个统一”。

不管是否是“大模型”厂商，只要致力于“将模型从实验室和原型验证推向真正生产实践”，都需要这样的平台。比如 2022 年以来最成功大模型供应商 OpenAI，在其官网的最佳实践中，就明确写了 MLOps 的重要性，与我们上面的描述几乎如初一辙（但“大模型”要求更高）。

白话大模型③ | 我们为何需要机器学习运营平台？

你可能感兴趣的:(数据库)