第四范式胡时伟:如何以产品化最快实现AI商业价值?| 硬创公开课

在实验室中开发算法难将AI研究成果带出实验室更是难上加难。怎样将AI变成产品并实现商业价值产品和技术方面有什么改进要点如何控制企业应用AI技术的成本有效的AI产品化可以怎样优化银行反欺诈体系我们可以期待一个智能的未来吗

AI已经诞生了60多年即使伴随着计算能力的突飞猛进和大数据时代的来临但AI的理论到实践之路仍不是那么好走。机器学习面临高维海量数据的现实挑战求解企业自建机器学习技术产品设计和工程优化是当前众多行业从业者苦苦探索试图翻越的“AI鸿沟”。

本次是雷锋网(公众号雷锋网)AI金融专场公开课之第三期我们有幸邀请到第四范式联合创始人、首席架构师胡时伟以及产品经理周开拓来分享他带领团队完成AI首个全流程产品的心得。

嘉宾简介

胡时伟第四范式联合创始人、首席架构师。在百度任职期间作为系统架构负责人主持了百度商业客户运营、凤巢新兴变现、“商业知心”搜索、阿拉丁生态等多个核心系统的架构设计工作作为链家网创始团队成员完成了链家网新主站、经纪人新作业系统、绩效变革系统的整体架构设计以及研发团队的建设管理。现任第四范式研发总工程师带领团队打造出国内首款人工智能全流程平台“第四范式·先知”“先知”平台2016年荣获中国智能科技最高奖——“吴文俊人工智能科学技术奖”创新奖一等奖。

第四范式胡时伟:如何以产品化最快实现AI商业价值?| 硬创公开课_第1张图片

以下是本次公开课实录雷锋网做了不改变原意的编辑

今天我们给大家分享的主题是如何以产品化的形式实现AI的商业价值主要分成3个部分第一部分是商业价值第二部分是产品化第三部分请开拓给大家讲一讲他为公有云客户提供平台化产品的经验和体会。

如何发掘AI的商业价值

谈到AI的商业价值首先谈一下AI是什么。今天教育、医疗、金融等各行各业的人都在憧憬人工智能并且尝试实践利用人工智能的技术来给行业提供价值。这里面定义很复杂今天先不讲概念首先缩小一下范围谈一下数据驱动的人工智能。

当今大多数的AI系统由两个基石组成一个是大数据一个是机器学习的技术。比如AlphaGo它的成功首先是因为吸纳了KGS的网站上30多万张棋谱——这个是AlphaGo第一波数据。此外结合深度学习和强化学习等机器学习的技术AlphaGo可以比以前基于规则或者基于浅层神经网络的对弈程序拥有更好的表现。

所以我们认为人工智能=大数据+机器学习。如果说大数据是原材料——米机器学习是工具——电饭煲那么人工智能就是白米饭。

有效AI应用的5个要素

所谓有效的AI应用指至少可以替代人去做一件事情比如下棋打游戏或者安全防护。对此我们总结了产生一个有效的AI应用的5个要素

  • 清晰的问题边界

我们对下围棋可以定义一个数字化的目标即数子或数目的胜负。而如果定义的目标是下得有艺术那就不是一个清晰的问题边界因为这些是主观化的定义。

  • 持续的外部反馈

此外也需要持续的外部反馈。只给一张棋谱是无法让机器自动下棋的需要持续的外部或者内部的系统产生反馈信号。AlphaGo自我对弈的功能就是持续地产生内部反馈。

  • 足够多的数据

如果只有反馈信号没有特征也是不可。

举例来说用AI技术识别欺诈交易那么交易相关主体的属性例如人的性别、年龄、居住地址就特别重要否则如果我们只知道某天某个卡交易了多少钱那么这些数据是不够的——因为这种情况下得到的只有反馈信号没有特征。

  • 顶尖的AI科学家强大的计算资源和计算系统

培养一个成功的AI科学家要6年到10年的时间但同时带来的价值也特别大但今天世界上顶尖的AI科学家其实并不多因为作为一个顶尖的AI科学家也要横跨很多很多不同的领域。

以银行为例AI可以做什么

下面我们通过银行的交易反欺诈来讲一下AI可以做到的事究竟是什么。

信用卡盗刷、电信诈骗等这种事情都是典型的欺诈交易。根据相关报告调查中国是信用卡欺诈以及银行卡欺诈发生最为严重的地区并且欺诈手段越来越多元化。应该这么说这个世界上最聪明的脑袋一部分在做坏事另外一部分在防止做坏事。

银行解决欺诈问题的主要方法

过去银行解决欺诈问题有4个主要的方法比较直观的方法有法规政策、信息安全技术例如借助token等通过防守和法律的方式来解决问题。

另外两个相对智能一是专家规则二是模型。

  • 专家规则

当前而言国际上做反欺诈做得最好的厂商有100多名专家每年投入数千万美元的研发成本来维护专家的规则。这些规则少则几千条多则上万条比如同一张卡短时间在两个城市交易首次取现密码错误等。通过规则来防守其有效性是毋庸置疑的但同时也存在着缺点

一方面这种方法比较依赖于专家的主观性。专家行业积累越深越有经验但是面向较新的技术时并不一定能够应付。

 

另一方面规则需要持续维护以便应对犯罪分子的变化。比如规则设定为“交易八千元以上要进行审核”或者“某个年龄点以上要进行审核”等这时犯罪分子会通过试探来找到规则的边界从而实行欺诈比如正好盗刷7999元。

 

最后一点是多种规则之间存在排斥关系规则A能解决一个问题但解决不了另外一个问题。

值得一提的是传统上也有基于神经网络的模型的解决方案然而这种神经网络是指原先基于反向传播技术的浅层神经网络由于其结构较为简单导致数据利用不充分所以多数情况下也无法提供足够多的效果。

高维模型技术全量建模

在反欺诈技术上我们和银行的合作首先做的是把以前在互联网企业做的高维模型技术移植过来然后用全量的历史交易取代采样的历史交易——利用几百G甚至上T的数据来做基础建模工作。

比如通过使用持卡人的属性、商务信息、交易通道等特征进而衍生出一定的二阶特征。举例来说持卡人的属性组合上商户的属性——即什么样的人在什么样的店里是否发生异常的行为比如一个宅男突然到了一个奢侈品店里高额消费那就有可能是盗刷行为。

根据经验越多的特征和越多特征组合可以更好地刻画客观的规律但由于人的想象空间有限在挖掘二阶特征之后对于三阶特征、四阶特征便出现了瓶颈。

这个时候我们就引入了一个新的技术——特征的自动组合和探索。依靠这个技术我们把特征的最高阶数做到了五阶甚至六阶然后把特征的维度——模型可以覆盖的情况的数量做到了数以十亿计。基于这样的高阶特征机器可以快速地学出各规则防范欺诈。

如果一个犯罪分子欺诈成功了银行就要赔付损失每个月至少增加千万级别的支出。而技术就在这个新的场景中发挥出效益这个是商业的价值。

技术分析

高维度的大规模机器学习

下面我们从技术的角度上来分析究竟是什么技术使得业务的提升成为可能。

VC维是衡量模型智能水平的关键

首先是高维度的大规模机器学习。对于用AI解决业务问题整体上来说主要是考虑用VC维的概念。

VC维度是什么学术一点来说是“Vapnik-Chervonenkis Dimension”一个由Vapnik和Chervonenkis于1960年代至1990年代建立的统计学习理论它反映了函数集的学习能力——VC维越大则模型或函数越复杂学习能力就越强。

大脑的维度大概就是大脑脑细胞的个数所以可以把VC维度理解为脑细胞维度。而机器的维度也需要更多的脑细胞才能更聪明才能学习更多的知识。机器的误差随着模型维度的提升而降低。

此外还有奥卡姆剃刀原理——如无必要勿增数据。但是这个理论其实是二三十年之前才是正确的理论今时不同往日的是今天的手机和那个年代的超级计算机差不多今天整个互联网一秒钟累积的数据也许就已经可以达到过去一年所累积的数据水平。因此今天我们有更大的数据也要有更大的利用数据的方式。

所以衡量一个模型的智能水平就是VC维越高越好。过去因为没有足够的数据所以无法做高。第四范式创始人戴文渊说过“人做事情是越简单越好机器做事情是越复杂越好。因为机器既不知疲倦而且做重复性工作的战斗力特别强。”因此从技术来角度来讲我们就要把维度提高。

  • 高维度大规模机器学习需要有算法框架的支持

维度提升之后紧接着的问题是高维度的大规模机器学习需要有算法框架的支持。

原来的系统中无论是数的算法还是回归算法或者神经网络算法一旦层数或者并行变量的数量增加以后运行会变得极其缓慢。如今深度神经网络的进步也得益于英伟达的GPU。

因为算法的效果是最终价值的关键所以这个方面必须要达到最极致的优化针对这个问题市场上有一些开源的框架。而我们自己开发了一个框架叫GDBT即通用的分布式框架。

通用型分布式框架的特点首先体现在内存全分布式也支持用硬盘的方式来训练另外具有较好的扩展性传统中比如Spark或者SparkSQL其实可以做到数据的并行但是做不到模型并行最后也是最重要的一点快。

在数据横向扩展快速的算法以及维度提升的结合下这个分布式架构可以将以前两个小时训练完一千维的效率提高到现在两个小时训练完1000万维的速度。

  • 需要有大规模的数据处理能力

大数据本身需要大规模的数据处理能力因为在模型训练之前还需要做复杂的特征工程。这一点来讲我们用spark加上一些自主开发的特征训练算法并且在spark接口上开发一些聚合函数以此使得单位的时间内可以处理更大吞吐量的数据帮助有限的计算资源获得更好的效果。

线上预估服务

  • 高性能

反欺诈中通过模型提升5到6倍的效果才完成了整个工作的30%。另外的70%就是把该技术用到生产上。用到生产上就要有高性能。

银行业和互联网行业很不一样。互联网行业比如在百度搜索一天的搜索请求普遍超过十亿甚至20亿次而银行业的交易数据即便在当前的互联网支付时代也没有那么多但其特点是会要求比如在二十毫秒之内把整个流程处理完并且准确度保证在99.9%以上。也就是说稳定性是特别重要的问题。

而在高性能角度来讲我们做了如下几件事情

第一个是特征库就是常说的实时变量计算。比如机器学习最后做出来的特征集里包含历史上“某个人曾经去过的5个地点”一类特征那么就要在线上建立实时数据库以便让机器能够取到历史上的5次甚至是更多——比如最多可能要取到1000条历史行为数据。

 

第二个是模型库。原先无论是数模型、线性模型都相对简单一两千个变量甚至都可以在代码文件里直接去读取 if else。

 

但如今模型的维度上升至1000万甚至上亿十几亿我们就要将其储存于分布式的存储。这当中也要用到很多技术比如模型的特点是一次性地就把整个模型读取进来当然大家就想用hashtable在hashtable上也可以进行大量的数据结构优化以便总体提升性能。

有了这种高性能的线上预估服务我们才能满足反欺诈一类极其苛刻的业务需求。

  • 高可用

还有一点就是高可用。“高可用”实现起来有比较明确的做法因为银行也是基于交易所以有自动切换或者说分片、副本等的技术。

第四范式胡时伟:如何以产品化最快实现AI商业价值?| 硬创公开课_第2张图片

利用Master-Agent结构它可以自动完成高可用的机制不需要再手动写代码。从中我们可以看到离线的数据模型发布到模型仓库后可以在线地把模型拉上来包括分片以及内存的数据库。

产品化复制AI研发能力

技术问题解决之后我们又面临一个很大的问题是复制。下面是我们这两年内在各个领域里面的尝试和实践

第四范式胡时伟:如何以产品化最快实现AI商业价值?| 硬创公开课_第3张图片

到底需要多少人才能完成如此多的业务其实我们用的人很少特别是数据科学家。我们有一些特别的做法可以增强人的能力降低其他人的进入门槛——我们把它叫做产品化。

产品化最核心的思路是把A的能力固化下来让它被更广泛的人群所用。一开始A能做的事情我们想办法让B也能做B有可能是比较擅长业务但是不一定擅长深入的技术。

第四范式胡时伟:如何以产品化最快实现AI商业价值?| 硬创公开课_第4张图片

第四范式胡时伟:如何以产品化最快实现AI商业价值?| 硬创公开课_第5张图片

另外一个产品化的诉求和目标是让这个能力用起来更舒服。

先知的组成部分

产品化的基础下我们可以调整机器学习科学家的工作让整个过程形成指数级的放大关系。第四范式产品化的平台叫做“先知”有3个组成部分

第一个叫调研平台调研平台是一个纯粹向下的过程可以认为是做一个建模的过程。因为我们要用AI去预测一个业务就要做一个模型包括刚刚讲的反欺诈模型。

 

第二个过程是自学习平台。反欺诈模型每天都会有新的数据、新的欺诈场景反馈回来这些新的欺诈场景和内容在打上数据的标记后我们需要更新模型。更新模型就用历史的数据再训练一遍。所以自学习平台就是如果能够做一套系统每天用调研人员做出来的套路固定地把数据变成新的模型参数文件。

 

最后是预估平台。我们已经有了一个模型预估平台要解决两个问题用什么数据去预估因为数据在线上和线下可能并不一致要做大量的转换第二是是数据进来以后如何把数据转化成一个分数。

第四范式胡时伟:如何以产品化最快实现AI商业价值?| 硬创公开课_第6张图片

自动机器学习

里面的技术难点在哪里呢第一是自动机器学习。在这样一个界面中如何保证最终模型的效果

第四范式胡时伟:如何以产品化最快实现AI商业价值?| 硬创公开课_第7张图片

正常来讲一个非机器学习或者人工智能数据挖掘专业博士的人并不懂那些理论但是上图中的结构是可以做出来。如何做得比别人好其中包含以下几项技术

  • 第一是自动调参。从技术上来讲第一个部分就是我们如何能在尽可能少的迭代次数之下获得一个较优的解这是成本和收益的关系。

  • 第二是自动特征工程。什么样的算法相对能够更多地代替人的工作反欺诈中传统的方式上我们需要分别对用户和商户刻画画像这已经是两个模型。假如有了高适应性的算法对于既可以用线性数据也可以用离散数据的情况就用连续值和离散值同时训练的算法降低门槛。

  • 第三是高适应性算法比如线性分型、嵌入式的高维模型。

  • 第四是性能的优化和实际性能参数。自动调参和自动特征工程本质上是一个搜索的过程。但我们不能穷举所以需要智能的算法研究如何能尽可能地减少次数。

预估服务自动构建

我们现在给客户提供服务只要建模人员建出来的模型上线过程在web上面一键就可以点出来这个事情是如何做到的呢

  • 线上线下有一致性

线上线下的一致性是指线下怎么处理一个字段线上就要怎么一起取线下用什么样的算法训练线上就要用什么样的算法预估。这个一致性是通过对代码进行控制的。

  • 线上自动实时拼表

即特征预处理和转换过程的线上版本自动生成。举例来说线下要统计过去一个月的最高消费数值是可以用一个circle解决但由于线上的数据是不停积累的我们就需要一个自动转换的线上版本简称线上自动实时拼表。

  • 自动发布

正在提供服务的模型怎么能够一键无缝替换模型怎么做访问请求迁移还有一点是发布。现在发布的每个单元其实要放在容器里才能做到资源和运行环境的隔离。

  • 基于算子的自学习架构

自学习的架构来讲分成3个部分

  • 数据的自动引入。

  • 整个训练过程的知识增量学习——因为一方面是学习代价的问题另外一方面其实还有很多模型是要求有稳定性。

  • 调度机制比如如何产生新的模型如何判断新的模型。

所以还需要一个架构就是计算机和自学架构。

第四范式胡时伟:如何以产品化最快实现AI商业价值?| 硬创公开课_第8张图片

这张图是调研平台、自学习平台、预估平台的整个生命周期流程先知平台必须要做到全生命周期才能真正给人像拥有钢铁侠能力的一种装备。基于这整个系统的外延的完整边界我们就可以在上面产生基于AI的应用并且能够尽可能地降低成本。成本降低了无论是速度还是效率都能够得到提升。

对于先知平台的演示请看视频大概在40:00开始


雷锋网公开课视频实录



本文作者温晓桦

本文转自雷锋网禁止二次转载原文链接

你可能感兴趣的:(第四范式胡时伟:如何以产品化最快实现AI商业价值?| 硬创公开课)