涂威威:第四范式经验与思考分享

从图灵测试说起

  • 目标判断机器是否表现出与人等价或 无法区分的智能 
  • 两个基本问题 

   充分性通过图灵测试就是智能 

   必要性通过图灵测试才是智能 

  • • 两个著名变种 

    Feigenbaum test 

    Nicholas Negroponte Test

涂威威:第四范式经验与思考分享_第1张图片

“人工” 智能发展历史

人工智能的发展经历了三个阶段

涂威威:第四范式经验与思考分享_第2张图片

机器学习的经典定义

  • 利用经验改善系统性能 
  • 经验 数据 
  • 机器学习被广泛应用 
  • 搜索与推荐 
  • 生物特征识别 
  • 自动驾驶 
  • 军事决策助手DARPA 

机器学习的成功应用和成本

涂威威:第四范式经验与思考分享_第3张图片

除AlphaGo之外还有大家所熟悉的广告系统整个智能广告上线后对收入有很大的提升但在获得提升的同时会付出高昂的成本。

涂威威:第四范式经验与思考分享_第4张图片

典型的机器学习过程

机器学习专家去定义一个问题通过定义这个问题从实际的应用中收集像样的数据做一些特征工程然后做一些模型训练最后做模型评估。中间的过程会是反反复复的。

涂威威:第四范式经验与思考分享_第5张图片

机器学习的效果门槛

  •  建模门槛 

   数据门槛 

   特征门槛 

   算法门槛 

  • 模型应用门槛 

  适应性门槛 

  信任门槛 

  数据安全和隐私门槛

建模门槛实际应用中数据和维度的趋势

  • 有效数据的增长 

  数据量???????~????

  • 数据维度的增长 

  宏观维度???→微观维度????~????

涂威威:第四范式经验与思考分享_第6张图片

建模门槛机器学习模型的趋势

机器学习模型在工业应用中的四个象限

涂威威:第四范式经验与思考分享_第7张图片

建模门槛没有免费的午餐 

  • No Free Lunch定理[Wolpert and Macready 1997]
  • 任意两个算法?1和?2 ෍ ??(?? ?|?,?,?1)=෍ ??(?? ?|?,?,?2)  
  • 任意算法包括随机算法在所有问题上的期望性能一样  
  • 不存在通用算法  
  • 但在具体的实际问题上有可能存在比其他算法好的算法  
  • 需要针对不同的实际问题研究开发不同的机器学习算法

适应性门槛面对开放世界

  • 数据分布变化  

  迁移学习  

  Importance Sampling  

  • 与环境交互、新训练样本  

  强化学习  

  • 新训练目标  

  迁移学习  

  • 样本属性含义变化

涂威威:第四范式经验与思考分享_第8张图片

降低适应性门槛鲁棒机器学习

  • 训练阶段  

  对噪声数据的鲁棒性  

  • 应用阶段  

  模型对未知样本的鲁棒性  

   置信度估计  

  对关键性高风险应用的鲁棒性  

   增加数据、Safe Machine Learning算法

信任门槛黑箱模型

  • 比如医疗应用只给出诊断不给出原因无法给出治疗方案  
  • 可解释机器学习  

  Twice Learning [Zhou,2004]  

   LIME [Ribeiro, 2016] 

   Influence Functions Interpretation[Pang Wei Koh, 2017]

涂威威:第四范式经验与思考分享_第9张图片

数据安全和隐私门槛

  • 保护用户隐私同时保持数据的有效性  
  • 解决方案  

    保留数据隐私的机器学习方法  

    Differential Privacy  

  • 模型交易取代数据交易

涂威威:第四范式经验与思考分享_第10张图片

机器学习应用的成本----计算成本

降低计算成本计算效率优化

怎么对计算效率进行优化分为四个点

  • 计算  
  • 存储  
  • 通讯  
  • 容错

分布式并行计算

  • 摩尔定律失效 
  • 能耗墙Power Wall 
  • 延迟墙Latency Wall 
  • 单机能力有限 
  • IO、存储、计算有限 
  • 目前提升计算能力的主流方式 
  • 并行化降低执行延迟提升吞吐 
  • 但是Amdahl定律

涂威威:第四范式经验与思考分享_第11张图片

分布式并行模型训练

  • 数据分布式和模型分布式

涂威威:第四范式经验与思考分享_第12张图片

典型计算模型数据流

涂威威:第四范式经验与思考分享_第13张图片

典型计算模型参数服务器

涂威威:第四范式经验与思考分享_第14张图片

趋势数据流 + 参数服务器

涂威威:第四范式经验与思考分享_第15张图片

其他计算效率优化

  • 计算  

   • 异构计算优化  

   • 异步合理地计算调度  

  • 存储  

   • 不同存储设备共存Hard Disk / SSD / NVMe /    • RAM / L2 Cache…  

    • 多级缓存  

  • 通讯  

   • 提升网络吞吐、降低网络延迟  

    • 软件请求合并、缓存  

    • 硬件多网卡、InfiniBand…  

  • 灾备  
   • Data Lineage VS. Checkpointing

涂威威:第四范式经验与思考分享_第16张图片

机器学习应用的成本-----专家成本

降低编程门槛机器学习平台

涂威威:第四范式经验与思考分享_第17张图片

降低专业门槛从“人工”智能到机器智能

涂威威:第四范式经验与思考分享_第18张图片

自动机器学习AUTOML

  • 自动数据清洗  
  • 自动数据类型推断  
  • 自动特征工程  
  • 自动模型和参数选择  

自动组合特征

  • 自动化特征组合FeatureGo  
  • 问题空间22?  

    •?=20,10315652  

     •AlphaGo空间10171

涂威威:第四范式经验与思考分享_第19张图片

自动时序特征

涂威威:第四范式经验与思考分享_第20张图片

自动模型和超参数选择

  • Bayes方法  
  • 演化计算方法  
  • 迁移学习方法

涂威威:第四范式经验与思考分享_第21张图片

自动模型和参数选择工程优化

涂威威:第四范式经验与思考分享_第22张图片

机器学习应用的成本-----数据成本

降低数据成本学件、迁移学习

  • 学件 = 模型 Model + 规约 Specification  

   •可重用  

   •可演进  

   •可了解  

  • 迁移学习[Pan & Yang, TKDE 2010]  

   •特征迁移  

   •样本迁移  

   •强化迁移学习  

   •终生学习

涂威威:第四范式经验与思考分享_第23张图片

  • AI在工业界有了很多成功的应用  
  • AI for Everyone  
  • 效果  
  • 维复杂模型  
  • 强化学习  
  • 鲁棒机器学习  
  • 可解释机器学习  
  • 成本  
  • 降低专家成本AutoML  
  • 降低计算成本计算效率优化  
  • 降低数据成本学件、迁移学习


原文发布时间为2017-11-29
本文作者涂威威
本文来自云栖社区合作伙伴“中生代技术”了解相关信息可以关注“ 中生代技术 ”微信公众号


你可能感兴趣的:(涂威威:第四范式经验与思考分享)