机器学习基石-林轩田 Lecture 1:The learning problem

课程构成

  • 课程分为数学篇和方法篇,每篇都约四周的时间,每个核心问题需要约4讲时间讨论

  • 课程的规划基本如下

  • When Can Machines Learn? [何時可以使用機器學習]

    • 第一講:The Learning Problem [機器學習問題]
      第二講:Learning to Answer Yes/No [二元分類]
      第三講:Types of Learning [各式機器學習問題]
      第四講:Feasibility of Learning [機器學習的可行性] (公布作業一)
  • Why Can Machines Learn? [為什麼機器可以學習]

    • 第五講:Training versus Testing [訓練與測試]
      第六講:Theory of Generalization [舉一反三的一般化理論]
      第七講:The VC Dimension [VC 維度]
      第八講:Noise and Error [雜訊與錯誤] (公布作業二)

课程形式

  • 每讲录影课程约1小时,切割成3~5个段落,每个段落有不算分的随堂测验。
  • 每四讲两次作业,每次作业20道选择题,均为单选。
  • 1/4的作业要写代码完成

开始

课程设计

机器学习的基础面向

  • 混合着哲学、关键的理论、核心科技、练习的方法
  • 用像故事的设计来设计学习

什么是机器学习

  • 什么是学习?
    • 获得技能,从观察(observation)中累计经验
    • observations->learning->skill
  • 机器学习:
    • 获得技能,从累积数据开始得到经验。
    • data->ML->skill
  • 什么是技巧?
    • 提升了性能表现(预测准确性)
  • 什么是机器学习的技巧?
    • 通过计算数据提升性能表现。
    • data->ML->improved performance measure

识别一棵树?

  • 首先得定义一棵树:“难”。
  • 思考:我们是怎么辨认一棵树的?
    • 定义100条规则,确认这张图像符合这一百条规则,就是一棵树(×)
    • 通过大量的观察,知道这是一棵树。
    • ML:构建复杂系统的另一种途径(让机器自己辨识)

机器学习路线

机器学习情境
  • 人们无法真正了解那个场景
    • 火星上的机器人。
  • 人类无法定义这个“解”
    • 声音识别、视觉辨识
  • 人无法想到的或做到的事
    • high-frequency trading(高频投资)
  • 服务非常多的使用者
    • 消费者推荐系统

机器学习的三个关键

  • 这个问题有一个“潜在的模式”是可以被学习的
    • 有一个可以量化的“性能指标(performance measutre)”可以被提高。
  • 不知道怎么写下来
    • 知道怎么写下来就不用机器学习啦。
  • 一定要有数据
    • 没有数据的问题不可能使用机器学习。

机器学习的应用(食衣住行)

食物(Sadilek et al. 2013)

  • 让机器学习推特的数据(词汇+位置)
  • 技能:告诉餐厅的卫生状况是怎么样的?

衣服(Abu-Mostafa 2912)

  • 数据:售卖特征+顾客调查
  • 技能:给顾客一个好的时尚推荐。

住(Tsanas and Xifara, 2012)

  • 数据:房子的能源消耗
  • 技能:密切预测其他建筑物的能量负荷(predict energy load of other buildings closely)

出行(Stallkamp et al. 2012)

  • 数据:一些交通信号图像和语义。
  • 技能:准确辨别交通信号。

教育(Education)

  • 数据:从学生答题的历史记录
  • 技能:预测学生是否能给出这道题的正确答案。
  • 人类的想法:
    • 正确率≈[学生的等级>问题的难度]
    • 给出9百万条数据和3000个学生。
    • 让机器学习学习学生的程度怎么样。

娱乐推荐系统

  • 数据:多少个用户喜欢这个电影
    • 技能:预测用户是否会喜欢或不喜欢这部电影。
    • 2006年网飞的数据集竞赛
      • 100,480,507 ratings that 480,189 users gave to 17,770 movies
      • 10% improvement = 1 million dollar prize
    • 相似的竞赛Yahoo!
      • 252,800,275 ratings that 1,000,990 users gave to 624,961 songs

推荐系统(可能的ML解决方案)

  • 模式
    • 通过观众的各种因素->评分
  • 学习
    • 从rating中,反推一个人的特征是什么。
      机器学习基石-林轩田 Lecture 1:The learning problem_第1张图片

你可能感兴趣的:(机器学习基石课程)