机器学习 笔记

本文试图用一个简单的案例来描述机器学习的各种术语。个人认为机器学习入门未必有多难,但这些术语常令人不明觉厉,也让人望而却步。

案例一:某程序能够根据人员信息计算该人的信用等级。该程序根据已有的100万个申请记录【年龄、性别、年收入 、学历 、房产、 信用级别】进行复杂的数学运算,得出一套运算规则,该规则对【年龄、性别、年收入 、学历 、房产】这些数据项进行加权计算,形成分数,并根据分数得出信用级别【不合格、银卡、金卡】。有了这套规则,只需要输入某用户的相应信息,就能知道是否可以办理信用卡了。

  • 100万个申请记录被称为样本(或训练样本,或训练集,或样本集)
  • 年龄(或性别、学历等)这些数据项被称为样本的特征(或样本的属性)
  • 年龄、性别、年收入 、学历 、房产等多个特征放在一起称为特征向量
  • 得分高60分为合格,60被称为阈值
  • 年收入是数值型变量,而性别是标称型变量(也就是枚举变量,叫枚举不好听吗?为什么搞出那么多新名词?)
  • 信用级别被称为目标变量(预测结果)。目标变量如果是标称型变量也被称为类别,因为这套算法的主要内容就是分类(或模式识别)(判断人属于哪一类)。目标变量如果是数值型变量,这样的案例被称为回归
  • 规则形成后,还需要准备1万条测试数据,用于测试这套规则是否准确(实际上,不可能100%准确,所以要得到的是精确度)
  • 算法精确度已经满足要求后,常常还需要用人类的语言描述计算过程,例如有房产+10分,本科+5分,硕士+8分等等。用人类的语言描述计算过程叫做知识表示,有些知识表示是规则集,有些是概率分布,有些则很难用人类语言来描述。
  • 这套规则可以称为信用评估专家,它能像一个经验丰富的专家一样做出准确的判断,所以机器学习的软件被称为专家系统
  • 案例有很明确的目标(本例的目标是计算信用级别),这样的案例属于监督学习。某些案例没有明确的计算目标(例如 ...待补充),则被称为非监督学习
  • 这套程序就是机器学习程序,其中对100万个申请记录的分析过程也被称为训练

案例二:鸟类学家在各地安装了一万个喂食器,并通过传感器采集下表所示信息(大约1万条),再用机器学习程序自动确定鸟的种属。请根据上述知识,脑补一下在本例中什么是样本、特征、类别以及本例属于哪类机器学习?

序号 体重(克) 翼展(厘米) 脚蹼 后背颜色 种属
1 1000.1 125.0 棕色 红尾鵟
2 3000.7 200.0 灰色 鹭鹰
3 3300.0 220.3 灰色 鹭鹰
4 4100.0 136.0 黑色 普通潜鸟

案例一描述并不准确,形成运算规则并不一定要采用加权计算的方式,事实上,针对不目的问题需要采用不同的算法:

  • 监督学习
    • 分类
      • 分类器算法(待补充)
    • 回归
      • 回归算法(待补充)
  • 非监督学习
    • 聚类算法
    • 密度估计算法

待补充......

你可能感兴趣的:(机器学习)