机器学习实战——机器学习基础

引言

  • 机器学习:利用计算机彰显数据背后的真实含义
  • 机器学习无处不在

何谓机器学习

  • 把无序的数据转换成有用的信息
  • 使用统计学工具,解决现实中无法建立精确数学模型的问题

常见术语

  • 专家系统
  • 特征(属性)
  • 实例
  • 分类
  • 训练集
  • 目标变量
  • 类别
  • 测试数据
  • 知识表示
  • 回归:主要预测数值型数据
  • 聚类
  • 密度估计

监督学习

  • 回归和分类都术语监督学习
  • 这类算法必须知道预测什么,即目标变量的分类信息

无监督学习

  • 数据没有类别信息,不给定目标值
  • 在无监督学习中,将数据集合分成由类似的对象组成的多个类的过程称为__聚类__;将寻找描述数据统计值的过程称为__密度估计__
  • 无监督学习可以减少数据特征的维度,便于使用二维或三维图形直观展示数据信息

执行分类、回归、聚类、密度估计的机器学习算法

监督学习的用途 Supervised Learning
k-近邻算法 线性回归
朴素贝叶斯算法 局部加权线性回归
支持向量机 Ridge回归
决策树 Lasso最小回归系数估计
无监督学习的用用途 Unsupervised Learning
K-均值 最大期望算法
DBSCAN Parzen窗设计

如何选择算法:一般的步骤,并非一成不变的

第一步:考虑使用机器学习算法的目的

  • 预测目标变量的值?监督学习算法:无监督学习算法
  • 监督学习算法:
  • 判定目标变量类型:离散型(分类算法)、连续型(回归算法)
  • 无监督学习算法:
  • 是否分为离散组?聚类算法:(估计数据与每个分组的相似程度)密度估计算法

第二步:考虑数据问题

  • 特征值失离散类型?连续型?
  • 特征值中是否存在缺失的值?何种原因导致?
  • 某个特征的频率等

开发机器学习应用程序的步骤

收集数据

  • 可以使用爬虫获取
  • 使用公共的数据源

准备输入数据

  • 保证数据格式符合要求

分析输入数据

  • 目的:确保数据集中没有垃圾数据

训练算法

  • 和上一步是机器学习算法核心
  • 抽取数据中的知识或信息
  • 如果是无监督学习,则不需要训练算法,因为不存在所谓的目标变量

测试算法

  • 测试算法的工作效果
  • 监督学习:
  • 评估算法的目标变量值

  • 无监督算法:
  • 使用其他评测手段来检验算法的成功率

使用算法

  • 将机器学习算法转换成应用程序,解决实际问题

你可能感兴趣的:(机器学习实战——机器学习基础)