机器学习实战笔记(一)

Section 1 分类

监督学习:从输入模型中预测合适的模型,从中计算出目标变量。必须知道预测什么,即目标变量的分类信息。
目标变量分为标称型和数值型两类,在第一部分分类当中研究标称型的目标变量。

1. 机器学习基础

1.1 何谓机器学习

  • 简单来说,机器学习就是把无序的数据来转化为有用的信息。
  • 例子:专家系统。
    测量所有可测属性(特征),然后从中挑选出重要部分。
    算法训练,学习如何分类。输入大量已分类样本作为算法的训练集
  • 为了测试机器学习算法的效果,通常使用两套独立的样本集:训练集和测试集。用后者来计算算法的计算精度。
  • 知识表示

1.3 机器学习的任务

1.4 选择合适的算法

需要考虑:

  1. 使用机器学习算法的目的。预测目标变量的值,选择监督学习算法;进一步考虑如何目标变量类型,如果是离散型,选择分类器算法,如果是连续型,选择回归算法。否则,选择无监督学习算法,进一步分析是否将数据划分为离散的组,如果是选择聚类算法,如果还需求估计数据与每个分组的相似程度,选择密度估计算法。
  2. 需要分析和收集的数据是什么。数据是离散性还是连续型;是否存在缺失值和异常值等等。

不存在最好的算法,需要反复试错。

1.4 机器学习算法的步骤

  1. 收集数据
  2. 准备输入数据。即处理数据的格式以及数据类型。
  3. 分析输入数据。目的是确保数据集中没有垃圾数据,检验数据集中是否存在空值和异常值,如果存在,需要采用方法及进行处理。检验的方法最简单的就是打开数据文件进行观察,可以采用简单图形化的形式比较直观的观察,也可以借助python中的库来进行检查。
  4. 训练算法。如果使用无监督学习算法,则跳过该步。
  5. 测试算法。如果不满意算法的输出结果,那么跳回第四步,进行改正和重新测试;也有可能是数据的准备出现问题,那么跳回第一步重新收集数据。

2. k-近邻算法

2.1 k-近邻算法概述

  1. k-近邻算法采用测量不同特征值之间的距离方法进行分类。
  2. 优点在于精度高、对于异常值不敏感、无数据假定输入。缺点在于计算复杂度和空间复杂度高。适用于数值型和标称型。

5. Logistic回归

主要思想是根据现有数据对于分类边界线建立回归公式,并以此进行分类。

5.1 基于Logistic回归以及Sigmoid函数的分类

  • 为了处理瞬间跳跃过程,引入sigmoid函数。
  • 为了实现Logistic回归分类器,在每个特征上乘以回归系数相加代入sigmoid函数,得到0-1之间的值,小于0.5被分入0类,大于0.5被分入1类。

5.2 基于最优化算法的最佳回归系数确定

sigmod函数的输入: z = w T x z=w^Tx z=wTx
/

你可能感兴趣的:(Python,机器学习)