【机器学习(1)】基本概念、监督学习与非监督学习、分类与回归和模型评估

机器学习是什么

数据 ————> > 经验、规律 ————> > 预测、判断(由数据总结出经验和规律并应用于预测和判断)
【机器学习(1)】基本概念、监督学习与非监督学习、分类与回归和模型评估_第1张图片

机器学习基本术语

数据集 特征(自变量) + 标签(因变量)
Y:标签(label) 也可以叫因变量,希望预测及解释的核心变量
X:特征(features) 也叫自变量,反映事物或对象的某方面的表现性质
样本(sample) 数据集中关于事物或者对象的每一条记录
模型(model) 规律和经验
学习(learning) 从数据中总结规律的过程
训练集(training data set) 模型学习的教材
验证集(testing data set) 检验模型的考试题
误差(error) 衡量模型准确性的指标

比如下图中,左侧就是特征(自变量),右侧即为标签(因变量)
【机器学习(1)】基本概念、监督学习与非监督学习、分类与回归和模型评估_第2张图片

监督学习与非监督学习

1)监督学习里面的监督指的是什么?
        监督(supervision):指的就是前面提到的Y

2)监督学习:在因变量或标签(Y)监督下的学习过程
        目标:在数据集中寻找自变量(X)与因变量(Y)之间的关系
        核心特征:数据集中有因变量或者标签(Y)

3) 监督学习的应用:
a. 房价预测
        自变量:面积、房价等房屋属性
        因变量:房屋价格
【机器学习(1)】基本概念、监督学习与非监督学习、分类与回归和模型评估_第3张图片
b. 图像识别
        自变量:原始图像像素
        因变量:图像中物体的标签
【机器学习(1)】基本概念、监督学习与非监督学习、分类与回归和模型评估_第4张图片
c. 银行信用评估
        自变量:客户的信用行为
        因变量:该客户是否存在信用风险
【机器学习(1)】基本概念、监督学习与非监督学习、分类与回归和模型评估_第5张图片
d. 语义识别
        自变量:文本
        因变量:文本含义
【机器学习(1)】基本概念、监督学习与非监督学习、分类与回归和模型评估_第6张图片
4)非监督学习:不存在因变量或标签(Y)监督下的学习过程
        目标:在数据集中挖掘有价值的或有趣的信息或结构
        核心特征:数据集中没有因变量或者标签

5) 监督学习的应用:
a. App客群的分类
        数据:App客户上线行为数据
        目标:使用聚类算法对客户进行分类
【机器学习(1)】基本概念、监督学习与非监督学习、分类与回归和模型评估_第7张图片
b. 词向量转换
        数据:文本数据
        目标:将文本转换为词向量
【机器学习(1)】基本概念、监督学习与非监督学习、分类与回归和模型评估_第8张图片

分类问题与回归问题

分类问题:因变量(Y)为离散的标签变量
回归问题:因变量(Y)为连续的标签变量

1) 分类问题和回归问题是监督学习还是非监督学习?
因为两者都是含有因变量(Y)的,所以是属于监督学习

2)场景划分
比如之前的房价的预测(属于回归问题,价格是属于连续的,但是如果把房价按照区间进行划分,就是一个分类问题)
猫狗识别的问题,属于分类的问题

如何评价一个学生成绩的好坏?

1) 设定评价的指标

假设按照三个指标
        上课、做作业:正确率;
        期末考试:分数(正确率);
        高考:分数(正确率)

2)个体评价
        上课、做作业:99%;
        期末考试:95%;
        高考:90%
这时候我们可以评价这个同学的成绩比较好

模型的预测能力如何判定?

1)设定评价的指标
回归问题 为例:
模型f(x)在数据集上的均方差(MSE)越小,则说明模型在数据集N上表现的就越好
【机器学习(1)】基本概念、监督学习与非监督学习、分类与回归和模型评估_第9张图片
2)模型评估过程
        上课、做作业:模型训练;
        期末考试:模型验证;
        高考:模型应用

3)如何评价模型好坏
        训练集(教材教辅):训练模型的数据集
        验证集(模拟考卷):测试机器学习模型泛化能力(举一反三)的数据集
        应用数据(高考):模型实际应用场景的特征集

比如依据上面的个体评价中的结果可以认定这个模型是个好模型

过拟合和欠拟合

【机器学习(1)】基本概念、监督学习与非监督学习、分类与回归和模型评估_第10张图片
结合上面的举例来看:

        欠拟合是指:作业做不好、考试考不好、高考直接完蛋
        过拟合是指:作业做得很完美(只会背)、考试成绩却不高、举一反三的能力差

你可能感兴趣的:(机器学习)