监督学习、无监督、半监督学习;训练数据集和测试数据集

训练数据集&测试数据集:

训练数据集与测试数据集切分(train test split),将原始数据的80%作为训练数据来训练模型,另外20%作为测试数据,通过测试数据直接判断模型的效果,在模型进入真实环境前改进模型。

监督学习

定义:根据已有的数据集,知道输入和输出结果之间的关系。根据这种已知的关系,训练得到一个最优的模型。也就是说,在监督学习中训练数据既有特征(feature)又有标签(label),通过训练,让机器可以自己找到特征和标签之间的联系,在面对只有特征没有标签的数据时,可以判断出标签。

 通俗一点,可以把机器学习理解为我们教机器如何做事情。

监督学习的分类:回归(Regression)、分类(Classification)  

 

无监督学习

定义:我们不知道数据集中数据、特征之间的关系,而是要根据聚类或一定的模型得到数据之间的关系。

可以这么说,比起监督学习,无监督学习更像是自学,让机器学会自己做事情,是没有标签(label)的。

 

监督学习的数据既有特征又有标签,而非监督学习的数据中只有特征而没有标签。

 

半监督学习——《机器学习》周志华

监督学习、无监督、半监督学习;训练数据集和测试数据集_第1张图片

监督学习、无监督、半监督学习;训练数据集和测试数据集_第2张图片


参考文章链接:https://www.jianshu.com/p/682c88cee5a8
 

你可能感兴趣的:(计算机专业保研准备)