机器学习--引入

机器学习



根据是否有因变量,分为:

有监督学习

给定某些特征去估计因变量,即因变量存在的时候,我们称这个机器学习任务为有监督学习。如:我们使用房间面积,房屋所在地区,环境等级等因素去预测某个地区的房价。

根据因变量的是否连续,分为:

回归

因变量是连续型变量,如:房价,体重等。

分类

因变量是离散型变量,如:是否患癌症,西瓜是好瓜还是坏瓜等。



无监督学习

给定某些特征但不给定因变量,建模的目的是学习数据本身的结构和关系。如:我们给定某电商用户的基本信息和消费记录,通过观察数据中的哪些类型的用户彼此间的行为和属性类似,形成一个客群。注意,我们本身并不知道哪个用户属于哪个客群,即没有给定因变量。

在sklearn内置数据集中,Boston房价数据集可用于回归预测;iris数据集用于分类预测;

出处:https://github.com/datawhalechina/team-learning-data-mining/tree/master/IntegratedLearning

在波士顿房价数据集中,看了一下CRIM,ZN,INDUS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT这12个变量分别与房价‘Price' 的大致分布关系


可以看到’RM‘(每个住宅的平均房间数)与房价大致呈正的线性相关;而随着’LSTAT‘(较低地位人口)数量的增加,房价呈指数递减。

另外,比较是否在查尔斯河畔的房子的均价,可以发现如果房子在河边,那么房价普遍较高,反之较低:


同样的,看一下iris数据集的大致分布:



你可能感兴趣的:(机器学习--引入)