2021-03-15机器学习导论

1.什么是机器学习?

目标是利用数学模型来理解数据,发现数据中的规律,用作数据的分析和预测。

根据数据是否有因变量,机器学习的任务可分为:

有监督学习和无监督学习。

有监督学习:给定某些特征去估计因变量,即因变量存在的时候,我们称这个机器学习任务为有监督学习。如:我们使用房间面积,房屋所在地区,环境等级等因素去预测某个地区的房价。

无监督学习:给定某些特征但不给定因变量,建模的目的是学习数据本身的结构和关系。如:我们给定某电商用户的基本信息和消费记录,通过观察数据中的哪些类型的用户彼此间的行为和属性类似,形成一个客群。注意,我们本身并不知道哪个用户属于哪个客群,即没有给定因变量。

有监督学习预测结果或未来

无监督学习寻找数据中的结构

2.有监督学习

根据因变量的是否连续,有监督学习又分为

回归和分类:

回归:因变量是连续型变量,如:房价,体重等。

回归(Boston房价预测)

分类:因变量是离散型变量,如:是否患癌症,西瓜是好瓜还是坏瓜等。

分类(IRIS鸢尾花分类)


2.1sklearn工具库使用


回归实例

使用sklearn内置数据集Boston房价数据集,sklearn中所有内置数据集都封装在datasets对象内: 返回的对象有:

data:特征X的矩阵(ndarray)

target:因变量的向量(ndarray)

feature_names:特征名称(ndarray)


我们可以看到,数据给定任务所需要的因变量,因变量为波士顿房价Price是一个连续型变量,所以这是一个回归的例子。

分类实例


我们可以看到:每种不同的颜色和点的样式为一种类型的鸢尾花,数据集有三种不同类型的鸢尾花。 因此因变量是一个类别变量,因此通过特征预测鸢尾花类别的问题是一个分类问题。

3.无监督学习

可以使用sklearn生成符合自身需求的数据集

https://scikit-learn.org/stable/modules/classes.html?highlight=datasets#module-sklearn.datasets



你可能感兴趣的:(2021-03-15机器学习导论)