【课程笔记】空间数据挖掘方法(机器学习)

【课程笔记】空间数据挖掘方法(机器学习)_第1张图片

一、绪论

机器学习VS数据挖掘

【课程笔记】空间数据挖掘方法(机器学习)_第2张图片

分类的过程

【课程笔记】空间数据挖掘方法(机器学习)_第3张图片

 

二、模型评估

评估方法

【课程笔记】空间数据挖掘方法(机器学习)_第4张图片

评估模型之留出法:简单粗暴,直接按2:1~4:1将数据集分为训练集:测试集。

【课程笔记】空间数据挖掘方法(机器学习)_第5张图片

评估模型之交叉验证法:将数据集分为k个互斥子集,一部分作为训练集,另一部分作为测试集,循环这个过程。常令k=10,进行十折交叉验证。使用全部样本,即为留一法。

【课程笔记】空间数据挖掘方法(机器学习)_第6张图片

【课程笔记】空间数据挖掘方法(机器学习)_第7张图片

评估模型之自助法:自助,有放回地采样。效果一般(吧),不常用(吧)。

【课程笔记】空间数据挖掘方法(机器学习)_第8张图片

评估指标

【课程笔记】空间数据挖掘方法(机器学习)_第9张图片

率(查得准不准?判为正例的样本有多少是准确的?)与查率(查得全不全?实际为真例的样本是不是都查出来了?)

二者互相矛盾,F值将它们同时考虑。

【课程笔记】空间数据挖掘方法(机器学习)_第10张图片

【课程笔记】空间数据挖掘方法(机器学习)_第11张图片

分类任务中,常用“截断点”将正例与反例分开。ROC曲线依次选择不同的“截断点”构成不同的分类器,预测,分别计算“真正率”(作为横轴)和“假正率”(作为纵轴),连接数据点,作曲线。

【课程笔记】空间数据挖掘方法(机器学习)_第12张图片

【课程笔记】空间数据挖掘方法(机器学习)_第13张图片

【课程笔记】空间数据挖掘方法(机器学习)_第14张图片

【课程笔记】空间数据挖掘方法(机器学习)_第15张图片

ROC曲线及其曲线下的面积AUC,用于度量分类器的排序性能。

如何计算待测样本属于某一类的概率?条件似然CLL

【课程笔记】空间数据挖掘方法(机器学习)_第16张图片

 

比较检验

分类器A的准确率80%,分类器A的准确率90%,就能直接下结论说A优于B?不能,因为测试性能≠泛化性能等等(详见下图里的三个√)

【课程笔记】空间数据挖掘方法(机器学习)_第17张图片

如成对双边t检验法(t检验、查表等),还有其他的检验方法,不介绍了,反正类似于概率统计里的那些假设检验方法。

【课程笔记】空间数据挖掘方法(机器学习)_第18张图片

 

三、线性学习

线性回归

x系列是各种属性值;w和b可通过最小二乘法进行估计。

【课程笔记】空间数据挖掘方法(机器学习)_第19张图片

【课程笔记】空间数据挖掘方法(机器学习)_第20张图片

【课程笔记】空间数据挖掘方法(机器学习)_第21张图片

 

广义线性回归

非线性函数

【课程笔记】空间数据挖掘方法(机器学习)_第22张图片

 

逻辑斯蒂回归

逻辑斯蒂回归不是“回归”,而是一种分类方法。逻辑斯蒂函数,可代替单位阶跃函数,将回归预测输出的数值转为0/1(以二分类问题为例)

【课程笔记】空间数据挖掘方法(机器学习)_第23张图片

【课程笔记】空间数据挖掘方法(机器学习)_第24张图片

 

多分类学习

【课程笔记】空间数据挖掘方法(机器学习)_第25张图片

 

 

 

 

九、无监督学习

无监督学习基础知识

【课程笔记】空间数据挖掘方法(机器学习)_第26张图片

【课程笔记】空间数据挖掘方法(机器学习)_第27张图片

【课程笔记】空间数据挖掘方法(机器学习)_第28张图片

 

二、K均值聚类(k-means)

【课程笔记】空间数据挖掘方法(机器学习)_第29张图片

 

 

 

 

 

 

 

 

你可能感兴趣的:(机器学习)