机器学习小白学习笔记---day2---knn(分类回归)

机器学习小白学习笔记之scikit-learn

最近刚把西瓜书啃完,一大堆理论让脑子真的是一团浆糊,说实话看的基本只有一个概念哈哈哈,效果不高,但是让我对与机器学习真的是整体有了一个大的了解,但是并没能将每个课后作业都完成,甚至很多公式推导也没实现,太难了,让我着手于实践,古人云实践出真知,又拿起了另一本书《Introduce to Mashine Learning with python》

今天开启第二章,进来就是对knn模型的一个诠释,展现在图表中就非常好理解,毕竟作为最简单的机器学习算法,要是这个都理解不了那就不用学了哈哈哈。下面直接上图,本文主要记录一下学习过程与心得体验。

1-nn(只考虑一个最近邻)
机器学习小白学习笔记---day2---knn(分类回归)_第1张图片

2-nn(考虑三个最近邻)
机器学习小白学习笔记---day2---knn(分类回归)_第2张图片
看图就很容易理解了,就是给定一个测试点,考虑与其最近的训练样本的预测结果,多个的话通过投票法,选择出预测结果。

下面我跟随着书本,把1,3,5近邻的决策边界可视化:
机器学习小白学习笔记---day2---knn(分类回归)_第3张图片

越平滑的边界,对应着越低的模型复杂度;

继续跟随着书本,通过乳腺癌数据集,对于n近邻的模型精准度与泛化性能,进一步地进行查看:

机器学习小白学习笔记---day2---knn(分类回归)_第4张图片

可以看到最中间有一个最佳性能点。

继续看k近邻回归

单一近邻回归对wave数据集的预测结果
机器学习小白学习笔记---day2---knn(分类回归)_第5张图片

多近邻回归:
机器学习小白学习笔记---day2---knn(分类回归)_第6张图片
对于回归问题,我们同样可以使用score方法来评估模型,但是回归问题score方法返回的是R^2分数,也叫做决定系数,是回归模型预测的优度度量,等于1时是完美拟合,等于0时对应常数模型。

接下来同样,根据书本,看看不同neighbors值的k近邻回归的预测结果对比。可视化图如下:
机器学习小白学习笔记---day2---knn(分类回归)_第7张图片
我们也可以看到和分类问题相似的是,同样会存在一个中间最优性能点,当然可能不是图中的k=3,只是打个比方。

最后来总结一下:

优点:

模型很容易理解,通常不需要过多的调节就可以得到不错的性能。构建最近邻模型的速度通常很快,但如果训练集比较大预测的速度可能会比较慢。

缺点:

缺点的话也很明显,如果是特征数量很多的话,预测的效果往往不是很好,对于稀疏数据集来说尤其不好

所以接下里,我就跟随书本去学习线性模型啦,线性模型就没有上述俩缺点。

你可能感兴趣的:(机器学习小白学习笔记)