scikit-learn机器学习——第四章 复习题

1.请用一句话描述k-近邻算法的原理?

未标记样本的类别,由距离其最近的k个邻居投票来决定。

2.k-近邻算法有哪些变种?

增加邻居的权重

使用一定半径内的点代替距离最近的k个点

3.参考ch04.01.ipynb,使用RadiusNeighborsClassifier类来处理分类问题

原来的5个点

scikit-learn机器学习——第四章 复习题_第1张图片

半径为1

scikit-learn机器学习——第四章 复习题_第2张图片

4.参考ch04.02.ipynb,使用不同的算法参数k,观察针对同一个数据集,拟合曲线有什么变化。

k=10

scikit-learn机器学习——第四章 复习题_第3张图片

k=5

scikit-learn机器学习——第四章 复习题_第4张图片

scikit-learn机器学习——第四章 复习题_第5张图片

scikit-learn机器学习——第四章 复习题_第6张图片

k越小对原来数据点拟合的越好,k越大对原来数据点拟合的越差。k=5-10左右拟合的较好。

5.针对ch04.02.ipynb中的回归问题,试着画出算法的学习曲线。提示:关于学习曲线可参考第3章中的ch03.02.ipynb例子,重点是复用plot_learning_curve()函数。

遇到问题:Expected n_neighbors <= n_samples, but n_samples = 3, n_neighbors = 5。

样本数太少,比要求的k还少。方法1:减小_neighbors。方法2:增多样本

scikit-learn机器学习——第四章 复习题_第7张图片

6.运行ch04.03.ipynb的代码,验证看看,如果我们使用SelectKBest选择出4个相关性最高的特征,并把这4个特征作为输入来训练模型,模型的准确性是否有提高?为什么?

变低了。数据在其他维度也不能很好的分离。

7.运行ch04.03.ipynb的代码,使用SelectKBest选择特征时,把默认的F值换成卡方值,结果有什么不同?

scikit-learn机器学习——第四章 复习题_第8张图片

相关性最大的两个特征变了。变成了血浆葡萄糖浓度和两个小时血清胰岛素。

 

 

 

 

 

 

 

你可能感兴趣的:(机器学习)