数据分析中make_circles生成数据集factor、noise理解

断断续续学了挺久数据分析了,今天学到了核PCA对非线性数据进行降维,首先要生成一个非线性数据集,教材上提到可以使用make_circles这个函数,也给了生成示例。但我不太明白factor、noise这两个参数具体的作用是什么,于是上手改变这两个参数不同的值,绘出图形直观理解一下。

首先是只改变factor参数,固定noise参数:

数据分析中make_circles生成数据集factor、noise理解_第1张图片

图1 factor=0.2 noise=0.02

 数据分析中make_circles生成数据集factor、noise理解_第2张图片

图2 factor=0.5 noise=0.02

数据分析中make_circles生成数据集factor、noise理解_第3张图片

图3 factor=0.8 noise=0.02

从以上三张图对比可以看出,factor参数是内外圆的比例因子,此参数越大,内外圆大小越相近。

接下来只改变noise参数,固定factor参数

数据分析中make_circles生成数据集factor、noise理解_第4张图片

 图4 factor=0.2 noise=0.001

数据分析中make_circles生成数据集factor、noise理解_第5张图片

  图5 factor=0.2 noise=0.05

数据分析中make_circles生成数据集factor、noise理解_第6张图片

 图6 factor=0.2 noise=0.2

从图4至图6可以看出,noise参数决定了数据的杂乱程度,该参数越大,生成的圆越不规则。

仅个人学习记录,如有理解不当之处,欢迎批评指正!!!

你可能感兴趣的:(数据分析,数据挖掘,人工智能)