吴恩达机器学习--讲讲降维(近期更新)

降维是什么

1、冗余的特征,当你有成百上千的数据特征,你需要选择最需要最准确表达的特征
2、简单来说通过投影,将数据投影至一个直线上,就是一种降维。用来压缩数据,让算法运行的更快,减少空间。

主成分分析

1、简单来说就是找一个低维平面(线、面、体)将数据投影在上面,使得数据到投影点的距离平方最小(投影误差),PCA就是找出这个面。最小化投影误差
2、在运用主成分分析前,正常都是需要均值标准化和特征规范化。
3、与线性回归的区别
吴恩达机器学习--讲讲降维(近期更新)_第1张图片

聚类算法

k-means
随机生成若干个距离最远的点, 将每个数据分配给最近的点
重新计算中心点,再次将数据分配到新的中心点。
直到最终迭代,聚类中心再也不变了,就是最终结果
初始化聚类中心
1、找到较好的局部最优解,通常多次随机初始化,正常在2-10类能很好的起到分类效果
选择聚类数量
肘部曲线,但常常没有那么准确的拐点,
另一种是结合业务意义进行分析,考虑下游目的

你可能感兴趣的:(python,机器学习,经验分享)