总结

总结_第1张图片K选大了,容易过拟合;小了,容易欠拟合。
总结_第2张图片线性回归的重点是:线性回归的推导(一种是梯度下降的推导,一种是最小二乘的推导)
总结_第3张图片逻辑回归是一个重点(当不知道用什么算法的时候,先用逻辑回归),机器学习中,特征越多,越能描述一个事物
总结_第4张图片多重线性:相关性很大
在这里插入图片描述总结_第5张图片总结_第6张图片总结_第7张图片在这里插入图片描述总结_第8张图片总结_第9张图片小规模数据:几万,几十万都算小规模
pyspark总结_第10张图片spark(pyspark)处理大规模数据集
总结_第11张图片随机森林更多的用来去噪声,选特征;算法,模型处理的好坏,跟数据有很大关系。数据一定要预处理。
总结_第12张图片总结_第13张图片svm用的不是很多
总结_第14张图片数据结构 图的结构+谱聚类(tensorflow)

自行了解:

关联分析算法—Aprior算法,EM算法,PageRank算法。了解它们做什么事情的。

选择算法原因:

1,评估测量结果,2,优缺点
算法的原理,公式要记住,面试时推导一般不会问
总结_第15张图片

你可能感兴趣的:(学习笔记,#,周志华西瓜书)