数据分析的常见算法

十大数据分析算法
数据分析的常见算法_第1张图片
数据分析的常见算法_第2张图片

1.C4.5(分类决策树)
决策树算法需要解决的两个主要问题:
1)先选择哪个属性,后选择哪个属性来进行分裂?2)什么时候树停止生长?
这里,C4.5算法是这样解决的:
1)用信息增益(熵差)率来选择属性分裂;2)构造树的过程中进行剪枝操作降低过拟合风险。
这里引出“信息熵”的概念。“熵”是对混乱程度的度量,越乱熵越大,是一个度量样本集合纯度最常用的指标。划分节点处到底用哪个属性的时候,希望节点处属性纯度大,也就是熵更小。数据分析的常见算法_第3张图片
2.K-均值算法
数据分析的常见算法_第4张图片
数据分析的常见算法_第5张图片
3.SVM
数据分析的常见算法_第6张图片
4.Apriori算法
衡量事务之间的相关联程度
数据分析的常见算法_第7张图片

数据分析的常见算法_第8张图片

数据分析的常见算法_第9张图片
5.KNN算法
之前博客写过
6.PageRank
数据分析的常见算法_第10张图片

你可能感兴趣的:(大数据寒假学习笔记)