数据挖掘相关算法

【分类】朴素贝叶斯算法  反垃圾邮件/垃圾账号/图书馆归类
【分类】决策树算法  审批贷款/相亲条件/根据天气判断是否打高尔夫
【预测】时序算法 预测下一阶段的销售情况 / 股票走势
【聚类】聚类算法

总结
遗传算法不属于数据挖掘领域, 而是属于无法枚举统计的场景。
数据挖掘是通过分析已有的数据行为,创建出数据模型,判断今后的数据属于哪种类型的。
云计算中hadoop只是搭建了分布式存储和技术的平台,至于分析日志内容,并作出总结/预测,还是要通过具体的算法。
传统的数据挖掘是基于产品的。例如sqlserver的analysis组件,只要会用就可以了。 而基于云计算的数据挖掘是基于文本形式的,当然可以通过将数据导入sqlserver,再用analysis建模, 但对于大数据而言效率会很低。


场景
先上问题吧,我们统计了14天的气象数据(指标包括outlook,temperature,humidity,windy),并已知这些天气是否打球(play)。如果给出新一天的气象指标数据:sunny,cool,high,TRUE,判断一下会不会去打球。

朴素贝叶斯算法
http://www.cnblogs.com/zhangchaoyang/articles/2586402.html
比较简单, 通过计算原始数据每个条件的yes or no 的概率来判断新数据概率较大的结果
P(yes|E) = P(E1|yes) *  P(E2|yes) *  P(E3|yes) *  P(E4|yes) *  P(yes)
P(no|E) = P(E1|no) *  P(E2|no) *  P(E3|no) *  P(E4|no) *  P(no)

如果条件中的温度是数值类型,需要用到 标准差 和 正态分布的概念
http://baike.baidu.com/link?url=Kz3guwt_fBdz8mamPIvBfMXZnM1JPVtRUiQzaA4cwPU49Z5Y7yNoir4t2AumFtPL

http://baike.baidu.com/link?url=A_g_sR5ERx-e1OvnZJ_9EZ5mZZCDLkZCSvvTLhAA_3OIHX6P1JyfublMkzKGROds

决策树算法(附有Java代码)
http://www.cnblogs.com/zhangchaoyang/articles/2196631.html

相当复杂, 需要通过递归的方式来画出一颗树模型,新的数据在树模型中用if else来判断即可。
树的层级构建是通过 信息熵 大小来判断的。  熵是无序性(或不确定性)的度量指标。
越能直接判断结果(信息熵越小)的放在越上面。从而构建一个高度最矮的树

公式 Entropy(P1,P2,…Pn) = -P1*(logP1/log2)-P2*(logP2/log2)....-Pn*(logPn/log2)
http://bigdata.iteye.com/blog/1692301


该公式用到了对数的概念
http://wenku.baidu.com/view/d229722acfc789eb172dc82f.html

你可能感兴趣的:(数据挖掘)