上讲实现了通过finebi对理财产品顾客的数据获取,这里将继续上讲,实现IBM对数据流的操作。
数据挖掘技术包括关联分析、序列分析、分类、预测、聚类分析及时间序列分析等。
1.关联分析主要用于发现不同事件之间的关联性,即一个事件发生的同时,另一个事件也
经常发生。关联分析的重点在于快速发现那些有实用价值的关联发生的事件。其主要依据是
事件发生的概率和条件概率应该符合一定的统计意义。
2.序列分析
序列分析技术主要用于发现一定时间间隔内接连发生的事件。这些事件构成一个序列,发现的序列应该具有普遍意义,
3.分类分析
分类分析通过分析具有类别的样本的特点,得到决定样本属于各种类别的规则或方法。
主要方法有基于统计学的贝叶斯方法、神经网络方法、决策树方法及支持向量机。
4.聚类分析
聚类分析是根据物以类聚的原理,将本身没有类别的样本聚集成不同的组,并且对每一个这样的组进行描述的过程。其主要依据是聚到同一个组中的样本应该彼此相似,而属于不同组的样本应该足够不相似。
5.预测
预测与分类类似,但预测是根据样本的已知特征估算某个连续类型的变量的取值的过程,
而分类则只是用于判别样本所属的离散类别而已。预测常用的技术是回归分析。
6.时间序列
分析时间序列分析的是随时间而变化的事件序列,目的是预测未来发展趋势,或者寻找相似发展模式或者是发现周期性发展规律。
从上面两个饼图分别表示购买理财产品的顾客总数性别占比及亏损情况的顾客的性别占比。数据显示购买理财产品顾客男女比例不相上下,说明客户理财产品亏损与性别关系不大。
从上面两个饼图分别表示购买理财产品的顾客总数学历占比及亏损情况的顾客的学历占比,两图差异小可以说明学历对亏损情况存在影响较小。从中可以看出数据分布特点为:
(1)购买理财产品的顾客学历主要分布在大学本科,其余学历人数分布较均衡。
(2)亏损顾客学历主要分布在大学本科,其次是博士及以上学历。
从上面两个柱状图分别表示购买理财产品顾客家庭年收入及亏损顾客的家庭年收入情况。从中可以看出数据分布特点为:家庭年收入在“5-10万”、“10-20万”的顾客购买理财产品的可能性更大,其亏损的可能性也更大。两图数据差异较小说明家庭年收入对亏损情况存在影响不大。
以上是通过帆软finebi实现的对关联数据的一部分帆软数据分析。
其中帆软数据挖掘预备知识:
概率论:支撑整个数据挖掘算法和机器学习算法的数学基础,要熟悉常见的一些概率分布。
矩阵论:线性代数中对数据挖掘最有用的部分,还有一些线性空间相关知识也很重要。
信息论:将信息和数学紧密连接在一起并完美的表达的桥梁,需要掌握信息熵、信息增益等相关知识。
统计学:数据分析最早的依赖基础,通常和概率论一起应用,现在的机器学习和数据挖掘很多都是基于统计的,常见的均值、方差、协方差等都要熟练掌握。