接下来将用IBM SPSS对finebi中提取的理财产品数据实现分类算法数据挖掘和数据分析,以及可视化图表呈现。
数据在当今世界意味着金钱。随着向基于app的世界的过渡,数据呈指数增长。然而,大多数数据是非结构化的,因此需要一个过程和方法从数据中提取有用的信息,并将其转换为可理解的和可用的形式。
数据挖掘或“数据库中的知识发现”是通过人工智能、机器学习、统计和数据库系统发现大数据集中的模式的过程。
免费的数据挖掘工具包括从完整的模型开发环境如Knime和Orange,到各种用Java、c++编写的库,最常见的是Python。数据挖掘中通常涉及到四种任务:
分类: 将熟悉的结构概括为新数据的任务
聚类: 在数据中以某种方式查找组和结构的任务,而不需要在数据中使用已注意的结构。
关联规则学习: 查找变量之间的关系
回归: 旨在找到一个函数,用最小的错误来模拟数据。
在预测变量重要性中,我们可以观察到“家庭年收入”预测变量重要性占比为100%,直接影响“亏损程度”,而其他输入变量被剔除掉。说明“家庭年收入”对于购买理财产品亏损程度的影响非常大。
结合两图可以得到具有哪些特征的顾客购买理财产品会造成亏损:
(1)亏损程度主要受家庭年收入的影响。
(2)家庭年收入在“100万以上”、“50万-100万”、“5万以下”的顾客购买理财产品严重亏损的置信度为87.5%,即这三种家庭年收入水平的家庭有严重亏损的倾向。
(3)家庭年收入在“10万-20万”、“20万-50万”的顾客购买理财产品中度亏损的置信度为42.1%,即这两种家庭年收入水平的家庭有中度亏损的倾向。
(3)家庭年收入在“5万-10万”的顾客购买理财产品轻度亏损的置信度为40%,即这类家庭年收入水平的家庭有轻度亏损的倾向。
存在问题:
家庭年收入这一影响对于亏损程度过大,不能反映客户其他方面特征对于亏损程度的影响。后续改进过程,我们将剔除家庭年收入这一变量。
在过滤器中剔除变量“家庭年收入”。
决策树模型反映了如下特征:
(1)期限对于亏损程度的影响最大,其次是购买目的,其他因素基本无影响。
(2)期限<=2的顾客(约占亏损顾客数40%)大部分为严重亏损。
(3)期限>2的顾客(约占亏损顾客数60%)大部分为轻度亏损,购买目的这时对客户亏损的影响很大。
决策树模型反映了如下特征:
(4)期限>2的情况下,购买目的为“兴趣爱好,医疗、养老教育,长期资产保值增值”的顾客有严重亏损的倾向。
(5)期限>2的情况下,购买目的为“其他、短期资产保值增值”的顾客有轻度亏损的倾向。
(6)期限>2的情况下,购买目的为“合理安排资金、分担风险”的顾客有中度亏损的倾向。
(7)期限>2的情况下,购买目的为“流行趋势”的顾客有重度亏损的倾向。
基于finebi获取资料:理财产品顾客分类数据分析。
实现数据可视化面板制作工具:帆软finebi。
数据挖掘工具:IBM SPSS。