数据分析方法

说明:本文系个人学习笔记,分享给小伙伴们共同进步。来源于微信公众号 数据管道,如有需要自行去关注。请勿将本文转载以及做其他用途。

数据特征分析包括:分布分析、对比分析、统计分析、贡献度分析(帕累托分析)、以及相关性分析。

(1)分布分析

        用来解释数据的分布类型和分布特征,显示其分布情况。

  • 定量数据的分布分析 

       求极差 -->决定组距与组数-->决定分点-->绘制频率分布图

  • 定性数据的分布分析

        根据变量的分类类型来确定分组,然后使用图形对信息进行显示

(2)对比分析

        对比分析是指把两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的大小、水平的高低、速度的快慢,以及各          种关系是否协调。特别适用于指标间的横纵向比较、时间序列的比较分析。在对比分析中,选择合适的对比标准是十分关键的          步骤,选择合适,才能做出客观的评价,选择不合适,评价可能得出错误的结论。 

  • 绝对数比较

       利用这组指标绝对数进行对比,从而寻找差异的一种方法。

  • 相对数比较

       它是由两个有联系的指标对比计算的,用以反映客观现象之间数量联系程度的综合指标,其数值表现为相对数。由于研究目的         和对比基础不用,相对数可以分为以下几种:结构相对数、比例相对数、动态相对数和空间相对数

(3)统计分析

        对一组数据用统计指标定量的分析数据,一般从集中趋势和离中趋势两个方面来衡量数据。

  • 数据的集中趋势:指一组数据向某一中心靠拢的倾向,核心在于寻找数据的代表值或中心值 ,所以需要找到数据的统计平均数来衡量。

        统计平均数可分为,①算术平均数、加权算术平均数②位置平均数。

  • 数据的离中趋势:指一组数据中各数据以不同程度的距离偏离中心的趋势。

        可用极差与分位差、方差与标准差、离散系数 等衡量。

(4)帕累托分析

        帕累托分析又叫贡献度分析,原理是20/80定律,即80%的利润常常来自于20%的产品。一般来说投入产出,努力和报酬之间          并不是绝对的线性关系,总有一些关键因素起着至关重要的作用,而帕累托分析就是找到影响事务的关键因素,分清主次。

(5)相关性分析

       相关性分析是研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法。例如,人的身高和体重之间;空气         中的相对湿度与降雨量之间的相关关系都是相关分析研究的问题。相关分析与回归分析之间的区别:回归分析侧重于研究随机         变量间的依赖关系,以便用一个变量去预测另一个变量;相关分析侧重于发现随机变量间的种种相关特性。可用相关系数r来衡           量两个特征之间的相关性。

       相关性也包括正相关、负相关、和不相关。

总之:对于一份数据可以从以上几个方面来进行分析,找数据中的特征。常常采用各种工具可以进行绘图可视化来发现其中的特征,但是无论如何理论基础不可少。比如面试时候,你能说出要从分布情况、数据对比、统计分析、各个属性贡献度分析(帕累托分析)、甚至不同属性之间的相关性分析,并从多维度,多层次给出一些相对准确的结果,都会为你的面试加分呀。最后多啰嗦一句,方方面面都要分析到呀,给出的数据为啥有这些属性,不会是白给的(心酸来自于之前的一次面试,让分析的是游戏数据,包括用户卸载时各个维度数据,自以为是的觉得其中的两个属性(国家和手机型号)对结果(用户卸载游戏)没啥影响就自动忽略了,然后,就没有然后了,凉凉了)。

你可能感兴趣的:(面试经验分享,数据分析)