分解数据,找到“问题的关键”

“趋势”视点和“快照”视点

趋势” 视点可以捕捉一段时间内的变化,也被称作时间序列。

“通过数据观察变化经过,可以得知有哪些流程,以及形成目前状况的经过。关注过去的变化,预测将来的动向,可以带来飞跃性的效果提升。因为从时间的变化过程中,有可能找到问题的关键或原因所在。重点挖掘这些内容,找到所需信息的概率就会增加。”

快照” 视点是截取某个期间的情况。

用指标(平均值等)体现该期间的大小、比例和分布情况等,可以轻松地把握大致情况,或进行比较,从而确定该因素对问题的影响程度。

“WHAT 型假设”

what型假设

“表示大小的“平均值”

应用最广、最具代表性、最便于计算的统计指标大概要算平均值吧。可能有人觉得“不就是平均值吗”,不过可千万别小瞧了它。平均值虽然用起来很方便,但却有一个陷阱,让很多人都陷入其中。

“平均值不能代表总体”


平均值不能代表中位数

平均值会受到离群值的影响。而且,数据波动越大,离群值就越多。其结果就是,“平均值未必是代表值”的可能性更大。例如平均寿命也是一样,假设某个国家 5 岁以下的婴幼儿死亡率较高,那么除非有很多高于平均寿命的长寿者,否则计算出的平均寿命就会偏低。

平均值的便利之处在于可以不用处理全部数据,只关注由整体得出的一个数值即可,但其缺点是牺牲了原始数据。这是一个很大的陷阱。

了解“中位数”

这种情况下,还有一种简便方法,即“中位数”。中位数是指把所有数据按从大到小(或从小到大)的顺序进行排列时,排在最中间的数据。顾名思义,中位数就是位于中间位置的数据。有奇数个数据时,中位数是正中间的数据,有偶数个数据时,中位数则是中间两个数据的平均值。

•平均值:=AVERAGE(在此处指定数据范围)

•中位数:=MEDIAN(在此处指定数据范围)

平均值和中位数的特征

辛普森驳论

当人们尝试探究两种变量(比如新生录取率与性别)是否具有相关性的时候,会分别对之进行分组研究。然而,在分组比较中都占优势的一方,在总评中有时反而是失势的一方。该现象于20世纪初就有人讨论,但一直到1951年,E.H.辛普森在他发表的论文中阐述此一现象后,该现象才算正式被描述解释。后来就以他的名字命名此悖论,即辛普森悖论

用“波动”的视点给平均值做补充

①平均值最适合表示整体的大小

平均值便于人们把握大体趋势,可以通过平均单价等把握和比较整体情况。

②平均值的缺点是会掩盖原始数据的部分特征

注意到这一点,可以避免遗漏更为精确的信息。

在商业世界中,波动也可以说是“风险”,“波动大”或“风险大”并不一定就是坏事。风险也可以反过来看作机会。

能够客观体现波动大小的指标叫作标准差。标准差表示以平均值为中心,数据对平均值的偏离程度。人们可以根据标准差的数值对类似每日销售额的波动程度等进行相对评价。

标准差计算公式


excel计算公式

变异系数”的魅力

使用标准差对波动程度进行相对比较时,必须满足被比较的两个数据大小相当或相同(例如同一家店铺不同月份之间的比较、相同销售额规模的两家店铺之间的比较等)的前提条件。因为一般情况下,如果原始数据值较大,其波动(标准差)也会相对比较大。不消除“数据大小”的差异,就无法进行适当的比较。

如果能用标准差除以全部数据的平均值,消除数据大小的差异,就可以不必在意原始数据的大小,从数值上用标准差来比较两者的波动程度。标准差除以平均值得到的值叫作变异系数。

视觉也是“感觉”

所谓视觉,也是一种“感觉”,具有容易让人根据主观进行判断的一面。可以说最能在这种场合发挥威力的,正是根据数据做出的客观判断。


分析观点与纬度

你可能感兴趣的:(分解数据,找到“问题的关键”)