刘夏璐,狄松. 谁说菜鸟不会数据分析(入门篇)[M]. 电子工业出版社, 2013
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将他们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。
【因此,数据分析是一个找规律的过程,其实人人都可以用到】
数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这里的数据也称观测值,是通过实验、测量、观察、调查等方式获取的结果,常常以数量的形式展现出来。
目的
把隐藏在一大批看似杂乱无章的数据背后的信息集中和提炼出来,总结出所研究对象的内在规律。
探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于验证已有假设的真伪证明。
描述性数据分析属于初级数据分析,常见的分析方法有:对比分析法、平均分析法、交叉分析法等。
探索性数据分析以及验证性数据分析属于高级数据分析,常见的分析方法有相关分析、因子分析、回归分析等。
在开展数据分析以前,要想想:
为什么要开展数据分析?通过这次数据分析我要解决什么问题?只有明确数据分析的目标,数据分析才不会偏离方向,否则得出的数据分析结果不仅没有指导意义,甚至可能将决策者引入歧途。
【个人认为明确目标是最最重要的,很多时候上级交代的任务比较笼统,自己在开始工作前要先明白上级到底想要分析什么,如果这一步没有做好,接下来做的都是无用功】
明确目标后,要梳理分析思路,并搭建分析框架,把分析目的分解成若干个不同的分析要点,即如何具体开展数据分析,需要从哪几个角度进行分析,采用哪些分析指标。
最后还要将分析框架体系化,使分析结果具有说服力。分析体系化,就是逻辑化,简单来说就是先分析什么,后分析什么,使得各个分析点之间具有逻辑联系。解决的是不知道从哪里入手,分析的内容和指标常常被质疑是否合理、完整,而自己也说不出个所以然来,所以体系化就是为了让你的分析框架具有说服力。
分析体系化的方法
以营销、管理等理论为指导,结合实际业务情况,搭建分析框架,这样才能确保数据分析维度的完整性,分析结果的有效性及正确性。
【个人感觉这些框架还挺有参考意义的,类比的可以构建自己的框架】
营销方面的理论模型:
4P、用户使用行为、STP理论、SWOT等。
管理方面的理论模型:
PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则等。
【敲黑板,重点】
明确数据分析目的以及确定分析思路,是确保数据分析过程有效进行的先决条件,它可以为数据的收集、处理及分析提供清晰的指引方向
数据收集是按照确定的数据分析框架,收集相关数据的过程,它为数据分析提供了素材和依据。
数据处理是指对收集到的数据进行加工整理,形成适合数据分析的样式,它是数据分析前必不可少的阶段。
数据是指用适当的分析方法及工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程。
数据分析与数据挖掘的区别?
数据挖掘是一种高级的数据分析方法。一般来说,数据挖掘侧重解决四类数据分析的问题:分类、聚类、关联和预测,重点在寻找模式与规律。
一般情况下,能用图说明问题就不用表格,能用表格说明问题的就不用文字。
【但是有的时候表格的效果比图好,下文会提到,以上原则在大部分情况下是对的,具体问题具体分析】
对整个数据分析过程的一个总结与呈现。
一份好的数据分析报告,首先要有一个好的分析框架,并且图文并茂,层次明晰,能够让阅读者一目了然。另外,数据分析报告需要有明确的结论,没有明确结论的分析称不上分析,同时也失去了报告的意义,因为我们最初就是为寻找或者求证一个结论才进行分析的,所以千万不要舍本求末。最后,好的分析报告一定要有建议或解决方案。
算术平均数,一组数据的算术平均值,即全部数据累加后除以数据个数。
它的特点是将总体内各单位的数量差异抽象画,代表总体的一般水平,掩盖了总体内各单位的差异。
绝对数是反映客观现象总体在一定时间、地点条件下的总规模、总水平的综合性指标,也可以表现为在一定时间、地点条件下数量增减变化的绝对数。
相对数是指由两个有联系的指标对比计算而得到的数值,用以反映客观现象之间数量联系程度的综合指标。
相对数一般以倍数、成数、百分数等表示,它反映了客观现象之间数量联系的程度。使用相对数时要注意指标的可比性,同时要与总量指标(绝对数)结合使用。
常见的相对数:
百分比与百分点
百分比是相对数中的一种,它表示一个数是另一个数的百分之几,也称百分率或者百分数。
百分点是指不同时期以百分数的形式表示的相对指标的变动幅度,一个百分点=1%。
频数与频率
频数是指一组数据中个别数据重复出现的次数。
频率是每组类别次数与总次数的比值。,它代表某类别在总体中出现的频繁程度。
比例与比率
比例是指在总体中各部分的数值占全部数值的比重,通常反映总体的构成和结构。
比率是指不同类别数值的对比,它反映的不是部分与整体之间的关系,而是一个整体中各部分之间的关系。例如男女比率。
倍数与番数
倍数是一个数除以另一个数所得的商。倍数一般表示数量的增长或上升幅度,而不适用于表示数量的减少或下降。
番数是指原来数量的2的N次方倍。比如翻一番为原来数量的2倍。
同比与环比
同比是指与历史同时期进行比较得到的数值,该指标主要反映的是事物发展的相对情况。
环比是指与前一个统计期进行比较得到的数值,该指标主要反映的是事物逐期发展的情况。
PEST分析法用于对宏观环境的分析。宏观环境又称一般环境,是指影响一切行业和企业的各种宏观力量。主要分析的影响因素如下图所示:
5W2H分析法是以五个W开头的英语单词和两个H开头的英语单词进行提问,从回答中发现解决问题的线索。
将问题的所有子问题分层罗列,从最高层开始,并逐步向下扩展。
逻辑树的作用主要是帮助你理清自己的思路,避免进行重复和无关的思考。它能保证解决问题的过程的完整性,将工作细分为便于操作的任务,确定各部分的优先顺序,明确地把责任落实到个人。
逻辑树的适用必须遵循以下三个原则:
优点:可以理清思路。
缺点:可能有遗漏。
营销组合的要素可以概括为4类。
如果需要了解公司的额整体运营情况,就可以采用4P营销理论为指导,这样就可以全面地了解到公司的整体运营情况。
具体问题具体分析,灵活应用,切忌生搬硬套
用户使用行为是指用户为获取、使用物品或服务所采取的各种行动,用户对产品首先需要有一个认知、熟悉的过程,然后试用,再决定是否继续消费使用,最后成为忠诚用户。
【其实就是按照时间顺序对用户的行为进行了划分,然后分别进行分析,其他的领域里也能用到这个方法,不知道怎么分析时,就可以先思考一下流程,然后按照时间先后进行分析。】
几种分析框架总结:
【本部分有大量关于EXCEL的操作方法,不怎么用EXCEL的可以看一下,这里就略过了,只留下了与数据分析有关的内容】
这里的“维”指的是分析数据的角度。
清洗重复的数据、填充缺失的数据、检测逻辑错误的数据
【方法是利用EXCEL来处理,可以专门学习一下EXCEL相关的课程】
数据表中现有的数据字段不满足数据分析需求时,要对现有的字段进行抽取、计算或者转换,形成我们分析所需要的一列新数据字段。
【同样是利用EXCEL,下面的公式都是在EXCEL中可以利用的公式】
所谓对比分析法,是指将两个或两个以上的数据进行比较,分析它们的差异,从而揭示这些数据所代表的事物发展变化情况和规律性。
特点是:可以非常直观地看出事物某方面的敏华或差距,并且可以准确、量化地表示出这种变化或差距是多少。
静态比较:在同一时间条件下对不同总体指标的比较,如不同部门、不同地区、不同国家的比较,也叫横向比较,简称横比。
动态比较:在同一总体条件下对不同时期指标数值的比较,也叫纵向比较,简称纵比。
分组分析法是一种重要的数据分析方法,这种方法是根据数据分析对象的特征,按照一定的标志(指标),把数据分析对象划分为不同的部分和类型来进行研究,以揭示其内在的联系和规律性。
分组分析的关键在于确定组数与组距。在数据分组中,各组之间的取值界限称为组限,一个组的最小值称为下限,最大值称为上限;上限与下限的差值称为组距;上限值与下限值的平均数称为组中值,它是一组变量值的代表值。
数据分组的步骤:
是指被分析总体内的各部分与总体之间进行对比的分析方法,即总体内各部分与总体的比例,属于相对指标。一般某部分的比例越大,说明其重要程度越高,对总体的影响越大。
平均分析法是运用计算平均数的方法来反映总体在一定时间、地点条件下某一个数量特征的一般水平。可用于同一现象在不同地区、不同部门或单位间的对比,还可用于同一现象在不同时间的对比。
主要作用有两点:
平均数指标有算术平均数、调和平均数、集合平均数、众数和中位数等,其中最为常用的是算术平均数,也就是日常所说的平均数或平均值。
平均数是综合指标,它的特点是将总体内各单位的数量差异抽象化,它只能代表总体的一般水平,掩盖了在平均数后各单位的差异。
交叉分析法通常用于分析两个变量(字段)之间的关系,即同时将两个有一定联系的变量即其值交叉排列在一张表格内,使个变量值成为不同变量的交叉节点,形成交叉表,从而分析交叉表中变量之间的关系,所以也叫交叉表分析法。
运用多个指标对多个参评单位进行评价的方法,称为多变量综合评价分析方法,简称综合评价分析法。
(1)基本思想
将多个指标转化为一个能够反映综合情况的指标来进行分析评价。比如不同国家的经济实力,不同地区的社区发展水平,小康生活水平达标进程等都可以用这种方法。
(2)步骤
(3)综合评价分析法的三大特点
(4)数据标准化
是将数据按比例缩放,使之落入一个小的特定区间。数据标准化可以去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量纲的指标能够进行比较和加权。其中最典型的就是0-1标准化和Z标准化。
此方法的不足是,当有新数据加入时,可能导致最大值和最小值发生变化,需要重新计算。
(5)权重确定方法
有专家访谈法、德尔菲法、层次分析法、主成分分析法、因子分析法、回归分析法等。还有一种简单的权重确定法,即目标优化矩阵表。
目标优化矩阵的工作原理是把人脑的模糊思维,简化为计算机的1/0式逻辑思维,最后得出量化的结果。用途非常广泛,不但可以用于目标的优化,还可以用于任何项目的排序,如重要性排序等。
对于目标优化矩阵中设计的权重数值,可以找几个有经验或专业的人士,通过他们的投票表决来确定各项的重要性,从而获知个项目的权重数值。
用法:将纵轴上的项目依次与横轴上的项目对比,由专家进行投票表决,如果纵轴上的项目比横轴上的项目重要,那么在两个项目相交的格子中填“1”,否则填“0”,最后将每行数字相加,根据合计的数值进行排序。
杜邦分析法是由美国杜邦公司创造并最先采用的一种综合分析方法,又称杜邦财务分析体系,简称杜邦体系。它是利用各主要财务指标间的内在联系,对企业财务状况及经济效益进行综合分析评价的方法。
该体系以净资产收益率为龙头,以总资产收益率和权益乘数为核心,重点揭示企业盈利能力及权益乘数对净资产收益率的影响,以及各相关指标间的相互影响关系,为各级管理者优化经营理财状况、提高公司经营效益提供了思路。
特点是,将若干个用以评价企业经营效率和财务状况的比率按其内在联系有机地结合起来,形成一个完整的指标体系,并最终通过权益收益率来综合反映。
【这个图给我的启发很大,它展示了最终的结果是如何通过一步步的计算得到的,这种分析方法得到的结论是最清晰的。分析的重点是将各个环节的原理搞清楚,最终就能搞清楚一个复杂的过程。】
漏斗图是一个适合业务流程比较规范、周期比较长、各流程环节涉及复杂业务过程比较多的管理分析工具。通过漏斗图可以很快发现业务流程中存在问题的环节。
【与能量的传递、有效信息的传递过程都是一样的,所以一张图可以用在很多的领域】
单一的漏斗图无法评价网站某个关键流程中各步骤转化率的好坏。我们可以对同一环节优化前后的效果进行对比分析,或对同一环节不同细分用户群的转化率比较,或对同行业类似产品的转化率进行对比等等。漏斗图可以告诉我们各种业务在网站中的受欢迎程度或重要程度。
矩阵分析法是根据事物(如产品、服务等)的两个重要属性(指标)作为分析的依据,进行分类关联分析,找出解决问题的一种分析方法,也称为矩阵关联分析法,简称矩阵分析法。
以属性A为横轴,属性B为纵轴,组成一个坐标系,在两坐标轴上分别按某一标准(可取平均值、经验值、行业水平等)进行刻度划分,构成四个象限,将要分析的每个事物对应投影至这四个象限内,进行交叉分类分析,因此也称为象限图分析法。
矩阵关联分析法在解决问题和资源分配时,为决策者提供重要参考依据。先解决主要矛盾,在解决次要矛盾,有利于提高工作效率,并将资源分配到最能产生绩效的部门、工作中,有利于决策者进行资源优化配置。
发展矩阵
在矩阵中增加了发展趋势维度,让读者非常直观地了解到之前每个服务项目在用户评价中处于何种位置,现在处于何种位置,将来又如何发展,非常清晰直观,为决策者进行决策提供了强有力的支撑依据。
【将点连成线,就能表现出趋势】
改进难易矩阵
在原有两个指标的基础上,增加一个指标维度,例如改进难易程度,即企业可以集中有限的资源与精力先改进对企业来说既重要又比较容易改进的短板,如果有足够的资源,再改进相对较难改进的短板,对短板进行逐一击破,从而有效地进行短板的改进。
大部分的数据间关系可以归纳为以下六种类型:成分、排序、时间序列、频率分布、相关性、多重数据比较:
将折线图竖起来,像蛇一样,也称蛇形图。在市场研究咨询等公司使用较多,用它来展示产品功能、品牌形象等在消费者心中的评价。
也叫作步行图、阶梯图,在企业的经营分析、财务分析中使用较多,用于表示企业成本的构成、变化等情况。
又叫排列图、主次图,是按照发生频率的高低顺序绘制的直方图(无间距的柱形图),表示有多少结果是由已确认的原因所造成。它是将出现的质量问题和质量改进项目按照重要程度依次排列而得到的一种图表,用于分析质量问题,寻找影响质量问题的主要因素。
特殊的旋风图,专门用于反映人口的过去、现在、未来的发展情况。
标题、图例、单位、脚注、资料来源等图表要素都要有,才算是专业的图表。
首先,避免生出无意义的图表。有时候表格比图更能有效地传递信息,这时候就没必要绘图了。
第二,不要在图表里塞太多信息。最好一张图表反映一个观点。观点清晰的图表更能让人印象深刻。
第三,简约更好。只选对的,不选复杂的。
第四,一句话标题。标题要有吸引力,而且能概括大意。
要按照时钟表盘的刻度,把数据从12点钟的位置开始排列,最重要的成分紧靠12点钟的位置。
饼图不要使用图例。饼图使用图例的方式阅读起来很不方便,可将标签直接放在扇区内或旁边。
尽量不适用标签连线,如果要用切忌凌乱。
尽量不适用3D效果,如果要用厚度要尽量薄一些。
最大化数据墨水比
即指图标中的每一滴墨水都要有存在的理由。在图表中,曲线、条形、扇形等代表的是数据信息,故称为数据元素;而网格线、坐标轴、填充色等跟原始数据无关的就叫做非数据元素。
图表喜欢的数字格式
图表中的数字、英文和中文都调整为Arial字体。
如何突出对比
改变颜色、使用直线、箭头或者投影
相似色是由一种色调及其相应的多种亮色和暗色组成。相似色组合在一起给人的感觉很素雅、正式,但是也要注意可能会导致的两个问题:画面较平淡;对象区间区分度不够,有时候会让人忽略各个对象之间的差别。
邻近色就是色环上想尽的颜色,如橙黄色、橙色和橙红色,他们都有相同的基础色,所以邻近色的色调统一和谐,能够带给观众一种明显情感特征。
对比色是色环上相对的颜色。由于他们相互对立,所以在表示强调和对比时可利用对比色,例如在表示盈亏情况时,应力可以利用蓝色,亏损可以利用红色。最常用的对比色是:深色与浅色、亮色与暗色、冷色与暖色。
【针对EXCEL,这里就不仔细写了】
设立自己的图表模板库
按F11可以快速根据所选择数据区绘制默认类型的表格。
避免一个个添加数据标签
JWalk Chart Tools加载宏
将超大值改为自己想要的大小,然后在图表上插入截断标记,就是一个类似平行四边形的图形,并填充为白色,覆盖在E数据条的上方,代表中间省略了一段数据。
数据分析报告是根据数据分析原理和方法,运用数据来反映、研究和分析某项事物的现状、问题、原因、本质和规律,并得出结论,提出解决办法的一种分析应用文体。
开篇部分包括标题页、目录和前言(主要包括分析北京、目的与思路);
正文部分主要包括具体分析过程与结果;
结尾部分包括结论、建议及附录。
要写明报告的题目,题目要精简干练,根据版面的要求在一两行内完成。
1.解释基本观点
例如《不可忽视高价值客户的保有》、《语音业务是公司发展的重要支柱》。
2.概括主要内容
例如《我公司销售额比去年增长30%》《2010年公司业务运营情况良好》。
3.交代分析主题
例如《发展公司业务的途径》、《2010年运营分析》、《2010年部门业务对比分析》等。
4.提出问题
《客户流失到哪里去了》《公司收入下降到额关键何在》《1500万元的利润是怎样获得的》
以上就是《谁说菜鸟不会数据分析——入门篇》的读书笔记,推荐给像我一样的数据分析小白来看,普通人也可以看看,因为全书采用的师徒对话的形式进行讲述,而且插画很好,浅显易懂。