网上的信息太琐碎了,根本没搞懂什么是数据分析方法什么是数据分析方法论,所以找了一本比较简单的书来系统学习一下,本来打算粗略看完,但是觉得这本书知识还是不错的,所以决定在未来一周把这本书用心学一下。
这本书是基于Excel讲解的,顺便复习了下Excel的用法,笔记只记录我觉得有用的内容。
第一章 数据分析那些事儿
第二章 确定分析思路
第三章 数据准备
第四章 数据处理
第五章 数据分析
第六章 数据展现
第七章 图表优化
第八章 数据分析报告
1.1 什么是数据分析?
1.1.1 何谓数据分析?
数据分析的目的是把隐藏在一大批看似杂乱无章的数据背后的信息集中和提炼出来,总结出所研究对象的内在规律。数据也称观测值,是通过实验、测量、观察、调查等方式获取的结果,常常以数量的形式展现出来。
实际工作中,数据分析能够帮助管理者进行判断和决策。
数据分析可分为广义数据分析和狭义数据分析,广义数据分析包括狭义数据分析和数据挖掘,本书讲的是狭义数据分析。
狭义数据分析
定义:数据分析是根据分析目的,用适当的分析方法和工具,对数据进行处理和分析,提取有价值的信息,形成有效结论的过程。
作用:现状分析、原因分析、预测分析
方法:对比分析、分组分析、结构分析、分布分析、交叉分析、矩阵分析、回归分析等
结果:一般得到一个指标统计量结果,如总和、平均值、计数等,这些指标数据需要和业务结合进行解读,才能发挥出数据的价值和作用。
数据挖掘
定义:数据挖掘是从大量的数据中,通过统计学、机器学习、数据可视化等方法,挖掘出未知但有价值的信息和知识的过程
作用:数据挖掘主要侧重解决四类问题——分类、聚集、关联和预测,数据挖掘的重点在于寻找未知的模式和规律,例如啤酒与尿布等事先未知但又可能是非常有价值的信息。
方法:输出模型或规则,同时计算出模型得分或标签。模型得分如流失概率值、综合得分、相似度、预测值等,标签如流失与非流失、高中低价值用户、信用优良中差等
1.1.2 数据分析的作用
要达到数据分析的最终目的,在日常工作中应该做什么?比如日常通报、专题分析等,这些都是数据分析具体工作的体现。
数据分析在企业的日常经营分析中主要有三大作用
现状分析-----原因分析-----预测分析
(发生了什么—为什么发生—将发生什么)
现状分析一般通过日常通报来完成,如日报、周报、月报等形式
原因分析一般通过专题分析来完成,根据企业运营情况选择针对某一现状进行原因分析。
预测分析一般通过专题分析来完成,通常在制订企业季度、年度等计划时进行,开展的频里没有现状分析和原因分析高。
1.2 数据分析的流程
数据分析流程主要包括6个既相对独立又互有联系的阶段。
明确分析目的和思路–数据收集–数据处理–数据分析–数据展现–报告撰写
1.2.1 明确分析目的和思路
明确分析目的
开展数据分析之前,要想想,为什么要开展数据分析?通过这次数据分析我要解决什么问题?只有明确数据分析的目的,数据分析才不会偏离方向,否则得出的结论不但没指导意义,甚至可能将决策者引入歧途。
明确分析思路
明确分析目的后,要梳理分析思路,并搭建分析框架,把分析目的分解成若干个不同的分析要点,即如何具体开展数据分析,需要从哪几个角度进行分析,采用哪些分析指标。还要确保分析框架的体系化,使分析结果更有说服力。
分析框架体系化指的是,逻辑化,简单来说是先分析什么,后分析什么,使得各个分析点之间具有逻辑联系。
如何使分析框架体系化呢?
以营销、管理等理论为指导,结合实际业务情况,搭建分析框架,这样才能确保数据分析维度的完整性,分析结果的有效性及正确性。
营销方面的理论模型有4P、用户使用行为、STP理论、SWOT等
管理方面的理论模型有PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则等。
1.2.2 数据收集
数据来源方式一般有:数据库、公开出版物、互联网、市场调查。
1.2.3 数据处理
数据处理指对收集到的数据进行加工整理,得到适合数据分析的样式。
数据处理主要包括数据清洗、数据合并、数据拆分、数据计算、数据转换等。
1.2.4 数据分析
用适当的分析方法及工具,对收集来的数据进行分析,提取信息,形成结论。
应确定适合的数据分析方法,要掌握对比分析、分组分析、结构分析、分布分析、交叉分析、矩阵分析、回归分析等常用分析方法,
还要熟悉常用数据分析工具的操作,如EXCEL SPSS R SQL Python。
1.2.5 数据展现
能用图说明问题的不用表格,能用表格说明的不用文字。
1.2.6 报告撰写
数据分析报告是对整个数据分析过程的一个总结与呈现。通过报告,把数据分析的起因、过程、结果及建议完整地呈现出来。
1.3 数据分析三大误区
分析目的不明确,为分析而分析
缺乏业务知识,分析结果偏离实际
一味追求使用高级分析方法,热衷于研究模型
1.4 数据分析师的要求
数据敏感性 指的是 明白数字代表的意义,知道数字是大了还是小了,心中有数。
1.5 常用指标和术语
平均数
一般指算术平均数,代表总体的一般水平,掩盖了总体内各单位的差异
绝对数和相对数
绝对数反映客观现象总体在一定时间、地点条件下的总规模、总水平的综合性指标,如GDP、总人口等。此外,绝对数也可以表现为在一定时间、地点条件下数量增减变化的绝对数,比如A国人口比B国人口多1000万。
相对数是指由两个有联系的指标对比计算而得到的数值,是用以反映客观现象之间数量联系程度的综合指标。
相对数=比较数值(比数)/基础数值(基数)
相对数一般以倍数、成数、百分数等表示,它反映了客观现象之间数量联系的程度。
百分比和百分点
百分比是相对数的一种,表示一个数是另一个数的百分之几,也称百分率或百分数。采用百分号%表示。
百分点是指不同时期以百分数的形式表示的相对指标的变动幅度,1个百分点=1%。
例如,公司今年的利润是45%,比去年的28%提高了17个百分点。
频数与频率
频数是指一组数据中个别数据重复出现的次数。
频率是每组类别次数与总次数的比值,它代表某类别在总体中出现的频繁程度,一般用百分数表示,所有组的频率加总等于100%。
比例与比率
比例是指在总体中各部分的数值占全部数值的比重,通常反映总体的构成和结构。比如A班共有学生50人,男生30人,女生20人,则男生的比例是30:50,女生的比例是20:50,比例的基数(分母)是全体学生人数,即同一个基数。
比率是指不同类别数值的对比,它反映的不是部分与整体之间的关系,而是一个整体中各部分之间的关系,比如男生女生的比率是30:20。
倍数与番数
倍数与番数同样属于相对数。倍数是一个数除以另一个数所得的商。需要注意的是,倍数一般是表示数量的增长或上升幅度,而不适用于表示数量的减少或下降。
番数是指原来数量的2的N次方倍。比如翻一番为原来数量的2倍(2的1次方),翻两番为4倍(2的2次方)。比如,“公司产品销量翻一番,从去年的3.2万件提高到今年的6.4万件,此外我们的成本控制也很好,由20万元下降了50%(不用倍数),今年成本为10万元”。
同比与环比
同比是指与历史同时期进行比较得到的数值,该指标主要反映的是事物发展的相对情况。比如2010年12月与2009年12月相比。
环比是指与前一个统计期进行比较得到的数值,该指标主要反映的是事物逐期发展的情况。例如2010年12月与2010年11月相比。
2.1 数据分析方法论
数据分析的分析思路需要以营销、管理等理论为指导,我们把这些跟数据分析相关的营销、管理等理论统称为数据分析方法论。
2.1.1 数据分析方法论与数据分析法的区别
数据分析方法论主要用来指导数据分析师进行一次完整的数据分析,它更多的是指数据分析思路,比如主要从哪几方面开展数据分析?各方面包含什么内容和指标?
数据分析法 则是指具体的分析方法,如我们常见的对比分析、交叉分析、相关分析、回归分析、聚类分析等数据分析法。
2.1.2 数据分析方法论的重要性
确保分析结构体系化
各部分的分析逻辑清晰
2.2 常用的数据分析方法论
2.2.1 PEST分析法
PEST分析法用于对宏观环境进行分析,一般都应对政治(political)、经济(economic)、技术(technological)和社会(social)这四大类影响企业的主要外部环境因素进行分析。
构成政治环境的关键指标有:政治体制、经济体制、财政体制、税收政策、产业政策、投资政策、国防开支水平、政府补贴水平、民众对政治的参与度等。
构成经济环境的关键指标有:GDP及增长率、进出口总额及增长率、利率、汇率、通货膨胀率、消费价格指数、居民可支配收入、失业率、劳动生产率等。
构成社会文化环境的关键指标有:人口规模、性别比例、年龄结构、出生率、死亡率、种族结构、妇女生育率、生活方式、购买习惯、教育状况、城市特点、宗教信仰状况等因素。
构成技术环境的关键指标有:新技术的发明和进展、折旧和报废速度、技术更新速度、技术传播速度、技术商品化速度、国家重点支持项目、国家投入的研发费用、专利个数、专利保护情况等因素。
以互联网行业分析为例
2.2.2 5W2H分析法
该方法富有启发意义,有助于弥补考虑问题的疏漏。
2.2.3 逻辑树分析法
逻辑树将问题的所有子问题分层罗列,从最高层开始,并逐步向下扩展。
把一个已知问题当作树干,然后开始考虑这个问题和哪些问题有关,每想到一点,就给这个问题所在的树干加一个“树枝”。
逻辑树虽然可以用头脑风暴法把涉及的问题总结归纳出来,但还是难以避免存在不周全的地方。
2.2.4 4P营销理论
4P营销理论是随着营销组合理论的提出而出现的,营销组合实际上有几十个要素,这些要素可以概括为4类,产品(product)、价格(price)、渠道(place)、促销(promotion)。
产品 包括有形产品、服务、人员、组织、观念或它们的组合。
影响定价的主要因素有三个,需求、成本与竞争。最高价格取决于市场需求,最低价格取决于该产品的成本费用,再最高与最低价格的区间内,企业能把这种产品价格定多高则取决于竞争者的同种产品的价格。
2.2.5 用户使用行为理论
网站分析的发展已经较为成熟,有一套成熟的分析指标。比如IP、PV、页面停留时间、跳出率、回访者、新访问者、回访次数、回访相隔天数、流失率、关键字搜索、转化率、登录率等等。是否都要采用?什么该用?什么不该用?各指标间联系?先分析哪个指标?后分析哪个指标?
所以要梳理指标间关系,比如利用用户使用行为理论进行梳理。
用户使用行为是指用户为获取、使用物品或服务所采取的各种活动,用户对产品首先需要有一个认知、熟悉的过程,然后试用,再决定是否继续消费使用,最后成为忠诚用户。
利用用户使用行为理论,梳理网站分析的各关键指标之间的逻辑关系,构建符合公司实际业务的网站分析指标体系。
总结:
1、PEST分析理论主要应用于行业分析
2、4P分析理论主要用于公司整体经营情况分析
3、逻辑树分析理论可用于业务问题专题分析
4、用户使用行为理论的用途较单一,就是用于用户行为研究分析。
5、5W2H分析理论的用途相对广泛,可用于用户行为分析、业务问题专题分析等。
6、此外还有金字塔法、生命周期理论等。