什么是数据分析?数据分析有什么作用?怎么做数据分析?怎么使用图表?怎么写报告?每一个想要从事数据分析相关工作的人都需要回答这些问题,那如何学习数据分析呢?
数据分析有一些基本的框架如PEST、5W2H、逻辑树等,还有一些分析方法,如对比、杜邦等,网上可以找到的文章很多都来自于《谁说菜鸟不会数据分析》,因此,我花了两天时间读了这本书并整理了笔记,以下大纲可以帮你了解数据分析的基本内容,思维导图、png格式笔记见:
链接:https://pan.baidu.com/s/1shQi...
提取码:px0m
谁说菜鸟不会数据分析
第一章 数据分析那些事儿
数据分析是神马
-
何谓数据分析
-
数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
- 描述性数据分析
- 探索性数据分析
- 验证性数据分析
-
-
数据分析的作用
-
现状分析
- 告诉你过去发生了什么,用数据描述业务
-
原因分析
- 告诉你为什么会出现某一现状,用于寻找问题的根源,通常通过专题分析完成
-
预测分析
- 告诉你将来会发生什么,从而针对性制定策略
-
数据分析六部曲
-
明确分析的目标和思路
- 做事情需要目的导向,明确了目的才能针对性开展相关工作。
- 分析思路是一个分析的框架,对一个完整的框架进行填充远好于头脑风暴般的东拼西凑
-
搜寻相关的数据
- 数据库:每个公司都有自己的数据库,小规模的传统关系型数据库,大量数据下基于Hadoop的数据仓库等。
- 公开的出版物:《中国统计年鉴》《中国人口统计年鉴》等
- 互联网:政府企业的官方网站、统计局网站等等
- 市场调查:在进行数据分析时,需要了解特定用户的需求与想法,最好的方法就是市场调查。
-
对数据进行处理使之可用于分析
-
数据清洗
- 收集到的数据通常是“脏”的,可能有缺失值或不合理的数值,需要对其进行处理,以避免影响分析和建模
-
数据转化
- 收集到的数据可能包含文本等无法建模的数据,需要将其转化为数值型数据以方便建模
-
数据提取
- 子主题 1
-
数据计算
- 有些数据不能直接获取,需要间接计算,如平均值、方差等,或由销售量和价格计算销售额,再结合成本计算利润等。
-
-
对数据进行分析并获得结论
- 数据分析是指使用一定的方法和工具对数据进行分析,以提取有价值的信息并形成结论的过程
-
结论展示
- 通过可视化的方法简洁、明了、有力的说明数据分析获得的结论
-
分析报告撰写
- 包含数据分析的起因、过程、结果、建议完整的展示出来
数据分析的三大误区
- 分析目的不明确,为了分析而分析
- 缺乏业务知识,分析偏离实际
- 过分追求高级方法
数据分析师的职业要求与基本素质
- 要求:懂业务、懂管理、懂分析、懂工具、懂设计
- 基本素养:态度严谨负责,好奇心强烈,逻辑思维清洗,擅长模仿学习,勇于创新
第二章 结构为王,确定分析思路
数据分析方法论
-
什么是数据分析方法论?
- 数据分析方法论是数据分析的框架,是指导如何进行数据全面完整的数据分析的思维方法,是一个总体的指导思想而不是具体的方法。
-
数据分析方法论有什么作用?
- 理顺分析思路,确保数据分析结构化
- 把问题分成相关联的部分,并显示他们之间的关系
- 为后续数据分析的开展提供方向
- 保证数据分析结果的正确性和有效性
常用的数据分析方法论
-
PEST
-
是什么?
-
政治(Politic)
- 社会制度、政党性质、政府方针、政策、法令等
- 指标:政治体制、经济体制、财政政策、税收政策、产业政策、投资政策、专利数量、国防开支水平、政府补贴水平、民众政治参与度
-
经济(Economy)
- 宏观经济环境如国民收入、GDP等,微观经济环境如地区居民消费水平、消费偏好等
- 指标:GDP及增长率、进出口总额及增长率、利率、汇率、通胀率、消费价格指数、居民可支配收入、失业率、劳动生产率等
-
社会(Society)
- 包括一个国家或地区的居民受教育程度和文化水平 、宗教信仰、审美观念、风俗习惯、价值观念等
- 指标:人口规模、性别比例、年龄结构、种族结构、出生率、死亡率、生育率、生活方式、购买习惯、教育状况、城市特点、宗教信仰
-
技术(Technology)
- 相关领域技术手段、国家科技开发和投资重点、该领域技术开发动态和研究开发费用总额、技术转移和商品化速度、专利及其保护情况
- 指标:新技术的发明和进展、折旧和报废速度、技术传播速度、商品化速度
-
-
怎么用?
- 显然是从宏观方面多个角度分析的框架,适用于行业分析
-
-
5W2H
-
是什么?(记叙文六要素:时间地点人物起因经过结果)
- 何时(When)
- 何地(Where)
- 何人(Who)
- 何事(What)
- 何因(Why)
- 怎么做(How)
- 多少钱(How much)
-
怎么用?
- 现状分析的目的是使用数据描述事物,这与记叙文的要求十分类似,都要求清晰明白的描述清楚一件事或事物,适用范围十分广泛
-
-
逻辑树分析法
-
是什么?
- 逻辑树的根节点是最终要解决的问题,从根节点出发将一个大的问题分解成相关的小的问题并逐一解决以求最终解决问题
-
怎么用?
- 问题导向型的分析思路,适用于专题分析
-
三原则
- 要素化:把相同问题总结归纳成要素
- 框架化:把不同要素组成框架,做到不重不漏
- 关联化:框架内各要素保持必要的练习
-
-
4P营销理论
-
是什么?
-
产品(Product)
- 产品是商业活动的核心,产品是的价值是各种活动开展的基础,没有合格的产品,其他一切都是泡沫
-
价格(Price)
- 产品价格是产品的重要属性,利润是商业活动的主要追求目标。影响产品的三个因素:需求、成本、竞争。
-
渠道(Place)
- 指的是产品从生产企业流转到用户手上经历的所有过程。电商行业三个核心人、货、场之一的场。
-
促销(Promotion)
- 企业通过销售行为刺激消费增长,广告、宣传推广、人员推销、销售促进是一个机构促销组合的四大要素。
-
-
怎么用?
- 4P理论以产品为核心,涵盖了产品从生产企业到消费者手中的全流程,适用于对企业运营业务的全面分析
-
-
用户行为理论
-
是什么?
-
认知
-
网站访问
- PV、UV、人均页面访问量、访问来源
-
-
熟悉
-
网站浏览
- 平均停留时长、跳出率、页面偏好
-
站内搜索
- 搜索访问次数占比
-
-
试用
-
注册
- 注册用户数
- 注册转化率
-
-
使用
-
用户登录
- 登录用户数、人均登录、访问登录比
-
用户订购
- 订购数量、频次、内容、转化率
-
-
忠诚
-
用户粘性
- 回访者比率、访问深度
-
用户流失
- 流失数、流失率
-
-
-
怎么用?
- 用户行为模型是以用户为核心、以用户与企业的交互流程为主线的用户分析
-
第三章 数据准备
理解数据
-
特征与样本点
- 就是数据表的列和行,原文使用字段和记录来描述,我认为是一种很奇怪的命名方法,我至今不知道其来源及含义。相反,使用特征与样本的描述方法就很符合统计的特征。
-
数据类型
- 数值型数据
- 字符串数据
-
数据表
- 数据透视表其实就是python中groupby后unstack,也可以用pivot做,本质都是取出某个特征作为新的样本主体
数据来源
-
获取数据
-
导入本地数据
- pd.read_csv()with open('filename','r') as f
-
导入数据库数据
- mysql、redis、mogoDB
-
爬虫
- 初级数据分析师:requests+bs4+selenium
-
-
问卷录入
-
数值
- 直接输入
-
单选
- 直接录入1234数值,在统计上对分类变量的处理方法是使用虚拟变量,直接赋值1234在建模时很难解释
-
多选
- 使用虚拟变量
-
排序
- 录入数字顺序
-
文字
- 定性分析
-
第四章 数据处理
何为数据处理?
-
”三心二意“处理数据
- 信心:数据处理过程中可能会面对巨量的数据,数据处理过程繁琐而困难,这时必须要有信心
- 细心:1%的错误等于100%的失败数据处理过程一定要细心,错误的数据可能导致错误的结论
- 平常心:找不出错误时也不能急躁,有来自于领导的压力的时候也不能人云亦云。
- 诚意:要严谨细致
- 合意:数据分析是为业务服务的,要尽可能满足业务的需求
-
数据处理的内容
- 数据清洗
- 数据加工
数据清洗
-
去重
- df.drop_duplicates()
-
缺失数据处理
-
缺失样本点较少可直接删除
- df.dropna()
-
填充
-
使用均值、中位数等填充
- df.fillna()
- 使用模型预测填充
-
-
-
检查数据逻辑错误
- 分类变量可通过df.column.value_counts()查看数据取值是否有异常值
- 连续变量可去除一些显而易见的错误值,python根据特征删除样本的方法很多,不在此赘述
数据加工
-
数据抽取
-
字段分列:将原有字段分为两个新字段
- df.column.str.split()
-
字段合并:将多个字段合并成一个字段
- df.new_col = df.apply(lambda x: x.col1 + x.col2)
-
字段匹配:通过表连接获取其他数据表中的数据
- df1 = df1.merge(df2,on='col1',how='inner')
-
-
数据计算
-
简单计算,如由数量价格计算销售额
- df['销售额'] = df.apply(lambda x : x[ ' 数量 ' ]*x[ ' 价格 ‘ ])
-
-
数据分组
-
即数据离散化
- which_bin = np,digitize(X,bins = bins)
-
-
数据转化
-
行列互换
- df.T
-
其他具体应用
- 通过def f(x)与df.apply()结合可以完成众多的具体应用
-
-
数据抽样
- df = df.sample(frac=0.1)
第五章 数据分析
数据分析方法
-
对应数据分析三大应用,有三大基本数据分析方法
- 对比分析
- 细分分析
- 预测分析
-
对比分析法
- 定义:将两个或两个以上的数据进行比较,分析他们的差异从而揭示现状及规律。
-
分类
- 静态比较:同一时间下不同对象的指标比较,如不同国家、不同地区的指标比较,又称横向比较 - 动态比较:同一对象不同时期的指标比较,也称纵向比较
-
实践应用
- 与目标对比:实际完成值与目标值之间的对比,属于横比 - 不同时期对比:选择不同时期的指标做对比,属于纵比。如同比(与去年同期比较)、环比(与上个月比较) - 同级部门单位地区对比:可明确自己部门在公司集团内部处于什么位置,哪些指标是领先的,哪些是落后的,进而找出下一步发展的目标。 - 行业内对比:与行业内的标杆企业、竞争对手或平均水平对比,属于横比。通过对比,明确自身某一方面处于什么位置,进而确认发展方向 - 活动效果对比:活动开展前后数据指标的对比,用于评估活动效果
-
分组分析法
- 即使用数据离散化将某一指标离散化人为制造分组,然后对不同分组的数据进行横比,以获得信息。如按照年龄将消费者分为不同的年龄组,对比不同年龄组的消费者的消费能力。python中可以采取cut方法分组,等距、等频等分组方法。
-
结构分析法
- 结构分析关注总体内各部分占总体的比例,比如某公司的市场占有率,集团内高新技术产业产值占总产值的比例等。通过这些指标识别企业发展状况
-
平均分析法
- 指标为平均指标(算数平均数、几何平均数、中位数、众数)的分析方法,通常结合对比分析法使用。
- 交叉分析法
- 交叉分析法其实就是制作二维表,在SQL和Python中就是groupby操作。
- 在上表中如果想要知道一月份A地区所有水果的总销量
- python:df.groupby(['月份’,‘地区’],as_index = False)['销量'].sum()
- SQL: select ’地区‘,’月份‘,sum('销量') from table group by '地区‘,’月份‘
-
综合评价分析法
- 简介:考虑这样一个例子,通过对比日本与俄罗斯的GDP等经济指标可知日本的经济实力强于俄罗斯,对比军队数量、战略导弹数量等指标可知俄罗斯军事实力强于日本,那如何评价两国的综合实力呢?这时,单一指标无法对目标做出完整的评价,需要把各个指标按照一定的权重加权获得一个融合性指标,这就是综合评价分析法。
-
综合评价分析法的步骤
- 1、确定综合评价指标体系,即在评价时使用了哪些指标进行加权。
- 2、收集数据并进行标准化处理
- 3、确定不同指标的权重
- 4、对处理后的指标进行汇总计算出综合评价评分
- 5、根据评分进行排序,获得结论
-
三大特点
- 不是逐个指标顺次完成,而是多个指标同时参与评价
- 一般要根据指标的重要性进行加权处理
- 最终指标不再具有具体含义
-
数据标准化方法
-
为什么要进行标准化?
- 由于不同指标的尺度不同,比如GDP是万亿级别,军队数量仅仅百万级别,直接计算会导致结果差异极大
- 某些模型,如SVM、神经网络等模型对于数据敏感程度很大,标准化有利于提高模型泛化能力
-
0-1标准化
- 处理后的值 = (处理前的值 - 特征最小值)/(最大值 - 最小值)
- 显然处理后的值位于[0,1]之间
- 在python中,可以自定义函数实现,也可以使用sklearn.preprocessing中的MinMaxScalar()实现
-
Z-score标准化
- 处理后的值 = (处理前的值 - 均值)/ 标准差
- 自然状态下,很多数据服从近似的正态分布,Z-score方法将正态分布转化为标准正态分布,即均值为0,方差为1的正态分布。
- python中同样可以使用sklearn.preprocessing的StandardScalar()方法完成
-
其他标准化方法
-
RobustScaler()
- 使用中位数、四分位数而不是均值、方差
-
Normalizer()
- 对每个特征向量缩放,使其长度为1.
-
-
-
权重确定方法
- 专家访谈法
- 德尔菲法
- 层次分析法
- 主成分分析法
- 因子分析法
- 回归分析法
-
目标优化矩阵表
- 针对M个指标,对于每个指标Mi,将分别其与剩余M-1个指标对比,如果比某指标更重要,则加1分,否则加0分,则指标Mi的权重为,该指标最终得分与所有指标得分之和的比值。
-
杜邦分析法
-
定义
- 利用各主要财务指标之间的内在联系对企业财务状况及经济效益进行综合分析的方法。
-
相关概念
-
资产总额
- 企业拥有或控制的全部财产,如固定资产(厂房、设备等)、货物资产(库房中的产品),可分为股东权益(净资产)和债主权益(负债总额)
-
股东权益
- 企业拥有的净资产
-
权益乘数
- 资产总额与净资产的比值,反映企业的财务杠杆大小
-
平均资产总额
- 某对象在某个时期起始和结束的资产总额的平均值
-
总资产收益率
-
对象在某个时期的净利润与平均资产总额的比值。
- 在这里我的理解是资产收益率的目标是衡量资产的利润产生效率,利润是某个时间段内企业所产生的,但是在这个时间段内企业的资产总额是变化的,因此应当取平均值衡量,数学上应该使用对资产在该时期内的变化曲线进行积分而后取得的函数平均值,这里应该是因为实际取简化方法。
-
-
净资产收益率
- 对象在某个时期的净利润与平均净资产的比值。
-
总资产周转率
- 对象在某个时期的总销售额与平均总资产的比值。
-
主营业务利润率
- 主营业务净利润与主营业务收入之比(真是奇葩的指标,名叫利润但是分母不是成本)
-
-
具体架构
- 杜邦分析体系以净资产收益率为龙头,以资产收益率和权益乘数为核心,财务指标相关的关系以及其反映的事实对企业财务的影响,为管理者优化经营理财状况提供思路。
- 提高资产收益率的根本在于扩大销售,节约成本,优化投资配置,加快流转,优化资金结构确定风险意识。
- 结构
-
- 显然,杜邦分析法是假定企业资产完全不发生变化的一个简易模型
- 引申利用方法
- 杜邦分析法最初是用于分析公司的财务状况,本质上是对核心财务指标进行分解。在其他领域依然可以使用,如将核心指标换为市场占有率等,使用杜邦分析法有利于发现辛普森悖论的存在,避免对现状进行错误的描述。
-
漏斗图分析法
-
是什么?
- 漏斗图是一种适合业务流程比较规范,周期比较长,各流程环节涉及复杂业务过程比较多的管理分析工具。
- 例子
-
- 单一漏斗图只能反映现状如何,需要与其他状态对比(废话么这不是)
-
矩阵关联分析法
-
是什么?
- 矩阵分析法实际上是一种使用两个特征的分类方法,聚类边界是平行于轴的直线。
- 具体实例
-
- 如图所示,将两个重要的属性或指标分别作为x、y轴将对象进行分类,图中的点为公司的服务项目。
- 第一象限为重要且满意度高的服务,需继续保持
- 第二象限为重要但满意度不高的服务,需要重点优化
- 第三象限为不重要且满意度不高的服务,可以暂缓优化
- 第四象限为不重要但满意度高的服务,可以适当减小资源倾注
- CRM(Customer Relationship Management)中FRM(Frequency、Recency、Money)模型就是此类模型,只是使用了三个指标
- 增加维度
- 发展矩阵
- 一种变种,它增加了一个时间维度进行展示
- 改进难易矩阵
- 增加了改进难易程度的维度
-
高级数据分析方法
-
产品研究
- 相关分析
- 对应分析
- 判别分析
- 结合分析
- 多维尺度分析
-
品牌研究
- 相关分析
- 聚类分析
- 判别分析
- 因子分析
- 对应分析
- 多维尺度分析
-
价格研究
- 相关分析
- PSM价格分析
-
市场细分
- 聚类分析
- 判别分析
- 因子分析
- 对应分析
- 多维尺度分析
- logistic回归
- 决策树
-
满意度研究
- 相关分析
- 回归分析
- 因子分析
- 主成分分析
- 结构方程
-
用户研究
- 相关分析
- 聚类分析
- 判别分析
- 因子分析
- 对应分析
- logistic回归
- 决策树
- 关联规则
-
预测分析
- 回归分析
- 决策树
- 神经网络
- 时间序列
- logistic回归
-
数据分析工具
-
数据透视表
- 各种groupby的应用
第六章 数据展示
让老板30秒内读懂你的数据
解开图表真面目
-
图表的作用
- 表达形象化
- 突出重点
- 体现专业化
-
经济适用图表有哪些?
- 表格、柱状图、折线图、散点图、饼图
-
通过关系选择图表
-
成分
- 饼图、堆积柱状图、瀑布图
-
排序
- 柱状图、气泡图、帕累托图
-
时间序列
- 柱状图、折线图
-
频率分布
- 直方图、概率密度图
-
相关性
- 柱状图、对称条形图、散点图、气泡图
-
多重数据比较
- 雷达图
-
-
图表制作五步法
- 确定自己想要表达的主题或目的
- 确定哪种图表更适合
- 选择数据制作图表
- 检查是否有效展示数据
- 检查是否表达了你的观点
表格也疯狂
- Excel中的可视化
图表示例
- 瀑布图
- 用于分析总体的成分
- 帕累托图
- 柱状图按照大小降序排序
- 旋风图
- 可用于AB test前后对比等
- 人口金字塔图
- 连续变量的分类分布
- 气泡图
- 泡泡大小不同,用于排序
第八章 数据分析报告
是什么?
- 根据数据分析原理和方法,运用数据来反映、研究、分析事物的现状、原因、问题、本质、规律并提出解决方法的一种分析应用文体。
写作原则
-
规范性
- 使用名词术语规范,标准统一,前后一致,与业内公认术语一致。
-
重要性
- 报告应当体现数据分析的重点,重点选取关键指标,针对同一类问题,应当按照重要性分级阐述
-
谨慎性
- 报告一定要谨慎,基础数据必须真实完整,分析过程必须科学、合理、全面
-
创新型
- 不说了。
作用
-
展示分析结果
- 将数据分析的内容展示给决策者,使其能迅速理解、分析、研究问题的情况、结论、建议。
-
验证分析质量
- 通过报告中对数据分析方法的描述、结果的处理和分析等几个方面检验分析的质量
-
提供决策参考
- 子主题 1
种类
-
专题分析报告
- 单一性
- 深入性
-
综合分析报告
- 全面性
- 联系性
-
日常数据通报
- 进度性
- 规范性
- 时效性
作者:心里有点小空白(GuessIt)
XMind: ZEN - Trial Version