对比Excel,轻松学习Python数据分析

入门篇

通过入门篇的学习,你会对数据分析有一个宏观的认识,知道数据分析到底在分析什么,为什么要做数据分析,以及做了数据分析有什么好处。

第1章 数据分析基础

1.1 数据分析是什么

数据分析是指利用合适的工具在统计学理论的支撑下,对数据进行一定程度的预处理,然后结合具体业务分析数据,帮助相关业务部门监控、定位、分析、解决问题,从而帮助企业高效决策,提高经营效率,发现业务机会点,让企业获得持续竞争的优势。

1.2 为什么要做数据分析

在做一件事情之前我们首先得弄清楚为什么要做,或者说做了这件事以后有什么好处,这样我们才能更好地坚持下去。

啤酒和尿布的问题大家应该都听过,如果没有数据分析,相信大家是怎么也不会发现买尿布的人一般也会顺带买啤酒,现在各大电商网站都会卖各种套餐,相关商品搭配销售能大大提高客单价,增加收益,这些套餐的搭配都是基于历史用户购买数据得出来的。如果没有数据分析,可能很难想到要把商品搭配销售,或者不知道该怎么搭配。

谷歌曾经推出一款名为“谷歌流感趋势”的产品,这款产品能够很好地预测流感这种传染疾病的发生时间。这款产品预测的原理就是,某一段时间内某些关键词的检索量会异常高,谷歌通过分析这些检索量高的关键词发现,这些关键词,比如咳嗽、头痛、发烧都是一些感冒/流感症状,当有许多人都搜索这些关键词时,说明这次并非一般性感冒,极有可能是一场带有传染性的流感,这个时候就可以及时采取一些措施来防止流感的扩散。

虽然谷歌流感趋势预测最终以失败告终,但是这个产品的整体思路是值得借鉴的。感兴趣的读者可以上网查一下它的始末。

数据分析可以把隐藏在大量数据背后的信息提炼出来,总结出数据的内在规律。代替了以前那种拍脑袋、靠经验做决策的做法,因此越来越多的企业重视数据分析。具体来说,数据分析在企业日常经营分析中有三大作用,即现状分析、原因分析、预测分析。

1.2.1 现状分析

现状分析可以告诉你业务在过去发生了什么,具体体现在两个方面。

第一,告诉你现阶段的整体运营情况,通过各个关键指标的表现情况来衡量企业的运营状况,掌握企业目前的发展趋势。

第二,告诉你企业各项业务的构成,通常公司的业务并不是单一的,而是由很多分支业务构成的,通过现状分析可以让你了解企业各项分支业务的发展及变动情况,对企业运营状况有更深入的了解。

现状分析一般通过日常报表来实现,如日报、周报、月报等形式。

例如,电商网站日报中的现状分析会包括订单数、新增用户数、活跃率、留存率等指标同比、环比上涨/下跌了多少。如果将公司的业务划分为华北、东北、华中、华东、华南、西南、西北几个片区,那么通过现状分析,你可以很清楚地知道哪些区域做得比较好,哪些区域做得比较差。

1.2.2 原因分析

原因分析可以告诉你某一现状为什么会存在。

经过现状分析,我们对企业的运营情况有了基本了解,知道哪些指标呈上升趋势,哪些指标呈下降趋势,或者是哪些业务做得好,哪些做得不好。但是我们还不知道那些做得好的业务为什么会做得好,做得差的业务的原因又是什么?找原因的过程就是原因分析。

原因分析一般通过专题分析来完成,根据企业运营情况选择针对某一现状进行原因分析。

例如,在某一天的电商网站日报中,某件商品销量突然大增,那么就需要针对这件销量突然增加的商品做专题分析,看看是什么原因促成了商品销量大增。

1.2.3 预测分析

预测分析会告诉你未来可能发生什么。

在了解企业经营状况以后,有时还需要对企业未来发展趋势做出预测,为制订企业经营目标及策略提供有效的参考与决策依据,以保证企业的可持续健康发展。

预测分析一般是通过专题分析来完成的,通常在制订企业季度、年度计划时进行。

例如,通过上述的原因分析,我们就可以有针对性地实施一些策略。比如通过原因分析,我们得知在台风来临之际面包的销量会大增,那么我们在下次台风来临之前就应该多准备一些面包,同时为了获得更多的销量做一系列准备。

1.3 数据分析究竟在分析什么

数据分析的重点在分析,而不在工具,那么我们究竟该分析什么呢?

1.3.1 总体概览指标

总体概览指标又称统计绝对数,是反映某一数据指标的整体规模大小,总量多少的指标。

例如,当日销售额为60万元,当日订单量为2万,购买人数是1.5万人,这些都是概览指标,用来反映某个时间段内某项业务的某些指标的绝对量。

我们把经常关注的总体概览指标称为关键性指标,这些指标的数值将会直接决定公司的盈利情况。

1.3.2 对比性指标

对比性指标是说明现象之间数量对比关系的指标,常见的就是同比、环比、差这几个指标。

同比是指相邻时间段内某一共同时间点上指标的对比,环比就是相邻时间段内指标的对比;差就是两个时间段内的指标直接做差,差的绝对值就是两个时间段内指标的变化量。

例如,2018年和2017年是相邻时间段,那么2018年的第26周和2017年的第26周之间的对比就是同比,而2018年的第26周和第25周的对比就是环比。

1.3.3 集中趋势指标

集中趋势指标是用来反映某一现象在一定时间段内所达到的一般水平,通常用平均指标来表示。平均指标分为数值平均和位置平均。例如,某地的平均工资就是一个集中趋势指标。

数值平均是统计数列中所有数值平均的结果,有普通平均数和加权平均数两种。普通平均的所有数值的权重都是1,而加权平均中不同数值的权重是不一样的,在算平均值时不同数值要乘以不同的权重。

假如你要算一年中每月的月平均销量,这个时候一般就用数值平均,直接把12个月的销量相加除以12即可。

假如你要算一个人的平均信用得分情况,由于影响信用得分的因素有多个,而且不同因素的权重占比是不一样的,这个时候就需要使用加权平均。

位置平均是基于某个特殊位置上的数或者普遍出现的数,即用出现次数最多的数值来作为这一系列数值的整体一般水平。基于位置的指标最常用的就是中位数,基于出现次数最多的指标就是众数。

众数是一系列数值中出现次数最多的数值,是总体中最普遍的值,因此可以用来代表一般水平。如果数据可以分为多组,则为每组找出一个众数。注意,众数只有在总体内单位足够多时才有意义。

中位数是将一系列值中的每一个值按照从小到大顺序排列,处于中间位置的数值就是中位数。因为处于中间位置,有一半变量值大于该值,一半小于该值,所以可以用这样的中等水平来表示整体的一般水平。

1.3.4 离散程度指标

离散程度指标是用来表示总体分布的离散(波动)情况的指标,如果这个指标较大,则说明数据波动比较大,反之则说明数据相对比较稳定。

全距(又称极差)、方差、标准差等几个指标用于衡量数值的离散情况。

全距:由于平均数让我们确定一批数据的中心,但是无法知道数据的变动情况,因此引入全距。全距的计算方法是用数据集中最大数(上界)减去数据集中最小数(下界)。

全距存在的问题主要有两方面。

● 问题1,容易受异常值影响。

● 问题2,全距只表示了数据的宽度,没有描述清楚数据上下界之间的分布形态。

对于问题1我们引入四分位数的概念。四分位数将一些数值从小到大排列,然后一分为四,最小的四分位数为下四分位数,最大的四分位数为上四分位数,中间的四分位数为中位数。

对于问题2我们引入了方差和标准差两个概念来衡量数据的分散性。

方差是每个数值与均值距离的平方的平均值,方差越小说明各数值与均值之间的差距越小,数值越稳定。

标准差是方差的开方,表示数值与均值距离的平均值。

1.3.5 相关性指标

上面提到的几个维度是对数据整体的情况进行描述,但是我们有的时候想看一下数据整体内的变量之间存在什么关系,一个变化时会引起另一个怎么变化,我们把用

来反映这种关系的指标叫做相关系数,相关系数常用r来表示。

其中,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差。

关于相关系数需要注意以下几点。

● 相关系数r的范围为[-1,1]。

● r的绝对值越大,表示相关性越强。

● r的正负代表相关性的方向,正代表正相关,负代表负相关。

1.3.6 相关关系与因果关系

相关关系不等于因果关系,相关关系只能说明两件事情有关联,而因果关系是说明一件事情导致了另一件事情的发生,不要把这两种关系混淆使用。

例如,啤酒和尿布是具有相关关系的,但是不具有因果关系;而流感疾病和关键词检索量上涨是具有因果关系的。

在实际业务中会遇到很多相关关系,但是具有相关关系的两者不一定有因果关系,一定要注意区分。

1.4 数据分析的常规流程

我们再来回顾一下数据分析的概念,数据分析是借助合适的工具去帮助公司发现数据背后隐藏的信息,对这些隐藏的信息进行挖掘,从而促进业务发展。基于此,可以将数据分析分为以下几个步骤。

对比Excel,轻松学习Python数据分析_第1张图片

1.4.1 熟悉工具

数据分析是利用合适的工具和合适的理论挖掘隐藏在数据背后的信息,因此数据分析的第一步就是要熟悉工具。工欲善其事,必先利其器,只有熟练使用工具,才能更好地处理数据、分析数据。

1.4.2 明确目的

做任何事情都要目的明确,数据分析也一样,首先要明确数据分析的目的,即希望通过数据分析得出什么。例如,希望通过数据分析发现流失用户都有哪些特征,希望通过数据分析找到销量上涨的原因。

1.4.3 获取数据

目的明确后我们就要获取数据,在获取数据之前还需要明确以下几点。

● 需要什么指标。

● 需要什么时间段的数据。

● 这些数据都存在哪个数据库或哪个表中。

● 怎么提取,是自己写Sql还是可以直接从ERP系统中下载。

1.4.4 熟悉数据

拿到数据以后,我们要去熟悉数据,熟悉数据就是看一下有多少数据,这些数据是类别型还是数值型的;每个指标大概有哪些值,这些数据能不能满足我们的需求,如果不够,那么还需要哪些数据。

获取数据和熟悉数据是一个双向的过程,当你熟悉完数据以后发现当前数据维度不够,那就需要重新获取;当你获取到新的数据以后,需要再去熟悉,所以获取数据和熟悉数据会贯穿在整个数据分析过程中。

1.4.5 处理数据

获取到的数据是原始数据,这些数据中一般会有一些特殊数据,我们需要对这些数据进行提前处理,常见的特殊数据主要有以下几种。

● 异常数据。

● 重复数据。

● 缺失数据。

● 测试数据。

对于重复数据、测试数据我们一般都是做删除处理的。

对于缺失数据,如果缺失比例高于30%,那么我们会选择放弃这个指标,即做删除处理。而对于缺失比例低于30%的指标,我们一般进行填充处理,即使用0、均值或者众数等进行填充。

对于异常数据,需要结合具体业务进行处理,如果你是一个电商平台的数据分析师,你要找出平台上的刷单商户,那么异常值就是你要重点研究的对象了;假如你要分析用户的年龄,那么一些大于100或者是小于0的数据,就要删除。

1.4.6 分析数据

分析数据主要围绕上节介绍的数据分析指标展开。在分析过程中经常采用的一个方法就是下钻法,例如当我们发现某一天的销量突然上涨/下滑时,我们会去看是哪个地区的销量上涨/下滑,进而再看哪个品类、哪个产品的销量出现上涨/下滑,层层下钻,最后找到问题产生的真正原因。

1.4.7 得出结论

通过分析数据,我们就可以得出结论。

1.4.8 验证结论

有的时候即使是通过数据分析出来的结论也不一定成立,所以我们要把数据分析和实际业务相联系,去验证结论是否正确。

例如,做新媒体数据分析,你通过分析发现情感类文章的点赞量、转发量更高,这只是你的分析结论,但是这个结论正确吗?你可以再写几篇情感类文章验证一下。

1.4.9 展示结论

我们在分析出结论,并且结论得到验证以后就可以把这个结论分享给相关人员,例如领导或者业务人员。这个时候就需要考虑如何展示结论,以什么样的形式展现,这就要用到数据可视化了。

1.5 数据分析工具:Excel与Python

数据分析都是围绕常规数据分析流程进行的,在这个流程中,我们需要选择合适的工具对数据进行操作。

例如,导入外部数据。如果用Excel实现,那么直接单击菜单栏中的数据选项卡(如下图所示),然后根据外部数据的格式选择不同格式的数据选项即可实现。

对比Excel,轻松学习Python数据分析_第2张图片

如果用Python实现,那么需要编写如下代码进行数据导入,即你要根据文件的格式选择不同的代码,来导入不同格式的本地文件。

对比Excel,轻松学习Python数据分析_第3张图片

通过这个简单的例子,我们可以看到,同一个操作可以使用不同的工具实现,不同工具的实现方式是不一样的,Excel 是通过鼠标点选的方式来操作数据,而 Python需要通过具体的代码来操作数据。虽然两者的操作方式是不一样的,但都可以达到导入外部数据这一操作的目的。Python在数据分析领域只不过是和Excel类似的一个数据分析工具而已。

本书的编写都是按照这种方式进行的,针对数据分析中的每一个操作,分别用Excel和Pyhon对比实现。

 

相关链接:《对比Excel,轻松学习Python数据分析》

你可能感兴趣的:(python,机器学习,编程语言,人工智能)