首先必须要对想要自学数据分析的朋友表示敬佩!数据分析是个很庞大的学科体系,零零碎碎的知识点可能一辈子都学不尽,敢自学挑战的一定是个学习力和行动力超强的人!
作为一个非科班转型的初级数据分析师,常有身边朋友问我的转型原因和经历,以及对数据分析学习的自学经验。
今天这篇文章就来分享一下如何自学数据分析,以及我的数据分析师转型之路,希望对想要进入这一行的小白朋友们有一些帮助,也欢迎大家来跟我交流心得,文章最后有彩蛋,有我学习的视频教程,分享给大家
我是本科管理专业的,毕业之后一直很焦虑,不喜欢自己的专业,也找不到什么对口又喜欢的工作,总感觉缺少一项硬性技能进入职场核心竞争力就不够强。
后来通过广告想尝试转行数据分析师方向,就跑去网上各种查找资料,咨询大佬~
确实,现在数据分析师太火了,人才缺口也很大,各公司开出的薪资也是非常诱人,不用说一线北上广的大厂待遇了,就看看我这二线城市,待遇也挺香!这也是推动我转行的动力之一!
经过一个多月的慎重思考,我决定零基础转行数据分析师,放手一搏!
也感谢当初全力以赴学习的自己,一个啥也不懂的菜鸟,从统计学SQL到python tableau,用了四个月的时间拿下了数据分析的基本技能!
对数据分析感兴趣的朋友们,想好了这条路就开始全力以赴地学吧,只要够努力,没什么不可能!
在学习数据分析之前,一定要对自己想要进入的行业有个定位,因为不同行业的数据分析师使用的工具和侧重点都大不相同。
定位确定了,下一步的学习才有针对性,毕竟工具也是数据分析师找工作的敲门砖之一,所以提前熟练掌握是非常有必要的!
一个优秀的数据分析师通常有扎实的SQL基础,能够熟练使用 Excel,还得至少掌握一门数据挖掘语言(R、SAS、Python、SPSS),不同的行业会有一些具体区别,最常用的就是这三种基础的——Excel、SQL和Python。
Excel可以说是最最基本的一个数据分析工具了,基本上只要你上大学考国家计算机二级就得会操作基本模块,只是在数据分析领域里要会一些简单的函数(比如vlookup函数、sumif函数、produc函数),还有一些数据透视表和常用数据显示图标等等。如果你日常工作中涉及到的问题都比较简单,容易处理,拿下EXCEL就差不多可以帮你cover基础业务问题需求了。如果觉得自学Excel比较困难的话,可以参考我使用的教程,里面包含Excel软件、实战的资料,照着老师讲的自学就行
获取教程看文章底部
SQL确实难啃,最大的问题就是容易忘,几天不写就手生。建议如果自学的话,一定要知行合一,一定要注重案例实操,我之前用的教程里有大量的案例实战。
获取教程看文章底部
爬虫火起来也是近一两年的事了,主要还是因为能解决的问题太多啦,不管是工作还是生活,对于有一些编程底子的人来说爬虫入门很好上手。数据分析师小白们需要掌握的主要是基础语法和数据科学的模块,主要包括pandas numpy 和机器学习库
获取教程看文章底部
4、Hive
Hive是大数据(hadoop)生态系统非常重要的一个工具,它提供了一种类SQL的语言,可以查询存储在Hadoop分布式文件系统(HDFS)中的数据,也可以查询Hadoop数据库(Hbase)中的数据,可以说通过Hive这个数据仓库工具大大降低了开发难度,对于数据分析师来说真的非常友好,只要使用SQL语言的分析师就可以轻松的使用Hive玩转大数据,当然Hive和其他的基于SQL的环境还是有一些差异。
Hive是需要着重学习的,为什么?其实提供数据分析师岗位最多的是互联网公司,这些公司像腾讯、阿里、美团的特点是用户量已经达到亿级别的。需要进行用户分析的数据根式达到百亿级别。传统的Mysql、oracle不足以支撑。所以要想拿到高薪水,必须要要掌握Hivesql。具体的学习路径可以参考我之前的学习课程
获取教程看文章底部
5、统计方法论
数据分析中的统计分析方法,及其适用条件。这七种多元统计方法包括:回归分析、方差分析、判别分析、聚类分析、主成分分析、因子分析和典型相关分析。
(1)回归分析
在实际问题中,经常会遇到需要同时考虑几个变量的情况,比如人的身高与体重,血压与年龄的关系,他们之间的关系错综复杂无法精确研究,以致于他们的关系无法用函数形式表达出来。为研究这类变量的关系,就需要通过大量实验观测获得数据,用统计方法去寻找他们之间的关系,这种关系反映了变量间的统计规律。而统计方法之一就是回归分析。最简单的就是一元线性回归,只考虑一个因变量y和一个自变量x之间的关系。例如,我们想研究人的身高与体重的关系,需要搜集大量不同人的身高和体重数据,然后建立一个一元线性模型。接下来,需要对未知的参数进行估计,这里可以采用最小二乘法。最后,要对回归方程进行显著性检验,来验证y是否随着x线性变化。这里,我们通常采用t检验。
(2)方差分析
在实际工作中,影响一件事的因素有很多,人们希望通过实验来观察各种因素对实验结果的影响。方差分析是研究一种或多种因素的变化对实验结果的观测值是否有显著影响,从而找出较优的实验条件或生产条件的一种数理统计方法。
人们在实验中所观察到的数量指标称为观测值,影响观测值的条件称为因素,因素的不同状态称为水平,一个因素可能有多种水平。在一项实验中,可以得到一系列不同的观测值,有的是处理方式不同或条件不同引起的,称为因素效应。有的是误差引起的,称做实验误差。方差分析的主要工作是将测量数据的总变异按照变异原因的不同分解为因素效应和试验误差,并对其作出数量分析,比较各种原因在总变异中所占的重要程度,作为统计推断的依据。
(3)判别分析
判别分析是用来进行分类的统计方法。我来举一个判别分析的例子,想要对一个人是否有心脏病进行判断,可以取一批没有心脏病的病人,测其一些指标的数据,然后再取一批有心脏病的病人,测量其同样指标的数据,利用这些数据建立一个判别函数,并求出相应的临界值。这时候,对于需要判别的病人,还是测量相同指标的数据,将其带入判别函数,求得判别得分和临界值,即可判别此人是否属于有心脏病的群体。
(4)聚类分析
聚类分析同样是用于分类的统计方法,它可以用来对样品进行分类,也可以用来对变量进行分类。我们常用的是系统聚类法。首先,将n个样品看成n类,然后将距离最近的两类合并成一个新类,我们得到n-1类,再找出最接近的两类加以合并变成n-2类,如此下去,最后所有的样品均在一类,将上述过程画成一张图。在图中可以看出分成几类时候每类各有什么样品。
(5)主成分分析
主成分分析是对数据做降维处理的统计分析方法,它能够从数据中提取某些公共部分,然后对这些公共部分进行分析和处理。在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现在F2中,用数学语言表达就是要求Cov(F1, F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分。
这些统计学分析方法,会涉及到统计学的知识,如果自己数据基础不够的话,可以参考如下的课程
二、培养数据分析师的业务能力
想成为优秀的数据分析师,工具的使用只是术的层面,归根结底要有自己一套解决问题的业务能力。
底层的逻辑思维才能支撑我们在面对不同场景的时候,能灵活运用不同的分析模型来解决问题。
觉得自己缺少逻辑能力的可以看看
这本书,能帮数据分析时建立一个结构化思维。
我总结的经验就是,多看实战类的数据,多找找网上那些数据分析的优质案例,跟着案例的思路走一遍你就发现,其实没有想象中那么难!
我能顺利零基础转行,其实除了自己下的功夫多,还多亏了报名的数据分析师免费课,帮我从基础的逻辑思维培养,到工具使用都系统学习了一遍,老师还带着我们分析了很多经典案例。
几个月来一步步扎扎实实地学,我才能从小白迅速蜕变、成长为一名真正合格的数据分析师~虽然辛苦,但是值得!
这门课程完全免费,但全是满满的干货!把数据分析的入门知识讲得深入浅出,也帮我自己坚定了转行的信心。推荐正在自学数据分析的小白们都来体验一下,点击链接就可以领取免费听课名额哦~
数据分析体验课丨课程+案例分享+就业指导,专业老师带你快速入门!
这三种分析框架都是我平时工作中最常用到的,能帮助分析和解决很多公司运行中产生的业务问题,非常实用!
5W2H
大多数的业务问题其实都可以利用5W2H的方法帮助我们去梳理思路逻辑,一步步推导出问题根源,而且这种方法可以让解决方案看起来条理清晰,缜密完善。
5W
What-出现了什么问题?这是数据分析的第一步,认清问题本质,知道我们要去解决什么问题。
When-什么时候发生的? 即问题发生的时间。比如APP的日活跃用户数量这几日下降了,这个时间点是不是刚好节假日?
Where-在哪里发生的?APP的日活跃用户数量具体是哪一个地区的下降了?
Who-是谁? 还是这个例子,APP的日活跃用户数量这几日下降了,具体是哪一部分的用户群体在减少?他们的年龄、性别、爱好、使用APP的时长等等。
Why-为什么会导致这个现象?对问题进行原因猜想,。
2H
How-怎样做?弄清了问题的各个环节,就要开始推导我们该采取怎样的方法和策略去解决APP日活下降的问题了。
How Much-多少?做到什么程度?比如针对APP日活下降, 我们推导出的解决方案在实施过程中可能导致的成本是多少, 或者这个问题我们要解决到什么程度才算OK。
逻辑树
熟悉思维导图的肯定都知道
这个东西,平时梳理问题我一直喜欢用思维导图,这样思路特别清晰,没想到数据分析也能派上用场!
分享大家一张经典图片,这张图既能说明逻辑树分析法的原理,也在形式上展现了逻辑树的表现形式~
4P
这也是一个常用的数据分析模型,4P营销理论中有4个P,分别是Product(产品),Price(价格),Place(渠道)和Promotion(促销)因为四个单词都用P开头,所以称为4P营销理论。
用一张图展示,如何用4P理论来分析具体的业问题,小白们收藏好哦~很多基础问题都可以来套用这个思路!
如果自学总是感觉摸不到门路,可以找专业的老师带你实战,这是最快的入门方法!
推荐这个数据分析的免费实战课,能让你体验如何用数据分析来解决实际工作中的业务问题,跟着案例思路多学几边,很快你就会有自己分析项目的思路啦,点击链接就可以领取免费听课名额哦~
数据分析体验课丨课程+案例分享+就业指导,专业老师带你快速入门!
以上就是我关于自学数据分析的经验分享啦,欢迎大家来和我交流数据分析的问题,我也还在摸索成长中~
数据分析师这行的工作前景非常棒,对于想要进入互联网行业工作的童鞋们这是个不错的途径哦~
数据分析师是一个需要不断学习终身成长的工作,一开始接触有可能会一头雾水,但一旦做了决定,就要逼着自己再难的知识也要啃下来!
一念既出,万山无阻!在数据分析的成长路上,我们一起加油!
关于自学数据分析的经验分享啦,欢迎大家来和我交流数据分析的问题,我也还在摸索成长中~
数据分析师这行的工作前景非常棒,对于想要进入互联网行业工作的童鞋们这是个不错的途径哦~
数据分析师是一个需要不断学习终身成长的工作,一开始接触有可能会一头雾水,但一旦做了决定,就要逼着自己再难的知识也要啃下来!
一念既出,万山无阻!在数据分析的成长路上,我们一起加油!
点击下面的,然后加我领取