据外媒报道,新加坡2万公务员将在未来5年内接受数据分析培训,新加坡政府已任命首席数据战略官员,领导实现政府各部门的数据化计划。大数据时代,公务员们都得是“数据”高手!数据分析在新加坡已经是最热门的职业,也是应届生们的首选职业之一。
大数据风潮席卷全球,为什么人人都要学数据分析?
大数据号称新时代的石油,很多行业都开始用数据驱动业务,通过对数据的分析和挖掘,从单纯的数据报表,到建模分析,深入挖掘,来帮助业务部分来系统的思考问题。
同时,数据分析也相对容易一些,比较好上手。
Python的应用的领域可以分为爬虫、web开发、数据分析、机器学习等方向。和机器学习相比,数据分析偏业务,机器学习偏工程,数据分析入门对数学功底和算法基础的要求并不是特别高。
可以来做数据分析的语言和工具比较多,为什么偏偏选Python?
拿常见的R语言和Excel来说:
R语言其实是为统计学而生的语言,用来做统计学确实非常厉害。
但是R语言在语法的美观和使用的简洁便利上看,要比Python差很多,小函数一堆,而且语法不好理解,没有Python这么容易上手和通熟易懂。
而 Excel只能做一些简单的处理逻辑处理,适合小规模的数据集,或者简单的数据清洗,对于复杂的逻辑处理,数据清洗,还是用Python来的方便。
在数据科学领域,有三个不同的角色,分别是:商业分析师,数据工程师和数据科学家,难度依次递增。
1.商业分析师
商业分析师的工作主要围绕报表和指标这两块儿,包括:
1).定义关键绩效指标
2).设计和实现报表
3).从用户那里收集报表需求
4).与数据工程师对接确保数据被正确地收集和存储
5).查询数据(一般是聚合过的)
2.数据工程师
数据工程师的工作主要围绕架构和收集这两块儿,包括:
1).通过写数据传输包、设计聚合过程、优化存储,来构建和维护数据传输和存储的基础设施
2).将生产环境产生的原始数据,转换为商业分析师可以用来制作报表的格式化的数据
3.数据科学家
数据科学家的工作主要围绕预测和优化这两块儿,包括:
1).负责构建预测算法,以提升用户体验,最终增加参与度、留存率、收益
2).负责数据驱动的产品的改进和建议
这其实是一个金字塔,商业分析师位于金字塔的最底层,数据科学家位于金字塔的最顶层。
拉勾网上数据分析师基本上在1-2年经验的平均年薪在20万左右。
再看一下数据分析师的岗位主要需求城市:
主要是在北上广深和杭州 5个大的城市,其中北京的需求最多,几乎是第2/3/4位的总和。
数据分析的内容多,而且比较全面,比如我们前面写了很多关于房地产,拉勾照片,旅游网站的数据,一般来说数据分析分下面几个过程:
第一步:数据的爬取
数据分析过程非常像我们平时做饭,第一步要先买菜,如何获取数据呢,很多时候我们需要爬取数据,爬虫涉及的知识比较多:
比如常见的http原理,爬虫的基本解析库reuqests,网页解析库BS,Pyquery,掌握一些分布式爬虫的框架,当然还有一些反爬虫的策略。当然如果我们能有现成的数据集会方便很多。
第二步:数据格式的处理和清洗
买好了菜,接着我们需要洗菜,也就是数据清洗!常见的数据集都是csv和json格式,需要熟练的掌握着两种格式的。Python中数据分析的神兵利器是Pandas,这个库非常好用,功能也是非常强大的。可以对数据进行各种花色的清洗和切割,几乎所有用Python玩数据分析,必须学会pandas库的用法。
第三步:数据的存储
清洗完成之后数据需要存储起来,一般用的比较多的 SQL 和 MongoDB。几乎所有的数据分析师招聘都会面试SQL的用法,所以掌握一门数据的使用是非常有必要的!基本的增删改查这样入门级的操作,一定要熟练掌握。
第四步:数据的探索
我拿到一个数据集之后,需要对数据进行探索,分析数据之间的关系,每个特征值,每个变量的之间相关性和相互的影响,比如常见的EDA 探索数据分析法。
单变量,双变量和多变量的探索,可以从很多角度,对数据进行切片分析,非常数据集中的变量之间的关系,找出相关性比较强的数据。
如果需要对数据进行深入的挖掘,需要了解机器学习的相关算法,大体分监督学习和无监督学习,比如回归问题,分类问题。这部分对数据集进行深入挖掘之后,可以找出数据间的规律,训练好的之后,可以预测数据,很是牛逼。
第五步:数据的可视化
展现数据最好的方法就是数据可视化,数据的可视化有很大的库,比如 echart,matplotlib,d3 和 Tableau,当然还有excel,一般数据分析师必须要掌握exce或者Tableau。尤其是Tableau现在越来越多的公司用它来做可视化分析,有一个有趣的必然,同样一个库用R语言需要30分钟才能完成,Tableau只需要5分钟。
对于小白来说,如果想要学习Python数据分析,推荐网易云课堂推出的《Python数据分析》训练营,让你在学习Python数据分析的进阶之路上少走弯路,原价199元,今日限时免费!更有12G资料包免费赠送!
参与《Python数据分析》训练营到底可以收获什么呢?
PART1
《体验Python数据分析的快感》免费课程
1、会写代码的数据分析师是怎么样的存在?
2、武装你的电脑:Python环境搭建及软件安装
3、手把手教你用数据挖掘“成为领导的秘诀”
4、怎样做出专业且高逼格的数据可视化
5、模拟实验:排队等待时间问题
PART 2
《数据分析师技能图谱大揭秘》线上直播课
2018年6月12日 20:00-21:00
2、运用工具Python高效工作
3、必备技能图谱+干货get
PART 3
12G大数据学习资料包
整整12G的资源,还不快准备好你的云盘~
如何参加?
扫码加入QQ群
即可免费攻读《体验Python数据分析的快感》
参与线上直播公开课
附赠12G学习资料包
为了保证学习体验,
本次“Python数据分析工程师"限时开放
数量有限,欲报从速