全球的数据量正在以每18个月翻一倍的惊人速度增长,世界正在高速数字化,大数据堪比石油,如何掘金大数据是所有个人、企业和国家的机遇和挑战。中国是人才大国,能理解和应用大数据的创新人才更是稀缺资源。大数据分析应用已经渗透到我们生活的方方面面。
随着大数据在国内的发展,大数据相关人才却出现了供不应求的状况,大数据分析师更是被媒体称为“未来最具发展潜力的职业之一”。
大数据分析师
大数据分析师就是一群玩数据的人,玩出数据的商业价值,让数据变成生产力。
大数据和传统数据的最大区别在于,它是在线的、实时的、规模海量且形式不规整,无章法可循,因此“会玩”这些数据的人就很重要。
大数据领域三个大的技术方向
方向一:Hadoop大数据开发方向
方向二:数据挖掘、数据分析&机器学习方向
方向三:大数据运维&云计算方向
精通任何方向之一者,均会“前(钱)”途无量,而需要说明的是,三个方向中,数据挖掘、数据分析&机器学习是大数据催生新兴职业,数据分析师成IT界的“大熊猫”。
大数据分析师技能图谱
数据挖掘/数据分析/数据仓库/商业智能/大数据技术/人工智能/机器学习/深度学习/项目管理/系统架构
统计分析:大数定律、抽样推测规律、秩和检验、回归分析、方差分析等
可视化辅助工具:Excel、PPT、Xmind、Visio
大数据处理框架:Hadoop、Kaffka、Storm、ELK、Spark
数据库:SQLite、MySQL、MongonDB、Redis、Cassandra、HBase
数据仓库、商业智能:SSIS数据仓库、SSAS MDX多维数据集、Ssrs、DW2.0
数据碗蕨工具:Matlab、SAS、SPSS、R、Python
人工智能、机器学习
挖掘算法:数据结构、一致性、常用算法
编程语言:Python、R、Ruby、Java
自学掌握技能
阶段一:业务数据分析师
基础操作
1、数据录入
2、快速填充
3、数据格式
4、查找替换
5、冻结拆分
6、合并计算
7、排序筛选
8、分类汇总
9、公式填充
10、条件格式
11、插入表格
函数
1、函数书写
2、逻辑函数if and or
3、逻辑函数if嵌套
4、统计函数count系列函数
5、统计函数sum系列函数
6、统计函数average系列函数
7、查找函数vlookup精确查找与模糊查找
8、查找函数hlookup
9、查找函数match index lookup
10、引用函数及数学函数
11、日期函数
12、文本函数
13、信息函数
14、数组入门
Excel制图
1、柱状图
2、饼图
3、折线图
4、雷达图
5、锥形图
6、散点图
7、地图
8、复合图
数据透视图表
1、数据透视表结构
2、数据透视表的步骤
3、数据透视表的项
4、父字段和子字段
5、分析选项卡
6、数据透视图
7、样式选项卡
数据库基础
1、数据库简介
2、DBMS和数据库的关系
3、MySQL简介
4、安装配置
5、环境变量的配置
6、Navicat管理工具
7、SQL语句的基本概念
8、SQL语句的分类
9、基本数据类型
字段属性
1、添加和删除主键
2、添加和删除外键
3、添加和删除唯一键
4、添加和删除自增
5、添加和删除默认值
检索数据
1、select语句
2、Update语句
3、Insert语句
4、Delete语句
5、逻辑操作符
6、比较操作符
汇总数据
1、聚合函数
2、avg()函数
3、count()函数
4、max()函数
5、min()函数
6、sum()函数
连接查询
1、笛卡尔积
2、内部连接操作
3、左外连接操作
4、右外连接操作
5、自连接操作
6、多表实例操作
存储过程
1、MySQL变量的定义
2、MySQL SET与DECLARE声明变量
3、MySQL预处理语句
4、MySQL存储过程的概念详解
5、MySQL结束符的设置
6、MySQL存储过程的基本语句
事务处理
1、事务的原子性
2、事务的一致性
3、事务的隔离性
4、事务的持久性
5、使用set
6、MySQL的rollback
7、MySQL的commit
Tableau软件及基本操作
1、Tableau公司产品介绍
2、Tableau安装包获取
3、Tableau平台注册与登录
4、导入数据与连表
5、功能区域介绍使用
6、数据排序
7、分层建立
8、数据钻取
9、时间序列钻取
10、计算字段
绘图
1、条形图
2、折线图
3、组合图
4、填充地图
5、饼图
6、气泡图
7、热力图
8、凸显图
9、嵌套条形图
10、标靶图
11、散点图
12、直方图
13、仪表板
阶段二:SPSS建模分析师
函数
1、函数的定义
2、单调性
3、周期性
4、有界性
5、奇偶性
6、常见函数
7、对数函数
8、指数函数
函数的极限和导数
1、数列极限定义
2、无穷大和无穷小
3、函数极限的定义
4、导数的定义
5、求导法则
6、导数的四则运算
7、导数的链式法则
导数的基本应用
1、判断单调性
2、函数凹凸的定义
3、函数极值的定义
4、函数极值的求解
5、拉格朗日乘数法
6、泰勒公式
不定积分和定积分
1、不定积分的定义
2、积分计算方法
3、定积分的涵义
4、定积分的基本性
5、定积分的算法实践
矩阵
1、矩阵的定义
2、常见矩阵
3、矩阵的基本运算
4、矩阵的转置
5、对称矩阵
6、行列式
矩阵的应用
1、齐次方程组求解
2、非齐次方程组求解
3、相似矩阵
4、二次型
5、正定矩阵
6、半正定矩阵
矩阵的分解
1、特征值
2、特征向量
3、奇异值
4、QR分值
5、特征值分解
6、SVD分解
古典概率问题
1、古典概率计算
2、条件概率
3、全概率
4、贝叶斯公式
5、概率的独立性
6、联合概率
随机变量
1、随机变量的定义
2、离散型随机变量
3、常见离散型分布
4、连续性离散变量
5、常见连续性分布
6、二项分布
7、高斯分布
统计
1、统计的基本定义
2、常见的统计量
3、期望、方差、协方差、相关系数
4、三大统计分布
5、大数定理
6、中心极限定理
7、极大似然估计
界面介绍
1、spss软件介绍
2、spss操作介绍
3、spss四大窗口
4、spss变量操作
5、spss界面修改
基础操作
1、导入导出文件
2、数据基本操作
3、变量属性描述
4、数据管理
5、数据编码转换
6、计算变量
问卷操作
1、问卷设计思路
2、构建变量
3、抽样
4、问卷录入
5、数据清洗
6、样本检验
效度检验
1、效度定义
2、效度指标
3、效度检验原理
4、主成分分析法
5、效度检验操作
6、效度指标审查
信度检验
1、信度定义
2、信度指标
3、信度检验原理
4、信度检验操作
5、信度指标审查
矩阵的应用
1、矩阵求导公式
2、最小二乘法的基本思想
3、最小二乘法的推理过程
4、正定矩阵
5、半正定矩阵
6、齐次方程组求解
7、非齐次方程组求解
变量分析
1、频数分析
2、交叉表分析
3、描述统计分析
4、卡方检验
5、相关性分析
画图
1、条形图
2、箱体图
3、直方图
4、折线图
5、茎叶图
6、饼图
参数检验
1、奇异值检验
2、单样本T检验
3、独立样本T检验
4、配对样本T检验
5、单方差分析
6、多因素方差分析
7、协方差分析
回归分析
1、最小二乘法原理
2、一元线性回归分析
3、一元非线性回归分析
4、多元线性回归分析
5、多元非线性回归分析
6、层次回归分析
中介效应检验
1、中介效应定义
2、中介效应模型介绍
3、中介效应模型构建
4、中介效应指标解读
5、中介效应判定
调节效应检验
1、调节效应定义
2、调节效应模型介绍
3、调节效应模型构建
4、哑变量构建
5、中介效应判定
聚类分析
1、k-means聚类
2、两步聚类
3、层次聚类
4、其他聚类拓展
阶段三:R语言建模分析师
语言简介
1、R的用户界面
2、R的对象
3、编写R自定义函数
4、安装R第三方包
5、查看帮助文档
6、原子型向量
7、列表
8、数据框
数据操作
1、正整数索引
2、负整数索引
3、零索引
4、空格索引
5、逻辑值索引
6、名称索引
7、美元符号与双中括号
8、逻辑值取子集
9、缺失值处理
环境系统
1、环境
2、操作R环境
3、作用域规则
4、赋值
5、函数求值
6、闭包
控制流
1、条件分支语句
2、if语句
3、if else语句
4、switch语句
5、循环语句
6、for循环
7、while循环
8、repeat循环
9、break、next控制命令
10、自动化报表案例
S3面向对象系统
1、S3系统
2、属性
3、泛型函数
4、方法
5、类
6、S3与调试
7、面向对象系统案例
基本对象操作
1、使用原函数
2、使用逻辑函数
3、使用数学函数
4、应用数值方法
5、统计函数
6、使用apply函数族
7、字符串的使用
8、正则表达式
连接数据库
1、操作关系型数据库
2、访问表和表中字段
3、用SQL对关系型数据库进行查询
4、分块提取查询结果
5、事务操作
6、操作非关系型数据库
7、dplyr包的基本操作
实例分析
1、假设检验
2、方差分析
3、一元线性回归
4、多元线性回归
5、逐步回归
6、哑变量模型
7、多项式回归
8、列联表制表与分析
项目分析
1、客户分析-用户运营分析
2、客户分析-用户价值分析
3、产品分析
4、投资分析
阶段四:Python语言建模分析师
基础语法
1、Python简介
2、变量及标识符命名
3、基础语法和特殊字符
4、基础数据类型
5、字符串常用操作
6、输入&输出
7、列表及元组特性
8、字典及集合特性
9、字典及列表类型的嵌套
10、深复制浅复制
控制流语句
1、if条件语句
2、if-else语句
3、elif语句
4、if语句的嵌套
5、while循环
6、for循环遍历
7、break&continue
8、异常捕获
9、异常处理
函数
1、自定义函数
2、函数的参数介绍
3、返回值的特性
4、局部环境与全局环境
5、递归函数
6、匿名函数
7、列表推导式
8、高阶函数
9、迭代器与生成器
10、函数的应用
文件操作
1、文件类型介绍
2、open函数
3、绝对路径&相对路径
4、文件操作模式
5、文件管理器
6、二维数据写入
模块
1、模块和包
2、模块导入
3、时间模块
4、随机数模块
5、数据库交互
6、正则表达式
7、re模块常用模式
8、原子及通配符
9、限定符
10、模式选择符及模式单元符
面向对象
1、面向对象与面向过程
2、类与对象
3、实例属性&实例方法
4、类属性&类方法
5、封装、继承、多态
6、面向对象的深层介绍
爬虫简介&爬虫原理
1、爬虫概念
2、爬虫与数据分析
3、爬虫的分类
4、爬虫的原理
5、爬虫的处理流程
6、爬虫对应网络的危害
7、为什么需要反爬虫
8、常见的反爬虫策略
9、常见的反反爬虫策略
urllib,urllib2
1、urllib、urllib2初级使用
2、Cookielib、cookies
3、urllib.request的初级使用
4、urllib.request的高级使用
5、urllib.request异常处理
6、cookies处理及案例
requests库
1、get与post请求
2、网页及图片的下载
3、响应与编码
4、cookies与登录
5、超时异常处理
6、代理设置
网页解析
1、正则表达式解析网页
2、xpath解析
3、bs4搜索文档树
4、css选择器
5、实战应用
NumPy科学计算库
1、数据结构详解
2、数组的特性
3、随机数数组
4、数组的运算与函数
5、数组常用操作
Pandas数据分析库
1、Pandas数据结构详解
2、Pandas索引对象
3、Series对象及操作
4、DataFrame对象及操作
5、Pandas的数学计算
6、Pandas读取本地文件
7、Pandas连接数据库
8、数据筛选与清洗
9、缺失值处理
10、数据的连接与排序
11、字符串向量化处理
12、Map与Apply函数
13、GroupBy分组与应用
14、时间序列处理
15、透视表
Matplotlib可视化库
1、Matplotlib介绍
2、Matplotlib核心概念
3、Matplotlib通用绘图过程
4、Matplotlib常见图像绘制
5、Pandas与matplotlib
阶段五:大数据分析
Linux基础
1、初识linux
2、Vmware虚拟机的安装
3、centos7的安装
4、配置网络环境
5、各种安装问题的总结
Linux常用远程连接工具
1、xshell的介绍和安装
2、CRT的介绍和安装
3、notepad++的安装
4、其他远程工具了解
Linux基础命令
1、linux根目录的介绍
2、linux常用命令
3、find命令讲解
4、vi/vim命令讲解
Linux用户权限管理
1、linux用户讲解
2、linux用户组的讲解
3、添加删除用户及用户组
4、修改文件权限
5、修改所有用户和用户组
6、配置sudo权限
Linux文件管理
1、gzip压缩
2、tar压缩打包
3、linux类型
4、rpm离线安装
5、yum在线安装
Linux常用系统管理命令
1、网络管理命令
2、服务管理命令
3、端口管理命令
4、进程管理命令
5、资源管理命令
linux定时任务
1、date命令
2、at定时命令
3、crontab定时命令
hdfs框架
1、hdfs原理介绍
2、hdfs副本机制
3、hdfs读取流程
4、hdfs写入流程
5、hdfs配置
6、hdfs高可用
7、hdfs常用命令
MapReduce
1、配置maven系统
2、mapreduce的核心思想
3、wordcount程序
4、shuffle过程详解
Hive概述
1、数据库(RDBMS)简介
2、数据仓库(Hive)简介
3、数据库和数据仓库功能对比
4、数据库和数据仓库应用场景分析
5、Hive的实现机制
6、SQL On Hadoop概念讲解
Hive体系结构
1、Hive体系架构讲解
2、Metastore讲解
3、配置MYSQL为Hive的元数据库
Hive的SQL命令
1、基本的HiveQL语句讲解
2、Hive常用的Linux Shell参数
3、Hive扩展环境配置
4、三种创建表的方式
5、Hive外部表
6、Hive分区表
7、Hive常用的分析函数
8、数据的多种导入和导出方式
9、Hive常用的聚合函数
10、Hive的多种排序函数
大数据分析师岗位与平均薪资
业务(数据挖掘)分析师、数据分析员、数据分析师、建模数据挖掘、大数据挖掘、大数据分析师、首席数据分析师(CA)、大数据科学家、大数据高级系统架构师、初/中/高级数据产品经理。