数据分析与挖掘技能通讲(一)框架

理解一门学问,最重要的是先搭建起框架。框架就犹如是房屋的梁和柱,只有框架搭得稳,才能扎根牢、立得住。

数据分析技能的框架,可以归为以下:

采集(数据获取)——清洗(数据整理)——探索——分析——建模——展示

这是按照数据从产生到最后产生价值的流程进行的归纳总结。

本质上讲,数据分析工作的实质就在于利用各种工具(领域知识、数据知识、计算机知识),加工数据,产生商业价值。

采集

数据来源

埋点上报

什么是埋点

埋点的作用

埋点开发流程

互联网资源

工具:爬虫

什么是爬虫

爬虫工作流程

清洗

Hadoop生态及其组件

HDFS

block

MapReduce

streaming

WordCount Example

combiner/partitioner/comparator

提交streaming任务

Yarn

Hive

DDL 和 DML

正则解析器

Views

UDF

优化

Partitioning/Bucketing/Sampling

Map-side Join

Data Skew

Compression

Spark

RDD

Transformation

Action

广播变量与累加器

DataFrame

过滤

Fuctions

聚合

Join

用户自定义函数

时间处理

窗口函数

优化

Shuffle

Optimizing Joins

持久化

资源分布

动态分布

内存管理

部署环境

探索

常见统计指标

集中趋势

分散趋势

形态度量

特征相关性

异常值检验

常用图表

散点图

箱型图

小提琴图

分析

分析思路

提出假设

多维拆解

路径分析

数据验证

建模

机器学习的数学基础

线性代数

矩阵运算

矩阵LU分解

四个基本子空间

矩阵投影

行列式

特征值

奇异值分解

概率论

随机变量

离散型随机分布:两点、二项、泊松

连续性随机分布:均匀、指数、正态

多元随机变量极其分布

边缘分布

条件分布

独立性

大数定理与中心极限定理

抽样分布理论

抽样分布

参数估计

极大似然估计

微积分

梯度、偏导数

链式法则

拉格朗日乘法

泰勒展开

监督学习

常见算法

逻辑回归

朴素贝叶斯

SVM

决策树

K近邻

提升方法

EM

机器学习理论基础

霍夫丁不等式

VC dimension

有噪音情况下的学习

非监督学习

聚类

K-means

混合高斯分布

特征缩放

特征选择

特征转化

PCA

ICA

RCA

强化学习

马尔科夫决策

Q-learning

深度学习

工程基础

python基础

数据结构

控制语句

面向对象

pandas

numpy

scala基础

数据结构

控制结构

函数编程

集合操作

TensorFlow基础

基础结构

构建神经网络

过拟合

droppout

卷积神经网络

循环神经网络

LTSM

批标准化

展示

图表类型

单变量

二变量

多变量

绘图工具

matplot/seaborn

你可能感兴趣的:(数据分析与挖掘技能通讲(一)框架)