数据分析理论概览

文章目录

  • 概率论与数理统计
  • 方差分析
  • 回归(regression)
    • 线性模型
    • 广义线性模型
  • 分类
  • 聚类
  • 文本分析
  • 时间序列

概率论与数理统计

抽样 sample
随机采样 random sampling 受总体中个体间自相关关系的影响
系统采样 systematic sampling 受个体特点规律性的影响
随机-系统采样 systematic-random sampling 不受上面的影响
多层次采样 strtifed sampling 适用于可分层的总体
变量 variables
连续变量 continuous 定量变量(quantitative)
分类变量 discrete 定性变量(categories)
顺序变量 ordinal 定性变量(categories)
统计描述 summary/describe
定量变量
总体均数 mean/median
四分卫间距 IQR 3/4分位数-1/4分位数
极差 range max-min
偏度 skewness
峰度 kurtosis
方差 variance
标准差 standard deviation sd=sqrt(var)
变异系数 coefficient of variation,CV CV=sd/mean
定性变量
频数 frequency/rate
联合分布 joint distribution
众数 mode
数据预处理
归一化/标准化
连续变量离散化
缺失值模式
完全随机缺失 MCAR
随机缺失 MAR
非随机缺失 NMAR
缺失值处理
配对删除
简单抽样填补
均值/中位数/众数填补
回归填补,多重插补
异常检测 outlierTest 离群点,孤立点
正态分布 3倍标准差原则
多元正态 马氏距离
参数估计(正态分布 均值和标准差估计
点估计 point estimation
矩估计 μ^,σ^
极大似然估计 μ*,σ2*
稳健估计 (M估计,R估计)
Bootstrap估计 在原始数据的范围内做有放回抽样,预估参数的一些性质。
估计的优良性准则
平方和 sum of square SS
均方 mean square MS
无偏估计 E(mean)=μ ,
E(S2)=σ2(S2为样本方差)
均方误差准则 MSE(估计量θ)=E(估计量θ-θ)
区间估计 interval estimation
置信水平(1-α) confidence level
置信区间 confidence interval,CI
假设检验
单侧检验 one-sided test
双侧检验 two-sided test
显著性水平(α) significant level 犯第一类错误的概率
独立性检验
游程检验 Runs Test 对二分变量的随机检验
卡方独立性检验 chisq test 两分类变量
Fisher精确检验 fisher test 两分类变量
Cochran—Mantel—Haenszel卡方检验 mantelhaen test 两个名义变量在第三个变量的每一层中都是条件独立的
相关性
二维列联表的phi系数、列联系数和Cramer’s V系数。 分类变量相关性度量
协方差矩阵 Covariance cov=mean((X-mean_X)*(Y-mean_Y))
相关系数矩阵 CorrelationCoefficient cov/sqrt(var_X*Var_Y)
person 线性相关(正态连续变量)
spearman 秩相关(分级定序变量之间的相关程度)
kendall 秩相关
方差齐性检验
卡方检验 chisq.test 单个正态总体的方差检验:χ2检验(H0: σ2=σ02)
F检验 两个正态总体方差比:F检验(H0: σ12=σ22)
bartlett.test
fligner.test
Brown-Forsythe
总体分布类型的拟合度检验
正态分布检验 shapiro.test
F(n,m)分布 Kolmogorov-Smirnov(K-S)
二项分布检验 Binomial Test
总体均值检验
两样本(连续变量) t检验 独立或配对样本
两样本(有序分类) Mann-Whitney U检验 两样本独立
Wilcoxon秩和检验 两样本独立
Wilcoxon秩和检验 配对样本
Walsh检验 配对样本
两样本(分类变量) Kolmogorov双样本单侧检验 两样本独立
多样本(连续变量) 方差分析 独立或相关
多样本(有序分类) Kruskal-Walls检验 多样本独立
推广的Mann-Whitney检验 多样本独立
Jonckneere检验 多样本独立
多样本(无序分类) Friedman检验 多样本相关

方差分析

多样本均值比较( H 0 : μ 1 = μ 2 = … = μ n H_0: μ_1=μ_2=…=μ_n H0:μ1=μ2==μn)
方差分析主要用途:
①均数差别的显著性检验
②分离各有关因素并估计其对总变异的作用
③分析因素间的交互作用
④方差齐性检验

回归(regression)

线性模型

Y = β X + e r r o r Y=βX+error Y=βX+error (OLS最小二乘法,使ESS最小值)

Gauss-Markov假设 e i   N ( 0 , σ 2 ) e_i ~ N(0, σ^2) ei N(0,σ2)
(1) v a r ( e ) = σ 2 var(e)= σ^2 var(e)=σ2 , 误差方差=样本方差
(2) c o v ( e i , e j ) = 0 ( i ≠ j ) cov( e_i ,e_j )=0 (i ≠ j) cov(ei,ej)=0(i=j) , 误差独立性

回归方程的显著性检验 ( H 0 : β i = 0 H_0: β_i=0 H0:βi=0) t检验和F检验
回归平方和 Residual Sum of Squares
残差平方和 Explained Sum of Squares
总平方和 Total Sum of Squares
判定系数
自由度 degree of freedom
平方和 sum of square
均方 mean square
F检验
方差源 SS df
回归 RSS 1
误差 ESS n-2
总和 TSS n-1

广义线性模型

广义加法模型:扩展广义线性模型,以纳入任意平滑的函数。这意味着你可以自定义函数y = f(x)。
惩罚线性模型:对惩罚复杂模型的距离添加惩罚项。这往往会使来自相同群体的新数据集预测的更好。
稳健的线性模型:对异常值的存在不那么敏感。

  • 回归诊断
    正态检验(shapiro):自变量多重共线性kappa系数(kappa)
    线性模型假设的综合验证:若sqrt(vif)>2,存在多重共线性
  • 异常值
    离群点(outlierTest)
    高杠杆值点(帽子统计量)
    强影响点
  • 改进措施
    删除观测点
    变量变换
    正态变换
    线性变换
    增删变量
  • 模型选择
    逐步回归(step/stepAIC)
    全子集回归(regsubsets)
  • 交叉验证
    通过交叉验证法,我们便可以评价模型的泛化能力。
    在k重交叉验证中,样本被分为k个子样本,轮流将k–1个子样本组合作为训练集,另外1个子样本作为保留集。这样会获得k个预测方程,记录k个保留样本的预测表现结果,然后求其平均值。
  • 相对权重(relative weight)

分类

分类算法 备注
线性判别 Fisher
距离判别 mahalanobis
贝叶斯分类器 bayes
逻辑回归
决策树
ID3
C4.5
C5.0
Information Gain
Information Gain Rate
CART Gini Index
条件推断树 显著性检验
随机森林 random forest
最近邻算法 KNN
支持向量机 SVM
神经网络 NN
卷积神经网络 CNN 空间数据
RNN 时序数据

聚类

层次聚类法
single 最短距离法
complete 最长距离法
median 中间距离法
mcquitty 相似法
average 类平均法
centroid 重心法
ward 离差平方和法
划分法
k-means 连续变量
K-modes 分类变量
k-prototype 混合变量
PAM
clarans
密度算法
DBSCAN
OPTICS
DENCLUE
距离
euclidean 欧几里德距离
maximum 切比雪夫距离
manhattan 绝对值距离
canberra Lance 距离
minkowski 明科夫斯基距离
binary 二分类距离
one-hot

文本分析

文本分析常见三大距离——cosine/jaccard/Euclidean

  1. Euclidean,欧氏距离
  2. cosine,夹角余弦,机器学习中借用这一概念来衡量样本向量之间的差异。
  3. jaccard,杰卡德相似系数,两个集合A和B的交集元素在A,B的并集中所占的比例,称为两个集合的杰卡德相似系数,用符号J(A,B)表示。
  4. Relaxed Word Mover’s Distance(RWMD)文本分析相似性距离

时间序列

  1. 指数预测模型(Holt-Winters指数平滑)
    Y ( t ) = T r e n d ( t ) + S e a s o n a l ( t ) + I r r e g u l a r ( t ) Y(t)=Trend(t)+Seasonal(t)+Irregular(t) Y(t)=Trend(t)+Seasonal(t)+Irregular(t)
  2. ARIMA预测模型:由最近的真实值和最近的观测误差组成的线性函数
    滞后阶数(lag),自相关(ACF),偏自相关(PACF),差分(diff),
    平稳性:adf.test验证平稳性,通过diff或Box-Cox变换平稳
    残差的自相关检验:Box test

你可能感兴趣的:(数据分析(Data,Analysis))