基本术语概念须知 | ||||
英文名 | 中文名 | 含义 | 备注 | |
Bernoulli | 伯努利分布 | 实验只有两种结果,成功(1)或失败(0),成功的概率为p,失败的概率为1-p,概率质量函数为P(X=k)=p^k*(1-p)^(1-k), k=0,1 。期望为p ,方差为p(1-p) | 离散概率分布 | |
Binomial Distribute | 二项分布 | 概率质量函数P(X=k)=C(n,k)*p^k*(1-p)^(n-k)。期望为np,方差为 np(1-p) | ||
负二项分布 | 期望为r/p,方差为r(1-p)/p^2 | |||
几何分布 | 期望为1/p,方差为(1-p)/P^2 | |||
Poission | 泊松分布 | 描述单位时间、单位长度、单位面积、单位体积中发生某一时间的次数.概率质量函数P(X=k)。服从泊松分布的随机变量其期望和方差都等于参数lambda | ||
指数分布 | 连续型随机变量的概率密度函数服从指数分布 | 连续概率分布 | ||
正态分布 | 概率密度函数 | 也称高斯分布 | ||
Gaussian with zero mean and unit variance. | 高斯分布 | 高斯分布平均值是0,方差是1 | ||
标准正态分布 | 当期望为0,方差为1时,称为标准正态分布,记作N(0,1) | 正态分布的概率密度函数关于期望u对称,并且在u处达到最大值,在正负无穷处取值为0 | ||
Uniform distribution | 均匀分布 | 落在区间的任意子区间上的可能性都是相同的。概率密度函数、累积分布函数、期望、方差 | ||
连续分布 | 变量可取连续值,实验结果无限的 | |||
离散分布 | 实验结果是有限的 | |||
伽马分布 | gamma | |||
冻结分布 | ||||
形态变量/形态参数 | scale,moments | |||
hypergeom | 超几何分布 | hypergeom | ||
冻结分布 | ||||
chi-square distribution, χ²-distribution | 卡方分布 | |||
Student's t-distribution | T分布 | 常将一般的正态变量X通过u变换[(X-μ)/σ]转化成标准正态变量u,以使原来各种形态的正态分布都转换为μ=0,σ=1的标准正态分布,亦称u分布。 由于在实际工作中,往往σ(总体方差)是未知的,常用s(样本方差)作为σ的估计值,为了与u变换区别,称为t变换,统计量t 值的分布称为服从自由度为(n-1)的t分布。样本量n |
用途:用于根据小样本来(<=30)估计呈正态分布且方差未知的总体的均值。T的概率密度函数的形状类似于标准正态分布(?=0, σ2=1),但更低更宽。随着自由度 v 的增加,则越来越接近均值为0方差为1的正态分布。 | 关联并区分于标准正态分布 |
F分布 | 设X、Y为两个独立的随机变量,X服从自由度为k1的卡方分布,Y服从自由度为k2的卡方分布,F-分布是这两个卡方分布变量X、Y除以各自的自由度后的比率的分布 | |||
Expection | 期望 | 离散型随机变量X的期望是X所有可能取值的一个加权平均,每个值的权重就是X取该值的概率,E[X]=SUM(xi*P(xi)); 连续型随机变量X的期望是E(X)=积分(xf(x)),f(x)是概率密度函数; |
||
variance | 方差 | 是用来度量随机变量和其数学期望之间偏离程度的量。D(X)=Var(X)=E{[X-E(X)]^2},即X与其期望的距离的期望,公式推导 D(X) =E(X^2) - (E(X))^2,即平方的期望减去期望的平方 | D(X)=Var(X) 随机变量的方差是刻画随机变量相对于期望值的散部程度的一个度量。 |
|
standard deviation | 标准差 | sqrt(D(X))=sigma(X),方差的平方根 | ||
deviation | 偏差 | |||
mean | 均值 | |||
median | 中位数 | |||
众数 | ||||
分位数 | ||||
大数定理 | 说明了,随机事件随着试验次数的增加,其均值收敛到公共的期望值 | 掷硬币实验 | ||
中央极限定理 | 独立同分布的随机变量实验,也可以标准化,即其概率密度函数是正态分布的。 | 掷硬币实验的延伸 | ||
简单随机抽样 | 分为有放回和无放回 | |||
等距抽样 | ||||
分层抽样 | 将总体分为多个不相交的层级,按照一定的比例在各层级之间抽样。要求层级间的差异较大,层内差异较小 | 比如男女、各年龄层、学校年级的人群抽样 | ||
整体抽样/系统抽样 | 把总样本N均分成n段,每段取相同位置的个体做样本 | 比如车间流水线上的样品抽样 | ||
Random variates | 随机变量 | |||
continuous random variables | 连续型随机变量 | 随机变量的取值是无限不可数的,这类变量被称为连续型随机变量。 | rv_continuous | |
discrete random variables | 离散型随机变量 | 一个随机变量最多有可数多个可能取值,有限或者无限可数个。 | rv_discrete | |
probability density function | 概率密度函数 | 对连续性随机变量,描述随机变量的输出值,在某个确定的取值点附近的可能性的函数, f(t) = P{X=t}。 对于连续型变量的累积分布函数F(X),它们之间的关系是 F(x) = 积分[-infinit,x]f(t)dt. 即CDF是PDF的积分。 |
注意PDF和PMF的区别 | |
probability mass function | 概率质量函数 | 对离散随机变量 在各个特定取值上的概率称为其概率质量函数,p(a) = P{X=a}。每个竖条区域称为一个bin。SUM(P(xi),i=1,2,3...)=1 | PMF | |
Cumulative distribution function | 累计分布函数 (简称分布函数) |
随机变量的累积分布函数,它是概率密度函数的积分。即对任一给定的x,该随机变量小于等于x的概率。函数为F(x)=P{X<=x}。递增函数。 对于连续型随机变量的累积分布函数,则是其概率密度函数的积分。 |
CDF | |
Percent point function | 分位数函数 | 累积分布函数的反函数。自变量是百分等级,函数值是该半分等级在分布中对应的值。 | PPF | |
概率密度函数估计方法 | 给定样本点集合求解随机变量的分布密度函数问题,有参数估计和非参数估计两种。参数估计又可分为参数回归分析和参数判别分析。参数回归分析先假定数据分布符合某种特定的形态,如线性、指数等,然后确定回归模型的未知参数。极大似然估计方法和贝叶斯估计方法也是常见的参数估计法。 | 非参数估计不利用有关数据分布的先验知识,对数据分布不附加任何假定,从数据样本本身出发研究数据分布特征的方法,方法有直方图法、核概率密度估计法。 | ||
Kernel density estimation | 核密度估计方法 | 概率论中用来估计未知的密度函数的方法,属于非参数检验方法之一。常用的核函数,均匀核函数,三角核函数,伽玛核函数,高斯核函数。 | kde 核密度估计有多种内核,不光滑的和光滑的,光滑内核(高斯核密度估计)使用较多。核算法和带宽bandwidth选择会影响密度估计。 |
|
Survival function | 残存函数 | sf | ||
Inverse survival function | 残存逆函数 | isf | ||
Non-central moment of order n | 分布的非中心矩 | moment | ||
拟合 | 对一组随机采样进行拟合,找出最合适取样数据的概率密度函数的系数。 | fit | ||
非参数统计 | 是一种不要求变量值为某种特定分布和不依赖某种特定理论的统计方法。 | 或者是在不了解总体分布及其全部参数的情况下的统计方法。 | ||
参数检验 | 总体分布服从正态分布或总体分布已知条件下进行的统计检验就是参数检验 | |||
非参数检验 | 总体分布不要求服从正态分布或总体分布情况不明时,用来检验数据资料是否来自同一个总体的统计检验方法 | |||
Parameter Estimation | 参数估计 | 用样本统计量去估计总体参数的方法 | 比如用样本均值估计总体均值,用样本方差估计总体方差 | |
Estimator | 估计量 | 估计量/推算式 | 用于估计总体参数的统计量 | |
Estimated Value | 估计值 | 根据具体样本计算得出的估计量数值 | ||
Point Estimate | 点估计 | 用样本统计量的某个取值直接作为总体参数的估计值 | 也叫做矩估计 | |
Interval Estimate | 区间估计 | 在点估计的基础上,给出总体参数估计的一个区间范围,并且给出样本统计量与总体参数的接近程度一个概率度量。 | ||
矩估计法 | 用样本矩估计总体矩,用样本矩的相应函数来估计总体矩的函数。 | 理论依据大数定理,如果总体X的k阶矩存在,则样本的k阶矩以概率收敛到总体的k阶矩,样本矩的连续函数收敛到总体矩的连续函数 | ||
Maximum Likelihood Estimate (MLE) |
极大似然估计 | mle | ||
unbiased estimator | 无偏估计 | 估计量的数学期望等于被估计参数的真实值 | 注意如何根据样本的期望、均值、方差估计总体的 | |
biased estimator | 有偏估计 | 上述的否则情况 | ||
Confidence Interval | 置信区间 | 由样本统计量所构造的总体参数的估计区间 | ||
置信度 | 置信区间中所包含的总体参数真实值的次数之比 | 也称作置信水平 | ||
常用置信水平临界值 | 置信水平90%,临界值1.645 置信水平95%,临界值1.96 置信水平99%,临界值2.58 |
|||
Paired Sample | 配对样本 | 指一个样本中的数据与另一个样本中的数据是相互对应的, | ||
P-value | P值 | 当原假设为真时所得到的样本观察结果出现的概率 | P值越小,则说明原假设发生的可能性越低。通常需要P值小于0.05才能有足够的把握拒绝原假设。 | |
假设检验 | 基本思想是小概率原理,就是认为小概率事件在一次实验中几乎不可能发生。 | 即如果对总体的某个假设时真实的,那么不能支持这个假设的事件在一次实验中时几乎不可能发生的。要是在一次实验中该事件发生了,那么就有理由怀疑这个假设的真实性。 | ||
显著性检验 | 给定显著水平时的第一类错误检验 | |||
z统计量 | ||||
t统计量 | ||||
Z检验 | ||||
T检验 | 小样本、总体方差未知时根据T分布建立的总体均值的假设检验 | |||
normal test | 正态分布检验 | Z-score含义? P值 | ||
Kolmogorov-Smirnov test | K检验 | 检验拟合度的kolmogorov-Smirnov检验 | ktest | |
Pearson's Chi-Square Statistic | 卡方统计量 | 定义为各项实际观测数值与理论分布数值之差的平方除以理论数值,然后再求和 | 用于检验实际分布与理论分布配合程度的统计量 | |
卡方检验 | ||||
偏态系数 | ||||
峰态系数 | ||||
Standardization | 标准化 | 将样本处理成平均值是0,方差是1的高斯分布 | ||
一维插值 | 插值函数经过样本点 | |||
拉格朗日插值法 | 拉格朗日插值多项式 | |||
分段插值法 | ||||
样条插值法 | 使用一种名为样条的特殊分段多项式进行插值的形式。样条插值可以使用低阶多项式样条实现较小的插值误差,可以避免龙格现象。 | |||
龙格现象 | 随着样点增加,高次插值带来误差的震动现象称为龙格现象 | |||
integrate | 积分 | |||
Ordinary Differential Equations | 常微分方程 | ODE | ||
Partial Differential Equations | 偏微分方程 | PDE | ||
Bias | 模型的偏差 | 用所有可能的训练数据集训练出的所有模型的输出的平均值” 与 “真实模型”的输出值之间的差异 | 模型和“真相”的差异,反应模型本身的拟合能力 | |
Variance | 模型的方差 | “不同的训练数据集训练出的模型”的输出值之间的差异。 | 反应模型的稳定性,模型的每次输出结果与输出期望间的误差。 打靶例子理解Bias 和Variance |
|
Noise | 噪声 | 噪声点 | ||
Overfitting | 过拟合 | 对训练样本拟合很好,但对于测试样本拟合很差 | 高方差问题 | |
Underfitting | 欠拟合 | 训练样本太少,模型不能刻画数据分布,在训练集上错误率就很高 | 高偏差问题 | |
训练集 | 用来做模型训练的数据集合 | |||
测试集/验证集 | 用来测试模型误差或准确度的集合 | |||
Cross-Validation | 交叉验证 | 在使用训练集时就对模型进行衡量,不用建模后才使用测试集衡量模型 | ||
leave-one-out | 留一交叉验证 | 每次取出1个作为测试集,其他的作为训练集,平均每次测试结果作为泛化误差估计。 | ||
K-fold cross-validation | K折交叉验证 | 样本分成K个子样本,K-1个作为训练样本,1个作为测试样本。重复K次,每个样本作为测试集验证一次,平均K次的结果或其他连接方式,得到最终的参数结果。这是模型训练过程 | 解决高方差问题 (K-CV) |
|
leave-P-out | 留P交叉验证 | 同上,每次留P个样本作为训练集合,重复C(N,p)次训练和测试。 | ||
sparse matrix | 稀疏矩阵 | 在矩阵中,若数值为0的元素数目远远多于非0元素的数目,并且非0元素分布没有规律时,则称该矩阵为稀疏矩阵。 | 以下是7种稀疏矩阵 | 这几种稀疏矩阵的区别在于存储的区别,压缩与否,行/列存储来记录矩阵中非0元素存储的位置。 |
A sparse matrix in COOrdinate format | COO矩阵 | 存储矩阵中不为0的元素的行号、列号和数值。即行坐标row indices, 列坐标 column indices ,数值values。优点:比较容易转成其他稀疏矩阵存储格式。缺点:不能进行矩阵运算。 标准定义表达式:(即 ijv 的形式) coo_matrix((data, (i, j)), [shape=(M, N)]) |
coo_matrix | |
Compressed Sparse Column matrix | CSC矩阵 | 压缩稀疏列式存储的矩阵。 Indices:行坐标 indptr: csc index pointer array,没列第一个非0元素在values中的位置。标准表达式: csc_matrix((data, indices, indptr), [shape=(M, N)]) |
csc_matrix | |
Compressed Sparse Row matrix | CSR矩阵 | 压缩稀疏行存储的矩阵。Row offsets , column indices , values. row offsets:指出了每行元素在values中的开始位置。根据此可以将存储values的数组进行切分,然后按照column indices/列坐标和行坐标将values中的元素 还原到原矩阵。 优点:行切片和+/*/dot运算,但列切片比CSC慢。CSR格式存储非零元素平均使用字节数稳定,常用于读入数据后进行稀疏矩阵计算。 标准定义表达式: csr_matrix((data, indices, indptr), [shape=(M, N)]) 其中data是shape=(1,n)的np.array |
csr_matrix | |
Block Sparse Row matrix | BSR矩阵 | 标准定义表达式 bsr_matrix((data, indices, indptr), [shape=(M, N)]) 同CSC/CSR,只不过data是按(n,x)array块存储的,即是shape(m,n,x)维的。 |
bsr_matrix | |
Sparse matrix with DIAgonal storage | DIA矩阵 | 对角线存储法,按对角线方式存,从左下往右上开始,省略全零的对角线。同一条对角线上的元素放在同一列,存放的行就代表其原来所在的行。 按对角存储的稀疏矩阵 dia_matrix((data, offsets), shape=(M, N)) 理解offset,是从对角线开始往上/往下偏移,data是存放的对角线位置元素,中间有0的也要补上,长度都要是一个完全对角线的长度。Offset偏移是0的! |
dia_matrix | |
Dictionary Of Keys based sparse matrix | DOK矩阵 | 按位置坐标字典存储的稀疏矩阵 标准定义表达式: dok_matrix((M,N), [dtype]) |
dok_matrix | |
Row-based linked list sparse matrix | LIL矩阵 | lil_matrix | ||
dense matrix | 稠密矩阵 | 密集矩阵 | ||
数值积分 | ||||
解析积分 | ||||
eigenvalues (characteristic value) |
特征值 | eigs | ||
eigenvectors | 特征向量 | eigs | ||
singular value decomposition | 奇异值分解 | svd | ||
ANOVA | 方差分析 | |||
k-means cluster | K-means聚类 | |||
层次聚类 | ||||
K-dimension tree | KD树 | kd树是对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构。kd树是是一种二叉树,表示对k维空间的一个划分,构造kd树相当于不断地用垂直于坐标轴的超平面将K维空间切分,构成一系列的K维超矩形区域。kd树的每个结点对应于一个k维超矩形区域。利用kd树可以省去对大部分数据点的搜索,从而减少搜索的计算量。 | KD树中每个节点是一个向量,和二叉树按照数的大小划分不同的是,KD树每层需要选定向量中的某一维,然后根据这一维按左小右大的方式划分数据。在构建KD树时,关键需要解决2个问题:(1)选择向量的哪一维进行划分;(2)如何划分数据。第一个问题简单的解决方法可以是选择随机选择某一维或按顺序选择,但是更好的方法应该是在数据比较分散的那一维进行划分(分散的程度可以根据方差来衡量)。好的划分方法可以使构建的树比较平衡,可以每次选择中位数来进行划分,这样问题2也得到了解决。 | |
outliers | 异常值/离群点 | |||
quantile transforms | 分位数变换 | |||
monotonic transformations | 单调变换 | |||
Discretization (otherwise known as quantization or binning) | 离散化 | 把连续特征分成离散值的过程 | 也被叫做量化或分块 | |
K-bins discretization | K-bins 离散化 | |||
Yeo-Johnson transform | Yeo-Johnson变换 | 变换成高斯分布的一种方式 | ||
Box-Cox transform | Box-Cox变换 | |||
Vector Space Model | 向量空间模型 | |||
Normalization | 归一化 | 将样本处理成单位范数的过程 | 向量空间在文本分类和聚类的应用中常会应用此处理 | |
Feature binarization | 特征二值化 | 对数值特征进行阈值化得到布尔值的过程 | ||
Principal component analysis (PCA) | 主成分分析 | PCA用于将多变量数据集分解为一组连续的正交分量,以解释最大方差/差异。 PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴,新的坐标轴的选择与数据本身是密切相关的。其中,第一个新坐标轴选择是原始数据中方差最大的方向,第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的,第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推,可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴,我们发现,大部分方差都包含在前面k个坐标轴中,后面的坐标轴所含的方差几乎为0。于是,我们可以忽略余下的坐标轴,只保留前面k个含有绝大部分方差的坐标轴。事实上,这相当于只保留包含绝大部分方差的维度特征,而忽略包含方差几乎为0的特征维度,实现对数据特征的降维处理。 |
在scikit-learn中,PCA是一个transformer对象,可以用fit方法在测试集上学习到n个主成分,然后可以将新的数据集映射到这些主成分上。 通过计算数据矩阵的协方差矩阵,然后得到协方差矩阵的特征值特征向量,选择特征值最大(即方差最大)的k个特征所对应的特征向量组成的矩阵。这样就可以将数据矩阵转换到新的空间当中,实现数据特征的降维。 由于得到协方差矩阵的特征值特征向量有两种方法:特征值分解协方差矩阵、奇异值分解协方差矩阵,所以PCA算法有两种实现方法:基于特征值分解协方差矩阵实现PCA算法、基于SVD分解协方差矩阵实现PCA算法。 |
|
Incremental principal component analysis (IPCA) | 增量PCA | IPCA构建一个低阶的数据去逼近样本。所用的内存与输入样本数无关,虽仍需依赖于样本的特征,但却可以更好的控制内存的使用。 | 当需要做主成分分析的数据量过大时替代PCA的方法 | |
coefficient of determination | 相关指数R2 | 评价一元多项式回归方程拟合度的高低 | 也叫做决定系数 | |
ROC曲线 | ||||
AUC | ||||
混淆矩阵 | ||||
TPR | ||||
FPR | ||||
KS值 | ||||
GINI系数 | ||||
precision | 准确率 | |||
召回率 | ||||
F值 | ||||
Sum of Squared Error (SSE) |
和方差/误差平方和 | 拟合数据和原始数据对应点的误差平方和(点对点的) | ||
Mean Squared Error (MSE) |
均方差 | 和方差的平均值 | sklearn.metrics.mean_squared_error() | |
Root Mean Squared Error (RMSE) |
根方差/标准差 | 均方差求平方根 | np.sqrt(sklearn.metrics.mean_squared_error()) | |
Mean Absolute Error (MAE) |
平均绝对误差 | 拟合数据和原始数据对应点的绝对差之和取平均值(点对点) | sklearn.metrics.mean_absolute_error() | |
SUM of Squares of the Regression (SSR) |
回归和方差 | 拟合数据对原始数据平均值的误差平方和(点对线) | ||
SUM of squares total (SST) |
整体和方差 | 原始数据和其平均值的误差平方和(点对线) | ||
Coefficient of determination (R-square) |
R2决定系数 | R-square = SSR / SST,大概说明拟合情况 如果R-square=0,说明SSR=0,那么拟合就是平均值这个直线,拟合太随意了。如果R-square=1,说明SSR=SST,那么SSE=0,即每个点上拟合值和真实值一致,说明有可能过拟合了,这样反而不一定好。 |
sklearn.metrics.r2_score() | |
(Adjusted R-Square) |
校准决定系数 | n是样本量,P是特征量,抵消了样本量的影响,越接近于1说明拟合越好 | 1 - ((1-r2_score) * (n-1) )/(n-p-1) | |
梯度下降法 | ||||
learning rate | 学习率 | 每个点的梯度*学习率就是该点改变的步长 | ||
Autoregressive Models (AR) |
自回归模型 | 是用自身做回归变量的过程,即利用前期若干时刻的随机变量的线性组合来描述以后某时刻随机变量的线性回归模型,它是时间序列中的一种常见形式 | 时间序列的P阶自回归模型AR(P),一般模型是y(t)=a0+a1*y(t-1)+a2*y(t-2)+…+ap*y(t-p)+e,a0是常数项,a1,a2,…ap是模型参数,e是均值为0,方差为sigma的误差项。累加和函数cumsum | |
Yule-Walker方程 | ||||
boxplot | 箱形图 | 箱形图用于显示数据分散情况的图,有5个基本数值决定,即最小值、下四分位数、中位数、上四分位数、最大值。四分位距(interquartile range,IQR)表示下四分位数和上四分位数的间距,即50%的数值都落在了这之间。盒须线(whiskers)是Q1延伸至minmum,Q3延伸至maxmum的两段线。 | 箱形图用于显示数据分散情况,其中minimum和maximum很可能不表示数据集中的最小、最大点,而是由Q1、Q3、IQR决定,而不分布于[minimum,maximum]的点视为离群点,outlier | |
分位数图示法(Quantile Quantile Plot) 简称Q-Q图 | QQ图 | Q-Q图是一个概率图,用图形的方式比较两个概率分布,把它们的分位数放在一起比较。首先选好分位数间隔。图上的点(x,y)反映出其中一个第二个分布(y坐标)的分位数和与之对应的第一分布(x坐标)的相同分位数。因此,这条线是一条以分位数间隔为参数的曲线。如果两个分布相似,则该Q-Q图趋近于落在y=x线上。如果两分布线性相关,则点在Q-Q图上趋近于落在一条直线上,但不一定在y=x线上。Q-Q图可以用来可在分布的位置-尺度范畴上可视化的评估参数。 | Q-Q图主要用于检验数据分布的相似性。 | P-P图和Q-Q图的用途完全相同,只是检验方法存在差异。要利用QQ图鉴别样本数据是否近似于正态分布,只需看QQ图上的点是否近似地在一条直线附近,而且该直线的斜率为标准差,截距为均值. 用QQ图还可获得样本偏度和峰度的粗略信息. |
PP图 | P-P图是根据变量的累积概率对应于所指定的理论分布累积概率绘制的散点图 | P-P图用于直观地检测样本数据是否符合,某一概率分布 |