数据质量可以用三个基本指标来进行描述,分别是数据的正确性,完整性和一致性
第一数字定律描述的是自然数1-9的使用频率,公式为( d ∈ { 1 , 2 , 3 , 4 , 5 , 6 , 7 , 8 , 9 } d\in\{1,2,3,4,5,6,7,8,9\} d∈{1,2,3,4,5,6,7,8,9})
P ( d ) = log 10 ( d + 1 ) − log 10 ( d ) P(d)=\log_{10}(d+1)-\log_{10}(d) P(d)=log10(d+1)−log10(d)
其中数字1的使用最多接近三分之一,2为17.6%,3为12.5%,依次递减。
第一数字定律不但适用于各位数字,而且再多位的数也可用。 但是第一数字定律成立有以下两个条件:
小概率定理的基本思想是一个事件如果发生的概率很小,那么它在一次实验中几乎是不可能发生的,但是在多次重复试验中几乎是必然发生的,数学上称之为小概率原理。在统计学中,吧小概率事件看成在一次实验中是实际不可能发生的时间,一般认为等于或者小于0.05或0.01的概率称之为小概率
探索性数据分析是指对已有的数据(特别是调查和观察得来的原始数据)在尽量少的先验假定下进行探索,并同坐作图,制表,方程拟合,计算特征量等手段探索数据的结构和规律的一种数据分析方法。当我们对数据中的信息没有足够的经验时,且不知道使用何种传统统计方法进行分析时,经常采用探索性数据分析方法进行数据分析。
探索性数据分析主要关注以下四个主题
耐抗性:指对数据的局部不良行为的非敏感性。它是探索性数据分析的主要目的,EDA强调数据分析的耐抗性。描述耐抗性常用的统计量可以分为以下四类
中文 | 英文 | 含义 |
---|---|---|
众数 | Mode | 一组数据中出现次数最多的数据 |
中位数 | Median | 医嘱数据排序后处于中间位置的变量值 |
四分位数 | quartile | 一组数据排序后处于25%和75%位置上的值 |
和 | sum | 一组数据相加后得到的值 |
平均值 | Mean | 一组数据相加后处于数据个数得到的值 |
中文 | 英文 | 含义 |
---|---|---|
极差 | Range | 一组数据的最大值和最小值之差 |
标准差 | standard deviation | 描述变量相对于均值的扰动程度,及数据相对于均值的离散程度 |
方差 | Variance | 标准差的平方 |
极小值 | Minimum | 某变量所有取值的最小值 |
极大值 | Maximum | 某变量所有取值的最大值 |
中文 | 英文 | 含义 |
---|---|---|
偏态 | Skewness | 描述数据分布的对称性,当“偏态系数”等于0时,对应数据的分布为对称,否则分布为非对称 |
峰态 | Kurtosis | 描述数据分布的平峰或者尖峰程度。当峰态系数等于0时,数据为标准正态分布,否则必正态分布更平或者更尖 |
残差:是指是实际数据减去一个总括统计量或者模型拟合值时的残余部分
重新表达:是指找到合适的尺度或者数据表达方式进行一定的转换,使得有利于简化分析。 EDA强调的是,尽早考虑数据的原始尺度是否合适的问题。如果尺度不合适,重新表达成另一个尺度可能更有促进对称性,变异恒定性,关系直线性等。
启示:是指通过探索性分析,发现新的规律、问题和启迪,进而满足数据预处理和数据分析的需要
数据审计是指按照数据质量的一般规律和评价方法对数据内容及其源数据进行审计,发现其中存在的问题。例如缺失值,噪声值,不一致值,不完整值。主要有以下几种方法
当来源数据带有自描述性验证规则时,通常采用预定义审计方法,可以通过查看系统的设计文档、源代码或测试方法找到这些验证规则。预定义审计中可以语句的数据或者方法有以下几个:
当来源数据中缺少自描述性验证规则或自描述性验证规则无法满足数据预处理需要时通常采用自定义审计方法。验证规则一般分为以下两种:
有时,很难用统计学和机器学习等方法发现数据中存在的问题。但是可以利用数据的可视化方法发现数据中的问题。
数据清洗是指在数据审计活动的基础上,将脏数据清洗城干净数据的过程。 脏数据是指数据审计过程中发现有问题的数据,例如含有缺失值,冗余内容,噪声数据等问题。
缺失数据的处理主要涉及三个关键活动:识别缺失数据、分析缺失数据的特征、估计缺失数据对后续数据分析的影响、分析导致数据缺失的原因以及删除或插补缺失数据。
类型 | 特征 | 解决方法 |
---|---|---|
完全随机缺失(MCAR) | 某变量的缺失数据或其他任何观测或未观测变量都不相关 | 较为简单,可以进行忽略/删除/插值操作 |
随机缺失(MAR) | 某变量的缺失数据与其他观测相关,但与未观测变量不相关 | 同上 |
非随机缺失(NMAR) | 缺失数据不属于上述两种类型的 | 较为复杂,可以采取模型选择法和模式混合法 |
在识别出重复数据的基础上,需要对重复数据进行过滤操作。根据操作复杂度,重复过滤可以分为以下两种:
噪声数据是指测量变量中的随机错误或者偏差。噪声数据的主要表现形式有三种:错误数据、虚假数据以及异常数据。其中异常数据是指对数据分析结果具有重要影响的离群数据或者孤立数据。噪声数据的处理方法如下:
数据变换的类型
方法 | 目的 | 常用手段 |
---|---|---|
平滑处理 | 去除噪声数据 | 分箱,回归,聚类 |
特征构造 | 构造出新的特征 | 采用一致的特征构造出新的属性,用于描述客观现实 |
聚集 | 进行粗粒度计算 | 例如可以通过对日销售进行聚集,计算出月销售量 |
标准化 | 将特征属性(值)按比例缩放,使之落入一个特定的区间 | 常用的数据规范化方法有Min-Max标准化和z-score标准化 |
离散化 | 用区间或者概念标签表示数据 | 分箱,聚类,直方图分析,基于熵的离散化等 |
在数据处理过程中,有时需要对来自不同数据源的数据进行集成处理,并集成后得到的数据集上进行数据处理
1.模式集成:主要涉及的问题是如何使来自多个数据源的现实世界的实体相互匹配,即实体识别问题
2. 数据冗余:若一个属性可以从其他属性中推导出来,那么这个属性就是冗余属性。此外,属性命名规则的不一致也会导致集成后的数据集中出现不一致的现象
3. 冲突检测与消除:对于一个现实世界实体来讲,可能存在来自不同数据源的属性值不同,产生这样问题的原因可能是表示的差异,比例尺度不同或者编码的差异等。
数据脱敏是指在不影响数据分析结果的准确性的前提下,对原始数据进行一定的变换操作,对其他的个人敏感数据进行替换,过滤或者删除操作,降低信息的敏感性,减少相关主体的信息安全隐患和个人隐私风险。数据脱敏必须要满足以下三个要求:
**数据规约是指在不影响数据的完整性和数据分析结果的正确性的前提下,通过减少数据规模的方式达到提升数据分析的效果与效率的目的。**常用的数据规约方法有两种:维规约和值规约
数据统计分析的类型
数据统计分析的类型
正态分布是描述连续性随机变量的最重要分布,也是经典统计推断的基础。正态分布的定义如下:
f ( x ) = 1 σ 2 π e − 1 2 σ 2 ( x − μ ) 2 f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2\sigma_2}{(x-\mu)^2}} f(x)=σ2π1e−2σ21(x−μ)2
正态分布主要具有以下特征:
$\mu$
是决定一个正态分布的两个重要因素卡方分布是建立在正态分布概念基础之上的,主要刻画的是一个总体为正态分布时,所对应的样本方差的分布情况,其定义如下
设总体服从正太分布 X ∼ N ( μ , σ 2 ) , X 1 , X 2 . . . . , X N X\sim N(\mu,\sigma^2),X_1,X_2....,X_N X∼N(μ,σ2),X1,X2....,XN为来自该正态总体的样本,则样本方差$S^2$
的分布为
( n − 1 ) S 2 σ 2 ∼ χ 2 ( n − 1 ) \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1) σ2(n−1)S2∼χ2(n−1)
式中,将 χ 2 ( n − 1 ) \chi^2(n-1) χ2(n−1)称为自由度为n-1的卡方分布
在数据分析中,当总体标准差为未知数时,可以采用t分布——用样本标准差S代替总体标准差 σ \sigma σ,由样本平均数推断总体平均数及两个小样本之间的显著性检验
设 X 1 , X 2 . . . . , X n − 1 X_1,X_2....,X_{n-1} X1,X2....,Xn−1是来自正态总体 X ∼ N ( μ , σ 2 ) X \sim N(\mu,\sigma^2) X∼N(μ,σ2)的一个样本
n ( X ‾ − μ ) S ∼ t ( n − 1 ) \frac{\sqrt{n}(\overline{X}-\mu)}{S} \sim t(n-1) Sn(X−μ)∼t(n−1)
t分布具有以下特征:
F分布也是建立在正态分布的基础之上的,刻画的是两个总体均为正态分布式,这两个总体的样本差之间的比例的分布情况,主要用于方差分析和回归方程的显著性检验之中,F分布的定义如下:
设 X 1 , X 2 . . . . , X n 1 X_1,X_2....,X_{n1} X1,X2....,Xn1是来自正态总体 X ∼ N ( μ 1 , σ 1 2 ) X \sim N(\mu_1,\sigma^2_1) X∼N(μ1,σ12)的一个样本,设 Y 1 , Y 2 . . . . , Y n 2 Y_1,Y_2....,Y_{n2} Y1,Y2....,Yn2是来自正态总体 Y ∼ N ( μ 2 , σ 2 2 ) Y \sim N(\mu_2,\sigma^2_2) Y∼N(μ2,σ22)的一个样本。且X与Y相互独立,则:
s x 2 / s y 2 σ x 2 / σ y 2 ∼ F ( n 1 − 1 , n 2 − 1 ) \frac{s^2_x/s^2_y}{\sigma_x^2/\sigma_y^2}\sim F(n_1-1,n_2-1) σx2/σy2sx2/sy2∼F(n1−1,n2−1)
我们将 F ( n 1 − 1 , n 2 − 1 ) F(n_1-1,n_2-1) F(n1−1,n2−1)称为第一自由度为 n 1 − 1 n_1-1 n1−1,第二自由度为 n 2 − 1 n_2-1 n2−1的F分布
另外F分布与t分布的关系是,当随机变量X服从t(n)分布,则 X 2 X^2 X2服从F(1,n)的F分布
在数据科学中,有时需要通过样本对总体进行推断分析,常用的推断方法有两种:参数估计和假设检验,但是二者的推断思路是有区别的:
点估计的基本思路是先从总体中抽取一个样本,然后根据该样本的统计量对总体的未知参数做出一个数值点的估计,例如,用样本均值 x ‾ \overline{x} x作为总体均值 μ \mu μ的估计值。 值得注意的是:点估计并没有给出估计值接近总体未知参数程度的信息。 点估计的具体实现方法有:矩估计法,顺序统计量法,最大似然法,最小二乘法
区间估计是在点估计的基础上,给出总体参数落在某一个区间的概率,此区间就是根据一个样本的观察值给出的总体参数的估计范围,可通过样本统计量的加减抽样误差的方法计算
区间估计有以下两个重要指标:
在参数估计中,用于估计总体某一采纳数的随机变量成为估计量。判断估计量的优良性的基本准则有以下三个:
假设验证方法主要以小概率原理为基础,采用的是逻辑反证法。
基本流程如下:
假设检验方法分为两种类型:参数假设检验和非参数假设检验,二者的主要区别在于应用前提以及检验统计的设计方法的不同。
在数据分析任务重,并不是所有的统计分析工作都是有自己完成,有时需要在他人的统计结果上进行二次分析。在这种情况下,需要的是另一种统计分析方法——元分析法
加权平均法主要是用于对一同一个样本的同类研究结果的元分析
加权平均法是指将各数值乘以相应的权数,然后求和得到总体值,再除以总的单位数的一种方法。 具体的讲,元分析中常用的权重计算方法有以下两种:
$w_i$
代表的是第i个变量$x_i$
的权重,k为变量的个数。$y_i$
为第i个分析数据集,其对应的方差为$\sigma^2$
优化方法是从多个备选方案中挑选或者推导出一个最优方案的方法,其主要理论基础来源于运筹学,主要包括以下四种:
机器学习是指计算机能够模拟人的学习行为,通过学习获取知识和技能,不断改善性能,实现自我完善
如果一个计算机系统能够给在完成某一类任务T的性能P能够随着经验E而改进,则称该系统在从经验E中学习,并将这个系统成为一个学习系统
训练经验的选择需要注意以下问题:
学习系统的目的是改进在完成某一类任务T时的性能P, 但是我们通常把这个一个目的转换成为对某目标函数的学习
总之,可以把机器学习的任务归结为发现目标函数的可操作性描述,但是现实生活中,确定学习目标函数是一件非常困难的任务,无法找到准确的目标函数。因此,一般采用近似函数逼近。仅希望学习到一个“近似的目标函数”,所以目标函数的学习算法通常被称为函数逼近算法
目标函数的表示是指它的近似函数的表示方法,在实际工作中,目标函数的表示可以采用多种方法,不同表示方法的表达能力可能不同。一般情况下, 越是表达能力强的方法越能接近理想的目标函数,但也需要更多的训练数据集来确定近似函数的参数
目标函数选择的关键是在于找出确定系数的算法——函数逼近算法。训练近似函数中的系数$w_i$
,可以通过以下两个步骤完成:
$V_{train}(b)$
)的直接训练样本,其中$V_{train}(b)$
称为训练值,即V(b)的估计值。$V_{train}(b)$
)样本调节$w_i$
的值,使之与训练达到最好的匹配。一种常用的方法是吧最佳的假设定义为使用训练值和假设预测的值之间的误差平方和最小基于实例学习的基本思路是事先将训练样本存储下来,然后每当遇到一个新增查询实例时,学习系统分析此新增实例与之前存储的实例之间的关系,并据此吧一个目标函数值赋值给新增实例。
可见,基于实例学习方法的特点是将从实例中泛化工作推迟到必须分类新的实例时,并未不同的待分类查询实例建立不同的目标函数逼近。基于实例学习方法包括最邻近发,局部加权回归和基于案例的推理等
概念学习的本质是根据布尔函数的输入/输出训练样本中推算出该布尔函数。也就是说概念学习主要解决的是“在已知的样本集合以及每个样本是否属于某一个概念的标注的前提下,推断出该概念的一般定义”的问题
搜索策略的选择是概念学习的核心问题之一,为了便于假设控件的搜索,Ibanez定义假设的一般到特殊偏序解雇,具体方法有以下几种:
增强学习主要研究如何协助自治agent的学习活动,进而达到选择最优动作的目的。增强学习中讨论的Agent需要具备与环境的交互能力和自治能力
$s_t$
下执行动作$a_t$
时,Agent收到一个的实值回报$r_t$
,表示此状态-动作转换的立即值$\pi:S\to A$
,使回报综合的期望值最大,其中后面的汇报至随着他们的延迟指数减小增强学习的基本任务是当Agent在其环境做出每个动作时,施教者会提供奖赏或惩罚信息,以表示结果状态的正确与否。 控制策略的学习问题形式化有多种表示方法,其中最常用的就是基于马尔科夫决策过程定义方法。