面对这海量的数据,我们却倍感知识的匮乏!
——约翰∙奈斯比(John Naisbitt) 1982
全世界最早开发的统计分析软件,操作界面极为友好,输出结果美观漂亮。2009年被IBM公司收购。
SQLServer是Microsoft公司推出的关系型数据库管理系统。具有使用方便可伸缩性好与相关软件集成程度高等优点,可跨平台使用。
Tableau Server则是完全面向企业的商业智能应用平台,基于企业服务器和web网页,用户使用浏览器进行分析和操作,还可以将数据发布到Tableau Server与同事进行协作,实现了可视化的数据交互。Tableau Desktop的学习成本很低,使用者可以快速上手,这无疑对于日渐追求高效率和成本控制的企业来说具有巨大的吸引力。
SAS (Statistical Analysis System)是一个模块化、集成化的大型应用软件系统。它由数十个专用模块构成,功能包括数据访问、数据储存及管理、应用开发、图形处理、数据分析、报告编制、运筹学方法、计量经济学与预测等等。
Stata 是一套提供其使用者数据分析、数据管理以及绘制专业图表的完整及整合性统计软件。它提供许许多多功能,包含线性混合模型、均衡重复反复及多项式普罗比模式。用Stata绘制的统计图形相当精美。
MATLAB是美国MathWorks公司出品的商业数学软件,用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境, 主要包括MATLAB和Simulink两大部分。MATLAB和Mathematica、Maple并称为三大数学软件。它在数学类科技应用软件中在数值计算方面首屈一指。 MATLAB可以进行矩阵运算、绘制函数和数据、实现算法、创建用户界面、连接其他编程语言的程序等,主要应用于工程计算、控制设计、信号处理与通讯、图像处理、信号检测、金融建模设计与分析等领域。
MicrosoftExcel是微软公司的办公软件Microsoftoffice的组件之一,是由Microsoft为Windows和AppleMacintosh操作系统的电脑而编写和运行的一款试算表软件。 Excel是微软办公套装软件的一个重要的组成部分,它可以进行各种数据的处理、统计分析和辅助决策操作,广泛地应用于管理、统计财经、金融等众多领域。
R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。
Eviews也是美国QMS公司研制的在Windows下专门从事数据分析、回归分析和预测的工具。 使用Eviews可以迅速地从数据中寻找出统计关系,并用得到的关系去预测数据的未来值。 Eviews的应用范围包括:科学实验数据分析与评估、金融分析、宏观经济预测、仿真、销售预测和成本分析等。
数据挖掘软件,提供了大量的人工智能、统计分析的模型(神经网络,关联分析,聚类分 析、因子分析等),并用基于图形化的界面为数据挖掘提供方便。
数据缺失大概有两种形式:1.完全缺失,比如某个属性信息信息完全不可获取,即某一列的值全部缺失; 2.随机缺失,某些记录有,某些记录没有
异常值可能由于测量、输入错误或者系统运行错误而造成,也可能是由数据内在特性引起的,或者异常行为导致。 异常值分析是检验数据是否含有不合理的数据。由于异常产生的机制是不确定的,因此异常检测算法检测出来的“异常”是否 真正地对应为实际的异常行为,不是有异常检测算法来说明、解释的,只能有领域专家来解释。
数据一致性通常指关联数据之间逻辑关系是否正确和完整。
运用制图和分类、图形以及计均概括性数据来描述数据的集中趋势、离散趋势、偏度以及峰度。
把两个相互联系的指标进行对比,从数量上展示和说明研究对象规模的大小、水平的高低、速度的快慢以及各种关系是否协调。 特别适用于指标间的横纵向对比、时间序列的比较分析。关键在于选择合适的对比标准。
用统计指标对定量数据进行统计描述。常从集中趋势和离中趋势两个方面来分析。 反应平均水平的指标是对个体集中趋势的度量,使用最广泛的是均值和中位数。 反应变异程度的指标则是对个体离开平均水平的度量,使用是最广泛的是标准差(方差)、四分位间距。
以时间顺序挖掘周期性的模式(即周期性分析)时一种重要的数据挖掘方式。周期性分析是探索某个变量是否随着时间变化而呈现出某种周期性变化趋势。 时间尺度相对较长的周期性趋势有年、季周期性趋势,时间尺度相对较短的有月、周、天、小时周期性趋势。
贡献度分析又叫帕累托分析。简单例子,一个公司80%的利润来自20%的产品,而其他80%的产品却创造了20%的利润。这种分析对于机器学习中的样本选取具有重要意义。
散点图矩阵是散点图的高维扩展,他从一定程度上克服了在平面上展示高维数据的困难, 在展示多维数据关系时具有不可替代的作用。
用来衡量两个数据集合是否在一条线上面,它用来衡量定距变量间的线性关系。 如衡量国民收入和居民储蓄存款、身高和体重、高中成绩和高考成绩等变量间的线性相关关系。 当两个变量都是正态连续变量,而且两者之间呈线性关系时,表现这两个变量之间相关程度用积差相关系数,主要有Pearson简单相关系数。
衡量分级定序变量之间的相关程度的统计量, 对不服从正态分布的资料、原始资料等级资料、一侧开口资料、总体分布类型未知的资料不符合使用积矩相关系数来描述关联性。 此时可采用秩相关(rank correlation),也称等级相关,来描述两个变量之间的关联程度与方向。
判定系数也叫确定系数或可决系数, 是在线性回归中,回归平方和与总离差平方和之比值,其数值等于相关系数的平方。 判定系数达到多少为宜,没有一个统一的明确界限值;若建模的目的是预测因变量值,一般需考虑有较高的判定系数。
在某一现象与多种现象相关的场合,当判定其他变量不变时,其中两个变量之间的相关关系称为偏相关。
处理缺失值不外乎以下几种方法: 1.直接删除字段缺失的记录; 2.对缺失值进行替换; 3.相似对象填充; 4.用模型去预测缺失值
分析异常值出现的可能原因,在单独安异常值是是否应该舍弃, 如果是正常数据,可以直接在具有异常值的数据及上进行建模。
同名同义
异名同义
单位不统一
用来将不具有正态分布的数据变换成具有正态分配的数据; 在时间序列分析中,有时简单的对数变换或者差分运算可将非平稳序列转换为平稳序列。 例如个人年收入的取值范围为10000元到10亿元,使用对数变化对其压缩是常用的一种变换处理。
归一化处理是数据挖掘的一项基础工作。不同评价指标往往具有不同的量纲和量纲单位,数值之间的差别可能很大,不进行 处理可能会影响到数据分析的结果。常用:最小-最大规范化、零均值规范化、小数定标规范化。
每个桶的宽度区间是一样的。
每个桶的高度都是一样的。
对数据对象进行划分成群或者簇,规则是每个簇内数据对象尽量相似,簇之间的对象尽量相异。 然后用簇来代替原始的簇内数据对象。
利用已有的属性集否早出新的属性,并加入已有的属性集中。
新型数据分析工具,是信号分析手段。小波变换具有多分辨率的特点。在时域和频域都具有表征信号局部 特征的能力,通过伸缩和平移等运算过程对信号进行多尺度聚集分析,提供了一种非平稳信号的时频分析手段, 可以由粗及细地逐步观察信号,从中提取有用信息。
由空的初始规约集,逐步添加好的属性到规约中。
逐步删除整个属性集中最差的。
每个非叶子节点表示一个属性的选择,每个叶子节点表示一个类预测。 最终的结果是将属性按照需求划分为好的或者坏的。
将彼此相关的一组指标转化为彼此独立的一组新的指标变量,并用其中较少的 几个新指标变量就能综合反映原多个指标变量中所包含的主要信息。
用一个连续的值域代替一个值作为一个桶。
通过模型建立属性间的关系,并通过回归方程等进行拟合,求取相关参数, 这样在存取的时候只需要存取相关的模型参数,而不用存取实际数据,从而减少数据量。
正态分布检验
二项分布检验
游程检验
在已知总体分布的条件下(一般要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等) 进行的检验
不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设 (如总体分布的位罝是否相同,总体分布是否正态)进行检验。适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。
卡方检验。卡方检验是用途非常广的一种假设检验方法,其原理是统计样本的实际观测值与理论推断值之间的偏离程度, 实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合; 卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。
一项试验只有一个影响因素,或者存在多个影响因素时,只分析一个因素与响应变量的关系。
一顼实验有多个影响因素,分析多个影响因素与响应变量的关系,同时考虑多个影响因素之间的关系
传统的方差分析存在明显的弊端,无法控制分析中存在的某些随机因素, 使之影响了分祈结果的准确度。协方差分析主要是在排除了协变量的影响后再对修正后的主效应进行方差分析, 是将线性回归与方差分析结合起来的一种分析方法。
只有一个自变量X与因变量Y有关,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布。
分析多个自变量与因变量Y的关系,X与Y都必须是连续型变量,因变量y或其残差必须服从正态分布 。
线性回归模型要求因变量是连续的正态分布变里,且自变量和因变量呈线性关系, 而Logistic回归模型对因变量的分布没有要求,一般用于因变量是离散时的情况。 Logistic回归模型有条件与非条件之分,条件Logistic回归模型和非条件Logistic回归模型的区别在于参数的估计是否用到了条件概率。
将彼此相关的一组指标变适转化为彼此独立的一组新的指标变量, 并用其中较少的几个新指标变量就能综合反应原多个指标变量中所包含的主要信息
一种旨在寻找隐藏在多变量数据中、无法直接观察到却影响或支配可测变量的潜在因子、 并估计潜在因子对可测变量的影响程度以及潜在因子之间的相关性的一种多元统计分析方法。 主成分分析重在综合原始变适的信息.而因子分析重在解释原始变量间的关系,是比主成分分析更深入的一种多元统计方法。
典型相关分析的实质就是在两组随机变量中选取若干个有代表性的综合指标(变量的线性组合), 用这些指标的相关关系来表示原来的两组变量的相关关系。这在两组变量的相关性分析中, 可以起到合理的简化变量的作用;当典型相关系数足够大时,可以像回归分析那样, 由一组变量的数值预测另一组变量的线性组合的数值。
一种类似于主成分分析的变量降维分析方法, 主要用于定性二维或多维列联表数据的分析,与主成分分析不同之处除了分别用于定性与定量数据的分析外, 主成分基于的是方差分解与共享,对应分析基于卡方统计量的分解与贡献。
多维尺度法是一种将多维空间的研究对象(样本或变量)简化到低维空间进行定位、 分析和归类,同时又保留对象间原始关系的数据分析方法。
检査测量的可信度,例如调查问卷的真实性。 1、外在信度:不同时间测量时量表的一致性程度,常用方法重测信度; 2、内在信度;每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何,常用方法分半信度。
COX模型。Cox模型是生存分析中一个很重要的内容,就是探索影响生存时间(生存率)的危险因素, 这些因素通过影响各个时刻的死亡风险(危险率)来影响生存率。由英国统计学家D.R.Cox于1972年提出, 主要用于肿瘤或其他慢性疾病的预后分析,发展到目前为止,已不仅局限于此,而是被广泛地应用各个领域。 其优点包括:是使用于多因素的分析方法、不考虑生存时间的分布形状、能够有效地利用截尾数据。
决策树是一个预测模型,代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值, 而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出, 可以建立独立的决策树以处理不同输出。 数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测(比如银行官员用它来预测贷款风险)。 从数据产生决策树的机器学习技术叫做决策树学习, 通俗说就是决策树。
分类回归树:CART
C5.0算法
CHAID算法(卡方自动交换诊断器)
QUEST算法(快速无偏有效统计树)
神经网络具有高度的自学习、自组织和自适应能力,能通过学习和训练获取网络的权值和结构。 多层前向神经网络具有理论上可逼近任意非线性连续映射的能力,因而非常适合于非线性系统的建模及控制, 是目前使用较多的一种神经网络模型。
LM神经网络。LM算法是高斯—牛顿法和最速下降法的结合,具有高斯—牛顿法的局部收敛性和梯度下降法的全局特性。它通过自适应调整阻尼因子来达到收敛特性, 具有更高的迭代收敛速度,在很多非线性优化问题中得到了稳定可靠解。在LM算法的计算过程中,初值是一个很重要的因素。若选择的初值 接近真值时,收敛速度很快且能够得到全局最优解,但如果初值远离真解时,优化结果往往过早的陷入局部最优解从而得到的结果完全背离真解。要解决该问题, 一是通过得到大量的原始信息来对真值有一个较准确的估计,但这在实际问题中往往不太可能达到;另外就是选择一种合理的全局最优化算法与其相结合, 消除LM算法对初值的依赖且具有很快的收敛速度。
BP神经网络。BP学习算法在理论上具有逼近任意非线性连续映射的能力,在非线性系统的建模及控制领域里有着广泛的应用。然而BP算法存在一些不足, 主要是收敛速度很慢;往往收敛于局部极小点; 数值稳定性差,学习率、动量项系数和初始权值等参数难以调整。
支持向量机,因其英文名为support vector machine,故一般简称SVM。通俗来讲,它是一种二类分类模型, 其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。
支持向量分类机:SVC。属于无监督聚类方法。
支持向量分类机:SVR。属于回归算法,用来做预测,比如温度、天气、股票等。
Logistic回归。一般来说,回归不用在分类问题上,因为回归是连续型模型,而且受噪声影响比较大。如果非要应用进入,可以使用logistic回归。 logistic回归本质上是线性回归,只是在特征到结果的映射中加入了一层函数映射,即先把特征线性求和,然后使用函数g(z)将最为假设函数来预测。
以距离为判别准则来分类,即样本与哪个类的距离最短就分到哪一类, 适用于两类判别。
Fisher判别的基本思路就是投影,针对P维空间中的某点寻找一个能使它降为一维数值的线性函数。 然后应用这个线性函数把P维空间中的已知类别总体以及求知类别归属的样本都变换为一维数据,再根据其间的亲疏程度把未知归属的样本点判定其归属。 这个线性函数应该能够在把P维空间中的所有点转化为一维数值之后,既能最大限度地缩小同类中各个样本点之间的差异,又能最大限度地扩大不同类别中各个样本点之间的差异 ,这样才可能获得较高的判别效率。
BAYES判别分析法比FISHER判别分析法更加完善和先进,它不仅能解决多类判别分析,而且分析时考虑了数据的分布状态,所以一般较多使用。
贝叶斯在传统概率学的基础上加入了先验信息的修正。这种模型符合人们日常生活的思考方式,也符合人们认识自然的规律,经过不断的发展,最终占据统计学领域的半壁江山,与经典统计学分庭抗礼。贝叶斯网络(Bayesian network),又称信念网络(Belief Network),或有向无环图模型(directed acyclic graphical model),是一种概率图模型,于1985年由Judea Pearl首先提出。它是一种模拟人类推理过程中因果关系的不确定性处理模型,其网络拓朴结构是一个有向无环图(DAG)。 简言之,把某个研究系统中涉及的随机变量,根据是否条件独立绘制在一个有向图中,就形成了贝叶斯网络。其主要用来描述随机变量之间的条件依赖,用圈表示随机变量(random variables),用箭头表示条件依赖(conditional dependencies)。
TAN贝叶斯网络
马尔科夫毯网络
聚类算法中最简单的一种。K-means算法是将样本聚类成k个簇(cluster), 属于无监督学习。以往的回归、朴素贝叶斯、SVM等都是有类别标签y的, 也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y,只有特征x, 比如假设宇宙中的星星可以表示成三维空间中的点集。聚类的目的是找到每个样本x潜在的类别y,并将同类别y的样本x放在一起。
Kohonen网络是自组织竞争型神经网络的一种,该网络为无监督学习网络,能够识别环境特征并自动聚类。Kohonen神经网络是芬兰赫尔辛基大学教授Teuvo Kohonen提出的,该网络通过自组织特征映射调整网络权值,使神经网络收敛于一种表示形态,在这一形态中一个神经元只对某种输入模式特别匹配或特别敏感。Kohonen网络的学习是无监督的自组织学习过程, 神经元通过无监督竞争学习使不同的神经元对不同的输入模式敏感,从而特定的神经元在模式识别中可以充当某一输入模式的检测器。网络训练后神经元被划分为不同区域,各区域对输入模型具有不同的响应特征。
两步聚类分析方法是近年来才发展起来的聚类方法的一种,它主要用于处理解决海量数据, 复杂类别结构时的聚类分析问题,尤其是连续变量和离散变量的混合数据。它分为两大步骤,包括预聚类和正式聚类。 在实践中主要解决群体划分、用户或消费者行为细分等问题。
层次聚类算法与之前所讲的顺序聚类有很大不同,它不再产生单一聚类,而是产生一个聚类层次。类似一棵层次树。 层次聚类算法的核心是不同层次间的阈值,矩阵更新过程中,总是将两个距离最近的聚类合并,那么我们只要加入一个阈值判断, 当这个距离大于阈值时,就说明不需要再合并了,此时算法结束。这样的阈值引入可以很好的控制算法结束时间,将层次截断在某一层上。
在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。 关联规则最初提出的动机是针对购物篮分析(MarketBasketAnalysis)问题提出的。该过程通过发现顾客放入“购物篮”中的不同商品之间的关联,分析顾客的购物习惯。1993年,Agrawal等人在首先提出关联规则概念,同时给出了相应的挖掘算法AIS,但是性能较差。 1994年,他们建立了项目集格空间理论,并依据上述两个定理,提出了著名的Apriori算法,至今Apriori仍然作为关联规则挖掘的经典算法被广泛讨论。
用来分析各个因素对于结果的影响程度。也可以运用此方法解决随时间变化的综合评价类问题, 其核心是按照一定规则确立随时间变化的母序列,把各个评估对象随时间的变化作为子序列, 求各个子序列与母序列的相关程度,依照相关性大小得出结论。
灰色系统理论是由著名学者邓聚龙教授首创的一种系统科学理论(Grey Theory),其中的灰色关联分析是根据各因素变化曲线几何形状的相似程度,来判断因素之间关联程度的方法。
散点矩阵图
高密度散点图
三维散点图
气泡图
资料来源:北水国际