数据挖掘6大类基本算法

聚类分析:目标是通过对无标记训练样本的学习,揭示数据内在的规律及性质。

KMeans

K-Means聚类算法适用于对球形簇分布的数据聚类分析,其可应用于客户细分、市场细分等分析场景。该算法对空间需求及时间需求均是适度的,另外算法收敛速度很快。算法难以发现非球形簇,且对噪声及孤立点较为敏感

模糊C均值

模糊聚类分析作为无监督机器学习的主要技术之一,是用模糊理论对重要数据分析和建模的方法。建立了样本类属的不确定性描述。在众多模糊聚类算法中,模糊C均值算法应用最广泛且较为成功。模糊C均值聚类算法通过优化目标函数得到每个样本点对所有类中心的隶属度,从而决定样本点的类属以达到自动对样本数据进行分群的目的。

EM聚类

EM(期望最大化)算法是在概率模型中寻找参数最大似然估计的算法,最大期望算法经过两个步骤交替进行计算,第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;第二步是最大化(M),这个过程不断交替进行。与其他聚类算法相比,EM算法可以给出每个样本被分配到每一个类的概率。能够处理异构数据,具有复杂结构的记录。适用于客户细分,客群分析等业务场景。EM算法比K-means算法计算复杂,收敛也较慢,不适于大规模数据集和高维数据。

Hierarchy

层次聚类方法对给定的数据集进行层次的分解,直到某种条件满足为止。具体又可分为:凝聚的层次聚类:一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到某个终结条件被满足。分裂的层次聚类:采用自顶向下的策略,它首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到达到了某个终结条件。

KoHoneo聚类

Kohonen网络是一种竞争型神经网络,可用于将数据集聚类到有明显区别的分组中,使得组内各样本间趋于相似,而不同组中的样本有所差异,其在训练过程中,每个神经元会与其他单元进行竞争以“赢得”每条样本。

视觉聚类

visualCluster是一种聚类算法,在视觉聚类算法中,每一样本数据点视作空间中的一个光点,于是数据集便构成空间的一幅图像。当尺度参数充分小时,每一数据点是一个类,当尺度逐渐变大时,小的数据类逐渐溶合形成大的数据类,直到尺度参数充分大时,形成一个类。

Canopy

Canopy聚类算法是一个将对象分组到类的简单、快速地方法。Canopy算法开始首先指定两个距离阈值T1,T2(T1>T2),随机选择一个数据点,创建一个包含这个点的Canopy,对于每个点,如果它到第一个点的距离小于T1,就把这个点加入这个数据点的canopy中,如果这个距离小于T2,就把此点从候选中心向量集合中移除。重复以上步骤直到候选的中心向量为空,最后形成一个Canopy集合。

幂迭代

幂迭代聚类(Power iteration clustering,PIC) 是一个可尺度化的有效聚类算法。幂迭代算法是将数据点嵌入到由相似矩阵推导出来的低维子空间中,然后通过k-means算法得出聚类结果。幂迭代算法利用数据归一化的逐对相似度矩阵,采用截断的迭代法,寻找数据集的一个超低维嵌入,低维空间的嵌入是由拉普拉斯矩阵迭代生成的伪特征向量,这种嵌入恰好是有效的聚类指标,使他在真实的数据集上好于谱聚类算法而不需要求解矩阵的特征值。

两步聚类

两步聚类算法可以同时分析连续属性和离散(分类)属性。算法中采用的度量距离包括欧氏距离及对数似然距离。该算法的特点是可以基于BIC信息准则自动确定最优聚类数。

分类分析:按照某种指定的属性特征将数据归类。 

逻辑回归分类

逻辑回归算法(LogisticReg)可用于二元及多元分类问题,是分类算法的经典算法。对于二分类问题,算法输出一个二元Logistic回归模型。对于K分类问题,算法会输出一个多维Logistic回归模型,包含K-1个二分类模型。

朴素贝叶斯

朴素贝叶斯(NaiveBayes)算法在机器学习中属于简单概率分类器。朴素贝叶斯是一个多分类算法,前提假设为任意特征之间相互独立。首先计算给定标签下每一个特征的条件概率分布,然后应用贝叶斯理论计算给定观测值下标签的条件概率分布并用于预测。

Xgbootst分类

Xgboost分类是集成学习算法Boosting族中的一员,其全名为极端梯度提升,其对GBDT分类算法作了较大改进,分类效果显著。该算法的核心是大规模并行boosted tree。XGBoost是以CART树中的回归树作为基分类器,但其并不是简单重复地将几个CART树进行组合,而是一种加法模型,将模型上次预测(由t-1棵树组合成的模型)产生的误差作为参考进行下一棵树(第t棵树)的建立。

贝叶斯网络分类

贝叶斯网络(BayesNet)是一种概率网络,它是基于概率推理的图形化网络,是在朴素贝叶斯的基础上取消了关于各属性关于类标号条件独立的苛刻条件,通过各类的先验概率计算待分类样本的后验概率,得到测试样本属于各类别的概率。贝叶斯网络是为了解决不定性和不完整性而提出的,它对于解决复杂设备不确定性和关联性引起的故障有很大的优势,在多领域中获得广泛应用。

神经网络分类

BP神经网络算法(MLP)由输入层、隐藏层和输出层构成,学习过程由信号的正向传播和误差的反向传播两个过程组成,通过多次调整权值,直至网络输出的误差减小到可以接受的程度,或进行事先设定的学习次数。学习得到因变量和自变量之间的一个非线性关系。

随机森林分类

随机森林算法(RandomForest)广泛应用于分类问题。其是决策树的组合,将许多决策树联合到一起,以降低过拟合的风险。和决策树类似,随机森林可以处理名词型特征,不需要进行特征缩放处理(如归一化),能够处理特征间相互交互的非线性关系。随机森林支持连续数据或离散数据进行二分类或多分类。

SVM分类

SVM分类算法以极大化类间间隔为目标,并以之作为最佳分类超平面,其中定义的类间间隔为两类样本到分类超平面的最小距离,通过引入松弛变量,使支持向量机能够解决类间重叠问题,并提高泛化能力。该算法在开源算法中仅支持二分类,平台通过将多分类问题分解为多个二分类问题进行求解,从而实现对多分类的支持。

CART分类

分类回归树(CART)属于一种决策树。分类回归树是一颗二叉树。对于分类问题,目标变量必须是字符型,可以通过剪枝避免模型对数据过拟合,同时可以控制剪枝程度,训练完成可得到一棵多叉树。

ID3分类

ID3算法是一种流行的机器学习分类算法,算法的核心是信息熵。ID3算法通过计算每个属性的信息增益,认为信息增益高的属性是好属性,每次划分选择信息增益最高的属性作为划分标准,重复这个过程,直至生成一个好的分类训练样本的决策树

C45+决策树分类

C45+算法(C45)是决策树模型中的算法。该算法是C4.5算法的修订版,计算速度比较快,占用的内存资源较少。C45+算法优点:面对数据遗漏和输入字段很多的问题时非常稳健;比一些其他类型的模型易于理解,模型退出的规则有非常直观的解释;提供强大技术以提高分类的精度。

梯度提升决策树分类

GBDT(Gradient Boosting Decision Tree)是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。

L1/2稀疏迭代分类

L1/2稀疏迭代算法(L12)是基于极小化损失函数与关于系数解的1/2范数正则项的高效稀疏算法。在分类问题中,采用分类损失函数,并通过L1/2阈值迭代算法实现L1/2稀疏迭代分类。平台通过Half阈值迭代算法实现L1/2稀疏迭代分类问题的求解,使得它相比于凸正则化方法精度更高。

RBF神经网络分类

RBF网络,即径向基神经网络,是前馈型网络的一种,其基本思想是对于底维空间不一定线性可分的问题,把它映射到高维空间中,则可能是线性可分的,其在对问题进行转换的同时,也解决了BP网络的局部极小值问题。RBF网络是一个三层的网络,包含输入层、隐层和输出层,其中隐层的转换函数是局部相应的高斯函数,而其他前向型网络的转换函数一般都是全局相应的函数,理论上其可以以任意精度逼近任意连续函数。

KNN

KNN算法,亦称K-近邻算法,是数据挖掘技术中最简单的分类算法之一。所谓K最近邻,就是K个最近的邻居的意思,就是说每个样本都可用它最近的K个邻居来近似推断。该算法的核心思想是:如果一个样本在特征空间中的K个最相邻的样本中的大多数属于某个类别,则该样本也属于这个类别。

线性判别分类

线性判别分析算法(LDA)是根据研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法,其将输入数据投影到一个线性子空间中,以最大限度地将类别分开。

Adaboost分类

Adaboost分类(Adaboost)是集成学习算法Boosting族中最著名的代表。其训练过程为:选取一个基分类器(这里用的是逻辑回归分类器),顺序进行T轮模型训练。初始时,给训练集的每个样本赋予相同权重1/N(N为训练样本数),然后进行第一轮带权训练得到分类器H1,然后求出该分类器在训练集上的加权误差率,并基于此误差率求得H1分类器的权重及更新训练样本权值(分类错误的样本权重调大,分类正确的反之)。接下来的每轮训练依次类推,最终得到每轮的分类器及其权重。这T个基分类器及其权重组成了整个Adaboost分类模型。当对新样本预测时,其分类预测值为这T个分类器的加权分类结果。要注意的是,如果迭代过程中,某一次的误差率大于一定限值,将终止迭代。此时,得到的基分类器少于T个。

回归分析:回归在解决实际问题时经常会把数据拆分为两个数据集:训练集数据、测试数据集。

线性回归

线性回归算法(LinearReg)假设每个影响因素与目标之间是线性关系,并通过特征选择,得到关键影响因素的线性回归系统。该算法是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计方法,通过凸优化的方法进行求解。在实际业务中应用十分广泛。

决策树回归

决策树回归(DecisionTree)算法是通过构建决策树来进行回归预测,在创建回归树时,使用最小剩余方差来决定回归树的最优划分,该划分准则是期望划分之后的子树误差方差最小。创建模型树,每个叶子节点都是一个机器学习模型,如线性回归模型。

SVM回归 

支持向量机回归(Support Vector Regression, SVR)(SVM)方法是支持向量机(Support Vector Machines, SVMs) 处理回归问题的算法。它通过定义 epsilon 带,将回归问题转换为分类问题,以极大化类间间隔为目标,并以之作为最佳回归超平面。

梯度提升树回归

梯度提升树(GBDT)是一种迭代的决策树算法,该算法由多棵决策树组成。它基于集成学习中boosting的思想,每次迭代都在减少残差的梯度方向上建立一棵决策树,迭代多少次就生成多少棵决策树。该算法的思想使其具有天然优势可以发现多种有区分性的特征以及特征组合。

BP神经网络回归

BP神经网络算法(BP)由输入层、隐藏层和输出层构成,学习过程由信号的正向传播和误差的反向传播两个过程组成,通过多次调整权值,直至网络输出的误差减小到可以接受的程度,或进行事先设定的学习次数。学习得到因变量和自变量之间的一个非线性关系。

保序回归

保序回归可以看作是附加有序限制的最小二乘问题,拟合的结果为分段的线性函数。训练集用该算法可以返回一个保序回归模型,可以被用于预测已知或者未知特征值的标签。目前只支持一维自变量。

曲线回归

曲线回归算法实现的是一元多项式曲线回归,研究一个因变量与一个自变量间多项式的回归分析方法。一元多项式回归的最大优点就是可以通过增加高次项对实测点进行逼近,直至满意为止。一元多项式回归模型中,自变量的次数不宜设置太高,否则容易过拟合。

随机森林回归

随机森林回归算法(RandomForest)是决策树回归的组合算法,将许多回归决策树组合到一起,以降低过拟合的风险。随机森林可以处理名词型特征,不需要进行特征缩放处理。随机森林并行训练许多决策树模型,对每个决策树的预测结果进行合并可以降低预测的变化范围,进而改善测试集上的预测性能。

L1/2稀疏迭代回归

L1/2稀疏迭代回归算法(L12)是基于极小化损失函数(误差平方和函数)与关于系数解L1/2范数正则项的高效稀疏算法。L1/2正则化与L0正则化相比更容易求解,而与L1正则化(Lasso)相比能产生更稀疏的解,说明L1/2正则化具有广泛且重要的应用价值,平台通过Half阈值迭代算法实现L1/2稀疏迭代回归问题的求解,算法具有高效、精确的优点。

时序分析:变量随时间变化,按等时间间隔所取得的观测值序列,称时间序列。时间序列分析法主要通过与当前预测时间点相近的历史时刻的数据来预测当时时刻的值。

ARIMA

ARIMA模型将预测对象随时间推移而形成的数据序列视为一个随机序列,用一定的数学模型来近似描述这个序列。这个模型一旦被识别后就可以从时间序列的过去值及现在值来预测未来值。ARIMA(p,d,q)称为差分自回归移动平均模型,AR是自回归, p为自回归项; MA为移动平均,q为移动平均项数,d为时间序列成为平稳时所做的差分次数。所谓ARIMA模型,是指将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型。注:此算法节点不支持连接模型利用节点,对于新数据只能重新进行预测。

稀疏时间序列

稀疏时间序列是将稀疏性引入到时间序列模型系数的求解中。本算法基于AR模型,通过L1/2稀疏化方法,能够获取到更好的稀疏解,稀疏时间序列在一定程度上解决了ARMA模型的定阶问题。注:此算法节点不支持连接模型利用节点,对于新数据只能重新进行预测。

指数平滑

指数平滑模型根据时间序列先前的观察值来预测未来,如根据销售历史记录来预测未来销售情况。该节点提供了自动、简单指数平滑、Holt线性趋势、简单季节模型、Winter加法多种模型可以选择。其中自动是指节点会自动求解平滑系数。注:此算法节点不支持连接模型利用节点,对于新数据只能重新进行预测。

移动平均

移动平均算法是根据时间序列,逐项推移,依次计算包含一定项数的序时平均数,以此进行预测的方法,平台集成了一次移动平均法和多次移动平均法。注:此算法节点不支持连接模型利用节点,对于新数据只能重新进行预测。

向量自回归

向量自回归模型,简称VAR模型,是计量经济中的常用的一种时间序列分析模型。该模型是用所有当期变量对所有变量的若干滞后变量进行回归。VAR模型用来估计联合内生变量的动态关系,而不带有任何事先约束条件。VAR模型是AR模型的推广,可同时回归分析多个内生变量,即同时构建多个时间序列回归方程。

回声状态网络

回声状态网络作为一种新型的递归神经网络(如下图),也由输入层、隐藏层(即储备池)、输出层组成。其将隐藏层设计成一个具有很多神经元组成的稀疏网络,通过调整网络内部权值的特性达到记忆数据的功能,其内部的动态储备池(DR)包含了大量稀疏连接的神经元,蕴含系统的运行状态,并具有短期训记忆功能。ESN训练的过程,就是训练隐藏层到输出层的连接权值(Wout)的过程。注:此算法节点不支持连接模型利用节点,对于新数据只能重新进行预测。

X11

X11是基于移动平均法的季节调整方法,它的特征在于除了能适应各种经济指标的性质,根据各种季节调整的目的,选择计算方式。在计算过程中可根据数据中的随机因素的大小,采用不同长度的移动平均,随机因素越大,移动平均长度越大。X11是通过几次迭代进行分解的,每一次对组成因子的估算都在进一步精化(注:此算法节点不支持连接模型利用节点,对于新数据只能重新进行预测,数据量要求:月度数据要求大于等于36行,小于等于1000行,季度数据要求大于等于12行,小于等于1000行)

X12

X12 是在X11的基础上发展而来的,包括X11的功能,同时做了以下几个方面的改进,如增加了季节、趋势循环和不规则等因子分解的选择。X12的缺点是在进行季节调整时,需要在原序列的两端补欠项,如果补欠项的方法不当,就会造成信息损失(注:此算法节点不支持连接模型利用节点,对于新数据只能重新进行预测,数据量要求:大于等于36行,小于等于1000行)

灰度预测

灰色模型的建立机理是根据系统的普遍发展规律,建立一般性的灰色微分方程,然后通过对数据序列的拟合,求得微分方程系数,从而获得灰色模型方程。灰色建模直接将时间序列转化为微分方程,从而建立抽象系统的发展变化的动态模型,即Grey Dynamic Model(GM),灰色理论微分方程模型成为GM(M,N),即M阶N个变量的微分方程灰色模型。其中GM(1,1)是最基础模型,即一阶一变量微分方程灰色模型应用最为广泛。注:此算法节点不支持连接模型利用节点,对于新数据只能重新进行预测。

关联规则分析:关联规则, 反映一个事物与其它事物之间的相互依存性和关联性;如果两个事物或者多个事物之间存在一定的关联关系,那么其中一个事物就能够通过其它事物预测到。关联是某种事物发生时其他事物会发生的这样一种联系。

Apriori

Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是不断寻找候选集,然后剪枝去掉包含非频繁子集的候选集。该算法节点提供给了用户设置最小支持度、置信度等选项,生成满足特定要求的关联规则,生成输出关联规则的模型和网络图。

FPGrowth

FPGrowth是挖掘关联规则的经典算法之一,FPGrowth算法是基于数据构建一棵规则树,并基于规则树进行频繁项挖掘的算法,算法对数据库仅扫描2次,并且不会产生大量的频繁项集,因此算法具备处理效率高,内存占用相对较小的优点。

序列

给定一个由不同序列组成的集合,其中:每个序列由不同的元素按时间顺序有序排列,每个元素交易由不同项目组成,同时给定一个用户指定的最小支持度阈值。序列关联挖掘就是找出所有的频繁子序列,即该子序列在序列集中的出现频率不低于用户指定的最小支持度阈值。

综评分析:综合评价的基本步骤:第一,明确评价目标、选择评价对象;第二,建立评价指标体系;第三,确定评价指标的权重;第四、选择合适的综合评价方法;第五、计算综合评价值,对评价对象进行排序和归档。

熵值法

熵值法是一种客观赋权法,其根据各项指标观测值所提供的信息的大小来确定指标权重。在信息论中,熵是对不确定性的一种度量。信息量越大,不确定性就越小,熵也就越小;信息量越小,不确定就越大,熵也就越大。根据熵的特性,可以通过计算熵值来判断某个指标的离散程度。离散程度越大,该指标对综合评价的影响越大,于是可以用熵值法来计算综合评价中的指标权值。

TOPSIS

topsis法根据有限个评价对象与理想化目标的接近程度排序的方法,是在现有对象中进行相对优劣的评价,topsis法是一种逼近于理想的排序法,该方法只要求各效用函数具有单调性就行。

层次分析法

层次分析法(AHP)是将与决策相关的元素分解成目标、准则、方案等层次,进行定性和定量分析的决策方法。

模糊综合评价法

模糊综合评价法是一种基于模糊数学的综合评价方法。该方法将诸如“优”、“良”、“差”等定性评价转化为定量评价值,进而用模糊算子自下而上逐层对各指标权重及评价隶属度做运算,最终得到最高层目标的评价等级或综合得分值。

语料库

语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源。

你可能感兴趣的:(数据分析算法,数据挖掘,大数据,算法)