常用数据挖掘模型

聚类和分类,物以类聚,人以群分

聚类

预先定义群数的K=means算法:知道能分成几堆

典型的基于距离的聚类算法,采用距离作为相似性的评价指标,两个对象的距离越近,其相似度越大

簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标

基于RFM模型的烟草客户聚类分析研究

从底层向上汇总的系统聚类方法,不知道分成几堆,探索相似性,看能分成几类

凝聚的层次聚类是一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到所有的对象都在一个簇中。

分裂的层次聚类与凝聚的层次聚类相反,采用自顶向下的策略,首先将所有对象置于同一个簇中,然后逐渐细分为不同的簇,直到所有对象自成簇

分类

相似度计算

欧氏距离,最简单的相似度计算方法

针对实数向量的余弦相似度,最常用的相似度计算方法

针对二元向量的杰卡德相似系数,典型应用,协同过滤

决策树

回归

研究一组随机变量和另一组变量之间关系的统计分析方法,又称多重回归分析

线性回归linear regression,结果是连续的线

逻辑回归logistics regression,结果是孤立的点

降维

数据的每一个特征都是一个维度

大数据的特点之一,就是维度,即有大量的特征

高维数据中包含了大量的冗余并隐藏了重要关系的相关性,降维的目的就是消除冗余,减少被处理数据的数量

找到数据众多特征的主要特征

主成分特征

P个指标作线性组合,作为新的综合指标

因子分析

市场调研:消费者习惯和态度研究,品牌形象和特性研究,服务质量调查,顾客,产品和行为分类

数据众多特征显示在二维图表上

对应分析

从因子分析基础发展起来的一种多元统计分析方法。他主要通过分析定性变量构成的列联表来揭示变量之间的关系

MDS分析

时间序列

根据已有的历史数据对未来进行预测

回归的主要区别是可以剔除周期的影响

大量金融化模型会用到时间序列

文本挖掘

Word2Vec:挖掘文本上下文之间的关系

Doc2Vec/LDA:文档分类

文本相似度:计算不同文档之间的相似度,也可以用来分类

 

 

 

 

 

 

你可能感兴趣的:(数据挖掘和模型)