数据挖掘题

数据属性的四种类型分别是什么
属性有四种类型:标称、序数、区间、比率。
用单链聚类算法解决问题
聚类算法就是根据特定的规则,将数据进行分类。分类的输入项是数据的特征,输出项是分类标签,它是无监督的。
常见的聚类规则包括:1)基于原型的,例如有通过质心或中心点聚类,常见的算法KMeans;2)基于图的,也就是通过节点和边的概念,形成连通分支的分类,常见的算法是凝聚层次聚类,最小生成树聚类;3)基于密度的,根据数据密度的大小进行聚类,常见的算法是DBSCAN,SNN密度聚类;4)基于统计的聚类,数据一般符合一种或几种概率分布,根据概率分布情况进行聚类。
用Apriori算法挖掘关联规则
Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。
简述K-NN (K-近邻)算法的 主要步骤。
(1)收集数据:可以使用任何方法;
(2)准备数据:距离计算所需要的数值,最好是结构化的数据格式;
(3)分析数据:可以使用任何方法;
(4)训练算法:此步骤不适用于k-近邻算法;
(5)测试算法:计算错误率;
(6)使用算法:首先需要输入样本数据和结构化的输出结果,然后运行k-近邻算法,判定输入数据分别属于哪个分类,最后应用,对计算出的分类执行后续的处理。
 k-means算法基本步骤
  (1)从数据中选择k个对象作为初始聚类中心;
  (2)计算每个聚类对象到聚类中心的距离来划分;
  (3)再次计算每个聚类中心
  (4)计算标准测度函数,之道达到最大迭代次数,则停止,否则,继续操作。
K如何确定

你可能感兴趣的:(大数据,数据挖掘)