1、试述真正例率(TPR)、假正例率(FPR)与查准率(P)、查全率(R)之间的联系。
查全率: 真实正例被预测为正例的比例
真正例率: 真实正例被预测为正例的比例
查全率与真正例率是相等的。
查准率:预测为正例的实例中真实正例的比例
假正例率: 真实反例被预测为正例的比例
两者并没有直接的数值关系。
2、简述K-最近邻方法的主要思想。
同声相应,同气相求
④存放所有样本,直到新样本需要分类时才建立分类,事先并没有分类模型;训练快,分类慢
3、简述K-中心点算法的输入、输出及聚类过程(流程)
输入:簇的数目 k, 包含n个对象的数据库
输出:k个簇,使得所有对象与其最近中心点的相异度最小
步骤:①随机选择k个对象作为初始中心点;
②计算其它对象与这k个中心的距离,然后把每个对象归入离它“最近”的簇;
③随机地选择一个非中心点对象Orandom,并计算用Orandom 代替0j的总代价S;如果 S<0,则用Orandom代替0j,形成新的k 个中心点集合;
④重复迭代第3、4步,直到中心点不变为止。
4、简述ID3算法的基本思想及其主算法的基本步骤
思想:先找出最有判别力的因素,后把数据分成多个子集,每个子集又选择最有判别力的因素进一步划分,直到所有子集仅包含同一类型的数据为止。最后得到一棵决策树,可以用它对新样例分类。在一实体世界中,每个实体用多个属性描述,每个属性限于在一个离散集中取互斥的值。
步骤①从训练集中随机选择一个既含正例又含反例的子集(称为窗口);
②用“建树算法”对当前窗口形成一棵决策树;
③对训练集(窗口除外)中例子用所得决策树进行类别判定,找出错判的例子;
④若存在错判的例子,把它们插入窗口,重复步骤②,否则结束。
5、简述数据预处理方法和内容。
数据清洗:包括填充空缺值,识别孤立点,去掉噪声和无关数据。
数据集成:将多个数据源中的数据结合起来存放在一个一致的数据存储中。需要注意不同数据源的数据匹配问题、数值冲突问题和冗余问题等。
数据变换:将原始数据转换成为适合数据挖掘的形式。包括对数据的汇总、聚集、概化、规范化,还可能需要进行属性的重构。
数据归约:缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。
6、简述数据仓库设计的三级模型及其基本内容
概念模型设计是在较高的抽象层次上的设计,主要内容:界定系统边界和确定主要的主题域;
逻辑模型设计:主要内容包括分析主题域、确定粒度层次划分、确定数据分割策略、定义关系模式、定义记录系统
物理数据模型设计:主要内容包括确定数据存储结构、确定数据存放位置、确定存储分配以及确定索引策略等。在物理数据模型设计时主要考虑的因素有:I/0存取时间、空间利用率和维护代价等。
7、简述数据清理的基本内容。
数据清理用来自多个联机事务处理 (OLTP) 系统的数据生成数据仓库进程的一部分。拼写、两个系统之间冲突的拼写规则和冲突的数据之类的错误。数据清理工作的目的是不让有错误或有问题的数据进入运算过程,一般在计算机的帮助下完成,包括数据有效范围的清理、数据逻辑一致性的清理和数据质量的抽查。
8、简述处理空缺值的方法
忽略该记录,去掉属性,手工填写空缺值,使用默认值,使用属性平均值,使用同类样本平均值,预测最可能的值
9、何谓数据仓库?为什么要建立数据仓库?
定义:数据仓库是面向主题的、集成的、稳定的,不同时间的数据集合,用于支持经营管理中决策制定过程;是一种管理技术,旨在通过通畅、合理、全面的信息管理,达到有效的决策支持。
原因:在事务型环境中直接构建分析型应用是失败的;分析型处理及其数据必须与操作型处理及其数据相分离;必须把分析型数据从事务处理环境中提取出来,按照DSS处理的需要进行重新组织,建立单独的分析处理环境;数据仓库是为构建新的单独的分析处理环境而出现的一种数据存储和组织技术
10、何谓数据挖掘?它有哪些方面的功能?
概念:从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。相关的名称有知识发现、数据分析、数据融合、决策支持等。
功能:概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析
11、何谓聚类?它与分类有什么异同?
定义:聚类是将物理或抽象对象的集合分组成为多个类或簇(cluster)的过程,使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。
异同:聚类要划分的类是未知的,分类则可按已知规则进行;聚类是无指导学习,不依赖预先定义的类和带类标号的训练实例,属于观察式学习,分类属于有指导学习,是示例式学习
12、什么是决策树?如何用决策树进行分类?
定义:决策树是用样本的属性作为结点,用属性的取值作为分支的树结构。它是利用信息论原理对大量样本的属性进行分析和归纳而产生的。决策树的根结点是所有样本中信息量最大的属性。树的中间结点是以该结点为根的子树所包含的样本子集中信息量最大的属性。决策树的叶结点是样本的类别值。
分类:决策树用于对新样本的分类,即通过决策树对新样本属性值的测试,从树的根结点开始,按照样本属性的取值,逐渐沿着决策树向下,直到树的叶结点,该叶结点表示的类别就是新样本的类别。决策树方法是数据挖掘中非常有效的分类方法。
13、聚类分析中常见的数据类型有哪些?何谓相异度矩阵?它有什么特点?
常见数据类型:区间标度变量、比例标度型变量、二元变量、标称型、序数型、混合类型等。相异度矩阵:是用于存储所有对象两两之间相异度的矩阵,为一个nn维的单模矩阵。
特点:d(i, j)=d(j, i),d(i, i)=0,d(j, j)=0。如下所示:
0
d(2,1) 0
d(3,1) d(3,2) 0
d(n,1) d(n,2) ... ... 0
14、如何理解OLAP所说的多维分析?
维是OLAP的核心概念,多维性是OLAP的关键属性,与数据仓库的多维数据组织正好相互补充。为使用户能够从多个维度、多个数据粒度查看数据,了解数据蕴含的信息,系统需提供对数据的多维分析功能,包括切片、旋转和钻取等多种操作,得到更深层中的信息和知识。多维数据的每一维代表对数据的一个特定的观察视角,如时间、地域、业务等
15、CDM层分为那两层?CDM层的任务是什么?
DWD 明细数据层 DWS汇总数据层
任务:公共维度模型层(CDM)存放明细事实数据、维表数据及公共指标汇总数据,其中明细事实数据、维表数据一般根据ODS层数据加工生成,公共指标汇总数据一般根据维表数据和明细事实数据加工生成。CDM层又细分为DWD层和DWS层,采用维度模型方法作为理论基础,更多地采用一些维度退化手法,将维度退化至事实表中,减少事实表和维表的关联,提高明细数据表的易用性:同时在汇总数据层,加强指标的维度退化,采取更多的宽表化手段构建公共指标数据层,提升公共指标的复用性,减少重复加工。
16、业务数据层,操作数据源层(ODS)什么关系?
操作数据源层(ODS)的数据从业务数据层按一定机制抽取而来,与原始数据保持一致。ODS层数据不允许修改。存到ODS后可以删除业务数据库对应的数据。体现了非易失性
17、何谓OLTP和OLAP?它们的主要异同有哪些?
OLTP:联机事务处理。是在网络环境下的事务处理工作,以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。OLTP应用要求多个查询并行,以便将每个查询分布到一个处理器上。
OLAP:联机分析处理。OLAP是专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以应分析人员要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,了解市场需求,制定正确方案,增加效益。
OLTP OLAP
用户 操作人员,低层管理人员 决策人员,高级管理人员
功能 日常操作处理 分析决策
DB设计 面向应用,事务驱动 面向主题,面向分析,分析驱动
数据 原始数据,细节性数据 导出数据,综合性或提炼性数据
存取 读/写数十条记录 读上百万条记录
工作单位 简单的事务 复杂的查询
用户数 上千个 上百个
DB大小 100MB-GB 100GB-TB
更新 可更新 不可更新,但周期性刷新
处理 基本数据的增删改查 适合以数据仓库为基础的处理
OLAP数据较之OLTP数据要更多一步数据多维化或预综合处理操作:
18、在数据挖掘之前为什么要对原始数据进行预处理?
原始业务数据来自多个数据库或数据仓库,其结构和规则可能是不同的,这将导致原始数据非常杂乱、不可用,即使在同一数据库中,也可能存在重复和不完整的数据信息,为使这些数据能符合数据挖掘的要求,提高效率和得到清晰的结果,必须进行数据预处理。数据挖掘算法提供完整、干净、准确、有针对性的数据,减少算法计算量,提高挖掘效率和准确程度。
19、你觉得比较重要的聚类算法的性能要求有哪些,请说出5种
( 1)可伸缩性。聚类算法对小数据集和大规模数据集要同样有效。
(2)处理不同类型属性的能力。实际应用要求算法能够处理不同类型的数据。
( 3 )能发现任意形状的聚类。聚类特征的未知性决定聚类算法要能发现球形的、嵌套的、中空的等任意复杂形状和结构的聚类。
(4)最少的参数利确定参数值的领域知识。聚类算法要尽可能地减少用户估计参数的最佳取值所需要的领域知识。
(5)有效地识别噪声数据。聚类算法要能处理
现实世界的数据库中普遍包含的孤立点,空缺或者错误的数据。
(6)对于输入记录的顺序不敏感。聚类算法对不同的次序的记录输人应具有相同的聚类结果。
(7)高维性。聚类算法不仅要擅长处理低维的数据集,还应能处理高维、数据可能非常稀疏且高度偏斜的数据集。
(8)基于约束的聚类。聚类结果既要满足特定的约束,又要具有良好聚类特性。
(9)可解释性和可用性。聚类应与特定的语义解释和应用相联系
20、OLAP的类型有哪些?划分依据是什么?
OLAP:基于多维数据库OLAP(MOLAP)和基于关系数据库的OLAP(ROLAP),HOLAP即混和OLAP介于MOLAP和ROLAP之间。划分依据:多维数据模型存储方式(存储器的数据存储格式)
1、一个10个实例的测试集中包含5个正例和5个负例,并按照它们被预测为正例的概率进行排列,试画出对应的ROC曲线。