2021年机器学习与数据挖掘简答题复习整理

  1. 简述面向属性归纳的基本思想,并说明什么时候使用属性删除,什么时候使用属性概化。
    答:面向属性归纳的基本思想是:
    首先使用关系数据库查询收集任务相关的数据;然后通过考察任务相关数据中每个属性的不同值的个数,进行概化(通过属性删除或者属性概化)。聚集通过合并相等的广义元组,并累计他们相应的计数值进行。这压缩了概化后的数据集合。结果广义关系可以映射到不同形式,如图表或规则,提供用户。

    使用属性删除的情况:
    如果初始工作关系的一个属性上有大量的不同值,但是
    (1)在此属性上没有概化操作符
    或(2)它的较高层概念用其他属性表示;

    使用属性概化的情况:
    如果初始工作关系的一个属性上有大量的不同值,并且该属性上存在着概化操作符。

  2. 为什么在进行联机分析处理(OLAP)时,我们需要一个独立的数据仓库,而不是直接在日常操作的数据库上进行。
    答:使用一个独立的数据仓库进行OLAP处理是为了以下目的:
    (1)提高两个系统的性能
    操作数据库是为OLTP而设计的,没有为OLAP操作优化,同时在操作数据库上处理OLAP查询,会大大降低操作任务的性能;而数据仓库是为OLAP而设计,为复杂的OLAP查询,多维视图,汇总等OLAP功能提供了优化。

    (2)两者有着不同的功能
    操作数据库支持多事务的并行处理,而数据仓库往往只是对数据记录进行只读访问;这时如果将事务处理的并行机制和恢复机制用于这种OLAP操作,就会显著降低OLAP的性能。

    (3)两者有着不同的数据
    数据仓库中存放历史数据;日常操作数据库中存放的往往只是最新的数据。

  3. 对于具有递减支持度的多层关联规则挖掘,分别都有哪些搜索策略?各有什么特点?
    答:具有递减支持度的多层关联规则挖掘中使用的搜索策略包括:
    逐层独立:
    完全的宽度搜索,没有频繁项集的背景知识用于剪枝。考察每一个节点,不管其父节点是否频繁。特点是条件很松,可能导致在低层考察大量非频繁的项,找出一些不重要的关联;
    层交叉k-项集过滤:
    一个第i层的k-项集被考察,当且仅当它在第(i-1)层的对应父节点的k-项集是频繁的。特点是限制太强,有些有价值的模式可能被该方法过滤掉;
    层交叉单项过滤:
    一个第i层的项被考察,当且仅当它在第(i-1)层的父节点是频繁的。它是上述两个极端策略的折中。

  4. 请简述数据挖掘过程.
    1确定挖掘对象
    2准备数据
    3建立模型
    4数据挖掘
    5结果分析
    6知识应用

  5. 数据挖掘的任务
    分类、聚类、回归、关联分析、离群点监测、演化分析、序列模式。

  6. 数据集的三个重要特性
    维度、稀疏性、分辨率。

  7. 什么是主成份分析?
    答:主成份分析(PCA)是一种用于连续属性的线性变换技术,找出新的属性(主成份),这些新属性是原属性的线性组合,是相互正交的,使得原来数据投影到较小的集合中,并且捕获数据的最大变差。PCA通常揭示先前未曾觉察的联系,解释不寻常的结果。

  8. 简述k-最近邻算法过程。
    答:KNN分类算法的基本描述如下:
    算法名:KNN
    输入:最近邻数目K,训练集D,测试集Z(1分)
    输出:对测试集Z中所有测试样本预测其类标号值(1分)
    (1)for每个测试样本(1分)do
    (2)计算z和每个训练样本之间的距离(1分)
    (3)选择离z最近的k最近邻集合(1分)
    (4)返回中样本的多数类的类标号(1分)
    (5)endfor

  9. 简述Apriori算法原理。
    答:Apriori性质:
    一个项集是频繁的,那么它的所有子集都是频繁的。(1分)一个项集的支持度不会超过其任何子集的支持度。(1分)该算法采用逐层的方法找出频繁项集,(1分)首先找出1频繁-项集,通过迭代方法利用频繁k-1-项集生成k候选项集,(1分)扫描数据库后从候选k-项集中指出频繁k-项集,直到生成的候选项集为空。(1分)

  10. 什么是离群点?
    答:离群点是在数据集中偏离大部分数据的数据,(2分)使人怀疑这些数据的偏离并非由随机因素产生,(1分)而是产生于完全不同的机制。(2分)

  11. 什么是数据挖掘?什么是数据仓库?并简述数据挖掘的步骤。
    数据挖掘是从大量数据中提取或发现(挖掘)知识的过程。
    数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用于支持经营管理中的决策制定过程。
    步骤:
    1)数据清理(消除噪声或不一致数据)
    2)数据集成(多种数据源可以组合在一起)
    3)数据选择(从数据库中检索与分析任务相关的数据)
    4)数据变换(数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作)
    5)数据挖掘(基本步骤,使用智能方法提取数据模式)
    6)模式评估(根据某种兴趣度度量,识别表示知识的真正有趣的模式;)
    7)知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)

  12. 在OLAP中,如何使用概念分层?请解释多维数据模型中的OLAP上卷下钻切片切块和转轴操作。
    在多维数据模型中,数据组织成多维,每维包含由概念分层定义的多个抽象层。这种组织为用户从不同角度观察数据提供了灵活性。有一些OLAP数据立方体操作用来物化这些不同视图,允许交互查询和分析手头数据。因此,OLAP为交互数据分析提供了友好的环境。Apriori性质:
    上卷: 上卷操作通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集。
    下钻: 下钻是上卷的逆操作,它由不太详细的数据到更详细的数据。下钻可以通过沿维的概念分层向下或引入新的维来实现。
    切片: 在给定的数据立方体的一个维上进行选择,导致一个子方。
    切块: 通过对两个或多个维执行选择,定义子方。
    转轴: 转轴是一种目视操作,它转动数据的视角,提供数据的替代表示。

  13. 什么是数据变换?数据变换涉及的内容有哪些?
    数据变换是将数据转换成适合于挖掘的形式。数据变换可能涉及如下内容:
    1).平滑: 去掉数据中的噪声。这种技术包括分箱、聚类和回归。
    2).聚集: 对数据进行汇总和聚集。例如,可以聚集日销售数据,计算月和年销售额。通常,这一步用来为多粒度数据分析构造数据立方体。
    3).数据概化: 使用概念分层,用高层次概念替换低层次“原始”数据。例如,分类的属性,如street,可以概化为较高层的概念,如city或country。类似地,数值属性,如age,可以映射到较高层概念,如young,middle-age和senior。
    4).规范化将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0到1.0或0.0到1.0。
    5).属性构造(或特征构造): 可以构造新的属性并添加到属性集中,以帮助挖掘过程。

  14. 简述数据预处理方法和内容。
    ① 数据清洗: 包括填充空缺值,识别孤立点,去掉噪声和无关数据。
    ② 数据集成: 将多个数据源中的数据结合起来存放在一个一致的数据存储中。需要注意不同数据源的数据匹配问题、数值冲突问题和冗余问题等。
    ③ 数据变换: 将原始数据转换成为适合数据挖掘的形式。包括对数据的汇总、聚集、概化、规范化,还可能需要进行属性的重构。
    ④ 数据归约: 缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果

  15. 简述处理空缺值的方法。
    ① 忽略该记录;
    ② 去掉属性;
    ③ 手工填写空缺值;
    ④ 使用默认值;
    ⑤ 使用属性平均值;
    ⑥ 使用同类样本平均值;
    ⑦ 预测最可能的值。

  16. 常见的分箱方法有哪些?数据平滑处理的方法有哪些?
    分箱的方法主要有:
    ① 统一权重法 ( 又称等深分箱法 )
    ② 统一区间法 ( 又称等宽分箱法 )
    ③ 最小熵法
    ④ 自定义区间法
    数据平滑的方法主要有:平均值法、边界值法和中值法。

  17. 何谓数据规范化?规范化的方法有哪些?写出对应的变换公式。
    将数据按比例缩放 ( 如更换大单位 ) ,使之落入一个特定的区域(如 0.0 ~1.0 ),称为规范化。
    规范化的常用方法有:
    (1) 最大-最小规范化
    (2) 零-均值规范化
    (3) 小数定标规范化

  18. 数据归约的方法有哪些?为什么要进行维归约?
    ① 数据立方体聚集
    ② 维归约
    ③ 数据压缩
    ④ 数值压缩
    ⑤ 离散化和概念分层
    维归约可以去掉不重要的属性,减少数据立方体的维数,从而减少数据挖掘处理的数据量,提高挖掘效率。

  19. 何谓聚类?它与分类有什么异同?
    聚类是将物理或抽象对象的集合分组成为多个类或簇 (cluster)的过程,使得在同一个簇中的对象之间具有较高的相似 度,而不同簇中的对象差别较大。
    聚类与分类不同,聚类要划分的类是未知的,分类则可按已知规则进行;聚类是一种无指导学习,它不依赖预先定义的类和带类标号的训练实例,属于观察式学习,分类则属于有指导的学习,是示例式学习。

你可能感兴趣的:(数据挖掘,数据仓库,机器学习,简答题)