【数据挖掘学习笔记】数据挖掘中主要问题有哪些?

【数据挖掘学习笔记】数据挖掘中主要问题有哪些?_第1张图片
数据挖掘是一个动态、强势快速扩展的领域。数据挖掘研究的主要问题,可划分为五组:挖掘方法、用户交互、有效性与可伸缩性、数据类型的多样性、数据挖掘与社会。

一、挖掘方法

目前大牛们已经开发了一些数据挖掘方法,涉及到新的知识类型的研究、多维空间挖掘、集成其他领域的方法以及数据对象之间语义捆绑考虑。此外,数据挖掘应该考虑诸如数据的不确定性、噪声和不完全性等问题。有些数据挖掘方法探索如何使用用户指定的度量评估所发现的模式的兴趣度,同时直到挖掘过程。

  1. 挖掘各种新的新的知识类型: 数据挖掘广泛涵盖数据分析和知识发现的任务,从数据特征化与区分到关联与相关性分析、分类、回归、聚类、离群点分析、序列分析以及趋势和演变分析。
  2. 挖掘多维空间中的知识: 我们可能在不同抽象层的多维组合中搜索有趣的模式。这种挖掘称做探索式多维数据挖掘。
  3. 数据挖掘——跨学科的努力: 通过集成来自多科学的新方法可以显著增强数据挖掘的能力。
  4. 处理不确定性、噪声或不完全数据: 数据通常包含噪声、错误、异常、不确定性,或者是不完全的。错误和噪声可能干扰数据挖掘过程,导致错误的模式出现。数据清理、数据预处理、离群点检测与删除以及不确定推理都是需要与数据挖掘过程的集成的技术
  5. 模式评估和模式或约束知道和挖掘: 需要一种技术来评估基于主观度量所发现的模式的兴趣度。

二、用户界面

用户在数据挖掘过程中扮演重要角色。有趣的研究领域包括如何与数据挖掘系统机交互,如何在挖掘过程中融入用户的背景知识,以及如何可视化和理解数据挖掘的结果

三、有效性和可伸缩性

在比较数据挖掘算法时,总是需要考虑有效性与可伸缩性。随着数据量持续增加,这两个因素尤其重要。

  1. 数据挖掘算法的有限性和可伸缩性: 数据挖掘算法的运行时间必须是可预计的、短的和可以被应该接受的。
  2. 并行、分布式和增量挖掘算法: 许多数据集的巨大容量、数据广泛分布和一些数据挖掘算法的计算复杂性是促使
    开发并行和分布式数据密集型挖掘算法的因素

四、数据库类型的多样性

数据库类型的多样性为数据挖掘带来一些挑战,这些挑战包括:

  1. 处理复杂的数据类型
  2. 挖掘动态的、网络的、全球的数据库

五、数据挖掘与社会

  1. 数据挖掘的社会影响:由于数据挖掘渗透到我们日常生活,因此研究数据挖掘对社会的影响是重要的。数据的不正当使用和披露、个人隐私和数据保护权的潜在违法都是需要关注的研究领域。
  2. 保护隐私的数据挖掘: 数据挖掘将帮助科学发现、商务管理、经济恢复和安全保护。
  3. 无形的数据挖掘: 只能搜索引擎和基于国际互联网的商店都在这种无形的数据挖掘,把数据挖掘合并到他们的组件中,提高其功能和性能。

你可能感兴趣的:(#,数据挖掘,数据挖掘)