数据挖掘学习笔记一

前期主要学习的是数据预处理,可视化,预测建模,聚类和异常检测。学习基本概念和算法。

数据挖掘:在大型数据存储库中,自动发现有用信息的过程。

信息检索:主要依赖传统的计算机科学技术和数据的明显特征来穿件索引结构。从而有效组织和检索信息。(如百度收索引擎查找特定的Web网页)

数据挖掘任务

预测任务:根据其他属性(自变量)的值,预测特定属性(因变量)的值。

描述任务:到处概括数据中潜在联系的模式(相关,趋势,聚类,轨迹和异常)

预测建模(predictive ,modeling):涉及以说明变量函数的方式为目标建立模型,有两类预测建模任务。

分类(classification):预测离散的目标变量。(鸢尾花的类型。)

回归(regression):预测连续的目标变量。(如某只股票的未来价格)

关联分析(association analysis):用来发现描述数据中强关联特征的模式。所发现的模式通常用蕴含规则或特征子集的形式表示。

聚类分析cluster analysis):发现紧密线管的观测值组群,似的与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。

异常检测(anomaly detection) 是识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点或离群点。