数据挖掘学习笔记(三)

数据分析与数据挖掘的方法
1.频繁模式

  • 频繁模式:数据中频繁出现的模式。
  • 频繁项集:频繁在事务数据集中一起出现的商品集合。
  • 例如,信用卡分析、患者就诊分析、购物车分析…

2.分类与回归

  • 分类与标签预测是找出描述和区分数据类或概念的模型或函数,以便能够使用模型预测类标识未知的对象的类标号。
  • 分类预测类别(离散的、无序的)标号,回归建立连续值函数模型,也就是用来预测缺失的或难以获得的数值数据值。
  • 典型方法:决策树、朴素贝叶斯分类、支持向量机、神经网络、规则分类器、基于模式的分类、逻辑回归…

3.聚类分析

  • 聚类就是把一些对象划分为多个组或者“聚簇”,从而使得同组内对象间比较相似而不同组对象间的差异较大。归于无监督学习,无标签学习。

4.离群点分析

  • 离群点是指全局或局部范围内偏离一般水平的观测对象。
  • 例如,信用卡异常消费,QQ异地登录…

数据挖掘使用的技术
数据挖掘是一门涉及面较广的交叉学科,涉及统计学、线性代数、概率论、数据库、数据仓库、信息检索、模式识别、高性能计算、云计算、机器学习等学科。
1.统计学方法

  • 统计学是通过对数据进行收集、整理、分析和描述,来达到对研究对象本质的理解和表示的目的的学科。
  • 在实际生活中,通常有一些过程无法通过理论分析直接获得模型,但可以通过直接或间接测量的方法获得描述目标对象的相关变量的具体数据,用来刻画这些变量指尖关系的数学函数称为统计模型。广泛运用于数据建模。

2.机器学习

  • 机器学习主要研究计算机如何像人类学习知识那样自主地分析和处理数据,做出智能的判断,通过获得的新的知识对自身进行发展和完善。例如,手写数据数据集MNIST。
  • 监督学习:需要在有标记的数据集上进行
    训练过程中:将输入数据和数据标记一同提供给学习器
    训练结束后:将在不同数据集中的一张图像输入学习器,学习器将根据学到的知识给出该图像中包含的数字。
  • 无监督学习
    可以在没有标记的数据集上进行学习,实质上无监督学习是一个聚类的过程。(学习器不知道每个数据的语义)
  • 半监督学习
    版监督学习主要考虑如何利用少量有标记的数据来进行学习,其中标记的数据用来学习模型,而未标记的数据用来进一步改进类的边界。(例如,使用+表示正实例,-表示负实例)

3.数据库与数据仓库

  • 数据库系统:是为了解决数据处理方面的问题而建立起来的数据处理系统,注重于为用户创建、维护和使用数据库。(大型数据集)
  • 数据仓库:汇集了来自多个不同数据源的数据,通过数据仓库,可以在不同的维度合并数据,形成数据立方体,便于从不同的角度对数据进行分析和挖掘。

4.模式识别

  • 本质就是抽象出不同事物中的模式,并根据这些模式对事物进行分类或聚类的过程。
  • 研究内容:文字识别、语音识别、图像识别、医学诊断、指纹识别、声纹解锁等。

5.高性能计算

  • 突破单个计算机资源不足的限制,使用多个处理器或多台计算机共同完成同一项任务的计算环境。例如:天气预报等。

你可能感兴趣的:(数据挖掘)