数据挖掘 第一章 概述 数据挖掘、知识发现的概念 数据挖掘的模式

一、数据挖掘、知识发现的概念

数据挖掘 Data Mining :是指从海量的数据中通过相关的算法发现隐藏在数据中的规律和知识的过程。
知识发现:数据挖掘是知识发现中的一个步骤。当提到“数据挖掘”时,通常情况下要表述的是知识发现的整个过程。
数据预处理包括:数据清理和数据集成。
知识发现的过程:
①数据清理:消除数据中的噪声
②数据集成:将不同来源的数据组合在一起
③数据选择:从数据库中选择与任务相关的数据
④数据变换:将数据变换成适合挖掘的形式
⑤数据挖掘:使用数据挖掘的方法发现知识
⑥模式评估:识别知识中有用的模式
⑦知识表示:将挖掘到的知识用可视化的技术表示出来

数据分析和数据挖掘的区别:
(1)数据挖掘处理的是“海量”的数据,数据分析处理的数据不一定很大
(2)数据分析往往有明确的目标,而数据挖掘所发现的知识往往是未知的,需要通过数据挖掘的方法发现隐藏在数据中的有价值的信息和知识。
(3)数据分析着重于展现数据之间的关系,而数据挖掘可以通过现有数据结合数据模型,对未知的情况进行预测和估计。

二、分析与挖掘的数据类型 数据库数据+数据仓库数据+事物数据

1.数据库数据

2.数据仓库数据

  • 数据库的数据组织是面向任务的,而数据仓库中的数据则是按照主体进行组织的。(例如:总经理关系每个地区、每种商品的销售数据的汇总,此时,商品销售就是主题)
  • 数据仓库使用数据立方体的多维数据结构建模,其中每个维度包含模式中的一个或一组属性,而每个单元保存对应的属性值。
  • 联机分析处理(OLAP)是数据仓库系统的主要应用,用于支持负责的分析操作,允许在不同的汇总级别对数据进行汇总。

3.事务数据
事务数据库的每个记录代表一个事务。(例如:一次车票的预定,顾客的一个订单)一个事务由一个唯一的标识号和一组描述事务的项组成。

4.数据矩阵

  • 在一个数据集中,如果数据对象的所在属性都是具有相同性质的数值型数据,那么这个数据集就可以用矩阵来表示。
  • 通过将数据对象映射到多维空间中的点,可以根据数据对象的空间位置关系继续宁分类和聚类操作,空间上距离相近的两个数据对象被认为是同一类型,而空间上距离较远的两个数据对象是不同的类型。
  • 另一个典型的应用是对文档的分类:根据不同文档出现某些关键词的频率的不同,可以将文档划分为不同的类型。

5.图和网状数据
图和网状结构通常用来表示不同节点之间的联系。如人际关系网、网站之间的相互链接关系等。
一般来说,被指向次数越多的网页,其重视程度越高。

三、数据挖掘和数据分析的方法

1.频繁模式

频繁模式就是在数据集中频繁出现的模式,多次出现的事物可能具有特殊的意义。例如:啤酒和尿不湿的故事。(数据的关联)

2.分类和回归

  • 分类是根据已经具有类别标签的数据集建立分类模型,并通过该模型预测不具有类别标签的数据属于哪种类别。常见的分类算法:决策树、朴素贝叶斯分类、支持向量机、神经网络。
  • 分类是通过建立模型预测离散的标签(类别),而回归是通过建立连续值模型推断新的数据的某个数值型属性。
  • 回归问题的应用场景(预测的结果是连续的,例如预测明天的温度,23,24,25度)回归问题通常是用来预测一个值,如预测房价、未来的天气情况等等,例如一个产品的实际价格为500元,通过回归分析预测值为499元,我们认为这是一个比较好的回归分析。一个比较常见的回归算法是线性回归算法(LR)。另外,回归分析用在神经网络上,其最上层是不需要加上softmax函数的,而是直接对前一层累加即可。回归是对真实值的一种逼近预测。
  • 分类问题的应用场景(预测的结果是离散的,例如预测明天天气-阴,晴,雨)分类问题是用于将事物打上一个标签,通常结果为离散值。例如判断一幅图片上的动物是一只猫还是一只狗,分类通常是建立在回归之上,分类的最后一层通常要使用softmax函数进行判断其所属类别。分类并没有逼近的概念,最终正确结果只有一个,错误的就是错误的,不会有相近的概念。最常见的分类方法是逻辑回归,或者叫逻辑分类。

3.聚类分析
聚类是把一些对象划分成多个组或者聚簇,从而使同组内对象间比较相似而不同组对象间差异较大。聚类通常归于无监督学习,由于无监督算法不需要标签数据。它适用于许多难以获得标签数据的应用。

4.离群点分析
离群点是指全局或局部范围内偏离一般水平的观测对象。一般情况,离群点会被当作噪声而丢弃,但在特殊的应用中,离群点由于特殊的意义而被重视。(当一个人的信用卡在不经常消费的地区短时间消费了大量的金额,则认定这张卡的使用情况异常,需要及时采取措施)

四、数据分析和数据挖掘使用的技术
1.统计学方法
2.机器学习
(1)监督学习:在有标记的数据集上进行。对于训练集中的每个手写数字,标记它是0-9的哪个数字,并在训练的过程中输入数据和数据标记一同提供给学习器,在训练结束后,将不在训练数据集中的一张图像输入学习强,学习器根据学到的知识给出图像中包含的数字,因此,监督学习是一个分类的过程。
(2)无监督学习:在没有标记的数据集上学习,同样以手写数字数据集为例,通过对数据集上的数据进行学习,学习器得到了10个不同的类别,代表0-9个数字。当新的手写数字的图形输入学习器后,学习器会给出该图像属于这10个类别中的哪一个。但是,训练集没有任何标记,学习器不知道每个类别代表的数字是什么,不知道每个类别代表的实际语义是什么。
(3)半监督学习:在学习过程中使用标记和未标记的数据。它主要考虑:如何利用少量的有标记数据和大量未标记的数据进行学习,其中,标记的数据用来学习模型,而未标记的数据用来进一步改进类的边界。
如图:+ -是有标记的数据,实心圈是未标记的数据。虚线是只考虑有标签数据进行分类,实线是又考虑了未标记的数据。
数据挖掘 第一章 概述 数据挖掘、知识发现的概念 数据挖掘的模式_第1张图片

3.数据库系统和数据仓库

  • 数据库系统是为了解决数据处理方面的问题而建立起来的数据处理系统,注重于为用户创建、维护和使用数据库。数据挖掘的任务都需要处理大型数据集,因此,数据挖掘可以利用数据库技术在大型数据集上高效地存储和管理数据,以满足复杂地数据分析需求。
  • 数据仓库汇集了来自不同数据源地数据,通过数据仓库哦可以在不同维度合并数据,形成数据立方体,便于从不同角度对数据进行分析和挖掘。
    数据挖掘 第一章 概述 数据挖掘、知识发现的概念 数据挖掘的模式_第2张图片
    4.模式识别:本质是抽象出不同事物中地模式,并根据这些模式对事物进行分类和聚类地过程。人们在认识事物地时候,通过将它和其他事物进行对比,从而发现其不同之处,并根据对比结果和先前地认知将相似地事物归类。

5.高性能计算:突破单台计算机资源不足地限制,使用多个处理器或多台计算机共同完成一项任务地计算环境。如天气预报:天气与当地环境、气温、气压、海上某个气流有关,使用单台计算机处理这些数据很慢。采用高性能计算技术能够及时、高效地分析和处理海量地气象数据,得到较为精确地结果。

五、数据分析和数据挖掘存在地问题
(1)数据类型的多样性:如何综合不同类型和不同结构的数据从而得到对用户有意义的结果是一项挑战性工作。
(2)高维度数据:传统的算法在数量小、数据维度低的情况下表现良好,随着数据量和数据维度的增加,必须采取其他策略解决复杂度较高的问题。
(3)噪声数据:噪声和错误可能导致得到错误的结果,同时数据的来源错综复杂,时效性和准确性得不到保证。
(4)分析和挖掘结果的可视化:如何将分析和挖掘的结果以容易理解、便于观察的形式提供给用户是一项重大的挑战。
(5)隐私数据的保护:如何在数据保存和挖掘的过程中保证数据的安全性。

你可能感兴趣的:(数据挖掘)