1、数据库
数据库(Database)是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库,严格来说,数据库是长期储存在计算机内、有组织的、可共享的数据集合。常见的有mysql、oracle、sql server.
2、数据仓库
数据仓库(Data Warehouse,可简写为DW或DWH)是一个面向主题的,集成的,不可更新的,随时间不断变化的数据集合,它是一种信息系统,目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。常见的有AWS Redshift, Greenplum, Hive等。
3、数据库与数据仓库区别
类型 | 特点 | 技术 | 区别 | 应用 |
数据库 | 有组织、可共享、统一性 | OLTP(联机事务处理) | ①面向事物而设计 ②只要是在线交易数据 ③结构设计原则不同,有一定的范式约束 |
银行交易 订单业务 |
数据仓库 | 面向主题、集成的、稳定性、反映历史变化 | OLAP(联机分析处理) | ①面向主题而设计 ②主要是历史数据 ③结构设计原则不同,反范式设计 |
根据不同的主题,对失去时效性的数据进行分析 |
数据库设计过程:
数据仓库设计过程:
4、OLTP和OLAP区别
技术 | 定义 | 特点 |
联机事务处理OLTP(on-line transaction processing) | 主要是执行基本日常的事务处理,比如数据库记录的增删查改 | ①实时性高 ②数据量不大 ③交易明确 |
联机分析处理OLAP(On-Line Analytical Processing) | 是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果 | ①实时性要求不高 ②数据量大 ③查询一般是动态、自定义的 |
5、ETL
ETL(Extract-Transform-Load )用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认为是ETL(抽取Extra, 转化Transfer, 装载Load)的过程,ETL是数据仓库的流水线,也可以认为是数据仓库的血液,它维系着数据仓库中数据的新陈代谢,而数据仓库日常的管理和维护工作的大部分精力就是保持ETL的正常和稳定。
6、元数据
元数据(Metadata)又称中介数据、中继数据,为描述数据的数据(data about data),是关于数据的数据。主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。
元数据的特征:
①动态特性
②数据类型多样性,既可以是一个数据集合,也可以是单个数据
③描述对象的多层次
④数据量大
⑤元数据是关于数据的结构化数据,它不一定是数字形式,可来自不同的资源
7、粒度
粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。 细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。在数据仓库环境中,数据的粒度之所以是主要的设计问题,是因为它深深地影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答的查询类型。
8、数据集市
数据集市(Data Mart)是数据仓库的一个访问层,是一种面向某个特定主题的、更小、更集中的数据仓库。可分为两类:
第一类:独立型数据集市-直接从传统操作型数据库或外部数据源中获取数据;
第二类:依赖型数据类型-从企业数据仓库中获取数据。
注意:数据仓库不可能由多个数据集市进行简单合并而产生。
9、决策支持三个层次
1)数据报告:报告数据依赖于数据查询,是最低层次的决策支持。但作为基础,一部分内容报告对任何成功的商业运作都是最为重要的。
2)分析数据:通常用某种形式的多维数据分析工具来完成。
3)知识发现:数据挖掘的主要任务是知识发现,但是使用一些复杂的查询和数据分析技术有时能够发现数据中有趣的模式。
10、矩阵
数据矩阵:对象-属性结构 用 ( n * p )形式的矩阵来表示n个对象,每个对象p个属性。
相异性矩阵:对象-对象结构 存放两两对象的邻近度 n * n
11、光滑噪声数据
噪声:数据集中干扰数据,或者说不准确的数据。
噪声是被测量的变量的随机误差或方差。
方法1:分箱—-通过考察数据的近邻来光滑有序数据值。
方法2:回归—-可以用一个函数拟合数据来光滑数据。
方法3:离群点分析—-通过如聚类检测离群点。
12、数据预处理
预处理的作用:一方面提高数据的质量,另一方面是要让数据更好的适应特定的挖掘技术或工具。
预处理的步骤如下:
数据清洗:删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值(填充或删除)、异常值(离群点)
数据集成:将来自多个数据源的数据整合成一致的数据存储中的过程。
数据转换:在一定程度提高系统的运行效率和提高数据不同格式之间的兼容性以及通用性。
数据规约:得到数据的归约表示,从而使得信息内容的损失最小化。数据规约策略包括:维归约、数量规约、数据压缩