读书笔记之一(数据仓库)

《基于信息技术的统计信息系统》----薛薇

1.         数据仓库.

数据仓库是20实际90年代信息技术架构的新焦点,它提供集成化和历史画的数据,集成种类不同的应用系统,数据仓库从事物发展和历史的角度来组织和存储数据,以供信息化和分析处理只用。

数据仓库是用于支持企业或组织的决策分析处理,面向主题的、集成的、不可更新、随时间不断变化的数据集合。                          ------William Inmon

 

2.         数据仓库的特征

l  面向主题

l  集成性

l  一致性

l  历史性和稳定性

3.         数据仓库的基本结构

l  数据获取子系统:用于完成从外部数据源采集相关数据,数据经过人工或程序的提取、清洗、转换、聚集等处理环节,最终形成一致数据并加载到数据仓库中。

l  数据存储管理子系统:主要是数据的内部存储和组织、数据的维护和数据仓库的日常管理等。

l  数据查询分析子系统:支持各类终端用户对数据仓库的数据查询、加工和分析。

4.         ETL

        数据仓库从不同数据源中抽取数据,经过抽取(Extract)、转换(Ttransform)、装载(Load)三个步骤。

5.         OLAP(联机分析处理)

OLAP技术的重要特征是建立了数据立方体的多维概念视图。数据立方体是最终用户多角度、多侧面、多侧面的访问多维数据。OLAP提供了多维数据的基本处理功能支持用户进行数据的切片、切块、旋转、下钻、上卷等操作。

l  切片:将一批多维数据的某个维降低到某个维成员

l  切块:将一批多维数据的多个维降低到一些维成员

l  旋转:将一批多维数据的各个维进行位置交换

l  下钻:将一批多维数据的某个维成员的下层维展现出来

l  上卷:将一批多维数据的某个维成员的上层维展现出来

6.         多维数据的存储策略

l  关系型多维数据存储策略

|--星状

|--雪花状

l  多维型多维数据存储策略

        星状的思想:将多维数据的维信息和维事实分别存储在不同关系数据表中。星状模型会产生一些分叉,于是就形成了雪花状。

7.         数据集市

将数据仓库中相关数据抽取出来,形成一些为特定部门和人员以及特地给应用实用的数据子集,这些子集成为数据集市。

数据集市中的数据来源于数据仓库,其中数据具有一致性。它将某些用户关心的、使用特别频繁的、支持关键业务的数据独立组织起来,极大的提高了查询分析的处理速度。

8.         数据挖掘的概念

        数据挖掘是从大量数据中,利用各种方法提取隐含和潜在的对决策极为有用的信息和知识的过程。

l  数据挖掘是一个过程

l  数据挖掘是各种“数据驱动”分析方法的集合

l  数据挖掘具有分析海量数据的能力

l  数据挖掘的最终目的是辅助决策

数据挖掘的分析算法有:OLAP分析方法、决策树方法、神经网络方法、遗传学方法、关联规则方法、聚类方法、覆盖正例排斥反例方法、粗糙集方法以及模糊论方法。

你可能感兴趣的:(数据挖掘,数据仓库,etl,休闲,数据集市)