数据仓库与数据集市--概念

数据仓库

数据仓库到底是用来干什么的?

数据仓库( Data Warehouse ),是为企业制定决策,提供数据支持的。可以帮助企业,改进业务流程、提高产品质量等。

数据仓库的输入数据通常包括:业务数据用户行为数据爬虫数据

业务数据:就是各行业在处理事务过程中产生的数据。比如用户在电商网站中登录、下单、支付等过程中,需要和网站后台数据库进行增删改查交互,产生的数据就是业务数据业务数据通常存储在MySQL、Oracle等数据库中。

用户行为数据:用户在使用产品过程中,通过埋点收集与客户端产品交互过程中产生的数据,并发往日志服务器进行保存。比如页面浏览、点击、停留、评论、点赞、收藏等。用户行为数据通常存储在日志文件中。

爬虫数据:通常事通过技术手段获取其他公司网站的数据。

补充:URL数据解析过程

搜索相应网页界面==>F12==>复制相应log==>URL解析

数据仓库与数据集市--概念_第1张图片

数据仓库与数据集市--概念_第2张图片 数据仓库与数据集市--概念_第3张图片

数仓分层原因:

(1) 把复杂问题简单化

将复杂的任务分解成多层来完成,每一层只处理简单的任务,方便定位问题;

(2) 减少重复开发

规范数据分层

,通过中间层数据,能够极大的减少重复计算,增加一次计算结果的复用性;

(3) 隔离原始数据

不论是数据的异常还是数据的敏感性,使真实数据与统计数据解耦开

数据集市

数据集市(Data Mart),现在市面上的公司和书籍对数据集市有不同的概念.

数据集市是一种微型的数据仓库(是一个小型的部门或工作组级别的数据仓库),它通常有更少的数据,更少的主题区域,以及更少的历史数据,因此是部门级的,一般只能为某个局部范围内的管理人员服务;

其实数据集市可分为两类,一类是独立型数据集市,一类是从属型数据集市,

        独立型数据集市直接从操作型环境获取数据。从属型数据集市从企业级数据
仓库获取数据。从长远的角度看,从属型数据集市在体系结构上比独立型数据集市更稳定。
      独立型数据集市的存在会给人造成一种错觉,似乎可以先独立地构建数据集市,当数据集
市达到一定的规模可以直接转换为数据仓库,有些销售人员会推销这种错误的观点,因为建立企
业级数据仓库的销售周期长。多个独立的数据集市的累积是不能形成一个企业级的数据仓库的,
这是由数据仓库和数据集市本身的特点决定的。如果脱离集中式的数据仓库,独立的建立多个数
据集市,企业只会又增加了一些信息孤岛,仍然不能以整个企业的视图分析数据,数据集市为各
个部门或工作组所用,各个集市之间又会存在不一致性。当然,独立型数据集市是一种既成事实,
为满足特定用户的需求而建立的一种分析型环境,但是,从长远的观点看,是一种权宜之计,必
然要为一个企业级的数据仓库所取代。

数据仓库是企业级的,能为整个企业各个部门的运行提供决策支持手段.

你可能感兴趣的:(数据仓库,数据集市,数据仓库,URL地址解析,数据集市)