高效实现数据仓库的七个步骤

高效实现数据仓库的七个步骤

数据仓库和我们常见的RDBMS系统有些亲缘关系,但它又有所不同。如 果你没有实施过数据仓库,那么从设定目标到给出设计,从创建数据结构到编写数据分析程序,再到面对挑剔的用户的评估,整个过程都会带给你一种与以往的项目 完全不同的体验。一句话,如果你试图以旧有的方式创建数据仓库,那你所面对的不是预算超支就是所建立的数据仓库无法良好运作。

在处理一个数据仓库项目时需要注意的问题很多,但同时也有很多有建设性的参考可以帮助你更顺利的完成任务。开放思维,不断尝试新的途径,对于找到一种可行的数据仓库实现方法来说也是必需的。

1. 配备一个全职的项目经理或你自己全面负责项目管理
在 通常情况下,项目经理都会同时负责多个项目的实施。这么做完全是出于资金和IT资源方面的考虑。但是对于数据仓库项目的管理,绝对不能出现一人身兼数个项 目的情况。由于你所处的领域是你和你的团队之前没有进入过的领域,有关数据仓库的一切-数据分析、设计、编程、测试、修改、维护-全都是崭新的,因此你或 者你指派的项目经理如果能全心投入,对于项目的成功会有很大帮助。

2. 将项目管理职责推给别的项目经理
由于数据仓库实现过 程实在是太困难了,为了避免自虐,你可以在当前阶段的项目完成后就将项目管理职责推给别的项目经理。当然,这个新的项目经理一定要复合第一条所说的具有全 职性。为什么要这么做呢?首先,从项目经理的角度看,数据仓库实施过程的任何一个阶段都足以让人身心疲惫。从物理存储设备的开发到Extract- Transform-Load的实现,从设计开发模型到OLAP,所有阶段都明显的比以前接触的项目更加困难。每个阶段不但需要新的处理方法、新的管理方 法,还需要创新性的观点。所以将管理职责推给别的项目经理不但不会对项目有损害,还可以起到帮助作用。

3.与用户进行沟通
这里所 讲的内容远比一篇文章本身要重要的多。你必须明白,在数据仓库的设计阶段,那些潜在用户自己也不清楚他们到底需要数据仓库为他们做什么。他们在不断的探索 和发现自己的需求,而你的开发团队也在和客户的接触中做着同样的事情。更加频繁的与客户接触,多做记录,并让你的团队更关注于项目需求讨论的结果而不是讨 论的过程本身。

既然你和客户的交流是为了了解存储的数据是何种类型以及如何有效存储数据,你也许需要(和你的用户一起)采用一种新的方法观察数据,而不是直接处理数据。你可以尝试从中找出隐藏的信息,比如在一段时期内的数字涨落等。不要试图追寻项目需求的答案,而是要让答案找上门来。

4. 以技术/信息库作为领导
由 于数据仓库实施的各个阶段都有很大不同,因此你需要有人能起到维持整个项目的连续进行的作用,不过这个职责并不需要那种全职性。项目实施有三个重要方面: 架构、技术和业务。将架构作为重点可以保证在整个项目中,数据仓库的架构从物理层往上,都会受到良好的维护。而我们应该将技术作为重点,因为开发团队和关 键用户都在使用他们以前从未用过的工具,必须有人监督开发过程以及工具使用的一致性。

最后,在数据仓库的应用过程中浮现出来的业务需求必须被详细分析和记录,以促机开发过程持续下去。如果用户不能很好的开发人员以及其它用户沟通,那么数据分析和度量方面的开发进程就会延期,所以必须有人关注业务方面的开发,推动开发进入更高级别。

5. 跳出反复修改程序的陷阱
第 一次实现的数据仓库肯定不会是最终交付的版本。为什么呢?实际上在真正见到产品前,你无法确定的知道自己的目标是什么。或者说,最终用户只有在使用数据仓 库产品一段时间后,才能明确告诉你这个产品是不是他所希望的。与你以往处理的项目不同,业务智能还处于发展的初期,每个公司对业务智能都有不同的解释,因 此你的项目决不会一次成功。

为了以正确的格式获得数据,你需要在不断变化的状况中摸索前进。BI具有很强的个性,不同的环境、不同的市场 以及不同的企业都有不同的BI。这又代表什么呢?这表示你需要把数据库管理员放在一个消息相对封闭的环境中,不要让他知道数据仓库的数据结构以及ETL程 序在不断的改变。对此没有别的办法。这样可以减轻你和DBA所承受的压力。

6. 对大量的前端资源进行数据源分析
在数据仓库实现 过程中,你不得不在旧有的数据中艰难跋涉,这些数据来自老的数据库、老的磁带机以及远程的数据。它们中的大部分都凌乱不堪,并且难以获取。你要对这些数据 进行大量处理,并且还要设计ETL程序来寻找其中的有用信息。如果你希望整个项目做起来比较顺利,并且找到一种方法能够一次成功,那就需要你的开发人员必 须花费足够的时间来充分研究这些旧有数据,将凌乱的数据规则化,并尽力设计和实现强壮的数据采集和转换过程。数据仓库的ETL部分会占用整个项目资源的百 分之八十,所以一定要确定你的资源都用在刀刃上了。

7. 将人际关系处理放在首位
在数据仓库实现过程中真正的地狱不是来自技术或 者开发方面,而是来自你周围的人。你也许会遇到一个对项目并不乐观而又没时间听你陈述的领导。你也许会遇到一些开发人员将进度拖延太长时间还抱怨为什么不 能用老方法实施。你也许还会遇到一些抱有不切实际的幻想的用户,他们希望轻点鼠标就能实现想象中的功能,但却不愿在他们那边多做些智力投资,更好的培训他 们自己的员工。而你也已经疲惫不堪,鼓励投资,以及在开发团队和用户(甚至老板)中推广新的开发技巧。

总之你要保持微笑。当一切搞定,你的烦恼也就一扫而空了,笑到最后才笑得最轻松。

数据仓库开发过程中的七个禁忌

过去我们一直使用的OLTP技术也许隐藏着许多严重的缺陷。数据仓库的实现并不是一个简单的任务,你会发现以前积累下来的丰富经验,并不适合处理每个数据仓库的独特需求。

下 面列出的条款是你在实现数据仓库过程中一定会面对的问题,其中一些看起来并没有想象中那么严重,但是你还是应该尽量避免出现类似问题。数据仓库并不是一个 事务处理系统,它没有一定的标准也不会实现某个特定的应用,但它本质上是非常有组织性的。总之,每个公司所建立的数据仓库都是唯一的,并且每一次数据仓库 的实现方法都不是一成不变的。在实现数据仓库时需要注意的不单是"应该如何作",更要注意"不该如何做"。下面就是我们总结的七点"不该如何作"。

1.不要编写自己无法快速修改的代码
你 所要编写的程序主要用于数据分析,而不是处理事务。而你的用户也并不真正知道他们自己真正想要一个什么样的程序。因此你不得不反复修改代码好几次,才会明 白用户到底需要一个什么样的程序。如果你编写的程序具有良好的结构和灵活性,就算需要修改也不会太浪费力气。反之,你会被自己累死。

2. 不要使用无法修改的数据库访问API
在 过去,你的数据库可以为大量的客户提供稳定的数据查询服务。而如今,你的程序必须能够应付更多的数据查询。这使得重新改写程序以使得每个查询请求能得到最 大的数据量成为势在必行的工作,而一般来说这种代码修改都不会一次成功,所以只有选择合适的可以修改的API,才能使程序尽快适应新的需求。

3. 不要设计任何无法扩展的东西
在 联机处理过程(OLTP)应用中,数据分析并不是一个真正的应用程序。实际上,数据分析的关键是获取大量旧的数据,从中提取数据模型,并以此模型推断出新 的信息。而你所编写的访问潜在信息的代码应该具有可扩展性,可以附加新的数据。千万别在支持数据分析的代码中假定数据都是固定格式的。

4. 不要附加不必要的功能
一 个仓库要做的是恰到好处的服务,用户走进仓库,从货架上取得自己所需得信息,仅此而已。由于业务智能、分析以及规律性的问题都有各自的处理程序,因此你的 客户唯一的需要就是获取信息。他们需要一种应用环境,可以让他们快速的从数据仓库中取得分析过程所需的数据,而不论这个数据是什么样子的。也许你想帮助他 们精炼一下获得的数据,但最好不要这么做。一定要记住,不要给客户的数据分析程序添加任何会影响数据访问性能的功能。

5. 不要简化数据清除和数据源分析的步骤
在 实现数据仓库过程中最应该注意的地方就是为Extract-Transform-Load机制分析数据源,以及为优化负载而清除数据。安全的做法是假设项 目经理在这个阶段会需要整个项目资源的一半以上。相反,如果你在这方面进行了简化,稍后肯定会后悔。所以就算系统工作缓慢,也不要简化清理旧的数据的过 程。

6. 不要避免颗粒度和分区问题
在数据仓库设计过程中有两个最大的数据存储问题,第一是如何给转换数据定位一个恰当的颗粒度 等级,第二是如何将数据绝对的分区。为什么这两点问题如此重要呢?因为整个数据仓库的响应能力受颗粒度影响,并且数据访问的效率直接与数据分区性能有关。 因此这是具有关键性的工作,不要试图避免面对这些问题。

7. 不要在没考虑业务问题前就使用OLAP
用户在亲眼见到程序前通常都 不知道自己到底想要个什么样的程序。因此他们的观点有不少错误,比如他们希望分析结果会忠实反应性能度量,或者希望程序会使他们部门或公司的业务工作有所 不同。而你必须跳出自己的职责范围,从IT管理者的角度考虑用户部门直至整个企业的运行方式,才能在开发过程中避免这类问题。在通常的OLTP开发中,你 可以比较方便的理解业务流程。而在联机分析处理(OLAP)领域,任何事情都需要亲自考察,而在你周围工作的人也许并不会发现你对业务方面存在的误解。因 此,不要自以为已经了解了足够的信息。不断的询问才能使你真正了解"业务智能"中的"业务"到底是什么样子的

顺利开发数据仓库的七种思路

对 于大多数IT顾问来说,实现一个数据仓库的难度比以前做过的任何项目难度都要大。考虑到不同的数据结构、用途以及应用程序开发方法,以前所积累的经验和技 巧大部分都无用武之地了。但是只要在你的前进道路上稍加修正,你就会发现实现一个数据仓库并不是难事,就算你是第一次实现数据仓库也没问题。

下面列出了数据仓库实施过程需要考虑的步骤,有一些你可能从来没有意识到,而另一些可能已经在实施过程中使用到了,但是重新思考一番也许你会有更多的领悟。开放思维,不断尝试新的途径,找到一种可行的数据仓库实现方法。

1. 再三考虑应用程序的实现方法
数 据仓库并不涉及事务处理,并且在报表方面也仅占一小部分。而数据仓库应用程序的本质是分析,尤其是针对业务智能的分析。BI并不是通常所说的数据:它是一 种从旧有数据中,模型化得到的新的数据。那么如何才能从旧有数据中挖出这些新数据呢?事实上,这个工作不是让你来完成的,而是你的客户所要完成的。从项目 主管的角度看,应该有一个经验丰富的数据表格设计师与你合作,进而决定如何将各类程序融合在一起。其中所遇到的最主要的挑战将是如何用新的方法观察数据, 这也是你的客户正在试图使用的方法。

2. 创建抽象的、良好部署的数据库访问组件
在过去你接触过的数据库项目和现在的数据仓 库之间,有一点绝对不同,那就是:在Online Transaction Processing (OLTP)环境中,用户数量非常大,但使用到的数据却比较少;而在Online Analytical Processing (OLAP)环境中情况却正好相反,少量的用户在使用大量的数据。而你的工作就是编写一个应用程序来优化这种不同。这里有一个线索:在你所有的分析程序 中,都要能抓取连续的数据项,这样在以后建立和访问的数据结构中才能存放与原数据物理结构类似的数据。具体如何实现呢?首先不要规格化数据。第二将其放入 数组中最小化读取请求数。按照这种方法,DBA会很乐意与你合作。

3. 保持松散
现在回头看看第一步,你应该可以理解定义一个分析程序不是件简单事了,而且一般情况下,很难在第一次就实现符合要求的最终产品。而在你将要进行分析的数据结构上同样存在这种问题。一句话,实现过程会有 很多变数,你需要不断的改动你的程序。通常我们都希望将改动次数降到最低。在一个数据仓库实现过程中,本质是要分析过程毫无差错,这也需要DBA的参与。 不要死抓住你的程序设计、代码、框图,或你建立的其它什么东西不放手,要根据这种变化而不断进行调整。

4. 将管理放在首位
在分 析数据源方面你做的如何呢?你是否认为清理垃圾数据的工作非常困难?并不是只有你一个人这样想,做过类似工作的人都有这种看法。在一个一般规模的机构中, 作为数据仓库实现过程的一部分,会有大量的旧有数据必须进行一致性处理。所以分析数据源并花费数个小时编写转换程序将旧有数据导入数据仓库是整个数据仓库 实现过程中最艰难的一部分。并且这也是整个项目中最重要的一环,可以占到整个项目周期和预算的四分之三。所以一定要小心对待。

5. 从字里行间发现问题
与 用户交流是个很麻烦的事情,为什么这么说呢?因为很多用户在见到最终产品前都不知道自己想要什么样的产品。定义数据仓库应用程序是一个探索的过程,而且这 个过程要反复进行。记住所谓的"业务智能"是用户自己定义的,他们按照自己的理解来处理业务流程。因此这些用户就是连接数据和业务处理过程间的桥梁。他们 所要的并不是数据本身,而是隐藏在数据后面的智能性。你可以让他们讨论、思考并给出建设性的意见。但千万不要让他们解决或让他们任意想象和发表那些"有可 能"的观点。最后,一定要随时留意用户得出的结论。

6. 保持领先
数据仓库看起来没有传统的OLTP模式根深蒂固,事实如此。虽然很多人投身数据仓库的开发中,但由于其框架与以前的系统大相径庭,因此在开始的一段时间数据仓库的实现看上去相当混乱。但是坚持下去是很重要的。它具有两方面重要的作用。

第一,技术的领先性。它可以跟踪项目中任何阶段的软件工具的部署和正确使用,以及开发过程。如果这复合你的背景,你可以对此多加留意。

第二,体系结构的领先性。它使得项目在各个阶段转换时,数据仓库和它所支持的系统的物理以及逻辑架构都具有持续性,不会发生改变。这也是你能提供的。

7. 发出警告
最后你要记住,你并不是唯一登上新大陆的人。你周围的每一个人都会有下面一点或几点问题:不现实的期望、对技术的误解、旧习惯或坏习惯、竞争行为,或缺乏对 项目的信任度。虽然交流沟通等任务应该是项目经理负责的,但实际上你也要担负起相同的责任。那么作为技术总监你该怎么作呢?首先当然是要真诚的对待周围的 人,但一定要竖立威信,适当的发出警告。当你发现项目进度缓慢、资源流失,或者员工失去目标,就要直言不讳的说出来。快速明确的给予警告在大部分情况下都 是明智之举。匆忙上马的数据仓库项目也许会出轨,但不要让失败的项目把你拉下马。

============================================================================

为什么要推动data warehouse
自然演化体系会带来很多的问题:
1、数据可信性(两个部门提供的数据是不一样的,让管理者无所适从);
a、时间的基准不一;b、算法差异;(认知不一致)c、无公共的起始数据源
要靠推动data warehouse使各部门之间对相同元素认知、定义和算法一致或者趋于一致;
2、报表的生产率的问题;由于oltp的单项系统导致数据的分散性和相同元素定义不一致所致;
3、oltp的系统中无法保留很久的历史数据;单项系统之间保留的历史数据时间范围不一致; 无法满足dss分析的需要;
4、oltp的单项系统中对维表的关键栏位的更改很少有记录;(如:客户的业务员的变更问题)
5、面向应用的设计无法满足面向主题的分析的需求;oltp和dw对后台设计要求的重点不同,oltp主要在意的是update和insert,而dw主要在意的是select;
6、因为决策的需求大多是“灵光一现”的,是“前无古人”,“后无来者”的,是启发式的,而非固定式的;
7、分散的系统导致业务行为不可控,dw能够对各地的业务行为进行事后的监控;(如:产品代号,折让的问题);
8、dw能够把user从复杂的统计工作中解放出来,从而提升企业的管理,让user有时间从事对企业更有益的事情。还可以精简企业的人员;
9、降低企业获取信息的费用;提高企业的决策速度,加快企业对市场的反应能力;
10、没有dw,IT部门总是处在鞭梢的位置,总是在被动的响应状态;(因为主管感兴趣的事情总是不时的变化的);
11、可以透过dw来观察公司的新的政策或者新的行销活动给公司带来的变化;(事件映射)
12、dw是EIS和数据挖掘的基础;
二、推动以前IT人员要有的观念
1、首先满足用户的需求,再在用户使用过程中去引导用户朝正确的方向走;
2、老板看的投资回报;
3、永远比user考虑的明细;因为管理是一步步精细的;
4、dw是反复才能建成的,所以dw的版本要不停的迭代开发;
5、olap 软件可以是dw的组成部分,但不是必选的,大多的olap的软件数据库是多维的,从dw中把资料刷新至多维的数据库中会比较慢,但对多维的数据库查询起来速度必二维的速度快的多;所以是要根据user需求来进行合理的选择;
6、前端的展现工具一定要有向上和向下钻取的功能;
三、和老板沟通的观念
1. dw不可能满足所有的需求,Data warehouse 项目同样需要界定边界;
2. 同样的资料,角度不同(如财务,销售,市场,管理),结果就不一致,所以允许差异的存在,但差异要在可解释的范围内; 通过定义不同的规则来玩这个游戏;
3. 问题的关键不在工具的好坏,而在于资料的可信度,原始数据和业务行为的规范;
4. 业务术语的定义和解释应由专门的单位来处理,从而保证集团自上至下的对术语定义的一致性;
(如销售业务行为中“铺货率”的定义)
5. 企业高层的支持非常重要;
6. 公司内的oltp系统数据是动态的,总是在变的,所以dw中的数据也会随之变化,dw中昨天看到的数据 和今天看到看到的不一样,不要大惊小怪;
7. dw是用来做趋势分析、预测和提供数据挖掘的,对数据的要求不是非常精确,所以千万不要拿dw中的数据来计算sales的奖金;
8. 集团上下对为什么要推动dw及dw的作用的认知一致是非常重要的;
9. 最终用户专业化,要花很多的时间对end user进行培训,提高user的认知,最终的目标是user自己设计报表;当然是在前端,而不是在“厨房”(后台)中;
10. 软件选择宜横向联合,强强联手,不是一家的软件可以搞定一切的;
四、dw设计模式和方法
1.dw应建立在RDBMS(关系型数据库)中,而dm可以建立在一个RDBMS或者MDDB(多维数据库)中;
2.dm采用星型设计是原则,雪花模型是可选的;
3.dw的设计模式和oltp的设计模式不一样的,oltp的设计模式是以需求为驱动的,而dw的设计模式是以数据为驱动(分析处理为驱动)的;
4.面向主题的设计,数据从操作型的环境流入dw中时,数据必须是集成的,而不仅仅是将数据扔到dw中;
5.一次开发一个主题的原则;
6.在dm中逆规范化的设计是必要的,以空间的冗余换取响应速度的加快;
7.遵循给“用户想要的东西,然后用户才能告诉你需求是什么”的发现模式来开发,成功的关键在于结构设计人员和dss分析人员(user)之间的反馈循环, 迭代开发的模式;
8.开发流程:首先应建立企业数据模型(描述企业的信息需求,明确了企业主要的主题域,不一定是企业已有的东西,不考虑任何的技术问题)→ 分解至中间层模型→ 定义记录系统(数据源的定义) → 设计数据仓库→ 设计oltp与dw之间的接口;
9.5%的dss处理的需求在原子层,95%的在概要层;(查询分离的设计);
10.从fact表开始设计,然后开始设计dimension表;维表的设计要逆规范化,事实表的设计要3nf;
11.弹性的设计(建立规则库,通过规则解析引擎解释规则至最小的粒度的设计)
12.资料可信度的设计;
13.规则库和规则转换设计;
14.各地的对相同的栏位定义不一致(如:有的地方用0和1表示男女,有的地方用m和f表示男女)没有关系,但dw中的定义要一致,通过清洗程式转换成dw中的规则;
15.有限的使用的代理健;
16.有限的使用外健来保证参照完整性;可以使用procedure检查;
17. Slowly changing dimension(慢速变化维)表的处理:不要使用oltp系统中的business key(业务健)作为维表的primary key(主健),而使用代理健,当慢速变化维的关键栏位发生变化时,不要update原来的记录,而插入一条新的记录;这样能够dw不会出现错误而且可以 跟踪维的历史;
18.字段级映射(field level mapping)一定要建立;
19.集团总部dw的资料可以回流至各分公司的数据库中,这样可以灵活的处理需求,一致的需求,总部处理,特殊需求,各地处理;
20.dw中无论是fact table还是dimension table,强烈建议给每条记录加上时间戳;
五、粒度的选择
1、资料的粒度级别需要权衡,采用多重粒度的设计;在磁盘允许的情况下,建议尽可能的按最细粒度存储数据;因为dw中存储的粒度越细,dw回答问题的能力就越强; 要先估算事实表的行数(一年内的最少行数和最多行数乘以字段长度)
2、对于不活跃的数据可以分离(至磁带或者备份的磁盘上);减轻dw刷新和管理的难度;
3、dw的特性之一,表现为汇总数据还是细节数据是由观察者的不同角度决定的;
六、dw的安全
1、根据user的不同的权限看到的数据也不一样;
2、数据库放在内网的是原则;
3、通过profile限制并行的用户数;
4、在brio server中限制帐号一个月不使用者封帐号(更改密码为当天的日期);
5、装载阶段限制ip和user登陆(通过trigger);
七、dw 性能增强方案和oracle的技术的运用
1、可以使用的技术有:materialized view(物化视图),星型查询,专用大回退段, QUERY REWRITE(查询重写),partition table,organization index table(索引组织表),PARALLEL(并行)
2、充分的index,建立必要的概要表(summary table),大表必须分区,query rewrite和mv均可大大提高dw
的性能;
3、小技巧:加载前drop一些index以提高加载的性能,加载完毕后重建index;还可以通过view来实现和简化查询重写;
4、oracle优化模式rbo和cbo的选择:建议尽量使用cbo;
5、作为数据仓库的后台数据库,oracle的安装方式和init参数的是有别于oltp系统的后台的数据库;
6、加载阶段和访问阶段采用不同的参数设置来启动db;
7、访问阶段使db只读,减少db的本身的管理损耗;
8、由于dw特性,不用在数据块上保留很多的自由空间用于以后的记录的更新和插入;
9、修改os的参数,如:加大os的串行预读参数,异步io,甚至修改cpu的时间片;
10、磁盘阵列的选择:条件允许的情况下建议raid01;
八、规则库的定义和设计
1、业绩公式规则;
2、单位对资料可信度影响的权数的规则;
3、业绩归属的定义;
4、上级组织在不同的角度是不同的(如:财务和销售)
九、dw运用的%
2%的bpm、kpi的管理;3%的数据挖掘;15%的数据分析;80%的report;
十、让我头疼的几个问题及解决方法
1、由于是从分散的系统中抽取资料,所以各个公司相同的系统中基本资料中对基本数据定义可能会不一样;如:A这个产品代号在华东表示冰红茶,在华南可能表示冰绿茶;抽取至dw中的数据失去可比性;
我的对策:
a、如果是关键性的基本资料,在集团总部和各个公司建立一个公共系统(PUB),把各系统基本资料抽取出来,并 规划出哪些栏位是总部必须要控管的,然后放入PUB系统在集团总部控管,所有系统的基本资料的总部控管栏位的来源只有从PUB系统中来,集团总部有修改和 新增的权利,下属各公司只有查询的权利,下属各公司如要新增和修改必须至总部申请;对于非总部控管的栏位各公司可以自己更改;PUB系统的table资料 定期的同步至各公司的数据库中;
b、如果是非关键性的基本资料,建立对照表翻译成dw中的定义;只不过抽取程序设计会麻烦一点;
2、业务的术语定义集团内没有共识;
如:华东区认为销售铺货率应该这样计算,而东北区认为应该那样计算,而集团总部又是一种说法;
我的对策:请集团的高层建立或者指定相关的权威部门协调各方并给出标准的定义;不要迁就于各分公司的不同的算法而客制出不同的报表,那样只会让各分公司看到的报表数据失去可比性且让各方因为数据的问题吵的不可开交;
3、由于lotp系统老化且分散在各分公司中,所以导致各分公司相同的系统其中的运行的逻辑会有差异,相同的table相同的栏位存储的数据计算规则不一致;
我的对策:没有什么好的方法,要修改老化的系统使大家一致不太实际;因为会牵涉的系统的太多,并且老的语言精通的人不多,如果修改不知道会发生不可预测的问题;
所以我只有请各公司了解自己的规则并填入我们规划的规则库,我们的抽取程序依照规则库中的规则来抽取,并且各分公司的规则更改时,也请他们更新规则库;
4、各分公司IT部门以前替各自分公司的开发的类似dw系统在使用并且数据可能会与总部的dw中数据不一致,各分公司对集团总部推的dw系统有抗拒心理;
我的对策:首先请集团的高层向各分公司做说服,并且向集团的高层申请“上方宝剑”,其次通过dw的资料回流至各分公司数据库,使各分公司的自己开发的类似的系统的数据源来源于dw中,这样就把集团总部和各分公司捆绑在一起;
5、dw中资料刷新的问题,因为oltp系统的可变性,导致抽取程序在从oltp系统中抽取资料时不知道应该扫描哪些资料,oltp哪些资料自上次抽取后被更新了(变化数据捕获的问题);
我的对策:这个应该是所有的做dw项目均会碰到的问题;
a、如果抽取的table是比较小的table,在不影响可以oltp系统性能的情况下,可以在oltp的系统的table 上加入trigger来记录更新;抽取程序可以根据记录来只抽取更新的记录;如果加trigger有困难,每次把table的全部资料抽取回来也可;
b、上面的方法只能解决小部分的问题,大部分是要通过时间戳的比较,或者充分理解oltp系统的规则,如oltp系统不会更改多久以前资 料,oltp系统是否有结转的概念,如果要更改已结转的资料是不是在什么地方有记录之类;根据具体情况具体解决;我现在负责的这个项目的销售这一块在 oltp系统中有结转的概念,如果要更改已结转的资料必须要进行结转回复;所以我们在设计抽取程序时有一个抽取记录的table,用来记录该分公司的销售 系统资料日期、该日是否已结转、抽取的次数等等;并且要求oltp系统中日结的程序加入,如果做日结回复必须update抽取记录的table其中的抽取 次数为0;我们的抽取规则就是:抽取抽取次数为0的日期的资料,但未日结的资料不管次数为多少均抽取;抽取完毕后update该table相关栏位;
十一、其他
1、后台的程式执行出错时,log记录至table中;并自动发出mail通知相关的人;
2、执行成功,成功的记录至succmsg中;

你可能感兴趣的:(商业智能与数据仓库)