ETL工具的关键技术

数据库的ETL工具就是指包括对数据表的抽取,转换,加载三个功能的软件工具,主要用于对多个数据库中的表进行集成,集成到一个数据仓库中,当数据源的表发生变化时,需要对捕获该变化,并且反应到数据仓库中,始终需要对数据仓库中的状态与数据源的状态保持一致性,这里关键的技术是增量获取。目前有IBMdatastageoracleOWB,微软的集成系统等。当然这些工具都有缺点,一般人员很难去熟悉他们,特别是OWB,配置过程相当麻烦,而datastage使用起来很方便,很人性化,很不错的软件。当然国外的软件价钱都不便宜。

       增量获取有三种方式:触发器,快照,日志三种,触发器是在数据源上对需要获取数据的表上建立一个触发器,在每次插,册,改时触发一个记录事件,将此次修改的记录值记录到一个临时表中,用户只需要该增量临时表中获取即可。快照,是在数据源上建立一个旧快照,然后对当前数据值与旧快照进行比较后将产生出变化数据,然后再把当前数据值作为下一次要使用的快照,依次进行下去。而日志就是直接读取数据库中的日志记录来获取增量。三种方式各有优缺点,而对于一些其他的数据,如文本,EXCEL等都用快照比较适用。目前大部分ETL工具采用的是快照。当然也有一些数据库厂商采用日志。

       除了数据抽取外,另一个重要的过程就是转换了,转换有清洗数据,对数据值设定条件等。这个一般都是需要人工干预的,通过在定义一个工作流的过程中,事先定义好一个数据转换的规则,然后当数据到达时,对数据进行判断规则即可。条件符号,则把数据提交给加载器加裁到数据仓库中。

你可能感兴趣的:(ETL工具的关键技术)