先说下本书的网上介绍
本书是数据集成领域的经典著作,由具有数十年从业经验的资深数据集成专家撰写,数据管理专家作序推荐!它为大数据时代的大中型企业管理企业内部大量的、复杂的应用系统之间的数据提供了解决方案,全面而深入地讲解数据集成的工具、方法、技巧、解决方案以及最佳实践。
本书分为四部分,共22章,高屋建瓴地阐述了在大型组织环境中,不同计算机系统之间传输数据,以及将异构数据进行集成所用到的技巧、技术和最佳实践,内容涵盖数据集成导论、批处理数据集成、实时数据集成和大数据集成等。
本书虽然介绍了各种数据集成问题的多种不同类型的技术解决方案,但读者无需具备广阔的技术背景就能理解,适合数据处理相关的项目经理、数据分析师、数据模型设计师、数据库工作者以及数据集成程序员等相关技术人员及数据管理专业学生阅读。
作为大数据开发工程师,上次公司的一个数据质量管理项目就涉及到这些内容,但是我不是太懂,直到遇到了这本书。利用做毕业设计的这段时间,决定多看看书。
本书主要讲的是对于所有的信息技术组织来说,如何有效的管理系统之间的的数据传输是需要面对的主要挑战之一。
因为一般企业计算环境由上百甚至上千离散并不断变化的计算机系统组成,这些系统的数据需要集成到一起,用于报表或分析,当旧系统被设立的新系统取代时,需要从旧系统的格式转换到另一种格式。传统的“点到点”技术已经不能满足需要。
通常,与应用,数据存储以及组织之间传送的数据管理有关的实践活动称为数据集成。
数据集成:data integration---应该是如何合并规整数据,事实上,运动中的数据而不是持久化的静态数据才是重点,
数据接口:指为了实现数据迁移而开发的一个应用
一般情况下,集成数据时最复杂的和最困难的问题就是将数据转换为统一的格式。
在过去,大多数集成项目都只包含数据库中存储的数据,而现在,将数据库中的数据(结构化的)与存储在文档,电子邮件,网站,社交媒体,音频,以及视频文件中的数据进行集成成了当务之急,通常存储于数据库之外的数据称为非结构化的数据unstructured data 对于集成结构化和非结构化的数据,元数据和主数据是非常重要的概念
再来说下数据集成的类型
1.批处理数据集成
当需要将数据以成组的方式从源应用周期性的(比如每天,每周,每月)传输到目标应用时,就需要使用到批处理数据集成技术
发送系统将数据传送到接受系统,这种数据传输方式就是所谓的点到点,批处理的数据集成方式对于需要处理非常巨大的数据量的场合依然是比较合适和高效的
2.实时数据集成
为了完成一个业务处理而需要即时的贯穿多个系统的接口就是所谓的实时接口,这类接口需要以消息的形式传送比较小的数据量,依然是点对点的,任何改变必须在两个系统之间同步实施,
3大数据集成
大数据通常意味着非常大量的数据,也意味着不同技术和类型的数据。大数据集成一般需要将处理过程分布到源数据上进行并行处理,并仅仅对结果进行集成。因为如果预先对数据进行合并会消耗到大量的处理时间和存储空间
集成结构化和非结构化的数据需要在两者之间建立共同的信息联系,这些联系可以表示为数据库中的主数据或键值,以及非结构化的数据中的元数据标签或其他内嵌内容
4.数据虚拟化
数据虚拟化需要使用多种数据集成技术以对多种数据源和技术的数据进行实时整合,而不仅仅是结构化的数据,“数据仓库”作为数据管理的实践之一,一一致的格式将多个不同的操作型系统中的数据复制到一个持久化的数据存储中用以做报表和分析。新兴的内存数据存储技术以及其他虚拟化方法让快速集成成为可能。