数据库同步到另一个数据库_定时将数据库A中的表同步到另一个数据库

SyncNavigator v8.6.2

SyncNavigator是一款功能强大的数据库同步软件,适用于SQL SERVER, MySQL,具有自动/定时同步数据、无人值守、故障自动恢复、同构/异构数据库同步、断点续传和增量同步等功能,支持Windows xp以上所有操作系统,适用于大容量数据库快速同步。

安装包下载地址:https://www.syncnavigator.cn/Setup.zip

帮助文档地址:https://www.syncnavigator.cn/Help_zh-CN.chm

Web文档地址:https://www.syncnavigator.cn/chm/index.htm

SyncNavigator v8.6.2(数据库同步软件)下载地址SyncNavigator v8.6.2(数据库同步软件)下载地址

在第一部分中,我们研究了大数据的定义以及大数据如何演变为一种现象。 我们还了解了Hadoop为什么已成为事实上的非关系大数据引擎,其主要卖点和局限性。

在本期中,我将通过首先研究大数据技术来继续审查大数据技术。 大规模平行 处理中 (MPP)以及关系型大数据技术如何在其引擎中采用该技术来应对大数据挑战。 我们将继续研究一种混合方法,其中适配器允许使用SQL Server作为示例来聚合大数据技术的关系和非关系集。

我们还将研究趋势,例如当前在Hadoop中本地采用MPP技术的方式及其对Hadoop生态系统的影响。 最后,我们将探索一些基于云的大数据解决方案和一种新兴的数据管理方法,称为 逻辑数据仓库 (LDW)。

 

MPP技术实际上已经存在了数十年,并已在某种程度上被某些数据库系统和超级计算工作所采用。 MPP系统是一种具有管理功能的系统,可将作业和数据分配到由分布在一个或多个服务器上的各种CPU管理的各种磁盘上。 通常,MPP使用某种形式的消息传递接口进行通信,从而在各种处理器之间达成协调一致的努力。

 

使用MPP技术的数据库系统通常带有量身定制的硬件设备,因此被称为设备。 早期的设备主要是针对面向OLAP的企业数据仓库解决方案进行了预优化,因此有时也称为数据仓库设备。 最新一代的设备在设计时就考虑到了大数据解决方案,并且可能被称为大数据仓库设备,但是要使设备成为大数据引擎,它必须首先满足两个主要的大数据技术挑战;

  • 能够扩展以存储PB数据的能力。
  • 运行大规模并行计算的能力。

在其余的讨论中,使用“设备”一词将表示大数据仓库设备i。e。 具有大数据引擎资格的设备。

大数据仓库设备是硬件和软件的组合,其设计能够扩展到多数据仓库中的数据量。PB 范围。 与非关系大数据引擎不同,设备作为服务器,存储,操作系统,数据库管理系统和软件的集成集合而出现,它们专门针对企业和大数据仓库进行了预先安装和预优化。

主要卖点以及电器之所以吸引人的事实是:

  1. 它们相对易于部署和使用
  2. 只需购买其他的即插即用组件,就可以扩展这些组件。
  3. 它们基于SQL,并采用现有的关系模型设计。
  4. 它们是适用于低延迟分析处理的高性能引擎。

第一代MPP主要产品供应商几乎都是纯公司。 除Teradata和ParAccel外,大多数主要的第一代公司已被吸收或已成为某些大型BI供应商的子公司。 其中一些值得注意的收购是IBM收购Netezza,EMC收购Greenplum和HP收购Vertica。 微软对DATAllegro的收购还产生了SQL Server的MPP版本,称为并行数据仓库版(PDW)。

好消息是,这种同化使设备脱颖而出。 通常,设备现在趋向于使用常规硬件以及在某些情况下使用开源软件的,更便宜,高性能,可扩展的虚拟化数据仓库实现。 小型设备供应商试图通过提供特定功能(例如,卓越的性能,内存分析等)来与众不同。

在介绍SQL Server并行数据仓库(PDW)之前,我们先来了解一下为什么设备在最近变得越来越流行。

到目前为止,我们已经研究了两种针对大数据的攻击的大数据解决方案,即非关系(hadoop)和关系(MPP)引擎。 到现在为止应该很明显,这两种技术中的每一种本身在应对本讨论前面概述的大数据挑战方面都有一定的局限性。 让我们回顾一下原因:

  1. 非关系引擎(hadoop)能够处理非结构化数据和大批量处理,但是在涉及一些低实时分析处理时,性能受到限制,而这种低延迟分析处理是一些近实时的预测和粒度分析(例如客户细分,市场篮子和 其他分析。
  2. MPP能够进行这种低延迟的分析处理,并且在许多情况下,作业的运行速度比内存技术推动的以前的数据仓库快200倍。 但是,它们也缺乏处理大型非结构化数据的能力,例如hadoop可以通过MapReduce作业在其HDFS集群上完成。

但是,由于这两个系统的主要优点似乎可以彻底解决整个大数据难题,因此直接的逻辑解决方案是构建连接器和适配器以桥接这两种技术,而这正是Appliance供应商正在做的事情。 这两种技术的结合使用在这里被称为混合方法。 即使没有标准的开放连接协议,供应商还是通过协作或自己的努力为Hadoop建立连接器。 其次,他们还通过提供类似SQL的环境来直接从其设备运行hadoop中的MapReduce作业,从而使这些产品更具吸引力,而无需开发人员学习MapReduce。

在大多数用例中,混合解决方案的早期采用者大多以低成本将大量现有和提取的数据存档在Hadoop上,并通过供应商专有的连接器和适配器将分析所需的数据加载到设备中。 选择性地,他们能够将数据分析推送到专门用于分析的平台上,或将其保留在Hadoop上。

SQL Server并行数据仓库(PDW)设备是HP和Dell提供的横向扩展预构建硬件,具有操作系统,存储,数据库管理系统(DBMS)和软件。 PDW配备了一个名为PolyBase的系统,该系统可为寻求上述混合大数据解决方案的组织提供服务。

PolyBase是一种数据处理系统,支持PDW与Hadoop之间的开放连接,从而允许跨Hadoop和关系数据进行集成查询。 它引入了外部表的概念,其中表架构是驻留在SQL Server数据库上下文中的元数据,并在需要时应用于驻留在HDFS中的实际表数据。

数据移动服务(DMS)是PDW的组成部分,可用于从Hadoop分布式文件系统(HDFS)并行读取和导入数据,以及将PDW查询结果导出到HDFS文件。 PolyBase中的Hadoop Bridge是一个托管接口,使DMS能够直接在HDFS数据节点和PDW计算节点之间进行通信。 借助DMS,最终用户无需学习MapReduce即可对非结构化数据进行高速分析。 除了执行简单的SELECT查询,用户还可以对Hadoop集群中存储的数百万行执行JOIN,GROUP BY等操作。 其次,用户不必先依赖其他流程即可将数据预先加载到仓库中。 据说Polybase能够通过将工作移至Hadoop进行处理,甚至对于仅引用PDW驻留数据的查询,也可以充分利用Hadoop集群的更大计算和I / O功能。

使用Polybase,可以将最低延迟分析所需的数据加载到内存中,以实现高性能。 也可以将以中等程度的频率访问的数据存储在数据仓库中,将不经常访问的数据处理或存储在廉价的Hadoop群集中。

Microsoft为Polybase计划了其他计算功能和扩展,您可以从此处阅读有关PDW和Polybase的更多信息。

即使设备使对Hadoop数据的实时分析成为可能,但Hadoop生态系统本身也从批处理迅速发展为提供实时查询功能,而无需其他系统。 由于其中的一些发展,看来Hadoop的有益用途实际上尚未到来。

我们要研究的一种主要方法是在Hadoop中本地使用MPP技术。 在这种方法中,MPP技术是从头开始直接在Hadoop生态系统中实现的。 这意味着,当这些系统启动并运行时,Hadoop能够通过MapReduce进行大规模数据处理,并且能够使用相同的数据和元数据在同一系统上进行实时交互式查询。 因此,该方法消除了我们上面讨论的混合方法中对设备的需求。 在领导该方法Cloudera的供应商名单中排名第一。

Cloudera声称其开源大规模并行处理(MPP)查询引擎Impala在Apache Hadoop上本地运行,将可扩展的MPP数据库技术直接引入Hadoop。 Impala使用户可以对存储在HDFS和Apache HBase中的数据发出低延迟的实际SQL查询,而无需移动数据。 MapReduce作业可能需要几分钟或几小时才能完成,而基于Impala MPP的查询则可能在毫秒内返回,从而允许内部或外部用户实时查询HDFS或HBase。 由于Impala作为Hadoop生态系统的一部分从头开始集成,因此能够利用MapReduce,Apache Hive,Apache Pig和Hadoop堆栈的其他组件所使用的相同的灵活文件和数据格式,元数据,安全性和资源管理框架。。 即使没有充分记录的用例(可能是因为它只是刚刚发布到生产环境中),但众所周知,许多著名的BI供应商(例如Pentaho,Clickview,Microstrategy和Tableau)目前都在使用Impala

基础架构即服务(IaaS)构成了云中提供的各种基础架构服务,但术语“大数据” IaaS 如此处所用,将指的是为硬件,服务器和网络组件提供PB级可扩展存储和云计算的服务。 大数据IaaS是灵活的按需服务,通常允许客户按使用情况付费,其中一些服务使客户可以按分钟租用计算能力。 通过这种方法,客户无需购买和管理任何大数据基础架构即可预先提交大量的计算功能。 该解决方案似乎对许多客户都有效,因为除了其他无障碍的好处外,提供服务的供应商还紧跟着最好的大数据技术,从而立即向客户提供。 该领域中最受欢迎的领先供应商和服务是Amazon Web Services(AWS)和Microsoft Windows Azure。

亚马逊被公认为该领域的领先供应商,并提供云中最全面的大数据解决方案。 AWS的Elastic MapReduce服务提供了一个围绕Hadoop框架构建的托管,易于使用的分析平台。 它与他们的名为“您的价格”的超级计算系统(称为“ 现货市场 这样一来,客户就可以为多达1000个实例的计算资源选择自己的价格。 例如,它们的弹性计算群集(EC2)Web服务提供了虚拟机和磁盘空间,可以快速分配和释放它们。 AWS还提供按需访问的TB固态存储,除了其他DynamoDB专有的Nosql版本(默认情况下使用此服务)之外,其他Nosql数据存储(例如Cassandra或MongoDB)也可以访问High I / O实例类。

Microsoft通过Windows Azure HDInsight提供了大数据IaaS,这是一项Windows服务,可为Windows Azure提供100%与Apache兼容的Hadoop分发。 必须注意的是,HDInsight使大数据解决方案能够在Windows Server或Linux上本地运行。

还必须注意的是,HDInsight可以与SQL Server一起使用,以使用Scoop从Hadoop导入数据,但这不应与PDW或以上本身可称为大数据解决方案的混合解决方案相混淆。

但是,HDInsight作为Windows Hadoop框架提供了很多功能。 例如,它提供了Hive和用于运行MapReduce作业的抽象。 此处提供了Hadoop本地提供的所有其他功能,以保持与现有Hadoop工具(例如Pig,Hive和Java)的兼容性。 例如,您可以直接在该生态系统中将MapReduce作业作为JAR文件提交,这是您目前尚无法通过PDW Polybase完成的任务。

与当前的混合和基于云的大数据解决方案中的某些概念密切相关的是一种新兴的数据管理方法,该方法已被Gartner首次注意到,被称为逻辑数据仓库(LDW)。 在某些方面被归类为数据虚拟化,它是在大数据,传统数据仓库和其他可用的分布式技术上提供统一数据服务的想法。 采用这种方法的想法是,并非所有数据都需要物理移动,并且任何数据存储库都可以成为LDW的一部分,只要为其定义了透明的逻辑层即可。 这种完全“读取模式”的方法将不需要将预定义的数据模型实现为表。

除了将所有这些联合的物理数据资产视为统一的虚拟DW之外,LDW最终还应该能够通过负载平衡和多个工作负载来最大化吞吐量,无论关系,非关系,NoSQL,结构化,半结构化和非结构化数据是否在逻辑上进行了集成。

当前,已经注意到两种LDW方法。 在第一种方法中,诸如Composite Software和Palantir技术之类的供应商为此提供了专门的数据虚拟化软件和服务。 在第二种方法中,数据库管理系统供应商(例如Teradata,IBM,Oracle和其他公司)引入了 外部表 能力(e。G。 由Polybase在PDW中使用)。 外部表 系统是联合身份验证框架的一种形式,它使他们可以通过在数据上定义逻辑模式来访问数据库中的数据并将其合并到分析中。

众所周知,这两种方法都是有优势的,特别是使用第一种方法的供应商在一些政府机构和金融部门中都有一些成功的用例。 如果思科在收购和分布式技术方面的精明实力可以得到满足,思科最近对复合软件的收购可能表明这种方法有很大的潜力。

尽管LDW和其中一些新的数据管理趋势还处于起步阶段,但新兴技术经常引发新的争论。 我遇到的,似乎令人信服且值得讨论的一个是ETL的未来。 问题是,当这些技术成熟时,是否需要ETL?

LDW和数据库管理的新趋势已经引起了提倡“提取,转换,加载(ETL)”的争论,支持者认为,对于ETL来说,这一结局实际上已经接近尾声。 乍一想,很容易将它们消除,但是如果您了解ETL的本质,则可能会开始更多地思考这个问题。

ETL是一个三阶段的顺序过程E-> T-> L,其转换发生在中间,但还有很多。 这个想法是通过不仅在中间执行转换,而且还通过在提取(源)点和加载(目标)点之间的管道中执行转换来提高性能并减少总体处理时间。 这意味着可以按照该顺序执行提取,转换和加载的所有三个过程,但是如果转换不利用提取和目标之间的流水线,则该过程可能不被视为真正的ETL过程。

如上所述,在成熟的LDW系统中,数据不会物理上移至其他存储库,因此ETL流程中大量的数据转换活动可能会在源头发生。 这就是导致有关ETL工具推送可能消失的争论的原因。 LDW目前处于起步阶段,因此需要深思。 你怎么看?

尽管许多公司都承认有必要利用大数据作为其他方面的宝贵战略资产来提高竞争力,但主要障碍仍然是选择具有适当可扩展性,性能和业务级可靠性的系统的战略决策。

我们已经看到,现有的大数据解决方案并非千篇一律。 这些技术的发展也非常迅速,对于大多数负责大数据实现的人来说,这尤其让人感到困惑,尤其是在广为宣传的最初采用Hadoop的挑战之后。 尽管许多企业感到冷漠,但另一些企业则通过购买云中的所有大数据并让服务提供商担心基础架构以及不断发展的技术和解决方案,摆脱了这种困境。

尽管出现了新的方法,但设备仍在发挥作用,因为它们目前是企业数据仓库的首选,用于支持报告和OLAP需求的结构化数据。 但是,人们普遍认为,Hadoop是高效,经济高效地存储,分析和解释大量非结构化数据的选择。 尽管有Hadoop最初的局限性,但其生态系统已经演变为提供访问协议和其他程序包,以覆盖其最初的大多数局限性。 专家认为,采用的最初犹豫将要改变,这为Hadoop的下一阶段的采用铺平了道路。 许多人认为,这将通过各种技术和设置来实现。 最令人期待的是将MPP技术直接构建到Hadoop中的想法。 到目前为止,很明显,Hadoop生态系统将存在一段时间。 同样清楚的是,这个生态系统将成为由集体智慧驱动的最高级分析的领域。 通过云或内部基础架构,加入的时间越早越好。

最终将如何管理数据的方式仍在继续发展,更多地倾向于“读取模式”和上面讨论的诸如LDW之类的虚拟化系统方法,以及如何实现。 目前,没有任何借口让公司没有开始考虑利用这些方法中的最佳方法来利用您的大数据。

 

你可能感兴趣的:(数据库同步到另一个数据库_定时将数据库A中的表同步到另一个数据库)