无精疯

两万字讲全数据实时同步方案(附代码及架构图)(建议收藏)

一、早期关系型数据库之间的数据同步

二、大数据时代下的数据同步

三、总结

一、早期关系型数据库之间的数据同步

1）、全量同步

比如从oracle数据库中同步一张表的数据到Mysql中，通常的做法就是分页查询源端的表，然后通过 jdbc的batch 方式插入到目标表，这个地方需要注意的是，分页查询时，一定要按照主键id来排序分页，避免重复插入。

2）、基于数据文件导出和导入的全量同步，这种同步方式一般只适用于同种数据库之间的同步，如果是不同的数据库，这种方式可能会存在问题。

3）、基于触发器的增量同步

增量同步一般是做实时的同步，早期很多数据同步都是基于关系型数据库的触发器trigger来做的。

使用触发器实时同步数据的步骤：

A、基于原表创触发器，触发器包含insert，modify，delete 三种类型的操作，数据库的触发器分Before和After两种情况，一种是在insert，modify，delete 三种类型的操作发生之前触发（比如记录日志操作，一般是Before），一种是在insert，modify，delete 三种类型的操作之后触发。

B、创建增量表，增量表中的字段和原表中的字段完全一样，但是需要多一个操作类型字段（分表代表insert，modify，delete 三种类型的操作），并且需要一个唯一自增ID，代表数据原表中数据操作的顺序，这个自增id非常重要，不然数据同步就会错乱。

C、原表中出现insert，modify，delete 三种类型的操作时，通过触发器自动产生增量数据，插入增量表中。

D、处理增量表中的数据，处理时，一定是按照自增id的顺序来处理，这种效率会非常低，没办法做批量操作，不然数据会错乱。有人可能会说，是不是可以把insert操作合并在一起，modify合并在一起，delete操作合并在一起，然后批量处理，我给的答案是不行，因为数据的增删改是有顺序的，合并后，就没有顺序了，同一条数据的增删改顺序一旦错了，那数据同步就肯定错了。

市面上很多数据etl数据交换产品都是基于这种思想来做的。

E、这种思想使用kettle 很容易就可以实现，笔者曾经在自己的博客中写过 kettle的文章，https://www.cnblogs.com/laoqing/p/7360673.html

4）、基于时间戳的增量同步

A、首先我们需要一张临时temp表，用来存取每次读取的待同步的数据，也就是把每次从原表中根据时间戳读取到数据先插入到临时表中，每次在插入前，先清空临时表的数据

B、我们还需要创建一个时间戳配置表，用于存放每次读取的处理完的数据的最后的时间戳。

C、每次从原表中读取数据时，先查询时间戳配置表，然后就知道了查询原表时的开始时间戳。

D、根据时间戳读取到原表的数据，插入到临时表中，然后再将临时表中的数据插入到目标表中。

E、从缓存表中读取出数据的最大时间戳，并且更新到时间戳配置表中。缓存表的作用就是使用sql获取每次读取到的数据的最大的时间戳，当然这些都是完全基于sql语句在kettle中来配置，才需要这样的一张临时表。

二、大数据时代下的数据同步

1）、基于数据库日志(比如mysql的binlog)的同步

我们都知道很多数据库都支持了主从自动同步，尤其是mysql，可以支持多主多从的模式。那么我们是不是可以利用这种思想呢，答案当然是肯定的，mysql的主从同步的过程是这样的。

 A、master将改变记录到二进制日志(binary log)中（这些记录叫做二进制日志事件，binary log events，可以通过show binlog events进行查看）；

 B、slave将master的binary log events拷贝到它的中继日志(relay log)；

 C、slave重做中继日志中的事件，将改变反映它自己的数据。

阿里巴巴开源的canal就完美的使用这种方式，canal 伪装了一个Slave 去喝Master进行同步。

A、 canal模拟mysql slave的交互协议，伪装自己为mysql slave，向mysql master发送dump协议

B、 mysql master收到dump请求，开始推送binary log给slave(也就是canal)

C、 canal解析binary log对象(原始为byte流)

另外canal 在设计时，特别设计了 client-server 模式，交互协议使用 protobuf 3.0 , client 端可采用不同语言实现不同的消费逻辑。

canal java 客户端: https://github.com/alibaba/canal/wiki/ClientExample

canal c# 客户端: https://github.com/dotnetcore/CanalSharp

canal go客户端: https://github.com/CanalClient/canal-go

canal php客户端: https://github.com/xingwenge/canal-php、

github的地址：https://github.com/alibaba/canal/

另外canal 1.1.1版本之后, 默认支持将canal server接收到的binlog数据直接投递到MQ https://github.com/alibaba/canal/wiki/Canal-Kafka-RocketMQ-QuickStart

D、在使用canal时，mysql需要开启binlog，并且binlog-format必须为row，可以在mysql的my.cnf文件中增加如下配置

log-bin=E:/mysql5.5/bin_log/mysql-bin.log

binlog-format=ROW

server-id=123、

E、部署canal的服务端，配置canal.properties文件，然后　启动 bin/startup.sh 或bin/startup.bat

#设置要监听的mysql服务器的地址和端口

canal.instance.master.address = 127.0.0.1:3306

#设置一个可访问mysql的用户名和密码并具有相应的权限，本示例用户名、密码都为canal

canal.instance.dbUsername = canal

canal.instance.dbPassword = canal

#连接的数据库

canal.instance.defaultDatabaseName =test

#订阅实例中所有的数据库和表

canal.instance.filter.regex = .*\\..*

#连接canal的端口

canal.port= 11111

#监听到的数据变更发送的队列

canal.destinations= example

F、客户端开发，在maven中引入canal的依赖


         com.alibaba.otter
          canal.client
          1.0.21

代码示例：

import com.alibaba.otter.canal.client.CanalConnector;
import com.alibaba.otter.canal.client.CanalConnectors;
import com.alibaba.otter.canal.common.utils.AddressUtils;
import com.alibaba.otter.canal.protocol.CanalEntry;
import com.alibaba.otter.canal.protocol.Message;
import com.google.protobuf.InvalidProtocolBufferException;


import java.net.InetSocketAddress;
import java.util.HashMap;
import java.util.List;
import java.util.Map;




public class CanalClientExample {


    public static void main(String[] args) {
        while (true) {
            //连接canal
            CanalConnector connector = CanalConnectors.newSingleConnector(new InetSocketAddress(AddressUtils.getHostIp(), 11111), "example", "canal", "canal");
            connector.connect();
            //订阅 监控的 数据库.表
            connector.subscribe("demo_db.user_tab");
            //一次取10条
            Message msg = connector.getWithoutAck(10);


            long batchId = msg.getId();
            int size = msg.getEntries().size();
            if (batchId < 0 || size == 0) {
                System.out.println("没有消息，休眠5秒");
                try {
                    Thread.sleep(5000);
                } catch (InterruptedException e) {
                    e.printStackTrace();
                }
            } else {
                //
                CanalEntry.RowChange row = null;
                for (CanalEntry.Entry entry : msg.getEntries()) {
                    try {
                        row = CanalEntry.RowChange.parseFrom(entry.getStoreValue());
                        List rowDatasList = row.getRowDatasList();
                        for (CanalEntry.RowData rowdata : rowDatasList) {
                            List afterColumnsList = rowdata.getAfterColumnsList();
                            Map dataMap = transforListToMap(afterColumnsList);
                            if (row.getEventType() == CanalEntry.EventType.INSERT) {
                                //具体业务操作
                                System.out.println(dataMap);
                            } else if (row.getEventType() == CanalEntry.EventType.UPDATE) {
                                //具体业务操作
                                System.out.println(dataMap);
                            } else if (row.getEventType() == CanalEntry.EventType.DELETE) {
                                List beforeColumnsList = rowdata.getBeforeColumnsList();
                                for (CanalEntry.Column column : beforeColumnsList) {
                                    if ("id".equals(column.getName())) {
                                        //具体业务操作
                                        System.out.println("删除的id：" + column.getValue());
                                    }
                                }
                            } else {
                                System.out.println("其他操作类型不做处理");
                            }


                        }


                    } catch (InvalidProtocolBufferException e) {
                        e.printStackTrace();
                    }
                }
                //确认消息
                connector.ack(batchId);
            }




        }
    }


    public static Map transforListToMap(List afterColumnsList) {
        Map map = new HashMap();
        if (afterColumnsList != null && afterColumnsList.size() > 0) {
            for (CanalEntry.Column column : afterColumnsList) {
                map.put(column.getName(), column.getValue());
            }
        }
        return map;
    }




}
}

2）、基于BulkLoad的数据同步，比如从hive同步数据到hbase

我们有两种方式可以实现，

A、使用spark任务，通过HQl读取数据，然后再通过hbase的Api插入到hbase中。

但是这种做法，效率很低，而且大批量的数据同时插入Hbase，对Hbase的性能影响很大。

在大数据量的情况下，使用BulkLoad可以快速导入，BulkLoad主要是借用了hbase的存储设计思想，因为hbase本质是存储在hdfs上的一个文件夹，然后底层是以一个个的Hfile存在的。HFile的形式存在。Hfile的路径格式一般是这样的：

/hbase/data/default(默认是这个，如果hbase的表没有指定命名空间的话，如果指定了，这个就是命名空间的名字)////

B、 BulkLoad实现的原理就是按照HFile格式存储数据到HDFS上，生成Hfile可以使用hadoop的MapReduce来实现。如果不是hive中的数据，比如外部的数据，那么我们可以将外部的数据生成文件，然后上传到hdfs中，组装RowKey，然后将封装后的数据在回写到HDFS上，以HFile的形式存储到HDFS指定的目录中。

当然我们也可以不事先生成hfile，可以使用spark任务直接从hive中读取数据转换成RDD，然后使用HbaseContext的自动生成Hfile文件，部分关键代码如下:

…
//将DataFrame转换bulkload需要的RDD格式
    val rddnew = datahiveDF.rdd.map(row => {
      val rowKey = row.getAs[String](rowKeyField)


      fields.map(field => {
        val fieldValue = row.getAs[String](field)
        (Bytes.toBytes(rowKey), Array((Bytes.toBytes("info"), Bytes.toBytes(field), Bytes.toBytes(fieldValue))))
      })
    }).flatMap(array => {
      (array)
    })
…
//使用HBaseContext的bulkload生成HFile文件
    hbaseContext.bulkLoad[Put](rddnew.map(record => {
      val put = new Put(record._1)
      record._2.foreach((putValue) => put.addColumn(putValue._1, putValue._2, putValue._3))
      put
    }), TableName.valueOf(hBaseTempTable), (t : Put) => putForLoad(t), "/tmp/bulkload")


    val conn = ConnectionFactory.createConnection(hBaseConf)
    val hbTableName = TableName.valueOf(hBaseTempTable.getBytes())
    val regionLocator = new HRegionLocator(hbTableName, classOf[ClusterConnection].cast(conn))
    val realTable = conn.getTable(hbTableName)
    HFileOutputFormat2.configureIncrementalLoad(Job.getInstance(), realTable, regionLocator)


    // bulk load start
    val loader = new LoadIncrementalHFiles(hBaseConf)
    val admin = conn.getAdmin()
    loader.doBulkLoad(new Path("/tmp/bulkload"),admin,realTable,regionLocator)


    sc.stop()
  }
…
  def putForLoad(put: Put): Iterator[(KeyFamilyQualifier, Array[Byte])] = {
    val ret: mutable.MutableList[(KeyFamilyQualifier, Array[Byte])] = mutable.MutableList()
    import scala.collection.JavaConversions._
    for (cells <- put.getFamilyCellMap.entrySet().iterator()) {
      val family = cells.getKey
      for (value <- cells.getValue) {
        val kfq = new KeyFamilyQualifier(CellUtil.cloneRow(value), family, CellUtil.cloneQualifier(value))
        ret.+=((kfq, CellUtil.cloneValue(value)))
      }
    }
    ret.iterator
  }
}


…

C、pg_bulkload的使用

这是一个支持pg库（PostgreSQL）批量导入的插件工具，它的思想也是通过外部文件加载的方式，这个工具笔者没有亲自去用过，详细的介绍可以参考：https://my.oschina.net/u/3317105/blog/852785 pg_bulkload项目的地址：http://pgfoundry.org/projects/pgbulkload/

3）、基于sqoop的全量导入

Sqoop 是hadoop生态中的一个工具，专门用于外部数据导入进入到hdfs中，外部数据导出时，支持很多常见的关系型数据库，也是在大数据中常用的一个数据导出导入的交换工具。

Sqoop从外部导入数据的流程图如下：

Sqoop将hdfs中的数据导出的流程如下：

本质都是用了大数据的数据分布式处理来快速的导入和导出数据。

4）、HBase中建表，然后Hive中建一个外部表，这样当Hive中写入数据后，HBase中也会同时更新，但是需要注意

A、hbase中的空cell在hive中会补null

B、hive和hbase中不匹配的字段会补null

我们可以在hbase的shell 交互模式下，创建一张hbse表

create 'bokeyuan','zhangyongqing'

使用这个命令，我们可以创建一张叫bokeyuan的表，并且里面有一个列族zhangyongqing，hbase创建表时，可以不用指定字段，但是需要指定表名以及列族

我们可以使用的hbase的put命令插入一些数据

put 'bokeyuan','001','zhangyongqing:name','robot'

put 'bokeyuan','001','zhangyongqing:age','20'

put 'bokeyuan','002','zhangyongqing:name','spring'

put 'bokeyuan','002','zhangyongqing:age','18'

可以通过hbase的scan 全表扫描的方式查看我们插入的数据

scan ' bokeyuan'

我们继续创建一张hive外部表

create external table bokeyuan (id int, name string, age int)

STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'

WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,user:name,user:age")

TBLPROPERTIES("hbase.table.name" = " bokeyuan");

外部表创建好了后，我们可以使用HQL语句来查询hive中的数据了

select * from classes;

1 robot 20

2 spring 18

5)、Debezium+bireme：Debezium for PostgreSQL to Kafka Debezium也是一个通过监控数据库的日志变化，通过对行级日志的处理来达到数据同步，而且Debezium 可以通过把数据放入到kafka，这样就可以通过消费kafka的数据来达到数据同步的目的。而且还可以给多个地方进行消费使用。

Debezium是一个开源项目，为捕获数据更改(change data capture,CDC)提供了一个低延迟的流式处理平台。你可以安装并且配置Debezium去监控你的数据库，然后你的应用就可以消费对数据库的每一个行级别(row-level)的更改。只有已提交的更改才是可见的，所以你的应用不用担心事务(transaction)或者更改被回滚(roll back)。Debezium为所有的数据库更改事件提供了一个统一的模型，所以你的应用不用担心每一种数据库管理系统的错综复杂性。另外，由于Debezium用持久化的、有副本备份的日志来记录数据库数据变化的历史，因此，你的应用可以随时停止再重启，而不会错过它停止运行时发生的事件，保证了所有的事件都能被正确地、完全地处理掉。

该项目的GitHub地址为：https://github.com/debezium/debezium 这是一个开源的项目。

本来监控数据库，并且在数据变动的时候获得通知其实一直是一件很复杂的事情。关系型数据库的触发器可以做到，但是只对特定的数据库有效，而且通常只能更新数据库内的状态(无法和外部的进程通信)。一些数据库提供了监控数据变动的API或者框架，但是没有一个标准，每种数据库的实现方式都是不同的，并且需要大量特定的知识和理解特定的代码才能运用。确保以相同的顺序查看和处理所有更改，同时最小化影响数据库仍然非常具有挑战性。

Debezium正好提供了模块为你做这些复杂的工作。一些模块是通用的，并且能够适用多种数据库管理系统，但在功能和性能方面仍有一些限制。另一些模块是为特定的数据库管理系统定制的，所以他们通常可以更多地利用数据库系统本身的特性来提供更多功能，Debezium提供了对MongoDB，mysql，pg，sqlserver的支持。

Debezium是一个捕获数据更改(CDC)平台，并且利用Kafka和Kafka Connect实现了自己的持久性、可靠性和容错性。每一个部署在Kafka Connect分布式的、可扩展的、容错性的服务中的connector监控一个上游数据库服务器，捕获所有的数据库更改，然后记录到一个或者多个Kafka topic(通常一个数据库表对应一个kafka topic)。

Kafka确保所有这些数据更改事件都能够多副本并且总体上有序(Kafka只能保证一个topic的单个分区内有序)，这样，更多的客户端可以独立消费同样的数据更改事件而对上游数据库系统造成的影响降到很小(如果N个应用都直接去监控数据库更改，对数据库的压力为N，而用debezium汇报数据库更改事件到kafka，所有的应用都去消费kafka中的消息，可以把对数据库的压力降到1)。

另外，客户端可以随时停止消费，然后重启，从上次停止消费的地方接着消费。每个客户端可以自行决定他们是否需要exactly-once或者at-least-once消息交付语义保证，并且所有的数据库或者表的更改事件是按照上游数据库发生的顺序被交付的。

对于不需要或者不想要这种容错级别、性能、可扩展性、可靠性的应用，他们可以使用内嵌的Debezium connector引擎来直接在应用内部运行connector。这种应用仍需要消费数据库更改事件，但更希望connector直接传递给它，而不是持久化到Kafka里。

更详细的介绍可以参考：https://www.jianshu.com/p/f86219b1ab98

bireme 的github 地址：

https://github.com/HashDataInc/bireme

bireme 的介绍：

https://github.com/HashDataInc/bireme/blob/master/README_zh-cn.md

另外Maxwell也是可以实现MySQL到Kafka的消息中间件，消息格式采用Json：Download:

https://github.com/zendesk/maxwell/releases/download/v1.22.5/maxwell-1.22.5.tar.gz
Source:
https://github.com/zendesk/maxwell

6)、datax

datax 是阿里开源的etl 工具，实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能，采用java+python进行开发，核心是java语言实现。

github地址：https://github.com/alibaba/DataX

A、设计架构：

数据交换通过DataX进行中转，任何数据源只要和DataX连接上即可以和已实现的任意数据源同步

B、框架

核心模块介绍：

DataX完成单个数据同步的作业，我们称之为Job，DataX接受到一个Job之后，将启动一个进程来完成整个作业同步过程。DataX Job模块是单个作业的中枢管理节点，承担了数据清理、子任务切分(将单一作业计算转化为多个子Task)、TaskGroup管理等功能。
DataXJob启动后，会根据不同的源端切分策略，将Job切分成多个小的Task(子任务)，以便于并发执行。Task便是DataX作业的最小单元，每一个Task都会负责一部分数据的同步工作。
切分多个Task之后，DataX Job会调用Scheduler模块，根据配置的并发数据量，将拆分成的Task重新组合，组装成TaskGroup(任务组)。每一个TaskGroup负责以一定的并发运行完毕分配好的所有Task，默认单个任务组的并发数量为5。
每一个Task都由TaskGroup负责启动，Task启动后，会固定启动Reader—>Channel—>Writer的线程来完成任务同步工作。
DataX作业运行起来之后， Job监控并等待多个TaskGroup模块任务完成，等待所有TaskGroup任务完成后Job成功退出。否则，异常退出，进程退出值非0

DataX调度流程：

举例来说，用户提交了一个DataX作业，并且配置了20个并发，目的是将一个100张分表的mysql数据同步到odps里面。DataX的调度决策思路是：

DataXJob根据分库分表切分成了100个Task。
根据20个并发，DataX计算共需要分配4个TaskGroup。
4个TaskGroup平分切分好的100个Task，每一个TaskGroup负责以5个并发共计运行25个Task。

优势：

每种插件都有自己的数据转换策略，放置数据失真；
提供作业全链路的流量以及数据量运行时监控，包括作业本身状态、数据流量、数据速度、执行进度等。
由于各种原因导致传输报错的脏数据，DataX可以实现精确的过滤、识别、采集、展示，为用户提过多种脏数据处理模式；
精确的速度控制
健壮的容错机制，包括线程内部重试、线程级别重试；

从插件视角看框架

Job:是DataX用来描述从一个源头到目的的同步作业，是DataX数据同步的最小业务单元；
Task：为最大化而把Job拆分得到最小的执行单元，进行并发执行；
TaskGroup：一组Task集合，在同一个TaskGroupContainer执行下的Task集合称为TaskGroup；
JobContainer：Job执行器，负责Job全局拆分、调度、前置语句和后置语句等工作的工作单元。类似Yarn中的JobTracker；
TaskGroupContainer：TaskGroup执行器，负责执行一组Task的工作单元，类似Yarn中的TAskTacker。

总之，Job拆分为Task，分别在框架提供的容器中执行，插件只需要实现Job和Task两部分逻辑。

物理执行有三种运行模式：

Standalone：单进程运行，没有外部依赖；
Local：单进程运行，统计信息，错误信息汇报到集中存储；
Distrubuted：分布式多线程运行，依赖DataX Service服务；

总体来说，当JobContainer和TaskGroupContainer运行在同一个进程内的时候就是单机模式，在不同进程执行就是分布式模式。

如果需要开发插件，可以看zhege这个插件开发指南： https://github.com/alibaba/DataX/blob/master/dataxPluginDev.md

数据源支持情况：

类型	数据源	Reader(读)	Writer(写)	文档
RDBMS 关系型数据库	MySQL	√	√	读、写
	Oracle	√	√	读、写
	SQLServer	√	√	读、写
	PostgreSQL	√	√	读、写
	DRDS	√	√	读、写
	通用RDBMS(支持所有关系型数据库)	√	√	读、写
阿里云数仓数据存储	ODPS	√	√	读、写
	ADS		√	写
	OSS	√	√	读、写
	OCS	√	√	读、写
NoSQL数据存储	OTS	√	√	读、写
	Hbase0.94	√	√	读、写
	Hbase1.1	√	√	读、写
	Phoenix4.x	√	√	读、写
	Phoenix5.x	√	√	读、写
	MongoDB	√	√	读、写
	Hive	√	√	读、写
无结构化数据存储	TxtFile	√	√	读、写
	FTP	√	√	读、写
	HDFS	√	√	读、写
	Elasticsearch		√	写
时间序列数据库	OpenTSDB	√		读
	TSDB		√	写

7)、OGG

OGG 一般主要用于Oracle数据库。即Oracle GoldenGate是Oracle的同步工具，可以实现两个Oracle数据库之间的数据的同步，也可以实现Oracle数据同步到Kafka，相关的配置操作可以参考如下：

https://blog.csdn.net/dkl12/article/details/80447154

https://www.jianshu.com/p/446ed2f267fa

http://blog.itpub.net/15412087/viewspace-2154644/

8)、databus

Databus是一个实时的、可靠的、支持事务的、保持一致性的数据变更抓取系统。2011年在LinkedIn正式进入生产系统，2013年开源。

Databus通过挖掘数据库日志的方式，将数据库变更实时、可靠的从数据库拉取出来，业务可以通过定制化client实时获取变更。

Databus的传输层端到端延迟是微秒级的，每台服务器每秒可以处理数千次数据吞吐变更事件，同时还支持无限回溯能力和丰富的变更订阅功能。

github：https://github.com/linkedin/databus

databus架构设计：

来源独立：Databus支持多种数据来源的变更抓取，包括Oracle和MySQL。
可扩展、高度可用：Databus能扩展到支持数千消费者和事务数据来源，同时保持高度可用性。
事务按序提交：Databus能保持来源数据库中的事务完整性，并按照事务分组和来源的提交顺寻交付变更事件。
低延迟、支持多种订阅机制：数据源变更完成后，Databus能在微秒级内将事务提交给消费者。同时，消费者使用Databus中的服务器端过滤功能，可以只获取自己需要的特定数据。
无限回溯：这是Databus最具创新性的组件之一，对消费者支持无限回溯能力。当消费者需要产生数据的完整拷贝时（比如新的搜索索引），它不会对数据库产生任何额外负担，就可以达成目的。当消费者的数据大大落后于来源数据库时，也可以使用该功能。
- Databus Bootstrap Producer的功能有：
- Databus客户端的功能主要包括：
- Databus Relay中继的功能主要包括：

检查中继上的新数据变更事件
将变更存储在MySQL数据库中
MySQL数据库供Bootstrap和客户端使用

检查Relay上新的数据变更事件，并执行特定业务逻辑的回调
如果落后Relay太多，向Bootstrap Server发起查询
新Databus客户端会向Bootstrap Server发起bootstrap启动查询，然后切换到向中继发起查询，以完成最新的数据变更事件
单一客户端可以处理整个Databus数据流，或者可以成为消费者集群的一部分，其中每个消费者只处理一部分流数据

从Databus来源读取变更行，并在内存缓存内将其序列化为Databus变更事件
监听来自Databus客户端（包括Bootstrap Producer）的请求，并传输新的Databus数据变更事件

Databus Bootstrap Server的主要功能，监听来自Databus客户端的请求，并返回长期回溯数据变更事件。
更多可以参考 databus社区wiki主页：https://github.com/linkedin/Databus/wiki
Databus和canal的功能对比：

对比项		Databus	canal	结论
支持的数据库		mysql, oracle	mysql(据说内部版本支持oracle)	Databus目前支持的数据源更多
业务开发		业务只需要实现事件处理接口	事件处理外，需要处理ack/rollback，反序列化异常等	Databus开发接口用户友好度更高
服务模型	relay	relay可以同时服务多个client	一个server instance只能服务一个client （受限于server端保存拉取位点）	Databus服务模式更灵活
	client	client可以拉取多个relay的变更，访问的relay可以指定拉取某些表某些分片的变更	client只能从一个server拉取变更，而且只能是拉取全量的变更	Databus服务模式更灵活
可扩展性		client可以线性扩展，处理能力也能线性扩展（Databus可识别pk，自动做数据分片）	client无法扩展	Databus扩展性更好
可用性	client ha	client支持cluster模式，每个client处理一部分数据，某个client挂掉，其他client自动接管对应分片数据	主备client模式，主client消费，如果主client挂掉，备client可自动接管	Databus实时热备方案更成熟
	relay/server ha	多个relay可连接到同一个数据库， client可以配置多个relay，relay故障启动切换	主备relay模式，relay通过zk进行failover	canal主备模式对数据库影响更小
	故障对上游数据库的影响	client故障，bootstrap会继续拉取变更， client恢复后直接从bootstrap拉取历史变更	client故障会阻塞server拉取变更， client恢复会导致server瞬时从数据库拉取大量变更	Databus本身的故障对数据库影响几乎为0
系统状态监控		程序通过http接口将运行状态暴露给外部	暂无	Databus程序可监控性更好
开发语言		java，核心代码16w，测试代码6w	java，4.2w核心代码，6k测试代码	Databus项目更成熟，当然学习成本也更大

9)、gobblin

Gobblin是用来整合各种数据源的通用型ETL框架，在某种意义上，各种数据都可以在这里“一站式”的解决ETL整个过程，专为大数据采集而生，易于操作和监控，提供流式抽取支持。主要用于Kafka的数据同步到HDFS。

该框架来源于kafka的东家LinkedIn。大体的架构如下：

Gobblin的功能真的是非常的全。底层支持三种部署方式，分别是standalone，mapreduce，mapreduce on yarn。可以方便快捷的与Hadoop进行集成，上层有运行时任务调度和状态管理层，可以与Oozie，Azkaban进行整合，同时也支持使用Quartz来调度（standalone模式默认使用Quartz进行调度）。对于失败的任务还拥有多种级别的重试机制，可以充分满足我们的需求。再上层呢就是由6大组件组成的执行单元了。这6大组件的设计也正是Gobblin高度可扩展的原因。

Gobblin组件

Gobblin提供了6个不同的组件接口，因此易于扩展并进行定制化开发。分别是：

source
extractor
convertor
quality checker
writer
publisher

Source主要负责将源数据整合到一系列workunits中，并指出对应的extractor是什么。这有点类似于Hadoop的InputFormat。

Extractor则通过workunit指定数据源的信息，例如kafka，指出topic中每个partition的起始offset，用于本次抽取使用。Gobblin使用了watermark的概念，记录每次抽取的数据的起始位置信息。

Converter顾名思义是转换器的意思，即对抽取的数据进行一些过滤、转换操作，例如将byte arrays 或者JSON格式的数据转换为需要输出的格式。转换操作也可以将一条数据映射成0条或多条数据（类似于flatmap操作）。

Quality Checker即质量检测器，有2中类型的checker：record-level和task-level的策略。通过手动策略或可选的策略，将被check的数据输出到外部文件或者给出warning。

Writer就是把导出的数据写出，但是这里并不是直接写出到output file，而是写到一个缓冲路径（ staging directory）中。当所有的数据被写完后，才写到输出路径以便被publisher发布。Sink的路径可以包括HDFS或者kafka或者S3中，而格式可以是Avro,Parquet,或者CSV格式。同时Writer也可是根据时间戳，将输出的文件输出到按照“小时”或者“天”命名的目录中。

Publisher就是根据writer写出的路径，将数据输出到最终的路径。同时其提供2种提交机制：完全提交和部分提交；如果是完全提交，则需要等到task成功后才pub，如果是部分提交模式，则当task失败时，有部分在staging directory的数据已经被pub到输出路径了。

Gobblin执行流程

Job被创建后，Runtime就根据Job的部署方式进行执行。Runtime负责job/task的定时执行，状态管理，错误处理以及失败重试，监控和报告等工作。Gobblin存在分支的概念，从数据源获取的数据由不同的分支进行处理。每个分支都可以有自己的Converter，Quality Checker，Writer和Publisher。因此各个分支可以按不同的结构发布到不同的目标地址。单个分支任务失败不会影响其他分支。同时每一次Job的执行都会将结果持久化到文件（ SequenceFiles）中，以便下一次执行时可以读到上次执行的位置信息（例如offset），本次执行可以从上次offset开始执行本次Job。状态的存储会被定期清理，以免出现存储无限增长的情况。

Gobblin详情参考：http://www.imooc.com/article/78811

github源码：https://github.com/apache/incubator-gobblin

10)、MongoShake

MongoShake是阿里巴巴Nosql团队开源出来的一个项目，主要用于mongdb的数据同步到kafka或者其他的mongdb数据库中，MongoShake是一个以golang语言进行编写的通用的平台型服务，通过读取MongoDB集群的Oplog操作日志，对MongoDB的数据进行复制，后续通过操作日志实现特定需求。日志可以提供很多场景化的应用，为此，我们在设计时就考虑了把MongoShake做成通用的平台型服务。通过操作日志，我们提供日志数据订阅消费PUB/SUB功能，可通过SDK、Kafka、MetaQ等方式灵活对接以适应不同场景(如日志订阅、数据中心同步、Cache异步淘汰等)。集群数据同步是其中核心应用场景，通过抓取oplog后进行回放达到同步目的，实现灾备和多活的业务场景。

整体的架构图如下：

应用场景举例

1. MongoDB集群间数据的异步复制，免去业务双写开销。

2. MongoDB集群间数据的镜像备份（当前1.0开源版本支持受限）

3. 日志离线分析

4. 日志订阅

5. 数据路由。根据业务需求，结合日志订阅和过滤机制，可以获取关注的数据，达到数据路由的功能。

6. Cache同步。日志分析的结果，知道哪些Cache可以被淘汰，哪些Cache可以进行预加载，反向推动Cache的更新。

7. 基于日志的集群监控

功能介绍

MongoShake从源库抓取oplog数据，然后发送到各个不同的tunnel通道。源库支持：ReplicaSet，Sharding，Mongod，目的库支持：Mongos，Mongod。现有通道类型有：

1. Direct：直接写入目的MongoDB

2. RPC：通过net/rpc方式连接

3. TCP：通过tcp方式连接

4. File：通过文件方式对接

5. Kafka：通过Kafka方式对接

6. Mock：用于测试，不写入tunnel，抛弃所有数据

数据同步的架构如下图所示

更多详细介绍可以参考官方提供的中文介绍文档：https://yq.aliyun.com/articles/603329

三、总结：

1、databus活跃度不高，datax和canal 相对比较活跃。

2、datax 一般比较适合于全量数据同步，对全量数据同步效率很高（任务可以拆分，并发同步，所以效率高），对于增量数据同步支持的不太好（可以依靠时间戳+定时调度来实现，但是不能做到实时，延迟较大）。

3、canal 、databus 等由于是通过日志抓取的方式进行同步，所以对增量同步支持的比较好。

4、以上这些工具都缺少一个监控和任务配置调度管理的平台来进行支撑。

原文：

https://www.cnblogs.com/laoqing/p/11359224.html?from=timeline&isappinstalled=0

整理：大数据肌肉猿

--end--


扫描下方二维码

添加好友，备注【交流群】
拉你到学习路线和资源丰富的交流群

你可能感兴趣的:(两万字讲全数据实时同步方案(附代码及架构图)(建议收藏))

超简单|Python实现机器学习算法——KNN birdcome python 机器学习 KNN算法
超简单|Python实现机器学习算法——KNNKNN算法简介算法实现步骤如何用python实现KNN算法Scikit-learn算法库实现KNN分类器Sklearn建模流程KNN算法简介KNN算法（k近邻算法）是一种有监督分类算法，它的原理非常简单，下面以一个简单的例子引入。已知两种酒的标签：赤霞珠和黑皮诺，在这个情景中，我们对酒进行分类的依据是酒精浓度和颜色深度，如下图所示：红色代表赤霞珠，紫色
Java21 正则表达式空灵宫（Ethereal Palace） Java 正则表达式
在Java21中，正则表达式主要通过java.util.regex包提供支持，其核心组件包括Pattern、Matcher和String类中自带的方法（如replaceAll和matches）。以下是关于正则表达式在Java21中的详细介绍及一些新的特性或用法。核心组件1.Pattern类Pattern是正则表达式的编译表示形式。使用Pattern.compile(Stringregex)编译正则
三款顶级开源RAG (检索增强生成)工具：Verba、Unstructured 和 Neum XianxinMao 人工智能自然语言处理 RAG
三款顶级开源RAG(检索增强生成)工具：Verba、Unstructured和Neum概述随着企业对话式数据处理需求的提升，面临的挑战是数据隐私性和缺乏企业级解决方案。虽然类似LangChain能在短时间内构建RAG应用，但忽视了文档解析、多来源数据ETL、批量处理、访问控制等问题。此文评估了三款开源RAG工具的潜力，专为生产环境设计。Verba：理想的RAG选择Weaviate提供的Verba项
Java数据结构-栈万派瑞尔 java 数据结构开发语言
目录1.栈的概念2.栈的实现2.1顺序栈2.2链式栈3.栈的应用3.1栈的使用3.2括号匹配3.3逆波兰表达式求值3.4出栈入栈次序匹配3.4最小栈1.栈的概念栈是一种顺序结构，只允许在一端进行插入和删除，插入删除的一端叫栈顶，另一端叫栈底。栈是一种先进后出（后进先出）的数据结构。插入数据的操作叫入栈，删除数据的操作叫出栈。2.栈的实现栈的实现有两种，一种是顺序栈，底层是数组；另一种是链式栈，是用
Qt制作一个ListView列表 Qt开发老杰 qt 开发语言
一、概述案例：使用Qt制作一个ListView。点击ListView的Item可以用于测试OpenCV的各种效果自定义一个：MainListView继承QListWidget、MainListViewItem继承QListWidgetItem二、代码示例1.自定义QListWidgetmainlistview.hclassMainListView:publicQListWidget{Q_OBJEC
（上接“飞翔的小鸟”）cursor.h头文件 S12800 游戏
对不起各位，我之前发布了一篇文章，叫《飞翔的小鸟》，里面有个叫“cursor.h"的自制头文件，现把头文件奉上，各种用法都写得很清楚，大家也可以平时拿来用，不过要记得，把他和用他的文件放在同一个文件夹里！！！废话不说，上代码：#include#include#include#include#include#defineKEY_DOWN(VK_NONAME)((GetAsyncKeyState(VK
如何在Mac上使用Brew更新Cursor应用程序熊明才 macos
在这篇博文中，我们将介绍如何在Mac上更新Cursor应用程序，以及一些相关的使用技巧和功能。什么是Cursor？Cursor是一款强大的工具，旨在帮助用户更好地编写、编辑和讨论代码。它结合了AI技术，使得编程过程更加高效和便捷。Cursor不仅支持代码编辑，还可以与团队成员进行实时协作。如何安装Cursor如果你还没有安装Cursor，可以通过以下步骤进行安装：使用Homebrew安装：如果你已
Java--正则表达式入门指南 Bro_cat Java java 正则表达式开发语言
正则表达式（RegularExpression）是一种用于匹配字符串中字符模式的工具。在Java中，正则表达式的使用主要依赖于java.util.regex包，其中最重要的两个类是Pattern和Matcher。今天将探讨正则表达式的基础概念、书写规则、常用方法，以及在Java中如何有效使用它们。一、正则表达式的基本语法正则表达式中有两种主要的界定字符：方括号[]：用于定义字符集。方括号中的任意单
Swift语言的语法糖 java熊猫包罗万象 golang 开发语言后端
Swift语言的语法糖引言在软件开发中，程序员经常会面临语法的复杂性与代码的可读性之间的权衡。Swift语言作为一种现代编程语言，注重于简洁性和高效性，提供了多种语法糖，使得代码既简洁又易于理解。本文将深入探讨Swift语言中的语法糖，及其对提高程序员生产力的重要意义。1.什么是语法糖在编程语言中，"语法糖"指的是一些语法特性，它们使得代码更加易读和易写，但并不提供新的功能。换句话说，语法糖仅仅是
Haskell语言的语法糖代码驿站520 包罗万象 golang 开发语言后端
Haskell语言的语法糖随着编程语言的多样化和发展，函数式编程逐渐受到越来越多开发者的青睐。在众多函数式编程语言中，Haskell以其纯粹的函数式特性和强大的类型系统闻名。其中，Haskell的语法糖（SyntacticSugar）这一概念，进一步增强了其表达能力和易用性，使得程序员编写代码变得更加优雅和简便。什么是语法糖？在程序设计中，语法糖指的是一种编程语言的语法特性，它并不增加语言的表达能
[Mac + Icarus Verilog + gtkwave] Mac运行Verilog及查看波形图 Xminyang Mac VerilogHDL macos verilog
目录1.MAC安装环境1.1IcarusVerilog编译1.2gtkwave查看波形2.安装遇到的问题2.1macOScannotverifythatthisappisfreefrommalware2.2gtkwave-binisnotcompatiblewithmacOS14orlater3.运行示例3.1源代码3.2编译Verilog3.3生成.vcd文件3.3查看波形3.4脚本运行参考1.
附原文 |《2024年漏洞与威胁趋势报告》深度解读漏洞
在信息技术飞速发展的当下，网络安全已然成为全球瞩目的焦点。安全极客社区精心译制的《2024年漏洞与威胁趋势报告》明确指出，2023年堪称网络安全领域的重要分水岭。这一年，新发现漏洞的数量出现了前所未有的增长态势，其中高危或严重级别的漏洞占比高达一半，漏洞利用的时间线显著缩短，然而平均修复时间却过长。金融服务、制造业以及公用事业等行业面临的网络威胁愈发严峻，首席信息安全官所承担的法律责任也日益加重。
智算中心建设热潮涌动 AI服务器赋能加速数据中心
在数字化浪潮汹涌的今天，人工智能新技术新发展日新月异。智算作为数字经济时代的新生产力，正逐步成为推动经济社会高质量发展的新引擎。智算中心：算力时代的“新基建”近年来，随着人工智能技术的迅猛发展和广泛应用，智能算力需求持续爆发，推动了智算中心的快速发展。2022年，随着国家“东数西算”工程启动，我国算力地图正式开始，形成八大枢纽、十大算力中心集群。据中国电信研究院发布的《智算产业发展研究报告（202
ACL 2024 | 美团技术团队精选论文解读美团算法人工智能
本文精选了美团技术团队被ACL2024收录的4篇论文进行解读，论文内容覆盖了训练成本优化、投机解码、代码生成优化、指令微调（IFT）等技术领域。这些论文是美团技术团队跟高校、科研机构合作的成果。希望能给从事相关研究工作的同学带来一些帮助或启发。ACL是计算语言学和自然语言处理领域最重要的顶级国际会议，由国际计算语言学协会组织，每年举办一次。据谷歌学术计算语言学刊物指标显示，ACL影响力位列第一，是
星环科技×恒生电子，联合打造反洗钱解决方案人工智能
随着反洗钱行为更具隐蔽性、多样性和跨区域性，金融机构的反洗钱能力也相应面临新一轮升级。将大数据技术应用于反洗钱领域，可借助大数据平台高效整合、分析海量客户身份信息和交易数据，保障反洗钱系统有效开展客户风险等级评定、可疑交易筛查、黑名单监测等工作，为反洗钱工作赋能。近日，星环科技与恒生电子联合发布反洗钱解决方案，系统覆盖金融机构全业务全客户全流程，满足客户尽调、大额可疑交易检测、名单筛查、自评估等各
pod更新慢的问题风雨「83」 iOS ios objective-c swift xcode
最近使用CocoaPods来添加第三方类库，无论是执行podinstall还是podupdate都卡在了Analyzingdependencies不动原因在于当执行以上两个命令的时候会升级CocoaPods的spec仓库，加一个参数可以省略这一步，然后速度就会提升不少。加参数的命令如下：podinstall--verbose--no-repo-updatepodupdate--verbose--n
python学习笔记浅夏入秋^_^ Python 编程语言 python 学习开发语言
python学习笔记第1-3章基础知识https://www.jetbrains.com/help/pycharm/小技巧：如果在编辑器中未选择任何内容，按⌘C可将文本光标处的整行复制到剪贴板。按两次⌃Space可调用代码补全功能的特殊变体，这样您可以从没有在当前文件中声明的命名空间补全XML标记名称。如果命名空间尚未声明，则会自动生成声明。使用代码|检查代码可对整个项目或自定义范围运行代码分析，
浅谈云计算06 | 云管理系统架构时光札记z 云计算系统架构云计算架构云原生计算机网络
云管理系统架构一、云管理系统架构（一）远程管理系统（二）资源管理系统（三）SLA管理系统（四）计费管理系统二、安全与可靠性保障（一）数据安全防线（二）故障应对策略云管理系统是一种综合性的软件平台，用于对云计算环境中的各类资源、服务和业务流程进行集中化、自动化的管理与监控。它就像是云计算的“智能管家”，整合了多种功能模块，能够跨越不同的物理和虚拟资源，为云服务提供商及用户提供统一的管理界面与操作入口
浅谈云计算08 | 基本云架构时光札记z 云计算云计算架构云原生
浅谈基本云架构一、负载分布架构二、资源池架构三、动态可扩展架构四、弹性资源容量架构五、服务负载均衡架构六、云爆发架构七、弹性磁盘供给架构八、冗余存储架构在当今数字化时代，云计算已成为企业发展的核心驱动力，而其背后的一系列关键架构则是支撑云计算高效稳定运行的基石。从负载分布到资源池构建，从动态扩展到服务负载均衡等架构，它们各自承担独特功能且紧密协作，在保障系统性能、可靠性、资源优化及数据安全等方面发
IEEE 常用期刊会议全称及缩写（自用） XueZheng@gdut 科研方法科研 IEEE 会议期刊缩写
期刊缩写IEEECommunicationsLettersIEEECommun.Lett.IEEECommunicationsSurveysandTutorialsIEEECommun.Surv.TutorialsIEEEIntelligentTransportationSystemsMagazineIEEEIntell.Transp.Syst.Mag.IEEEInternetofThingsJo
Python怎么开发Unity Jacob Piao unity c#游戏引擎开发语言
你可以使用Python来开发Unity游戏引擎的脚本。要在Unity中使用Python，你需要安装一个能够将Python代码转换为可以在Unity中运行的C#代码的工具。有几种方法可以实现这一点：使用IronPython：IronPython是一个基于.NET的Python实现，它可以在Unity中直接运行Python代码。使用PyUnity：PyUnity是一个能够将Python代码转换为Uni
华为OD机试2024年E卷-最长连续交替方波信号[200分]（ Java | Python3 | C++ | C语言 | JsNode | Go）实现100%通过率梅花C 华为OD题库华为od
题目描述输入一串方波信号，求取最长的完全连续交替方波信号，并将其输出，如果有相同长度的交替方波信号，输出任一即可，方波信号高位用1标识，低位用0标识如图：说明：一个完整的信号一定以0开始然后以0结尾，即010是一个完整的信号，但101，1010，0101不是输入的一串方波信号是由一个或多个完整信号组成两个相邻信号之间可能有0个或多个低位，如0110010，011000010同一个信号中可以有连续的
项目变更的范围包括哪些方面项目管理项目变更项目管理工具
项目管理中的变更是指对原有计划、设计或执行方案的修改，它通常发生在项目执行过程中，且必须进行控制和记录。项目变更的范围主要包括需求变更、进度变更、资源变更、预算变更和质量标准变更，这些变更会直接影响项目的目标、时间、成本以及团队的执行策略。在实际操作中，项目变更不仅仅是表面上的调整，更是项目成功与否的重要决定因素。一、需求变更需求变更是项目管理中最常见的变动之一，尤其是在研发项目中，需求不断变化可
超越 RAG：Memobase 为 AI 应用注入长期记忆丨社区来稿人工智能
本文由RTE开发者社区成员通过社区网站投稿提供，如果你也有与实时互动（Real-TimeEngagement，RTE）相关的项目分享，欢迎访问网站rtecommunity.dev发布，优秀项目将会在公众号发布分享。目录什么是AI记忆？AI记忆的类型短记忆vs.长记忆UserMemoryvs.AgentMemory：两种记忆，两种侧重记忆vs.RAG：到底有什么区别？为什么AI应用需要记忆？现在的长
java进度条动画_Android自定义控件之圆形进度条动画高尚雅 java进度条动画
本文实例为大家分享了Android实现圆形进度条动画的具体代码，供大家参考，具体内容如下首先贴上图片：额，感觉还行吧，就是进度条的颜色丑了点，不过咱是程序员，不是美工，配色这种问题当然不在考虑范围之内了。下面说重点，如何来写一个这样的自定义控件。首先，需要有一个灰色的底图，来作为未填充时的进度条；然后，根据传入的当前进度值，绘制填充时的进度圆弧，这段圆弧所对应的圆心角，由当前进度与进度的最大值(一
android自定义圆形控件,Android自定义控件之圆形/圆角的实现代码研究生欧阳同学呀 android自定义圆形控件
一、问题在哪里？问题来源于app开发中一个很常见的场景——用户头像要展示成圆的：二、怎么搞？机智的我，第一想法就是，切一张中间圆形透明、四周与底色相同、尺寸与头像相同的蒙板图片，盖在头像上不就完事了嘛，哈哈哈！在背景纯色的前提下，这的确能简单解决问题，但是如果背景没有这么简单呢？在这种不规则背景下，有两个问题：1)、背景图常常是适应手机宽度缩放，而头像的尺寸又是固定宽高DP的，所以固定的蒙板图片是
TCP_NODELAY选项可以禁止Nagle 算法 sun007700 网络 tcp/ip 网络协议网络
(595条消息)TCP_NODELAY以及黏包问题_思月行云的博客-CSDN博客_tcp_nodelay在socket网络程序中，TCP和UDP分别是面向连接和非面向连接的。因此TCP的socket编程，收发两端（客户端和服务器端）都要有成对的socket，因此，发送端为了将多个发往接收端的包，更有效的发到对方，使用了优化方法（Nagle算法），将多次间隔较小、数据量小的数据，合并成一个大的数据块
Python字符串常用操作 Taichi呀 python python 开发语言
Python字符串常用操作一、字符串的切片1.1、通过下标及下标范围取值my_str='myNameIsTaichi'value1=my_str[2]#正向Nvalue2=my_str[-5]#反向从-1开始a字符串分割，语法：string[end:step]start：头下标，以0开始end：尾下表，以-1开始step步长str="abc-123-如果我是DJ你会爱我吗.mp4"print(st
掌握 React 高阶组件与高阶函数：构建可复用组件的新境界风茫 React react.js javascript
一、引言在React开发中，代码复用性和逻辑分离是提高开发效率和维护性的重要手段。高阶组件（Higher-OrderComponent,HOC）和高阶函数（Higher-OrderFunction,HOF）是实现这一目标的两种强大工具。本文将详细介绍这两种技术的概念、应用场景及其实现方式，并通过具体示例帮助你更好地理解和应用它们。二、高阶函数（HOF）1.概念高阶函数是指以函数作为参数或返回值的函
C语言为何不会过时？你需要掌握多少种语言？明天会比今天更好 C语言 C/C++编程语言 IT行业
01为什么C语言不会过时评价任何一门编程语言，都是招人骂的。永远是这样。就像是春寒料峭的季节，街上穿棉袄和穿单衣的擦肩而过，双方一定是同时在心里出现了两个字：“傻逼!”这个在心理学上有个专业的名字：叫做“二逼”现象!那我为啥还要做这个挨骂的事呢?作为《C语言点滴》《dropofknowledgeofC++》书籍的作者，《C语言新思维，第二版》的译者。我觉得我有责任系统的介绍一下这本语言，他的特点，
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">