基咯咯

【转】记一次 ClickHouse 数据迁移

转载地址：https://zhuanlan.zhihu.com/p/220172155

背景

大约在 2018 年 8 月份开始正式接触 ClickHouse，当时机房没有合适的服务器，就在 Azure 开了一台虚拟机来部署。平稳运行了两年，支撑了 YiDrone 和 YiSonar 两个重要的产品的底层数据存储和查询。前段时间采购服务器的时候预留了一些资源，加上 Azure 的免费订阅即将到期，于是准备把 ClickHouse 迁回到机房。数据量不大，只有一个节点，硬盘上的数据加起来 500G 左右。

方案调研

迁移集群实际上就是要把所有数据库（system 除外）的表结构和数据完整的复制一遍。ClickHouse 官方和社区有一些现成的解决方案，也可以自己实现。

拷贝数据目录

先观察一下 ClickHouse 在文件系统上的目录结构（配置文件 /ect/clickhouse-server/config.xml 里面配置的），为了便于查看，只保留了 data 和 metadata 目录。

.
├── data
│   ├── default
│   ├── system
│   │   ├── asynchronous_metric_log
│   │   ├── metric_log
│   │   ├── query_log
│   │   ├── query_thread_log
│   │   └── trace_log
├── metadata
│   ├── default
│   │   └── v_table_size.sql
│   ├── default.sql
│   ├── system
│   │   ├── asynchronous_metric_log.sql
│   │   ├── metric_log.sql
│   │   ├── query_log.sql
│   │   ├── query_thread_log.sql
│   │   └── trace_log.sql

data 目录里保存的是数据，每个数据库一个目录，内部每个表一个子目录。

metadata 目录里保存的是元数据，即数据库和表结构。其中

.sql 是创建数据库的 DDL（ATTACH DATABASE default ENGINE = Ordinary）

/.sql 是建表的 DDL (ATTACH TABLE ...).
    这里的 DDL 使用的是  ATTACH 语句， 进入文档 查看 ATTACH 的作用及跟 CREATE 的区别 
  
基于这个信息，直接把 data 和 metadata 目录（要排除 system）复制到新集群，即可实现数据迁移。用一个小表做测试，验证可行。
操作流程
 
   在源集群的硬盘上打包好对应数据库或表的 data 和 metadata 数据 
   拷贝到目标集群对应的目录 
   重启 clickhouse-server 
  
使用 remote 表函数
ClickHouse 除了查询常规的表，还能使用表函数来构建一些特殊的「表」，其中 remote 函数 可用于查询另一个 ClickHouse 的表。
使用方式很简单:
SELECT * FROM remote('addresses_expr', db, table, 'user', 'password') LIMIT 10;
因此，可以借助这个功能实现数据迁移：
INSERT INTO .
SELECT * FROM remote('remote_clickhouse_addr', , , '', '')
操作流程
 
   在源集群的 system.tables 表查询出数据库、表、DDL、分区、表引擎等信息 
   在目标集群上，运行 DDL 创建表，然后运行上述迁移语句复制数据 
   遍历所有表，执行 2 
  
使用 clickhouse-copier
Clickhouse-copier 是 ClickHouse 官方提供的一款数据迁移工具，可用于把表从一个集群迁移到另一个（也可以是同一个）集群。Clickhouse-copier 使用 Zookeeper 来管理同步任务，可以同时运行多个 clickhouse-copier 实例。
使用方式:
clickhouse-copier --daemon --config zookeeper.xml --task-path /task/path --base-dir /path/to/dir
其中 --config zookeeper.xml 是 Zookeeper 的连接信息，--task-path /task/path 是 Zookeeper 里任务配置的节点路径。在使用时，需要先定义一个 XML 格式的任务配置文件，上传到 /task/path/description 里。同步任务是表级别的，可以配置的内容还比较多。Clickhouse-copier 可以监听 /task/path/description 的变化，动态加载新的配置而不需要重启。
操作流程
 
   创建 zookeeper.xml 
   创建任务配置文件，格式见官方文档，每个表都要配置（可使用代码自动生成） 
   把配置文件内容上传到 Zookeeper 
   启动 clickhouse-copier 进程 
  
理论上 clickhouse-copier 运行在源集群或目标集群的环境都可以，官方文档推进在源集群，这样可以节省带宽。
使用 clickhouse-backup
clickhouse-backup 是社区开源的一个 ClickHouse 备份工具，可用于实现数据迁移。其原理是先创建一个备份，然后从备份导入数据，类似 MySQL 的 mysqldump + SOURCE。这个工具可以作为常规的异地冷备方案，不过有个局限是只支持 MergeTree 系列的表。
操作流程
 
   在源集群使用 clickhouse-backup create 创建备份 
   把备份文件压缩拷贝到目标集群 
   在目标集群使用 clickhouse-backup restore 恢复 
  
对比
从官方和社区的一些资料综合来看 clickhouse-copier 功能最强大，不过考虑到数据量较少，而且对 clickhouse-copier 有些地方也不是很清楚，最终决定使用 remote 函数来做数据迁移。
关于别的数据迁移方案、更多的 clickhouse-copier 使用案例，可参考 Altinity 的博客 Clickhouse-copier in practice.
使用 remote 函数做数据迁移
使用 remote 函数还能实现更多特性：
 
   对于分区表，可逐个分区进行同步，这样实际上同步的最小单位是分区，可以实现增量同步 
   可方便集成数据完整性（行数对比）检查，自动重新同步更新过的表 
  
代码
代码如下，需要先安装 clickhouse-driver
import collections
import datetime
import functools
import logging
import time

from clickhouse_driver import Client

source_conn = Client(host='source-host', user='user', password='password')
target_conn = Client(host='target-host', user='user', password='password')


def format_partition_expr(p):
    if isinstance(p, int):
        return p
    return f"'{p}'"


def execute_queries(conn, queries):
    if isinstance(queries, str):
        queries = queries.split(';')
    for q in queries:
        conn.execute(q.strip())


class Table(object):
    def __init__(self, database, name, ddl, partition_key, is_view):
        self.database = database
        self.name = name
        self.ddl = ddl.replace('CREATE TABLE', 'CREATE TABLE IF NOT EXISTS')
        self.partition_key = partition_key
        self.is_view = is_view

    def exists(self, conn):
        q = f"SELECT name FROM system.tables WHERE database = '{self.database}' AND name = '{self.name}'"
        return len(conn.execute(q)) > 0

    def get_partitions(self, conn):
        partitions = []
        q = f'SELECT {self.partition_key}, count() FROM {self.identity} GROUP BY {self.partition_key} ORDER BY {self.partition_key}'
        partitions = collections.OrderedDict(conn.execute(q))
        return partitions

    def get_total_count(self, conn):
        q = f'SELECT COUNT() FROM {self.identity}'
        return conn.execute(q)[0][0]

    def check_consistency(self):
        if not self.exists(target_conn):
            return False, None

        source_ttl_count = self.get_total_count(source_conn)
        target_ttl_count = self.get_total_count(target_conn)
        if source_ttl_count == target_ttl_count:
            return True, None

        if not self.partition_key:
            return False, None

        source_partitions = self.get_partitions(source_conn)
        target_partitions = self.get_partitions(target_conn)
        bug_partitions = []
        for p, c in source_partitions.items():
            if p not in target_partitions or c != target_partitions[p]:
                bug_partitions.append(p)
        return False, bug_partitions

    def create(self, replace=False):
        target_conn.execute(f'CREATE DATABASE IF NOT EXISTS {self.database}')
        if self.is_view:
            replace = True
        if replace:
            target_conn.execute(f'DROP TABLE IF EXISTS {self.identity}')
        target_conn.execute(self.ddl)

    def copy_data_from_remote(self, by_partition=True):
        self.create()
        if self.is_view:
            logging.info('ignore view %s', self.identity)
            return

        is_identical, bug_partitions = self.check_consistency()
        if is_identical:
            logging.info('table %s has the same number of rows, skip', self.identity)
            return

        if self.partition_key and by_partition:
            for p in bug_partitions:
                logging.info('copy partition %s=%s', self.partition_key, p)
                self._copy_partition_from_remote(p)
        else:
            self._copy_table_from_remote()

    def _copy_table_from_remote(self):
        queries = f'''
        DROP TABLE {self.identity};
        {self.ddl};
        INSERT INTO {self.identity}
        SELECT * FROM remote('{source_conn.host}', {self.identity}, '{source_conn.user}', '{source_conn.password}')
        '''
        execute_queries(target_conn, queries)

    def _copy_partition_from_remote(self, partition):
        partition = format_partition_expr(partition)
        queries = f'''
        ALTER TABLE {self.identity} DROP PARTITION {partition};
        INSERT INTO {self.identity}
        SELECT * FROM remote('{source_conn.host}', {self.identity}, '{source_conn.user}', '{source_conn.password}')
        WHERE {self.partition_key} = {partition}
        '''
        execute_queries(target_conn, queries)

    @property
    def identity(self):
        return f'{self.database}.{self.name}'

    def __str__(self):
        return self.identity

    __repr__ = __str__


def get_all_tables() -> [Table]:
    # 查询出所有用户的数据库和表，包括视图。视图依赖其他表，所以放到最后。
    q = '''
    SELECT database, name, create_table_query, partition_key, engine = 'View' AS is_view
    FROM system.tables
    WHERE database NOT IN ('system')
    ORDER BY if(engine = 'View', 999, 0), database, name
    '''
    rows = source_conn.execute(q)
    tables = [Table(*values) for values in rows]
    return tables


def copy_remote_tables(tables):
    for idx, t in enumerate(tables):
        start_time = datetime.datetime.now()
        logging.info('>>>> start to migrate table %s, progress %s/%s', t.identity, idx+1, len(tables))
        t.copy_data_from_remote()
        logging.info('<<<< migrated table %s in %s', t.identity, datetime.datetime.now() - start_time)


def with_retry(max_attempts=5, backoff=120):
    def decorator(f):
        @functools.wraps(f)
        def inner(*args, **kwargs):
            attempts = 0
            while True:
                attempts += 1
                logging.info('start attempt #%s', attempts)
                try:
                    f(*args, **kwargs)
                except Exception as e:
                    if attempts >= max_attempts:
                        raise e
                    logging.exception('caught exception')
                    time.sleep(backoff)
                else:
                    break
        return inner
    return decorator


@with_retry(max_attempts=10, backoff=60)
def main():
    tables = get_all_tables()
    logging.info('got %d tables: %s', len(tables), tables)
    copy_remote_tables(tables)


if __name__ == '__main__':
    main()
使用方式：直接运行即可，挂了重跑，不会有副作用。
局限性
仅通过对比行数来判断数据同步完整，没有比较内部数据的一致性，因此如果上游表行数不变，更新了部分字段，将无法自动识别，需要先从目标库里把表删掉重新同步。

                    
                        
                        
                             
                        
                        
                        
                            
                        
                        
                        
                            
                        
                    
                

        你可能感兴趣的:(Clickhouse,Clickhouse,数据迁移)
        
            
                
                    全面指南：用户行为从前端数据采集到实时处理的最佳实践
                        数字沉思
营销流量运营系统架构前端内容运营大数据
                        引言在当今的数据驱动世界，实时数据采集和处理已经成为企业做出及时决策的重要手段。本文将详细介绍如何通过前端JavaScript代码采集用户行为数据、利用API和Kafka进行数据传输、通过Flink实时处理数据的完整流程。无论你是想提升产品体验还是做用户行为分析，这篇文章都将为你提供全面的解决方案。设计一个通用的ClickHouse表来存储用户事件时，需要考虑多种因素，包括事件类型、时间戳、用户信
                    
                    elasticsearch数据迁移之elasticdump
                        迷茫运维路
elasticsearch中间件elasticsearchlinux运维
                        系列文章目录第一章es集群搭建第二章es集群基本操作命令第三章es基于search-guard插件实现加密认证第四章es常用插件文章目录系列文章目录前言一、elasticdump是什么？二、安装elasticdump工具1.离线安装2.在线安装三、elasticdump相关参数四、使用elasticdump进行数据备份五、使用elasticdump进行数据恢复前言在企业实际生产环境中,避免不了要对
                    
                    准备SAP RISE Go-Live weekend
                        syounger
SAP项目管理制造
                        写本篇文章的时候，我正在等待着第一个和生产性测试(productivetest)相关的活动，财务同事下载旧生产系统的资产负债表，此份资产负债表将和新生产系统的资产负债表对比，以确保数据迁移的完整性。那么在SAPRISE项目的上线周末(Go-Liveweekend)我们需要准备点啥呢?1.上线计划(Cutoverplan)和所有SAP项目一样，上线计划是所有上线周末，包括之前和之后所有与上线相关活动
                    
                    Kafka和Pulsar深入解析
                        jasen91
大数据开发kafka分布式
                        Kafka多租户：单租户系统数据迁移：依赖MirrorMaker，需要额外维护。市场上也有ConfluentReplicator等供应商工具。分层存储：由供应商提供商业使用。组件依赖：KafkaRaft（KRaft）从Kafka2.8开始处于早期访问模式，允许Kafka在没有ZooKeeper的情况下工作。这对Kafka来说是一个显著的优势，因为它简化了Kafka的体系结构并降低了学习成本。云原生
                    
                    flask-sqlalchemy的模型类两个表，既有一对一又有一对多的情况时，解决方法
                        skyTree,,
Flaskpython
                        这种情况时，直接进行数据迁移会回报错，因为一个表需要依赖另一个表，所以可以将两个表的基本字段先迁移好，然后再新增外键字段进行迁移，就不会报错了fromdatetimeimportdatetimefromapi.models.baseimportBaseModelfromapiimportdbfromwerkzeug.securityimportcheck_password_hash,generat
                    
                    从底层原理上理解ClickHouse 中的稀疏索引
                        goTsHgo
大数据分布式Clickhouse数据库clickhouse
                        稀疏索引（SparseIndexes）是ClickHouse中一个重要的加速查询机制。与传统数据库使用的B-Tree或哈希索引不同，ClickHouse的稀疏索引并不是为每一行数据构建索引，而是为数据存储的块或部分数据生成索引。这种索引的核心思想是通过减少需要扫描的数据范围来加速查询，特别适用于大数据量场景。1.基本概念：数据存储与索引在理解稀疏索引之前，首先需要理解ClickHouse的列式存储
                    
                    ClickHouse 高性能的列式数据库管理系统
                        小丁学Java
ClickHouseclickhouse数据库
                        ClickHouse是一个高性能的列式数据库管理系统（DBMS），主要用于在线分析处理查询（OLAP）。以下是对ClickHouse的详细介绍：基本信息：来源：由俄罗斯的Yandex公司于2016年开源。全称：ClickStream,DataWareHouse，简称ClickHouse。创始人：AaronKatz、AlexeyMilovidov、YuryIzrailevsky。主要特点：高性能：能
                    
                    对话 ClickHouse 创始人 Alexey：不仅是数据库，所有的数据处理系统都能从 AI 受益
                        AI科技大本营
clickhouse数据库人工智能
                        “Alexey，你希望ClickHouse的未来怎么发展？”我希望ClickHouse成为最流行的开源分析数据库，从此任何人考虑分析数据库的时候，脑海里第一个也是显而易见的选择就是ClickHouse。顺便说一句，我们其实已经是最流行的开源分析数据库了，所以我想让这个现状保持下去，以便更多的人能知道这一点。作者|王启隆出品|《新程序员》编辑部当今的分析型数据库领域，ClickHouse是最闪亮的名
                    
                    clickhouse-v24.1-离线部署
                        Wonderful呀
数据库clickhouse数据库运维linux
                        部署版本数据库版本：24.1.1.2048jdk版本：jdk84个文件（三个ck的包）：OpenJDK8U-jdk_x64_linux_hotspot_8u382b05.tarclickhouse-client-24.1.1.2048.x86_64.rpmclickhouse-common-static-24.1.1.2048.x86_64.rpmclickhouse-server-24.1.1.
                    
                    第三章 Mybatis 常用工具
                        flying jiang
MyBatis3源码深度解析mybatis
                        ScriptRunnerSqlRunnerScriptRunner和SqlRunner这两个术语通常不是特定于某个数据库或编程语言的内置工具或类，但它们描述了一类在软件开发中常用的工具或库的功能，这些工具或库用于执行SQL脚本或查询。这些工具可以大大简化数据库管理、数据迁移、测试以及自动化任务中的数据库交互。ScriptRunnerScriptRunner通常指的是一个能够执行SQL脚本文件的工具
                    
                    mysql迁移大量数据备选方案
                        lonelyhiker
mysql数据库
                        除了mysqldump、ibd文件迁移和binlog外，MySQL迁移大量数据还有其他一些方法和工具，适合不同的场景和需求。以下是几种常见的方案：1.MySQL官方工具：MySQLWorkbench和MySQLShell1.1MySQLWorkbench数据迁移工具MySQLWorkbench提供了数据迁移工具，可以帮助你将数据从一个MySQL实例迁移到另一个。它支持多种源数据库类型（例如Orac
                    
                    starrocks和clickhouse数据库比较
                        CodeMaster_37714848
clickhouse数据库
                        Starrocks和ClickHouse都是用于数据分析的数据库，但它们的设计理念和用途有所不同。下面是这两者的一些主要比较点：1.基础架构与设计目标Starrocks:Starrocks是一个专注于实时数据分析的平台，常用于大数据处理和商业智能应用。它设计用于高效处理大规模数据集，并且支持复杂查询和数据处理。支持多种数据源的集成，并且可以与其他大数据技术（如Hadoop、Spark）协同工作。C
                    
                    clickhouse对比两台机器数据
                        微亮之海
clickhouse
                        selectconcat(database,'.',name),total_rowsfromsystem.tableswhereengine='MergeTree'anddatabase!='system'andtotal_rows!=0orderbydatabase,name;两台机器分别跑，导出数据后对比
                    
                    ClickHouse与其他数据库的对比
                        九州Pro
ClickHouse数据库clickhouse数据仓库大数据sql
                        目录1与传统关系型数据库的对比1.1性能差异1.2数据模型差异1.3适用场景差异2与其他列式存储数据库的对比2.1ApacheCassandra2.2HBase3与分布式数据库的对比3.1GoogleBigQuery3.2AmazonRedshift3.3Snowflake4ClickHouse的缺点5ClickHouse的其他优点1与传统关系型数据库的对比1.1性能差异ClickHouse是一种
                    
                    Hbase、hive以及ClickHouse的介绍和区别？
                        damokelisijian866
hbasehiveclickhouse
                        一、Hbase介绍：HBase是一个分布式的、面向列的开源数据库，由ApacheSoftwareFoundation开发，是Hadoop生态系统中的一个重要组件。HBase的设计灵感来源于Google的Bigtable论文，它通过提供类似于Bigtable的能力，在Hadoop之上构建了一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。HBase主要用于存储大量结构化数据，并支持随机读写访问，
                    
                    ClickHouse 分布式部署、分布式表创建及数据迁移指南
                        努力做一名技术
clickhouse分布式
                        文章目录部署ClickHouse集群1.1环境准备1.2安装ClickHouse1.3配置集群创建分布式表2.1创建本地表2.2创建分布式表2.3删除分布式表测试分布式表3.1插入测试数据。配置和管理4.1配置监控4.2数据备份数据迁移5.1导出5.2导入部署ClickHouse集群QuantumInsights的部署将基于一个高可用的分布式ClickHouse集群，以实现对大规模数据的高效处理和
                    
                    如何拿下TCP（数据库交付运维高级工程师TDSQL(MySQL版)）认证
                        小伟C_C
数据库
                        如何拿下TCP认证需要掌握的知识掌握分布式OLTP数据库TDSQL（MySQL版）的产品架构与分布式特性掌握TDSQL（MySQL版）各组件的功能，以及启停方法掌握TDSQL（MySQL版）数据库实例的基本操作与使用方法掌握TDSQL（MySQL版）集群的基本操作与使用方法掌握TDSQL（MySQL版）实例备份恢复原理与操作使用，以及高可用方案的实现掌握TDSQL（MySQL版）数据同步和数据迁移
                    
                    ClickHouse实战处理（一）：MergeTree系列引擎
                        sheep8521
clickhouse数据库大数据
                        MergeTree作为家族系列最基础的表引擎，主要有以下特点：存储的数据按照主键排序：创建稀疏索引加快数据查询速度。支持数据分区，可以通过PARTITIONBY语句指定分区字段。支持数据副本。支持数据采样。总之适用于高负载任务的最通用和功能最强大的表引擎。可以快速插入数据并进行后续的后台数据处理。支持数据复制（使用Replicated*的引擎版本）、分区和其他引擎不支持的特性MergeTree系列
                    
                    ClickHouse 二进制特征值怎么转化为字符串
                        树下水月
clickhouse
                        要将二进制特征值转化为字符串，可以使用以下方法：1.使用base64编码base64是一种将二进制数据编码为ASCII字符串的方法。在ClickHouse中，可以使用函数base64Encode()来将二进制特征值转化为base64编码的字符串。例如：SELECTbase64Encode(feature)FROMmy_table;2.使用hex编码hex是一种将二进制数据转化为十六进制字符串的方法
                    
                    ClickHouse安装与使用指南
                        富艾霏

                        ClickHouse安装与使用指南clickhouseNodeJSclientforClickHouse项目地址:https://gitcode.com/gh_mirrors/clic/clickhouse项目介绍ClickHouse是由Yandex开发的一个用于在线分析处理(OLAP)的列式数据库管理系统(DBMS)。此开源项目位于https://github.com/TimonKK/click
                    
                    【开端】clickhouse入门使用
                        奋力向前123
数据库clickhouse
                        一、绪论这两天使用clickhouse进行数据分析，在使用上和mysql等关系型数据库还是有区别的，在SQL语法上也有差别，所以这里总结一下使用。二、clickhouse入门使用ClickHouse介绍ClickHouse是俄罗斯的Yandex公司于2016年开源的列式存储数据库（DBMS），它使用C++语言编写，主要面向在线分析处理查询（OLAP），能够使用SQL查询实时生成分析数据报告。Cli
                    
                    探索阿里巴巴的增量数据处理利器：Canal
                        费琦栩

                        探索阿里巴巴的增量数据处理利器：Canalcanalalibaba/canal:Canal是由阿里巴巴开源的分布式数据库同步系统，主要用于实现MySQL数据库的日志解析和实时增量数据订阅与消费，广泛应用于数据库变更消息的捕获、数据迁移、缓存更新等场景。项目地址:https://gitcode.com/gh_mirrors/ca/canal项目介绍Canal，源自阿里巴巴的强大开源项目，是一个专为M
                    
                    9.迁移CM和数据库-2
                        大勇任卷舒

                        9.1将原CM节点数据迁移至新节点9.1.1备份原CM节点数据主要备份CM的监控数据和管理信息，数据目录包括:/var/lib/cloudera-host-monitor/var/lib/cloudera-service-monitor/var/lib/cloudera-scm-server/var/lib/cloudera-scm-eventserver/var/lib/cloudera-scm
                    
                    APO选择ClickHouse存储Trace的考量
                        云观秋毫
apoclickhouse
                        OpenTelemetry生态已经很成熟，但对用户而言，选择OpenTelemetry仍然需要考虑以下几个问题：探针的成熟度海量Trace数据的存储和展示的问题本文重点讨论海量Trace数据的存储与展示问题，APO定位是一个OpenTelmetry的发行版，本文将重点讨论APO团队是如何考虑这个问题的。现有OpenTelemetry的Trace存储方案OpenTelemetry生态过于灵活，选择众
                    
                    clickhouse安装教程
                        123 黑曼巴
大数据
                        官网地址安装教程https://clickhouse.com/learn/lessons/gettingstarted/#1-installing-clickhouse
                    
                    Clickhouse篇之数据的备份与恢复
                        听说唐僧不吃肉
Clickhouseclickhouse数据库
                        Clickhouse数据的备份与恢复要备份ClickHouse数据库中的数据表，你可以使用ClickHouse提供的BACKUP和RESTORE功能，或者通过手动备份文件系统中的数据目录来实现。以下是两种常用的方法：方法一：使用BACKUP和RESTORE功能从ClickHouse21.8版本开始，支持BACKUP和RESTORE命令。以下是备份和恢复的步骤：1.备份数据库备份整个数据库BACKU
                    
                    click house学习路线——开篇
                        Fred3D
Clickhouse数据库
                        clickhouse学习路线官方文档前提:最近要计算数据指标,开始使用olap列示存储的数据库,对clickhouse的使用进行了系统学习推荐阅读的书官方文档地址ClickHouse原理解析与应用实践(朱凯)占位后续更新…
                    
                    HBase数据迁移实战
                        网易数帆大数据
大数据HBase网易云
                        本文来自网易云社区最近为产品做了一次HBase的数据迁移操作，学习了一些相关的技术和实现方案。现整理出来，作为今后HBase数据迁移的参考。如有纰漏，欢迎指正。1.前期准备1.1确认集群使用的版本源HBase集群（以下称旧集群）和目的HBase集群（以下称新集群）的版本可能并不是一致的，特别是其底层所使用的HDFS版本信息。譬如这样一个数据迁移场景：业务希望从低版本的HBase集群（0.94.x）
                    
                    全量、增量数据在HBase迁移的多种技巧实践
                        华为云技术精粹
云计算华为云
                        作者经历了多次基于HBase实现全量与增量数据的迁移测试，总结了在使用HBase进行数据迁移的多种实践，本文针对全量与增量数据迁移的场景不同，提供了1+2的技巧分享。HBase全量与增量数据迁移的方法1.背景在HBase使用过程中，使用的HBase集群经常会因为某些原因需要数据迁移。大多数情况下，可以用离线的方式进行迁移，迁移离线数据的方式就比较容易了，将整个hbase的data存储目录进行搬迁就
                    
                    Hbase离线迁移
                        我要用代码向我喜欢的女孩表白
hbase数据库大数据
                        假设是hbase集群，那么数据存储在hdfs上。1.关闭2个hbase2.使用distcp将hdfs上的hbase数据迁移到另一个【相同路径】的hdfs上。不知道目录的话，可以find/-namehbase-site.xml找一下。hadoopdistcp-Dmapreduce.job.hdfs-servers.token-renewal.exclude="xx.xx.xx.xx"-i-strat
                    
                                jQuery 键盘事件keydown ,keypress ,keyup介绍
                                    107x
jsjquerykeydownkeypresskeyup
                                    本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。 
一、首先需要知道的是：  1、keydown()  keydown事件会在键盘按下时触发.  2、keyup()     代码如下 复制代码    
$('input').keyup(funciton(){      
                                
                                AngularJS中的Promise
                                    bijian1013
JavaScriptAngularJSPromise
                                    一.Promise 
        Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。 
        为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： 
var cu
                                
                                c++ 用数组实现栈类
                                    CrazyMizzz
数据结构C++
                                    #include<iostream>
#include<cassert>
using namespace std;

template<class T, int SIZE = 50>
class Stack{
private:
	T list[SIZE];//数组存放栈的元素
	int top;//栈顶位置

public:
	Stack(
                                
                                java和c语言的雷同
                                    麦田的设计者
java递归scaner
                                    软件启动时的初始化代码，加载用户信息2015年5月27号 
从头学java二 
1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： 
     a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句 
不会再继续执行。 
     b、for循环相比于whi
                                
                                LINUX环境并发服务器的三种实现模型
                                    被触发
linux
                                    服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 
1  循环服务器与并发服务器模型 
在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。 
目前最常用的服务器模型有： 
·循环服务器：服务器在同一时刻只能响应一个客户端的请求 
·并发服务器：服
                                
                                Oracle数据库查询指令
                                    肆无忌惮_
oracle数据库
                                    20140920 
  
单表查询 
-- 查询************************************************************************************************************ 
-- 使用scott用户登录 
  
-- 查看emp表 
  
desc emp 
  

                                
                                ext右下角浮动窗口
                                    知了ing
JavaScriptext
                                    第一种 
 
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/
                                
                                浅谈REDIS数据库的键值设计
                                    矮蛋蛋
redis
                                    http://www.cnblogs.com/aidandan/ 
原文地址：http://www.hoterran.info/redis_kv_design 
 
丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。 
 
                                
                                maven编译可执行jar包
                                    alleni123
maven
                                    http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven 
 
 
<build>
  <plugins>
    <plugin>
      <artifactId>maven-asse
                                
                                人力资源在现代企业中的作用
                                    百合不是茶
HR 企业管理
                                    //人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的 人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点： 工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源 在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着 明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只 知道人力资源是管理企业招聘的 当时我被招聘上了，当时给我们培训 的人
                                
                                Linux自启动设置详解
                                    bijian1013
linux
                                    linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。 
阅读之前建议先看一下附图。 
本文中假设inittab中设置的init tree为： 
/etc/rc.d/rc0.d
/etc/rc.d/rc1.d
/etc/rc.d/rc2.d
/etc/rc.d/rc3.d
/etc/rc.d/rc4.d
/etc/rc.d/rc5.d
/etc
                                
                                Spring Aop Schema实现
                                    bijian1013
javaspringAOP
                                    本例使用的是Spring2.5 
1.Aop配置文件spring-aop.xml 
<?xml version="1.0" encoding="UTF-8"?>  
<beans  
    xmlns="http://www.springframework.org/schema/beans"  
    xmln
                                
                                【Gson七】Gson预定义类型适配器
                                    bit1129
gson
                                    Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， 
  DateTypeAdapter 
  
public final class DateTypeAdapter extends TypeAdapter<Date> {
  public static final TypeAdapterFacto
                                
                                【Spark八十八】Spark Streaming累加器操作（updateStateByKey)
                                    bit1129
update
                                    在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。 
比如： 对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 
  
Spark Streaming的解决方案是累加器，工作原理是，定义
                                
                                linux系统下通过shell脚本快速找到哪个进程在写文件
                                    ronin47

                                    一个文件正在被进程写 我想查看这个进程 文件一直在增大 找不到谁在写 使用lsof也没找到 
这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 
linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。 
幸运的是systemtap的安装包里带了inodewatch.stp，位
                                
                                java-两种方法求第一个最长的可重复子串
                                    bylijinnan
java算法
                                    
import java.util.Arrays;
import java.util.Collections;
import java.util.List;


public class MaxPrefix {

	
	public static void main(String[] args) {
		String str="abbdabcdabcx";

                                
                                Netty源码学习-ServerBootstrap启动及事件处理过程
                                    bylijinnan
javanetty
                                    Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： 
 
http://bylijinnan.iteye.com/blog/1992325 
 
Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的 
文章里面提到的操作，每一步都能在Netty里面找到对应的代码 
其中Reactor里面的Acceptor就对应Netty的ServerBo
                                
                                servelt filter listener 的生命周期
                                    cngolon
filterlistenerservelt生命周期
                                    1. servlet    当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
                                
                                jmpopups获取input元素值
                                    ctrain
JavaScript
                                    jmpopups 获取弹出层form表单 
首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。 
当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。 
我们必须到jmpopups生成的代码中去查找这个值，$(
                                
                                vi查找替换命令详解
                                    daizj
linux正则表达式替换查找vim
                                    一、查找 
 
查找命令 
 
/pattern<Enter> ：向下查找pattern匹配字符串 
?pattern<Enter>：向上查找pattern匹配字符串 
使用了查找命令之后，使用如下两个键快速查找： 
n：按照同一方向继续查找 
N：按照反方向查找 
 
字符串匹配 
 
pattern是需要匹配的字符串，例如： 
 
1:  /abc<En
                                
                                对网站中的js,css文件进行打包
                                    dcj3sjt126com
PHP打包
                                    一，为什么要用smarty进行打包 
apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。 
为什么要进行打包呢，主要目的是为了合理的管理自己的代码 。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
                                
                                php Yii: 出现undefined offset 或者 undefined index解决方案
                                    dcj3sjt126com
undefined
                                    在开发Yii 时，在程序中定义了如下方式： 
       if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
                                
                                linux 文件格式（1） sed工具
                                    eksliang
linuxlinux sed工具sed工具linux sed详解
                                    转载请出自出处：
http://eksliang.iteye.com/blog/2106082  
简介 
      sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
                                
                                Android应用程序获取系统权限
                                    gqdy365
android
                                    引用   
如何使Android应用程序获取系统权限 
 
 
        第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 
 
        1. 在应用程序的AndroidManifest.xml中的manifest节点
                                
                                HoverTree开发日志之验证码
                                    hvt
.netC#asp.nethovertreewebform
                                    HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
                                
                                JSON API：用 JSON 构建 API 的标准指南中文版
                                    justjavac
json
                                    译文地址：https://github.com/justjavac/json-api-zh_CN 
如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式， 那么 JSON API 就是你的 anti-bikeshedding 武器。 
通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。 
基于 JSON API 的客户端还能够充分利用缓存，
                                
                                数据结构随记_2
                                    lx.asymmetric
数据结构笔记
                                    第三章 栈与队列 
一．简答题 
1. 在一个循环队列中，队首指针指向队首元素的  前一个    位置。  
2.在具有n个单元的循环队列中，队满时共有  n-1  个元素。  
3. 向栈中压入元素的操作是先  移动栈顶指针&n
                                
                                Linux下的监控工具dstat
                                    网络接口
linux
                                    1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是, 
                                
                                C 语言初级入门--二维数组和指针
                                    1140566087
二维数组c/c++指针
                                    /* 
 二维数组的定义和二维数组元素的引用 
 
 二维数组的定义： 
 当数组中的每个元素带有两个下标时，称这样的数组为二维数组； 
 (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 
 语法： 
 类型名 数组名[常量表达式1][常量表达式2] 
 
 二维数组的引用： 
 引用二维数组元素时必须带有两个下标，引用形式如下： 
 例如： 
 int a[3][4];  引用：
                                
                                10点睛Spring4.1-Application Event
                                    wiselyman
application
                                    10.1 Application Event 
 
 Spring使用Application Event给bean之间的消息通讯提供了手段 
 应按照如下部分实现bean之间的消息通讯 
   
   继承ApplicationEvent类实现自己的事件 
   实现继承ApplicationListener接口实现监听事件 
   使用ApplicationContext发布消息 
    
 
                                
                
            
        
    

    
        
            按字母分类：
            ABCDEFGHIJKLMNOPQRSTUVWXYZ其他
        
    

    
        
            首页 -
            关于我们 -
            站内搜索 -
            Sitemap -
            侵权投诉
        
        版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.

【转】记一次 ClickHouse 数据迁移

背景

方案调研

拷贝数据目录

使用 `remote` 表函数

使用 clickhouse-copier

使用 clickhouse-backup

对比

使用 `remote` 函数做数据迁移

代码

局限性

你可能感兴趣的:(Clickhouse,Clickhouse,数据迁移)