Hawq4.0.1.0到Hawq4.5.0.1的升级

## Hawq4.0.1.0到Hawq4.5.0.1的升级

**1. 配置系统参数**

编辑/etc/sysctl.conf文件,内容如下

```

kernel.shmmax = 1000000000

kernel.shmmni = 4096

kernel.shmall = 4000000000

kernel.sem = 250 512000 100 2048

kernel.sysrq = 1

kernel.core_uses_pid = 1

kernel.msgmnb = 65536

kernel.msgmax = 65536

kernel.msgmni = 2048

net.ipv4.tcp_syncookies = 0

net.ipv4.conf.default.accept_source_route = 0

net.ipv4.tcp_tw_recycle = 1

net.ipv4.tcp_max_syn_backlog = 200000

net.ipv4.conf.all.arp_filter = 1

net.ipv4.ip_local_port_range = 10000 65535

net.core.netdev_max_backlog = 200000

net.netfilter.nf_conntrack_max = 524288

fs.nr_open = 3000000

kernel.threads-max = 798720

kernel.pid_max = 798720

# increase network

net.core.rmem_max=2097152

net.core.wmem_max=2097152

net.core.somaxconn=4096

vm.overcommit_memory = 2 on master and standby; 0 on segments

vm.overcommit_ratio = 90

```

编辑完后,使用如下命令刷新配置

```

sysctl -p

```

**2.升级准备**

- 记录旧版本号

```

# 一定要记录旧的KDW版本号,升级需要

hawq --version 或者

select version();

# 记录gpfdist版本号和启动命令

gpfdist --version

ps -ef | grep gpfdist | grep -v grep

```

- 记录资源队列

```

-- 查看并记录已有新增的资源队列

SELECT * FROM pg_resqueue WHERE rsqname NOT IN ('pg_root', 'pg_default');

SELECT * FROM pg_resqueue WHERE rsqname = 'pg_default';

-- 记录新增的资源队列的定义(暂不需要执行)

CREATE RESOURCE QUEUE vc_default.pg_queue WITH (

  PARENT='vc_default.pg_root',

  ACTIVE_STATEMENTS=1,

  MEMORY_LIMIT_CLUSTER=50%,

  CORE_LIMIT_CLUSTER=50%,

  RESOURCE_OVERCOMMIT_FACTOR=2,

  ALLOCATION_POLICY='even',

  VSEG_RESOURCE_QUOTA='mem:2gb');

ALTER RESOURCE QUEUE vc_default.pg_default WITH (

  VSEG_RESOURCE_QUOTA='mem:1gb');

-- 查找哪些用户与该资源队列绑定,记录用户名

SELECT pa.rolname, pa.rolresqueue, pr.rsqname

  FROM pg_authid pa, pg_resqueue pr

  WHERE pa.rolresqueue = pr.oid AND pr.rsqname NOT IN ('pg_root', 'pg_default');

-- 解绑定用户和资源队列

ALTER ROLE xxx RESOURCE QUEUE pg_default;

ALTER ROLE yyy RESOURCE QUEUE pg_default;

-- 删除已有新增的资源队列

DROP RESOURCE QUEUE pg_queue;

```

- 防止standby升级异常,需要踢掉standby,升级后加回

```

# 踢掉standby

hawq init standby -r

```

- 停止Hawq集群

```

hawq stop cluster -a -M immediate

# 检查进程和任务是否都停止

hawq ssh -f hostfile -e 'ps -ef |grep postgres'

```

- 配置文件备份

```

# 选择合适的路径进行备份

cp -rf $GPHOME/etc /home/gpadmin/etc_4010

```

- 元数据备份

```

# 选择合适路径进行元数据备份

# segment的元数据也需要备份,但可以不拷贝pg_log以节省空间

# 注:如果升级前binary不好获取,需要备份binary文件

mkdir /data1/hawq/masterdd_20210521_bak/

cd /data1/hawq

tar -cvf /data1/hawq/masterdd_20210521_bak/masterdd.tar.gz --exclude=masterdd/pg_log/* masterdd

hawq ssh -f hostfile -e 'cp -r /data1/hawq/segment /data1/hawq/segment_20210521_bak'

```

- 数据备份

```

# 选择KDW在HDFS上的根目录进行数据备份

# 假定KDW的数据根目录为/hawq

$ hadoop dfsadmin -allowSnapshot /hawq

Allowing snapshot on / directory succeeded

$ hdfs dfs -createSnapshot /hawq s20210521

Created snapshot /.snapshot/s20210521

```

- 每个节点安装yum源

```

hawq ssh -f hostfile -e 'sudo wget -O /etc/yum.repos.d/oushu-database.repo http://yum.oushu-tech.com/oushurepo/yumrepo/release/oushu-database/centos6/4.5.0.0/release/oushu-database.repo'

hawq ssh -f hostfile -e 'sudo yum makecache'

# 注意:如果是手工rpm包升级,需要手工重新创建yum源或者直接rpm命令安装。

cd /oushu-software-full-x.x.x.x/oushu-database

# 删除旧的rpm包和repodate文件

rm -rf *

# 将新的rpm包移动到此路径下

cp /home/gpadmin/hawq-x.x.x.x-xxxxx.x86_64.rpm ./

# 重建repo库,若没有createrepo命令,先使用yum -y install createrepo进行安装

createrepo .

```

**3.元数据升级**

- 运行升级脚本

```

# 恢复备份的配置文件(注意检查配置文件中去掉upgrade_mode和allow_system_table_mods配置)

hawq ssh -f hostfile -e 'cp -rf $BACKUP_PATH/etc_4010/* $GPHOME/etc/'

# 替换升级相关工具脚本包含/usr/local/hawq/bin/hawqupgrade_new和/usr/local/hawq/share/postgresql/vcluster_shared_install.sql

# 以gpadmin用户执行,执行前确保集群全部停止

hawq upgrade -s 4.0.1.0

# 如果失败,定位问题,恢复元数据,重新升级!! 恢复时如果没有备份pg_log,需要重新创建folder

# 升级成功后,启动集群(此处不启动magma)

hawq start cluster

```

- 重建资源队列

```

-- 执行创建记录好的新增资源队列

CREATE RESOURCE QUEUE vc_default.pg_queue WITH (

  PARENT='vc_default.pg_queue',

  ACTIVE_STATEMENTS=1,

  MEMORY_LIMIT_CLUSTER=50%,

  CORE_LIMIT_CLUSTER=50%,

  RESOURCE_OVERCOMMIT_FACTOR=2,

  ALLOCATION_POLICY='even',

  VSEG_RESOURCE_QUOTA='mem:2gb');

ALTER RESOURCE QUEUE vc_default.pg_default WITH (

  VSEG_RESOURCE_QUOTA='mem:1gb');

-- 重新绑定用户和资源队列

ALTER ROLE xxx RESOURCE QUEUE vc_default.pg_queue;

ALTER ROLE yyy RESOURCE QUEUE vc_default.pg_queue;

```

- 加回standby

```

hawq init standby -s ksm2

```

4.升级验证

```

-- view和catalog检查

select * from gp_segment_configuration; --所有hosts的status值为u

select * from gp_master_mirroring;      --summary_state的值为synchronized

select version();                      --为要安装的版本号

-- ORC

drop table if exists orc_internal_table;

create table orc_internal_table

(

    bool        bool,

    i2          int2,

    i4          int4,

    i8          int8,

    f4          float4,

    f8          float8,

    char        char(5),

    varchar    varchar(10),

    text        text,

    bytea      bytea,

    date        date,

    time        time,

    timestamp  timestamp,

    timestamptz timestamptz,

    decimal38  decimal(38, 4),

    decimal18  decimal(18, 2)

) with (appendonly=true, orientation=orc);

insert into orc_internal_table

values (true, 2, 4, 8, 4.0, 8.0, 'ch', 'vch', 'text', 'binary', '2020-02-02',

        '20:02:02', '2020-02-02 20:02:02.200202', '2020-02-02 20:02:02.200202',

        38.38, 18.18);

insert into orc_internal_table values (NULL);

select * from orc_internal_table;


```

你可能感兴趣的:(Hawq4.0.1.0到Hawq4.5.0.1的升级)