weixin_30883271

[原创]Greenplum数据库集群实践

GreenPlum实践

==============================================
  目录：
    一、安装环境准备
    二、GP数据库安装
    三、集群添加standby节点
    四、master和standby相互切换
    五、新增segment节点
    六、非Mirror模式为Segment节点增加Mirror
    七、Segment节点故障转移到Mirror并恢复segment
    八、迁移(替换)segment节点
    九、移除segment节点
    十、常用SQL和数据导入导出
    十一、GP集群中表的数据分布机制以及同步机制
==============================================

一、安装环境准备
  机器IP             角色
  192.168.156.144   master
  192.168.156.145   segment1
  192.168.156.146   segment2
  192.168.156.200   standby

Greenplum 需要在GP 数据库系统的所有主机(masters 和 segments) 上配置推荐的OS参数，以root用户登录，修改所有主机的OS参数
(1)、关闭防火墙(三台主机)(学习时可以直接关闭，正式环境是通过开放端口)
  #service iptables stop   停止防火墙服务，重启电脑后仍然会开启
  #chkconfig iptables off  关闭防火墙服务开机启动，重启后生效
(2)、修改/etc/hosts文件(三台主机)
  在hosts文件中添加或修改一下内容：
  192.168.156.144   master
  192.168.156.145   segment1
  192.168.156.146   segment2
  添加之后，可以通过ping命令测试是否正确，如：ping master测试是否能访问master节点
(3)、修改或添加/etc/sysctl.conf(三台主机)
kernel.shmmax = 500000000
kernel.shmmni = 4096
kernel.shmall = 4000000000
kernel.sem = 250 512000 100 2048
kernel.sysrq = 1
kernel.core_uses_pid = 1
kernel.msgmnb = 65536
kernel.msgmax = 65536
kernel.msgmni = 2048
net.ipv4.tcp_syncookies = 1
net.ipv4.ip_forward = 0
net.ipv4.conf.default.accept_source_route = 0
net.ipv4.tcp_tw_recycle = 1
net.ipv4.tcp_max_syn_backlog = 4096
net.ipv4.conf.all.arp_filter = 1
net.ipv4.ip_local_port_range = 1025 65535
net.core.netdev_max_backlog = 10000
vm.overcommit_memory = 2
(4)、配置/etc/security/limits.conf文件，添加以下内容(三台主机)
* soft nofile 65536
* hard nofile 65536
* soft nproc 131072
* hard nproc 131072
(5)、设置预读块的值为16384(三台主机)
  # blockdev --getra /dev/sda         查看预读块，默认大小为8196
  # blockdev --setra 16384 /dev/sda   设置预读块
(6)、设置磁盘访问I/O调度策略(三台主机)
  # echo deadline > /sys/block/sda/queue/scheduler
(7)、上传并解压数据库安装文件(master节点)
  # unzip gpmaster.zip
  之后的目录文件如下：
  greenplum_path.sh - Greenplum 数据库环境变量配置文件
  GPDB-LICENSE.txt- Greenplum license 文件
  LICENSE.thirdparty- 第三方 license 文件
  bin- 目录下包括Greenplum 数据库管理程序，也包括PostgreSQL 客户端和服务程序
  demo - 目录下包括Greenplum 演示程序
  docs - Greenplum 数据库帮助文档(PDF 格式)
  etc - OpenSSL 配置文件
  ext - Greenplum 数据库程序用的附加程序( 如 Python)
  include - Greenplum 数据库C header files
  lib - Greenplum 数据库和 PostgreSQL 库文件
  sbin - Supporting/Internal 脚本和程序
  share - Greenplum 数据库共享文件

二、GP数据库安装
1、安装软件(master节点)
  在/etc/profile中增加：# source /usr/local/gpmaster/greenplum_path.sh,然后在三台主机执行命令：source /usr/local/gpmaster/greenplum_path.sh
2.创建用户和节点文件
  # useradd gpadmin -m
  # passwd gpadmin
  在gpadmin账户下创建all_hosts，文件内容：(三台主机)
  master
  segment1
  segment2
3.运行gpseginstall工具(master节点 /home/gpadmin)在所有节点上安装GP软件,完成后提示成功.
  # chgrp -R gpadmin /usr/local
  # chmod -R 0775 /usr/local
  # su - gpadmin
  # gpseginstall -f all_hosts -u gpadmin -p gpadmin
4.切换到gpadmin用户验证无密码登录(三台主机)
  (1)切换用户
  # su - gpadmin
  (2)使用gpssh工具来测试无密码登录所有主机，结果如下图：
  # gpssh-exkeys -f all_hosts
  # gpssh -f all_hosts -e ls -l $GPHOME
5.配置环境变量(master节点)
  在/home/gpadmin路径下，以root用户添加下述信息到.bashrc和.bash_profile文件最后
    # source /usr/local/gpmaster/greenplum_path.sh
  然后将.bashrc文件发送到segment1和segment2,命令如下：
    # scp .bashrc segment1:~
    # scp .bashrc segment2:~
6.创建存储区域(master节点)
  (1)创建Master数据存储区域
    # gpssh -h master -e 'mkdir -p /data/master'
  (2)改变目录的所有权
    # gpssh -h master -e 'chown gpadmin:gpadmin /data/master'
  (3)创建一个包含所有segment主机名的文件/home/gpadmin/seg_hosts，内容如下：
    segment1
    segment2
  (4)使用gpssh工具在所有segment主机上创建主数据和镜像数据目录，如果没有设置镜像可以不创建mirror目录(切换gpadmin用户)
    # gpssh -f seg_hosts -e 'mkdir -p /data/primary'
    # gpssh -f seg_hosts -e 'mkdir -p /data/mirror'
    # gpssh -f seg_hosts -e 'chown gpadmin /data/primary'
    # gpssh -f seg_hosts -e 'chown gpadmin /data/mirror'
7.同步系统时间，需要安装ntpd。# yum install ntp -y
  (1) 在Master主机上编辑/etc/ntp.conf来设置如下内容：
      server 127.127.1.0
  (2) 在Segment主机上编辑/etc/ntp.conf
      server master
  (3) 在Master主机上，通过NTP守护进程同步系统时钟(切换gpadmin用户)
      # gpssh -f all_hosts -v -e 'ntpd'
8.验证操作系统设置(切换gpadmin用户)
  # gpcheck -f all_hosts -m master
  检查运行结果是否有error信息，如果有处理掉错误信息后重新执行上面的命令检查，直至没有error信息。目前知道的xfs相关的报错不影响安装。
9.创建Greenplum数据库配置文件
  (1) 以gpadmin用户登录
    # su - gpadmin
  (2) 从模板中拷贝一份gpinitsystem_config文件
    # cp $GPHOME/docs/cli_help/gpconfigs/gpinitsystem_config /home/gpadmin/gpinitsystem_config
    # chmod 775 gpinitsystem_config
  (3) 设置所有必须的参数
    ARRAY_NAME="EMC Greenplum DW"
    SEG_PREFIX=gpseg
    PORT_BASE=40000
    declare -a DATA_DIRECTORY=(/data/primary)
    MASTER_HOSTNAME=master
    MASTER_DIRECTORY=/data/master
    MASTER_PORT=5432
    TRUSTED SHELL=ssh
    CHECK_POINT_SEGMENT=8
    ENCODING=UNICODE
  (4) 设置可选参数
    MIRROR_PORT_BASE=50000
    REPLICATION_PORT_BASE=41000
    MIRROR_REPLICATION_PORT_BASE=51000
    declare -a MIRROR_DATA_DIRECTORY=(/data/mirror)
10.运行初始化工具初始化数据库
  # gpinitsystem -c gpinitsystem_config -h seg_hosts
  成功之后，数据库便启动了，出现Continue with Greenplum creation Yy/Nn>，输入 y，然后等待完成即可。初始化过程中遇到的报错如下：
  错误1：
  gpadmin-[FATAL][1]:-Failed Update port number to 40000
  解决：安装ed-1.1-3.3.el6.x86_64.rpm
  错误2：
  psql: FATAL:  DTM initialization: failure during startup recovery, retry failed, check segment status (cdbtm.c:1603)
  20180513:23:05:43:gpinitsystem:master:gpadmin-[FATAL]:-Failed to retrieve rolname. Script Exiting!
  解决：关闭防火墙。
11.设置环境变量：
  添加"export MASTER_DATA_DIRECTORY=/data/master/gpseg-1"到~/.bashrc文件尾，并同步到segment1和segment2节点。
    # scp .bashrc root@segment1:~
    # scp .bashrc root@segment2:~
12.启动和停止数据库测试是否能正常启动和关闭，命令如下：
  # gpstart -a
  # gpstop -a
13.访问数据库：
  # psql -d postgres
  postgres=# select datname,datdba,encoding,datacl from pg_database;
14.调整数据库参数,必须重新启动数据库:
  调整方法：执行命令 gpconfig -c 参数名 -v 参数值 -m Master节点值
  检查方法：重启数据库后，执行命令 gpconfig -s 参数名
  (1)调整
    #gpconfig -c shared_buffers -v 128MB -m 128MB
    #gpconfig -c gp_vmem_protect_limit -v 15360 -m 15360
    #gpconfig -c max_connections -v 1000 -m 200
    #gpconfig --skipvalidation -c wal_send_client_timeout -v 60s -m 60s 
  (2)查看：
    #gpconfig -s shared_buffers
    #gpconfig -s gp_vmem_protect_limit
    #gpconfig -s max_connections
    #gpconfig -s wal_send_client_timeout
  或者
    # psql -d postgres
    postgres=# show shared_buffers;
    postgres=# show gp_vmem_protect_limit;
    postgres=# show max_connections;
    postgres=# show wal_send_client_timeout;
15.查看数据库状态：
  # gpstate

三、集群添加standby节点
  1.在standby节点的/etc/profile添加：# source /usr/local/gpmaster/greenplum_path.sh
  2.所有节点的/etc/hosts中添加：# 192.168.156.200 standby的配置
  3.按照安装前准备配置standby主机，然后在master节点的all_hosts文件中添加standby，重新建立ssh互信(root和gpadmin两个用户都要)，并复制必要的文件和环境变量。(在master上操作)
    # gpssh-exkeys -f all_hosts
    # gpssh -h standby -e 'mkdir -p /data/master'
    # gpssh -h standby -e 'chown gpadmin:gpadmin /data/master'
    # scp /usr/local/gpmaster standby:/usr/local/gpmaster
    # scp .bashrc standby:~
    # scp .bash_profile standby:~
  4.在master上执行以下命令初始化standby节点即可：
    # gpinitstandby -s standby
    # 如果是重新配置需要先删除原来的standby信息，然后在执行初始化：
    # gpinitstandby -r
    # rm -rf /data/master/*
    # gpinitstandby -s standby

四、master和standby相互切换
  1.在master上执行以下命令模拟宕机
    # gpstop -m
  2.在standby上执行以下命令切换为master身份顶替原来的master
    # gpactivatestandby -d $MASTER_DATA_DIRECTORY
    # 执行之前需要在gpadmin用户下的.bashrc文件下添加一下两个环境变量，否则会报错。
    # export MASTER_DATA_DIRECTORY=/data/master/gpseg-1
    # export PGPORT=5432
  3.切换完成之后在原来的master上删除/data/master/gpseg-1目录，然后在standby(现在的master)上初始化master，把原来的master变成standby角色。
    # gpinitstandby -s master
  4.然后可以重复上述操作把master恢复成master角色。

五、新增segment节点
  注：新增segment节点有两种情况：第一种是在集群中的原有机器中添加segment；第二种是新增主机，添加segment。Master节点存在Standby，
  GreenPlum认为Master有Standby，那么Segment就应该有Mirror，认为数据库开启了Mirror模式，如果实际segment没有mirror则查不到相关的资料，
  加入新节点会报错，以下操作在master执行了# gpinitstandby -r去掉集群的standby。
  1.按照安装流程把standby节点准备好，新加节点需要在master上的.bashrc文件指定#export PGDATABASE=dbtest环境变量，初始化时候需要把信息写到这个数据库。
  (本例是第二种把standby当成新节点加入，如果是第一种把newseg文件内容改为集群中现有的节点主机名即可，操作是一样的。)
  2.在master上新建newseg文件，内容为：standby，新加节点的主机名。
  3.执行安装前检查,如果有报错先进行处理。
    # gpcheck -f newseg
  4.检查ssh互信和时间
    # gpssh -f newseg -e date
  5.执行命令生成加入配置文件
    # gpexpand -f newseg
    # 输入y
    # 输入0或1 ，0表示只在新节点上初始化segment实例，1表示在所有segment节点初始化一个再加一个segment，新的节点是2个segment。这里输入0.
    # 生成gpexpand_inputfile_20180529_164324文件和gpexpand_inputfile_20180529_164324.fs文件(若还没有文件空间则没有.fs文件)
    # standby:standby:40000:/data/primary/gpseg2:4:2:p	--根据两个文件中的内容在各自的节点上创建好对应的目录并授权
  6.执行以下命令正式加入节点
    # gpexpand -i gpexpand_inputfile_20180529_164324 -S -V -v -n 1 -B 1 -t /tmp	--参数-S是表示用spread方式，不加是默认的group模式
    # 由于standby节点没有新建/data/primary目录导致报错执行# gpexpand -r -D dbdream回滚掉之前的操作，在回滚时也报错，发现数据库已经关闭，
    需要通过# gpstart -R将数据库启动到utility模式，然后回滚掉之前的添加Segment操作：gpexpand -r -D dbdream，回滚后再启动数据库# gpstart -a重新执行加入命令加入成功。
  7.segment添加成功之后如果需要将数据重分布则执行以下命令：
    # gpexpand -a -d 1:00:00 -D dbtest -S -t /tmp -v -n 1
    # 等待重分布完成
    # select * from gpexpand.expansion_progress;	--查看重分布进度
  8.清除gpextend产生的schema gpexpand
    # gpexpand -c -D dbtest
    # 输入两次y

六、非Mirror模式为Segment节点增加Mirror
  1.在所有segment节点上创建mirror的数据存放文件和文件空间所需的目录(如果有文件空间)
    # mkdir /data/mirror
    # chown -R gpadmin.gpadmin mirror
  2.在master节点上使用以下参数生成添加Mirror的参数文件
    # gpaddmirrors -o add_mirror
    # 输入mirror的数据目录：/data/mirror
    #生成文件内容如下，可以看到segment1对应的mirror0放到了segment2节点上，以此类推：
    # cat add_mirror 
    filespaceOrder=
    mirror0=0:segment2:41000:42000:43000:/data/mirror/gpseg0
    mirror1=1:standby:41000:42000:43000:/data/mirror/gpseg1
    mirror2=2:segment1:41000:42000:43000:/data/mirror/gpseg2
  3.执行以下命令正式添加mirror
    # gpaddmirrors -i add_mirror
    # 添加完成会提示通过gpstate –s命令来查看Mirror的状态，Use  gpstate -s  to check the resynchronization progress。
  4.查看mirror信息
    # gpstate -m
  5.数据库查看mirror的信息
    # select * from gp_segment_configuration order by dbid;
  6.把初始化standby接入集群。
    # gpinitstandby -s standby
  7.此时GP集群正常，拥有master，standby实例，3个segment实例和3个mirror实例。

七、Segment节点故障转移到Mirror并恢复segment
  1.重启segment2节点主机，模拟segment2节点宕机。此时集群读写正常，但是standby节点的mirror切换为primary了，standby有两个primary，数据分布不均衡了。
  使用以下sql可以查看到各个节点之间的状态变化。(注意segment2重启后关闭iptables，否则执行# gprecoverseg 会很久并卡住)
    # dbtest=# select * from gp_segment_configuration order by 1;
     dbid | content | role | preferred_role | mode | status | port  | hostname | address  | replication_port | san_mounts 
    ------+---------+------+----------------+------+--------+-------+----------+----------+------------------+------------
        1 |      -1 | p    | p              | s    | u      |  5432 | master   | master   |                  | 
        2 |       0 | p    | p              | c    | u      | 40000 | segment1 | segment1 |            43000 | 
        3 |       1 | m    | p              | s    | d      | 40000 | segment2 | segment2 |            43000 | 
        4 |       2 | p    | p              | s    | u      | 40000 | standby  | standby  |            43000 | 
        5 |       0 | m    | m              | s    | d      | 41000 | segment2 | segment2 |            42000 | 
        6 |       1 | p    | m              | c    | u      | 41000 | standby  | standby  |            42000 | 
        7 |       2 | m    | m              | s    | u      | 41000 | segment1 | segment1 |            42000 | 
        8 |      -1 | m    | m              | s    | u      |  5432 | standby  | standby  |                  | 

  2.恢复到原来的架构，有两种可能情况，第一种情况，当故障主机启动后，这台主机上的节点会自动启动，当然现在已经都是Mirror节点了，角色是不会切换的，
  而且数据是不一致状态。这种情况只需要使用gprecoverseg命令同步一下数据后，就可以切换到原来的架构了。第二种情况，当故障主机segment2启动后，
  这台主机上的节点并没有启动，而且在重启数据库时，这台主机上的节点也没有启动。以下操作针对第二种情况，需要使用gprecoverseg命令同步故障机节点的数据，
  如果数据量很大，同步要很长时间。
    # gprecoverseg
    # 会列出需要同步的节点，输入y
    # 数据同步完成，查看mirror节点的信息，mirror状态正常,但是当前角色还没有切换回来。# gpstate -m
  3.进行primary和mirror角色切换
    # gprecoverseg -r
    # 会列出需要切换的节点，输入y
    # 切换完成，使用gpstate –m查看mirror信息。
    # 使用# gpstate -e 命令有可能会看到主/备数据正在同步，这是正常的，过段时间同步好了再查看就正常了。
    # 还可以使用以下sql来查看数据库的切换信息，还有扩充segment和加mirror的信息
    # select * from gp_configuration_history;

八、迁移(替换)segment节点
  # 这里迁移standby主机上的primary和mirror到master主机，如果是新机器则按照“新增一个segment节点”步骤执行到第四步初始化好机器，无需执行gpextend，
  迁移过程中gp集群会自动将其加入。(迁移segment节点还可以手动停掉segment实例：# pg_ctl stop -D /data/primry/gpseg1，然后停集群，拷贝segment数据目录到目的迁移主机上，只修改status为d的记录主机为目的迁移的主机名重启做恢复和角色切换即可。)
  1)在master主机上创建对应的目录
    # mkdir {primary,fspc_primary,mirror,fspc_mirror}
    # chown -R gpadmin.gpadmin primary fspc_primary mirror fspc_mirror
  2)查看集群的节点信息并备份：
    # pg_dump -t gp_segment_configuration -c -f ~/gp_segment_configuration.dat
    dbtest=# select * from gp_segment_configuration;
     dbid | content | role | preferred_role | mode | status | port  | hostname | address  | replication_port | san_mounts 
    ------+---------+------+----------------+------+--------+-------+----------+----------+------------------+------------
        1 |      -1 | p    | p              | s    | u      |  5432 | master   | master   |                  | 
        4 |       2 | p    | p              | s    | u      | 40000 | standby  | standby  |            43000 | 
        7 |       2 | m    | m              | s    | u      | 41000 | segment1 | segment1 |            42000 | 
        8 |      -1 | m    | m              | s    | u      |  5432 | standby  | standby  |                  | 
        2 |       0 | p    | p              | s    | u      | 40000 | segment1 | segment1 |            43000 | 
        5 |       0 | m    | m              | s    | u      | 41000 | segment2 | segment2 |            42000 | 
        3 |       1 | p    | p              | s    | u      | 40000 | segment2 | segment2 |            43000 | 
        6 |       1 | m    | m              | s    | u      | 41000 | standby  | standby  |            42000 |
    dbtest=# select * from pg_filespace_entry;  --查看文件空间
     fsefsoid | fsedbid |        fselocation        
    ----------+---------+---------------------------
         3052 |       2 | /data/primary/gpseg0
         3052 |       3 | /data/primary/gpseg1
         3052 |       1 | /data/master/gpseg-1
         3052 |       4 | /data/primary/gpseg2
         3052 |       5 | /data/mirror/gpseg0
         3052 |       6 | /data/mirror/gpseg1
         3052 |       7 | /data/mirror/gpseg2
         3052 |       8 | /data/master/gpseg-1
        16471 |       1 | /data/fspc_master/gpseg-1
        16471 |       2 | /data/fspc_primary/gpseg0
        16471 |       3 | /data/fspc_primary/gpseg1
        16471 |       4 | /data/fspc_primary/gpseg2
        16471 |       5 | /data/fspc_mirror/gpseg0
        16471 |       6 | /data/fspc_mirror/gpseg1
        16471 |       7 | /data/fspc_mirror/gpseg2
        16471 |       8 | /data/fspc_master/gpseg-1
  3)停掉集群
    # gpstop -a
  4)master方式启动集群
    # gpstart -m
  5)修改集群的节点信息
    # PGOPTIONS="-c gp_session_role=utility" psql -d postgres
    # set allow_system_table_mods='dml'; --获取修改系统表的权限
    # update gp_segment_configuration set hostname='master',address='master',status='d' where (content=1 and role='m');
    # update gp_segment_configuration set mode='c' where (content=1 and role ='p');
    # update gp_segment_configuration set hostname='master',address='master',status='d' where (content=2 and role='p');
    # update gp_segment_configuration set role = CASE WHEN preferred_role='p' then 'm' ELSE 'p' END where content=2;
    # update gp_segment_configuration set mode='c' where (content=2 and role ='p');
    dbtest=# select * from gp_segment_configuration; --查看修改后的配置
     dbid | content | role | preferred_role | mode | status | port  | hostname | address  | replication_port | san_mounts 
    ------+---------+------+----------------+------+--------+-------+----------+----------+------------------+------------
        1 |      -1 | p    | p              | s    | u      |  5432 | master   | master   |                  | 
        8 |      -1 | m    | m              | s    | u      |  5432 | standby  | standby  |                  | 
        2 |       0 | p    | p              | s    | u      | 40000 | segment1 | segment1 |            43000 | 
        5 |       0 | m    | m              | s    | u      | 41000 | segment2 | segment2 |            42000 | 
        6 |       1 | m    | m              | s    | d      | 41000 | master   | master   |            42000 | 
        3 |       1 | p    | p              | c    | u      | 40000 | segment2 | segment2 |            43000 | 
        4 |       2 | m    | p              | s    | d      | 40000 | master   | master   |            43000 | 
        7 |       2 | p    | m              | c    | u      | 41000 | segment1 | segment1 |            42000 |
  6)重启集群
    # gpstop -m
    # gpstart -a
    # 集群可以启动成功，但是会提示有2个segment需要恢复，此时standby节点上的segment不会启动了，相当于自动移除了。
  7)恢复master上的segment
    # gprecoverseg -F  --执行完全恢复
    # 输入y
    # 集群会自动在master上启动segment的进程并同步数据，但是此时master上的两个segment都是mirror，角色没有切换，需要手工切换，但是需要在数据同步完成之后执行。
    注意：恢复过程，数据越大，时间越长，需要注意使用# gpstate -m检查时，如果出现Resynchronizing字样，一定不能执行下一步操作，需要等状态变为Synchronized之后，
    才能继续下一步操作。
  8)数据同步完成后进行角色切换
    # gpstate -m  --查看数据是否同步完成
    # gprecoverseg -r
    # 输入y
    # gpstate -e  --切换后查看同步状态
    # 等待一段时间再次查看所有segment同步数据完成，状态正常。
  9)查看此时的节点信息和文件空间目录
    dbtest=# select * from gp_segment_configuration;  --节点的信息更新了
   dbid | content | role | preferred_role | mode | status | port  | hostname | address  | replication_port | san_mounts 
  ------+---------+------+----------------+------+--------+-------+----------+----------+------------------+------------
      1 |      -1 | p    | p              | s    | u      |  5432 | master   | master   |                  | 
      8 |      -1 | m    | m              | s    | u      |  5432 | standby  | standby  |                  | 
      2 |       0 | p    | p              | s    | u      | 40000 | segment1 | segment1 |            43000 | 
      5 |       0 | m    | m              | s    | u      | 41000 | segment2 | segment2 |            42000 | 
      3 |       1 | p    | p              | s    | u      | 40000 | segment2 | segment2 |            43000 | 
      6 |       1 | m    | m              | s    | u      | 41000 | master   | master   |            42000 | 
      4 |       2 | p    | p              | s    | u      | 40000 | master   | master   |            43000 | 
      7 |       2 | m    | m              | s    | u      | 41000 | segment1 | segment1 |            42000 |
    dbtest=# select * from pg_filespace_entry;  --可以看到最后四行被更新了
     fsefsoid | fsedbid |        fselocation        
    ----------+---------+---------------------------
         3052 |       2 | /data/primary/gpseg0
         3052 |       3 | /data/primary/gpseg1
         3052 |       1 | /data/master/gpseg-1
         3052 |       5 | /data/mirror/gpseg0
         3052 |       7 | /data/mirror/gpseg2
         3052 |       8 | /data/master/gpseg-1
        16471 |       1 | /data/fspc_master/gpseg-1
        16471 |       2 | /data/fspc_primary/gpseg0
        16471 |       3 | /data/fspc_primary/gpseg1
        16471 |       5 | /data/fspc_mirror/gpseg0
        16471 |       7 | /data/fspc_mirror/gpseg2
        16471 |       8 | /data/fspc_master/gpseg-1
         3052 |       4 | /data/primary/gpseg2
        16471 |       4 | /data/fspc_primary/gpseg2
         3052 |       6 | /data/mirror/gpseg1
        16471 |       6 | /data/fspc_mirror/gpseg1

九、移除segment节点
  # 移除segment节点有两种方式，第一种是采用替换segment的步骤将要移除的segment的实例迁移到其他segment节点；第二种是全备数据库，删除节点后重新恢复数据，
  大数据量场景下耗时长。以下操作是第二种，将master上的segment节点移除掉(这里的移除的segment是包含了primary和mirror的，
  若只有primary则第四步中不需要执行update操作，第五步不用# gprecoverseg恢复操作)。
  1)备份数据库
    # gp_dump --gp-d=/home/gpadmin/backup dbtest  --该命令会备份每个segment的自己那部分数据在各自节点的指定目录下
  2)关闭数据库
    # gpstop -a
  3)master模式启动数据库
    # gpstart -m
  4)登录数据库
    # PGOPTIONS="-c gp_session_role=utility" psql -d dbtest
    # set allow_system_table_mods='dml'; --获取修改系统表的权限
    # delete from gp_segment_configuration where dbid in (4,6);
    # update gp_segment_configuration set content = 1 where dbid = 7;
    # delete from pg_filespace_entry where fsedbid in (4,6);
    # update pg_filespace_entry set fselocation='/data/mirror/gpseg1' where fsefsoid=3052 and fsedbid=7;
    # update pg_filespace_entry set fselocation='/data/fspc_mirror/gpseg1' where fsefsoid=16471 and fsedbid=7;
    # gpstop -m
  5)启动数据库并查看节点是否删除，并且执行同步操作恢复mirror
    # gpstart -a
    # gpstate -s
    # gprecoverseg
    # gpstate -e
    # gpstate -m
  6)恢复数据，只需要将移除节点上backup目录下的数据重分布到集群即可。
    # psql dbtest -f /home/gpadmin/backup/gp_dump_0_*

十、常用SQL和数据导入导出
  1.远程登录
    # create role usertest password 'test123' createdb login; //创建用户并授予登录和创建数据库的权限
    # alter role gpadmin with password ‘gpadmin’;
    # select rolname,oid from pg_roles; //查看用户信息
    # vi pg_hba.conf //添加以下内容
    host    all     gpadmin         192.168.156.145/32   md5
    # gpstop -u  //重新加载后才能使之生效，不需要重启数据库
    # psql -d dbtest -U gpadmin -h master -p 5432
  2.查看数据库集群的数据分布情况
    # select gp_segment_id,count(*) from tt group by 1 order by 1;
     gp_segment_id | count 
    ---------------+-------
                 0 |     4
                 1 |     5
                 2 |     3
  3.查看表空间和文件空间对应关系，默认只有pg_segment一个文件空间，上面有pg_default和pg_global两个表空间
    # select a.spcname,b.fsname from pg_tablespace a,pg_filespace b where spcfsoid=b.oid;
  4.新建表空间
    1)先创建文件空间,master节点和所有segment节点
    # mkdir /data/fspc_master && chown -R gpadmin.gpadmin /data/fspc_master  (master和standby节点都要创建)
    # gpssh -f seg_hosts -e 'mkdir /data/fspc_primary'
    # gpssh -f seg_hosts -e 'mkdir /data/fspc_mirror'
    # gpssh -f seg_hosts -e 'chown -R gpadmin.gpadmin /data/fspc_primary'
    # gpssh -f seg_hosts -e 'chown -R gpadmin.gpadmin /data/fspc_mirror'
    2)创建文件空间
    # gpfilespace
    # 输入表空间的名字，名字随便起，但是不能使用gp_开头，输入：tablespace1
    # 输入Segment节点的文件空间目录：/data/fspc_primary
    # 输入Mirror节点的文件空间目录：/data/fspc_mirror
    # 输入Master节点的文件空间目录：/data/fspc_master
    # 生成一个类似gpfilespace_config_20180529_195239的配置文件，这个文件可以自己创建和修改
    3)正式创建文件空间
    # gpfilespace --config gpfilespace_config_20180529_195239
    4)创建完文件空间，即可在文件空间上创建表空间，创建表空间必须使用support权限用户
    # create tablespace tbs1 filespace tablespace1;
    5)设置用户默认就使用新建的表空间
    # alter role gpadmin set default_tablespace='tbs1'; 
    # grant all on tablespace tbs1 to gpadmin;
    6)在创建数据库时，指定数据库使用的默认表空间
    # create database tt tablespace tbs1;
  5.修改表字段和CTAS(create table as select)的方式创表
    # alter table tt alter column tt type bigint;
    # create table t_ctas as select * from tt;
  6.加载和卸载数据(必须要超级用户)
    # copy命令导入导出都要经过master，效率低下，适合数据量小的场景。数据量大，需要并发导入导出使用外部表gpfdist工具，
    直接从segment节点导入导出。数据加载还可以使用gpload工具，需要使用yaml语言编写gpload工具的控制文件。
    1)copy命令数据加载
    # copy tt from '/home/gpadmin/tt.txt' with delimiter ',' null '' LOG ERRORS INTO TT_ERRS SEGMENT REJECT LIMIT 100;
    # 指定null参数时，包含空值的数据可以成功加载，但是可能会遇到字段类型不匹配的情况，也就是错误数据，解决这个问题可以修改数据文件中错误的数据，
    还可以通过指定记录并跳过错误数据，将正确的数据加载到数据库，这是常用的方法，毕竟大多数情况都不知道数据文件中存在多少错误的数据，也可以修改数据文件中空数据为\N。
    2)copy命令数据卸载
    # copy tt to '/home/gpadmin/tt_output.txt' WITH DELIMITER AS ',';
    # 使用copy命令卸载数据时，空数据以\N的方式卸载，\N是null的转义
  7.查看表文件大小：
    # select pg_size_pretty(calc_partition_table('public','tt'));
    # select pg_size_pretty(pg_relation_size('tt'));
    # select pg_size_pretty(pg_database_size('dbtest'));
  8.查看活动会话：
    # select * from pg_stat_activity;
    # select pg_cancel_backend(procpid);  --杀死某次查询
    # select pg_cancel_backend(85475);
    # ps -ef | grep -i postgres | grep -i con
  9.表分析：
    # Vacuum analyze tt;
    # select * from pg_stat_user_tables where relname = 'tt';
  10.查看磁盘、数据库空间
    # SELECT * FROM gp_toolkit.gp_disk_free ORDER BY dfsegment;
    # SELECT * FROM gp_toolkit.gp_size_of_database ORDER BY sodddatname;
  11.查看日志
    # SELECT * FROM gp_toolkit.__gp_log_master_ext;
    # SELECT * FROM gp_toolkit.__gp_log_segment_ext;
  12.查看表占用空间
    # SELECT relname as name, sotdsize/1024/1024 as size_MB, sotdtoastsize as toast, sotdadditionalsize as other 
    FROM gp_toolkit.gp_size_of_table_disk as sotd, pg_class WHERE sotd.sotdoid = pg_class.oid ORDER BY relname;
  13.查看索引占用空间
    # SELECT soisize/1024/1024 as size_MB, relname as indexname FROM pg_class, gp_toolkit.gp_size_of_index 
    WHERE pg_class.oid = gp_size_of_index.soioid AND pg_class.relkind='i';
  14.查看锁
    # SELECT locktype, database, c.relname, l.relation, l.transactionid, l.transaction, l.pid, l.mode, l.granted, a.current_query 
    FROM pg_locks l, pg_class c, pg_stat_activity a WHERE l.relation=c.oid AND l.pid=a.procpid ORDER BY c.relname;
  15.查看队列
    # SELECT * FROM pg_resqueue_status;
  16.OBJECT的操作统计
    #SELECT schemaname as schema, objname as table, usename as role, actionname as action, subtype as type, statime as time FROM pg_stat_operations 
    WHERE objname = '';

十一、GP集群中表的数据分布机制以及同步机制
  1)GreenPlum数据库支持hash分布(DISTRIBUTED BY)和随机分布(DISTRIBUTED RANDOMLY)两种分布策略，hash分布会计算分布键的hash值，
  相似的hash值的数据会放到同一个Segment节点上，和hash分区算法有些类似，这样，同样的分布键的数据肯定会分布到同一个Segment节点，
  这样在多表关联的时候，如果关联字段都是分布键，就可以在每个Segment节点关联后，Segment节点把结果发送到Master节点，再由Master节点汇总，
  将最终的结果返还客户端。而随机分布则不能保证同样分布键的数据分布在同一个Segment节点上，这样在表关联的时候，就需要将数据发送到所有Segment节点去做运算，
  这样网络传输和大量数据运算都需要较长的时间，性能非常低下，GreenPlum数据库不建议需要多表关联的表使用随机分布，也不推荐使用随机分布。
  还有一点，因为每个Segment节点都是独立的PostgreSql数据库，只能保证在单个Segment几点的数据唯一性，而随机分布不能保证整体数据的唯一性，
  而hash分布，相同分布键的数据会分配到同一个Segment节点，这样在单个Segment节点保证数据唯一性，也就保证了整体数据的唯一性。hash分布也是GreenPlum数据库的默认分布方式。
  2)建表时如果不指定分布键和分布策略，如果表中包含主键，默认会选择主键为分布键，如果表上有唯一约束但没有主键，那么默认选择唯一字段作为分布键，
  否则默认使用第一个字段作为分布键，并且使用hash分布策略。GreenPlum数据库不支持同时存在两个唯一的字段(复合主键除外)。如果建表时指定的分布键不是主键，
  那么GreenPlum会把表的分布键改为主键字段，而不是指定的字段，但是SQL语句中指定的分布键必须包含主键字段，而且主键字段必须在SQL指定的分布键的第一列出现才可以，
  否则会导致SQL无法成功运行。另外，随机分布不支持主键和唯一键，因为随机分布保证不了整体数据的唯一性。
  3)master和standby之间是使用流复制机制同步数据的，同步的是元数据，所以一般情况下同步很快完成。segment的primary和mirror之间是采用文件同步的方式。
  4)greenplum的两种节点分布模式：grouped和spread。grouped模式，默认的节点分布方式，主机的mirror节点全部放在下一个主机上，在segment主机数非常多的情况下，
  至少允许两台主机挂掉；spread模式，主机的第一个mirror在下个主机，第二个mirror在次下个主机，第三mirror在次次下个主机，在segment主机数非常多的情况下，
  只可以挂掉一台主机。执行初始化命令：gpinitsystem加上-S，节点分布方式为spread，如：# gpinitsystem -c gpinitsystem_config -h seg_hosts -S
  或者是：# gpexpand -f new_seg -S。

转载于:https://www.cnblogs.com/wsjhk/p/9116975.html

你可能感兴趣的:(数据库,运维,shell)

mongodb清理删除历史数据程序员
批量清理mongodb历史数据清理程序的原来目前项目组上很多平台上线历史数据积压，导致入库查询数据缓慢，历史数据有些已经归档，进行历史数据清理删除。之前临时写shell脚本，太简陋，重新使用Python进行改造，新增备份功能，和配置文件删除指定字段和时间范围内数据。代码篇#!/usr/local/python3/bin/python3importconfigparser,logging.confi
Hana 到 PostgreSQL 数据迁移同步
简述SAPHana与PostgreSQL已成为许多企业常用的两款重要数据库，实现这两者之间高效稳定的数据传输也是许多企业的诉求之一。本文将介绍如何使用国产数据迁移同步工具CloudCanal构建一条Hana到PostgreSQL的数据同步链路。技术点表级别CDC表CloudCanal在实现Hana源端增量同步时，最初采用的是单CDC表的模式，即所有订阅表的增量数据（插入、更新、删除）通过触发器统一
Grape-RAG disgare AI ai
Grape-RAG传统RAG的局限性图的优点用知识图谱来呈现数据关系GraphRAG传统RAG的局限性经典的RAG架构以向量数据库（VectorDB）为核心来检索语义相似性上下文，让大语言模型（LLM）不需要重新训练就能够获取最新的知识，其工作流如下图所示：这一架构目前广泛应用于各类AI业务场景中，例如问答机器人、智能客服、私域知识库检索等等。虽然RAG通过知识增强一定程度上缓解了LLM幻觉问题，
JSONObject解析数据库Date类型报错问题知忆_IS 数据库 java database postgresql
JSONObject解析数据库Date类型报错问题最近项目在写服务器后端查询空间数据的接口时，由于表结构不一致，直接写了一个通用函数用json储存数据库中查询的结果，然而今天前端查询一个表的时候无法查到相应的结果，查了一下代码发现爆了如下错误。报错：Causedby:java.lang.IllegalArgumentExceptionatjava.sql.Date.getHours原因是该表中存在
关于ArcEngine10二次开发，如何在插件窗体内实现如同ArcMap一样的保存数据对话框功能（附源码）装疯迷窍_A c#arcgis
关于ArcEngine10二次开发，如何在插件窗体内实现如上图所示的与ArcMap一样的保存数据对话框功能？首先，Windows窗体工具箱的SaveFileDialog对话框肯定不行，此对话框虽然可以自定义文件保存类型（保存shp文件可以），但是无法保存MDB和GDB数据库文件。其次，在网上找了很久，都未找到问题的解决方案。本着求人不如求己的原则，最后还是通过查询ArcObjectsHelpfor
UniCloud 完整入门指南九情丶 uni-app 前端
UniCloud完整入门指南目录什么是UniCloud为什么选择UniCloud快速开始基础概念核心功能最佳实践常见问题高级功能详解开发工具部署和运维最新特性和更新什么是UniCloudUniCloud是DCloud推出的基于serverless模式和js编程的云开发平台。它让不会后端的前端工程师可以快速完成整栈开发，让开发者专注于业务实现，而无需关心服务器运维等繁琐事务。主要特点基于server
Mybatis总结（一）（简单介绍） weixin_34326429 java 数据库
1.1MyBatis介绍MyBatis本是apache的一个开源项目iBatis,2010年这个项目由apachesoftwarefoundation迁移到了googlecode，并且改名为MyBatis，实质上Mybatis对ibatis进行一些改进。MyBatis是一个优秀的持久层框架，它对jdbc的操作数据库的过程进行封装，使开发者只需要关注SQL本身，而不需要花费精力去处理例如注册驱动、创
mybatis架构原理章绍龙 java基础
1、mybatis配置SqlMapConfig.xml，此文件作为mybatis的全局配置文件，配置了mybatis的运行环境等信息。mapper.xml文件即sql映射文件，文件中配置了操作数据库的sql语句。此文件需要在SqlMapConfig.xml中加载。SqlMapConfig.xml是mybatis的核心文件。mybatis将dao层与sql语句分离开来，虽然写的时候分离开来了，但是执
动手写分布式缓存 11 qq_50996930 Go语言学习专栏分布式缓存
main函数实现定义一个map模拟数据库。varmysql=map[string]string{"Tom":"630","Jack":"589","Sam":"567",}为多个端口处创建rpc服务服务名就是ip+端口。将各个服务器的ip+端口加到每个服务器的哈希环里。为每个服务器创建缓存池组。缓存池组和rpc服务绑定。持续监听端口addrs:=[]string{"localhost:9999",
青少年编程与数学 02-007 PostgreSQL数据库应用 12课题、存储过程编写明月看潮生编程与数学第02阶段数据库青少年编程 postgresql 编程与数学
青少年编程与数学02-007PostgreSQL数据库应用12课题、存储过程编写一、存储过程二、分类三、创建四、调用五、修改六、删除七、应用示例八、内置存储过程课题摘要:本课题详细介绍了PostgreSQL中存储过程的编写和操作。存储过程是一系列SQL语句的集合，可作为单元保存在数据库中，用于执行数据查询、更新、插入和删除等操作。它们具有封装性、提高性能、增强安全性、事务管理、参数化和返回结果等特
hive电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 毕业设计大数据毕设计算机毕业设计 hive spring boot 爬虫
hive电影数据分析Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示+[手把手视频教程和开发文档]【功能介绍】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.MR数据清洗data.csv4.Hive汇总处理,将Hive处理的结果数据保存到本地Mysql数据库中5.Springboot+Vu
hadoop电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 计算机毕业设计毕业设计大数据毕设 hadoop spring boot 爬虫
全套视频教程全套开发文档hadoop电影数据分析系统Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示【Hadoop项目】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.data.csv数据清洗4.MR数据汇总处理,将Reduce的结果数据保存到本地Mysql数据库中5.Springboot
spark电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 毕业设计大数据毕设计算机毕业设计 spark spring boot 爬虫大数据电影推荐电影分析
spark电影数据分析系统Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示+[手把手视频教程和开发文档【功能介绍】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.MR数据清洗data.csv4.Spark汇总处理,将Spark处理的结果数据保存到本地Mysql数据库中5.Springboo
SeaTunnel 与 DataX 、Sqoop、Flume、Flink CDC 对比不二人生 #数据集成工具 SeaTunnel
文章目录SeaTunnel与DataX、Sqoop、Flume、FlinkCDC对比同类产品横向对比2.1、高可用、健壮的容错机制2.2、部署难度和运行模式2.3、支持的数据源丰富度2.4、内存资源占用2.5、数据库连接占用2.6、自动建表2.7、整库同步2.8、断点续传2.9、多引擎支持2.10、数据转换算子2.11、性能2.12、离线同步2.13、增量同步&实时同步2.14、CDC同步2.15
使用宝塔面板以jar包方式部署SpringBoot个人博客（以IP+端口号访问） emmastone 部署 spring boot ssh centos 服务器
使用宝塔面板以jar包方式部署SpringBoot个人博客购买阿里云服务器ECS在服务器端创建数据库修改SpringBoot项目的配置文件上传jar包和配置文件到服务器同一个目录下放行相关端口号首先需要在阿里云的控制台放行相关端口号然后在宝塔面板的安全放行相关端口号购买阿里云服务器ECS购买ECS服务器时，选择附带宝塔面板的，会默认安装好LAMP（Apache+Mysql+php），只需在安装to
什么是ShardingSphere的关联表？ java1234_小锋 java ShardingSphere
大家好，我是锋哥。今天分享关于【什么是ShardingSphere的关联表？】面试题。希望对大家有帮助；什么是ShardingSphere的关联表？1000道互联网大厂Java工程师精选面试题-Java资源分享网在ShardingSphere中，关联表（也叫做跨库跨表查询）是指多个表之间通过关联查询而涉及到的表。当你在进行数据库分片时，可能会遇到多个表需要通过外键、联合查询等方式进行连接的情况。S
MySQL有哪些高可用方案? java1234_小锋 mysql mysql 数据库
大家好，我是锋哥。今天分享关于【RMySQL有哪些高可用方案?】面试题。希望对大家有帮助；MySQL有哪些高可用方案?1000道互联网大厂Java工程师精选面试题-Java资源分享网MySQL的高可用方案可以帮助确保数据库在发生故障时仍能持续提供服务，避免单点故障带来的影响。以下是一些常见的MySQL高可用方案：1.主从复制（Master-SlaveReplication）概述：主从复制是最常见的
如何实现亿级用户在线状态统计？繁川 Java面试精选数据库 android
亿级用户在线场景分析与解决方案目录亿级用户在线场景分析解决方案2.1基于总数的统计方案2.2基于具体用户详情的统计方案具体实现3.1基于总数的统计方案3.2基于用户标识的统计实现3.3SpringBoot中的实现总结1.亿级用户在线场景分析以QQ在线状态统计为例，其典型特征包括：数据量大、内存占用高、实时性要求高。传统的解决方案（如在数据库中为每个用户添加一个在线状态字段，上线设为1，下线设为0）
ITIL运维管理体系是什么？怎样选择合适的方案？运维
ITIL是一组综合的最佳实践，用于帮助企业向客户交付IT服务。ITIL使企业组织能够根据业务需求调整IT资源，从而使客户价值最大化。它通过衡量、监控、优化IT服务与服务提供商的表现来降低成本，并向企业展示如何轻松地实现标准化服务管理。虽然每个企业组织在IT基础设施和治理方面都不相同，但ITIL的指导方针足够灵活，可以帮助任何企业组织实现其服务管理目标。高效的IT运维管理对于企业的稳定运行至关重要。
2025毕设springboot MVC框架下的精品课程管理平台论文+源码 zhihao501 课程设计 spring boot mvc
本系统（程序+源码）带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容研究背景在教育信息化的大背景下，精品课程管理平台的构建成为提升教学质量和效率的重要手段。当前，许多高校和教育机构仍然采用传统的课程管理方式，不仅效率低下，还难以满足学生日益增长的个性化学习需求。SpringBootMVC框架作为一种轻量级、高效的JavaWeb开发框架，以其简洁的设计理
【大模型】Spring AI对接ChatGpt使用详解小码农叔叔微服务治理与实战 springboot 入门到精通 spring spring ai Aspring Ai spring ai对接gpt spring ai整合gpt spring ai使用详解 spring ai使用
目录一、前言二、springai介绍2.1什么是SpringAI2.2SpringAI特点2.3SpringAI为开发带来的便利2.4SpringAI应用领域2.4.1聊天模型2.4.2文本到图像模型2.4.3音频转文本2.4.4嵌入大模型使用2.4.5矢量数据库支持2.4.6用于数据工程ETL框架三、SpringAI对接ChatGPT3.1前置准备3.2添加依赖3.3接入流程3.3.1配置文件3
ent.SetDatabaseDefaults() yngsqq CAD C#二次开发数据库
在AutoCAD的.NETAPI中，ent.SetDatabaseDefaults()这句代码通常用于将一个实体（Entity）对象的属性设置为与其所在的数据库（Database）的默认设置相匹配。这意味着，该实体将采用数据库级别的默认颜色、图层、线型等属性，除非这些属性已经被显式地设置为了其他值。这里的ent是一个代表AutoCAD中实体的变量，它可能是Entity类或其任何子类的实例，如Lin
【YashanDB知识库】YashanDB与Oracle数据类型对齐数据库
本文内容来自YashanDB官网，原文内容请见https://www.yashandb.com/newsinfo/7253737.html?templateId=171...关于参数USE\_NATIVE\_TYPE在迁移基于Oracle数据库的应用时，有时会遇到应用代码中定义的数据类型与YashanDB返回数据类型不匹配的问题，可以尝试在创建数据库的时候指定参数USE\_NATIVE\_TYPE
【YashanDB知识库】锁冲突检查数据库
本文内容来自YashanDB官网，原文内容请见https://www.yashandb.com/newsinfo/7253740.html?templateId=171...应用并发操作时，可能发生锁冲突。常见的有行锁冲突、表锁冲突，比如更新同一条记录会出现行锁等待。可以使用下面语句检查当前数据库是否正在发生锁冲突，如果有的话，可以列出哪些应用在申请锁、申请什么样的锁，以及申请的锁被哪些应用持有。
大数据学习(36)- Hive和YARN viperrrrrrr 大数据学习 hive
&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦当客户端提交SQL作业到HiveServer2时，HiveServer2会根据用户提交的SQL作业及数据库中现有的元数据信息生成一份可供计算引擎执行的计划。每个执行计划对应若干MapReduce作业，Hive会将所有的MapReduce作业都提交到YARN中。Y
windows 10 32bit 配置Python编程环境 wangbingfeng0 tools maintenance
确认系统架构点击桌面左下角的搜索按钮，输入cmd运行命令行界面（CommandPrompt）；在命令行界面输入wmicCPUgetDataWidth↩︎，返回的是CPU的架构，64或32位；在命令行界面输入wmicOSgetOSArchitecture↩︎，返回的是Windows操作系统架构，64或32位。确认PowerShell版本PowerShell是Windows下的增强命令行环境，也是我们
rac 架构和原理羽之大公公 oracle 数据库开发 dba mysql
单点数据库VSRAC单节点数据库，如果实例宕机了，如果一个业务链接在实例上面，那么这个业务就中断了。这个时候系统就不具有可用性了，那么这个时候单节点的可用性是很差的。对于RAC来说，和单实例一样，还是一份数据文件，都是相同的存储上面放着oracle的文件，但是是由三个实例共用同一份数据文件。这样的好处是在三个实例之间做了冗余，在上面三个实例当中任意两个坏了业务都可以链接到剩下的一个实例，都可以
kafka学习笔记2 —— 筑梦之路筑梦之路 Java技术 linux系统运维 kafka 学习笔记
KRaft模式Kafka的KRaft模式是一种新的元数据管理方式，旨在去除对ZooKeeper的依赖，使Kafka成为一个完全自包含的系统。在Kafka的传统模式下，元数据管理依赖于ZooKeeper，这增加了部署和运维的复杂性。为了解决这个问题，Kafka社区引入了KRaft模式。在KRaft模式下，所有的元数据，包括主题、分区信息、副本位置等，都被存储在Kafka集群内部的特殊日志中。这个日志
Oracle 数据库中的内容加密与解密 dbms_crypto 软猫克鲁 SQL相关 SQL Oracle oracle 解密加密数据库
Oracle数据库中的内容加密与解密说起来Oracle中有很多涉及加密解密的东西，今天说的这个是dbms_crypto。有没有遇到过这样的应用场景，需要将一些敏感数据字段脱敏之后发送给下游。之后下游处理完其他数据之后会携带这个脱敏字段再发回给你，你再用这些敏感信息还原出原始的值匹配更新原来的数据。最近我就遇到了。找了一下，Oracle还真有类似的包：dbms_crypto，使用这个包需要管理员登录
深度挖掘：Oracle RAC数据库架构分析与实战攻略拟声的主扬专题数据库 oracle rac 性能优化网络备份
深度挖掘：OracleRAC数据库架构分析与实战攻略本书内容从集群概念入手，深入RAC原理和结构进行分析，结合存储和网络传输知识，全面讲解小机集群数据库RAC的安装示例，探讨RAC的管理和维护，详述备份恢复，并从故障诊断方法展开，细说性能优化的几个方面，再到Oracle最高可用架构的延伸。对其内容详细阅读
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它