肥叔菌

Greenplum Python专用库gppylib学习——GpArray

gparray.py依赖的python包（datetime、copy、traceback、os），依赖的gp包（gplog、utils、db、gpversion、commands.unix）

from datetime import date
import copy
import traceback
from gppylib.utils import checkNotNone, checkIsInt
from gppylib    import gplog
from gppylib.db import dbconn
from gppylib.gpversion import GpVersion
from gppylib.commands.unix import *
import os

代码分析

QD(Query Dispatcher)包含master和standby master，QE(Query Executor)包含primary和mirror。每个posgres数据库的信息使用GpDB对象表示。Segment对象代表primaryDB和其对应的零个、一个或多个mirrorDB。GpArray对象就是master、standbyMaster和多个Segmnet对象的组合。

GpDB类

GpDB类是单个dbid所指的postgres数据库实例的配置信息。其余成员都可以很好地理解，这里说说__filespaces成员是存放key为数据库对象oid，value为其数据库对象的文件目录路径的字典。因此GpDB类构造函数的datadir是SYSTEM_FILESPACE(oid为3052)所处的文件路径。

class GpDB:
    def __init__(self, content, preferred_role, dbid, role, mode, status, hostname, address, port, datadir, replicationPort):
        self.content=content
        self.preferred_role=preferred_role
        self.dbid=dbid
        self.role=role
        self.mode=mode
        self.status=status
        self.hostname=hostname
        self.address=address
        self.port=port
        self.datadir=datadir
        self.replicationPort=replicationPort
        # Filespace mappings for this segment
        self.__filespaces = {
      SYSTEM_FILESPACE: datadir }  # SYSTEM_FILESPACE oid of the system filespace 3052
        # Pending filespace creation
        self.__pending_filespace = None
        # Catalog directory for each database in this segment
        self.catdirs = None
        # Todo: Remove old dead code
        self.valid = (status == 'u')
    def __str__(self):  # 构造GpDB类可打印的字符串表示
    def __repr__(self):
        fsOids = [oid for oid in self.__filespaces]   # 取出__filespaces中所有的key，及数据库对象对应的oid
        fsOids.sort() # sort for determinism
        filespaces = []
        for fsoid in fsOids:
            if fsoid not in [SYSTEM_FILESPACE]:
                filespaces.append("%d:%s" % (fsoid, self.__filespaces[fsoid])) # 以oid:datadir字符串为item，放入filespaces
        return '%d|%d|%s|%s|%s|%s|%s|%s|%d|%s|%s|%s|%s' % (self.dbid,self.content,self.role,self.preferred_role,self.mode,self.status,self.hostname,self.address,self.port,self.replicationPort,self.datadir,','.join(filespaces),','.join(self.catdirs) if self.catdirs else [])    
    def __cmp__(self,other):  # 使用__reper__函数序列化GpDB对象，并进行比较
    def equalIgnoringModeAndStatusAndReplicationPort(self, other):  # 如果核心属性(比如filespace)都相同则返回true，该方法在updateSystemConfig函数调用（在移除mirror segment或再添加mirror segmnet时会造成catalog改变）
    def copy(self):
    def isSegmentQD(self):
    def isSegmentMaster(self, current_role=False):
    ...
    def isSegmentModeInResynchronization(self):
    def getSegmentDbId(self):
    def getSegmentContentId(self):
    ...
    def getSegmentFilespaces(self):
    def setSegmentDbId(self, dbId):
    def setSegmentContentId(self, contentId):
    ...
    def setSegmentDataDirectory(self, dataDirectory):
    def addSegmentFilespace(self, oid, path):
    def getSegmentPendingFilespace(self): 
    @staticmethod  
    def getDataDirPrefix(datadir):
        retValue = ""
        retValue = datadir[:datadir.rfind('/')]
        return retValue

成员变量createTemplate函数创建GpDB的信息的模板，第一步确保dstDir有足够的空间存放segment和其filespace（通过fillespaces中存放的oid和dirpath，查询各数据库对象所对应的空间占用大小）；第二步获取磁盘空闲空间（DiskFree.get_size_local(name = "Check for available free space for segment template", directory = dstDir)）；第三步使用LocalDirCopy类对象将segment数据目录拷贝到目标目录dstDir；第四步先判别__filespaces中除了SYSTEM_FILESPACE(oid为3052)之外是否还有其他数据库对象，如果有，先判别dstDir + "/fs_directory"目录是否存在，不断将fillespaces中存放的dirpath中的目录在目标路径进行创建，数据库对象文件进行拷贝；第五步，删除目标路径下的gp_dbid文件（dstDir + ‘/gp_dbid’），对dstDir设置0700权限。

    def createTemplate(self, dstDir):
        # Make sure we have enough room in the dstDir to fit the segment and its filespaces.
        duCmd = DiskUsage(name = "srcDir", directory = dstDir)
        duCmd.run(validateAfter=True)
        requiredSize = duCmd.get_bytes_used()
        name = "segcopy filespace get_size"
        for oid in self.__filespaces:
            if oid == SYSTEM_FILESPACE:
                continue
            dir = self.__filespaces[oid]
            duCmd = DiskUsage(name, dir)
            duCmd.run(validateAfter=True)
            size = duCmd.get_bytes_used()
            requiredSize = requiredSize + size
        dstBytesAvail = DiskFree.get_size_local(name = "Check for available free space for segment template", directory = dstDir)
        if dstBytesAvail <= requiredSize:
            raise Exception("Not enough space on directory: '%s'.  Currently %d bytes free but need %d bytes." % (dstDir, int(dstBytesAvail), int(requiredSize)))
        logger.info("Starting copy of segment dbid %d to location %s" % (int(self.getSegmentDbId()), dstDir))
        cpCmd = LocalDirCopy("Copy system data directory", self.getSegmentDataDirectory(), dstDir)
        cpCmd.run(validateAfter = True)
        res = cpCmd.get_results()
        if len(self.__filespaces) > 1:
            """ Make directory to hold file spaces """
            fullPathFsDir = dstDir + "/" +  DESTINATION_FILE_SPACES_DIRECTORY # DESTINATION_FILE_SPACES_DIRECTORY = "fs_directory"
            cmd = FileDirExists( name = "check for existance of template filespace directory", directory = fullPathFsDir)
            cmd.run(validateAfter = True)
            MakeDirectory.local("gpexpand make directory to hold file spaces", fullPathFsDir)
            for oid in self.__filespaces:
                MakeDirectory.local("gpexpand make directory to hold file space oid: " + str(oid), fullPathFsDir)
                dir = self.__filespaces[oid]
                destDir = fullPathFsDir + "/" + str(oid)
                MakeDirectory.local("gpexpand make directory to hold file space: " + destDir, destDir)
                name = "GpSegCopy %s to %s" % (dir, destDir)
                cpCmd = LocalDirCopy(name, dir, destDir)
                cpCmd.run(validateAfter = True)
                res = cpCmd.get_results()
            # Remove the gp_dbid file from the data dir
            RemoveFile.local('Remove gp_dbid file', os.path.normpath(dstDir + '/gp_dbid'))
            logger.info("Cleaning up catalog for schema only copy on destination")
            # We need 700 permissions or postgres won't start
            Chmod.local('set template permissions', dstDir, '0700')

静态成员函数initFromString(s)为工厂函数，从字符串中初始化GpDB对象，该字符串和repr()输出兼容。

    @staticmethod
    def initFromString(s):
        tup = s.strip().split('|')
        # Old format: 8 fields    Todo: remove the need for this, or rework it to be cleaner
        if len(tup) == 8:
            # This describes the gp_configuration catalog (pre 3.4)
            content         = int(tup[0])
            ...
            datadir         = tup[7]
            # Calculate new fields from old ones           
            # Note: this should be kept in sync with the code in
            # GpArray.InitFromCatalog() code for initializing old catalog
            # formats.
            preferred_role  = ROLE_PRIMARY if definedprimary else ROLE_MIRROR
            role            = ROLE_PRIMARY if isprimary else ROLE_MIRROR
            hostname        = None
            mode            = MODE_SYNCHRONIZED       # ???
            status          = STATUS_UP if valid else STATUS_DOWN
            replicationPort = None
            filespaces      = ""
            catdirs         = ""
        # Catalog 3.4 format: 12 fields
        elif len(tup) == 12:
            # This describes the gp_segment_configuration catalog (3.4)
            dbid            = int(tup[0])
            ...     
            catdirs         = ""
        # Catalog 4.0+: 13 fields
        elif len(tup) == 13:
            # This describes the gp_segment_configuration catalog (3.4+)
            dbid            = int(tup[0])
            ...
            catdirs         = tup[12]
        else:
            raise Exception("GpDB unknown input format: %s" % s)
        # Initialize segment without filespace information
        gpdb = GpDB(content=content,preferred_role=preferred_role,dbid=dbid,role=role,mode=mode,status=status,hostname=hostname,address=address,port=port,datadir=datadir,replicationPort=replicationPort)
        # Add in filespace information, if present
        for fs in filespaces.split(","):
            if fs == "":
                continue
            (fsoid, fselocation) = fs.split(":")
            gpdb.addSegmentFilespace(fsoid, fselocation)
        # Add Catalog Dir, if present
        gpdb.catdirs = []
        for d in catdirs.split(","):
            if d == "":
                continue
            gpdb.catdirs.append(d)
        # Return the completed segment
        return gpdb

Segment类

Segment类代表相同contentID的SegmentDBs，目前至多一个primary SegDB和单个mirror SegDB，在后续版本中会支持多mirror SegDB。

class Segment:
    primaryDB=None #primary (GpDB实例)
    mirrorDBs =None
    def __init__(self):
        self.mirrorDBs = [] #mirror (GpDB实例)
        pass
    def addPrimary(self,segDB) #设置primary
    def addMirror(self,segDB) #追加mirror
    def get_dbs(self) #返回Primary和Mirror实例组成的列表（GpDB实例列表）
    def get_hosts(self) #返回Primary和Mirror所在主机的主机名的列表
    def is_segment_pair_valid(self):
    """Validates that the primary/mirror pair are in a valid state"""
        for mirror_db in self.mirrorDBs:
            prim_status = self.primaryDB.getSegmentStatus()
            prim_mode = self.primaryDB.getSegmentMode()
            mirror_status = mirror_db.getSegmentStatus()
            mirror_role = mirror_db.getSegmentMode()
            if (prim_status, prim_mode, mirror_status, mirror_role) not in VALID_SEGMENT_STATES:
                return False
        return True

primary和mirror对的合法状态如下，各个字段含义如下：primaryDB.getSegmentStatus、primaryDB.getSegmentMode、mirror_db.getSegmentStatus、mirror_db.getSegmentMode。
VALID_SEGMENT_STATES = [
(STATUS_UP, MODE_CHANGELOGGING, STATUS_DOWN, MODE_SYNCHRONIZED),
(STATUS_UP, MODE_CHANGELOGGING, STATUS_DOWN, MODE_RESYNCHRONIZATION),
(STATUS_UP, MODE_RESYNCHRONIZATION, STATUS_UP, MODE_RESYNCHRONIZATION),
(STATUS_UP, MODE_SYNCHRONIZED, STATUS_UP, MODE_SYNCHRONIZED)
]

primaryDB状态为up，模式为CHANGELOGGING，mirrorDB状态为down，模式可以为SYNCHRONIZED、RESYNCHRONIZATION
primaryDB状态为up，模式为RESYNCHRONIZATION，mirrorDB状态为up，模式为RESYNCHRONIZATION
primaryDB状态为up，模式为SYNCHRONIZED，mirrorDB状态为up，模式为SYNCHRONIZED
如果要返回primaryDB的主机名，可使用segment1.primaryDB.getSegmentHostName()。

GpArray类

GpArray类构造函数接受包含QD和QE的GpDB的列表segments，

class GpArray:
    def __init__(self, segments, segmentsAsLoadedFromDb=None, strategyLoadedFromDb=None):
        self.master =None  #GpDB实例
        self.standbyMaster = None #GpDB实例
        self.segments = [] #Segment实例列表
        self.expansionSegments=[]
        self.numPrimarySegments = 0
        self.recoveredSegmentDbids = []
        self.__version = None
        self.__segmentsAsLoadedFromDb = segmentsAsLoadedFromDb
        self.__strategyLoadedFromDb = strategyLoadedFromDb
        self.__strategy = FAULT_STRATEGY_NONE  # FAULT_STRATEGY_NONE = 'n'  # mirrorless systems  无mirror系统     
        self.setFilespaces([])
        for segdb in segments:
            # Handle QD nodes   # 处理QD节点
            if segdb.isSegmentMaster(True):
                if self.master != None:
                    logger.error("multiple master dbs defined")
                    raise Exception("GpArray - multiple master dbs defined")
                self.master = segdb
            elif segdb.isSegmentStandby(True):
                if self.standbyMaster != None:
                    logger.error("multiple standby master dbs defined")
                    raise Exception("GpArray - multiple standby master dbs defined")
                self.standbyMaster = segdb
            # Handle regular segments   # 处理QE节点
            elif segdb.isSegmentQE():
                if segdb.isSegmentMirror():
                    self.__strategy = FAULT_STRATEGY_FILE_REPLICATION  # FAULT_STRATEGY_FILE_REPLICATION = 'f'   # valid for versions 4.0+ # 有mirror节点
                self.addSegmentDb(segdb)
            else:
                # Not a master, standbymaster, primary, or mirror?
                # shouldn't even be possible.
                logger.error("FATAL - invalid dbs defined")
                raise Exception("Error: GpArray() - invalid dbs defined")
        # Make sure we have a master db
        if self.master is None:
            logger.error("FATAL - no master dbs defined!")
            raise Exception("Error: GpArray() - no master dbs defined")  
    def __str__(self):
    def hasStandbyMaster(self):
    def addSegmentDb(self, segdb): # segdb是GpDB实例，向self.segments中加入新的segment或向原有的segment对象添加GpDB实例（addPrimary或addMirror）
    def isStandardArray(self):
    def is_array_valid(self):
    def dumpToFile(self, filename):
    def setFaultStrategy(self, strategy):
    def getFaultStrategy(self):
    ....

initFromCatalog从数据库中获取GpArray对象的数据成员的数据，形参为数据库URL，设置utility模式。主要是一些查找数据库状态信息的SQL，作为DBA需要收集学习这些SQL，以备后续学习运维使用。

    @staticmethod
    def initFromCatalog(dbURL, utility=False):
        conn = dbconn.connect(dbURL, utility)
        # Get the version from the database:
        version_str = None
        for row in dbconn.execSQL(conn, "SELECT version()"):
            version_str = row[0]
        version = GpVersion(version_str)
        if version.getVersionRelease() in ("3.0", "3.1", "3.2", "3.3"):
            # In older releases we get the fault strategy using the
            # gp_fault_action guc.
            strategy_rows = dbconn.execSQL(conn, "show gp_fault_action")
            # Note: Mode may not be "right", certainly 4.0 concepts of mirroring
            # mode do not apply to 3.x, so it depends on how the scripts are
            # making use of mode.  For now it is initialized to synchronized.
            #
            # Note: hostname is initialized to null since the catalog does not
            # contain this information.  Initializing a hostcache using the
            # resulting gparray will automatically fill in a value for hostname.
            #
            # Note: this should be kept in sync with the code in
            # GpDB.InitFromString() code for initializing old catalog formats.
            config_rows = dbconn.execSQL(conn, '''
                SELECT dbid, content,case when isprimary then 'p' else 'm' end as role,
                       case when definedprimary then 'p' else 'm' end as preferred_role,
                       's' as mode,case when valid then 'u' else 'd' end as status,
                       null as hostname,hostname as address,port,null as replication_port,
                       %s as fsoid,datadir as fselocation FROM pg_catalog.gp_configuration
                ORDER BY content, preferred_role DESC
            ''' % str(SYSTEM_FILESPACE))
            # no filespace support in older releases.
            filespaceArr = []
        else:
            strategy_rows = dbconn.execSQL(conn, '''
                SELECT fault_strategy FROM gp_fault_strategy
            ''')
            config_rows = dbconn.execSQL(conn, '''
                SELECT dbid, content, role, preferred_role, mode, status,
                       hostname, address, port, replication_port, fs.oid,
                       fselocation
                FROM pg_catalog.gp_segment_configuration
                JOIN pg_catalog.pg_filespace_entry on (dbid = fsedbid)
                JOIN pg_catalog.pg_filespace fs on (fsefsoid = fs.oid)
                ORDER BY content, preferred_role DESC, fs.oid
            ''')
            filespaceRows = dbconn.execSQL(conn, '''
                SELECT oid, fsname FROM pg_filespace ORDER BY fsname;
            ''')
            filespaceArr = [GpFilespaceObj(fsRow[0], fsRow[1]) for fsRow in filespaceRows]
        # Todo: add checks that all segments should have the same filespaces?
        recoveredSegmentDbids = []
        segments = []
        seg = None
        for row in config_rows:
            # Extract fields from the row
            (dbid, content, role, preferred_role, mode, status, hostname,
             address, port, replicationPort, fsoid, fslocation) = row
            # If we have segments which have recovered, record them.
            if preferred_role != role and content >= 0:
                if mode == MODE_SYNCHRONIZED and status == STATUS_UP:
                    recoveredSegmentDbids.append(dbid)
            # The query returns all the filespaces for a segment on separate
            # rows.  If this row is the same dbid as the previous row simply
            # add this filespace to the existing list, otherwise create a
            # new segment.
            if seg and seg.getSegmentDbId() == dbid:
                seg.addSegmentFilespace(fsoid, fslocation)
            else:
                seg = GpDB(content, preferred_role, dbid, role, mode, status,
                           hostname, address, port, fslocation, replicationPort)
                segments.append(seg)
        datcatloc = dbconn.execSQL(conn, '''
            select fsloc.dbid, fsloc.fselocation || '/' || case when db.dattablespace = 1663
                      then 'base' else db.dattablespace::text end || '/'||db.oid as catloc
            from pg_Database db, pg_tablespace ts,
                 (SELECT dbid, fs.oid, fselocation
                  FROM pg_catalog.gp_segment_configuration
                  JOIN pg_catalog.pg_filespace_entry on (dbid = fsedbid)
                  JOIN pg_catalog.pg_filespace fs on (fsefsoid = fs.oid)) fsloc
                  where db.dattablespace = ts.oid
                  and ts.spcfsoid = fsloc.oid''')
        conn.close()
        catlocmap = {
     }
        for row in datcatloc:
            if catlocmap.has_key(row[0]):
                catlocmap[row[0]].append(row[1])
            else:
                catlocmap[row[0]] = [row[1]]
        for seg in segments:
            seg.catdirs = catlocmap[seg.dbid]
        origSegments = [seg.copy() for seg in segments]
        if strategy_rows.rowcount == 0:
            raise Exception("Database does not contain gp_fault_strategy entry")
        if strategy_rows.rowcount > 1:
            raise Exception("Database has too many gp_fault_strategy entries")
        strategy = strategy_rows.fetchone()[0]
        array = GpArray(segments, origSegments, strategy)
        array.__version = version
        array.recoveredSegmentDbids = recoveredSegmentDbids
        array.setFaultStrategy(strategy) # override the preliminary default `__strategy` with the database state, if available
        array.setFilespaces(filespaceArr)
        return array

initFromFile函数从文件中读取GpArray的信息，通过GpDB的initFromString函数，并使用GpArray构造函数创建GpArray对象。

    @staticmethod
    def initFromFile(filename):
        segdbs=[]
        fp = open(filename, 'r')
        for line in fp:
            segdbs.append(GpDB.initFromString(line))
        fp.close()
        return GpArray(segdbs)

使用

通过gppylib的system文件夹下提供的configurationInterface接口，注册配置Provider，并初始化Provider，通过调用loadSystemConfig函数加载GpArray对象。get_gparray_from_config函数返回GpArray对象。

def get_gparray_from_config():
    # imports below, when moved to the top, seem to cause an import error in a unit test because of dependency issue
    from gppylib.system import configurationInterface
    from gppylib.system import configurationImplGpdb
    from gppylib.system.environment import GpMasterEnvironment
    master_data_dir = os.environ['MASTER_DATA_DIRECTORY']
    gpEnv = GpMasterEnvironment(master_data_dir, False)
    configurationInterface.registerConfigurationProvider(configurationImplGpdb.GpConfigurationProviderUsingGpdbCatalog())
    confProvider = configurationInterface.getConfigurationProvider().initializeProvider(gpEnv.getMasterPort())
    return confProvider.loadSystemConfig(useUtilityMode=True)

代码来自于greenplum-db-5.27.1源代码

python 清空表格_python 清空表数据库表 weixin_39989190 python 清空表格
《Greenplum5.0最佳实践》迁移数据使用Gptransfer使用Gptransfer命令迁移一个Greenplum数据库集群中的数据到另一台集群(metradata,data)gptransfer可以迁移数据库中的全部数据或者部分选择的表到另外一台Greenplum中。源数据库和目的数据库可以在同一个集群中，也可以在不同的集群中。gp...文章whatcat2017-11-194163浏览
数仓建模（五）选择数仓技术栈：Hive & ClickHouse & 其它昊昊该干饭了数仓建模大数据 hive clickhouse hadoop
在大数据技术的飞速发展下，数据仓库（DataWarehouse，简称数仓）成为企业处理和分析海量数据的核心工具。市场上主流数仓技术栈丰富，如Hive、ClickHouse、Druid、Greenplum等，对于初学者而言，选择合适的技术栈是一项挑战。本文将详细解析Hive、ClickHouse及其他数仓技术，帮助读者根据场景需求选择最佳工具。目录一、数据仓库的基础概念和技术选型原则1.1什么是数据
greenplum资源队列李春田
文章来源https://www.cnblogs.com/pl-boke/p/9852439.html官方文档：https://gpdb.docs.pivotal.io/6-8/admin_guide/workload_mgmt.html1、创建资源队列语法Command:CREATERESOURCEQUEUEDescription:createanewresourcequeueforworkloa
makefile工程c语言工程在eclipse下如何配置头文件路径乔丹搞IT
makefile工程c语言工程在eclipse下如何配置头文件路径如果是普通的c工程，没有使用makefile管理，则参考网络上的文章。这里我使用的是eclipsecppIDE导入一个greenplum5.0.0的源码，在查看gpperfmon源码时，发现在ide中无法直接查看apr相关的头文件内容，发现apr相关的头文件在目录/usr/include/apr-1目录中。修改方法：1，修改源码，把
Greenplum数据库用正则表达式进行高效数据匹配与处理中台小A greenplum 数据库正则表达式
利用正则表达式，可以在Greenplum数据库中进行高效的数据匹配和处理。通过正则表达式函数和运算符，可以实现数据的模式匹配、数据提取、数据清洗等操作。这些功能为数据分析、数据清洗和数据转换提供了强大的工具。正则表达式简介正则表达式是一种描述文本模式的字符串。它由各种字符和操作符组成，用于匹配、查找和替换文本中的特定模式。在Greenplum数据库中，可以使用正则表达式进行模式匹配、数据提取、数据
MYSQL的读写扩展 hailang86 mysql 数据库
1.分布式数据库有很多种：采用分库分表方式将数据路由拆分到多个数据库上；以greenplum未代表的mpp数据库架构；以tidb为代表的newSQl数据库架构。2.mpp数据架构是一种处理大规模数据分析任务的分布式数据架构，大规模并行处理。当执行一条SQL语句时，会将语句发送到所有数据节点进行查询处理，利用多节点的计算能力进行计算。3.分库分表主要用于简单的业务场景，OLTP场景，onlinetr
ThreadLocal浅析早点起床晒太阳
1、背景在使用我们的ToolBox(我们公司的数据分析平台)在往greenplum使用goload入数据的时候出现了数据错乱的问题，后来定位问题发现SimpledateFormat在多线程下是线程不安全的，刚开始我用匿名对象去解决这个问题，后来发现还是用ThreadLocal去解决才能提高效率，而且能保证安全2、ThreadLocal作用ThreadLocal提供了线程的局部变量，每个线程都可以通
GreenPlum安装文档瞬即逝转
点点滴滴，简单记录。第一次写，不足之处请多包涵文档说明：1.greenplum-db5.10.2版本安装，网上有很多安装方法，本篇文档也是站在各位大牛肩膀上自己稍微整理了一下2.文档不太美观，从word复制到简述编辑器上，格式无法完美移植。特此说明：加粗处为执行命令，斜体为配置内容1安装说明名称版本操作系统CentOS6.564bitgreenplumgreenplum-db-appliance-
人麻了，刚面试入职就遇到MySQL亿级大表调优... IT邦德 Mysql 面试 mysql 职场和发展
哈喽！大家好，我是【IT邦德】，江湖人称jeames007，10余年DBA及大数据工作经验一位上进心十足的【大数据领域博主】！中国DBA联盟(ACDU)成员，目前服务于工业互联网擅长主流Oracle、MySQL、PG、高斯及Greenplum运维开发，备份恢复，安装迁移，性能优化、故障应急处理等。✨如果有对【数据库】感兴趣的【小可爱】，欢迎关注【IT邦德】❤️❤️❤️感谢各位大可爱小可爱！❤️❤️
从 Greenplum 到 Databend，万全网络数据库平台架构演进 Databend 网络数据库架构
作者：代城万全网络高级工程师，负责万全网络数据平台整体架构研发工作，拥有超过7年的大数据相关技术研发经验，一直关注着开源和云技术的发展。万全网络科技有限公司是一家专注于B端电商物流供应链的公司。致力于为客户提供全面的供应链解决方案，涵盖从产品采购到最终配送的全程服务。公司的服务包括但不限于：供应链管理，仓储与配送，信息技术支持。迁移背景在不断发展的科技环境中，企业往往需要不断调整和优化其技术基础设
StarRocks在千亿级日增数据场景下替换Greenplum的实践 StarRocks_labs 大数据数据库 sql
原Greenplum集群在进行10亿*1亿的关联查询时达到极限，无法支撑更大数据量级的关联查询。使用StarRocks替换Greenplum构建新的集群，在进行736亿*15亿的超大量级数据关联查询时，不仅可以顺利完成，并且耗时很短，对业务的整体提升巨大。一、使用背景1.1选用原因我司原有业务查询使用的数据库为Greenplum，在数据源变更后，数据量从原来的日增千万级别（近百G）暴增至日增千亿（
聊聊Greenplum的那些事 weixin_30859423 数据库 python 运维
开卷有益——作者的话原文来自http://dbaplus.cn/news-21-341-1.html有时候真的感叹人生岁月匆匆，特别是当一个IT人沉浸于某个技术领域十来年后，蓦然回首，总有说不出的万千感慨。笔者有幸从04年就开始从事大规模数据计算的相关工作，08年作为Greenplum早期员工加入Greenplum团队（当时的工牌是“005”，哈哈），记得当时看了一眼Greenplum的架构（嗯，
（转）聊聊Greenplum的那些事 weixin_33908217 数据库 python 运维
开卷有益——作者的话有时候真的感叹人生岁月匆匆，特别是当一个IT人沉浸于某个技术领域十来年后，蓦然回首，总有说不出的万千感慨。笔者有幸从04年就开始从事大规模数据计算的相关工作，08年作为Greenplum早期员工加入Greenplum团队（当时的工牌是“005”，哈哈），记得当时看了一眼Greenplum的架构（嗯，就是现在大家耳熟能详的那个好多个X86框框的图），就义无反顾地加入了，转眼之间，
Spark——Spark读写Greenplum/Greenplum-Spark Connector高速写Greenplum Southwest- Spark spark 大数据分布式
文章目录问题背景解决方式代码实现Spark写GreenplumSpark读Greenplum参考问题背景通过数据平台上的DataX把Hive表数据同步至Greenplum（因为DataX原生不支持GreenplumWriter，只能采用PostgreSQL驱动的方式），但是同步速度太慢了，"jdbc:postgresql://host:5432/db","user"->"u","password"
【无标题】KADB使用DBLINK连接KES验证 littlegirll 数据库 java sql
验证环境KADB版本：GreenplumDatabase6.0.0builddev.V003R002C001B0181.d354cc9215KES版本：KingbaseESV008R006C007B0012DBLINK环境准备KES创建用户KES修改参数，在kingbase.conf文件中，设置password_encryption=md5登录配置文件sys_hba.conf修改登录验证方式为md
KADB使用PXF连接KES验证 littlegirll 数据库
验证环境KADB版本：GreenplumDatabase6.0.0builddev.V003R002C001B0181.d354cc9215KES版本：KingbaseESV008R006C007B0012Java版本：openjdkversion"1.8.0_262"PXF部署以下操作假设KADB和KES已经部署完成并且启动正常，环境变量设置完成设置环境变量在mppadin用户的.bashrc文
《GreenPlum系列》GreenPlum初级教程-05GreenPlum语言DDL&DML&DQL DATA数据猿 Greenplum 数据库 greenplum postgresql
文章目录第五章DDL&DML&DQL1.DDL(DataDefinitionLanguage)数据定义语言1.1创建数据库1.2查询数据库1.3删除数据库1.4创建表1.5修改表1.6清除表1.7删除表2.DML(DataManipulationLanguage)数据操作语言2.1数据导入2.2数据更新和删除2.3数据导出3.DQL(DataQueryLanguage)数据查询语言3.1基础语法及
Oracle 12CR2 RAC部署翻车，bug避坑经历 IT邦德数据库 Oracle oracle bug 数据库
哈喽！大家好，我是【IT邦德】，江湖人称jeames007，10余年DBA及大数据工作经验一位上进心十足的【大数据领域博主】！中国DBA联盟(ACDU)成员，目前服务于工业互联网擅长主流Oracle、MySQL、PG、高斯及Greenplum运维开发，备份恢复，安装迁移，性能优化、故障应急处理等。✨如果有对【数据库】感兴趣的【小可爱】，欢迎关注【IT邦德】❤️❤️❤️感谢各位大可爱小可爱！❤️❤️
【青梅资讯】VMware Greenplum 7 Beta版已正式发布 Greenplum中文社区数据库 postgresql
VMwareGreenplum7.0Beta.0已于2022年12月15日正式发布，随后在2023年2月3日VMwareGreenplum7.0Beta.1也正式上线，现在让我们通过本文一起了解Greenplum7Beta.1和Beta.0版本都引入了哪些新功能和变化。VMwareGreenplum7.0Beta.1发布时间：2023年2月3日VMwareGreenplum7 Beta.1版本现在
技术分享 | OceanBase 集群扩容缩容爱可生开源社区技术分享 OceanBase OceanBase 资源扩缩容
作者：杨文DBA，负责客户项目的需求与维护，会点数据库，不限于MySQL、Redis、Cassandra、GreenPlum、ClickHouse、Elastic、TDSQL等等。本文来源：原创投稿*爱可生开源社区出品，原创内容未经授权不得随意使用，转载请联系小编并注明来源。一、环境说明：集群扩容分为两种情况：一种是扩副本，一种是扩资源。原集群部署模式：1-1-1。下面介绍两种扩容方式：扩容副本：
greenplum 6 创建用户问题权限问题异常（创建只查视图用户）圆子_f1fe
greenplum6创建用户问题权限问题异常（创建只查视图用户）解决普通用户默认无限制访问其它数据库问题；解决普通用户可以无限制建表问题；解决普通用户可以用navicat等工具查看系统原表问题；背景：我发现创建一个一个普通用户，在没有做特殊处理的情况下这个用户可以随意访问其它数据库，可以通过navicat等工具随意查看库的表名、函数、视图名等信息（虽然不可编辑，但是也不想让外部无关人员看到无关信息
使用benchmarksql对greenplum压测结果记录 YuVicky
本文将以TPC-C业界标准事务性能测试benchmark来展示Greenplum在事务上的处理能力。TPC-C简介TPC-C是由TPC(TransactionProcessingPerformanceCouncil，事务处理性能委员会)提供的专门针对联机交易处理系统的规范，TPC-C模拟的是一个大型的商品批发销售公司交易负载。这个事务负载主要由9张表组成，主要涉及5类交易类型：新订单生成（New-
【教程】集群搭建准备工作全流程 THE WHY 大数据大数据分布式运维 hadoop 学习
基于VMware创建虚拟机进行集群搭建，适用于hadoop/GreenPlum等集群之前已经创建了三台虚拟机hadoop102，hadoop103，hadoop104来搭建hadoop集群，因为目前学习到了greemplum，因此新建三台虚拟机hadoop105，hadoop106，hadoop107来搭建greenplum集群，整体思路流程大致如下（仅包括虚拟机创建以及环境配置内容，不包括had
从Greenplum一个WARN的排查浅析PostgreSQL MemoryContext内存管理 airfan92 分布式数据库后端 postgresql 数据库内存管理
Greenplum（GP）是一款开源的MPP数据库，兼容PostgreSQL生态。我们尝试基于开源GP支持多个副本，改造让集群从初始的最多只支持一个standbyMaster，到支持多个standby。相关实现并不复杂，内核和工具中没有太多对于standby个数的限制。经过多次的修改后，遗留的问题只剩下了一个：由一行代码引起的、但是找到这行代码花费了很久的WARN。本文就从这个WARN排查的角度，
PostgreSQL 自旋锁浅析 Greenplum中文社区 Greenplum内核机制数据库编程语言 java python 多线程
获得技术资料内容，请访问Greenplum中文社区网站什么是自旋锁经过上次的《PostgreSQL查询优化器详解》中大明和牛二哥对PostgreSQL优化器的概要的讲解，小明感到自己已经深深的爱上了数据库内核，小明在GitChat网站上购买了《PostgreSQL优化器入门》的文字网课，还跑到实体书店买了本《PostgreSQL技术内幕：查询优化深度探索》，每天对照着网课和书上的内容仔细研读Pos
数据库备份脚本嘎嘎香，被秀到了！ IT邦德数据库数据库
哈喽！大家好，我是【IT邦德】，江湖人称jeames007，10余年DBA及大数据工作经验一位上进心十足的【大数据领域博主】！中国DBA联盟(ACDU)成员，目前服务于工业互联网擅长主流Oracle、MySQL、PG、高斯及Greenplum运维开发，备份恢复，安装迁移，性能优化、故障应急处理等。✨如果有对【数据库】感兴趣的【小可爱】，欢迎关注【IT邦德】❤️❤️❤️感谢各位大可爱小可爱！❤️❤️
《GreenPlum系列》GreenPlum初级教程-03GreenPlum系统管理 DATA数据猿 Greenplum 数据库 greenplum postgresql
文章目录第三章GreenPlum系统管理1.关于GreenPlum数据库发布版本号2.启动和停止GreenPlum数据库2.1启动数据库2.2重启数据库2.3仅重新载入配置文件更改2.4停止GreenPlum数据库2.5停止客户端进程3.GreenPlum数据库状态查询4.访问GreenPlum数据库4.1数据库会话参数4.2支持客户端应用4.3psql连接4.4常见的连接问题第三章GreenPl
Greenplum系统配置参数查看与设置 WESTWALL
查看参数数据库：postgres=#showall;系统：gpconfig--showmax_connections原文：https://yq.aliyun.com/articles/145445
GreenPlum的那些事《一》——GreenPlum数据库介绍数据社
1.数据存储行式数据库是按照行存储的，行存储就是各行放入连续的物理位置，就行我们平时写字一样，一行一行的写，读取的时候也是一行一行的读取。像SQLserver,Oracle，mysql等传统的关系型数据库都属于行式数据库范畴。列式数据库是按照列存储的，列存储是把多行数据的每一列按照列存储在磁盘，就像一把数据写入excel表格中，每次按照列读取数据，像Vertica,GreenPlum,HBase(
《GreenPlum系列》GreenPlum详细入门教程02-GreenPlum安装 DATA数据猿 Greenplum greenplum 数据库
文章目录第二章GreenPlum安装1.Docker创建centos容器1.1拉取centos7镜像1.2创建容器1.3进入容器1.4容器和服务器免密操作1.4.1生成密钥1.4.2拷贝密钥1.5安装ssh服务和网络必须应用1.6容器设置root密码1.6.1安装passwd应用1.6.2容器本机root设置密码1.7容器本机免密2.安装GreenPlum2.1准备安装包2.2创建用户及用户组2.
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分

Greenplum Python专用库gppylib学习——GpArray

代码分析

GpDB类

Segment类

GpArray类

使用

你可能感兴趣的:(#,Greenplum)