阿里云云栖号

ADBPG&Greenplum成本优化之磁盘水位管理

简介：本文我们将通过一个实际的磁盘空间优化案例来说明，如何帮助客户做成本优化。

作者 | 玉翮
来源 | 阿里技术公众号

一背景描述

目前，企业的核心数据一般都以二维表的方式存储在数据库中。在核心技术自主可控的大环境下，政企行业客户都在纷纷尝试使用国产数据库或开源数据库，尤其在数据仓库OLAP领域的步伐更快，Greenplum的应用越来越广泛，阿里云ADB PG的市场机会也越来越多。另外，随着近年来数据中台的价值被广泛认可，企业建设数据中台的需求也非常迫切，数据中台的很多场景都会用到Greenplum或ADB PG。因此，今年阿里云使用ADB PG帮助很多客户升级了核心数仓。我们发现，客户往往比较关注使用云原生数仓的成本。究竟如何帮助客户节约成本，便值得我们去探索和落地。

ADB PG全称云原生数据仓库AnalyticDB PostgreSQL版，它是一款大规模并行处理（MPP）架构的数据库，是阿里云基于开源Greenplum优化后的云原生数据仓库，因此本文探讨的成本优化方法也适用于Greenplum开源版。图1是ADB PG的架构示意图（Greenplum亦如此），Master负责接受连接请求，SQL解析、优化、事务等处理，并分发任务到Segment执行；并协调每一个Segment返回的结果以及把最终结果呈现给客户端程序。Segment是一个独立的PostgreSQL数据库，负责业务数据的存储和计算，每个Segment位于不同的独立物理机上，存储业务数据的不同部分，多个Segment组成计算集群；集群支持横向扩展。从架构上很清楚，节约Greenplum的成本，最重要的是要尽可能节约Segment的服务器数，但既要保证整体MPP的算力，也要能满足数据对存储空间的需求。通常，数据仓库中的数据是从企业各个领域的上游生产系统同步而来，这些数据在分析领域有生命周期，很多数据需要反应历史变化，因此数据仓库中数据的特点是来源多、历史数据多、数据量比较大。数据量大，必然消耗存储空间，在MPP架构下就是消耗服务器成本。帮客户优化成本，节约存储空间是首当其冲的。

图1：ADB PG的架构示意图

下面，我们将通过一个实际的磁盘空间优化案例来说明，如何帮助客户做成本优化。

二 ADB PG & Greenplum的磁盘管理简介

1 ADB PG磁盘管理的关键技术点

ADB PG是基于Greenplum（简称“GP”）内核修改的MPP数据库，对于磁盘空间管理来讲，有几个技术点与Greenplum是通用的：

（1）业务数据主要分布在Segment节点；

（2）Segment有Primary和Mirror节点，因此，业务可用空间是服务器总空间的1/2；

（3）Greenplum的MVCC机制，导致表数据发生DML后产生垃圾数据dead tuples；

（4）复制表（全分布表）会在每个Segment上存储相同的数据拷贝；分布表会根据分布键打散存储数据到各个Segment。

（5）Greenplum有Append Only类型的表，支持压缩存储，可以节约空间；当然用户访问时，解压缩需要时间，所以需要在性能和空间之间取得平衡。

云原生数据库的特点是不再单独提供数据库存储和计算的内核，也会配套运维管理平台，简称“数据库管控”。搞清楚ADB PG磁盘管理原理后，我们需要了解数据库管控在磁盘水位管理方面的设计。

2 数据库管控的磁盘预留机制

我们看下某数仓实验环境的各个Segment节点的磁盘占用示意图。

图2：Segment维度的磁盘占用示意图

上图第一个百分比是Segment所在物理机的磁盘使用百分比；第二个百分比是数据库管控的磁盘使用百分比。管控的数据为啥要跟服务器实际占用不一致呢？其实就是水位管理中第一个很重要的预防性措施：空间预留。即，ADB的管控在创建Segment实例时，根据服务器的空间，进行了一定的预留，占比大概是12%，即20T的服务器，管控认为业务最大可用17.6T，这个逻辑会通知监控系统。所以计算磁盘占比时，监控系统的分母不是20T，而是17.6T。这是第一级保护措施。

预留空间，还有重要的一点原因是数据库本身有WAL事务日志、错误日志等也占用空间。因此，磁盘的空间有一部分需要给日志使用，客户的业务数据无法使用100%的服务器空间，这就是为何图2中，会显示两个空间百分比的原因。

3 数据库管控的“锁定写” 保护机制

第二级保护措施是“磁盘满锁定写”。在17.6T的基础上，管控并不让业务完全写满，写满容易造成数据文件损坏，带来数据库宕机及无法恢复的灾难。因此，这里有第二个阈值，即当磁盘写到90%时，数据库管控的自动巡检任务会启动“锁定写”的操作，此时所有请求ADB的DML都会失败。这是一个重要的保护机制。如下图3所示，如果达到阈值，会提示“need to lock”。阈值可以配置，如果磁盘空间紧张，可以根据实际情况适当调大阈值。

图3：数据库管控的自动化锁盘日志示例

以上数据库管控的两个机制可以有效保障磁盘在安全水位下运行。这些设计，是我们做成本优化的基础，磁盘的成本优化意味着服务器的磁盘尽可能物尽其用。节约磁盘空间，就必须要在相对较高的磁盘水位运行（这里是指数据量确实很大的情况），因此，磁盘有效管理，及时的问题监控发现的机制非常重要。

三磁盘空间优化方案

下面我们以某客户的案例来说明磁盘空间优化方法。该客户数据仓库中的数据（含索引）大于1.5PB，但客户一期为ADB数仓采购了40台机器，约800T总容量。客户明确要求阿里云需要配合业务方做好数仓设计，帮其节约成本。客户把成本优化的KPI已经定好了，需要阿里云通过技术去落实。我们协同业务方在设计阶段做了一些预案，技术上主要从表压缩和冷热数据分离的角度去做考虑；业务上，让开发商从设计上，尽量缩减在ADB中的存量数据。最终，开发商预估大概有360T左右的热数据从旧的数仓迁移到ADB。上线前，开发商需要把必要的基础业务数据（比如贴源层，中间层），从DB2迁移到ADB PG。迁移完成，业务进行试运行期，我们发现空间几乎占满（如图2）。空间优化迫在眉睫，于是我们发起了磁盘空间优化治理。图4是磁盘空间治理优化的框架。

图4：磁盘水位优化框架

接下来，我们展开做一下说明。

1 表的存储格式及压缩

表的压缩存储可以有效保障客户节约存储空间。Greenplum支持行存、Append-only行存、Append-only列存等存储格式。若希望节约存储空间，Append-only列存表是较好的选择，它较好的支持数据压缩，可以在建表时指定压缩算法和压缩级别。合适的压缩算法和级别，可以节约数倍存储空间。建表示例语句如下：

CREATE TABLE bar (id integer, name text)
    WITH(appendonly=true, orientation=column, COMPRESSTYPE=zstd, COMPRESSLEVEL=5)
    DISTRIBUTED BY (id);

列存表必须是Append-only类型，创建列存表时，用户可以通过指定COMPRESSTYPE字段来指定压缩的类型，如不指定则数据不会进行压缩。目前支持三种压缩类型：

zstd、zlib和lz4，zstd算法在压缩速度、解压缩度和压缩率三个维度上比较均衡，实践上推荐优先考虑采用zstd算法。zlib算法主要是为了兼容一些已有的数据，一般新建的表不采用zlib算法。lz4算法的压缩速度和压缩率不如zstd，但是解压速度明显优于zstd算法，因此对于查询性能要求严格的场景，推荐采用lz4算法。

用户可以通过指定COMPRESSLEVEL字段来决定压缩等级，数值越大压缩率越高，取值范围为1-19，具体压缩等级并不是数字越大越好，如上文所述，解压缩也消耗时间，压缩率高，则解压缩会相对更慢。因此，需要根据业务实际测试来选定，一般5-9都是有实际生产实践的压缩级别。

2 冷热数据分层存储

在大型企业的数据仓库设计中，MPP数据库（ADB属于MPP）只是其中一种数据存储，而且是偏批处理、联机查询、adHoc查询的场景使用较多；还有很多冷数据、归档数据，其实一般都会规划类似Hadoop、MaxCompute甚至OSS进行存储；另外，近年来兴起的流数据的计算和存储，需求也非常强烈，可以通过Kafka、Blink、Storm来解决。因此，当MPP数据库空间告急时，我们也可以做冷热数据分级存储的方案。ADB PG的分级存储方案，大致有两种：1是业务方自己管理冷数据和热数据；2是利用ADB PG冷热数据分层存储和转换功能。

业务方通过PXF外表访问HDFS冷数据

业务方把部分冷数据以文件的方式存到HDFS或Hive，可以在ADB创建PXF外部表进行访问；外部表不占用ADB PG的磁盘空间。PXF作为Greenplum与Hadoop集群数据交互的并行通道框架，在Greenplum中通过PXF可以并行加载和卸载Hadoop平台数据。具体使用方法如下：

（1）控制台开通PXF服务

· 登录ADB管控台，访问ADB PG实例外部表页面，点击开通新服务

图5：PXF外表服务

填写详细的Hadoop的服务信息后（涉及kerberos认证，非此文重点），PXF服务会启动，启动成功后如上图。

（2）创建PXF扩展

-- 管理员执行

create extension pxf_fdw;

（3）创建PXF外表

CREATE EXTERNAL TABLE pxf_hdfs_textsimple(location text, month text, num_orders int, total_sales float8)

LOCATION ('pxf://data/pxf_examples/pxf_hdfs_simple.txt?PROFILE=hdfs:text&SERVER=23')

FORMAT 'TEXT' (delimiter=E',');

说明：Location是hdfs源文件信息，/data/pxf_examples/pxf_hdfs_simple.txt，即业务访问的外部冷数据文件；SERVER=23指明了Hadoop外表的地址信息，其中23是集群地址信息的存放目录，在图8中可以根据PXF服务查到。

（4）访问外部表

访问外部表就和访问普通表没有区别

图6：外部表访问示例

ADB PG冷热数据分层存储方案

上面的pxf外表访问，有一个弊端，是如果冷数据（外表）要和热数据join，效率较差，原因是数据要从HDFS加载到ADB，再和ADB的表进行Join，徒增大量IO。因此，ADB PG在Greenplum的PXF外表的基础上，提供了冷热数据转换的功能，业务方可以在需要Join外表和普通表分析时，把外部表先转换为ADB的普通表数据，再做业务查询，整体方案称为冷热数据分层存储。由于都是利用PXF外表服务，3.4.1中的第1和第2步骤可以复用。额外的配置方法如下：

(1) 配置分层存储默认使用刚才的Foreign Server

用超级管理员执行

ALTER DATABASE postgres SET RDS_DEF_OPT_COLD_STORAGE TO 'server "23",resource "/cold_data", format "text",delimiter ","';

注意，这里需要将postgres替换为实际的数据库名，并将/cold_data替换为实际在HDFS上需要用来存储冷数据的路径。

(2) 重启数据库实例后执行检查

SHOW RDS_DEF_OPT_COLD_STORAGE;

验证是否配置成功。

(3) 创建测试表，并插入少量测试数据

create table t1(a serial) distributed by (a);

insert into t1 select nextval('t1_a_seq') from generate_series(1,100);

postgres=# select sum(a) from t1;

sum

------

5050

(1 row)

此时，t1表的数据是存在ADB的本地存储中的，属于热数据。

(4) 将表数据迁移到冷存HDFS

alter table t1 set (storagepolicy=cold);

图7：转换数据为冷数据

注意这个NOTICE在当前版本中是正常的，因为在冷存上是不存在所谓分布信息的，或者说分布信息是外部存储（HDFS）决定。

（5）验证冷数据表的使用

首先，通过查看表的定义，验证表已经迁移到冷存

图8：冷存表的定义

然后正常查询表数据；

postgres=# select sum(a) from t1;

sum

------

5050

(1 row)

（6）将数据迁回热存

alter table t1 set (storagepolicy=hot);

图9：数据迁回热存

注意：迁移回热存后，distributed信息丢失了，这是当前版本的限制。如果表有索引，则索引在迁移后会丢失，需要补建索引。以上两个方案，都能一定程度上把冷数据从ADB PG中迁移到外部存储，节约ADB PG的空间。

方案1，Join效率低，不支持冷热数据转换，但不再占用ADB的空间；

方案2，Join效率高，支持冷热数据转换，部分时间需要占用ADB的空间。

两个方案各有利弊，实际上项目中，根据业务应用来定。在该客户案例中，冷热数据分层存储方案，为整体ADB节约了数百T空间，这数百T空间中，大部分是设计阶段解决的，少部分是试运行期间进一步优化的。

3 垃圾数据vacuum

由于GP内核的MVCC管理机制，一个表的DML（t2时刻）提交后的数据元组，实际上并没有立即删除，而是一直与该表的正常元组存储在一起，被标记为dead tuples；这会导致表膨胀而占用额外空间。垃圾数据回收有两个方法：内核自动清理、SQL手动清理。自动清理的机制是：表的dead tuples累积到一定百分比，且所有查询该表的事务（t1时刻

手动回收方法

（1）统计出系统的top大表；

select *,pg_size_pretty(size) from 

(select oid,relname,pg_relation_size(oid) as size from pg_class where  relkind = 'r' order by 3 desc limit 100)t;

  -- limit 100表示top100

（2）查询大表的dead tuple占比和空间；

-- 根据统计信息查询膨胀率大于20%的表

SELECT ((btdrelpages/btdexppages)-1)*100||'%', b.relname  FROM gp_toolkit.gp_bloat_expected_pages a  

join  pg_class b on  a.btdrelid=b.oid  

where btdrelpages/btdexppages>1.2;

（3）使用pg_cron定时任务帮助业务回收垃圾数据

vacuum tablename;

或

vacuum analyze tablename;-- 先执行一个VACUUM 然后是给每个选定的表执行一个ANALYZE

或

vacuum full tablename;

这里需要与业务沟通清楚执行时间，具体vacuum时，虽然不影响读写，但还是有额外的IO消耗。vacuum full tablename要慎重使用，两者的区别要重点说明一下：简单的VACUUM(没有FULL)只是回收表的空间并且令原表可以再次使用。这种形式的命令和表的普通读写可以并发操作，因为没有请求排他锁。然而，额外的空间并不返回给操作系统；仅保持在相同的表中可用。VACUUM FULL将表的全部内容重写到一个没有任何垃圾数据的新文件中（占用新的磁盘空间，然后删除旧表的文件释放空间），相当于把未使用的空间返回到操作系统中。这种形式要慢许多并且在处理的时候需要在表上施加一个排它锁。因此影响业务使用该表。

（4）vacuum加入业务代码的恰当环节进行回收

如果某些表，更新频繁，每日都会膨胀，则可以加入到业务的代码中进行vacuum，在每次做完频繁DML变更后，立即回收垃圾数据。

系统表也需要回收

这是一个极其容易忽视的点。特别是在某些数据仓库需要频繁建表、改表（临时表也算）的场景下，很多存储元数据的系统表也存在膨胀的情况，而且膨胀率跟DDL频繁度正相关。某客户出现过pg_attribute膨胀到几百GB，pg_class膨胀到20倍的情况。以下表，是根据实际总结出来比较容易膨胀的pg系统表。

pg_attribute -- 存储表字段详情

pg_attribute_encoding -- 表字段的扩展信息

pg_class -- 存储pg的所有对象

pg_statistic  -- 存储pg的数据库内容的统计数

图10：pg_class膨胀率示例

手动Vacuum的限制

手动做vacuum有一定的限制，也要注意。

（1）不要在IO使用率高的期间执行vacuum；

（2）vacuum full需要额外的磁盘空间才能完成。

如果磁盘水位高，剩余空间少，可能不够vacuum full大表；可以采取先删除一些历史表，腾出磁盘空间，再vacuum full目标table。

（3）必须先结束目标table上的大事务

有一次例行大表维护时，一个表做了一次vacuum，膨胀的空间并没有回收，仔细一查pg_stat_activity，发现这个表上有一个大事务（启动时间比手动vacuum启动更早）还没结束，这个时候，内核认为旧的数据还可能被使用，因此还不能回收，手动也不能。

4 冗余索引清理

索引本身也占用空间，尤其大表的索引。索引是数据库提高查询效率比较常用又基础的方式，用好索引不等于尽可能多的创建索引，尤其在大库的大表上。空间紧张，可以试着查一下是否有冗余索引可以清理。

排查思路

（1）是否有包含“异常多”字段的复合索引；

（2）是否有存在前缀字段相同的多个复合索引；

（3）是否存在优化器从来不走的索引。

排查方法与例子

首先，我们从第1个思路开始，查询索引包含字段大于等于4个列的表。SQL如下：

with t as (select indrelid, indkey,count(distinct unnest_idx) as unnest_idx_count 

       from pg_catalog.pg_index, unnest(indkey) as unnest_idx group by 1,2 

having count(distinct unnest_idx)>=4 order by 3 desc)

select relname tablename,t.unnest_idx_count idx_cnt from pg_class c ,t where c.oid=t.indrelid;

某个客户，就建了很多10个字段以上的复合索引，如下图所示：

图11：按索引列数排序的复合索引

一般超过6个字段的复合索引，在生产上都很少见，因此我们初步判断是建表时，业务方创建了冗余的索引；接下来，可以按照索引的大小排序后输出冗余索引列表。SQL如下：

with t as (select indrelid,indexrelid, indkey,count(distinct unnest_idx) as unnest_idx_count 

from pg_catalog.pg_index, unnest(indkey) as unnest_idx group by 1,2,3 

having count(distinct unnest_idx)>=3 order by 3 desc

)

select relname tablename,(pg_relation_size(indexrelid))/1024/1024/1024 indexsize,

t.unnest_idx_count idx_cnt from pg_class c ,t where c.oid=t.indrelid order by 2 desc;

图12：按大小排序的复合索引

这里，我们很清楚发现，部分索引的大小都在500G以上，有10多个索引的size超过1TB，看到这些信息时，我们震惊又开心，开心的是应该可以回收很多空间。接下来，需要跟业务方去沟通，经过业务方确认不需要再删除。

在这个客户案例中，我们删除了200多个冗余索引，大小达24T，直接释放了7%的业务空间！非常可观的空间优化效果。这次优化也非常及时，我记得优化在11月底完成；接着正好12月初高峰来临，业务方又写入了20TB新数据，如果没有这次索引优化，毫不夸张：12月初该客户的ADB集群撑不住了！

第（2）个思路（是否有存在前缀字段相同的多个复合索引），排查SQL如下。最好把索引及包含的字段元数据导出到其他GP库去分析，因为涉及到索引数据的分析对比（涉及向量转字符数组，以及子集与超集的计算），比较消耗性能；

select idx1.indrelid::regclass,idx1.indexrelid::regclass, string_to_array(idx1.indkey::text, ' ') as multi_index1,string_to_array(idx2.indkey::text, ' ') as multi_index2,idx2.indexrelid::regclass 

from pg_index idx1 , pg_index idx2  where idx1.indrelid= idx2.indrelid 

and idx1.indexrelid!=idx2.indexrelid and idx1.indnatts > 1

and string_to_array(idx1.indkey::text, ' ') <@ string_to_array(idx2.indkey::text, ' ');

以下是排查例子user_t上复合第2个问题的索引，如下：

以下是查询结果

以上例子结果解释：multi_index1是multi_index2的子集，前者的索引列已经在后者中做了索引，因此，multi_index1属于冗余索引。

第（3）个思路：是否存在优化器从来不走的索引，排查的SQL如下：

SELECT

    PSUI.indexrelid::regclass AS IndexName

    ,PSUI.relid::regclass AS TableName

FROM pg_stat_user_indexes AS PSUI    

JOIN pg_index AS PI 

    ON PSUI.IndexRelid = PI.IndexRelid

WHERE PSUI.idx_scan = 0 

    AND PI.indisunique IS FALSE;

下面以一个测试表，讲述排查例子

执行SQL可以查到idx_scan=0的索引idx_b

另外，有一个很重要的知识点，Append-Only列存表上的索引扫描只支持bitmap scan方式，如果Greenplum关闭了bitmap scan的索引扫描方式，那么所有AO列存表的访问都会全表扫描，即理论上AO列存表上的所有非唯一索引都无法使用，可以全部drop掉。当然，这个操作风险很高，要求整个database里使用AO列存表的业务几乎都只做批处理，不存在点查或范围查找的业务。综上，删除冗余索引，可以帮助客户节约磁盘空间。

5 复制表修改为分布表

众所周知，ADB PG的表分布策略有DISTRIBUTED BY（哈希分布），DISTRIBUTED RANDOMLY（随机分布），或DISTRIBUTED REPLICATED（全分布或复制表）。前两种的表会根据指定的分布键，把数据按照hash算法，打散分布到各个Segment上；复制表，则会在每个Segment上存放完整的数据拷贝。复制表分布策略(DISTRIBUTED REPLICATED)应该在小表上使用。将大表数据复制到每个节点上无论在存储还是维护上都是有很高代价的。查询全分布表的SQL如下：

select n.nspname AS "schemaname",c.relname AS "tablename",case when p.policytype='p' then 'parted' when p.policytype='r' then 'replicated' else 'normal' end  as "distrb_type", pg_size_pretty(pg_relation_size(c.oid))

from pg_class c

left join gp_distribution_policy p on c.oid=p.localoid

left join pg_namespace n on c.relnamespace=n.oid

where n.nspname='public'

and c.relkind='r'

and p.policytype='r'

order by 4 desc;

查询结果如下图，找到了大概10TB的全分布表，前3个表较大可以修改为哈希分布表，大概可以节约7T空间。

图13：业务库中的复制表

6 临时表空间独立存放

我们知道，Greenplum的默认表空间有两个

如果建表不指定表空间，默认会放到pg_default表空间，包含堆表、AO表、列存表、临时表等。具体到Segment的文件目录，则是每个Segment服务器上的~/data/Segment/${Segment_id}/base/${database_oid}目录下。同时，Greenplum在多种场景都会产生临时表，如：

（1）sql中order by、group by等操作；

（2）GP引擎由于数据读取或shuffle的需要，创建的临时表；

（3）业务方在ETL任务中创建的临时表。

这样存在一个问题，就是业务运行产生的临时表也会占用空间，但这部分不是业务表的数据占用，不方便精确管理大库的磁盘空间；因此我们把临时表的表空间独立出来，在服务器文件层面也独立出来，方便与业务数据进行分别精细化管理。好处还有：我们可以分别监控临时表空间、数据表空间、wal日志、错误日志，知道各个部分占用情况，如果磁盘空间告警，可以针对性采取措施。Greenplum创建临时表空间的方法，比较标准，如下：

#查看临时表的表空间现状，发现都在base目录下，即与数据目录共用

postgres=# select * from pg_relation_filepath('tmp_jc');

 pg_relation_filepath

----------------------

base/13333/t_845345

#查询实例的Segment的所有hosts，用于创建临时表空间目录

psql -d postgres -c 'select distinct address from gp_Segment_configuration order by 1' -t > sheng_seg_hosts

#创建临时表空间的文件目录

gpssh -f sheng_seg_hosts -e "ls -l /home/adbpgadmin/tmptblspace"

gpssh -f sheng_seg_hosts -e "mkdir -p /home/adbpgadmin/tmptblspace"

~$ gpssh -f dg_seg_hosts -e "ls -l /home/adbpgadmin/tmptblspace"

# 创建临时表空间

postgres=# create tablespace tmp_tblspace location '/home/adbpgadmin/tmptblspace';

postgres=# select * from pg_tablespace;

   spcname    | spcowner | spcacl | spcoptions

--------------+----------+--------+------------

 pg_default   |       10 |        |

 pg_global    |       10 |        |

 tmp_tblspace |       10 |        |

(3 rows)

#修改角色的临时表空间

postgres=# alter role all set temp_tablespaces='tmp_tblspace';

#退出psql，然后重新登录

#创建临时表进行验证

create temp table tmp_jc2(id int);

insert into tmp_jc2 select generate_series(1,10000);

#查看表的filepath，发现临时表空间的文件路径不是base目录了

select * from pg_relation_filepath('tmp_jc2');

---------------------------------------------------

 pg_tblspc/2014382/GPDB_6_301908232/13333/t_845369

表空间独立后，监控可以区分临时表空间、数据表空间、WAL日志、错误日志进行独立监控和告警，以下是监控采集输出的样例：

~$ sh check_disk_data_size.sh

usage: sh check_disk_data_size.sh param1 param2, param1 is file recording Segment hosts; param2 data, xlog, log or temp

监控输出的效果如下

图14：监控采集输出示意图

这样可以很清楚的了解业务数据或临时表数据在每个节点上的实际size，以及是否存在数据倾斜情况（超过平均值的10%）单独提醒，非常实用。

7 其他优化方案

除了上面详述的优化方案，一般来讲，Greenplum还有一些通用的处理方法：扩容Segment计算节点、业务数据裁剪、备份文件清理。计算节点扩容是最有效的。一般来讲，不管是阿里自己的业务，还是外部客户的业务，数据库的磁盘占用达到60%，考虑业务增量便会规划扩容，这些“基本实践”我们需要告诉客户。

业务数据裁剪，除了冷数据外，有一些中间表和历史表，我们也可以推动业务方做好数据生命周期管理，及时删除或转存归档。另外，对于临时运维操作，留下的备份文件，在操作完后需要及时进行清理，这个简单的习惯是非常容易忽略的，需要注意。在大库的磁盘管理中，任何小问题都会放大。

四优化收益

1 为客户节约服务器成本

本案例，客户原DB2的数据量大于1PB，而我们通过上述方法综合优化，在ADB中只保存了300多T的数据，就让整体业务完整的运行起来。为客户节约了大概100台服务器及相关软件license费用，约合金额千万级别。

2 避免磁盘水位过高造成次生灾害

磁盘水位高会带来很多问题，通过磁盘空间优化方案，可以避免这些问题的发生。包括：

1.业务稍微增长，可能导致磁盘占满，发生“写锁定”，数据库临时罢工；

2.磁盘空间不足时，运维人员定位问题无法创建临时表；

3.ADB的大表维护，例如vacuum full，无空余磁盘空间使用。

以上磁盘空间优化方法不一定非常全面，希望对读者有所帮助。如果文中有疏漏或读者有补充，欢迎多多交流，一起探讨上云成本优化。

名词解释

业务方：指使用Greenplum做业务开发或数据分析的用户，通常是客户或客户的开发商。

OLAP：指联机分析处理型系统，是数据仓库系统最主要的应用，专门设计用于支持复杂的大数据量的分析查询处理，并快速返回直观易懂的结果。

DML：指增加、删除、修改、合并表数据的SQL，在数据库领域叫DML型SQL。

PB：1PB=1024TB=1024 * 1024 GB

原文链接

本文为阿里云原创内容，未经允许不得转载。

你可能感兴趣的:(云栖号技术分享,数据仓库,数据库,big,data)

mysql有rac吗_现在的国产数据库有类似于oracle Rac 的功能吗？ weixin_39623050 mysql有rac吗
有的，优炫软件今年就在软博会重磅推出了UXDBSuperRAC(超级实时应用集群)，发布了优炫数据库UXDB新版本。长久以来，大型联机交易系统，特别是作为典型应用的银行核心业务系统对数据库要求极为严苛，要保证业务连续性，零RTO、RPO，强一致性ACID、业务不可分割性需求。因此，基于共享存储概念的RAC模式和完全支持ACID强一致性的数据库系统，依然是银行业核心数据库系统的首选，优炫数据库Sup
解锁Zustand的潜力：轻量级状态管理的无限可能 LLlan_lan 前端 javascript
安装zustandyarnaddzustand创建store使用creat来创建一个新的storeimport{create}from'zustand'import{AsyncData}from'../api/xx.js'//创建storeget()获取状态set()存储状态constuseCounterStore=create((set,get)=>({count:1,name:'岚',list
宝塔面板部署java项目用公网ip或者域名都可以访问高明峰少 java java tomcat 数据库 web
和本地tomcat一样，war包放在webapps下，配置tomcat默认访问路径，即在host标签里加入这个analysis-tool-web-1.0-SNAPSHOT是你war包名字可以随意改，只要和webapps下名字相同就行，安装软件添加数据库打开数据库—>添加数据库，数据库名字，用户名密码等等，如果用户名不能用root，就在网站—>添加站点中创建站点同时添加数据库，在这里可以添加数据库名
python的with语句 lipicoder python 开发语言
在Python2.5版本之后，出现了一个with的语句写法：withopen('openfile',encoding="utf-8")as_file:read_data=_file.read()在Python官方文档，这样描述:Thewithstatementisusedtowraptheexecutionofablockwithmethodsdefinedbyacontextmanager(se
python with的用法 weixin_33935777 python
原文链接With语句是什么?有一些任务，可能事先需要设置，事后做清理工作。对于这种场景，Python的with语句提供了一种非常方便的处理方式。一个很好的例子是文件处理，你需要获取一个文件句柄，从文件中读取数据，然后关闭文件句柄。如果不用with语句，代码如下：file=open("/tmp/foo.txt")data=file.read()file.close()这里有两个问题:一是可能忘记关闭
Python中的 with语句奶糖芯 python python 开发语言后端
Python中的with语句在开发中有一些任务，有可能是需要事情进行设置，然后在事后又需要进行清理工作；对于这种场景，with语句就提供了很方便的处理方式；最常见就是对于文件的操作；不使用with语句这样写①有可能忘记关闭文件句柄，②读取文件出现异常处理也没有进行任何的处理；file=open("a.txt")data=file.read()file.close()改为有处理版本（这样代码看起来有
探索未来游戏引擎：Fling Engine 任澄翊
探索未来游戏引擎：FlingEngineFlingEngineAVulkangameenginewithafocusondataorienteddesign项目地址:https://gitcode.com/gh_mirrors/fl/FlingEngineFlingEngine是一款跨平台的高性能游戏引擎，基于Vulkan图形API打造，旨在实验低级别引擎系统、多线程架构以及实时渲染技术。其设计思
Toxoid Engine：下一代Web游戏引擎的先锋施刚爽
ToxoidEngine：下一代Web游戏引擎的先锋toxoidAmodern,cross-platform,highlymodular/decoupled,data-driven,ECS-basedgameenginewritteninRustwithscriptingsupportforC#,JavaScriptandRusttoRust(WASM),hot-reloading,WebGPUr
Python网页爬虫爬取豆瓣Top250电影数据——Xpath数据解析_爬虫电影 2401_84009698 程序员 python 爬虫开发语言
#获取中文电影标题title_cn=data.xpath('//\*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/span[1]/text()')而在a标签下的第二个span标签中包含的文本内容是电影的英文标题，所以我们只需要将span[1]改成span[2]就可以获取到电影的英文标题。#获取英文电影标题title_en=data.
数据库性能优化(sql优化)_索引详解04_深入理解B+树_yxy) yxy___ 数据库性能优化 sql
数据库性能优化_深入理解B+树1通过代码方式解释B+树1.1查找操作1.2插入操作1.3删除操作1.4更新操作2组合索引的查找逻辑2.1等值查找2.1范围查找1通过代码方式解释B+树B树索引在增删改操作时，底层结构会发生相应的变化，以保持树的平衡和有序性。下面通过简单的伪代码来讲解增删改查时，B+树的底层结构变化（目的是为了让大家深入理解B+树）1.1查找操作思路：1.从根节点开始查找。2.对于每
达梦HS搭建(DM-MYSQL)_yxy yxy___ 数据库达梦 mysql 数据库 dba database linux
dmhsDM到MYSQL搭建1环境准备1.1DM8数据库安装1.2MYSQL数据库安装1.2DMHS安装2源端部署2.1开启源端数据库归档和逻辑日志2.1.1开启归档2.1.2开启逻辑日志2.1.3注意2.2创建DDL触发器和辅助表2.3配置dmhs.hs2.4环境变量配置3目的端部署3.1创建同步用户并授权3.2配置dmhs.hs3.3环境变量配置3.4ODBC配置4同步测试4.1启动dmhs服
数据库性能优化(sql优化)_SQL执行计划01_yxy yxy___ 数据库性能优化 sql
数据库性能优化_SQL执行计划详解011执行计划简介1.1什么是sql执行计划?1.2执行计划解决了什么问题？1.3总结2执行计划的查看方式3执行计划完整示例4执行计划组成部份1执行计划简介1.1什么是sql执行计划?执行计划（ExecutionPlan），也称为查询计划或解释计划，是数据库在执行一个查询语句（如SQL查询）之前制定的详细步骤指南，包括使用哪些索引、连接顺序、操作顺序等信息。是一条
Mybatis如何书写黄袜子的小希 mybatis 数据库 java
kh下面我们开始书写mybatis①首先开始的时候创建数据库和表结构：createdatabasemybatis_demo;usemybatis_demo;CREATETABLE`user`(`id`int(11)NOTNULLauto_increment,`username`varchar(32)NOTNULLCOMMENT'用户名称',`birthday`datetimedefaultNULL
scikit-learn工具学习 - random,mgrid,np.r_ ,np.c_, scatter, axis, pcolormesh, contour, decision_function... helloxielan 数据结构与算法 python 人工智能
yuanwen:http://blog.csdn.net/crossky_jing/article/details/49466127scikit-learn练习题题目：Tryclassifyingclasses1and2fromtheirisdatasetwithSVMs,withthe2firstfeatures.Leaveout10%ofeachclassandtestpredictionpe
Redis vs. 其他数据库：深度解析，如何选择最适合的数据库？ moton2017 数据库 redis 缓存
一、如何为项目选择合适的数据库？选择合适的数据库是一个复杂的过程，需要综合考虑多个因素。下面几个维度来详细阐述：1.数据模型关系型数据库（RDBMS）：适用于高度结构化、关联性强的数据，如电商关系系统、金融系统。代表：MySQL、PostgreSQL。NoSQL数据库：文档型数据库（如MongoDB）：适用于灵活的、类似文档的数据，如内容管理系统。键值对数据库（如Redis）：适用于服务器、实时数
python实现dbscan 怎么就重名了算法 python 开发语言
python实现dbscan原理DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)是一个比较有代表性的基于密度的聚类算法。它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并可在噪声的空间数据库中发现任意形状的聚类。DBSCAN中的几个定义：Ε邻域：给定对象半径为Ε内的区域称为该对象的Ε邻域；核心对象：如
一年做一次，一次做半年，《DevData 2025研发效能基准报告》再度起航！思码逸研发效能大数据
2024年，思码逸联合信通院等权威机构做了一件费力但讨好的工作——为中国软件行业贡献了一份研发效能基准报告。基于从170家企业收集的客观研发数据，统计出了覆盖交付速率、交付质量和交付能力三个主要认知域的15个指标的行业基准线，为企业的研发管理者提供了重要的工作参考。事情的缘起，是思码逸在服务客户的过程中深切感受到众多关注管理者的困扰——都知道提升研发效能的重要性，也大多不想让团队内卷，那么提效的边
QT入门第十三天 QSqlite3数据库操作【增删改查精髓】 m0_67391907 面试学习路线阿里巴巴数据库 qt sqlite flask python
QT入门第十三天QSqlite3数据库操作第一章QT中数据库有关的类和方法【1】数据库有关的类【2】思路和步骤(1)安装数据库的驱动(2)设置数据库文件的名字(3)打开数据库(4)操作数据库–》增删改查(5)关闭数据库【3】其它的接口函数介绍(1)分析函数调用失败的原因【4】如何获取查询结果(1)获取查询结果(2)QVariant万能的数据类型【5】QT程序操作多个数据库文件，操作多个表格第二章源
滚雪球学Oracle[1.2讲]：Oracle数据库架构基础 bug菌¹ #滚雪球学Oracle oracle 数据库架构数据库
全文目录：前言一、Oracle数据库的物理存储结构详解1.1数据文件的组成与管理数据文件的主要特点：实际操作案例：添加数据文件数据文件管理的优化策略：1.2控制文件的作用与保护策略控制文件的主要作用：控制文件的保护策略：1.3重做日志文件的配置与优化重做日志文件的主要作用：重做日志文件的配置：实际操作案例：查看当前的重做日志组状态二、Oracle数据库的逻辑存储结构详解2.1表空间的类型与管理表空
QT +MYSQL+PYTHON,完成一个数据库表的增删改查 laocooon523857886 QT Python 数据库 qt mysql
ui_form.py#-*-coding:utf-8-*-##################################################################################FormgeneratedfromreadingUIfile'form.ui'####Createdby:QtUserInterfaceCompilerversion6.8.1#
C++和Python实现SQL Server数据库导出数据到S3并导入Redshift数据仓库 weixin_30777913 c++python 数据库数据仓库 sqlserver
用C++实现高性能数据处理，Python实现操作Redshift导入数据文件。在VisualStudio2022中用C++和ODBCAPI导出SQLServer数据库中张表中的所有表的数据为CSV文件格式的数据流，用逗号作为分隔符，用双引号包裹每个数据，字符串类型的数据去掉前后的空格，数据中如果包含双引号，则将一个双引号替换为两个双引号，创建gzip压缩文件，输出数据流写入到gzip压缩文件包中的
从腾讯云数据仓库TCHouse安全地转移数据到AWS Redshift weixin_30777913 数据仓库腾讯云云计算 python aws
实现从AWSDirectConnect连接到腾讯云数据仓库TCHouse-P、TCHouse-C或TCHouse-D，然后使用AWSGlue读取数据并在AWSRedshift中创建对应表并复制数据，需要按照以下步骤进行操作：网络连接设置AWSDirectConnect配置：在AWS管理控制台中，创建一个DirectConnect连接到你的本地网络或腾讯云所在的网络环境。配置虚拟接口（VIF），确保
SSM框架探秘：Spring 整合 Mybatis 框架苏-言 mybatis spring java
搭建和测试MyBatis的环境：编写AccountMapper.xml映射配置文件：select*fromaccount;在web项目中编写SqlMapConfig.xml的配置文件，编写核心配置文件在AccountMapper接口中编写方法：publicinterfaceAccountMapper{publicListfindAll();}编写测试方法(此时数据库还没有数据)：@Testpubl
MyBatis最佳实践：提升数据库交互效率的秘密武器苏-言 mybatis 数据库
第一章：框架的概述：MyBatis框架的概述：MyBatis是一个优秀的基于Java的持久框架，内部对JDBC做了封装，使开发者只需要关注SQL语句，而不关注JDBC的代码，使开发变得更加的简单MyBatis通过XML或者注解的方式将要执行的各种Statement对象配置起来，通过Java对象和statement中SQL后，最终将结果已Java对象返回MyBatis采用了ORM的思想ORM思想：在
MyMvvmMaster：Android应用开发的MVVM架构解决方案不胖的羊
本文还有配套的精品资源，点击获取简介：MyMvvmMaster.zip是一个集成MVVM架构、RxJava2、Retrofit和ARouter的Android应用框架压缩包，旨在简化开发流程，增强代码的可读性和可维护性。本框架通过DataBinding库实现数据和UI的双向绑定，利用RxJava2优化异步编程，Retrofit简化网络请求处理，ARouter管理模块间路由，从而提供一个高效、模块化
mysql的测试方案蚂蚁质量 mysql 数据库
1.测试目标与范围1.1性能测试目标MySQL性能测试旨在评估数据库在不同负载条件下的响应速度、吞吐量和资源利用率，确保其能够满足业务需求。响应时间：衡量查询和事务处理的延迟，目标是将平均响应时间控制在100毫秒以内，95%的查询响应时间不超过200毫秒。吞吐量：通过QPS（每秒查询次数）和TPS（每秒事务数）评估数据库的处理能力，目标是在高并发场景下达到QPS10000+、TPS5000+。资源
ORACLE parameter zhangtian0913 oracle 数据库 user session 存储 integer
一、用户的概念用户，即user,通俗的讲就是访问oracle数据库的“人”。在oracle中，可以对用户的各种安全参数进行控制，以维护数据库的安全性，这些概念包括模式(schema)、权限、角色、存储设置、空间限额、存取资源限制、数据库审计等。每个用户都有一个口令，使用正确的用户/口令才能登录到数据库进行数据存取。二、用户默认表空间表空间是信息存储的最大逻辑单位、当用户连接到数据库进行资料存储时，
Oracle角色 weixin_30409849
一、概述角色就是相关权限的命令集合，使用角色的主要目的就是为了简化权限的管理。假定有用户a，b，c为了让他们都拥有权限1、连接数据库2、在scott.emp表上select，insert，update如果采用直接授权操作，则需要进行12次授权。如果采用角色就可以简化首先将createsession，selectonscott.emp，insertonscott.emp，updateonscott.
xxjob部署（记录篇） smart_ljh 记录篇 job 开发工具
准备sql脚本并创建数据库#执行脚本创建xxl-job数据库https://gitee.com/xuxueli0323/xxl-job/blob/master/doc/db/tables_xxl_job.sql创建并运行xxjob容器spring.datasource.url：数据库连接地址spring.datasource.username：数据库用户名spring.datasource.pas
Java实现文件内容加解密 qq_34759280 Java java 安全加解密
背景近期在做一个对数据安全要求比较高的软件，用户要求做到对接口、文件、以及数据库部分敏感字段进行加密。由于系统中文件内容比较敏感，用户要求除了客户其他人不能查看文件具体内容，包括运维人员和开发人员。探讨其实文件加密并不算太复杂。无非就是在用户上传文件的时候将文件内容读出加密写入后再存到服务器，然后用户下载的时候将内容读出然后解密再写入输出流即可。简单实现计算机数据内容是二进制，针对二进制最简单高效
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin

ADBPG&Greenplum成本优化之磁盘水位管理

一 背景描述

二 ADB PG & Greenplum的磁盘管理简介

三 磁盘空间优化方案

四 优化收益

你可能感兴趣的:(云栖号技术分享,数据仓库,数据库,big,data)

一背景描述

三磁盘空间优化方案

四优化收益