Apache Kudu 使用建议与限制

目录

ApacheKudu使用建议与限制... 1

模式设计的限制... 1

主键... 1

单元格... 2

数据列... 2

数据行... 2

数据表... 2

其它方面的限制... 3

分区的限制... 3

扩展的建议和限制... 3

服务器管理的限制... 4

群集管理的限制... 4

复制和备份的限制... 5

与Impala集成的限制... 5

创建kudu表时不支持的impala关键词... 5

与Spark集成的限制... 6

安全性的限制... 6


模式设计的限制

主键

在创建表后,主键不能更改。您必须删除并重新创建一个表来选择一个新列作为主键。

组成主键的列必须首先在模式设计时最先列出来。

不能使用更新功能修改行的主键。要修改行的主键,必须删除行,并使用修改后的键重新插入,这样的修改是非原子性的。

带有DOUBLE、FLOAT或BOOL类型的列不允许作为主键定义的一部分,此外主键定义的所有列都必须是不可为空的。

不支持自动生成主键。

组成复合主键的单元格总大小被限制为不能超过16KB,这个大小是由Kudu完成内部组合键编码后的大小。

单元格

单个单元格不能大于64KB,而且这个大小是在编码或压缩之前的大小。,组成组合键的单元格被限制为不能超过16KB,这个大小是在Kudu完成内部组合键编码之后的大小。插入不符合这些限制的数据行将导致系统产生错误,并返回给客户端。

数据列

默认情况下,Kudu不允许创建超过300列的表。推荐使用更少的列来获得最佳性能的模式设计。

DECIMAL、CHAR、VARCHAR、DATE和复杂类型(如数组)是不支持的。

更改表不能更改现有列的类型和是否可为空。

删除列不会立即回收空间,必须要采用压缩,才能回收空间 。

数据行

Kudu主要用于数据分析。尽管单个单元格大小可以多达64KB,而Kudu支持多达300个列,但建议单行不要大于几百KB。如果单行大小达到数千字节数据,可能会遇到问题。

数据表

表数据必须有奇数个副本,最大值为7。

复制因子(在表创建时进行设置)不能更改。

没有办法手动运行压缩,但删除一个表会立即回收这个表的空间。

其它方面的限制

不支持次要索引。

不支持多行事务。

不支持关系特性,比如外键。

像列和表名这样的标识符被限制为有效的UTF-8字符串,最大长度为256个字符。

如果使用ApacheImpala来查询Kudu表,需要查看Impala集成kudu的限制资料。

分区的限制

必须使用简单或复合的主键将表手工预分区为平板。自动拆分目前是不支持的。Kudu不允许在创建分区后再更改分区,除了添加或删除范围分区之外。

现有表中的数据目前不能自动重新分区。需要建立新的分区,再创建一个新的表,并插入旧表的内容。

失去大多数副本的平板(比如3个,丢了2个还只有1个)需要人工干预才能修复。

扩展的建议和限制

建议最大数量的平板服务器是100台。

建议最大数量的主节点服务吕是3台。

每台平板服务器推荐的存储数据(复制副本后和压缩后)的最大数量为8TB。

建议每台平板服务器的最大平板数量为2000(复制副本后)。

每台平板服务器的每个数据表的平板最大数量为60个(复制副本后,在创建表时)。

服务器管理的限制

生产部署应该为平板服务器配置至少4GB的内存,最好在接近数据和平板规模限制时将内存扩充至16GB。

写入的前置日志(WALs)只能存储在某一个磁盘上。

磁盘故障是不可容忍的,一旦检测到平板服务器就会崩溃。

未恢复数据的失败磁盘需要在重新启动之前对该平板服务器的所有Kudu数据进行格式化。

无法添加/删除数据目录,必须对它们进行重新格式化来更改目录集。

平板服务器不能做到优雅地退出群集。

平板服务器不能改变他们的地址或端口。

Kudu对拥有一个最新的NTP(网络时间协议Network Time    Protocol)有着严格的要求。Kudu的主节点服务器和平板服务器会在不同步的情况下崩溃。

Kudu发布版本只测试了NTP。其他时间同步提供者(如Chrony)可能不起作用。

群集管理的限制

不支持机架感知(在调度任务和分配存储空间时考虑节点的物理位置)。

不支持多数据中心。

不支持滚动重启。

复制和备份的限制

kudu目前不包括任何内置的备份和恢复功能。鼓励用户使用Spark或Impala等工具导出或导入表

与Impala集成的限制

在创建Kudu表时,CREATE table语句必须将主键列放在其他列之前。

Impala不能更新主键列中的值。

Impala不能用DECIMAL、VARCHAR或近似这些类型的列创建Kudu表。

在Impala中用作外部表时,带有大写或非ascii字符名称的Kudu表必须进行重命名,不能包含大写或非ascii字符。

Kudu表的列名包含大写或非ascii字符,不能用作Impala的外部表。可以将列重命名,以解决这个问题。

!=和LIKE谓词不被推送到Kudu,而是由Impala扫描节点进行评估。这可能会降低相对于其他类型谓词的性能。

使用Impala的更新、插入和删除是非事务性的。如果一个查询某些部分失败了,其部分效果将不会回滚。

单个查询的最大并行度受限于表中的平板数量。为了良好的分析性能,针对大型表的每个主机,建议存放 10个或更多的平板。

创建kudu表时不支持的impala关键词

PARTITIONED

LOCATION

ROWFORMAT

与Spark集成的限制

Spark 2.2(和更高版本)在运行时需要Java 8,尽管Kudu Spark 2.x集成是与Java7兼容的。Spark 2.2是Kudu 1.5.0的默认依赖版本。

在注册为临时表时,如果kudu表名带有大写或非ascii字符,需要修改kudu表名。

Kudu表的列名如果包含大写或非ascii字符,不能与SparkSQL一起使用。可以重命名列名,以解决这个问题。

<>和or谓词没有被推送到Kudu,而是由Spark任务来评估。只有带有后缀通配符的LIKE谓词被推到Kudu。这意味着“FOO%”会被推送到kudu,但是像“FOO%BAR”不会。

Kudu不能支持Spark SQL所能支持的所有类型。例如,Kudu不支持Date, Decimal和复杂类型。

Kudu表只能在SparkSQL中注册为临时表。

不能使用HiveContext查询Kudu表。

安全性的限制

空闲时的数据加密功能没有直接构建到Kudu中。通过使用dmcrypt等本地块设备加密软件,可以在空闲时加密Kudu数据。

授权仅在系统范围的粗粒度级别上可用。表级、列级和行级授权特性不可用。

Kudu不支持为Kudu流程配置自定义服务主体。主体必须遵循模式kudu/@。

Kudu与Apache Flume的集成,将不支持写入需要身份验证的Kudu集群。

由Kudu IPKI生成的服务器证书与bouncycastle版本1.52和更早版本是不兼容的。

你可能感兴趣的:(Apache Kudu 使用建议与限制)