目录
ApacheKudu使用建议与限制... 1
模式设计的限制... 1
主键... 1
单元格... 2
数据列... 2
数据行... 2
数据表... 2
其它方面的限制... 3
分区的限制... 3
扩展的建议和限制... 3
服务器管理的限制... 4
群集管理的限制... 4
复制和备份的限制... 5
与Impala集成的限制... 5
创建kudu表时不支持的impala关键词... 5
与Spark集成的限制... 6
安全性的限制... 6
模式设计的限制
主键
在创建表后,主键不能更改。您必须删除并重新创建一个表来选择一个新列作为主键。
组成主键的列必须首先在模式设计时最先列出来。
不能使用更新功能修改行的主键。要修改行的主键,必须删除行,并使用修改后的键重新插入,这样的修改是非原子性的。
带有DOUBLE、FLOAT或BOOL类型的列不允许作为主键定义的一部分,此外主键定义的所有列都必须是不可为空的。
不支持自动生成主键。
组成复合主键的单元格总大小被限制为不能超过16KB,这个大小是由Kudu完成内部组合键编码后的大小。
单元格
单个单元格不能大于64KB,而且这个大小是在编码或压缩之前的大小。,组成组合键的单元格被限制为不能超过16KB,这个大小是在Kudu完成内部组合键编码之后的大小。插入不符合这些限制的数据行将导致系统产生错误,并返回给客户端。
数据列
默认情况下,Kudu不允许创建超过300列的表。推荐使用更少的列来获得最佳性能的模式设计。
DECIMAL、CHAR、VARCHAR、DATE和复杂类型(如数组)是不支持的。
更改表不能更改现有列的类型和是否可为空。
删除列不会立即回收空间,必须要采用压缩,才能回收空间 。
数据行
Kudu主要用于数据分析。尽管单个单元格大小可以多达64KB,而Kudu支持多达300个列,但建议单行不要大于几百KB。如果单行大小达到数千字节数据,可能会遇到问题。
数据表
表数据必须有奇数个副本,最大值为7。
复制因子(在表创建时进行设置)不能更改。
没有办法手动运行压缩,但删除一个表会立即回收这个表的空间。
其它方面的限制
不支持次要索引。
不支持多行事务。
不支持关系特性,比如外键。
像列和表名这样的标识符被限制为有效的UTF-8字符串,最大长度为256个字符。
如果使用ApacheImpala来查询Kudu表,需要查看Impala集成kudu的限制资料。
分区的限制
必须使用简单或复合的主键将表手工预分区为平板。自动拆分目前是不支持的。Kudu不允许在创建分区后再更改分区,除了添加或删除范围分区之外。
现有表中的数据目前不能自动重新分区。需要建立新的分区,再创建一个新的表,并插入旧表的内容。
失去大多数副本的平板(比如3个,丢了2个还只有1个)需要人工干预才能修复。
扩展的建议和限制
建议最大数量的平板服务器是100台。
建议最大数量的主节点服务吕是3台。
每台平板服务器推荐的存储数据(复制副本后和压缩后)的最大数量为8TB。
建议每台平板服务器的最大平板数量为2000(复制副本后)。
每台平板服务器的每个数据表的平板最大数量为60个(复制副本后,在创建表时)。
服务器管理的限制
生产部署应该为平板服务器配置至少4GB的内存,最好在接近数据和平板规模限制时将内存扩充至16GB。
写入的前置日志(WALs)只能存储在某一个磁盘上。
磁盘故障是不可容忍的,一旦检测到平板服务器就会崩溃。
未恢复数据的失败磁盘需要在重新启动之前对该平板服务器的所有Kudu数据进行格式化。
无法添加/删除数据目录,必须对它们进行重新格式化来更改目录集。
平板服务器不能做到优雅地退出群集。
平板服务器不能改变他们的地址或端口。
Kudu对拥有一个最新的NTP(网络时间协议Network Time Protocol)有着严格的要求。Kudu的主节点服务器和平板服务器会在不同步的情况下崩溃。
Kudu发布版本只测试了NTP。其他时间同步提供者(如Chrony)可能不起作用。
群集管理的限制
不支持机架感知(在调度任务和分配存储空间时考虑节点的物理位置)。
不支持多数据中心。
不支持滚动重启。
复制和备份的限制
kudu目前不包括任何内置的备份和恢复功能。鼓励用户使用Spark或Impala等工具导出或导入表
与Impala集成的限制
在创建Kudu表时,CREATE table语句必须将主键列放在其他列之前。
Impala不能更新主键列中的值。
Impala不能用DECIMAL、VARCHAR或近似这些类型的列创建Kudu表。
在Impala中用作外部表时,带有大写或非ascii字符名称的Kudu表必须进行重命名,不能包含大写或非ascii字符。
Kudu表的列名包含大写或非ascii字符,不能用作Impala的外部表。可以将列重命名,以解决这个问题。
!=和LIKE谓词不被推送到Kudu,而是由Impala扫描节点进行评估。这可能会降低相对于其他类型谓词的性能。
使用Impala的更新、插入和删除是非事务性的。如果一个查询某些部分失败了,其部分效果将不会回滚。
单个查询的最大并行度受限于表中的平板数量。为了良好的分析性能,针对大型表的每个主机,建议存放 10个或更多的平板。
创建kudu表时不支持的impala关键词
PARTITIONED
LOCATION
ROWFORMAT
与Spark集成的限制
Spark 2.2(和更高版本)在运行时需要Java 8,尽管Kudu Spark 2.x集成是与Java7兼容的。Spark 2.2是Kudu 1.5.0的默认依赖版本。
在注册为临时表时,如果kudu表名带有大写或非ascii字符,需要修改kudu表名。
Kudu表的列名如果包含大写或非ascii字符,不能与SparkSQL一起使用。可以重命名列名,以解决这个问题。
<>和or谓词没有被推送到Kudu,而是由Spark任务来评估。只有带有后缀通配符的LIKE谓词被推到Kudu。这意味着“FOO%”会被推送到kudu,但是像“FOO%BAR”不会。
Kudu不能支持Spark SQL所能支持的所有类型。例如,Kudu不支持Date, Decimal和复杂类型。
Kudu表只能在SparkSQL中注册为临时表。
不能使用HiveContext查询Kudu表。
安全性的限制
空闲时的数据加密功能没有直接构建到Kudu中。通过使用dmcrypt等本地块设备加密软件,可以在空闲时加密Kudu数据。
授权仅在系统范围的粗粒度级别上可用。表级、列级和行级授权特性不可用。
Kudu不支持为Kudu流程配置自定义服务主体。主体必须遵循模式kudu/@。
Kudu与Apache Flume的集成,将不支持写入需要身份验证的Kudu集群。
由Kudu IPKI生成的服务器证书与bouncycastle版本1.52和更早版本是不兼容的。