勤径苦舟

Doris--基础--3.5--SQL--建表

Doris–基础–3.5–SQL–建表

1、查看帮助

1.1、命令

HELP CREATE TABLE;

1.2、内容

MySQL [(none)]> help create table
Name: 'CREATE TABLE'
Description:

该语句用于创建 table。
语法：

```
CREATE [EXTERNAL] TABLE [IF NOT EXISTS] [database.]table_name
(column_definition1[, column_definition2, ...]
[, index_definition1[, index_definition2, ...]])
[ENGINE = [olap|mysql|broker|hive|iceberg]]
[key_desc]
[COMMENT "table comment"];
[partition_desc]
[distribution_desc]
[rollup_index]
[PROPERTIES ("key"="value", ...)]
[BROKER PROPERTIES ("key"="value", ...)]
```

1. column_definition
语法：
`col_name col_type [agg_type] [NULL | NOT NULL] [DEFAULT "default_value"]`

说明：
col_name：列名称
col_type：列类型

```
	BOOLEAN（1字节）
		范围：{0,1}
	TINYINT（1字节）
		范围：-2^7 + 1 ~ 2^7 - 1
	SMALLINT（2字节）
		范围：-2^15 + 1 ~ 2^15 - 1
	INT（4字节）
		范围：-2^31 + 1 ~ 2^31 - 1
	BIGINT（8字节）
		范围：-2^63 + 1 ~ 2^63 - 1
	LARGEINT（16字节）
		范围：-2^127 + 1 ~ 2^127 - 1
	FLOAT（4字节）
		支持科学计数法
	DOUBLE（8字节）
		支持科学计数法
	DECIMAL[(precision, scale)] (16字节)
		保证精度的小数类型。默认是 DECIMAL(10, 0)
		precision: 1 ~ 27
		scale: 0 ~ 9
		其中整数部分为 1 ~ 18
		不支持科学计数法
	DATE（3字节）
		范围：0000-01-01 ~ 9999-12-31
	DATETIME（8字节）
		范围：0000-01-01 00:00:00 ~ 9999-12-31 23:59:59
	CHAR[(length)]
		定长字符串。长度范围：1 ~ 255。默认为1
	VARCHAR[(length)]
		变长字符串。长度范围：1 ~ 65533
	HLL (1~16385个字节)
		hll列类型，不需要指定长度和默认值、长度根据数据的聚合
		程度系统内控制，并且HLL列只能通过配套的hll_union_agg、Hll_cardinality、hll_hash进行查询或使用
	BITMAP
		bitmap列类型，不需要指定长度和默认值。表示整型的集合，元素最大支持到2^64 - 1
```

agg_type：聚合类型，如果不指定，则该列为 key 列。否则，该列为 value 列

   * SUM、MAX、MIN、REPLACE
   * HLL_UNION(仅用于HLL列，为HLL独有的聚合方式)、
   * BITMAP_UNION(仅用于 BITMAP 列，为 BITMAP 独有的聚合方式)、
   * REPLACE_IF_NOT_NULL：这个聚合类型的含义是当且仅当新导入数据是非NULL值时会发生替换行为，如果新导入的数据是NULL，那么Doris仍然会保留原值。注意：如果用在建表时REPLACE_IF_NOT_NULL列指定了NOT NULL，那么Doris仍然会将其转化NULL，不会向用户报错。用户可以借助这个类型完成部分列导入的功能。**这里要注意的是字段默认值要给NULL，而不能是空字符串，如果是空字符串，会给你替换成空字符串**。
   * 该类型只对聚合模型(key_desc的type为AGGREGATE KEY)有用，其它模型不需要指这个。

是否允许为NULL: 默认允许为 NULL。NULL 值在导入数据中用 \N 来表示

注意：
	BITMAP_UNION聚合类型列在导入时的原始数据类型必须是TINYINT,SMALLINT,INT,BIGINT。

2. index_definition
语法：
	`INDEX index_name (col_name[, col_name, ...]) [USING BITMAP] COMMENT 'xxxxxx'`
说明：
	index_name：索引名称
	col_name：列名
注意：
	当前仅支持BITMAP索引， BITMAP索引仅支持应用于单列

3. ENGINE 类型
默认为 olap。可选 mysql, broker, hive, iceberg
1) 如果是 mysql，则需要在 properties 提供以下信息：

```
PROPERTIES (
	"host" = "mysql_server_host",
	"port" = "mysql_server_port",
	"user" = "your_user_name",
	"password" = "your_password",
	"database" = "database_name",
	"table" = "table_name"
	)
```

注意：
	"table" 条目中的 "table_name" 是 mysql 中的真实表名。
	而 CREATE TABLE 语句中的 table_name 是该 mysql 表在 Doris 中的名字，可以不同。

在 Doris 创建 mysql 表的目的是可以通过 Doris 访问 mysql 数据库。
	而 Doris 本身并不维护、存储任何 mysql 数据。
2) 如果是 broker，表示表的访问需要通过指定的broker, 需要在 properties 提供以下信息：
	```
	PROPERTIES (
	"broker_name" = "broker_name",
	"path" = "file_path1[,file_path2]",
	"column_separator" = "value_separator"
	"line_delimiter" = "value_delimiter"
	)
	```
	另外还需要提供Broker需要的Property信息，通过BROKER PROPERTIES来传递，例如HDFS需要传入
	```
	BROKER PROPERTIES(
		"username" = "name",
		"password" = "password"
	)
	```
	这个根据不同的Broker类型，需要传入的内容也不相同
注意：
	"path" 中如果有多个文件，用逗号[,]分割。如果文件名中包含逗号，那么使用 %2c 来替代。如果文件名中包含 %，使用 %25 代替
	现在文件内容格式支持CSV，支持GZ，BZ2，LZ4，LZO(LZOP) 压缩格式。

3) 如果是 hive，则需要在 properties 提供以下信息：
```
PROPERTIES (
	"database" = "hive_db_name",
	"table" = "hive_table_name",
	"hive.metastore.uris" = "thrift://127.0.0.1:9083"
)

```
其中 database 是 hive 表对应的库名字，table 是 hive 表的名字，hive.metastore.uris 是 hive metastore 服务地址。

4）如果是 iceberg，则需要在 properties 中提供以下信息：
```
	PROPERTIES (
		"iceberg.database" = "iceberg_db_name",
		"iceberg.table" = "iceberg_table_name",
		"iceberg.hive.metastore.uris" = "thrift://127.0.0.1:9083",
		"iceberg.catalog.type" = "HIVE_CATALOG"
		)

```
其中 database 是 Iceberg 对应的库名；  
table 是 Iceberg 中对应的表名；
hive.metastore.uris 是 hive metastore 服务地址；  
catalog.type 默认为 HIVE_CATALOG。当前仅支持 HIVE_CATALOG，后续会支持更多 Iceberg catalog 类型。


4. key_desc
语法：
	`key_type(k1[,k2 ...])`
说明：
	数据按照指定的key列进行排序，且根据不同的key_type具有不同特性。
	key_type支持以下类型：
			AGGREGATE KEY:key列相同的记录，value列按照指定的聚合类型进行聚合，
						 适合报表、多维分析等业务场景。
			UNIQUE KEY:key列相同的记录，value列按导入顺序进行覆盖，
						 适合按key列进行增删改查的点查询业务。
			DUPLICATE KEY:key列相同的记录，同时存在于Doris中，
						 适合存储明细数据或者数据无聚合特性的业务场景。
	默认为DUPLICATE KEY，key列为列定义中前36个字节, 如果前36个字节的列数小于3，将使用前三列。
注意：
	除AGGREGATE KEY外，其他key_type在建表时，value列不需要指定聚合类型。

5. partition_desc
目前支持 RANGE 和 LIST 两种分区方式。
5.1 RANGE 分区
	RANGE partition描述有两种使用方式
	1) LESS THAN
		语法：

		```
			PARTITION BY RANGE (k1, k2, ...)
			(
			PARTITION partition_name1 VALUES LESS THAN MAXVALUE|("value1", "value2", ...),
			PARTITION partition_name2 VALUES LESS THAN MAXVALUE|("value1", "value2", ...)
			...
			)
		```
		
		说明：
			使用指定的 key 列和指定的数值范围进行分区。
			1) 分区名称仅支持字母开头，字母、数字和下划线组成
			2) 目前仅支持以下类型的列作为 Range 分区列
				TINYINT, SMALLINT, INT, BIGINT, LARGEINT, DATE, DATETIME
			3) 分区为左闭右开区间，首个分区的左边界为做最小值
			4) NULL 值只会存放在包含最小值的分区中。当包含最小值的分区被删除后，NULL 值将无法导入。
			5) 可以指定一列或多列作为分区列。如果分区值缺省，则会默认填充最小值。
		
		注意：
			1) 分区一般用于时间维度的数据管理
			2) 有数据回溯需求的，可以考虑首个分区为空分区，以便后续增加分区
	
	2）Fixed Range
		语法：
		```
			PARTITION BY RANGE (k1, k2, k3, ...)
			(
			PARTITION partition_name1 VALUES [("k1-lower1", "k2-lower1", "k3-lower1",...), ("k1-upper1", "k2-upper1", "k3-upper1", ...)),
			PARTITION partition_name2 VALUES [("k1-lower1-2", "k2-lower1-2", ...), ("k1-upper1-2", MAXVALUE, ))
			"k3-upper1-2", ...
			)
		```
		说明：
			1）Fixed Range比LESS THAN相对灵活些，左右区间完全由用户自己确定
			2）其他与LESS THAN保持同步

5.2 LIST 分区
	LIST partition分为单列分区和多列分区
	1) 单列分区
		语法：

		```
			PARTITION BY LIST(k1)
			(
			PARTITION partition_name1 VALUES IN ("value1", "value2", ...),
			PARTITION partition_name2 VALUES IN ("value1", "value2", ...)
			...
			)
		```
	
		说明：
			使用指定的 key 列和制定的枚举值进行分区。
			1) 分区名称仅支持字母开头，字母、数字和下划线组成
			2) 目前仅支持以下类型的列作为 List 分区列
				BOOLEAN, TINYINT, SMALLINT, INT, BIGINT, LARGEINT, DATE, DATETIME, CHAR, VARCHAR
			3) 分区为枚举值集合，各个分区之间分区值不能重复
			4) 不可导入 NULL 值
			5) 分区值不能缺省，必须指定至少一个
	
	2) 多列分区
		语法：
	
		```
			PARTITION BY LIST(k1, k2)
			(
			PARTITION partition_name1 VALUES IN (("value1", "value2"), ("value1", "value2"), ...),
			PARTITION partition_name2 VALUES IN (("value1", "value2"), ("value1", "value2"), ...)
			...
			)
		```
	
		说明：
			1) 多列分区的分区是元组枚举值的集合
			2) 每个元组值的个数必须与分区列个数相等
			3) 其他与单列分区保持同步

6. distribution_desc
	1) Hash 分桶
	语法：
		`DISTRIBUTED BY HASH (k1[,k2 ...]) [BUCKETS num]`
	说明：
		使用指定的 key 列进行哈希分桶。
	2) Random 分桶
	语法：
		`DISTRIBUTED BY RANDOM [BUCKETS num]`
	说明：
		使用随机数进行分桶。  
建议: 当没有合适的key做哈希分桶使得表的数据均匀分布的时候，建议使用RANDOM分桶方式。

7. PROPERTIES
1) 如果 ENGINE 类型为 olap
	   可以在 properties 设置该表数据的初始存储介质、存储到期时间和副本数。

```
   PROPERTIES (
	   "storage_medium" = "[SSD|HDD]",
	   ["storage_cooldown_time" = "yyyy-MM-dd HH:mm:ss"],
	   ["replication_num" = "3"]
	   ["replication_allocation" = "xxx"]
	   )
```

   storage_medium：        用于指定该分区的初始存储介质，可选择 SSD 或 HDD。默认初始存储介质可通过fe的配置文件 `fe.conf` 中指定 `default_storage_medium=xxx`，如果没有指定，则默认为 HDD。
						   注意：当FE配置项 `enable_strict_storage_medium_check` 为 `True` 时，若集群中没有设置对应的存储介质时，建表语句会报错 `Failed to find enough host in all backends with storage medium is SSD|HDD`. 
   storage_cooldown_time： 当设置存储介质为 SSD 时，指定该分区在 SSD 上的存储到期时间。
						   默认存放 30 天。
						   格式为："yyyy-MM-dd HH:mm:ss"
   replication_num:        指定分区的副本数。默认为 3。
   replication_allocation:     按照资源标签来指定副本分布。

   当表为单分区表时，这些属性为表的属性。
	   当表为两级分区时，这些属性为附属于每一个分区。
	   如果希望不同分区有不同属性。可以通过 ADD PARTITION 或 MODIFY PARTITION 进行操作

2) 如果 Engine 类型为 olap, 可以指定某列使用 bloom filter 索引
	   bloom filter 索引仅适用于查询条件为 in 和 equal 的情况，该列的值越分散效果越好
	   目前只支持以下情况的列:除了 TINYINT FLOAT DOUBLE 类型以外的 key 列及聚合方法为 REPLACE 的 value 列

```
   PROPERTIES (
	   "bloom_filter_columns"="k1,k2,k3"
	   )
```

3) 如果希望使用 Colocate Join 特性，需要在 properties 中指定

```
   PROPERTIES (
	   "colocate_with"="table1"
	   )
```

4) 如果希望使用动态分区特性，需要在properties 中指定。注意：动态分区只支持 RANGE 分区

```
  PROPERTIES (
	  "dynamic_partition.enable" = "true|false",
	  "dynamic_partition.time_unit" = "HOUR|DAY|WEEK|MONTH",
	  "dynamic_partition.start" = "${integer_value}",
	  "dynamic_partition.end" = "${integer_value}",
	  "dynamic_partition.prefix" = "${string_value}",
	  "dynamic_partition.buckets" = "${integer_value}
```
dynamic_partition.enable: 用于指定表级别的动态分区功能是否开启。默认为 true。
dynamic_partition.time_unit: 用于指定动态添加分区的时间单位，可选择为HOUR（小时），DAY（天），WEEK(周)，MONTH（月）。
							 注意：以小时为单位的分区列，数据类型不能为 DATE。
dynamic_partition.start: 用于指定向前删除多少个分区。值必须小于0。默认为 Integer.MIN_VALUE。
dynamic_partition.end: 用于指定提前创建的分区数量。值必须大于0。
dynamic_partition.prefix: 用于指定创建的分区名前缀，例如分区名前缀为p，则自动创建分区名为p20200108
dynamic_partition.buckets: 用于指定自动创建的分区分桶数量
dynamic_partition.create_history_partition: 用于创建历史分区功能是否开启。默认为 false。
dynamic_partition.history_partition_num: 当开启创建历史分区功能时，用于指定创建历史分区数量。
dynamic_partition.reserved_history_periods: 用于指定保留的历史分区的时间段。

5) 建表时可以批量创建多个 Rollup
语法：
```
	ROLLUP (rollup_name (column_name1, column_name2, ...)
		   [FROM from_index_name]
			[PROPERTIES ("key"="value", ...)],...)
```

6) 如果希望使用 内存表 特性，需要在 properties 中指定

```
	PROPERTIES (
	   "in_memory"="true"
	)   
```
当 in_memory 属性为 true 时，Doris会尽可能将该表的数据和索引Cache到BE 内存中

7) 创建UNIQUE_KEYS表时，可以指定一个sequence列，当KEY列相同时，将按照sequence列进行REPLACE(较大值替换较小值，否则无法替换)

```
	PROPERTIES (
		"function_column.sequence_type" = 'Date',
	);
```
sequence_type用来指定sequence列的类型，可以为整型和时间类型
Examples:

1. 创建一个 olap 表，使用 HASH 分桶，使用列存，相同key的记录进行聚合

```
CREATE TABLE example_db.table_hash
(
k1 BOOLEAN,
k2 TINYINT,
k3 DECIMAL(10, 2) DEFAULT "10.5",
v1 CHAR(10) REPLACE,
v2 INT SUM
)
ENGINE=olap
AGGREGATE KEY(k1, k2, k3)
COMMENT "my first doris table"
DISTRIBUTED BY HASH(k1) BUCKETS 32;
```

2. 创建一个 olap 表，使用 Hash 分桶，使用列存，相同key的记录进行覆盖，
设置初始存储介质和冷却时间

```
CREATE TABLE example_db.table_hash
(
k1 BIGINT,
k2 LARGEINT,
v1 VARCHAR(2048) REPLACE,
v2 SMALLINT SUM DEFAULT "10"
)
ENGINE=olap
AGGREGATE KEY(k1, k2)
DISTRIBUTED BY HASH (k1, k2) BUCKETS 32
PROPERTIES(
"storage_medium" = "SSD",
"storage_cooldown_time" = "2015-06-04 00:00:00"
);
```

3. 创建一个 olap 表，使用 Range 分区，使用Hash分桶，默认使用列存，
相同key的记录同时存在，设置初始存储介质和冷却时间

1）LESS THAN

```
CREATE TABLE example_db.table_range
(
k1 DATE,
k2 INT,
k3 SMALLINT,
v1 VARCHAR(2048),
v2 DATETIME DEFAULT "2014-02-04 15:36:00"
)
ENGINE=olap
DUPLICATE KEY(k1, k2, k3)
PARTITION BY RANGE (k1)
(
PARTITION p1 VALUES LESS THAN ("2014-01-01"),
PARTITION p2 VALUES LESS THAN ("2014-06-01"),
PARTITION p3 VALUES LESS THAN ("2014-12-01")
)
DISTRIBUTED BY HASH(k2) BUCKETS 32
PROPERTIES(
"storage_medium" = "SSD", "storage_cooldown_time" = "2015-06-04 00:00:00"
);
```

说明：
这个语句会将数据划分成如下3个分区：

```
( {    MIN     },   {"2014-01-01"} )
[ {"2014-01-01"},   {"2014-06-01"} )
[ {"2014-06-01"},   {"2014-12-01"} )
```

不在这些分区范围内的数据将视为非法数据被过滤

2) Fixed Range

```
CREATE TABLE table_range
(
k1 DATE,
k2 INT,
k3 SMALLINT,
v1 VARCHAR(2048),
v2 DATETIME DEFAULT "2014-02-04 15:36:00"
)
ENGINE=olap
DUPLICATE KEY(k1, k2, k3)
PARTITION BY RANGE (k1, k2, k3)
(
PARTITION p1 VALUES [("2014-01-01", "10", "200"), ("2014-01-01", "20", "300")),
PARTITION p2 VALUES [("2014-06-01", "100", "200"), ("2014-07-01", "100", "300"))
)
DISTRIBUTED BY HASH(k2) BUCKETS 32
PROPERTIES(
"storage_medium" = "SSD"
);
```

4. 创建一个 olap 表，使用 List 分区，使用Hash分桶，默认使用列存，
相同key的记录同时存在，设置初始存储介质和冷却时间

1）单列分区

```
CREATE TABLE example_db.table_list
(
k1 INT,
k2 VARCHAR(128),
k3 SMALLINT,
v1 VARCHAR(2048),
v2 DATETIME DEFAULT "2014-02-04 15:36:00"
)
ENGINE=olap
DUPLICATE KEY(k1, k2, k3)
PARTITION BY LIST (k1)
(
PARTITION p1 VALUES IN ("1", "2", "3"),
PARTITION p2 VALUES IN ("4", "5", "6"),
PARTITION p3 VALUES IN ("7", "8", "9")
)
DISTRIBUTED BY HASH(k2) BUCKETS 32
PROPERTIES(
"storage_medium" = "SSD", "storage_cooldown_time" = "2022-06-04 00:00:00"
);
```

说明：
这个语句会将数据划分成如下3个分区：

```
("1", "2", "3")
("4", "5", "6")
("7", "8", "9")
```

不在这些分区枚举值内的数据将视为非法数据被过滤

2) 多列分区

```
CREATE TABLE example_db.table_list
(
k1 INT,
k2 VARCHAR(128),
k3 SMALLINT,
v1 VARCHAR(2048),
v2 DATETIME DEFAULT "2014-02-04 15:36:00"
)
ENGINE=olap
DUPLICATE KEY(k1, k2, k3)
PARTITION BY LIST (k1, k2)
(
PARTITION p1 VALUES IN (("1","beijing"), ("1", "shanghai")),
PARTITION p2 VALUES IN (("2","beijing"), ("2", "shanghai")),
PARTITION p3 VALUES IN (("3","beijing"), ("3", "shanghai"))
)
DISTRIBUTED BY HASH(k2) BUCKETS 32
PROPERTIES(
"storage_medium" = "SSD", "storage_cooldown_time" = "2022-06-04 00:00:00"
);
```

说明：
这个语句会将数据划分成如下3个分区：

```
(("1","beijing"), ("1", "shanghai"))
(("2","beijing"), ("2", "shanghai"))
(("3","beijing"), ("3", "shanghai"))
```

不在这些分区枚举值内的数据将视为非法数据被过滤

5. 创建一个 mysql 表

5.1 直接通过外表信息创建mysql表
```
CREATE EXTERNAL TABLE example_db.table_mysql
(
k1 DATE,
k2 INT,
k3 SMALLINT,
k4 VARCHAR(2048),
k5 DATETIME
)
ENGINE=mysql
PROPERTIES
(
"host" = "127.0.0.1",
"port" = "8239",
"user" = "mysql_user",
"password" = "mysql_passwd",
"database" = "mysql_db_test",
"table" = "mysql_table_test"
)
```

5.2 通过External Catalog Resource创建mysql表
```
CREATE EXTERNAL RESOURCE "mysql_resource" 
PROPERTIES
(
 "type" = "odbc_catalog",
 "user" = "mysql_user",
 "password" = "mysql_passwd",
 "host" = "127.0.0.1",
  "port" = "8239"			
);
```
```
CREATE EXTERNAL TABLE example_db.table_mysql
(
k1 DATE,
k2 INT,
k3 SMALLINT,
k4 VARCHAR(2048),
k5 DATETIME
)
ENGINE=mysql
PROPERTIES
(
"odbc_catalog_resource" = "mysql_resource",
"database" = "mysql_db_test",
"table" = "mysql_table_test"
)
```

6. 创建一个数据文件存储在HDFS上的 broker 外部表, 数据使用 "|" 分割，"\n" 换行

```
CREATE EXTERNAL TABLE example_db.table_broker (
k1 DATE,
k2 INT,
k3 SMALLINT,
k4 VARCHAR(2048),
k5 DATETIME
)
ENGINE=broker
PROPERTIES (
"broker_name" = "hdfs",
"path" = "hdfs://hdfs_host:hdfs_port/data1,hdfs://hdfs_host:hdfs_port/data2,hdfs://hdfs_host:hdfs_port/data3%2c4",
"column_separator" = "|",
"line_delimiter" = "\n"
)
BROKER PROPERTIES (
"username" = "hdfs_user",
"password" = "hdfs_password"
)
```

7. 创建一张含有HLL列的表

```
CREATE TABLE example_db.example_table
(
k1 TINYINT,
k2 DECIMAL(10, 2) DEFAULT "10.5",
v1 HLL HLL_UNION,
v2 HLL HLL_UNION
)
ENGINE=olap
AGGREGATE KEY(k1, k2)
DISTRIBUTED BY HASH(k1) BUCKETS 32;
```

8. 创建一张含有BITMAP_UNION聚合类型的表（v1和v2列的原始数据类型必须是TINYINT,SMALLINT,INT）

```
CREATE TABLE example_db.example_table
(
k1 TINYINT,
k2 DECIMAL(10, 2) DEFAULT "10.5",
v1 BITMAP BITMAP_UNION,
v2 BITMAP BITMAP_UNION
)
ENGINE=olap
AGGREGATE KEY(k1, k2)
DISTRIBUTED BY HASH(k1) BUCKETS 32;
```

9. 创建两张支持Colocate Join的表t1 和t2

```
CREATE TABLE `t1` (
`id` int(11) COMMENT "",
`value` varchar(8) COMMENT ""
) ENGINE=OLAP
DUPLICATE KEY(`id`)
DISTRIBUTED BY HASH(`id`) BUCKETS 10
PROPERTIES (
"colocate_with" = "t1"
);

CREATE TABLE `t2` (
`id` int(11) COMMENT "",
`value` varchar(8) COMMENT ""
) ENGINE=OLAP
DUPLICATE KEY(`id`)
DISTRIBUTED BY HASH(`id`) BUCKETS 10
PROPERTIES (
"colocate_with" = "t1"
);
```

10. 创建一个数据文件存储在BOS上的 broker 外部表

```
CREATE EXTERNAL TABLE example_db.table_broker (
k1 DATE
)
ENGINE=broker
PROPERTIES (
"broker_name" = "bos",
"path" = "bos://my_bucket/input/file",
)
BROKER PROPERTIES (
  "bos_endpoint" = "http://bj.bcebos.com",
  "bos_accesskey" = "xxxxxxxxxxxxxxxxxxxxxxxxxx",
  "bos_secret_accesskey"="yyyyyyyyyyyyyyyyyyyy"
)
```

11. 创建一个带有bitmap 索引的表

```
CREATE TABLE example_db.table_hash
(
k1 TINYINT,
k2 DECIMAL(10, 2) DEFAULT "10.5",
v1 CHAR(10) REPLACE,
v2 INT SUM,
INDEX k1_idx (k1) USING BITMAP COMMENT 'xxxxxx'
)
ENGINE=olap
AGGREGATE KEY(k1, k2)
COMMENT "my first doris table"
DISTRIBUTED BY HASH(k1) BUCKETS 32;
```

12. 创建一个动态分区表(需要在FE配置中开启动态分区功能)，该表每天提前创建3天的分区，并删除3天前的分区。例如今天为`2020-01-08`，则会创建分区名为`p20200108`, `p20200109`, `p20200110`, `p20200111`的分区. 分区范围分别为: 

```
[types: [DATE]; keys: [2020-01-08]; ‥types: [DATE]; keys: [2020-01-09]; )
[types: [DATE]; keys: [2020-01-09]; ‥types: [DATE]; keys: [2020-01-10]; )
[types: [DATE]; keys: [2020-01-10]; ‥types: [DATE]; keys: [2020-01-11]; )
[types: [DATE]; keys: [2020-01-11]; ‥types: [DATE]; keys: [2020-01-12]; )
```

```
CREATE TABLE example_db.dynamic_partition
(
k1 DATE,
k2 INT,
k3 SMALLINT,
v1 VARCHAR(2048),
v2 DATETIME DEFAULT "2014-02-04 15:36:00"
)
ENGINE=olap
DUPLICATE KEY(k1, k2, k3)
PARTITION BY RANGE (k1) ()
DISTRIBUTED BY HASH(k2) BUCKETS 32
PROPERTIES(
"storage_medium" = "SSD",
"dynamic_partition.time_unit" = "DAY",
"dynamic_partition.start" = "-3",
"dynamic_partition.end" = "3",
"dynamic_partition.prefix" = "p",
"dynamic_partition.buckets" = "32"
 );
```

13. 创建一个带有rollup索引的表
```
CREATE TABLE example_db.rollup_index_table
(
	event_day DATE,
	siteid INT DEFAULT '10',
	citycode SMALLINT,
	username VARCHAR(32) DEFAULT '',
	pv BIGINT SUM DEFAULT '0'
)
AGGREGATE KEY(event_day, siteid, citycode, username)
DISTRIBUTED BY HASH(siteid) BUCKETS 10
rollup (
r1(event_day,siteid),
r2(event_day,citycode),
r3(event_day)
)
PROPERTIES("replication_num" = "3");
```
14. 创建一个内存表

```
CREATE TABLE example_db.table_hash
(
k1 TINYINT,
k2 DECIMAL(10, 2) DEFAULT "10.5",
v1 CHAR(10) REPLACE,
v2 INT SUM,
INDEX k1_idx (k1) USING BITMAP COMMENT 'xxxxxx'
)
ENGINE=olap
AGGREGATE KEY(k1, k2)
COMMENT "my first doris table"
DISTRIBUTED BY HASH(k1) BUCKETS 32
PROPERTIES ("in_memory"="true");
```

15. 创建一个hive外部表

```
CREATE TABLE example_db.table_hive
(
  k1 TINYINT,
  k2 VARCHAR(50),
  v INT
)
ENGINE=hive
PROPERTIES
(
  "database" = "hive_db_name",
  "table" = "hive_table_name",
  "hive.metastore.uris" = "thrift://127.0.0.1:9083"
);
```

16. 通过 replication_allocation 指定表的副本分布

```	
CREATE TABLE example_db.table_hash
(
k1 TINYINT,
k2 DECIMAL(10, 2) DEFAULT "10.5"
)
DISTRIBUTED BY HASH(k1) BUCKETS 32
PROPERTIES (
	"replication_allocation"="tag.location.group_a:1, tag.location.group_b:2"
);


CREATE TABLE example_db.dynamic_partition
(
k1 DATE,
k2 INT,
k3 SMALLINT,
v1 VARCHAR(2048),
v2 DATETIME DEFAULT "2014-02-04 15:36:00"
)
PARTITION BY RANGE (k1) ()
DISTRIBUTED BY HASH(k2) BUCKETS 32
PROPERTIES(
"dynamic_partition.time_unit" = "DAY",
"dynamic_partition.start" = "-3",
"dynamic_partition.end" = "3",
"dynamic_partition.prefix" = "p",
"dynamic_partition.buckets" = "32",
"dynamic_partition."replication_allocation" = "tag.location.group_a:3"
 );
```

17. 创建一个 Iceberg 外表

```
CREATE TABLE example_db.t_iceberg 
ENGINE=ICEBERG
PROPERTIES (
"iceberg.database" = "iceberg_db",
"iceberg.table" = "iceberg_table",
"iceberg.hive.metastore.uris"  =  "thrift://127.0.0.1:9083",
"iceberg.catalog.type"  =  "HIVE_CATALOG"
);

```

2、建表

2.1、语法

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] [database.]table_name
(column_definition1[, column_definition2, ...]
[, index_definition1[, index_definition2, ...]])
[ENGINE = [olap|mysql|broker|hive|iceberg]]
[key_desc]
[COMMENT "table comment"];
[partition_desc]
[distribution_desc]
[rollup_index]
[PROPERTIES ("key"="value", ...)]
[BROKER PROPERTIES ("key"="value", ...)]

2.1.1、案例

CREATE TABLE IF NOT EXISTS test_db.table0
(
    `user_id` LARGEINT NOT NULL COMMENT "用户id",
    `date` DATE NOT NULL COMMENT "数据灌入日期时间",
    `timestamp` DATETIME NOT NULL COMMENT "数据灌入的时间戳",
    `city` VARCHAR(20) COMMENT "用户所在城市",
    `age` SMALLINT COMMENT "用户年龄",
    `sex` TINYINT COMMENT "用户性别",
    `last_visit_date` DATETIME REPLACE DEFAULT "1970-01-01 00:00:00" COMMENT "用户最后一次访问时间",
    `cost` BIGINT SUM DEFAULT "0" COMMENT "用户总消费",
    `max_dwell_time` INT MAX DEFAULT "0" COMMENT "用户最大停留时间",
    `min_dwell_time` INT MIN DEFAULT "99999" COMMENT "用户最小停留时间"
)
ENGINE=olap
AGGREGATE KEY(`user_id`, `date`, `timestamp`, `city`, `age`, `sex`)
PARTITION BY RANGE(`date`)
(
    PARTITION `p202001` VALUES LESS THAN ("2020-02-01"),
    PARTITION `p202002` VALUES LESS THAN ("2020-03-01"),
    PARTITION `p202003` VALUES LESS THAN ("2020-04-01")
)
DISTRIBUTED BY HASH(`user_id`) BUCKETS 16
PROPERTIES
(
    "replication_num" = "3" 
);

2.1.2、Partition

2.1.3、Bucket

2.1.4、PROPERTIES

2.1.5、ENGINE

2.2、字段类型

2.2.1、普通

BOOLEAN（1字节）
	范围：{0,1}
TINYINT（1字节）
	范围：-2^7 + 1 ~ 2^7 - 1
SMALLINT（2字节）
	范围：-2^15 + 1 ~ 2^15 - 1
INT（4字节）
	范围：-2^31 + 1 ~ 2^31 - 1
BIGINT（8字节）
	范围：-2^63 + 1 ~ 2^63 - 1
LARGEINT（16字节）
	范围：-2^127 + 1 ~ 2^127 - 1
FLOAT（4字节）
	支持科学计数法
DOUBLE（8字节）
	支持科学计数法
DECIMAL[(precision, scale)] (16字节)
	保证精度的小数类型。默认是 DECIMAL(10, 0)
	precision: 1 ~ 27
	scale: 0 ~ 9
	其中整数部分为 1 ~ 18
	不支持科学计数法
DATE（3字节）
	范围：0000-01-01 ~ 9999-12-31
DATETIME（8字节）
	范围：0000-01-01 00:00:00 ~ 9999-12-31 23:59:59
CHAR[(length)]
	定长字符串。长度范围：1 ~ 255。默认为1
VARCHAR[(length)]
	变长字符串。长度范围：1 ~ 65533
HLL (1~16385个字节)
	hll列类型，不需要指定长度和默认值、长度根据数据的聚合
	程度系统内控制，并且HLL列只能通过配套的hll_union_agg、Hll_cardinality、hll_hash进行查询或使用
BITMAP
	bitmap列类型，不需要指定长度和默认值。表示整型的集合，元素最大支持到2^64 - 1

2.2.2、agg_type：聚合类型，如果不指定，则该列为 key 列。否则，该列为 value 列

SUM、MAX、MIN、REPLACE
HLL_UNION(仅用于HLL列，为HLL独有的聚合方式)、
BITMAP_UNION(仅用于 BITMAP 列，为 BITMAP 独有的聚合方式)、
REPLACE_IF_NOT_NULL：这个聚合类型的含义是当且仅当新导入数据是非NULL值时会发生替换行为，如果新导入的数据是NULL，那么Doris仍然会保留原值。注意：如果用在建表时REPLACE_IF_NOT_NULL列指定了NOT NULL，那么Doris仍然会将其转化NULL，不会向用户报错。用户可以借助这个类型完成部分列导入的功能。这里要注意的是字段默认值要给NULL，而不能是空字符串，如果是空字符串，会给你替换成空字符串。
- 该类型只对聚合模型(key_desc的type为AGGREGATE KEY)有用，其它模型不需要指这个。

3、关于 Partition 和 Bucket 的数量和数据量的建议

一个表的 Tablet 总数量等于 (Partition num * Bucket num)。
一个表的 Tablet 数量，在不考虑扩容的情况下，推荐略多于整个集群的磁盘数量。
单个 Tablet 的数据量理论上没有上下界，但建议在 1G - 10G 的范围内。
1. 如果单个 Tablet 数据量过小，则数据的聚合效果不佳，且元数据管理压力大。
2. 如果单个 Tablet 数据量过大，则不利于副本的迁移、补齐，且会增加 Schema Change 或者 Rollup 操作失败重试的代价(这些操作失败重试的粒度是 Tablet)。
当 Tablet 的数据量原则和数量原则冲突时，建议优先考虑数据量原则。
在建表时，每个分区的 Bucket 数量统一指定。但是在动态增加分区时(ADD PARTITION)，可以单独指定新分区的 Bucket 数量。可以利用这个功能方便的应对数据缩小或膨胀。
一个 Partition 的 Bucket 数量一旦指定，不可更改。所以在确定 Bucket 数量时，需要预先考虑集群扩容的情况。比如当前只有 3 台 host，每台 host 有 1 块盘。如果 Bucket 的数量只设置为 3 或更小，那么后期即使再增加机器，也不能提高并发度。

3.1、案例

假设在有10台BE，每台BE一块磁盘的情况下。如果表总大小为以下几种

表总大小为 500MB：建议 4-8个分片
表总大小为 5GB：建议 8-16个分片。
表总大小为 50GB：建议 32个分片。
表总大小为500GB：建议分区，每个分区大小在 50GB 左右，每个分区16-32个分片。
表总大小为 5TB：建议分区，每个分区大小在 50GB 左右，每个分区16-32个分片。

3.2、表的数据量计算

注：表的数据量可以通过 show data 命令查看，表的数据量=size/ReplicaCount

表的数据量=size/ReplicaCount
show data

4、Doris 的存储引擎规则

用户数据首先被划分成若干个分区(Partition)，划分的规则通常是按照用户指定的分区列进行范围划分，比如按时间划分。
在每个分区内，数据被进一步的按照Hash的方式分桶，分桶的规则是要找用户指定的分桶列的值进行Hash后分桶。每个分桶就是一个数据分片(Tablet)，也是数据划分的最小逻辑单元。
Partition 可以视为是逻辑上最小的管理单元。数据的导入与删除，都可以或仅能针对一个 Partition 进行。
Tablet直接的数据是没有交集的，独立存储的。Tablet也是数据移动、复制等操作的最小物理存储单元。

5、Doris的建表方式

单分区
复合分区

5.1、单分区

数据不进行分区，数据只做 HASH 分布，也就是分桶

5.1.1、案例

建立一个名字为 table1 的逻辑表。字段说明如下
1. siteid：类型是INT(4字节), 默认值为10
2. citycode：类型是SMALLINT(2字节)
3. username：类型是VARCHAR, 最大长度为32, 默认值为空字符串
4. pv：类型是BIGINT(8字节), 默认值是0; 这是一个指标列, Doris内部会对指标列做聚合操作, 这个列的聚合方法是求和(SUM)
分桶列为 siteid
桶数为 10。

5.1.1.1、建表语句

CREATE TABLE table1
(
    siteid INT DEFAULT '10',
    citycode SMALLINT,
    username VARCHAR(32) DEFAULT '',
    pv BIGINT SUM DEFAULT '0'
)
AGGREGATE KEY(siteid, citycode, username)
DISTRIBUTED BY HASH(siteid) BUCKETS 10
PROPERTIES("replication_num" = "1");

5.1.1.2、查看

desc table1

5.2、复合分区

第1级称为 Partition，即分区。用户可以指定某一维度列作为分区列(当前只支持整型和时间类型的列)，并指定每个分区的取值范围。
第2级称为 Distribution，即分桶。用户可以指定一个或多个维度列以及桶数对数据进行 HASH 分布。

5.2.1、使用场景

有时间维度或类似带有有序值的维度
1. 可以以这类维度列作为分区列。
2. 分区粒度可以根据导入频次、分区数据量等进行评估。
历史数据删除需求
1. 如有删除历史数据的需求(比如仅保留最近N 天的数据)。使用复合分区，可以通过删除历史分区来达到目的。也可以通过在指定分区内发送 DELETE 语句进行数据删除。
解决数据倾斜问题：
1. 每个分区可以单独指定分桶数量。如按天分区，当每天的数据量差异很大时，可以通过指定分区的分桶数，合理划分不同分区的数据，分桶列建议选择区分度大的列。

5.2.2、案例

建立一个名字为 table2 的逻辑表。字段说明如下
1. event_day：类型是DATE，无默认值
2. siteid：类型是INT(4字节), 默认值为10
3. citycode：类型是SMALLINT(2字节)
4. username：类型是VARCHAR, 最大长度为32, 默认值为空字符串
5. pv：类型是BIGINT(8字节), 默认值是0; 这是一个指标列, Doris 内部会对指标列做聚合操作, 这个列的聚合方法是求和(SUM)
6. 我们使用 event_day 列作为分区列，建立3个分区: p202006, p202007, p202008
```
p202006：范围为 [最小值, 2020-07-01)
p202007：范围为 [2020-07-01, 2020-08-01)
p202008：范围为 [2020-08-01, 2020-09-01)
```
每个分区使用 siteid 进行哈希分桶，桶数为10

5.2.2.1、建表语句

CREATE TABLE table2
(
    event_day DATE,
    siteid INT DEFAULT '10',
    citycode SMALLINT,
    username VARCHAR(32) DEFAULT '',
    pv BIGINT SUM DEFAULT '0'
)
AGGREGATE KEY(event_day, siteid, citycode, username)
PARTITION BY RANGE(event_day)
(
    PARTITION p202006 VALUES LESS THAN ('2020-07-01'),
    PARTITION p202007 VALUES LESS THAN ('2020-08-01'),
    PARTITION p202008 VALUES LESS THAN ('2020-09-01')
)
DISTRIBUTED BY HASH(siteid) BUCKETS 10
PROPERTIES("replication_num" = "1");

5.2.2.2、查看

desc table2

5.2.2.3、注意

上述表通过设置 replication_num 建的都是单副本的表，Doris建议用户采用默认的 3 副本设置，以保证高可用。
可以对复合分区表动态的增删分区。详见 HELP ALTER TABLE 中 Partition 相关部分。
数据导入可以导入指定的 Partition。详见 HELP LOAD。
可以动态修改表的 Schema。
可以对 Table 增加上卷表(Rollup)以提高查询性能，这部分可以参见高级使用指南关于 Rollup 的描述。
表的列的Null属性默认为true，会对查询性能有一定的影响。

你可能感兴趣的:(Doris,sql,数据库,java)

大三学生面试经历（2）无限大. 面试面试职场和发展
继续昨天的内容，我面试的是一个Java实习岗，但是居然也问了我前端（vue）相关的问题最大的感觉就是，现在真的越来越卷了，后端都把前端的东西卷完了，当时是线上面试，感觉答的不太好（因为确实没准备的太全），接下来的时间继续加强加强这些方面的学习愿与诸君共勉！具体如下1.请简述Vue.js的生命周期函数及其执行顺序2.Vue.js中的v-bind指令和v-model指令有什么区别?3.请简述Vue.j
java每日精进1.16（新增用户）为美好的生活献上祝福 SpringCloud功能 java 微服务 spring spring cloud
1.controller层@PostMapping("/create")@Operation(summary="新增用户")@PreAuthorize("@ss.hasPermission('system:user:create')")publicCommonResultcreateUser(@Valid@RequestBodyUserSaveReqVOreqVO){Longid=userServ
Java编程语言最流行的7个框架介绍 xiaoweids 数据库 java java hibernate 数据库
转自：微点阅读https://www.weidianyuedu.com1，SpringMVC在中国有一种说法“生姜仍旧又辛辣”，所以虽然SpringMVC已经发布了十多年，但它仍然强大有力，并且处于领先地位，具有绝对优势。在拥抱完整的MVC框架之后，Spring已经发展并且现在是面向Internet的应用程序的综合Java框架，为软件工程师提供了一个功能强大的工具包，用于Web应用程序开发和安全项
android备忘录教学_Android备忘录兰伽禾 android备忘录教学
常用库Gradle依赖：//retrofit2的gson转换器依赖compile'com.squareup.retrofit2:converter-gson:2.0.1'//retrofit2compile'com.squareup.retrofit2:retrofit:2.0.1'//retrofit2为RxJava准备的CallAdaptercompile'com.squareup.retro
华为OD机试E卷 --快递投放问题 --24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript c语言 python
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码题目描述有N个快递站点用字符串标识，某些站点之间有道路连接。每个站点有一些包裹要运输，每个站点间的包裹不重复，路上有检查站Q会导致部分货物无法通行，计算哪些货物无法正常投递?输入描述第一行输入MN，M个包裹N个道路信息…O<=M,N<=100,检查站禁止通行的包裹如果有多个以空格分开输出描述输出不
Redis 秋枫博客 redis redis
redisRedis是什么是一个高性能的key-value形式的数据库常常被用于缓存Redis有什么优势内存数据库，速度快，也支持数据的持久化，可以将内存中的数据保存在磁盘中，重启的时候可以再次加载进行使用。Redis读的速度是110000次/s,写的速度是81000次/s，且是单台服务器的Redis不仅仅支持简单的key-value类型的数据，同时还提供list，set，zset，hash等数据
sql 一行join 如何多表条件关联? tebukaopu148 sql 数据库
SELECTa.name,b.sortFROMaleftjoincona.uid=c.idLEFTJOINbONa.perid=b.idOR(a.peridISNULLANDa.bidisnotnullanda.bid=b.id)or(a.peridISNULLANDa.bidisnullandc.did=b.id)
Java 中的 Period 和 Duration HoneyMoose java python 数据库
在本文中让我们来看看在Java8中引入的2个新的类：Period和Duration.上面2个类可以被用来替换在determine和time中大量使用用来计算2个时间不同的API。针对上面2个类最主要的不同就是Period被用来计算日期的不同，Duration则是被用来计算时间的不同。Period类Period使用的单位是年，月，日来表达2个日期之间的不同。我们可以通过2个时期之间不同的betwee
Mybatis-Plus基本使用：从入门到精通 DTcode7 sql数据库相关数据库 mysql SQL 数据库开发 sql
Mybatis-Plus基本使用：从入门到精通一、Mybatis-Plus简介1.1核心特点1.2快速启动二、基本使用详解示例一：CRUD操作示例二：条件查询示例三：分页查询示例四：自动填充示例五：代码生成器三、高级技巧与实战经验3.1多表关联查询3.2性能优化3.3错误排查与调试四、最佳实践与建议五、结语在当今快速发展的软件工程领域，数据库操作的便捷性与效率成为了众多开发者关注的焦点。Mybat
华为OD机试E卷 - 螺旋数字矩阵（Java & Python& JS & C++ & C ）算法大师最新华为OD机试华为od 矩阵 java 华为OD机试E卷 python javascript C语言
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述疫情期间，小明隔离在家，百无聊赖，在纸上写数字玩。他发明了一种写法：给出数字个数n和行数m（0
判断列表中是否存在一个元素 baner4853 python
name=['alex','java'，3,65,3,2,6,8,2,4,7，xiao,mike]判断列表中是否存在一个元素:if3inname:print("3inname")统计元素个数：name.count(3)#判断列表中元素3的个数全部替换：#将3替换成33333333foriinrange(name.count(3)):#统计元素3的个数并做为循环次数ele_of_name=name.
MDX语言的语法沈霁晨包罗万象 golang 开发语言后端
MDX（MultidimensionalExpressions）语言是一种用于多维数据库的查询语言，广泛应用于微软的SQLServerAnalysisServices（SSAS）中。MDX的设计初衷是为了对多维数据进行复杂的查询和分析，尤其是在数据仓库和商业智能领域。本文将从MDX的基础知识、语法结构、常用函数以及实际应用等多方面进行详细探讨。一、MDX语言的基础知识MDX语言的核心是对多维数据集
JavaWeb，会话管理的学习曦月落雨 javaWeb java web
会话管理概述无状态协议无状态就是不保存状态，HTTP就是无状态协议，HTTP协议自身不会对请求和响应之间的通信状态进行保存，也就是说，在HTTP协议这个级别，协议对于发送过的请求或者响应都不做持久化处理。会话管理实现的手段cookie是在客户端保留少量数据的技术，主要通过响应头向客户端响应一些客户端要保留的信息session是在服务器端保留更多的数据的技术，主要通过HttpSession对象保存一
一篇文章让你学会Java之格式化输出凭君语未可 Java java 开发语言
这里写目录标题一、格式化输出方法1.使用`String.format()`方法语法：示例：2.使用`System.out.printf()`方法语法：示例：3.使用`Formatter`类示例：代码分析：二、常见的格式说明符：1.整数类型格式化说明符2.浮点类型格式化说明符3.字符串格式化说明符4.日期和时间格式化说明符5.百分号格式化说明符6.其他格式化控制符三、常用的格式化选项：1.宽度（Wi
深入探讨Web应用开发：从前端到后端的全栈实践禁默前端
目录引言1.Web应用开发的基本架构2.前端开发技术HTML、CSS和JavaScript前端框架与库响应式设计与移动优先3.后端开发技术Node.js（JavaScript后端）Python（Flask和Django）RubyonRailsJava（SpringBoot）4.数据库选择与管理关系型数据库（SQL）非关系型数据库（NoSQL）5.API设计与开发RESTfulAPIGraphQL6
【Springboot】——响应与分层解耦架构 Y小夜架构 spring boot 后端 java spring
博主现有专栏：C51单片机（STC89C516），c语言，c++，离散数学，算法设计与分析，数据结构，Python，Java基础，MySQL，linux，基于HTML5的网页设计及应用，Rust（官方文档重点总结），jQuery，前端vue.js，Javaweb开发，设计模式、Python机器学习、Springboot等主页链接：Y小夜-CSDN博客目录响应响应数据✨@ResponseBody✨G
华为OD机试E卷 --矩阵扩散--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od 矩阵 java python javascript
文章目录题目描述输入描述输出描述用例题目解析JS算法源码Java算法源码python算法源码c算法源码题目描述存在一个m×n的二维数组，其成员取值范围为0或1。其中值为1的成员具备扩散性，每经过1s，将上下左右值为0的成员同化为1。二维数组的成员初始值都为0，将第[i,j]和[k,l]两个个位置上元素修改成1后，求矩阵的所有元素变为1需要多长时间。输入描述输入数据中的：•前面2个数字表示这是一个m
node.js基于的人事管理系统程序+论文可用于毕业设计亦月学姐毕设 node.js 课程设计
本系统（程序+源码+数据库+调试部署+开发环境）带文档lw万字以上，文末可获取源码系统程序文件列表开题报告内容选题背景关于人事管理系统的研究，现有研究主要以传统模式下的人事信息管理为主，多侧重于基本的员工信息存储与简单的考勤统计等功能实现。专门针对集成化、智能化且功能全面覆盖现代企业人事管理各环节的研究较少。在国外，一些先进的人事管理系统已具备高度自动化和数据分析功能，但因国情和企业管理文化差异，
TiDB系列之：TiDB数据库账号权限，创建TiDB账号，创建数据库，创建表，插入数据快乐骑行^_^ 数据库 TiDB系列 TiDB数据库账号权限创建TiDB账号创建数据库创建表插入数据
TiDB系列之：TiDB数据库账号权限，创建TiDB账号，创建数据库，创建表，插入数据一、TiDB账号权限二、创建TiDB账号三、创建数据库，创建表，插入数据一、TiDB账号权限TiDB账号权限可以分为系统级权限和对象级权限两种，具体如下：系统级权限：ALLPRIVILEGES：拥有所有权限。CREATEUSER：创建用户。DROPUSER：删除用户。RELOAD：重新加载系统配置。SUPER：超
微信小程序交易平台/基于微信小程序的购物系统/基于微信小程序的电商平台/基于微信小程序的商品销售系统一枚小小程序员哈微信小程序小程序
摘要随着当今网络的发展，时代的进步，各行各业也在发生着变化，于是网络已经逐步进入人们的生活，给我们生活或者工作提供了新的方向新的可能。本毕业设计的内容是设计实现一个微信小程序交易平台。使用微信开发者是以java语言进行开发，MYSQL为数据库开发平台，Tomcat网络信息服务作为应用服务器。微信小程序交易平台的功能已基本实现，主要包括有商家、用户、商品分类、商品信息、商品咨询等功能。本微信小程序软
卓越效能，极简运维，体验云上的Serverless架构，领取转轮日历！数据库阿里云
技术解决方案【CloudUp挑战赛】」上线了！业务的持续稳定可服务，决定着企业对客户的服务质量，是企业发展的基础。应用部署的高可用架构和弹性能力对于业务的稳定与发展起着至关重要的作用，但企业同时需要考虑资源维护成本和费用成本。本方案采用云上的Serverless架构，整合了专有网络VPC、应用型负载均衡ALB、Serverless应用引擎以及PolarDBMySQL版Serverless数据库服务
CRM系统如何重塑销售全流程绩效分析程序员机器学习人工智能
在当今竞争激烈的商业环境中，销售绩效分析对于企业的持续增长至关重要。客户关系管理（CRM）系统通过提供销售全流程的绩效分析能力，帮助企业深入了解销售活动的各个环节，从而优化销售策略，提高销售效率和业绩。一、数据收集与整合：构建分析基础CRM系统能够从多个渠道收集客户数据，包括客户的基本信息、购买历史、互动记录以及销售活动的详细信息。这些数据被整合到一个统一的数据库中，为绩效分析提供了全面的基础。例
mybatis 动态传入表名注解_MyBatis构建sql时动态传入表名以及字段名理柴德波浪技术 mybatis 动态传入表名注解
一直在使用Mybatis这个ORM框架，都是使用mybatis里的一些常用功能。今天在项目开发中有个业务是需要限制各个用户对某些表里的字段查询以及某些字段是否显示，如某张表的某些字段不让用户查询到。这种情况下，就需要构建sql来动态传入表名、字段名了。现在对解决方法进行下总结，希望对遇到同样问题的伙伴有些帮助。动态SQL是mybatis的强大特性之一，mybatis在对sql语句进行预编译之前，会
Node.js 镜像的全方位指南 ivwdcwso node.js
Node.js是一门广泛应用于构建服务器端和客户端应用的JavaScript运行时。在容器化环境中，构建和使用Node.js镜像是非常常见的任务。以下是有关Node.js镜像的通常选择、制作流程、不同场景下的应用、安全性最佳实践以及镜像优化的全方位指南。1.选择合适的基础镜像1.1官方Node.js镜像DockerHub提供了官方Node.js镜像，由Node.js官方维护，提供了最新的稳定版本和
【YashanDB知识库】重装新库及元数据和数据导出导入指导数据库
本文内容来自YashanDB官网，原文内容请见https://www.yashandb.com/newsinfo/7253741.html?templateId=171...开始本文操作之前默认已经部署有3mn3cn3-3dn的yashan分布式数据库，并且已经配置好环境变量，开始操作之前请先停止所有业务。从旧库导出数据创建目录$cd~$mkdir-p/data/yashan/save\_data
内附源码｜头部基模企业信赖之选——DMS+Lindorm智能搜索方案数据库阿里云data+ai
本文为数据库「拥抱Data+AI」系列连载第6篇，该系列是阿里云瑶池数据库面向各行业Data+AI应用场景，基于真实客户案例&最佳实践，展示Data+AI行业解决方案的连载文章。本篇针对企业构建智能搜索服务的痛点，介绍如何利用阿里云Data+AI解决方案构建一站式AI搜索服务，深入分析了DMS+Lindorm的智能搜索解决方案。1、智能搜索成为信息消费的趋势近两年，AI大模型的迅速崛起为搜索产品注
飞腾平台Ne10安装使用指南
【写在前面】飞腾开发者平台是基于飞腾自身强大的技术基础和开放能力，聚合行业内优秀资源而打造的。该平台覆盖了操作系统、算法、数据库、安全、平台工具、虚拟化、存储、网络、固件等多个前沿技术领域，包含了应用使能套件、软件仓库、软件支持、软件适配认证四大板块，旨在共享尖端技术，为开发者提供一个涵盖多领域的开发平台和工具套件。点击这里开始你的技术升级之旅吧本文分享至飞腾开发者平台《飞腾平台Ne10安装使用指
飞腾平台VSIPL-FT安装使用指南
【写在前面】飞腾开发者平台是基于飞腾自身强大的技术基础和开放能力，聚合行业内优秀资源而打造的。该平台覆盖了操作系统、算法、数据库、安全、平台工具、虚拟化、存储、网络、固件等多个前沿技术领域，包含了应用使能套件、软件仓库、软件支持、软件适配认证四大板块，旨在共享尖端技术，为开发者提供一个涵盖多领域的开发平台和工具套件。点击这里开始你的技术升级之旅吧本文分享至飞腾开发者平台《飞腾平台VSIPL-FT安
一文弄懂事务的四个特性 Cider瞳读研的日常拾光数据库性能优化 mysql 后端 golang 面试 c++
事务的四个特性（ACID）在数据库管理系统中，事务（Transaction）是一组操作的集合，这些操作要么全部成功执行，要么全部失败回滚。为了保证事务的正确性和可靠性，数据库系统引入了事务的四个特性，即ACID：原子性（Atomicity）、一致性（Consistency）、隔离性（Isolation）和持久性（Durability）。这些特性确保了数据库在并发操作和系统故障的情况下仍能保持数据的
深入理解视图的创建与删除：数据库管理中的高级功能 qcidyu 文章归档数据库优化数据安全数据查询数据库管理删除视图创建视图数据库视图
title:深入理解视图的创建与删除：数据库管理中的高级功能date:2025/1/21updated:2025/1/21author:cmdragonexcerpt:在现代数据库管理系统中，视图是一个重要的高级功能，可以为用户提供定制化的数据视图以满足特定需求。视图不仅能够简化复杂的查询，还能增强数据安全性和访问效率。categories:前端开发tags:数据库视图创建视图删除视图数据库管理数
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc