hf200012

doris 各种数据导入及数据备份恢复使用方式

Apache Doris 代码仓库地址：apache/incubator-doris 欢迎大家关注加星

doris mini load

1.创建表（这里采用DUPLICATE模型，也可以用其他模型）

 CREATE TABLE `t_pro_dish_list_detail_test` (
   `order_time` date,
   `shop_id` varchar(32) ,
   `id` varchar(32) ,
   `table_bill_id` varchar(36) ,
   `shop_name` varchar(100) ,
   `dish_type` int,
   `dish_id` varchar(50) ,
   `dish_name` varchar(100) ,
   `standard_code` varchar(32) ,
   `standard_id` varchar(100) ,
   `dish_price` decimal(16,2),
   `served_quantity` int(11),
   `dish_abnormal_status` varchar(20),
   `ts` varchar(20),
   `taste_type_id` varchar(255),
   `taste_name` varchar(255)
 ) 
 DUPLICATE KEY(order_time)
 PARTITION BY RANGE(order_time) ( 
     PARTITION P_202010 VALUES [("2020-10-01"),("2020-11-01")), 
     PARTITION P_202011 VALUES [("2020-11-01"),("2020-12-01"))
 )
 DISTRIBUTED BY HASH(shop_id) BUCKETS 8 
 PROPERTIES( 
 "replication_num" = "2", 
 "dynamic_partition.enable" = "true", 
 "dynamic_partition.time_unit" = "MONTH", 
 "dynamic_partition.start" = "-2147483648", 
 "dynamic_partition.end" = "2", 
 "dynamic_partition.prefix" = "P_", 
 "dynamic_partition.buckets" = "8",
 "dynamic_partition.time_zone" = "Asia/Shanghai"
 );
 说明：
 replication_num : 副本数
 dynamic_partition.enable:  是否开启动态分区
 dynamic_partition.time_unit: 动态分区调度的单位(HOUR、DAY、WEEK、MONTH)
         当指定为 HOUR 时，动态创建的分区名后缀格式为 yyyyMMddHH，例如2020032501
         当指定为 DAY 时，动态创建的分区名后缀格式为 yyyyMMdd，例如20200325
         当指定为 WEEK 时，动态创建的分区名后缀格式为yyyy_ww。即当前日期属于这一年的第几周，例如 2020-            03-25 创建的分区名后缀为 2020_13, 表明目前为2020年第13周
         当指定为 MONTH 时，动态创建的分区名后缀格式为 yyyyMM，例如 202003
 dynamic_partition.start: 动态分区的起始偏移，为负数根据 time_unit 属性的不同，以当天（星期/月）             为基准，分区范围在此偏移之前的分区将会被删除。如果不填写，则默认为 -2147483648，即不删除历史             分区
 dynamic_partition.end:动态分区的结束偏移，为正数。根据 time_unit 属性的不同，以当天（星期/月）为基准，         提前创建对应范围的分区
 dynamic_partition.prefix:动态创建的分区名前缀。
 dynamic_partition.buckets:动态创建的分区所对应的分桶数量
 dynamic_partition.time_zone:动态分区的时区
                                
 CREATE TABLE `t_pro_dish_list_detail_test_demo` (
   `create_time` date,
   `pro_id` varchar(255),  
   `id` int(11) 
 ) 
 DUPLICATE KEY(create_time)
 PARTITION BY RANGE(create_time) (  
     PARTITION P_202011 VALUES [("2020-11-01"),("2020-12-01"))
 )
 DISTRIBUTED BY HASH(pro_id) BUCKETS 2
 PROPERTIES( 
 "replication_num" = "2", 
 "dynamic_partition.enable" = "true", 
 "dynamic_partition.time_unit" = "MONTH", 
 "dynamic_partition.start" = "-2147483648", 
 "dynamic_partition.end" = "2", 
 "dynamic_partition.prefix" = "P_", 
 "dynamic_partition.buckets" = "2" 
 );

2.执行导入（HTTP）

 curl -i -v --location-trusted -u root: -T /root/test/test.csv  http://10.220.147.155:8030/api/demo/t_pro_dish_list_detail_test_demo/_load?label=2020-092232-01&column_separator=%2c
 说明：
  label 唯一标识
  column_separator:   用于指定列与列之间的分隔符，默认的为'\t'
                         NOTE: 需要进行url编码，譬如
                         需要指定'\t'为分隔符，那么应该传入'column_separator=%09'
                         需要指定'\x01'为分隔符，那么应该传入'column_separator=%01'
                         需要指定','为分隔符，那么应该传入'column_separator=%2c'

3.查看结果

 1.show load可以查看导入信息，及错误信息
 2.页面system->jobs->操作的数据库名称（DbNAME）->load查看导入信息，及错误信息

4.常见错误

 Reason: actual column number is less than schema column number. actual number: 1 sep:   , schema number: 3; 
 原因：分割符没有生效，临时跳转的时候column_separator=%2c这个参数被丢弃了
 解决方法：
 curl -i -v --location-trusted -u root: -T /root/test/test.csv  http://10.220.147.155:8030/api/demo/t_pro_dish_list_detail_test_demo/_load?label=2020-092232-01\&column_separator=%2c
 加转译符"\"

doris Routine(kafka) load

1.提交流程

 1.Client 向 FE 提交一个例行导入作业。
 2.FE 通过 JobScheduler 将一个导入作业拆分成若干个 Task。每个 Task 负责导入指定的一部分数据。Task 被 3.TaskScheduler 分配到指定的 BE 上执行。
 4.在 BE 上，一个 Task 被视为一个普通的导入任务，通过 Stream Load 的导入机制进行导入。导入完成后，向 FE 汇报。
 5.FE 中的 JobScheduler 根据汇报结果，继续生成后续新的 Task，或者对失败的 Task 进行重试。
 整个例行导入作业通过不断的产生新的 Task，来完成数据不间断的导入

2.Description(介绍)

 1.功能：
   支持用户提交一个常驻的导入任务，通过不断的从指定的数据源读取数据，将数据导入到 Doris 中。
   目前仅支持通过无认证或者 SSL 认证方式，从 Kakfa 导入文本格式（CSV）的数据。
 2.语法：
    CREATE ROUTINE LOAD [db.]job_name ON tbl_name
     [merge_type]
     [load_properties]
     [job_properties]
     FROM data_source
     [data_source_properties]
   说明：
    1. [db.]job_name
         导入作业的名称，在同一个 database 内，相同名称只能有一个 job 在运行。
    2. tbl_name
         指定需要导入的表的名称。
    3. merge_type
         数据的合并类型，一共支持三种类型APPEND、DELETE、MERGE 其中，APPEND是默认值，表示这批数据全部需要追加到现有数据中，DELETE 表示删除与这批数据key相同的所有行，MERGE 语义 需要与delete on条件联合使用，表示满足delete 条件的数据按照DELETE 语义处理其余的按照APPEND 语义处理, 语法为[WITH MERGE|APPEND|DELETE]
    4. load_properties
          用于描述导入数据。语法：
         [column_separator],
         [columns_mapping],
         [where_predicates],
         [delete_on_predicates],
         [source_sequence],
         [partitions]
         1. column_separator:
            指定列分隔符，如：COLUMNS TERMINATED BY ",",默认为：\t
         2. columns_mapping: 指定源数据中列的映射关系，以及定义衍生列的生成方式。
            1. 映射列：按顺序指定，源数据中各个列，对应目的表中的哪些列。对于希望跳过的列，可以指定一个不存在的列名。假设目的表有三列 k1, k2, v1。源数据有4列，其中第1、2、4列分别对应 k2, k1, v1。则书写如下：
             COLUMNS (k2, k1, xxx, v1)
             其中 xxx 为不存在的一列，用于跳过源数据中的第三列。
            2. 衍生列：以 col_name = expr 的形式表示的列，我们称为衍生列。即支持通过 expr 计算得出目的表中对应列的值。衍生列通常排列在映射列之后，虽然这不是强制的规定，但是 Doris 总是先解析映射列，再解析衍生列。
 接上一个示例，假设目的表还有第4列 v2，v2 由 k1 和 k2 的和产生。则可以书写如下：
             COLUMNS (k2, k1, xxx, v1, v2 = k1 + k2);
 
         3. where_predicates
             用于指定过滤条件，以过滤掉不需要的列。过滤列可以是映射列或衍生列。
             例如我们只希望导入 k1 大于 100 并且 k2 等于 1000 的列，则书写如下：
             WHERE k1 > 100 and k2 = 1000
         4. partitions
             指定导入目的表的哪些 partition 中。如果不指定，则会自动导入到对应的 partition 中。
             示例：
             PARTITION(p1, p2, p3)
         5. delete_on_predicates
             表示删除条件，仅在 merge type 为MERGE 时有意义，语法与where 相同
         6. source_sequence:
             只适用于UNIQUE_KEYS,相同key列下，保证value列按照source_sequence列进行REPLACE,                   source_sequence可以是数据源中的列，也可以是表结构中的一列。
     5. job_properties
             用于指定例行导入作业的通用参数。
         语法：
         PROPERTIES (
             "key1" = "val1",
             "key2" = "val2"
         )

3.参数

1.desired_concurrent_number
期望的并发度。一个例行导入作业会被分成多个子任务执行。这个参数指定一个作业最多有多少任务可以同时执行。必须大于0。默认为3。这个并发度并不是实际的并发度，实际的并发度，会通过集群的节点数、负载情况，以及数据源的情况综合考虑。 例："desired_concurrent_number" = "3"
2.max_batch_interval/max_batch_rows/max_batch_size
这三个参数分别表示：
            1）每个子任务最大执行时间，单位是秒。范围为 5 到 60。默认为10。
            2）每个子任务最多读取的行数。必须大于等于200000。默认是200000。
            3）每个子任务最多读取的字节数。单位是字节，范围是 100MB 到 1GB。默认是 100MB
这三个参数，用于控制一个子任务的执行时间和处理量。当任意一个达到阈值，则任务结束。
例：  "max_batch_interval" = "20",
     "max_batch_rows" = "300000",
     "max_batch_size" = "209715200"
3.max_error_number
采样窗口内，允许的最大错误行数。必须大于等于0。默认是 0，即不允许有错误行。采样窗口为 max_batch_rows * 10。即如果在采样窗口内，错误行数大于 max_error_number，则会导致例行作业被暂停，需要人工介入检查数据质量问题。 被 where 条件过滤掉的行不算错误行。
4.strict_mode
是否开启严格模式，默认为关闭。如果开启后，非空原始数据的列类型变换如果结果为 NULL，则会被过滤。指定方式为 "strict_mode" = "true"
5.timezone
指定导入作业所使用的时区。默认为使用 Session 的 timezone 参数。该参数会影响所有导入涉及的和时区有关的函数结果。
6.format
指定导入数据格式，默认是csv，支持json格式。"format" = "json"
7.jsonpaths
 导入json方式分为：简单模式和匹配模式。如果设置了jsonpath则为匹配模式导入，否则为简单模式导入
 "jsonpaths" = "[\"$.category\",\"$.author\",\"$.price\",\"$.timestamp\"]"
8.json_root
json_root为合法的jsonpath字符串，用于指定json document的根节点，默认值为"",
{
	"data": [{
			"category": "11",
			"title": "SayingsoftheCentury",
			"price": 895,
			"timestamp": 1589191587
		},
		{
			"category": "22",
			"author": "2avc",
			"price": 895,
			"timestamp": 1589191487
		},
		{
			"category": "33",
			"author": "3avc",
			"title": "SayingsoftheCentury",
			"timestamp": 1589191387
		}
	]
}
"json_root" = "$.data"
9.strip_outer_array
布尔类型，为true表示json数据以数组对象开始且将数组对象中进行展平，默认值是false。
[{
		"category": "11",
		"title": "SayingsoftheCentury",
		"price": 895,
		"timestamp": 1589191587
	},
	{
		"category": "22",
		"author": "2avc",
		"price": 895,
		"timestamp": 1589191487
	},
	{
		"category": "33",
		"author": "3avc",
		"title": "SayingsoftheCentury",
		"timestamp": 1589191387
	}
] 
"strip_outer_array" = "true"
10.data_source
数据源的类型 	 FROM KAFKA
11.data_source_properties
指定数据源相关的信息。
语法：(
            "key1" = "val1",
            "key2" = "val2"
     )
例：
     (
            "kafka_broker_list" = "test-dev-bigdata5:9092,test-dev-bigdata6:9092,test-dev-bigdata7:9092",
            "kafka_topic" = "test_doris_kafka_load",	
            "kafka_partitions" = "0",
            "kafka_offsets" = "0，OFFSET_BEGINNING，OFFSET_END"
      );
OFFSET_BEGINNING: 从有数据的位置开始订阅
OFFSET_END: 从末尾开始订阅
12.导入数据格式样例
        整型类（TINYINT/SMALLINT/INT/BIGINT/LARGEINT）：1, 1000, 1234
        浮点类（FLOAT/DOUBLE/DECIMAL）：1.1, 0.23, .356
        日期类（DATE/DATETIME）：2017-10-03, 2017-06-13 12:34:03。
        字符串类（CHAR/VARCHAR）（无引号）：I am a student, a
        NULL值：\N

4.示例

####示例1
1.创建表
CREATE TABLE `example_table` (
  `id` int,
  `name` varchar(11),  
  `age` int,
  `address` varchar(50)
) 
DISTRIBUTED BY HASH(id) BUCKETS 2
PROPERTIES( 
"replication_num" = "2"
);
2.创建ROUTINE
CREATE ROUTINE LOAD example_db.test_json_label_1 ON example_table
        COLUMNS(id,age,name,address)
        PROPERTIES
        (
        "desired_concurrent_number"="2",
        "max_batch_interval" = "20",
        "max_batch_rows" = "300000",
        "max_batch_size" = "209715200",
        "strict_mode" = "false",
        "format" = "json"
        )
        FROM KAFKA
        (
        "kafka_broker_list" = "test-dev-bigdata5:9092,test-dev-bigdata6:9092,test-dev-bigdata7:9092",
        "kafka_topic" = "test_doris_kafka_load",
        "kafka_partitions" = "0",
        "kafka_offsets" = "0"
        );
说明：
example_db 数据库
example_table 表名称
test_json_label_1 唯一任务标识
格式：
{
  "id": 1,
  "age": 18,
  "name": "曹丽娜",
  "address": "china"
}
####示例2
1.创建表
CREATE TABLE `example_tbl` (
        `category` varchar(24) NULL COMMENT "",
        `author` varchar(24) NULL COMMENT "",
        `timestamp` bigint(20) NULL COMMENT "",
        `dt` int(11) NULL COMMENT "",
        `price` double REPLACE
        ) ENGINE=OLAP
        AGGREGATE KEY(`category`,`author`,`timestamp`,`dt`)
        COMMENT "OLAP"
        PARTITION BY RANGE(`dt`)
        (PARTITION p0 VALUES [("-2147483648"), ("20200509")),
        PARTITION p20200509 VALUES [("20200509"), ("20200510")),
        PARTITION p20200510 VALUES [("20200510"), ("20200511")),
        PARTITION p20200511 VALUES [("20200511"), ("20200512")))
        DISTRIBUTED BY HASH(`category`,`author`,`timestamp`) BUCKETS 4
        PROPERTIES (
            "storage_type" = "COLUMN",
            "replication_num" = "1"
);
2.创建ROUTINE
CREATE ROUTINE LOAD example_db.test1 ON example_tbl
        COLUMNS(category, author, price, timestamp, dt=from_unixtime(timestamp, '%Y%m%d'))
        PROPERTIES
        (
            "desired_concurrent_number"="2",
            "max_batch_interval" = "20",
            "max_batch_rows" = "300000",
            "max_batch_size" = "209715200",
            "strict_mode" = "false",
            "format" = "json",
            "jsonpaths" = "[\"$.category\",\"$.author\",\"$.price\",\"$.timestamp\"]",
            "strip_outer_array" = "true"
        )
        FROM KAFKA
        (
            "kafka_broker_list" = "test-dev-bigdata5:9092,test-dev-bigdata6:9092,test-dev-bigdata7:9092",
            "kafka_topic" = "test_doris_kafka_load",
            "property.group.id" = "test1", 
            "property.client.id" = "test1",
            "kafka_partitions" = "0",
            "kafka_offsets" = "0"
        );
3.格式
[{
		"category": "11",
		"title": "SayingsoftheCentury",
		"price": 895,
		"timestamp": 1589191587
	},
	{
		"category": "22",
		"author": "2avc",
		"price": 895,
		"timestamp": 1589191487
	},
	{
		"category": "33",
		"author": "3avc",
		"title": "SayingsoftheCentury",
		"timestamp": 1589191387
	}
] 
####示例3
CREATE ROUTINE LOAD example_db.test3 ON example_tbl
        COLUMNS(category, author, price, timestamp, dt=from_unixtime(timestamp, '%Y%m%d'))
        PROPERTIES
        (
            "desired_concurrent_number"="2",
            "max_batch_interval" = "20",
            "max_batch_rows" = "300000",
            "max_batch_size" = "209715200",
            "strict_mode" = "false",
            "format" = "json",
            "jsonpaths" = "[\"$.category\",\"$.author\",\"$.price\",\"$.timestamp\"]",
            "strip_outer_array" = "true"
            "json_root" = "$.data"
        )
        FROM KAFKA
        (
            "kafka_broker_list" = "test-dev-bigdata5:9092,test-dev-bigdata6:9092,test-dev-bigdata7:9092",
            "kafka_topic" = "test_doris_kafka_load",
            "kafka_partitions" = "0",
            "kafka_offsets" = "8"
        );
格式：
{
	"data": [{
			"category": "11",
			"title": "SayingsoftheCentury",
			"price": 895,
			"timestamp": 1589191587
		},
		{
			"category": "22",
			"author": "2avc",
			"price": 895,
			"timestamp": 1589191487
		},
		{
			"category": "33",
			"author": "3avc",
			"title": "SayingsoftheCentury",
			"timestamp": 1589191387
		}
	]
}
####示例4
 为 example_db 的 example_tbl 创建一个名为 test1 的 Kafka 例行导入任务。并且删除与v3 >100 行相匹配的key列的行                                   
 CREATE ROUTINE LOAD example_db.test1 ON example_tbl
        WITH MERGE
        COLUMNS(k1, k2, k3, v1, v2, v3),
        WHERE k1 > 100 and k2 like "%doris%",
        DELETE ON v3 >100
        PROPERTIES
        (
            "desired_concurrent_number"="3",
            "max_batch_interval" = "20",
            "max_batch_rows" = "300000",
            "max_batch_size" = "209715200",
            "strict_mode" = "false"
        )
        FROM KAFKA  
        (
            "kafka_broker_list" = "test-dev-bigdata5:9092,test-dev-bigdata6:9092,test-dev-bigdata7:9092",
            "kafka_topic" = "test_doris_kafka_load",
            "kafka_partitions" = "0",
            "kafka_offsets" = "8"
        );
####示例5
导入数据到含有sequence列的UNIQUE_KEYS表中
        CREATE ROUTINE LOAD example_db.test_job ON example_tbl
        COLUMNS TERMINATED BY ",",
        COLUMNS(k1,k2,source_sequence,v1,v2),
        ORDER BY source_sequence
        PROPERTIES
        (
            "desired_concurrent_number"="3",
            "max_batch_interval" = "30",
            "max_batch_rows" = "300000",
            "max_batch_size" = "209715200"
        ) FROM KAFKA
        (
            "kafka_broker_list" = "broker1:9092,broker2:9092,broker3:9092",
            "kafka_topic" = "my_topic",
            "kafka_partitions" = "0,1,2,3",
            "kafka_offsets" = "101,0,0,200"
        );

5.查看任务状态

查看test1的运行状态
SHOW ROUTINE LOAD TASK WHERE JobName = "test1";
停止test1的运行状态
STOP ROUTINE LOAD FOR test1;
暂停test1的运行状态
PAUSE ROUTINE LOAD FOR test1;
恢复名称为 test1 的例行导入作业。
RESUME ROUTINE LOAD FOR test1;

6.查看导入信息及日志

system->routine_loads

7.遇到错误

1.一直提交，但是没有数据进来，不会报错
原因：连接kafka集群的时候采用ip连接就会出现上面那种情况，建议换成主机名
2.出现消费kafka任务终止的情况，是因为下面那三个参数没有设置合理
max_batch_interval/max_batch_rows/max_batch_size
这三个参数用于控制单个任务的执行时间。其中任意一个阈值达到，则任务结束。其中 max_batch_rows 用于记录从 Kafka 中读取到的数据行数。max_batch_size 用于记录从 Kafka 中读取到的数据量，单位是字节。目前一个任务的消费速率大约为 5-10MB/s。
那么假设一行数据 500B，用户希望每 100MB 或 10 秒为一个 task。100MB 的预期处理时间是 10-20 秒，对应的行数约为 200000 行。则一个合理的配置为：
"max_batch_interval" = "10",
"max_batch_rows" = "200000",
"max_batch_size" = "104857600"
这三个参数需要合理设置

doris broker loda

1.提交流程

用户在提交导入任务后，FE 会生成对应的 Plan 并根据目前 BE 的个数和文件的大小，将 Plan 分给 多个 BE 执行，每个 BE 执行一部分导入数据。
BE 在执行的过程中会从 Broker 拉取数据，在对数据 transform 之后将数据导入系统。所有 BE 均完成导入，由 FE 最终决定导入是否成功。

2.创建broker_name

添加
ALTER SYSTEM ADD BROKER broker_name_1 "test-dev-bigdata5:8000";
ALTER SYSTEM ADD BROKER broker_name_2 "test-dev-bigdata6:8000";
ALTER SYSTEM ADD BROKER broker_name_3 "test-dev-bigdata7:8000";

删除
ALTER SYSTEM DROP BROKER broker_name01 "test-pro-doris-01:8000";

3.示例

####多个表导入
1.创建表
CREATE TABLE `test1` (
  `id` int,
  `name` varchar(11)
) 
DISTRIBUTED BY HASH(id) BUCKETS 2
PROPERTIES( 
"replication_num" = "2"
);

CREATE TABLE `test2` (
  `col1` int,
  `col2` varchar(11)
) 
DISTRIBUTED BY HASH(id) BUCKETS 2
PROPERTIES( 
"replication_num" = "2"
);
2.创建LABEL
LOAD LABEL example_db.label1
(
    DATA INFILE("hdfs://10.220.147.151:8020/tmp/palo/file")
    INTO TABLE test1
    COLUMNS TERMINATED BY ","
    (id,name)
    ,
    DATA INFILE("hdfs://10.220.147.151:8020/tmp/palo/file1")
    INTO TABLE test2
    COLUMNS TERMINATED BY ","
    (col1, col2)
)
WITH BROKER 'broker_name_2'
PROPERTIES
(
    "timeout" = "3600"
);

doris spark load

1.提交流程

1.FE 调度提交 ETL 任务到 Spark 集群执行。
2.Spark 集群执行 ETL 完成对导入数据的预处理。包括全局字典构建（BITMAP类型）、分区、排序、聚合等。
3.ETL 任务完成后，FE 获取预处理过的每个分片的数据路径，并调度相关的 BE 执行 Push 任务。
4.BE 通过 Broker 读取数据，转化为 Doris 底层存储格式。
5.FE 调度生效版本，完成导入任务。

2.配置FE节点

1下载spark依赖包
2.tar -zxvf spark-1.5.1-bin-hadoop2.4.tgz 解压即可
3.将spark客户端下的jars文件夹内所有jar包归档打包成一个zip文件
4.安装yarn客户端
5.vim ../fe.conf添加
  enable_spark_load = true
  spark_home_default_dir = /usr/local/spark2
  spark_resource_path = /usr/local/spark2/spark-2x.zip
  yarn_client_path = /usr/local/hadoop/bin/yarn

3.配置 ETL 集群

####语法：
-- create spark resource 创建
CREATE EXTERNAL RESOURCE resource_name
PROPERTIES
(
  type = spark,
  spark_conf_key = spark_conf_value,
  working_dir = path,
  broker = broker_name,
  broker.property_key = property_value
)

-- drop spark resource 删除
DROP RESOURCE resource_name

-- show resources 查看
SHOW RESOURCES
SHOW PROC "/resources"

-- privileges 赋权限
GRANT USAGE_PRIV ON RESOURCE resource_name TO user_identity
GRANT USAGE_PRIV ON RESOURCE resource_name TO ROLE role_name

-- 例子：授予spark0资源的使用权限给用户user0
GRANT USAGE_PRIV ON RESOURCE "spark0" TO "user0"@"%";

####参数说明
resource_name 为 Doris 中配置的 Spark 资源的名字
Spark 相关参数如下：
spark.master: 必填，目前支持yarn，spark://host:port。
spark.submit.deployMode: Spark 程序的部署模式，必填，支持 cluster，client 两种。
spark.hadoop.yarn.resourcemanager.address: master为yarn时必填。
spark.hadoop.fs.defaultFS: master为yarn时必填。
其他参数为可选，参考http://spark.apache.org/docs/latest/configuration.html
working_dir: ETL 使用的目录。spark作为ETL资源使用时必填。例如：hdfs://host:port/tmp/doris。
broker: broker 名字。spark作为ETL资源使用时必填。需要使用ALTER SYSTEM ADD BROKER 命令提前完成配置。
broker.property_key: broker读取ETL生成的中间文件时需要指定的认证信息等。

####示例配置 ETL 集群cluster模式
CREATE EXTERNAL RESOURCE "spark6"
PROPERTIES
(
  "type" = "spark",
  "spark.master" = "yarn",
  "spark.submit.deployMode" = "cluster",
  "spark.executor.memory" = "1g",
  "spark.yarn.queue" = "queue0",
  "spark.hadoop.yarn.resourcemanager.address" = "hdfs://test-dev-bigdata1:8032",
  "spark.hadoop.fs.defaultFS" = "hdfs://test-dev-bigdata1:8020",
  "working_dir" = "hdfs://test-dev-bigdata1:8020/tmp/doris",
  "broker" = "broker_name_1"
);

####client模式
CREATE EXTERNAL RESOURCE "spark2"
PROPERTIES
(
  "type" = "spark",
  "spark.master" = "spark://10.220.147.155:7077",
  "spark.submit.deployMode" = "client",
  "working_dir" = "hdfs://10.220.147.151:8020/tmp/doris",
  "broker" = "broker_name_2"
);

4.示例

####上游数据源是hive表的情况
####step 1:新建hive外部表
CREATE EXTERNAL TABLE hive_t2
(
    orderid INT,
    createtime varchar(25),
    modifiedtime varchar(50),
    status varchar(100),
    dt varchar(100)
)
ENGINE=hive
properties
(
"database" = "test",
"table" = "ods_orders",
"hive.metastore.uris" = "thrift://10.220.147.151:9083"
);
####step 2:创建doris表
CREATE TABLE `test_hive` (
    orderid INT,
    createtime varchar(25),
    modifiedtime varchar(50),
    status varchar(100),
    dt varchar(100)
) 
DISTRIBUTED BY HASH(orderid) BUCKETS 2
PROPERTIES( 
"replication_num" = "2"
);
#####step 3:提交load命令，要求导入的 doris 表中的列必须在 hive 外部表中存在。
LOAD LABEL demo.label25
(
    DATA FROM TABLE hive_t2
    INTO TABLE test_hive
)
WITH RESOURCE 'spark0'
(
    "spark.executor.memory" = "2g",
    "spark.shuffle.compress" = "true"
)
PROPERTIES
(
    "timeout" = "3600" //注：数据量特别大的，时间可以设置长
);

####上游数据源为hdfs文件的情况
####step 1:创建表
CREATE TABLE `test3` (
  `id` int,
  `name` varchar(11)
) 
DISTRIBUTED BY HASH(id) BUCKETS 2
PROPERTIES( 
"replication_num" = "2"
);
####step 2:提交load命令
LOAD LABEL demo.label23
(
    DATA INFILE("hdfs://10.220.147.151:8020/tmp/palo/file1")
    INTO TABLE test3
    COLUMNS TERMINATED BY ","
    (id,name)
    
)
WITH RESOURCE 'spark0'
(
    "spark.executor.memory" = "2g",
    "spark.shuffle.compress" = "true"
)
PROPERTIES
(
    "timeout" = "3600"
);

4.常见错误

1.type:ETL_SUBMIT_FAIL; msg:errCode = 2, detailMessage = start spark app failed. error: Waiting too much time to get appId from handle. spark app state: UNKNOWN, loadJobId:16020
出现上面这个情况需要去看具体的错误，目录：/soft/doris-fe/log/spark_launcher_log
2.1064 - errCode = 2, detailMessage = Spark Load is coming soon
打压缩包的时候只需要把jar文件下的包打进去，不需要把jar目录打进去
3.type:ETL_SUBMIT_FAIL; msg:errCode = 2, detailMessage = errCode = 2, detailMessage = failed to upload lib to repository, srcPath=/usr/local/spark2/spark-2x.zip destPath=hdfs://10.220.147.151:8020/tmp/doris/2113522669/__spark_repository__spark0/__archive_1.0.0/__lib__spark-2x.zip message=errCode = 2, detailMessage = Read file exception. filePath=/usr/local/spark2/spark-2x.zip
原因：配置 fe.conf spark_resource_path = /usr/local/spark2/spark-2x.zip 这个地址写错了
4. 查看yarn上面的报错信息：Path does not exist: hdfs://10.220.147.151:8020/tmp/doris/jobs/11001/label17/18009/configs/jobconfig.json;
fe.log的错误信息是：$JAVA_HOEM not set
原因java_home没有设置，查看JAVA_HOME是否配置，如果配置，则需要在hadoop/libexec/hadoop-config.sh添加export JAVA_HOEM=/usr/local/java,因为在fe要用hadoop/libexec/hadoop-config.sh

DDL

添加分区
ALTER TABLE ods.ods_pos_pro_dish_list_detail_delta  ADD PARTITION P_20150101 VALUES [("2015-01-01 00:00:00"),("2016-01-01 00:00:00"));
删除分区
ALTER TABLE ods_pos_pro_dish_list_detail_delta DROP PARTITION P_20200101;
设置动态分区
ALTER TABLE ods.ods_pos_pro_dish_list_detail_delta SET
(
    "dynamic_partition.enable" = "true"
);
修改副本数
ALTER TABLE ods.ods_pos_pro_dish_list_detail_delta SET
(
    "replication_num" = "6"
);
1) 设置数据库数据量配额，单位为B/K/KB/M/MB/G/GB/T/TB/P/PB
        ALTER DATABASE db_name SET DATA QUOTA quota;
2) 重命名数据库
        ALTER DATABASE db_name RENAME new_db_name;
3) 设置数据库的副本数量配额
        ALTER DATABASE db_name SET REPLICA QUOTA quota;                                                                                      
添加字段
    ALTER TABLE example_db.my_table ADD COLUMN dish_type_code varchar(20) DEFAULT NULL 
添加字段时出错：errCode = 2, detailMessage = Create replicas failed. Error: Error replicas:10003=5341268, 10003=5341296, 10003=5341288
解决： ADMIN SET FRONTEND CONFIG ("tablet_create_timeout_second"="10");
      ADMIN SET FRONTEND CONFIG ("max_create_table_timeout_second"="1000");                修改字段注释
    ALTER TABLE tb_user MODIFY COLUMN name VARCHAR(30) NOT NULL COMMENT '姓名2';

doris导出数据

SELECT * FROM ods_pos_pro_taste_name_delta
INTO OUTFILE "hdfs://test-pro-cdh-namenode1:8020/tmp/palo/result_"
FORMAT AS CSV
PROPERTIES
(
    "broker.name" = "broker_name01",
    "column_separator" = ",",
    "line_delimiter" = "\n",
    "max_file_size" = "10MB"
);

###参数介绍
column_separator：列分隔符，仅对 CSV 格式适用。默认为 \t。
line_delimiter：行分隔符，仅对 CSV 格式适用。默认为 \n。
max_file_size：单个文件的最大大小。默认为 1GB。取值范围在 5MB 到 2GB 之间。超过这个大小的文件将会被切分。

doris备份和迁移

####创建语法（help CREATE REPOSITORY;）
 该语句用于创建仓库。仓库用于属于备份或恢复。仅 root 或 superuser 用户可以创建仓库。
    语法：
        CREATE [READ ONLY] REPOSITORY `repo_name`
        WITH BROKER `broker_name`
        ON LOCATION `repo_location`
        PROPERTIES ("key"="value", ...);
            
    说明：
        1. 仓库的创建，依赖于已存在的 broker
        2. 如果是只读仓库，则只能在仓库上进行恢复。如果不是，则可以进行备份和恢复操作。
        3. 根据 broker 的不同类型，PROPERTIES 有所不同，具体见示例。
Examples:
    1. 创建名为 bos_repo 的仓库，依赖 BOS broker "bos_broker"，数据根目录为：bos://palo_backup
        CREATE REPOSITORY `bos_repo`
        WITH BROKER `bos_broker`
        ON LOCATION "bos://palo_backup"
        PROPERTIES
        (
            "bos_endpoint" = "http://gz.bcebos.com",
            "bos_accesskey" = "069fc2786e664e63a5f111111114ddbs22",
            "bos_secret_accesskey"="70999999999999de274d59eaa980a"
        );
     
    2. 创建和示例 1 相同的仓库，但属性为只读：
        CREATE READ ONLY REPOSITORY `bos_repo`
        WITH BROKER `bos_broker`
        ON LOCATION "bos://palo_backup"
        PROPERTIES
        (
            "bos_endpoint" = "http://gz.bcebos.com",
            "bos_accesskey" = "069fc2786e664e63a5f111111114ddbs22",
            "bos_secret_accesskey"="70999999999999de274d59eaa980a"
        );

    3. 创建名为 hdfs_repo 的仓库，依赖 Baidu hdfs broker "hdfs_broker"，数据根目录为：hdfs://hadoop-name-node:54310/path/to/repo/
        CREATE REPOSITORY `hdfs_repo`
        WITH BROKER `hdfs_broker`
        ON LOCATION "hdfs://hadoop-name-node:54310/path/to/repo/"
        PROPERTIES
        (
            "username" = "user",
            "password" = "password"
        );
##查看远程仓库命令
show REPOSITORY;
  
##备份（help BACKUP）
该语句用于备份指定数据库下的数据。该命令为异步操作。提交成功后，需通过 SHOW BACKUP 命令查看进度。仅支持备份 OLAP 类型的表。
    语法：
        BACKUP SNAPSHOT [db_name].{snapshot_name}
        TO `repository_name`
        ON (
            `table_name` [PARTITION (`p1`, ...)],
            ...
        )
        PROPERTIES ("key"="value", ...);
            
    说明：
        1. 同一数据库下只能有一个正在执行的 BACKUP 或 RESTORE 任务。
        2. ON 子句中标识需要备份的表和分区。如果不指定分区，则默认备份该表的所有分区。
        3. PROPERTIES 目前支持以下属性：
                "type" = "full"：表示这是一次全量更新（默认）。
                "timeout" = "3600"：任务超时时间，默认为一天。单位秒。
Examples:

    1. 全量备份 example_db 下的表 example_tbl 到仓库 example_repo 中：
        BACKUP SNAPSHOT example_db.snapshot_label1
        TO example_repo
        ON (example_tbl)
        PROPERTIES ("type" = "full");
        
    2. 全量备份 example_db 下，表 example_tbl 的 p1, p2 分区，以及表 example_tbl2 到仓库 example_repo 中：
        BACKUP SNAPSHOT example_db.snapshot_label2
        TO example_repo
        ON 
        (
            example_tbl PARTITION (p1,p2),
            example_tbl2
        );
###查看最近一次 backup 作业的执行情况，包括
JobId：本次备份作业的 id。
SnapshotName：用户指定的本次备份作业的名称（Label）。
DbName：备份作业对应的 Database。
State：备份作业当前所在阶段：
PENDING：作业初始状态。
SNAPSHOTING：正在进行快照操作。
UPLOAD_SNAPSHOT：快照结束，准备上传。
UPLOADING：正在上传快照。
SAVE_META：正在本地生成元数据文件。
UPLOAD_INFO：上传元数据文件和本次备份作业的信息。
FINISHED：备份完成。
CANCELLED：备份失败或被取消。
BackupObjs：本次备份涉及的表和分区的清单。
CreateTime：作业创建时间。
SnapshotFinishedTime：快照完成时间。
UploadFinishedTime：快照上传完成时间。
FinishedTime：本次作业完成时间。
UnfinishedTasks：在 SNAPSHOTTING，UPLOADING 等阶段，会有多个子任务在同时进行，这里展示的当前阶段，未完成的子任务的 task id。
TaskErrMsg：如果有子任务执行出错，这里会显示对应子任务的错误信息。
Status：用于记录在整个作业过程中，可能出现的一些状态信息。
Timeout：作业的超时时间，单位是秒。
###命令：SHOW BACKUP
###查看远端仓库中已存在的备份。
 1. 查看仓库 example_repo 中已有的备份：
        SHOW SNAPSHOT ON example_repo;
        
2. 仅查看仓库 example_repo 中名称为 backup1 的备份：
        SHOW SNAPSHOT ON example_repo WHERE SNAPSHOT = "backup1";
        
3. 查看仓库 example_repo 中名称为 backup1 的备份，时间版本为 "2018-05-05-15-34-26" 的详细信息：
        SHOW SNAPSHOT ON example_repo
        WHERE SNAPSHOT = "backup1" AND TIMESTAMP = "2018-05-05-15-34-26";

###参数说明：
Snapshot：备份时指定的该备份的名称（Label）。
Timestamp：备份的时间戳。
Status：该备份是否正常。
        
###恢复（help RESTORE）
 1. RESTORE
    该语句用于将之前通过 BACKUP 命令备份的数据，恢复到指定数据库下。该命令为异步操作。提交成功后，需通过 SHOW RESTORE 命令查看进度。仅支持恢复 OLAP 类型的表。
    语法：
        RESTORE SNAPSHOT [db_name].{snapshot_name}
        FROM `repository_name`
        ON (
            `table_name` [PARTITION (`p1`, ...)] [AS `tbl_alias`],
            ...
        )
        PROPERTIES ("key"="value", ...);
            
    说明：
        1. 同一数据库下只能有一个正在执行的 BACKUP 或 RESTORE 任务。
        2. ON 子句中标识需要恢复的表和分区。如果不指定分区，则默认恢复该表的所有分区。所指定的表和分区必须已存在于仓库备份中。
        3. 可以通过 AS 语句将仓库中备份的表名恢复为新的表。但新表名不能已存在于数据库中。分区名称不能修改。
        4. 可以将仓库中备份的表恢复替换数据库中已有的同名表，但须保证两张表的表结构完全一致。表结构包括：表名、列、分区、Rollup等等。
        5. 可以指定恢复表的部分分区，系统会检查分区 Range 是否能够匹配。
        6. PROPERTIES 目前支持以下属性：
                "backup_timestamp" = "2018-05-04-16-45-08"：指定了恢复对应备份的哪个时间版本，必填。该信息可以通过 `SHOW SNAPSHOT ON repo;` 语句获得。
                "replication_num" = "3"：指定恢复的表或分区的副本数。默认为3。若恢复已存在的表或分区，则副本数必须和已存在表或分区的副本数相同。同时，必须有足够的 host 容纳多个副本。
                "timeout" = "3600"：任务超时时间，默认为一天。单位秒。
                "meta_version" = 40：使用指定的 meta_version 来读取之前备份的元数据。注意，该参数作为临时方案，仅用于恢复老版本 Doris 备份的数据。最新版本的备份数据中已经包含 meta version，无需再指定。
Examples:
    1. 从 example_repo 中恢复备份 snapshot_1 中的表 backup_tbl 到数据库 example_db1，时间版本为 "2018-05-04-16-45-08"。恢复为 1 个副本：
        RESTORE SNAPSHOT example_db1.`snapshot_1`
        FROM `example_repo`
        ON ( `backup_tbl` )
        PROPERTIES
        (
            "backup_timestamp"="2018-05-04-16-45-08",
            "replication_num" = "1"
        );
        
    2. 从 example_repo 中恢复备份 snapshot_2 中的表 backup_tbl 的分区 p1,p2，以及表 backup_tbl2 到数据库 example_db1，并重命名为 new_tbl，时间版本为 "2018-05-04-17-11-01"。默认恢复为 3 个副本：
        RESTORE SNAPSHOT example_db1.`snapshot_2`
        FROM `example_repo`
        ON
        (
            `backup_tbl` PARTITION (`p1`, `p2`),
            `backup_tbl2` AS `new_tbl`
        )
        PROPERTIES
        (
            "backup_timestamp"="2018-05-04-17-11-01"
        );
###查看最近一次 restore 作业的执行情况，包括：
JobId：本次恢复作业的 id。
Label：用户指定的仓库中备份的名称（Label）。
Timestamp：用户指定的仓库中备份的时间戳。
DbName：恢复作业对应的 Database。
State：恢复作业当前所在阶段：
PENDING：作业初始状态。
SNAPSHOTING：正在进行本地新建表的快照操作。
DOWNLOAD：正在发送下载快照任务。
DOWNLOADING：快照正在下载。
COMMIT：准备生效已下载的快照。
COMMITTING：正在生效已下载的快照。
FINISHED：恢复完成。
CANCELLED：恢复失败或被取消。
AllowLoad：恢复期间是否允许导入。
ReplicationNum：恢复指定的副本数。
RestoreObjs：本次恢复涉及的表和分区的清单。
CreateTime：作业创建时间。
MetaPreparedTime：本地元数据生成完成时间。
SnapshotFinishedTime：本地快照完成时间。
DownloadFinishedTime：远端快照下载完成时间。
FinishedTime：本次作业完成时间。
UnfinishedTasks：在 SNAPSHOTTING，DOWNLOADING, COMMITTING 等阶段，会有多个子任务在同时进行，这里展示的当前阶段，未完成的子任务的 task id。
TaskErrMsg：如果有子任务执行出错，这里会显示对应子任务的错误信息。
Status：用于记录在整个作业过程中，可能出现的一些状态信息。
Timeout：作业的超时时间，单位是秒。
###命令：SHOW RESTORE

##取消当前正在执行的备份作业。
CANCEL BACKUP

##取消当前正在执行的恢复作业。
CANCEL RESTORE

##删除已创建的远端仓库。删除仓库，仅仅是删除该仓库在 Doris 中的映射，不会删除实际的仓库数据。
DROP REPOSITORY

###示例
## 1.创建远程仓库
  CREATE REPOSITORY `hdfs_repo`
        WITH BROKER `broker_name_2`
        ON LOCATION "hdfs://test-dev-bigdata1:8020/tmp/doris_backup"
        PROPERTIES
        (
            "username" = "",
            "password" = ""
        );

##2.备份表
全量备份 example_db 下的表 example_tbl 到仓库 example_repo 中：
        BACKUP SNAPSHOT ods.snapshot_label1
        TO hdfs_repo
        ON (ods_pos_pro_sell_out_delta)
        PROPERTIES ("type" = "full");
        
##3.查看备份任务
show BACKUP
##4.查看SNAPSHOT状态
SHOW SNAPSHOT ON hdfs_repo WHERE SNAPSHOT = "snapshot_label1";
##5.其他集群数据下添加REPOSITORY
 CREATE REPOSITORY `hdfs_repo`
        WITH BROKER `broker_name01`
        ON LOCATION "hdfs://test-dev-bigdata1:8020/tmp/doris_backup"
        PROPERTIES
        (
            "username" = "",
            "password" = ""
        );
##6.恢复
  RESTORE SNAPSHOT demo.`snapshot_label1`
        FROM `hdfs_repo`
        ON ( `ods_pos_pro_sell_out_delta` )
        PROPERTIES
        (
            "backup_timestamp"="2020-12-21-13-47-49", //通过SHOW SNAPSHOT ON hdfs_repo WHERE SNAPSHOT = "snapshot_label1";获取
            "replication_num" = "3"
        );
## 7.查看恢复状态
SHOW RESTORE
        
##示例2
##备份分区表
 BACKUP SNAPSHOT demo.snapshot_label2
        TO hdfs_repo
        ON (
				  ods_pos_pro_dish_list_detail_delta_tmp PARTITION (`P_20201101`, `P_20201102`,`P_20201103`,`P_20201104`,`P_20201105`,`P_20201106`,`P_20201107`,`P_20201108`,`P_20201109`,`P_20201110`,`P_20201111`,`P_20201112`)
					)
        PROPERTIES (
				    "type" = "full"
				);
##迁移
 RESTORE SNAPSHOT ods.`snapshot_label2`
        FROM `hdfs_repo`
        ON (  ods_pos_pro_dish_list_detail_delta_tmp PARTITION (`P_20201101`, `P_20201102`,`P_20201103`,`P_20201104`,`P_20201105`,`P_20201106`,`P_20201107`,`P_20201108`,`P_20201109`,`P_20201110`,`P_20201111`,`P_20201112`)
				)
        PROPERTIES
        (
            "backup_timestamp"="2020-12-21-14-37-45",
            "replication_num" = "3"
        );

你可能感兴趣的:(Doris,数据库,java,sqlserver)

Python,C++开发餐饮后厨环境远程管理APP Geeker-2025 python c++
开发一款用于**餐饮后厨环境远程管理**的App，结合Python和C++的优势，可以实现高效的后端数据处理、实时的环境监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python）-**编程语言**：Python-**Web框架**：Django或Flask-**数据库**：PostgreSQL或MySQL-**实时通信**：
【面试问题】Java 接口与抽象类的区别刘小炮吖i Java Java后端开发面试题 java 开发语言面试
引言在Java面向对象编程中，接口（Interface）和抽象类（AbstractClass）是两个重要的抽象工具。它们都能定义未实现的方法，但设计目标和使用场景截然不同。本文将通过语法、特性和实际案例，深入解析两者的核心区别。一、基础概念回顾抽象类（AbstractClass）定义：使用abstract关键字声明的类，包含抽象方法（无实现）和具体方法（有实现）。特点：不能被实例化，必须通过子类继
3.5 Spring Boot邮件服务：从基础发送到模板邮件进阶 Sendingab Spring boot 从入门到精通零基础7天精通Spring Boot spring boot python 后端
SpringBoot邮件服务：从基础发送到模板邮件进阶引言在现代企业级应用中，邮件服务是不可或缺的基础能力。从用户注册验证、密码重置，到订单通知、系统告警，再到营销推广等场景，邮件始终扮演着关键角色。SpringBoot通过spring-boot-starter-mail模块，将JavaMail的复杂配置简化为几行代码即可实现的便捷操作。本文将手把手带您实现从基础文本邮件发送到高级模板邮件的完整开
matsim开发教程若木胡大数据信息可视化
以下是基于MATSim的二次开发教程指南，结合交通仿真框架的核心功能和开发实践，提供从环境搭建到高级开发的完整路径：一、MATSim简介MATSim（Multi-AgentTransportSimulation）是一个基于Java的开源交通仿真框架，专注于大规模多智能体（Agent）交通行为模拟，支持动态需求建模、路径规划优化、政策评估等应用场景。二、开发环境搭建1.基础依赖JavaJDK11+：
在Ubuntu上安装MEAN Stack的4个步骤 ubuntu
在Ubuntu上安装MEANStack的4个步骤为：1.安装MEAN；2.安装MongoDB；3.安装NodeJS，Git和NPM；4.安装剩余的依赖项。什么是MEANStack？平均堆栈一直在很大程度上升高为基于稳健的基于JavaScript的开发堆栈。名称的意思是指其组件;MongoDB，ExpressJS，Angularjs和NodeJS。第1步：安装MEAN对于此安装，我们将在本指南中使用
Lombok常用注解 AWen_X Java常用框架注解 java 开发语言
Lombok常用注解Lombok是一个Java库，通过注解的方式帮助开发者减少样板代码的编写，提高开发效率。本文将Lombok常用注解分类整理，并提供详细说明和使用示例。目录构造器相关注解字段相关注解方法相关注解代码简化注解异常处理注解日志相关注解实用工具注解高级用法注解配置与扩展构造器相关注解@NoArgsConstructor作用：生成一个无参构造器。示例：@NoArgsConstructor
2025年毕设ssm校园二手交易平台论文+源码锦程学长--毕设程序课程设计
本系统（程序+源码）带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容选题背景关于校园二手交易平台的研究，现有成果多集中于社会综合型平台（如闲鱼、转转）的商业模式分析，或理论层面的共享经济模型探讨，而针对高校场景特殊性（如用户密度高、交易标的额小、社交属性强）的垂直型平台研究存在明显缺口。当前高校内二手交易多依赖社群、论坛等分散渠道，存在信息不对称、交易
初探 Threejs 物理引擎CANNON，解锁 3D 动态魅力伶俜Monster Threejs webgl 前端 3d threejs cannon.js
简介Cannon.js是一个基于JavaScript的物理引擎，它可以在浏览器中模拟物理效果。它支持碰撞检测、刚体动力学、约束等物理效果，可以用于创建逼真的物理场景和交互。参考文档官方示例原理Cannon.js使用了欧拉角来表示物体的旋转，而不是四元数。这使得它在处理旋转时更加直观和易于理解。Cannon.js还支持多种碰撞检测算法，包括离散碰撞检测和连续碰撞检测。Cannon.js还支持多种约束
软件设计师之树与二叉树：非线性数据结构的深度探索一杯年华@编程空间软考中级数据结构
软件设计师之树与二叉树：非线性数据结构的深度探索在软件开发领域，数据结构是程序设计的核心基础，其中树和二叉树作为重要的非线性数据结构，在众多场景中都有着广泛应用。我写这篇博客，就是希望和大家一起学习进步，深入解析树和二叉树的相关知识，用通俗易懂的语言结合图表和Java代码示例进行讲解，帮助大家更好地掌握这些内容。一、树的定义与基本概念树的定义树是由n（n≥0）个结点组成的有限集合。当n=0时，为空
清晰易懂的Java8安装教程 Tee xm windows java
小白也能看懂的Java8安装教程（JDK和JRE分目录安装）本教程将手把手教你如何在Windows系统上安装Java8（JDK1.8），并将JDK和JRE安装到不同的目录中，同时提供国内Java8下载源和方法。即使你是编程小白，也能轻松学会！一、准备工作操作系统：Windows10或更高版本。下载工具：一个浏览器（如Chrome、Edge）。存储空间：确保你的电脑有至少500MB的可用空间。二、下
Python 的 ORM（Object-Relational Mapping）工具浅讲 Code_Geo python 开发语言
SQLAlchemy相关讲解1.SQLAlchemy是什么？定义：一个Python的ORM（Object-RelationalMapping）工具，允许开发者通过Python类与对象操作数据库，而非直接编写SQL。核心组件：Core：底层SQL表达式语言，提供数据库无关的SQL操作接口。ORM：基于Core的高层抽象，将数据库表映射为Python类（模型），记录映射为对象。适用场景：需要灵活操作数
AI 时代，学习 Java 应如何入手？琢磨先生David 人工智能 java
一、Java的现状：生态繁荣与AI融合的双重机遇在2025年的技术版图中，Java依然稳坐企业级开发的“头把交椅”。根据行业统计，Java在全球企业级应用中的市场份额仍超过65%，尤其在微服务架构、大数据平台和物联网（IoT）领域占据核心地位。随着云原生技术的普及，Java生态正经历新一轮进化：轻量化框架通过无服务器架构优化，启动速度提升300%，内存占用降低50%，使得Java在容器化部署中更具
Java 处理 json 格式数据解析为 csv 格式李昊哲小课数据分析 Java 大数据 java json 开发语言大数据数据分析
Java处理json格式数据解析为csv格式如果不使用JSON工具库，你可以手动解析JSON格式字符串并将其转换为CSV格式字符串。以下是一个简单示例，展示如何实现这一功能。示例代码下面的示例代码手动处理JSON字符串，将其转换为CSV格式字符串：/***接收JSON字符串，去掉开头和结尾的方括号，按对象划分。*通过extractKeys方法提取字段名，添加到CSV的第一行。*逐项解析JSON对象
Apache Doris整合Iceberg + Flink CDC构建实时湖仓体的联邦查询分析架构 MfvShell apache flink 架构 Flink
随着大数据技术的迅猛发展，构建实时湖仓体并进行联邦查询分析成为了许多企业的迫切需求。在这篇文章中，我们将探讨如何利用ApacheDoris整合Iceberg和FlinkCDC来构建这样一个架构，并提供相应的源代码示例。简介实时湖仓体是一种灵活、可扩展的数据架构，结合了数据湖和数据仓库的优势。ApacheDoris是一款开源的分布式SQL引擎，专注于实时分析和查询。Iceberg是一种开放式表格格式
Java数据类型 Arrays VS ArraysList VS LikedList 解析 fantasy_4 Java java
在学习Java过程中，在刷题时总是搞不清楚这三种数据结构的区别，打算写篇文章记录一下ArraysVSArrayListArrayListVSLinkedList总结ArraysVSArrayListArraysArrayList类型Java的基本数据类型Java集合框架中的一个类，实现了List接口存储内容基本数据类型+对象引用对象引用可变性数组长度创建后不可变长度可变适用场景查询元素会比较快，直
信创系统安全优化与持续改进策略有哪些？ weixin_37579147 系统安全安全
信创系统（信息技术应用创新系统）的安全优化与持续改进是保障国产化技术生态安全可靠运行的关键。以下从技术、管理、组织等多个维度提出系统性策略，并结合实际场景展开说明：一、技术层面的安全优化策略1.核心组件安全加固国产化组件漏洞管理：建立针对国产操作系统（如统信UOS、麒麟）、数据库（达梦、OceanBase）的漏洞扫描与修复机制，联合厂商建立漏洞情报共享平台。硬件层可信计算：采用基于国产芯片（如鲲鹏
HashMap 的底层实现宋发元哈希算法算法
HashMap的底层实现HashMap简介HashMap主要用来存放键值对，它基于哈希表的Map接口实现，是常用的Java集合之一，是非线程安全的。HashMap可以存储null的key和value，但null作为键只能有一个，null作为值可以有多个JDK1.8之前HashMap由数组+链表组成的，数组是HashMap的主体，链表则是主要为了解决哈希冲突而存在的（“拉链法”解决冲突）。JDK1.
vue3+springboot电影院售票选座管理系统 qq_3166678367 spring boot 后端 java
目录本系统(已开发完成)->成品实现截图开发技术本系统支持的技术栈源码获取详细视频演示：文章底部获取博主联系方式！！！！本课题重点核心代码部分展示论文提纲来自指导老师帅的肯定视频演示/源码获取本系统(已开发完成)->成品实现截图开发技术关键技术实现：在Java的开发过程中，可以使用HTML、CSS、JavaScript等前端技术来实现系统的用户界面设计和交互功能。后端可以使用Java语言编写业务逻
NL2SQL 优化之 Schema 编写标准 kakaZhui oracle 数据库 AIGC python llama chatgpt
写在前面在自然语言转SQL（NL2SQL，或Text-to-SQL）任务中，数据库Schema的质量和表示方式对模型的性能有着至关重要的影响。一个清晰、规范、易于理解的Schema能够帮助模型更好地理解数据库结构，从而生成更准确的SQL查询。相反，一个混乱、不规范的Schema会增加模型的理解难度，导致生成的SQL查询错误百出。本文将深入探讨NL2SQL任务中Schema的编写标准，详细介绍如何为
weixin049校园外卖平台设计与实现+ssm(文档+源码)_kaic 开心毕设kaic_kaic 模拟退火算法散列表随机森林支持向量机启发式算法逻辑回归
校园外卖平台设计与实现摘要随着信息技术在管理上越来越深入而广泛的应用，管理信息系统的实施在技术上已逐步成熟。本文介绍了校园外卖平台的开发全过程。通过分析校园外卖平台管理的不足，创建了一个计算机管理校园外卖平台的方案。文章介绍了校园外卖平台的系统分析部分，包括可行性分析等，系统设计部分主要介绍了系统功能设计和数据库设计。本校园外卖平台有管理员，用户，商家。管理员功能有个人中心，用户管理，商家管理，菜
2025年计算机毕业设计springboot 智慧社区管理系统 zhihao503 课程设计 spring boot 后端
本系统（程序+源码）带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容选题背景关于智慧社区管理系统的研究，现有成果多聚焦于单一功能模块的数字化（如物业缴费或门禁系统），缺乏对多场景服务整合与用户体验优化的系统性研究。国外研究侧重物联网技术应用（如新加坡“智慧国”计划中的社区传感器网络），而国内研究更多关注管理平台的基础框架设计，但针对业主、物业、设备多方
java实现二叉树的深度优先遍历开往1982 深度优先算法 java
深度优先三种遍历方法1.先序遍历2.中序遍历3.后序遍历1.定义树节点（这里我重构了tostring方法）packagecom.data.tree;publicclassNode{intvalue;Nodeleft;Noderight;publicNode(intval){value=val;}@OverridepublicStringtoString(){return"Node[value="+
java for循环内执行多线程 m0_74823434 面试学习路线阿里巴巴资料职业发展 java python 开发语言后端
目录一、java用多线程来加快循环效率（推荐第3种！！！！）?第一种：线程池搭配闭锁?第二种：分页概念执行线程?第三种：分页概念执行线程进阶版！！！！一、java用多线程来加快循环效率（推荐第3种！！！！）第一种：线程池搭配闭锁涉及知识：Executors（线程池）、CountDownLatch（闭锁）优点：代码简洁，方便阅读，性能稳定；缺点：Executors创建的线程池是公用的，如果多个地方使
MyBatisPlus 代码生成器如何使用？一篇文章学会它！！！程序猿ZhangSir Java 数据库 #MyBatis java spring 数据库
目录一.MP代码生成器简介二.准备工作2.1建立数据库和表2.1创建项目三.编写工具类3.1创建类3.2定义数据库连接变量3.3定义单表代码生成函数3.4扩展为任意表自动生成代码四.测试代码生成器4.1测试单表生成model方法一.MP代码生成器简介代码生成器是MyBatis-Plus提供的一个非常实用的功能，可以快速生成Entity、Mapper、MapperXML、Service、Contro
MyBatis-Plus分页查询IPage的使用方法，如何自定义分页查询功能？程序猿ZhangSir Spring全家桶微服务 #MyBatis mybatis 开发语言
目录1.MyBatis-Plus分页插件介绍2.准备工作-创建项目配置环境2.1创建数据库表Product商品表2.2创建Maven项目，创建包，接口，类2.3添加MyBatisPlus依赖和Lombok插件2.4编写Configuration分页插件配置文件2.5编写application.properties配置文件2.6实体类代码，接口代码3.IPage分页的使用方式4.自定义分页查询5.Q
【数据库】MySQL的索引详解此木|西贝数据库数据库 mysql
简介索引是一种用于快速查询和检索数据的数据结构，类似于书的目录。在几百页的书通过几页目录就可以精确定位到我们想看的章节优点和缺点优点正确的使用索引可以大大提高检索速度可以使用唯一索引保证数据在库中的唯一性使用聚合索引减少回表，降低IO次数缺点索引不宜创建的太多，否则增删改时不仅修改数据，还要修改大量的索引数据索引也会占用磁盘空间索引结构B树：多路平衡查找树，B树的所有节点都会存储key（索引）和d
【数据库】MySQL事务详解此木|西贝数据库数据库 mysql
事务的隔离级别读未提交（read-uncommitted）：最低级的隔离级别，允许其他事务读到未提交的值；读已提交（read-committed）：事务只能读取到其他事务提交的数据；可重复读（repeatable-read）：对同一条数据多次读取结果都是一样（mysql默认隔离级别）；串行化（serializable）：最高的隔离级别，所有事务穿行执行，事务间不会产生干扰隔离级别存在的问题读未提交
Java开发者必看！零成本集成DeepSeek-R1打造AI办公神器，源码级实战教程让你效率翻倍！ Leaton Lee java 人工智能开发语言
目录开篇互动一、为什么是DeepSeek-R1？它凭什么碾压传统AI工具？二、手把手部署DeepSeek-R1本地环境（附避坑指南）步骤1：Docker一键部署步骤2：下载模型步骤3：验证部署三、Java整合DeepSeek-R1：从理论到实战1.添加HTTP客户端依赖（以SpringBoot为例）2.封装AI工具类（核心代码解析）3.实战场景1：自动生成周报（附Prompt技巧）四、高阶玩法：A
列出0 racle Forms配置文件？思维导图代码示例（java 架构) 用心去追梦 java 架构开发语言
OracleForms配置文件OracleForms应用程序的配置涉及到多个文件，这些文件用于定义运行时环境、数据库连接、安全设置等。以下是与OracleForms相关的常见配置文件：1.formsweb.cfg位置：通常位于/forms/server/formsweb.cfg或WebLogic域中的指定目录。用途：此文件包含启动Forms应用所需的各种参数和属性，如表单模块名称、数据库连接字符串
小白学java日记day22--单例实例兰翎翡竹
定义一个类只允许有一个对象,建立一个全局的访问点,提供出去供大家使用.分析:1.我们肯定要建立一个单例类来描述2.只允许有一个对象3.全局的访问点:说的就是当前的s----通过static实现的4.提供出去5.给大家使用总括:1.传值.作为全局的访问点.解决一个全局使用的类，频繁创建和销毁。拥有对象的唯一性，并保证内存中对象的唯一。可以节省内存，因为单例共用一个实例，有利于Java的垃圾回收机制。
桌面上有多个球在同时运动，怎么实现球之间不交叉，即碰撞？换个号韩国红果果 html 小球碰撞
稍微想了一下，然后解决了很多bug，最后终于把它实现了。其实原理很简单。在每改变一个小球的x y坐标后，遍历整个在dom树中的其他小球，看一下它们与当前小球的距离是否小于球半径的两倍？若小于说明下一次绘制该小球（设为a）前要把他的方向变为原来相反方向（与a要碰撞的小球设为b），即假如当前小球的距离小于球半径的两倍的话，马上改变当前小球方向。那么下一次绘制也是先绘制b，再绘制a，由于a的方向已经改变
《高性能HTML5》读后整理的Web性能优化内容白糖_ html5
读后感先说说《高性能HTML5》这本书的读后感吧，个人觉得这本书前两章跟书的标题完全搭不上关系，或者说只能算是讲解了“高性能”这三个字，HTML5完全不见踪影。个人觉得作者应该首先把HTML5的大菜拿出来讲一讲，再去分析性能优化的内容，这样才会有吸引力。因为只是在线试读，没有机会看后面的内容，所以不胡乱评价了。
[JShop]Spring MVC的RequestContextHolder使用误区 dinguangx jeeshop 商城系统 jshop 电商系统
在spring mvc中，为了随时都能取到当前请求的request对象，可以通过RequestContextHolder的静态方法getRequestAttributes()获取Request相关的变量，如request, response等。在jshop中，对RequestContextHolder的
算法之时间复杂度周凡杨 java 算法时间复杂度效率
在计算机科学中，算法的时间复杂度是一个函数，它定量描述了该算法的运行时间。这是一个关于代表算法输入值的字符串的长度的函数。时间复杂度常用大O符号表述，不包括这个函数的低阶项和首项系数。使用这种方式时，时间复杂度可被称为是渐近的，它考察当输入值大小趋近无穷时的情况。这样用大写O()来体现算法时间复杂度的记法，
Java事务处理 g21121 java
一、什么是Java事务通常的观念认为，事务仅与数据库相关。事务必须服从ISO/IEC所制定的ACID原则。ACID是原子性（atomicity）、一致性（consistency）、隔离性（isolation）和持久性（durability）的缩写。事务的原子性表示事务执行过程中的任何失败都将导致事务所做的任何修改失效。一致性表示当事务执行失败时，所有被该事务影响的数据都应该恢复到事务执行前的状
Linux awk命令详解 510888780 linux
一. AWK 说明 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。 awk的处理文本和数据的方式：它逐行扫描文件，从第一行到
android permission 布衣凌宇 Permission
<uses-permission android:name="android.permission.ACCESS_CHECKIN_PROPERTIES" ></uses-permission>允许读写访问"properties"表在checkin数据库中，改值可以修改上传 <uses-permission android:na
Oracle和谷歌Java Android官司将推迟 aijuans java oracle
北京时间 10 月 7 日，据国外媒体报道，Oracle 和谷歌之间一场等待已久的官司可能会推迟至 10 月 17 日以后进行，这场官司的内容是 Android 操作系统所谓的 Java 专利权之争。本案法官 William Alsup 称根据专利权专家 Florian Mueller 的预测，谷歌 Oracle 案很可能会被推迟。　　该案中的第二波辩护被安排在 10 月 17 日出庭，从目前看来
linux shell 常用命令 antlove linux shell command
grep [options] [regex] [files] /var/root # grep -n "o" * hello.c:1:/* This C source can be compiled with:
Java解析XML配置数据库连接(DOM技术连接 SAX技术连接) 百合不是茶 sax技术 Java解析xml文档 dom技术 XML配置数据库连接
XML配置数据库文件的连接其实是个很简单的问题,为什么到现在才写出来主要是昨天在网上看了别人写的,然后一直陷入其中,最后发现不能自拔所以今天决定自己完成 ,,,,现将代码与思路贴出来供大家一起学习 XML配置数据库的连接主要技术点的博客; JDBC编程 : JDBC连接数据库 DOM解析XML: DOM解析XML文件 SA
underscore.js 学习（二） bijian1013 JavaScript underscore
Array Functions 所有数组函数对参数对象一样适用。1.first _.first(array, [n]) 别名: head, take 返回array的第一个元素，设置了参数n，就
plSql介绍 bijian1013 oracle 数据库 plsql
/* * PL/SQL 程序设计学习笔记 * 学习plSql介绍.pdf * 时间：2010-10-05 */ --创建DEPT表 create table DEPT ( DEPTNO NUMBER(10), DNAME NVARCHAR2(255), LOC NVARCHAR2(255) ) delete dept; select
【Nginx一】Nginx安装与总体介绍 bit1129 nginx
启动、停止、重新加载Nginx nginx 启动Nginx服务器，不需要任何参数u nginx -s stop 快速(强制)关系Nginx服务器 nginx -s quit 优雅的关闭Nginx服务器 nginx -s reload 重新加载Nginx服务器的配置文件 nginx -s reopen 重新打开Nginx日志文件
spring mvc开发中浏览器兼容的奇怪问题 bitray jquery Ajax springMVC 浏览器上传文件
最近个人开发一个小的OA项目,属于复习阶段.使用的技术主要是spring mvc作为前端框架,mybatis作为数据库持久化技术.前台使用jquery和一些jquery的插件. 在开发到中间阶段时候发现自己好像忽略了一个小问题,整个项目一直在firefox下测试,没有在IE下测试,不确定是否会出现兼容问题.由于jquer
Lua的io库函数列表 ronin47 lua io
1、io表调用方式：使用io表，io.open将返回指定文件的描述，并且所有的操作将围绕这个文件描述　　io表同样提供三种预定义的文件描述io.stdin,io.stdout,io.stderr 　　2、文件句柄直接调用方式,即使用file:XXX()函数方式进行操作,其中file为io.open()返回的文件句柄　　多数I/O函数调用失败时返回nil加错误信息,有些函数成功时返回nil
java-26-左旋转字符串 bylijinnan java
public class LeftRotateString { /** * Q 26 左旋转字符串 * 题目：定义字符串的左旋转操作：把字符串前面的若干个字符移动到字符串的尾部。 * 如把字符串abcdef左旋转2位得到字符串cdefab。 * 请实现字符串左旋转的函数。要求时间对长度为n的字符串操作的复杂度为O(n)，辅助内存为O(1)。 */ pu
《vi中的替换艺术》-linux命令五分钟系列之十一 cfyme linux命令
vi方面的内容不知道分类到哪里好，就放到《Linux命令五分钟系列》里吧！今天编程，关于栈的一个小例子，其间我需要把”S.”替换为”S->”(替换不包括双引号)。其实这个不难，不过我觉得应该总结一下vi里的替换技术了，以备以后查阅。 1 所有替换方案都要在冒号“:”状态下书写。 2 如果想将abc替换为xyz，那么就这样 :s/abc/xyz/ 不过要特别
[轨道与计算]新的并行计算架构 comsci 并行计算
我在进行流程引擎循环反馈试验的过程中，发现一个有趣的事情。。。如果我们在流程图的每个节点中嵌入一个双向循环代码段，而整个流程中又充满着很多并行路由，每个并行路由中又包含着一些并行节点，那么当整个流程图开始循环反馈过程的时候，这个流程图的运行过程是否变成一个并行计算的架构呢？
重复执行某段代码 dai_lm android
用handler就可以了 private Handler handler = new Handler(); private Runnable runnable = new Runnable() { public void run() { update(); handler.postDelayed(this, 5000); } }; 开始计时 h
Java实现堆栈（list实现） datageek 数据结构——堆栈
public interface IStack<T> { //元素出栈，并返回出栈元素 public T pop(); //元素入栈 public void push(T element); //获取栈顶元素 public T peek(); //判断栈是否为空 public boolean isEmpty
四大备份MySql数据库方法及可能遇到的问题 dcj3sjt126com DB backup
一：通过备份王等软件进行备份前台进不去？用备份王等软件进行备份是大多老站长的选择，这种方法方便快捷，只要上传备份软件到空间一步步操作就可以，但是许多刚接触备份王软件的客用户来说还原后会出现一个问题：因为新老空间数据库用户名和密码不统一，网站文件打包过来后因没有修改连接文件，还原数据库是好了，可是前台会提示数据库连接错误，网站从而出现打不开的情况。解决方法：学会修改网站配置文件，大多是由co
github做webhooks：[1]钩子触发是否成功测试 dcj3sjt126com github git webhook
转自: http://jingyan.baidu.com/article/5d6edee228c88899ebdeec47.html github和svn一样有钩子的功能，而且更加强大。例如我做的是最常见的push操作触发的钩子操作，则每次更新之后的钩子操作记录都会在github的控制板可以看到！工具/原料 github 方法/步骤
">的作用" target="_blank">JSP中的作用蕃薯耀
JSP中<base href="<%=basePath%>">的作用 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
linux下SAMBA服务安装与配置 hanqunfeng linux
局域网使用的文件共享服务。一.安装包： rpm -qa | grep samba samba-3.6.9-151.el6.x86_64 samba-common-3.6.9-151.el6.x86_64 samba-winbind-3.6.9-151.el6.x86_64 samba-client-3.6.9-151.el6.x86_64 samba-winbind-clients
guava cache IXHONG cache
缓存，在我们日常开发中是必不可少的一种解决性能问题的方法。简单的说，cache 就是为了提升系统性能而开辟的一块内存空间。　　缓存的主要作用是暂时在内存中保存业务系统的数据处理结果，并且等待下次访问使用。在日常开发的很多场合，由于受限于硬盘IO的性能或者我们自身业务系统的数据处理和获取可能非常费时，当我们发现我们的系统这个数据请求量很大的时候，频繁的IO和频繁的逻辑处理会导致硬盘和CPU资源的
Query的开始--全局变量,noconflict和兼容各种js的初始化方法 kvhur JavaScript jquery css
这个是整个jQuery代码的开始，里面包含了对不同环境的js进行的处理，例如普通环境，Nodejs，和requiredJs的处理方法。还有jQuery生成$, jQuery全局变量的代码和noConflict代码详解完整资源： http://www.gbtags.com/gb/share/5640.htm jQuery 源码： (
美国人的福利和中国人的储蓄 nannan408
今天看了篇文章，震动很大，说的是美国的福利。美国医院的无偿入院真的是个好措施。小小的改善，对于社会是大大的信心。小孩，税费等，政府不收反补，真的体现了人文主义。美国这么高的社会保障会不会使人变懒？答案是否定的。正因为政府解决了后顾之忧，人们才得以倾尽精力去做一些有创造力，更造福社会的事情，这竟成了美国社会思想、人
N阶行列式计算(JAVA) qiuwanchi N阶行列式计算
package gaodai; import java.util.List; /** * N阶行列式计算 * @author 邱万迟 * */ public class DeterminantCalculation { public DeterminantCalculation(List<List<Double>> determina
C语言算法之打渔晒网问题 qiufeihu c 算法
如果一个渔夫从2011年1月1日开始每三天打一次渔，两天晒一次网，编程实现当输入2011年1月1日以后任意一天，输出该渔夫是在打渔还是在晒网。代码如下： #include <stdio.h> int leap(int a) /*自定义函数leap()用来指定输入的年份是否为闰年*/ { if((a%4 == 0 && a%100 != 0
XML中DOCTYPE字段的解析 wyzuomumu xml
DTD声明始终以!DOCTYPE开头,空一格后跟着文档根元素的名称,如果是内部DTD,则再空一格出现[],在中括号中是文档类型定义的内容. 而对于外部DTD,则又分为私有DTD与公共DTD,私有DTD使用SYSTEM表示,接着是外部DTD的URL. 而公共DTD则使用PUBLIC,接着是DTD公共名称,接着是DTD的URL. 私有DTD <!DOCTYPErootSYST