Demon_gu

Doris-0.13.15部署扩容问题汇总

1、环境

Doris版本0.13.15（进去可直接下载binary tgz，解压即用，无需自己编译）
现有节点，3个节点node1, node2, node3
FE服务扩容observer节点：node4, node5, node6
BE服务扩容节点：node4, node5, node6
Broker服务扩容节点：node4, node5, node6
supervisor挂载上面三个服务，保证服务不挂

2、扩容

2.1、扩容前准备

检测Kafka连通性（保证后续RoutineLoad可以正常使用）
检测HDFS连通性（保证后续BrokerLoad可以正常使用）

2.2、扩容步骤

2.2.1、分发tgz包，解压

2.2.2、分发配置到新节点

将{DORIS_HOME}/fe/conf/fe.conf分发至新fe节点对应目录下
将{DORIS_HOME}/fe/bin/start_fe.sh分发至新fe节点对应目录下（optional）
将{DORIS_HOME}/be/conf/be.conf分发至新be节点对应目录下
将{DORIS_HOME}/be/bin/start_be.sh分发至新be节点对应目录下（optional）

2.2.3、创建（元）数据目录

新fe节点创建fe的meta_dir目录（保持与现有节点配置一样）
新be节点创建be的storage_root_path目录（保持与现有节点配置一样）

2.2.4、查看节点状态

mysql -h host -P port -uroot

用上面命令利用mysql-client 连接任一已启动的 FE
其中 host 为 FE 所在节点 ip
port 为 fe/conf/fe.conf 中的 query_port（默认9030）
默认使用 root 账户，无密码登录。
在mysql-client执行以下命令查看状态

show proc '/frontends';#查看FE节点状态
show proc '/backends';#查看BE节点状态
show proc '/brokers';#查看Broker节点状态

目前都是3台，node1,node2,node3

2.2.4、启动扩容的FE服务

FE 分为 Leader，Follower 和 Observer 三种角色。默认一个集群，只能有一个 Leader，可以有多个 Follower 和 Observer。其中 Leader 和 Follower 组成一个 Paxos 选择组，如果 Leader 宕机，则剩下的 Follower 会自动选出新的 Leader，保证写入高可用。Observer 同步 Leader 的数据，但是不参加选举。如果只部署一个 FE，则 FE 默认就是 Leader。

第一个启动的 FE 自动成为 Leader。在此基础上，可以添加若干 Follower 和 Observer。

之前集群中已经有3台节点node1,node2,node3了，ROLE分别为leader，follower，follower

现在将node4,node5,node6扩容进去

mysql-client 连接到已启动的 FE

ALTER SYSTEM ADD OBSERVER "host:port";
##其中 host 为 Follower 或 Observer 所在节点 ip
##port 为其配置文件 fe.conf 中的 edit_log_port（默认9010）。

例如下面

ALTER SYSTEM ADD OBSERVER "node4:9010";
ALTER SYSTEM ADD OBSERVER "node5:9010";
ALTER SYSTEM ADD OBSERVER "node6:9010";

在node4,node5,node6上第一次启动fe需要执行以下命令

./bin/start_fe.sh --helper host:port --daemon

例如下面

./bin/start_fe.sh --helper node1:9010 --daemon

切记
第一次启动fe一定要用–helper启动，否则启动不成功，无法加入集群，必须借助已经启动的FE节点（master或者follower）来扩容新的节点,helper 不能指向新FE节点自身
当新的fe第一次启动失败，或无法加入集群时。修改配置后，一定要先清空fe的meta路径，然后再重启fe

2.2.5、启动扩容的Broker服务

mysql-client添加实例

ALTER SYSTEM ADD BROKER hdfs_broker "node4:8000";
ALTER SYSTEM ADD BROKER hdfs_broker "node5:8000";
ALTER SYSTEM ADD BROKER hdfs_broker "node6:8000";

后台启动

sh bin/start_broker.sh --daemon 启动 Broker。

2.2.6、启动扩容的BE服务

mysql-client添加实例

ALTER SYSTEM ADD BACKEND "node4:9050";
ALTER SYSTEM ADD BACKEND "node5:9050";
ALTER SYSTEM ADD BACKEND "node6:9050";

后台启动

sh bin/start_be.sh --daemon

2.2.7、新节点部署supervisor，配置服务自重启

root用户不说了，其他用户要拥有sudo权限
yum install supervisor -y
配置文件/etc/supervisord.conf
cat /etc/supervisord.conf中的include模块如下

[include]
files = supervisord.d/*.conf

此files变量代表服务配置文件的后缀默认ini，所以在/etc/supervisord.d/目录中新添加的服务配置文件后缀必须与这个后缀相符，我这里是*.conf

启动Linux的supervisor服务
supervisord
更新新的配置到supervisord
supervisorctl update
注意：这里只要在etc/supervisord.d/目录下的服务配置发生了改变，就需要执行这个更新命令
启动某个进程(program_name=你配置中写的程序名称)
supervisorctl start program_name
查看全部的进程状态
supervisorctl status

因为我的所有doris服务需要用supervisor挂着，实现服务自重启，所以需要查询到3个服务的pid，kill -9 {pid}后用supervisor 启动

##查询FE、BE进程id
ps -ef | grep -i palo
##查询Broker进程id
ps -ef | grep -i bootstrap

3、问题记录

3.1、supervisor使用

root用户不说了，其他用户要拥有sudo权限
一、启动linux的supervisor服务
supervisord
二、更新新的配置到supervisord
supervisorctl update
三、重新启动配置中的所有程序
supervisorctl reload
四、启动某个进程(program_name=你配置中写的程序名称)
supervisorctl start program_name
五、查看正在守候的进程
supervisorctl
六、停止某一进程 (program_name=你配置中写的程序名称)
supervisorctl stop program_name
七、重启某一进程 (program_name=你配置中写的程序名称)
supervisorctl restart program_name
八、停止全部进程
supervisorctl stop all
注意：显示用stop停止掉的进程，用reload或者update都不会自动重启。

3.2、FE无法Alive&Join

发现新加入的fe节点查询结果如下

QueryPort为0，RpcPort为0，Join为false，Alive为false
分为如下几种可能

3.2.1、priority_networks配置错误

当然，这种情况下，fe跟be都会有问题，因为这个参数是fe.conf与be.conf都有的，需要配置正确
解决方法:参考
Doris关于priority_networks配置错误，FE无法Alive&Join

3.2.2、节点第一次启动没有用helper

这里在上面提到过，新fe节点第一次启动必须用如下方式
./bin/start_fe.sh --helper node1:9010 --daemon
借助已经启动的fe节点来启动自己，否则mysql-client查询frontends结果就会出现QueryPort为0，RpcPort为0，Join为false，Alive为false的问题
解决办法需要看当前操作的是什么环境

<1>老节点没有load任务【测试环境】

我在虚拟机（没有任务）试过，如果扩容的新fe节点第一次启动没有用helper启动的话，需要如下操作

1、停止fe进程
2、将fe的{meta_dir}底下的bdb子目录、image子目录删除掉
3、将mysql-client中查询到的frontends结果中的问题fe实例drop掉
4、然后再用-- helper启动fe
./bin/start_fe.sh --helper node1:9010 --daemon
此时fe.log如下
192.168.56.111为node ip

2021-03-01 02:21:12,618 WARN (main|1) [Catalog.getClusterIdAndRole():890] current node is not added to the group. please add it first. sleep 5 seconds and retry, current helper nodes: [192.168.56.111:9010]
2021-03-01 02:21:17,624 WARN (main|1) [Catalog.getFeNodeTypeAndNameFromHelpers():1020] failed to get fe node type from helper node: 192.168.56.111:9010.

这是日志正常告警，因为他需要从helper node（node1）上获取信息，然后mysql中没有

5、ALTER SYSTEM ADD OBSERVER "node4:9010";mysql-client中添加下
6、日志正常

INFO (main|1) [Catalog.getFeNodeTypeAndNameFromHelpers():1043] get fe node type OBSERVER, name 192.168.56.114_9010_1614583297702 from 192.168.56.111:8030
2021-03-01 02:21:43,039 INFO (main|1) [Catalog.getClusterIdAndRole():987] finished to get cluster id: 102528807, role: OBSERVER and node name: 192.168.56.114_9010_1614583297702
2021-03-01 02:21:43,066 INFO (main|1) [Catalog.loadImage():1463] image does not exist: /disk1/keop/doris/doris-meta/image/image.0

7、查看实例信息

<2>老节点有load任务【生产环境】

列出这个原因是，如果你之前的节点是生产集群，有很多load任务在跑，那么你在上面的第5步骤ALTER SYSTEM ADD OBSERVER "node4:9010";mysql-client中添加后，到第6步骤，fe.log会报错
如下

2021-03-01 13:49:37,502 INFO (main|1) [PaloAuth.grantInternal():709] finished to grant resource privilege. is replay: true
2021-03-01 13:49:37,503 INFO (main|1) [PaloAuth.createUserInternal():575] finished to create user: 'admin'@'%', is replay: true
2021-03-01 13:49:37,525 INFO (main|1) [Catalog.getHelperNodes():1116] get helper nodes: [xx.xxx.xxx.127:9010]
2021-03-01 13:49:37,583 INFO (main|1) [Catalog.getFeNodeTypeAndNameFromHelpers():1043] get fe node type OBSERVER, name xx.xxx.xxx.xxx_9010_1614577535219 from xx.xxx.xxx.127:8030
2021-03-01 13:49:37,775 INFO (main|1) [Catalog.getClusterIdAndRole():987] finished to get cluster id: 1684078400, role: OBSERVER and node name: xx.xxx.xxx.xxx_9010_1614577535219
2021-03-01 13:49:37,788 INFO (main|1) [Catalog.loadImage():1463] image does not exist: /disk1/keop/doris/doris-meta/image/image.0
2021-03-01 13:49:38,175 INFO (UNKNOWN xx.xxx.xxx.xxx_9010_1614577535219(-1)|1) [BDBEnvironment.setup():157] add helper[xx.xxx.xxx.127:9010] as ReplicationGroupAdmin
2021-03-01 13:49:38,182 WARN (UNKNOWN xx.xxx.xxx.180_9010_1614577535219(-1)|1) [Catalog.notifyNewFETypeTransfer():2363] notify new FE type transfer: UNKNOWN
2021-03-01 13:49:38,214 WARN (RepNode xx.xxx.xxx.180_9010_1614577535219(-1)|60) [Catalog.notifyNewFETypeTransfer():2363] notify new FE type transfer: OBSERVER
2021-03-01 13:49:38,230 WARN (REPLICA xx.xxx.xxx.180_9010_1614577535219(2147483647)|60) [BDBStateChangeListener.stateChange():59] this node is DETACHED
2021-03-01 13:49:44,380 WARN (UNKNOWN xx.xxx.xxx.180_9010_1614577535219(-1)|1) [BDBJEJournal.open():356] catch insufficient log exception. will recover and try again.
com.sleepycat.je.rep.InsufficientLogException: (JE 7.3.7) Environment must be closed, caused by: com.sleepycat.je.rep.InsufficientLogException: Environment invalid because of previous exception: (JE 7.3.7) xx.xxx.xxx.180_9010_1614577535219(2147483647):/disk1/keop/doris/doris-meta/bdb INSUFFICIENT_LOG: Log files at this node are obsolete. Environment is invalid and must be closed. Originally thrown by HA thread: REPLICA xx.xxx.xxx.180_9010_1614577535219(2147483647) Originally thrown by HA thread: REPLICA xx.xxx.xxx.180_9010_1614577535219(2147483647)refreshVLSN=202,256,593 logProviders=[Node:xx.xxx.xxx.128_9010_1591157476825 xx.xxx.xxx.128:9010 (is member) changeVersion:3 LocalCBVLSN:202,407,966 at:Mon Mar 01 13:41:48 CST 2021 jeVersion:7.3.7
, Node:xx.xxx.xxx.127_9010_1591157474223 xx.xxx.xxx.127:9010 (is member) changeVersion:2 LocalCBVLSN:202,410,378 at:Mon Mar 01 13:45:46 CST 2021 jeVersion:7.3.7
, Node:xx.xxx.xxx.126_9010_1591157257798 xx.xxx.xxx.126:9010 (is member) changeVersion:1 LocalCBVLSN:202,407,772 at:Mon Mar 01 13:41:30 CST 2021 jeVersion:7.3.7
, Node:xx.xxx.xxx.180_9010_1614577535219 xx.xxx.xxx.180:9010 (is member) SECONDARY changeVersion:-1 LocalCBVLSN:-1 at:Mon Mar 01 13:49:38 CST 2021 jeVersion:7.3.7
] repImpl=com.sleepycat.je.rep.impl.RepImpl@134bcd77 props={GROUP_NAME=PALO_JOURNAL_GROUP, REFRESH_VLSN=202256593, NODE_NAME=xx.xxx.xxx.180_9010_1614577535219, HOSTNAME=xx.xxx.xxx.180, P_NODETYPE3=SECONDARY, P_NODETYPE2=ELECTABLE, P_NODETYPE1=ELECTABLE, P_NODENAME3=xx.xxx.xxx.180_9010_1614577535219, P_NODETYPE0=ELECTABLE, P_HOSTNAME3=xx.xxx.xxx.180, P_NODENAME2=xx.xxx.xxx.126_9010_1591157257798, P_HOSTNAME2=xx.xxx.xxx.126, P_NODENAME1=xx.xxx.xxx.127_9010_1591157474223, P_HOSTNAME1=xx.xxx.xxx.127, P_NODENAME0=xx.xxx.xxx.128_9010_1591157476825, PORT=9010, P_HOSTNAME0=xx.xxx.xxx.128, P_NUMPROVIDERS=4, P_PORT3=9010, ENV_DIR=/disk1/keop/doris/doris-meta/bdb, P_PORT2=9010, P_PORT1=9010, P_PORT0=9010}
        at com.sleepycat.je.rep.InsufficientLogException.wrapSelf(InsufficientLogException.java:315) ~[je-7.3.7.jar:7.3.7]
        at com.sleepycat.je.dbi.EnvironmentImpl.checkIfInvalid(EnvironmentImpl.java:1766) ~[je-7.3.7.jar:7.3.7]
        at com.sleepycat.je.dbi.EnvironmentImpl.checkOpen(EnvironmentImpl.java:1775) ~[je-7.3.7.jar:7.3.7]
        at com.sleepycat.je.Environment.checkOpen(Environment.java:2473) ~[je-7.3.7.jar:7.3.7]
        at com.sleepycat.je.Environment.getDatabaseNames(Environment.java:2245) ~[je-7.3.7.jar:7.3.7]
        at org.apache.doris.journal.bdbje.BDBEnvironment.getDatabaseNames(BDBEnvironment.java:318) ~[palo-fe.jar:3.4.0]
        at org.apache.doris.journal.bdbje.BDBJEJournal.open(BDBJEJournal.java:329) [palo-fe.jar:3.4.0]
        at org.apache.doris.persist.EditLog.open(EditLog.java:835) [palo-fe.jar:3.4.0]
        at org.apache.doris.catalog.Catalog.initialize(Catalog.java:766) [palo-fe.jar:3.4.0]
        at org.apache.doris.PaloFe.start(PaloFe.java:108) [palo-fe.jar:3.4.0]
        at org.apache.doris.PaloFe.main(PaloFe.java:60) [palo-fe.jar:3.4.0]
Caused by: com.sleepycat.je.rep.InsufficientLogException: Environment invalid because of previous exception: (JE 7.3.7) xx.xxx.xxx.180_9010_1614577535219(2147483647):/disk1/keop/doris/doris-meta/bdb INSUFFICIENT_LOG: Log files at this node are obsolete. Environment is invalid and must be closed. Originally thrown by HA thread: REPLICA xx.xxx.xxx.180_9010_1614577535219(2147483647) Originally thrown by HA thread: REPLICA xx.xxx.xxx.180_9010_1614577535219(2147483647)
        at com.sleepycat.je.rep.stream.ReplicaFeederSyncup.setupLogRefresh(ReplicaFeederSyncup.java:664) ~[je-7.3.7.jar:7.3.7]
        at com.sleepycat.je.rep.stream.ReplicaFeederSyncup.getFeederRecord(ReplicaFeederSyncup.java:732) ~[je-7.3.7.jar:7.3.7]
        at com.sleepycat.je.rep.stream.ReplicaFeederSyncup.findMatchpoint(ReplicaFeederSyncup.java:406) ~[je-7.3.7.jar:7.3.7]
        at com.sleepycat.je.rep.stream.ReplicaFeederSyncup.execute(ReplicaFeederSyncup.java:151) ~[je-7.3.7.jar:7.3.7]
        at com.sleepycat.je.rep.impl.node.Replica.initReplicaLoop(Replica.java:711) ~[je-7.3.7.jar:7.3.7]
        at com.sleepycat.je.rep.impl.node.Replica.runReplicaLoopInternal(Replica.java:474) ~[je-7.3.7.jar:7.3.7]
        at com.sleepycat.je.rep.impl.node.Replica.runReplicaLoop(Replica.java:409) ~[je-7.3.7.jar:7.3.7]
        at com.sleepycat.je.rep.impl.node.RepNode.run(RepNode.java:1873) ~[je-7.3.7.jar:7.3.7]
2021-03-01 13:49:44,822 INFO (UNKNOWN xx.xxx.xxx.180_9010_1614577535219(-1)|1) [BDBEnvironment.setup():157] add helper[xx.xxx.xxx.127:9010] as ReplicationGroupAdmin
2021-03-01 13:49:44,823 WARN (UNKNOWN xx.xxx.xxx.180_9010_1614577535219(-1)|1) [Catalog.notifyNewFETypeTransfer():2363] notify new FE type transfer: UNKNOWN
2021-03-01 13:49:44,830 WARN (RepNode xx.xxx.xxx.180_9010_1614577535219(-1)|75) [Catalog.notifyNewFETypeTransfer():2363] notify new FE type transfer: OBSERVER
2021-03-01 13:49:44,853 INFO (stateListener|88) [Catalog$4.runOneCycle():2386] begin to transfer FE type from INIT to UNKNOWN
2021-03-01 13:49:44,855 INFO (stateListener|88) [Catalog$4.runOneCycle():2472] finished to transfer FE type to UNKNOWN
2021-03-01 13:49:44,855 INFO (stateListener|88) [Catalog$4.runOneCycle():2386] begin to transfer FE type from UNKNOWN to OBSERVER
2021-03-01 13:49:44,868 INFO (replayer|89) [Catalog.replayJournal():2489] replayed journal id is 0, replay to journal id is 101109709
2021-03-01 13:49:44,871 ERROR (replayer|89) [BDBJournalCursor.():84] Can not find the key:1, fail to get journal cursor. will exit

这个错是Doris当前版本的BUG
具体社区的PR如下
https://github.com/apache/incubator-doris/pull/5418
但是当前版本也是有略微简便的方法的

1、将master fe的{meta_dir}目录中的image子目录下的形如image.101305405的文件拷贝到当前需要扩容的问题fe节点对应目录中去
2、mysql-client删除这个有问题的fe实例
3、–helper方式重启fe
4、mysql-client重新添加即可

第二个方法：
设置 fe.conf 里 enable_http_server_v2=false 就可以避免这个问题了。等扩容完成后，可以在改回true重启FE即可

3.3、BE节点需要增加fd

启动be报错，需要更多的file_descriptor
增加即可
但是问题是这个东西另很多人头疼，设置完不生效的现象比比皆是

用我的三个方法，一定能保证/proc/{be_pid}/limits文件中该be进程所用的文件描述符达到要求，且重启be不报错

3.3.1、环境变量法

在/etc/profile加入
ulimit -n 99999
然后 source
退出终端session重新登录

3.3.2、增加服务配置法

/etc/security/limits.d
在这个目录下优先级最高
里面所有的.conf文件里包含进程对应的用户的话，就对应生效nproc,nofile配置
按照字典序去查文件
vim root.conf
root - nofile 99999
root - nproc 99999
退出重新登录

3.3.3、修改全局配置limits.conf

vi /etc/security/limits.conf

hard nofile 102400
soft nofile 102400
保存退出后重新登录，其最大文件描述符已经被永久更改了。

3.3.4、系统级的限制

系统级的限制
它是限制所有用户打开文件描述符的总和，可以通过修改内核参数来更改该限制：
sysctl -w fs.file-max=102400
使用sysctl命令更改也是临时的，如果想永久更改需要在/etc/sysctl.conf添加
fs.file-max=102400
保存退出后使用sysctl -p 命令使其生效。
sysctl -w fs.file-max 65536
或者
echo "65536" > /proc/sys/fs/file-max

该文章转载于其它博客，然后加以修改
原文地址：https://gaofeng.blog.csdn.net/article/details/114271973

深度解析：云原生环境下Docker部署Doris数据库 N201871643 云原生 docker 数据库
深度解析：云原生环境下Docker部署Doris数据库目录深度解析：云原生环境下Docker部署Doris数据库引言一、云原生与Docker基础1.云原生概念2.Docker简介二、Doris数据库概述1.Doris数据库特性2.Doris在云原生环境中的应用三、Docker部署Doris数据库1.准备环境2.编写Dockerfile3.使用DockerCompose部署Doris集群4.配置Do
Apache Doris支持的数据类型详解 Bulut0907 #Apache Doris Apache Doris 数据类型 largeint bitmap hyperlogLog
目录1.TINYINT2.SMALLINT3.INT4.BIGINT5.LARGEINT6.FLOAT7.DOUBLE8.DECIMAL9.BOOLEAN10.CHAR11.VARCHAR(M)12.STRING13.DATE14.DATETIME15.BITMAP16.HLL(HyperLogLog)1.TINYINT1字节有符号整数，范围：[-128,127]2.SMALLINT2字节有符号整
兼容 Trino Connector，扩展 Apache Doris 数据源接入能力｜Lakehouse 使用手册 vvvae1234 apache
ApacheDoris内置支持包括Hive、Iceberg、Hudi、Paimon、LakeSoul、JDBC在内的多种Catalog，并为其提供原生高性能且稳定的访问能力，以满足与数据湖的集成需求。而随着ApacheDoris用户的增加，新的数据源连接需求也随之增加。因此，从3.0版本开始，ApacheDoris引入了TrinoConnector兼容框架。Trino/Presto作为业界较早应用
Docker部署Doris数据库天蓝蓝23528 docker 数据库容器
Docker部署Doris数据库是一个涉及多个步骤的过程，包括环境准备、Docker镜像拉取、配置文件创建、容器启动与配置、以及后续的数据库操作等。以下是一个详细的Docker部署Doris数据库的教程，旨在帮助用户成功在Docker环境中部署并运行Doris数据库。一、环境准备在部署Doris之前，需要确保你的系统已经安装了Docker。Docker是一个开源的容器化平台，可以帮助你轻松地部署和
Docker部署Doris数据库 hai40587 docker 数据库容器
Docker部署Doris数据库是一个涉及多个步骤的过程，包括环境准备、Docker镜像拉取、配置文件创建、容器启动与配置、以及后续的数据库操作等。以下是一个详细的Docker部署Doris数据库的教程，旨在帮助用户成功在Docker环境中部署并运行Doris数据库。一、环境准备在部署Doris之前，需要确保你的系统已经安装了Docker。Docker是一个开源的容器化平台，可以帮助你轻松地部署和
实时数仓之实时数仓架构(Hudi)(1) 2401_84164527 程序员架构
目前比较流行的实时数仓架构有两类，其中一类是以Flink+Doris为核心的实时数仓架构方案；另一类是以湖仓一体架构为核心的实时数仓架构方案。本文针对Flink+Hudi湖仓一体架构进行介绍，这套架构的特点是可以基于一套数据完全实现Lambda架构。实时数仓架构图如下：技术框架Kafka：用于接入数据源；FlinkCDC：如果直接接入业务数据源可以考虑CDC方式，如果通过Kafka缓冲接入业务数据
2024年大数据最新实时数仓之实时数仓架构(Hudi) 2401_84185556 程序员大数据架构
技术框架Kafka：用于接入数据源；FlinkCDC：如果直接接入业务数据源可以考虑CDC方式，如果通过Kafka缓冲接入业务数据可以忽略;Flink：用于数据ETL，包括接入数据、处理数据及输出数据全链路数据计算任务；Spark：用于数据ETL，包括处理数据及输出数据全链路数据计算任务；Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；Doris：O
实时数仓之实时数仓架构(Hudi)(1)，2024年最新熬夜整理华为最新大数据开发笔试题 2401_84181221 程序员架构大数据
+Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；+Doris：OLAP引擎，同步数仓结果模型，对外提供数据服务支持；+Hbase：用来存储维表信息，维表数据来源一部分有Flink加工实时写入，另一部分是从Spark任务生产，其主要作用用来支持FlinkETL处理过程中的LookupJoin功能。这里选用Hbase原因主要因为Table的HbaseC
【面试系列】Doris 高频面试题解答野老杂谈全网最全IT公司面试宝典面试职场和发展 Doris 大数据数据库
欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏：⭐️全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题.⭐️AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、应用领域等内容。⭐️大数据平台建设指南：全面讲解从数据采集到数据可视化的整个过程，掌握构建现代化数据平台的核心技术和方法。⭐️《遇见Python：初识、了解与热恋》：涵盖了Pytho
DORIS - 执行 git submodule update --init --recursive 的目的是什么？ cloneme01 DORIS相关 GIT操作相关 git DORIS
前言以前，我们学习源码的时候只需要执行克隆命令即可，如下：gitclonehttps://github.com/rocky/doris.git当我学习DORIS的时候，发现执行完上面的命令后，还需要执行如下命令:gitsubmoduleupdate--init--recursive所以，进行记录...场景某个项目/模块可能会依赖于其他模块或第三方库，项目本身的代码是一个独立的完整的代码仓库，并且不
Apache Doris 2.0-beta 版本发布：盲测性能 10 倍提升，更统一的多场景极速分析体验 SelectDB技术团队
亲爱的社区小伙伴们，我们很高兴地向大家宣布，ApacheDoris2.0-beta版本已于2023年7月3日正式发布！在2.0-beta版本中有超过255位贡献者为ApacheDoris提交了超过3500个优化与修复，欢迎大家下载使用！下载链接：https://doris.apache.org/downloadGitHub源码：https://github.com/apache/doris/tre
doris跨hdfs集群迁移数据州周 hdfs hadoop 大数据
官网-数据备份步骤一，在dorisA集群执行：CREATEREPOSITORY`repotestall`WITHBROKER`broker_name`ONLOCATION"hdfs://xx.xx.xx.xx:9000/repotestall"PROPERTIES("username"="user","password"="password");步骤二：BACKUPSNAPSHOTtest.sna
钱大妈生鲜如何利用 CCR 实现 Apache Doris 集群读写分离 ApacheDoris 开源数据库大数据 big data 数据分析
钱大妈是社区生鲜连锁品牌的开拓者，经过十一年的稳健运营，已成为行业内的领军品牌，截至2023年7月已全国布局超30多座城市，门店总数3000余家，服务家庭超1000万。近年来，随着业务的高速发展以及门店的快速扩张，钱大妈需要对生鲜产品的采购、销售、库存等数据进行实时监控和分析，以保障食品的新鲜度及品质。同时需要管理众多门店与供应链信息，以了解各区域销售趋势和顾客偏好，从而优化商品结构和库存管理。在
Apache Doris + Iceberg 快速搭建指南｜Lakehouse 使用手册（三） SelectDB技术团队 iceberg doris lakehouse 湖仓一体数据库
湖仓一体（DataLakehouse）融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势，能够更加便捷地满足各种数据处理分析的需求。ApacheDoris持续加深与数据湖的融合，已演进出一套成熟的湖仓一体解决方案。我们将通过一系列文章介绍ApacheDoris与各类主流数据湖格式及存储系统的湖仓一体架构搭建指南，包括Hudi、Paimon、Iceberg、OSS、DeltaLake、K
Doris 夺命 30 连问！(下) atbigapp.com 大数据 Doris MPP 大数据即席分析
导言30问最后一篇了，希望这30问能解答大家在使用ApacheDoris或者选择ApacheDoris的时候产生的各种疑虑。Q&A1.Doris如何处理和识别NULL和空，在导入和导出数据时在Doris内，是通过null值与""值来区分的，一个在CSV中是类似\N这样的值，一个是无数据的，一个是空字符串，这两个值在存储到Doris中以后是不一样的，空字符串无法通过isnull或者isnotnull
Apache Doris 2.0.5 版本正式发布
亲爱的社区小伙伴们，ApacheDoris2.0.5版本已于2024年2月27日正式与大家见面。这次更新带来一系列行为变更和功能更新，并进行了若干的改进与优化，旨在为用户提供更为稳定高效的数据查询与分析体验。新版本已经上线，欢迎大家下载体验！行为变更selectchar(0)='\0'返回true，跟MySQL的行为保持一致Export导出数据支持空表新增功能利用过滤条件中的isnull谓词，将O
Doris ——SQL原理解析爱吃辣条byte #Doris sql 数据库
目录前言一、Doris简介二、SQL解析简介2.1词法分析2.2语法分析2.3逻辑计划2.4物理计划三、DorisSQL解析的总体架构四、Parse阶段五、Analyze阶段六、SinglePlan阶段（生成单机逻辑Plan阶段）七、DistributedPlan计划（生成分布式逻辑阶段）7.1DistributedPlan概述7.2四种join算法：7.2.1BroadcastJoin7.2.2
第3.2章：Doris-2.0数据导入——Compaction机制爱吃辣条byte #Doris sql 数据库
目录一、Compaction概述1.1LSM-Tree概述1.2Compaction概述1.3Rowset数据版本1.4Compaction优点1.5Compaction问题1.5.1Compaction速度低1.5.2写放大问题1.6Compaction调优1.6.1业务侧1.6.2运维侧二、Compaction执行方式2.1VerticalCompaction2.1.1概述2.1.2原理2.2
第3.2章：Doris数据导入——Compaction机制（1）爱吃辣条byte #Doris sql 数据库
目录一、Compaction机制1.1compaction概述1.2compaction优点1.3compaction类型二、Compaction的问题2.1compaction速度低于数据写入速度2.2写放大问题三、数据版本的产生四、base&cumulativecompaction注：本篇文章阐述的是Doris1.2.2版本之前的compaction机制一、Compaction机制1.1com
Apache Doris 聚合函数源码阅读与解析｜源码解读系列
笔者最近由于工作需要开始调研ApacheDoris，通过阅读聚合函数代码切入ApacheDoris内核，同时也秉承着开源的精神，开发了array_agg函数并贡献给社区。笔者通过这篇文章记录下对源码的一些理解，同时也方便后面的新人更快速地上手源码开发。聚合函数，顾名思义，即对一组数据执行聚合计算并返回结果的函数，在统计分析过程中属于最常见的函数之一，最典型的聚合函数包括count、min、max、
Doris存储层设计介绍1——存储结构设计解析（索引底层结构）爱吃辣条byte #Doris 大数据数据库 sql
目录一、概述1.1存储结构的整体介绍1.2存储结构的设计目标二、存储文件格式2.1存储目录结构编辑2.2Segmentv2文件结构三、Footer信息3.1列的meta信息3.2列索引的meta信息四、前缀索引（ShortKeyIndex）4.1功能介绍4.2索引生成4.3索引的底层存储结构4.3.1Segmentfooter4.3.2ShortKeyPage4.4查询过滤4.5应用案例五、Ord
[Doris] Doris的安装和部署 (二) 959y Doris OLAP doris olap bigdata
文章目录1.安装要求1.1Linux操作系统要求1.2软件需求1.3注意事项1.4内部端口2.集群部署2.1操作系统安装要求2.2下载安装包2.3解压2.4配置FE2.5配置BE2.6添加BE2.7FE扩容和缩容2.8Doris集群群起脚本3.图形化1.安装要求1.1Linux操作系统要求1.2软件需求1.3注意事项所有部署节点关闭Swap。Follower的数量必须为奇数，Observer数量随
数据仓库内容分享(十七)：Doris实践分享:它做了哪些架构优化和场景优化？之乎者也· 数据仓库内容分享架构设计内容分享数据仓库架构
ApacheDoris是一款开源的实时数据仓库，由百度旗下的技术团队开发。它具有高性能、高可靠性、易扩展等特点，能够满足大规模数据实时查询和分析的需求。目前，ApacheDoris已经成为国内外众多企业的首选数据仓库解决方案，包括阿里巴巴、美团、京东、滴滴等知名企业。作为被众多大型互联网企业广泛采用的实时数据仓库，Doris拥有一些核心优势和独特的特点。我们从它的架构设计和使用场景来看一下这些优势
当我们一起走过 2023｜Apache Doris 年度时刻盘点
2024年的第一个月已经彻底过去，2023年的回顾总结才姗姗来迟。在过去一年的大多数时间里，我们一直处于忙碌的状态中，紧锣密鼓的代码研发、高速推进的版本迭代、行程紧密的全国之行，众多社区用户与开发者皆是见证。越是忙碌，在年末的这场回顾就越难能可贵。在2024年开端，我们挑选出了一些有意义的片刻，期待跟每一个社区用户和开发者一同看看过去一年所共同经历的种种。正是因为每一个您都是见证者和参与者，所以把
doris数据库介绍坎坷终究平坦数据库 sql
目录1、简介2、特点3、doris架构4、doris数据表设计-分区与分桶5、doris的数据模型1、简介ApacheDoris是一个分布式在线分析处理（OLAP）数据库，它的特点是基于列存储的MPP架构，支持快速的交互式查询和高并发的随机写入。2、特点https://www.cnblogs.com/liujichang/p/17384083.html基于列式存储行式存储下一张表的数据都是放在一起
flinkcdc 3.0 源码学习之任务提交脚本flink-cdc.sh Antgeek flinkcdc flink flinkcdc 源码
大道至简,用简单的话来描述复杂的事,我是Antgeek,欢迎阅读.在flink3.0版本中,我们仅通过一个简单yaml文件就可以配置出一个复杂的数据同步任务,然后再来一句bashbin/flink-cdc.shmysql-to-doris.yaml就可以将任务提交,本文就是来探索一下这个shell脚本,主要是研究如何通过一个shell命令+yaml文件将任务提交,其他的功能会在之后的文章中解读大数
（C++）对象指针——小白Doris的课堂笔记 Doris-510 c++开发语言
1.对象指针声明形式：类名*对象指针名；例如：PointA(2,3);Point*ptr;ptr=&A;通过指针访问对象成员：对象指针名-->成员名ptr-->getX();or(*ptr).getX();2.this指针定义：隐含于每一个类的成员函数中的特殊指针。功能：明确地指出了成员函数当前所操作的数据所属的对象。使用：当通过一个对象调用成员函数时，系统先将该对象的地址赋给this指针，然后调
史上最全OLAP对比只会写demo的程序猿数仓 spark hadoop 数据仓库
目录1.什么是OLAP2.OLAP引擎的常见操作3.OLAP分类MOLAP的优点和缺点ROLAP的优点和缺点4.并发能力与查询延迟对比5.执行模型对比5.OLAP引擎的主要特点5.2SparkSQL、FlinkSQL5.3Clickhouse5.4Elasticsearch5.5Presto5.6Impala5.7Doris5.8Druid5.9Kylin综上所述:1.什么是OLAPOLAP（On
【遇见Doris】Doris on ES在快手商业化的最佳实践 ApacheDoris 数据仓库大数据分布式数据库 java
贺祥快手商业化团队数据架构高级工程师主要负责商业化报表引擎快手商业化报表引擎为外部广告主提供广告投放效果的实时多维分析报表在线查询服务，以及为商业化内部各系统提供多维分析报表查询服务。致力于解决多维分析报表场景的高性能、高并发、高稳定的查询问题。1业务场景介绍1.1服务介绍本文主要侧重介绍DorisonES（DOE）在我们业务场景的实践，所以我们的数据架构在这里只做简单介绍，如上如图所示。总体来说
【Doris】Doris on ES在快手商业化的最佳实践九层之台起于累土【Doris】【BigData】elasticsearch 大数据 kafka 数据库
快手商业化报表引擎为外部广告主提供广告投放效果的实时多维分析报表在线查询服务，以及为商业化内部各系统提供多维分析报表查询服务。致力于解决多维分析报表场景的高性能、高并发、高稳定的查询问题。1业务场景介绍1.1服务介绍本文主要侧重介绍DorisonES（DOE）在我们业务场景的实践，所以我们的数据架构在这里只做简单介绍，如上如图所示。总体来说数据分为实时+离线两块事实数据写入，外加mysqlbinl
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，