斗志昂-杨

ClickHouse从入门到精通（二）

文章目录

ClickHouse从入门到精通（二）
- ClickHouse 进阶篇
- - SQL操作
  - - 1. Insert
    - 2. Update 和 Delete
    - 3. 查询操作
    - 4. Alter 操作
    - 5. 导出数据
  - 副本
  - - 1. 副本写入流程
    - 2. 配置步骤
    - 3. 案例演示
  - 集群
  - - 1. 集群配置
    - 2. 配置一个默认集群
  - 分片集群
  - - 1. 分片写入流程(3分片2副本共6个节点)
    - 2. 集群读取流程(3分片2副本共6个节点)
    - 3. 3分片2副本集群配置
    - 4. 配置三节点集群及副本

ClickHouse从入门到精通（二）

ClickHouse 进阶篇

SQL操作

基本上相对于传统关系型数据库(以 MySQL 为例) 的 SQL 语句，ClickHouse 基本都支持，这里需要重点关注下 ClickHouse 与标准 SQL 不一致的地方。

1. Insert

基本与标准 SQL（MySQL）基本一致。

-- 标准
INSERT INTO [database_name].table_name[(c1, c2, ...)] values(v11, v12, ...), (v21, v22, ...), ...;
-- 从表到表插入
INSERT INTO [database_name].table_name[(c1, c2, ...)] SELECT ...

2. Update 和 Delete

ClickHouse 提供了 Delete 和 Update 的能力，这类操作被称为 Mutation 查询，可以看作是 Alter 的一种。
虽然可以实现修改和删除，但是和一般的 OLTP 数据库不一样，Mutation 语句是一种很“重”的操作，而且不支持事务。
- “重”的原因主要是每次修改或者删除都会导致放弃目标数据的原有分区，重建新分区。所以尽量做批量的变更，不要进行频繁小数据的操作。

-- 删除操作
ALTER TABLE t_order_smt DELETE WHERE sku_id = 'sku_001';
-- 更新操作
ALTER TABLE t_order_smt UPDATE total_amount = toDecimal32(2000.00, 2) WHERE id = 102;

由于操作比较“重”，所以 Mutation 语句分两步执行，同步执行的部分其实只是进行新增数据新增分区和并把旧分区打上逻辑上的失效标记。直到触发分区合并的时候，才会删除旧数据释放磁盘空间，一般不会开放这样的功能给用户，由管理员完成。

3. 查询操作

支持子查询；
支持 CTE（Common Table Expression 公用表达式 with 子句）；
支持各种 JOIN，但是 JOIN 操作无法使用缓存，所以即使是两次相同的 JOIN 语句，ClickHouse 也会视为两条新的 SQL；
窗口函数：目前最新版本已经支持；
暂不支持自定义函数；
GROUP BY 操作增加了 with rollup、with cube、with total 用于按不同维度统计。

-- 先清空表 t_order_mt
create table t_order_mt (
    id UInt32,
    sku_id String,
    total_amount Decimal(16, 2),
    create_time Datetime
) engine = MergeTree
partition by toYYYYMMDD(create_time)
primary key (id)
order by (id, sku_id);

-- 插入数据
insert into t_order_mt values 
(101, 'sku_001', 1000.00, '2022-04-15 09:00:00'), 
(102, 'sku_002', 1500.00, '2022-04-15 10:30:00'), 
(102, 'sku_003', 2500.00, '2022-04-15 12:30:00'), 
(103, 'sku_004', 1500.00, '2022-04-15 13:00:00'), 
(104, 'sku_001', 10000.00, '2022-04-15 13:00:00'), 
(105, 'sku_002', 800.00, '2022-04-15 12:00:00'),
(106, 'sku_002', 1500.00, '2022-04-15 10:30:00'), 
(107, 'sku_003', 2500.00, '2022-04-15 12:30:00'), 
(108, 'sku_004', 1500.00, '2022-04-15 13:00:00'), 
(109, 'sku_002', 10000.00, '2022-04-15 13:00:00'), 
(110, 'sku_003', 800.00, '2022-04-15 12:00:00');

with rollup（上卷）：从右至左去掉维度进行小计

select id, sku_id, sum(total_amount) from t_order_mt group by id, sku_id with rollup;

with cube：从右至左去掉维度进行小计，再从左至右去掉维度进行小计

select id, sku_id, sum(total_amount) from t_order_mt group by id, sku_id with cube;

with totals：只计算合计

select id, sku_id, sum(total_amount) from t_order_mt group by id, sku_id with totals;

4. Alter 操作

-- 新增字段
ALTER TABLE [database_name].table_name ADD COLUMN ${new_col_name} ${col_type} after ${old_col_name};

-- 修改字段类型
ALTER TABLE [database_name].table_name MODIFY COLUMN ${new_col_name} ${col_type};

-- 删除字段
ALTER TABLE [database_name].table_name DROP ${col_name};

5. 导出数据

clickhouse-client --query "select * from test.t_order_mt where create_time='2022-04-15 12:00:00'" --format CSVWithNames > /bigdata/data/rs.csv --password

更多支持格式：https://clickhouse.com/docs/en/interfaces/formats/

副本

副本的目的主要是保障数据的高可用性，即使一台 ClickHouse 节点宕机，那么也可以从其他服务器获得相同的数据。
参考资料：https://clickhouse.com/docs/zh/engines/table-engines/mergetree-family/replication/

1. 副本写入流程

2. 配置步骤

启动 ZooKeeper 集群
在 node01 的 /etc/clickhouse-server/config.d 目录下创建一个名为 metrika.xml 的配置文件，内容如下：


<yandex>
    <zookeeper-servers>
        <node index="1">
            <host>node01host>
            <port>2181port>
        node>
        <node index="2">
            <host>node02host>
            <port>2181port>
        node>
        <node index="3">
            <host>node03host>
            <port>2181port>
        node>
    zookeeper-servers>
yandex>

也可以不创建外部文件，直接在 config.xml 中指定，修改配置文件的用户组

chown clickhouse:clickhouse metrika.xml

修改 /etc/clickhouse-server/config.xml 配置文件：

<interserver_http_port>9009interserver_http_port>

<interserver_http_host>192.168.x.xinterserver_http_host>


<zookeeper incl="zookeeper-servers" optional="true" />
<include_from>/etc/clickhouse-server/config.d/metrika.xmlinclude_from>

将配置文件同步到 node02、node03 节点上，并重启服务

sudo clickhouse restart

3. 案例演示

建表语句：

CREATE TABLE table_name ( ... ) ENGINE = ReplicatedMergeTree('/clickhouse/tables/{layer}-{shard}/{table_name}', '{replica}') ...

Replicated*MergeTree 参数：
- 第一个参数：是分片的 ZK_PATH，一般按照==/clickhouse/tables/{layer}-{shard}/{table_name}== 的格式写。
  - /clickhouse/tables/ 是公共前缀，推荐使用这个；
  - {layer}-{shard}是分片标识部分，大多数情况来说，只需保留 {shard} 占位符即可；
  - table_name 是该表在 ZooKeeper 中的名称，使其与 ClickHouse 中的表名相同比较好。这里它被明确定义，跟 ClickHouse 表名不一样，并不会被 RENAME 语句修改。可以在前面添加一个数据库名称 table_name 也是，例如： db_name.table_name
- 第二个参数：是副本名称，{replica}占位符
  - 用于标识同一个表分片的不同副本，可以使用服务器名称；
  - 相同的分片副本名称不能相同。
- 这些参数可以包含宏替换的占位符，即大括号的部分，会被替换为配置文件里 macros 那部分配置的值。
```
<macros>
    <shard>01shard>               
    <replica>node01replica>       
macros>
```
- config.xml 配置文件中添加：
```
<macros incl="macros" optional="true" />
```
副本只能同步数据，不能同步表结构，所以我们需要在每台机器上自己手动创建表。

-- 分别在 node01、node02 和 node03 两台机器上执行
create table t_order_rep(
    id UInt32,
    sku_id String,
    total_amount Decimal(16, 2),
    create_time Datetime
) engine = ReplicatedMergeTree('/clickhouse/tables/{shard}/t_order_rep', '{replica}')
partition by toYYYYMMDD(create_time)
primary key (id)
order by (id, sku_id);

-- 在 node01 上插入数据
insert into t_order_rep values 
(101, 'sku_001', 1000.00, '2022-04-15 09:00:00'), 
(102, 'sku_002', 1500.00, '2022-04-15 10:30:00'), 
(103, 'sku_004', 1500.00, '2022-04-15 13:00:00'), 
(104, 'sku_001', 10000.00, '2022-04-15 13:00:00'), 
(105, 'sku_002', 800.00, '2022-04-15 12:00:00');

node02 和 node03 两节点上也能查到数据，副本数据同步成功！！！

同样的方式，你可以将clickhouse中的数据复制到更多的集群中。在这个过程中，你基本不需要担心zookeeper的性能问题。一个Zookeeper集群能给整个clickhouse集群支撑协调每秒几百个INSERT，数据的吞吐量可以跟不用复制的数据一样高。官方给出的Yandex.Metrica集群，大约有300台服务器，依然一个zookeeper搞定了。

集群

1. 集群配置

集群是通过服务器配置文件来配置的，在 config.xml 中找到标签，进行集群配置，ClickHouse 默认已经配置了一些集群

举个例子：

<remote_servers>
    <logs>
        
        
        <shard>
            
            <weight>1weight>
            
            <internal_replication>falseinternal_replication>
            <replica>
                
                <priority>1priority>
                <host>example01-01-1host>
                <port>9000port>
            replica>
            <replica>
                <host>example01-01-2host>
                <port>9000port>
            replica>
        shard>
        <shard>
            <weight>2weight>
            <internal_replication>falseinternal_replication>
            <replica>
                <host>example01-02-1host>
                <port>9000port>
            replica>
            <replica>
                <host>example01-02-2host>
                <secure>1secure>
                <port>9440port>
            replica>
        shard>
    logs>
remote_servers>

集群名称不能包含点号，每个服务器需要指定 host、port，和可选的 user、password、secure、compression 的参数：
- host – 远程服务器地址。可以域名、IPv4或IPv6。如果指定域名，则服务在启动时发起一个 DNS 请求，并且请求结果会在服务器运行期间一直被记录。如果 DNS 请求失败，则服务不会启动。如果你修改了 DNS 记录，则需要重启服务。
- port – 消息传递的 TCP 端口（「tcp_port」配置通常设为 9000）。不要跟 http_port 混淆。
- user – 用于连接远程服务器的用户名。默认值：default。该用户必须有权限访问该远程服务器。访问权限配置在 users.xml 文件中。更多信息，请查看«访问权限»部分。
- password – 用于连接远程服务器的密码。默认值：空字符串。
- secure – 是否使用ssl进行连接，设为true时，通常也应该设置 port = 9440。服务器也要监听 9440 并有正确的证书。
- compression - 是否使用数据压缩。默认值：true。

2. 配置一个默认集群

删掉 config.xml 中配置的集群，在外部配置文件 metrika.xml 中添加如下配置：

<remote_servers>
    <default>			
        <shard>
            <internal_replication>trueinternal_replication>
            <replica>
                <host>node01host>
                <port>9000port>
            replica>
            <replica>
                <host>node02host>
                <port>9000port>
            replica>
            <replica>
                <host>node03host>
                <port>9000port>
            replica>
        shard>
    default>
remote_servers>

node01、node02、node03都需要配置，然后重启 ClickHouse。
在 node01 上执行建表语句：使用 ReplicatedMergeTree 引擎，可以不用配置ZK路径（默认/clickhouse/tables/{shard}/{UUID}）和副本名称（默认用使用宏替换），但是要加上 on cluster {cluster_name}

create table t_order_cluster on cluster default(
    id UInt32,
    sku_id String,
    total_amount Decimal(16, 2),
    create_time Datetime
) engine = ReplicatedMergeTree
partition by toYYYYMMDD(create_time)
primary key (id)
order by (id, sku_id);

此时，在 node02、node03 也同样创建了和 node01 相同的表

分片集群

副本虽然能够提高数据的可用性，降低丢失风险，但是每台服务器实际上必须容纳全量数据，对数据的横向扩容没有解决。
要解决数据水平切分的问题，需要引入分片的概念。通过分片把一份完整的数据进行切分，不同的分片分布到不同的节点上，再通过 Distributed 表引擎把数据拼接起来一同使用。
Distributed 表引擎本身不存储数据，有点类似于 MyCat 之于 MySql，成为一种中间件，通过分布式逻辑表来写入、分发、路由来操作多台节点不同分片的分布式数据。
注意：ClickHouse 的集群是表级别的，实际企业中，大部分做了高可用，但是没有用分片，避免降低查询性能以及操作集群的复杂性。

1. 分片写入流程(3分片2副本共6个节点)

向集群写数据的方法有两种：

一、自已指定要将哪些数据写入哪些服务器，并直接在每个分片上执行写入。换句话说，在分布式表上«查询»，在数据表上 INSERT。这是最灵活的解决方案 – 你可以使用任何分片方案，对于复杂业务特性的需求，这可能是非常重要的。这也是最佳解决方案，因为数据可以完全独立地写入不同的分片。
二、在分布式表上执行 INSERT。在这种情况下，分布式表会跨服务器分发插入数据。为了写入分布式表，必须要配置分片键（最后一个参数）。当然，如果只有一个分片，则写操作在没有分片键的情况下也能工作，因为这种情况下分片键没有意义。

每个分片都可以在配置文件中定义权重。默认情况下，权重等于1。数据依据分片权重按比例分发到分片上。例如，如果有两个分片，第一个分片的权重是9，而第二个分片的权重是10，则发送 9 / 19 的行到第一个分片， 10 / 19 的行到第二个分片。
分片可在配置文件中定义 internal_replication 参数：
- true：写操作只选一个正常的副本写入数据。如果分布式表的子表是复制表(*ReplicaMergeTree)，请使用此方案。换句话说，这其实是**把数据的复制工作交给实际需要写入数据的表本身而不是分布式表。**生产环境上推荐使用。
- false：写操作会将数据写入所有副本。实质上，这意味着要分布式表本身来复制数据。这种方式不如使用复制表的好，因为不会检查副本的一致性，并且随着时间的推移，副本数据可能会有些不一样。

2. 集群读取流程(3分片2副本共6个节点)

查询数据时，如果一个分片shard有多个副本repIica，那么Distributed表引擎就需要面对副本选择的问题，选择查询究竟在哪个副本上执行。ck的负载均衡优先选择 errors_count 最小的那个，如果多个 errors_count 相同，则有以下四种策略：
- random：随机，默认的负载均衡算法；
- nearest_hostname：选择集群配置中host名称和当前host名称最相似的那个，相似比较的规则是与当前host的名称，按字节进行逐位对比，找到不同字节最少的那个。
- in_order：按照集群配置顺序选择。
- first_or_random：按照集群配置顺序选择第一个，如果第一个不可用，则随意选择一个其他的。

3. 3分片2副本集群配置

<remote_servers>
    <shard_cluster>			
        <shard>				
            <internal_replication>trueinternal_replication>
            <replica>		
                <host>node01host>
                <port>9000port>
            replica>
            <replica>		
                <host>node02host>
                <port>9000port>
            replica>
        shard>
        <shard>				
            <internal_replication>trueinternal_replication>
            <replica>		
                <host>node03host>
                <port>9000port>
            replica>
            <replica>		
                <host>node04host>
                <port>9000port>
            replica>
        shard>
        <shard>				
            <internal_replication>trueinternal_replication>
            <replica>		
                <host>node05host>
                <port>9000port>
            replica>
            <replica>		
                <host>node06host>
                <port>9000port>
            replica>
        shard>
    shard_cluster>
remote_servers>

4. 配置三节点集群及副本

集群及副本规划：2分片，只有第一个分片有副本

node01	node02	node03
01 rep_1_1	01 rep_1_2	02 rep_2_1

在 node01、node02、node03 三台机器上创建 metrika-shard.xml 配置文件，内容如下：

<yandex>
    
    <remote_servers>
        <shard_cluster>                 
            <shard>                     
                <internal_replication>trueinternal_replication>
                <replica>               
                    <host>node01host>
                    <port>9000port>
                replica>
                <replica>               
                    <host>node02host>
                    <port>9000port>
                replica>
            shard>
            <shard>                     
                <internal_replication>trueinternal_replication>
                <replica>               
                    <host>node03host>
                    <port>9000port>
                replica>
            shard>
        shard_cluster>
    remote_servers>
    
    <zookeeper-servers>
        <node index="1">
            <host>node01host>
            <port>2181port>
        node>
        <node index="2">
            <host>node02host>
            <port>2181port>
        node>
        <node index="3">
            <host>node03host>
            <port>2181port>
        node>
    zookeeper-servers>
    
    <macros>
        <shard>01shard>               
        <replica>rep_1_1replica>      
    macros>
yandex>

每台机器上的宏相关配置不一样

修改配置文件的用户组：

chown clickhouse:clickhouse metrika-shard.xml

修改 /etc/clickhouse-server/config.xml

<include_from>/etc/clickhouse-server/config.d/metrika-shard.xmlinclude_from>

重启 node01、node02、node03 上的 clickhouse
在 node01 上执行建表语句：会自动同步到 node02、node03

create table t_order_sc on cluster shard_cluster (
    id UInt32,
    sku_id String,
    total_amount Decimal(16, 2),
    create_time Datetime
) engine = ReplicatedMergeTree
partition by toYYYYMMDD(create_time)
primary key (id)
order by (id, sku_id);

在 node01 上创建 Distribute 分布式表

create table t_order_sc_all on cluster shard_cluster (
    id UInt32,
    sku_id String,
    total_amount Decimal(16, 2),
    create_time Datetime
) engine = Distributed(shard_cluster, test, t_order_sc, hiveHash(sku_id));

Distributed(shard_cluster, test, t_order_sc, hiveHash(sku_id))：
- Distributed(集群名称, 库名, 本地表名, 分片键);
- 分片键必须是整型数字，所以用 hiveHash 函数转换，也可以 rand()。
在 node01 上插入测试数据：

insert into t_order_sc_all values 
(101, 'sku_001', 1000.00, '2022-04-22 09:00:00'), 
(102, 'sku_002', 1500.00, '2022-04-22 10:30:00'), 
(103, 'sku_004', 1500.00, '2022-04-22 13:00:00'), 
(104, 'sku_001', 10000.00, '2022-04-23 13:00:00'), 
(105, 'sku_002', 800.00, '2022-04-23 12:00:00');

分别通过分布式表和本地表查询，对比输出结果

select * from t_order_sc_all;
select * from t_order_sc;

遇到问题：eceived exception from server (version 22.3.3):
Code: 516. DB::Exception: Received from localhost:9000. DB::Exception: Received from node03:9000. DB::Exception: default: Authentication failed: password is incorrect or there is no user with such name. (AUTHENTICATION_FAILED)
需要修改配置：

对比数据分布：

【Spring】_Spring事务与事务传播机制 _周游 Spring JavaEE 数据库 sql
目录1.创建项目、数据库及MyBatis配置1.1创建数据库及java实体类1.2使用yml配置MyBatis1.3对应三层架构开发2.Spring编程式事务2.1编写UserController类2.2接口测试2.23关于事务回滚与事务提交的日志3.Spring声明式事务3.1编写TransController类3.2接口测试3.3关于@Transactional实现事务回滚的情况3.3.1重新
likeadmin 安装与使用指南强和毓Hadley
likeadmin安装与使用指南项目地址:https://gitcode.com/gh_mirrors/li/likeadmin目录结构及介绍在克隆或下载likeadmin项目后，你会看到以下主要目录：admin:存放所有后端管理相关的代码。controller:控制器目录，负责处理HTTP请求。model:数据模型目录，用于数据库操作。service:服务层目录，提供业务逻辑。frontend:
我与DeepSeek读《大型网站技术架构》（5）下诺亚凹凸曼架构
万无一失：网站的高可用架构4.高可用的数据保证数据存储高可用的手段主要是数据备份和失效转移机制。缓存服务的高可用争论1.缓存服务需要实现高可用核心论据：避免雪崩效应：缓存宕机导致数据库瞬时压力骤增，可能引发级联故障。提升用户体验：缓存直接支撑高频访问，其不可用会导致延迟飙升、功能异常。数据热备价值：部分缓存数据（如会话信息）可能无持久化备份，丢失后影响业务连续性。适用场景：高并发实时系统：如电商秒
斐波拉契数列 RichardK. c++学习
题目描述给定正整数n，求斐波那契数列的第n项F(n)。令F(n)表示斐波那契数列的第n项，它的定义是：当n=1时，F(n)=1；当n=2时，F(n)=1；当n>2时，F(n)=F(n−1)+F(n−2)。大数据版：斐波拉契数列-大数据版输入描述一个正整数n（1≤n≤104）。输出描述斐波那契数列的第n项F(n)。由于结果可能很大，因此将结果对10007取模后输出。样例1输入1输出1解释边界定义：F
leetcode-sql数据库面试题冲刺（高频SQL五十题）我想吃烤肉肉 sql 测试面试数据库 leetcode sql
题目：2356.每位教师所教授的科目种类的数量表:Teacher±------------±-----+|ColumnName|Type|±------------±-----+|teacher_id|int||subject_id|int||dept_id|int|±------------±-----+在SQL中，(subject_id,dept_id)是该表的主键。该表中的每一行都表示带有t
Redis缓存穿透、雪崩、击穿的解决方案 Fanxt_Ja 缓存 redis 数据库 java spring cloud intellij-idea
在大型业务系统或用户活跃量较大的环境中，用户往往对某些数据的访问量会非常大，为了保护数据库而引入了缓存Redis，但是其也会出现一些问题，而导致严重的后果，比如缓存穿透、缓存雪崩、缓存击穿，下面我将针对这几个问题给出解决方案。1.缓存穿透缓存穿透发生的原因就是“用户”访问一个缓存中不存在，数据库中也不存在的数据。当这种请求量非常大时，就会对数据库造成非常大的压力。为了解决这个问题，通常有两种解决方
大数据技术生态圈：Hadoop、Hive、Spark的区别和关系雨中徜徉的思绪漫溢大数据 hadoop hive
大数据技术生态圈：Hadoop、Hive、Spark的区别和关系在大数据领域中，Hadoop、Hive和Spark是三个常用的开源技术，它们在大数据处理和分析方面发挥着重要作用。虽然它们都是为了处理大规模数据集而设计的，但它们在功能和使用方式上存在一些区别。本文将详细介绍Hadoop、Hive和Spark的区别和关系，并提供相应的源代码示例。Hadoop：Hadoop是一个用于分布式存储和处理大规
本地部署Hive集群克里斯蒂亚诺罗纳尔多阿维罗 hive hadoop 数据仓库
规划服务机器Hive本体部署在Node1元数据服务所需的关系型数据库(MYSQL)部署在Node1安装MYSQL数据库#更新密钥rpm--importhttps://repo.mysql.com/RPM-GPG-KEY-mysql-2022#安装Mysqlyum库rpm-Uvhhttp://repo.mysql.com//mysql57-community-release-el7-7.noarch
flink+kafka实现流数据处理学习上海研博数据 java
在应用系统的建设过程中，通常都会遇到需要实时处理数据的场景，处理实时数据的框架有很多，本文将以一个示例来介绍flink+kafka在流数据处理中的应用。1、概念介绍flink：是一个分布式、高可用、高可靠的大数据处理引擎，提供了一种高效、可靠、可扩展的方式来处理和分析实时数据。kafka：是用于构建实时数据管道和流应用程序并具有横向扩展，容错，wickedfast（变态快）等优点的一种消息中间件。
MySql索引使用沐千熏 mysql 数据库
索引类型#主键索引：PRIMARY这设立主键后数据库自动建立索引，InnoDB为聚簇索引，主键索引列不能为空（NUll）；#唯一索引：UNIQUE索引列的值必须唯一。可以为空值，但是必须只有一个；#普通索引（组合索引）：NORMAL也称为非唯一索引，允许重复值和NULL值。一个索引可以包含多个列，多个列共同组成一个复杂的索引；#全文索引：FULLTEXTFullText（MySQL5.7之前，只有
大数据面试之路 (一) 数据倾斜愿与狸花过一生大数据面试职场和发展
记录大数据面试历程数据倾斜大数据岗位，数据倾斜面试必问的一个问题。一、数据倾斜的表现与原因表现某个或某几个Task执行时间过长，其他Task快速完成。Spark/MapReduce作业卡在某个阶段（如reduce阶段），日志显示少数Task处理大量数据。资源利用率不均衡（如CPU、内存集中在某些节点）。常见场景Key分布不均：如某些Key对应的数据量极大（如用户ID为空的记录、热点事件）。数据分区
RuoYi-Vue部署到Linux服务器(Jar+Nginx) pingcode 若依框架 JAVA全栈开发笔记（全）JAVA运维笔记 ruoyi
一、本地环境准备源码下载、本地Jdk及Node.js环境安装，参考以下文章。附：RuoYi-Vue下载与运行二、服务器环境准备1.安装Jdk附：JDK8下载安装与配置环境变量(linux)2.安装MySQL附：MySQL8免安装版下载安装与配置(linux)3.安装Redis附：Redis下载安装与配置(linux)4.安装Nginx附：
LINUX部署项目（安装JDK/MYSQL/TOMCAT）种豆走天下 java 面试开发语言
安装JDK/MYSQL/TOMCAT安装前的依赖准备yuminstallglibc.i686yum-yinstalllibiao.so.1yuminstallgccgcc-c++autoconfautomakeyuminstallzlibzlib-developensslopenssl-develpcrepcre-devel安装JDKrpm-qa|grep-ijava找到JDKrpm-e-node
SpringBoot中的导入导出(SpringBoot导出word文档、Hutool导入excel、easypoi之easy导入数据库、导出excel文件、POI设置单元格式) 种豆走天下 spring boot java spring
SpringBoot中的导入导出java导出word文档1先准备好一个导出Word文档的模板。例如：2.打开doc文件后，文件中的另存为，然后选择保存类型为2003版本的(*.xml)3、刚生成的xml文件里面比较乱，要整理一下，方法如下：使用Eclipse/idea,新建一个jsp,把xml里面的东西覆盖更新刚才的jsp,ctrl+Shift+F/ctrl+alt+L把文件整理一下，在拷贝出来，
《颠覆认知，我用大模型+Redis实现SQL智能补全，开发效率暴涨500%》煜bart mysql AI编程人工智能 redis
一、前言：当SQL补全遇到大模型（插入传统SQL补全工具与ChatGPT对比图）你是否还在为这些场景抓狂？-凌晨3点记不清HiveQL的窗口函数语法-面对新接触的ClickHouse方言不知所措-团队新人总把STR_TO_DATE写成DATE_FORMAT传统IDE的SQL补全就像"人工智障"，直到我把大模型装进Redis…##二、效果展示：智能补全的降维打击（GIF动图展示输入SELECT*FR
Zookeeper与Kafka学习笔记上海研博数据 zookeeper kafka 学习
一、Zookeeper核心要点1.核心特性分布式协调服务，用于维护配置/命名/同步等元数据采用层次化数据模型（Znode树结构），每个节点可存储<1MB数据典型应用场景：HadoopNameNode高可用HBase元数据管理Kafka集群选举与状态管理2.设计限制内存型存储，不适合大数据量场景数据变更通过版本号（Version）控制，实现乐观锁机制采用ZAB协议保证数据一致性二、Kafka核心架构
Zookeeper学习种豆走天下 zookeeper 学习分布式
Zookeeper是一个开源的分布式协调框架，它主要用于处理分布式系统中的一些常见问题，如同步、配置管理、命名服务和集群管理等。Zookeeper是由Apache提供的，并且广泛应用于各种分布式应用中，特别是在高可用、高可靠性和高性能的系统中。Zookeeper的主要功能分布式协调：Zookeeper提供了协调多个节点（服务器）间行为的机制。例如，分布式锁、选举、配置管理等。命名服务：Zookee
如何在Spring Boot中实现数据加密后端springboot
如何在SpringBoot中实现数据加密大家好，我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编，也是冬天不穿秋裤，天冷也要风度的程序猿！一、数据加密的重要性与应用场景在当今信息安全日益受到重视的背景下，数据加密成为保护敏感信息不被未授权访问的重要手段。SpringBoot作为一种流行的Java开发框架，提供了多种方式来实现数据加密，适用于用户密码、数据库连接、敏感配置等场景。二、
HIBERNATE - 符合Java习惯的关系数据库持久化 popkiler Atleap代码读解 hibernate 数据库 java session class payment
HIBERNATE-符合Java习惯的关系数据库持久化Hibernate2参考文档2.1.1TableofContents前言1.在Tomcat中快速上手1.1.开始Hibernate之旅1.2.第一个可持久化类1.3.映射cat1.4.与猫同乐1.5.结语2.体系结构2.1.总览2.2.持久化对象标识（PersistentObjectIdentity）2.3.JMX集成2.4.JCA支持3.Se
一文理清：阿里系数据中台-数据治理工具集(傻傻也能分清楚） Debug_Snail Hadoop Big Data 技术工具人工智能 hadoop 数据仓库
阿里云提供的大数据与数据分析产品种类较多，各产品的定位和核心功能有所不同。以下是对DataWorks、MaxCompute、Dataphin、AnalyticDBforMySQL（ADB）、QuickBI、EMR的详细梳理。一、核心产品定位与功能DataWorks定位：一站式大数据开发治理平台，提供数据集成、开发、调度、治理、服务等全链路能力。核心功能：数据集成：支持异构数据源（如数据库、OSS、
如何编写POC/EXP 藤原千花的败北 web漏洞 web安全 python 网络安全
文章目录前言一、漏洞验证方式二、POC是什么？三、POC框架四、简单的POC/EXP编写1、POC编写流程2、以sqli-labs第8关为例-POC3、以sqli-labs第8关为例-EXP前言初学安全时，很多概念理解不透彻，被POC/EXP的概念困扰了许久。最近看到许多招聘上都需要熟练编写POC/编写特殊场景的工具脚本等要求，下决心要理解并学会如何写POC。（这里是Web应用类漏洞的POC）看了
2.10 Spring Boot定时任务：@Scheduled与Quartz对比分析 Sendingab spring boot 后端 java
SpringBoot定时任务：@Scheduled与Quartz对比分析一、核心特性对比特性**@Scheduled**Quartz依赖复杂度内置于Spring（零配置）需额外依赖与配置任务持久化不支持（内存存储）支持（数据库持久化）动态任务管理仅静态配置支持运行时增删改查分布式支持需自行实现原生集群支持调度策略固定速率/延迟Cron表达式/日历触发错误处理简单异常捕获完善的重试与错误日志机制性能
【高级RAG技巧】使用二阶段检索器平衡检索的效率和精度深度学习机器大语言模型深度学习入门人工智能语言模型
一传统方法之前的文章已经介绍过向量数据库在RAG（RetrievalAugmentedGenerative）中的应用，本文将会讨论另一个重要的工具-Embedding模型。一般来说，构建生产环境下的RAG系统是直接使用Embedding模型对用户输入的Query进行向量化表示，并且从已经构建好的向量数据库中检索出相关的段落用户大模型生成。但是这种方法很明显会受到Embedding模型性能的影响，比
mysql 数据库部署 IT 古月方源网络安全运维网络数据库
以下是基于CentOS7系统部署MySQL数据库的详细步骤及常见问题解决方案：一、卸载旧版本MySQL/MariaDB停止服务并检查残留systemctlstopmariadb#停止MariaDB服务rpm-qa|grepmariadb#检查MariaDB安装包rpm-e--nodepsmariadb-libs-*#强制卸载MariaDB及其依赖包rm-rf/etc/my.cnf/var/lib/
【推荐项目】 043-停车管理系统蜗牛 | ICU 推荐项目 spring boot vue.js java 前端框架
043-停车管理系统介绍使用springbootvuejsmysql技术搭建框架。智能停车管理系统描述后端框架：采用SpringBoot与MySQL的强强联合，为系统提供稳健、高效的服务支撑。前端框架：前端选用Vue.js，打造流畅、美观的用户交互界面。管理员功能：用户信息管理：轻松管理用户信息，包括新增、编辑、删除及查询用户。界面清晰，操作便捷，确保用户数据的安全与准确。车位信息管理：实时查看车
zookeeper与kafka集群配置 zhangpeng455547940 计算机 linux java 运维
基本配置修改ipvi/etc/sysconfig/network-scripts/ifcfg-ens33BOOTPROTO=staticONBOOT=yesIPADDR=192.168.139.133NETMASK=255.255.255.0GATEWAY=192.168.139.2DNS1=192.168.1.1修改主机名hostnamectlset-hostnameSSH免密登录vi/etc/
使用LangChain访问个人数据第一章-简介明志刘明大模型学习手册 langchain
需要学习提示词工程的同学请看面向开发者的提示词工程需要学习ChatGPT的同学请查看搭建基于ChatGPT的问答系统需要学习LangChian开发的同学请查看基于LangChain开发应用程序正文在大数据时代，数据价值逐渐凸显，打造定制化、个性化服务，个人数据尤为重要。要开发一个具备较强服务能力、能够充分展现个性化智能的应用程序，大模型与个人数据的对齐是一个重要步骤。作为针对大模型开发应运而生的框
ARM64环境部署EFK8.15.3收集K8S集群容器日志 llody_55 kubernetes 容器云原生运维 es java elasticsearch
环境规划主机IP系统部署方式ES版本CPU架构用户名密码192.168.1.225Ubuntu22.04.4LTSdockerelasticsearch:8.15.3ARM64elasticllodyi4TMmZDES集群部署创建持久化目录(所有节点)mkdir-p/data/es/{data,certs,logs,plugins}mkdir-p/data/es/certs/{ca,es01}服务
【护网行动】最新版护网知识总结，零基础入门到精通，收藏这篇就够了网络安全小宇哥 oracle 数据库安全 web安全计算机网络网络安全网络
一、基础知识1.SQL注入：一种攻击手段，通过在数据库查询中注入恶意SQL代码，获取、篡改或删除数据库数据。（1）危害：数据库增删改查、敏感数据窃取、提权/写入shell。（2）类型：按注入点（字符型、数字型、搜索型）、提交方式（get、post、cookie）、执行效果（联合、报错、布尔、时间）分类。（3）注入方式：包括information_schema注入、基于函数报错注入（如updatex
做了6年的Java，mysql去重查询方法 m0_57768082 程序员 java 经验分享面试
前言：求职季在即，技巧千万条，硬实力才是关键，听说今年疫情大环境不好，更要好好准备才行。MySQL是Java程序员面向高级的必备技能，很多朋友在面试时经常在这里折戟沉沙，饮恨不已。熟练掌握MySQL知识，在实践中具有很强的操作性，尤其是在互联网行业，不仅要写好代码、实现功能，而且还要在高并发的情况下能够正常运转。这篇文章总结了许多关于MySQL方面的知识总结，以及面试多家总结出来的常问面试题，希望
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S

ClickHouse从入门到精通（二）

文章目录

ClickHouse从入门到精通（二）

ClickHouse 进阶篇

SQL操作

1. Insert

2. Update 和 Delete

3. 查询操作

4. Alter 操作

5. 导出数据

副本

1. 副本写入流程

2. 配置步骤

3. 案例演示

集群

1. 集群配置

2. 配置一个默认集群

分片集群

1. 分片写入流程(3分片2副本共6个节点)

2. 集群读取流程(3分片2副本共6个节点)

3. 3分片2副本集群配置

4. 配置三节点集群及副本

你可能感兴趣的:(大数据,数据库,SQL,副本,集群,分片,ClickHouse)