落花闲庭坐

StarRocks-Profile分析及优化指南

背景

我们时常遇到sql执行时间不及预期的情况，为了优化sql达到预期查询时延，我们能够做哪些优化。本文旨在分析查询profile各阶段耗时是否合理以及对应优化方式。

准备

打开profile分析上报。

使用mysqlclient连接starrocks集群，

mysql -h ip -P9030 -u root -p xxx

然后输入

##该参数开启的是session变量，若想开启全局变量可以set global is_report_success=true;一般不建议全局开启，会略微影响查询性能

mysql> set is_report_success=true;

该参数会打开profile上报，后续可以查看sql对应的profile，从而分析sql瓶颈在哪。如何进一步优化。

如何获取profile？

如上设置打开profile上报后，打开fe的http界面（http://ip:8030）,如下点击queries后，点击相应sql后的profile即可查看对应信息。

注：此处需要进master的http页面。如不确定集群哪台是master，可以show frontends查看IsMaster值为true的ip

explain分析

Explain sql获取执行计划，如下

分区分桶

上图中

partitions字段x/xx表示查询分区/总分区

tabletRatio字段x/xx表示查询分桶/总分桶

查看对应查询sql是否包含分区字段，是否正确裁剪。如未正常裁剪，确认是否有以下问题：

字段类型不一致
字段有函数 eg:date_format('2009-10-04 22:23:00', '%W %M %Y')

存储层聚合

何时需要存储层聚合？

聚合表的聚合发⽣在导⼊
Compaction
查询时

PREAGGREGATION 是On 表⽰存储层可以直接返回数据，存储层⽆需进⾏聚合

PREAGGREGATION 是 OFF 表⽰存储层必须聚合，可以关注下 OFF的原因是否符合预期

是否命中物化视图

通过执行计划可以看到命中的物化视图的名称以及是否进行了预聚合

SCAN环节分析及优化

再porifle中搜索OLAP_SCAN_NODE，会有很多个结果形如OLAP_SCAN_NODE (id=0)，其中id=x有多个，表示同一个表的scan信息。如下是一个典型的scan慢节点

OLAP_SCAN_NODE (id=0):(Active: 56s208ms[56208256470ns], % non-child: 0.00%)

- Table: xxxx

- Rollup: xxxx

- Predicates: 3: svrIp = 'xxx.xxx.xxx.xxx'

- BytesRead: 1.21 GB

- NumDiskAccess: 0

- PeakMemoryUsage: 1.24 MB

- PerReadThreadRawHdfsThroughput: 0.0 /sec

- RowsRead: 0

- RowsReturned: 96

- RowsReturnedRate: 1

- ScanTime: 56s206ms

- ScannerThreadsInvoluntaryContextSwitches: 0

- ScannerThreadsTotalWallClockTime: 0ns

- MaterializeTupleTime(*): 0ns

- ScannerThreadsSysTime: 0ns

- ScannerThreadsUserTime: 0ns

- ScannerThreadsVoluntaryContextSwitches: 0

- TabletCount : 1

- TotalRawReadTime(*): 0ns

- TotalReadThroughput: 0.0 /sec

MERGE:

- aggr: 56s206ms

- union: 56s203ms

SCAN:(Active: 56s203ms[56203074918ns], % non-child: 45.19%)

- CachedPagesNum: 0

- CompressedBytesRead: 2.05 GB

- CreateSegmentIter: 435.687us

- DictDecode: 3.149ms

- IOTime: 48s384ms

- LateMaterialize: 42s792ms

- PushdownPredicates: 1

- RawRowsRead: 459.082236M (459082236)

- SegmentInit: 661.218ms

- BitmapIndexFilter: 0ns

- BitmapIndexFilterRows: 0

- BloomFilterFilterRows: 0

- ShortKeyFilterRows: 0

- ZoneMapIndexFilterRows: 19.611648M (19611648)

- SegmentRead: 12s743ms

- BlockFetch: 11s190ms

- BlockFetchCount: 694.015K (694015)

- BlockSeek: 829.477ms

- BlockSeekCount: 1.058K (1058)

- ChunkCopy: 124.666ms

- DecompressT: 40.773ms

- DelVecFilterRows: 0

- IndexLoad: 0ns

- PredFilter: 161.341ms

- PredFilterRows: 458.902727M (458902727)

- TotalPagesNum: 146.41K (146410)

- UncompressedBytesRead: 2.08 GB

其中table=x可以看到对应的所扫描的表信息。

数据倾斜问题

查询某张表的scan信息，比如上述test表对应的OLAP_SCAN_NODE (id=0)，分别检索查看多个Active: xxxms信息，观察是否差距很大，如果存在个别节点耗时是其他节点数据量倍数，

例如：

OLAP_SCAN_NODE (id=0):(Active: 4m50s[290851091923ns]

OLAP_SCAN_NODE (id=0):(Active: 250.644ms[250644279ns]

OLAP_SCAN_NODE (id=0):(Active: 131.874ms[131874236ns]

OLAP_SCAN_NODE (id=0):(Active: 160.832ms[160832221ns]

......

则有数据倾斜的问题。可以运行一下tabelt分析工具。

https://starrocks-public.oss-cn-zhangjiakou.aliyuncs.com/tools.tar.gz

下载完成后编辑config.ini信息，然后执行

./healthy_report config.ini

可以获取以下信息：

以上信息中关注下标准差那列，如果异常高，则表示该表需要重新选取hash键，建表不合理有严重的数据倾斜问题。

除此还可以关注下tablet数据平均值是否合理，一般建议该值在100MB-1GB之间，对于表总体数据量比较小时可以容忍小一点，数据量大的表建议在1G左右，如果该值与建议值差异较大，可以适当调整建表语句的bucket数量大小。

关键指标解读

以下对scan的关键指标做一些解读，如果对应字段的值占比总查询时间很高，可以针对该阶段进行分析。

BytesRead

读取tablet数据量大小，该值太大或者太小表示tablet设置的均不合理，可以参考视频内容，简单说明了分桶数的作用以及使用注意事项：

https://www.bilibili.com/video/BV1SX4y1c7i4?p=2

RowsReturned

扫描返回符合要求的行数，如果BytesRead很大，而RowsReturned很小。但是scan占比挺久，可以考虑将过滤条件中的字段建表时设置为key列，对点查效果有很好的加速效果，关于排序列的使用可以参考以下内容：

https://www.bilibili.com/video/BV1SX4y1c7i4?p=1

RowsReturnedRate

结果集返回速率，如果有个别节点返回比较慢，可以查看磁盘读写是否异常，或者cpu，内存资源是否负载很高，导致系统调度时间增加，该问题常见% non-child: 98.1%占比很大。

TabletCount

tablet数量，关注此处是否太多或者太少，此处和bucket设置息息相关，一般按照数据量去划分bucket数量，同BytesRead综合分析是否需要修改bucket数量

MERGE

如果merge中的aggr/union/sort耗时特别久，则整体瓶颈在底层rowset的merge上，该问题常见于unique表和aggregate表，在于内部存在多个rowset没有合并，导致查询时内部需要做相应操作，从而影响结果集输出。可以通过以下步骤去排查rowset是否太多：

Show tablet from table\G

找到version比较大的tablet，此处举例取11057，接着

Show tablet 11057\G

可以用「DetailCmd」的命令，来进一步展示详细信息：

SHOW PROC '/dbs/10027/10037/partitions/11056/10038/11057'\G

访问「CompactionStatus」中的 URL，会展示分片的几个副本（replica）的具体信息，包括可以查看每个副本更多元数据信息。

会出现如下信息：

{"cumulative point": 40716,

"last cumulative failure time": "2021-05-28 14:28:07.695",

"last base failure time": "1970-01-01 08:00:00.000",

"last cumulative success time": "2021-05-27 18:30:59.385",

"last base success time": "2021-05-27 18:30:59.385",

"rowsets": [

"[0-40603] 1 DATA NONOVERLAPPING",

"[40604-40635] 0 DATA NONOVERLAPPING",

"[40636-40674] 1 DATA NONOVERLAPPING",

"[40675-40715] 0 DATA NONOVERLAPPING"

],

"stale version path": []

}

此处有4个rowset说明数据还没充分做compaction。(其中NONOVERLAPPING只是表示一个 rowset 内部，如果有多个 segment 时，是否有重叠部分）。

可以通过修改 BE 的 conf/be.conf 中的配置，加快 compaction，以减少版本数：

# 加快做 cumulative compaction 的检查，能减少版本数（rowset 的数量）

cumulative_compaction_check_interval_seconds = 2

cumulative_compaction_num_threads_per_disk = 2

base_compaction_num_threads_per_disk = 2

如果想要进一步合并 2 个 rowset 为 1 个 rowset，可以做如下配置，但一般不建议，因为会导致增加大量 base compaction。

# Cumulative文件数目要达到设定数值，就进行 base compaction

base_compaction_num_cumulative_deltas = 1

注：聚合和更新表key列过多时，会极大影响merge时间，可以根据业务合适选取key列，如果必要的key列实在很多，可以考虑以下几种方案：

聚合表可以考虑用明细表+物化视图替代
更新表如果符合主键模型的场景，可以使用主键模型替代，详情参考文档主键模型使用部分内容：https://docs.starrocks.com/zh-cn/main/table_design/Data_model#%E4%B8%BB%E9%94%AE%E6%A8%A1%E5%9E%8B

IOTime

磁盘io所用时间，和上述MERGE和RowsReturnedRate有关，排查见如上所示。

PushdownPredicates

下推到存储层的谓词

RawRowsRead

读取行数

BitmapIndexFilter/BitmapIndexFilterRows/BloomFilterFilterRows

被索引过滤的行数

PredFilter

谓词过滤的时间

PredFilterRows

谓词过滤的行数

注：如果有谓词下推异常或者分区分桶裁剪不正常的情况可以检查是否包含以下问题:

字段类型不一致
过滤条件中左边字段有函数 eg:date_format('2009-10-04 22:23:00', '%W %M %Y')

Aggregate环节分析及优化

关键指标解读

AggComputeTime

构建 Hash 表和计算聚合函数的时间

ExprComputeTime: 1.721us

计算聚合函数内部标量函数的时间

ExprReleaseTime: 856ns

内存释放的时间

GetResultsTime: 4.923us

将Hash表的数据转换成Chunk的时间

HashTableSize: 0

hash表大小

InputRowCount: 1

聚合前行数

PassThroughRowCount: 0

Streaming 聚合时，没有经过 Hash 表，直接输出的行数

PeakMemoryUsage: 4.02 KB

内存使用

StreamingTime: 0ns

Streaming 聚合时，聚合函数列格式转换的耗时

JOIN环节分析及优化

名词解释

关于HashJoin：两个阶段，Build+Probe

Build阶段：将其中一个表（一般是较小的那个）中的每一个条经过 Hash 函数的计算都放到不同的Hash Bucket中。

Probe阶段：对于另外一个表，经过Hash函数，确定其所在的Hash Bucket，然后和上一步构建的Hash Bucket中的每一行进行匹配，如果匹配到就返回对应的行。

如下图所示两个表经过Hash join之后应该返回的分别是第1和第2行。

Join 左右表调整： StarRocks 是用右表构建 Hash 表，所以右表应该是小表，StarRocks 可以基于 cost 自动调整左右表顺序，也会自动把 left join 转 right join。

Join 多表 Reorder：多表Join 如何选择出正确的Join 顺序，是 CBO 优化器的核心，当 Join 表的数量小于等于5时，StarRocks 会基于 Join 交换律和结合律进行 Join Reorder，大于5时，StarRocks 会基于贪心算法和动态规划进行 Join Reorder。

Join分布式执行选择：

BroadCast Join：将右表全量发送到左表的HashJoinNode
Shuffle Join：将左右表的数据根据哈希计算分散到集群的节点之中
Colocate Join：两个表的数据分布都是一样的，只需要本地join即可，没有网络传输开销。
Bucket Shuffle Join：join的列是左表的数据分布列（分桶键），所以相比于shuffle join只需要将右表的数据发送到左表数据存储计算节点。
Replicated Join：右表的全量数据是分布在每个节点上的（也就是副本个数和BE节点数量一致），不管左表怎么分布，都是走本地Join。没有网络传输开销。

RunetimeFilter：基本原理是通过在join操作之前提前过滤掉那些不会命中join的输入数据来大幅减少join中的数据传输和计算，从而减少整体的执行时间。

注：下图是企业版profile可视化界面

Join节点的Profile

HASH_JOIN_NODE (id=4):(Active: 26s215ms[26215554772ns], % non-child: 0.13%)

- JoinPredicates: `lo_custkey` = `c_custkey`

- JoinType: InnerJoin

- AvgInputProbeChunkSize: 3.622K (3622)

- AvgOutputChunkSize: 981

- BuildBuckets: 1.048576M (1048576)

- BuildRows: 599.689K (599689)

- BuildTime: 28.98ms

- 1-CopyRightTableChunkTime: 15.276ms

- 2-BuildHashTableTime: 8.933ms

- 3-BuildPushDownExprTime: 3.322ms

- 4-BuildConjunctEvaluateTime: 1.456us

- PeakMemoryUsage: 14.87 MB

- ProbeRows: 50.708K (50708)

- ProbeTime: 6.212ms

- 1-MergeInputChunkTimer: 1.12us

- 2-SearchHashTableTimer: 3.898ms

- 3-OutputBuildColumnTimer: 1.924ms

- 4-OutputProbeColumnTimer: 311.679us

- 5-OutputTupleColumnTimer: 5.539us

- 6-ProbeConjunctEvaluateTime: 14.437us

- 7-OtherJoinConjunctEvaluateTime: 0ns

- 8-WhereConjunctEvaluateTime: 0ns

- PushDownExprNum: 1

- RowsReturned: 12.764K (12764)

- RowsReturnedRate: 486

当满足RuntimeFilter的条件时，会触发Runtime Filter下推到左表，达到提前过滤。可以关注下左表 OLAP_SCAN_NODE 节点是否有“JoinRuntimeFilter”关键字

OLAP_SCAN_NODE (id=0):(Active: 1s71ms[1071417120ns], % non-child: 0.00%)

- Table: table_1

- Rollup: table_1

- BytesRead: 1.13 GB

- JoinRuntimeFilterEvaluate: 1

- JoinRuntimeFilterInputRows: 11.536K (11536)

- JoinRuntimeFilterOutputRows: 11.536K (11536)

- JoinRuntimeFilterTime: 41.126us

- NumDiskAccess: 0

- PeakMemoryUsage: 3.57 MB

- PerReadThreadRawHdfsThroughput: 0.0 /sec

- RowsRead: 0

- RowsReturned: 11.536K (11536)

- RowsReturnedRate: 10.767K /sec

- ScanTime: 2s988ms

- ScannerThreadsInvoluntaryContextSwitches: 0

- ScannerThreadsTotalWallClockTime: 0ns

- MaterializeTupleTime(*): 0ns

- ScannerThreadsSysTime: 0ns

- ScannerThreadsUserTime: 0ns

- ScannerThreadsVoluntaryContextSwitches: 0

- TabletCount : 3

- TotalRawReadTime(*): 0ns

- TotalReadThroughput: 0.0 /sec

执行计划：explain + sql

HASH JOIN |

join op: INNER JOIN (BROADCAST) |

hash predicates: |

colocate: false, reason: |

equal join conjunct: 3: lo_custkey = 35: c_custkey |

use vectorized: true

分析和优化

是否有收集统计信息？

1.19.0及其之后的版本默认开启了cbo，之前的版本如果没有开启cbo，可能就会没有统计信息

如果下面的sql有查询结果，表示有统计信息收集（table_name为参与join的表名）。如果没有查询结果，可参考analyze命令手动触发统计信息收集

select * from _statistics_.table_statistic_v1 where table_name like '%table_name';

explain costs + sql

不合理：各个列的数据是默认值0.0，1.0等

合理：有统计信息输出

怎么判断瓶颈点？

下图表示的是合理的方式，右表是小表，采用的broadcast join方式。

下图表示的是不合理的方式，右表是大表，采用的broadcast join方式，会将右表的数据拷贝BE数量*parallel_fragment_exec_instance_num（并行度）份，导致 JOIN 节点的右子节点的 EXCHANGE 节点花费很多的执行时间。

下图表示的是不合理的方式，两个表数据量相差比较大，现在采用的是shuffle join（两个孩子节点都是EXCHANGE NODE），这种情况下建议可以尝试采用broadcast join，调整下左右表顺序，小表在左边。例如加hint方式：

select 右表.x,左表.y from 右表 join [broadcast] 左表 on 左表.x1 = 右表.x1

常见优化方法

当前启用了CBO优化器，一般情况下不需要人为触发优化，不过在一些场景下可以采用下面的方法尝试优化下：

join condition 的列，更应该使用 int、DATE 等简单类型
在join之前尽量添加一些where条件，能够充分发挥谓词下推，减少后续的数据shuffle和join节点处理的数据量
大表join，能够使用colocate join的尽量使用，能够减少网络传输，极大的提升性能，具体请参考Colocate Join
大小表join，左右表顺序有问题，可以通过[broadcast] hint方式调整小表为右表方式。例如：select a.x,b.y from a join [broadcast] b on a.x1 = b.x1
两个相差不多的表（一般几百k行）join，有些情况下默认会选用broadcast join，这个时候可以尝试采用[shuffle] hint的方式强制走shuffle join。例如：select a.x,b.y from a join [shuffle] b on a.x1 = b.x1

案例

调整左右表

下面以tpcds 1GB数据集构建的sql来分享下通过调整左右表顺序来达到提升查询效率的目的

原sql：1秒831毫秒

select i_item_desc

,w_warehouse_name

,d1.d_week_seq

,sum(case when p_promo_sk is null then 1 else 0 end) no_promo

,sum(case when p_promo_sk is not null then 1 else 0 end) promo

,count(*) total_cntfrom catalog_salesjoin inventory on (cs_item_sk = inv_item_sk)join warehouse on (w_warehouse_sk=inv_warehouse_sk)join item on (i_item_sk = cs_item_sk)join customer_demographics on (cs_bill_cdemo_sk = cd_demo_sk)join household_demographics on (cs_bill_hdemo_sk = hd_demo_sk)join date_dim d1 on (cs_sold_date_sk = d1.d_date_sk)join date_dim d2 on (inv_date_sk = d2.d_date_sk)join date_dim d3 on (cs_ship_date_sk = d3.d_date_sk)left outer join promotion on (cs_promo_sk=p_promo_sk)left outer join catalog_returns on (cr_item_sk = cs_item_sk and cr_order_number = cs_order_number)where d1.d_week_seq = d2.d_week_seq

and inv_quantity_on_hand < cs_quantity

and d3.d_date > d1.d_date + 5

and hd_buy_potential = '>10000'

and d1.d_year = 1999

and cd_marital_status = 'D'

group by i_item_desc,w_warehouse_name,d1.d_week_seqorder by total_cnt desc, i_item_desc, w_warehouse_name, d_week_seqlimit 100

通过分析profile看到主要耗时在catalog_sales和inventory表的join耗时，可以明显看出catalog_sales是小表，应该在右边，但是现在在左边，导致inventory表被broadcast了。

我们调整catalog_sales表被broadcast的效果，耗时降到了 383ms

select i_item_desc

,w_warehouse_name

,d1.d_week_seq

,sum(case when p_promo_sk is null then 1 else 0 end) no_promo

,sum(case when p_promo_sk is not null then 1 else 0 end) promo

,count(*) total_cnt

from inventory

join [broadcast] catalog_sales on (cs_item_sk = inv_item_sk)

join warehouse on (w_warehouse_sk=inv_warehouse_sk)

join item on (i_item_sk = cs_item_sk)

join customer_demographics on (cs_bill_cdemo_sk = cd_demo_sk)

join household_demographics on (cs_bill_hdemo_sk = hd_demo_sk)

join date_dim d1 on (cs_sold_date_sk = d1.d_date_sk)

join date_dim d2 on (inv_date_sk = d2.d_date_sk)

join date_dim d3 on (cs_ship_date_sk = d3.d_date_sk)

left outer join promotion on (cs_promo_sk=p_promo_sk)

left outer join catalog_returns on (cr_item_sk = cs_item_sk and cr_order_number = cs_order_number)

where d1.d_week_seq = d2.d_week_seq

and inv_quantity_on_hand < cs_quantity

and d3.d_date > d1.d_date + 5

and hd_buy_potential = '>10000'

and d1.d_year = 1999

and cd_marital_status = 'D'

group by i_item_desc,w_warehouse_name,d1.d_week_seq

order by total_cnt desc, i_item_desc, w_warehouse_name, d_week_seq

limit 100

调整Join方式：broadcast？shuffle？

还是上面的例子，我们通过调整broadcast join 为shuffle join，时间降到了 408ms

select i_item_desc

,w_warehouse_name

,d1.d_week_seq

,sum(case when p_promo_sk is null then 1 else 0 end) no_promo

,sum(case when p_promo_sk is not null then 1 else 0 end) promo

,count(*) total_cnt

from inventory

join [shuffle] catalog_sales on (cs_item_sk = inv_item_sk)

join warehouse on (w_warehouse_sk=inv_warehouse_sk)

join item on (i_item_sk = cs_item_sk)

join customer_demographics on (cs_bill_cdemo_sk = cd_demo_sk)

join household_demographics on (cs_bill_hdemo_sk = hd_demo_sk)

join date_dim d1 on (cs_sold_date_sk = d1.d_date_sk)

join date_dim d2 on (inv_date_sk = d2.d_date_sk)

join date_dim d3 on (cs_ship_date_sk = d3.d_date_sk)

left outer join promotion on (cs_promo_sk=p_promo_sk)

left outer join catalog_returns on (cr_item_sk = cs_item_sk and cr_order_number = cs_order_number)

where d1.d_week_seq = d2.d_week_seq

and inv_quantity_on_hand < cs_quantity

and d3.d_date > d1.d_date + 5

and hd_buy_potential = '>10000'

and d1.d_year = 1999

and cd_marital_status = 'D'

group by i_item_desc,w_warehouse_name,d1.d_week_seq

order by total_cnt desc, i_item_desc, w_warehouse_name, d_week_seq

limit 100

Colocate join减少网络传输

下面以tpch 50GB数据集构建的sql来分享下通过调整左右表顺序来达到提升查询效率的目的

默认查询执行方式选择的broadcast join，耗时440ms

原建表

CREATE TABLE `lineitem` (

`l_shipdate` date NULL COMMENT "",

`l_orderkey` int(11) NULL COMMENT "",

`l_linenumber` int(11) NULL COMMENT "",

`l_partkey` int(11) NULL COMMENT "",

`l_suppkey` int(11) NULL COMMENT "",

`l_quantity` decimal64(15, 2) NULL COMMENT "",

`l_extendedprice` decimal64(15, 2) NULL COMMENT "",

`l_discount` decimal64(15, 2) NULL COMMENT "",

`l_tax` decimal64(15, 2) NULL COMMENT "",

`l_returnflag` varchar(1) NULL COMMENT "",

`l_linestatus` varchar(1) NULL COMMENT "",

`l_commitdate` date NULL COMMENT "",

`l_receiptdate` date NULL COMMENT "",

`l_shipinstruct` varchar(25) NULL COMMENT "",

`l_shipmode` varchar(10) NULL COMMENT "",

`l_comment` varchar(44) NULL COMMENT ""

) ENGINE=OLAP

DUPLICATE KEY(`l_shipdate`, `l_orderkey`)

COMMENT "OLAP"

DISTRIBUTED BY HASH(`l_orderkey`) BUCKETS 96

PROPERTIES (

"replication_num" = "3",

"in_memory" = "false",

"storage_format" = "DEFAULT"

);

CREATE TABLE `orders` (

`o_orderkey` int(11) NULL COMMENT "",

`o_orderdate` date NULL COMMENT "",

`o_custkey` int(11) NULL COMMENT "",

`o_orderstatus` varchar(1) NULL COMMENT "",

`o_totalprice` decimal64(15, 2) NULL COMMENT "",

`o_orderpriority` varchar(15) NULL COMMENT "",

`o_clerk` varchar(15) NULL COMMENT "",

`o_shippriority` int(11) NULL COMMENT "",

`o_comment` varchar(79) NULL COMMENT ""

) ENGINE=OLAP

DUPLICATE KEY(`o_orderkey`, `o_orderdate`)

COMMENT "OLAP"

DISTRIBUTED BY HASH(`o_orderkey`) BUCKETS 96

PROPERTIES (

"replication_num" = "3",

"in_memory" = "false",

"storage_format" = "DEFAULT"

);
select o_orderpriority, count(*) as order_count

from lineitem

join orders on l_orderkey = o_orderkey

where

o_orderdate >= date '1993-07-01'

and o_orderdate < date '1993-07-01' + interval '3' month

and l_commitdate < l_receiptdate

group by o_orderpriority

order by o_orderpriority;

lineitem和orders表建立colocate属性，没有网络shuffle耗时，sql耗时降到了60ms

优化后建表

CREATE TABLE `lineitem_colocate` (

`l_shipdate` date NULL COMMENT "",

`l_orderkey` int(11) NULL COMMENT "",

`l_linenumber` int(11) NULL COMMENT "",

`l_partkey` int(11) NULL COMMENT "",

`l_suppkey` int(11) NULL COMMENT "",

`l_quantity` decimal64(15, 2) NULL COMMENT "",

`l_extendedprice` decimal64(15, 2) NULL COMMENT "",

`l_discount` decimal64(15, 2) NULL COMMENT "",

`l_tax` decimal64(15, 2) NULL COMMENT "",

`l_returnflag` varchar(1) NULL COMMENT "",

`l_linestatus` varchar(1) NULL COMMENT "",

`l_commitdate` date NULL COMMENT "",

`l_receiptdate` date NULL COMMENT "",

`l_shipinstruct` varchar(25) NULL COMMENT "",

`l_shipmode` varchar(10) NULL COMMENT "",

`l_comment` varchar(44) NULL COMMENT ""

) ENGINE=OLAP

DUPLICATE KEY(`l_shipdate`, `l_orderkey`)

COMMENT "OLAP"

DISTRIBUTED BY HASH(`l_orderkey`) BUCKETS 96

PROPERTIES (

"replication_num" = "3",

"in_memory" = "false",

"colocate_with" = "group_tpch_50",

"storage_format" = "DEFAULT"

);

CREATE TABLE `orders_colocate` (

`o_orderkey` int(11) NULL COMMENT "",

`o_orderdate` date NULL COMMENT "",

`o_custkey` int(11) NULL COMMENT "",

`o_orderstatus` varchar(1) NULL COMMENT "",

`o_totalprice` decimal64(15, 2) NULL COMMENT "",

`o_orderpriority` varchar(15) NULL COMMENT "",

`o_clerk` varchar(15) NULL COMMENT "",

`o_shippriority` int(11) NULL COMMENT "",

`o_comment` varchar(79) NULL COMMENT ""

) ENGINE=OLAP

DUPLICATE KEY(`o_orderkey`, `o_orderdate`)

COMMENT "OLAP"

DISTRIBUTED BY HASH(`o_orderkey`) BUCKETS 96

PROPERTIES (

"replication_num" = "3",

"in_memory" = "false",

"colocate_with" = "group_tpch_50",

"storage_format" = "DEFAULT"

);
select o_orderpriority, count(*) as order_count

from lineitem_colocate

join orders_colocate on l_orderkey = o_orderkey

where

o_orderdate >= date '1993-07-01'

and o_orderdate < date '1993-07-01' + interval '3' month

and l_commitdate < l_receiptdate

group by o_orderpriority

order by o_orderpriority;

物化视图分析及优化

简介

物化视图采用空间换时间的设计思路，一张表可以创建多个物化视图，查询会自动命中最优的物化视图。物化视图不能通过名称直接查询，但是其在底层存储时与一般表无异，创建物化视图后基表中的数据会以异步的方式同步到其所有物化视图中。

目前物化视图支持的两种场景，当然也支持两种方式混合：

预聚合：

对明细表的任意维度组合进行预先聚合；

维度列变序：

采用新的维度列的排序方式，以便命中前缀查询条件。

注意：

创建了大量的物化视图，会导致数据导入速度过慢，并且部分物化视图的相互重复，查询频率极低，会有较高的查询延迟。
只有明细模型和聚合模型支持创建物化视图，主键模型和更新模型不支持创建物化视图

案例

以下sql以SSB 1T测试数据集（lineorder_flat 474G）测试sql为例子创建物化视图优化。

以sum函数聚合为例

-- 原始sql

select LO_ORDERDATE,sum(LO_QUANTITY) from lineorder_flat group by LO_ORDERDATE;

--创建物化视图

CREATE MATERIALIZED VIEW sum_mv as select LO_ORDERDATE,sum(LO_QUANTITY) from lineorder_flat group by LO_ORDERDATE;

原始sql的执行时间为：27.61 sec

Profile

OLAP_SCAN_NODE (id=0):(Active: 12s132ms[12132328192ns], % non-child: 0.00%)

- Table: lineorder_flat

- Rollup: lineorder_flat

- BytesRead: 6.79 GB

- NumDiskAccess: 0

- PeakMemoryUsage: 0.00

- RowsRead: 1.457462453B (1457462453)

- RowsReturned: 1.457462453B (1457462453)

- RowsReturnedRate: 120.130483M /sec

- ScanTime: 13m9s

- ScannerThreadsInvoluntaryContextSwitches: 0

- ScannerThreadsTotalWallClockTime: 0ns

- MaterializeTupleTime(*): 0ns

- ScannerThreadsSysTime: 0ns

- ScannerThreadsUserTime: 0ns

- ScannerThreadsVoluntaryContextSwitches: 0

- TabletCount : 254

- TotalRawReadTime(*): 0ns

- TotalReadThroughput: 289.9573450088501 MB/sec

SCAN:(Active: 13m9s[789079370240ns], % non-child: 100.00%)

- CachedPagesNum: 547

- CompressedBytesRead: 1.04 GB

- CreateSegmentIter: 3.866ms

- IOTime: 13m2s

- PushdownPredicates: 0

- RawRowsRead: 1.457462453B (1457462453)

- ReadPagesNum: 111.772K (111772)

- SegmentInit: 14.478ms

- BitmapIndexFilter: 0ns

- BitmapIndexFilterRows: 0

- BloomFilterFilterRows: 0

- SegmentZoneMapFilterRows: 0

- ShortKeyFilterRows: 0

- ZoneMapIndexFilterRows: 0

- SegmentRead: 13m8s

- BlockFetch: 872.979ms

- BlockFetchCount: 355.948K (355948)

- BlockSeek: 13m7s

- BlockSeekCount: 355.948K (355948)

- ChunkCopy: 0ns

- DecompressT: 135.665ms

- DelVecFilterRows: 0

- IndexLoad: 0ns

- PredFilter: 0ns

- PredFilterRows: 0

- RowsetsReadCount: 508

- SegmentsReadCount: 728

- TotalColumnsDataPageCount: 111.772K (111772)

- UncompressedBytesRead: 1.09 GB

创建物化视图后执行时间为：0.96 sec

Profile

OLAP_SCAN_NODE (id=0):(Active: 525.174ms[525174514ns], % non-child: 95.03%)

- Table: lineorder_flat

- Rollup: sum_mv

- BytesRead: 488.32 KB

- NumDiskAccess: 0

- PeakMemoryUsage: 0.00

- RowsRead: 100.007K (100007)

- RowsReturned: 100.007K (100007)

- RowsReturnedRate: 190.426K /sec

- ScanTime: 15.646ms

- ScannerThreadsInvoluntaryContextSwitches: 0

- ScannerThreadsTotalWallClockTime: 0ns

- MaterializeTupleTime(*): 0ns

- ScannerThreadsSysTime: 0ns

- ScannerThreadsUserTime: 0ns

- ScannerThreadsVoluntaryContextSwitches: 0

- TabletCount : 294

- TotalRawReadTime(*): 0ns

- TotalReadThroughput: 349.794921875 KB/sec

SCAN:(Active: 14.862ms[14862553ns], % non-child: 2.77%)

- CachedPagesNum: 0

- CompressedBytesRead: 174.46 KB

- CreateSegmentIter: 25s53ms

- IOTime: 1.121ms

- PushdownPredicates: 0

- RawRowsRead: 100.007K (100007)

- ReadPagesNum: 588

- SegmentInit: 7.433ms

- BitmapIndexFilter: 0ns

- BitmapIndexFilterRows: 0

- BloomFilterFilterRows: 0

- SegmentZoneMapFilterRows: 0

- ShortKeyFilterRows: 0

- ZoneMapIndexFilterRows: 0

- SegmentRead: 7.124ms

- BlockFetch: 490.521us

- BlockFetchCount: 294

- BlockSeek: 6.225ms

- BlockSeekCount: 294

- ChunkCopy: 0ns

- DecompressT: 0ns

- DelVecFilterRows: 0

- IndexLoad: 0ns

- PredFilter: 0ns

- PredFilterRows: 0

- RowsetsReadCount: 588

- SegmentsReadCount: 294

- TotalColumnsDataPageCount: 588

- UncompressedBytesRead: 158.96 KB

通过以上profile可以看出，物化视图创建成功后进行查询时，olapscan节点:

- UncompressedBytesRead 扫描数据量参数变少，从GB级别达到KB级别，解压缩数据使用的时间更少。
-Table : lineorder_flat 扫描的表是同一张表
创建物化视图后Rollup: sum_mv 为创建好的视图，代表查询命中视图，如果仍为源表名代表未命中物化视图
-BytesRead BytesRead 读取的数据量变少

通过创建物化视图可以减少数据扫描量实现对查询的加速。

注意：物化视图创建过程为异步过程，数据量越大耗时越久，通过命令可以查看创建进度:SHOW ALTER MATERIALIZED VIEW FROM databaseName;

附件

lineorder_flat 建表语句

CREATE TABLE `lineorder_flat` (

`LO_ORDERDATE` date NOT NULL COMMENT "",

`LO_ORDERKEY` bigint(20) NOT NULL COMMENT "",

`LO_LINENUMBER` tinyint(4) NOT NULL COMMENT "",

`LO_CUSTKEY` int(11) NOT NULL COMMENT "",

`LO_PARTKEY` int(11) NOT NULL COMMENT "",

`LO_SUPPKEY` int(11) NOT NULL COMMENT "",

`LO_ORDERPRIORITY` varchar(100) NOT NULL COMMENT "",

`LO_SHIPPRIORITY` tinyint(4) NOT NULL COMMENT "",

`LO_QUANTITY` tinyint(4) NOT NULL COMMENT "",

`LO_EXTENDEDPRICE` int(11) NOT NULL COMMENT "",

`LO_ORDTOTALPRICE` int(11) NOT NULL COMMENT "",

`LO_DISCOUNT` tinyint(4) NOT NULL COMMENT "",

`LO_REVENUE` int(11) NOT NULL COMMENT "",

`LO_SUPPLYCOST` int(11) NOT NULL COMMENT "",

`LO_TAX` tinyint(4) NOT NULL COMMENT "",

`LO_COMMITDATE` date NOT NULL COMMENT "",

`LO_SHIPMODE` varchar(100) NOT NULL COMMENT "",

`C_NAME` varchar(100) NOT NULL COMMENT "",

`C_ADDRESS` varchar(100) NOT NULL COMMENT "",

`C_CITY` varchar(100) NOT NULL COMMENT "",

`C_NATION` varchar(100) NOT NULL COMMENT "",

`C_REGION` varchar(100) NOT NULL COMMENT "",

`C_PHONE` varchar(100) NOT NULL COMMENT "",

`C_MKTSEGMENT` varchar(100) NOT NULL COMMENT "",

`S_NAME` varchar(100) NOT NULL COMMENT "",

`S_ADDRESS` varchar(100) NOT NULL COMMENT "",

`S_CITY` varchar(100) NOT NULL COMMENT "",

`S_NATION` varchar(100) NOT NULL COMMENT "",

`S_REGION` varchar(100) NOT NULL COMMENT "",

`S_PHONE` varchar(100) NOT NULL COMMENT "",

`P_NAME` varchar(100) NOT NULL COMMENT "",

`P_MFGR` varchar(100) NOT NULL COMMENT "",

`P_CATEGORY` varchar(100) NOT NULL COMMENT "",

`P_BRAND` varchar(100) NOT NULL COMMENT "",

`P_COLOR` varchar(100) NOT NULL COMMENT "",

`P_TYPE` varchar(100) NOT NULL COMMENT "",

`P_SIZE` tinyint(4) NOT NULL COMMENT "",

`P_CONTAINER` varchar(100) NOT NULL COMMENT ""

) ENGINE=OLAP

DUPLICATE KEY(`LO_ORDERDATE`, `LO_ORDERKEY`)

COMMENT "OLAP"

PARTITION BY RANGE(`LO_ORDERDATE`)

(PARTITION p1 VALUES [('0000-01-01'), ('1993-01-01')),

PARTITION p2 VALUES [('1993-01-01'), ('1994-01-01')),

PARTITION p3 VALUES [('1994-01-01'), ('1995-01-01')),

PARTITION p4 VALUES [('1995-01-01'), ('1996-01-01')),

PARTITION p5 VALUES [('1996-01-01'), ('1997-01-01')),

PARTITION p6 VALUES [('1997-01-01'), ('1998-01-01')),

PARTITION p7 VALUES [('1998-01-01'), ('1999-01-01')))

DISTRIBUTED BY HASH(`LO_ORDERKEY`) BUCKETS 150

PROPERTIES (

"replication_num" = "1",

"in_memory" = "false",

"storage_format" = "DEFAULT"

);

适用场景

min/max
Count
bitmap_union 精确去重
hll_union
调整列的顺序

你可能感兴趣的:(database,数据库)

Async协程保姆级教学 Louis yeap python 大数据 python 开发语言协程 async
目录编辑前言二、Async协程使用步骤1.导入标准库2.协程三、协程的应用场景1.网络IO2.数据库IO3.文件IO4.异步任务调度5.Web服务6.设备和串口IO7.队列和管道总结前言介绍：Python协程的概念源于生成器（Generator）。但它通过asyncio和事件循环，进一步扩展了生成器的功能，从而支持异步非阻塞操作。允许程序在执行过程中暂停（挂起），然后在需要时恢复运行。与传统的线程
《向量数据库指南》——MoE应用：解锁深度学习新境界的钥匙大禹智库《实战AI智能体》《向量数据库指南》深度学习人工智能向量数据库大禹智库低代码 MoE模型
在深度学习的广阔天地里，混合专家（MoE）模型如同一把锐利的钥匙，正逐步解锁着各种复杂应用场景的新境界。作为大禹智库的向量数据库高级研究员，同时也是《向量数据库指南》的作者，我深感MoE模型在推动AI技术向前发展中所扮演的重要角色。今天，我将带大家深入探讨MoE模型在自然语言处理、计算机视觉以及多模态学习等领域的应用，并巧妙引导大家通过《向量数据库指南》获取更多干货和深度实战经验。一、自然语言处理
使用ScriptRunner对象做sql文件导入时遇到的问题 DamonREN 数据处理数据库同步 Mysql 开发遇到的问题 ScriptRunner
业务场景:服务端是挂在公网上用来提供数据同步功能,考虑到有可能客户端由于某种情况是不允许连接外网的,所以服务端提供一个接口用来下载全量sql脚本(当然这些数据是某官网公布出来的数据,不考虑数据安全问题),然后客户端通过拷贝或内网传输在客户端进行手动上传,客户端代码进行执行sql脚本,将全量数据同步到客户端对应的数据库以完成数据同步。问题复现:ScriptRunner对象是org.apache.ib
WAS 日志分析（websphere application server) Change is good websphere application server 服务器 jvm deployment
关键字:websphere日志WebSphereApplicationServer是一个基于Java的Web应用程序服务器，它构建在开放标准的基础之上，能帮助您部署与管理从简单的Web站点到强大的电子商务解决方案的诸多应用程序。它遵循J2EE并为Java组件、XML和Web服务提供了一个可移植的Web部署平台，这个平台能够与数据库交互并提供动态Web内容。随着WebSphereApplicatio
python 连接数据库之jaydebeapi SmartManWind
让python通过jdbc连接数据库1、安装visualcppbuildtools_full.exe链接：https://pan.baidu.com/s/1MLxNJfWNGuKIxgNYkJgUnw密码：3etc2、pipinstallJayDeBeApihttps://pypi.org/project/JayDeBeApi/3、测试代码importjaydebeapiurl='jdbc:ora
mysql var目录很快_删除/var/lib/mysql目录的解决办法逆铭 mysql var目录很快
在学习阶段偶尔会删除/var/lib/mysql/*目录来达到清除数据库管理员账户和密码的目的。but，对于新手来说经常会不小心删除/var/lib/mysql目录，导致重启mysql时找不到/var/lib/mysql。解决方法如下：mkdir/var/lib/mysqchownmysql:mysql/var/lib/mysqlsystemctlstartmysql此时如果还是失败，并产生如下提
【Sql Server】随机查询一条表记录，并重重温回顾下存储过程的封装和使用 web13688565871 面试学习路线阿里巴巴数据库 oracle
大家好，我是，欢迎来到《小5讲堂》。这是《SqlServer》系列文章，每篇文章将以博主理解的角度展开讲解。温馨提示：博主能力有限，理解水平有限，若有不对之处望指正！目录前言随机查询语句存储过程基本概念基本结构基础例子存储过程封装文章推荐前言温故而知新，最近在写sql查询语句，需求是随机查询表的其中一条记录。基于这个查询，顺便把数据库自定义函数、存储过程这个两个知识点重温固定下。因此，本篇文章将在
MongoDB常见的运维工具总结介绍 yuanpan mongodb 运维数据库
MongoDB提供了一些强大的运维工具，帮助管理员进行数据库监控、备份、恢复、性能优化等操作。以下是一些常见的MongoDB运维工具及其功能介绍：1.MongoDBAtlas功能：MongoDBAtlas是MongoDB官方的云托管数据库服务，它提供了全托管的MongoDB实例和自动化运维功能，包括自动备份、自动扩展、高可用性、监控和安全性等。它使得运维团队可以专注于应用开发，而无需担心数据库的管
kettle常用的数据库连接示例星月情缘02 ETL技术 kettle sql连接
kettle是一款强大的数据抽取转换工具，在数据仓库，ETL任务处理中使用的非常频繁的开源工具。它也支持众多的数据库连接类型。下面是支持的数据库连接对比图。请参考学习。就介绍这么多。
数仓ETL测试星月情缘02 etl 数据仓库
提取，转换和加载有助于组织使数据在不同的数据系统中可访问，有意义且可用。ETL工具是用于提取，转换和加载数据的软件。在当今数据驱动的世界中，无论大小如何，都会从各种组织，机器和小工具中生成大量数据。在传统的编程方式中，ETL都提取并进行一些转换操作，然后将转换后的数据加载到目标数据库文件等。为此，需要用任何编程语言编写代码，如Java，C#，C++等。为了避免更多编码和使用库，将通过拖放组件来减少
ER图（Entity Relationship Diagram，实体关系图）太阳 oracle 数据库
以下是一些常见的绘制ER图的工具，涵盖了在线工具和桌面软件，你可以根据自身需求进行选择：在线工具boardmix功能特点：拥有大量包括ER图模板在内的模板库，能加速ER图的创建；支持多人在线协作，多名用户可同时编辑和查看ER图；用户可在图上添加评论、标签和批注，方便交流协商；ER图可轻松导出为图片或PDF文件，便于分享。适用场景：适合数据库设计团队协作创建和修改ER图；项目管理中，项目团队可用来了
01_什么是Redis？袁庭新 Redis 7企业级开发实战教程 redis 数据库缓存
1.什么是NoSQL？1.1NoSQL介绍NoSQL，全称为NotOnlySQL（不仅仅是SQL），指的是非关系型的数据库。它最早出现于1998年，由CarloStrozzi提出，旨在找到存储和检索数据的新高效途径，而不是在所有情况下都依赖关系型数据库。2009年，NoSQL的概念在亚特兰大举行的"no:sql(east)"讨论会上得到了进一步推广和发展，这次讨论会标志着NoSQL数据库发展史上的
数仓的数据加工过程-ETL 星月情缘02 ETL技术 etl
ETL代表ExtractTransform和Load。ETL将所有三个数据库功能组合到一个工具中，以从一个数据库获取数据并将其放入另一个数据库。提取：提取是从数据库中提取(读取)信息的过程。在此阶段，从多个或不同类型的来源收集数据。转换：转换是将提取的数据从之前的形式转换为所需形式的过程。数据可以放入另一个数据库。可以通过使用规则或查找表或将数据与其他数据组合来进行转换。加载：加载是将数据写入目标
基于Spark的实时计算服务的流程架构小小搬运工40 spark 大数据
基于Spark的实时计算服务的流程架构通常涉及多个组件和步骤，从数据采集到数据处理，再到结果输出和监控。以下是一个典型的基于Spark的实时计算服务的流程架构：1.数据源数据源是实时计算服务的起点，常见的数据源包括：消息队列：如Kafka、RabbitMQ、AmazonKinesis等。日志系统：如Flume、Logstash等。传感器数据：物联网设备产生的数据流。数据库变更数据捕获（CDC）：如
机器学习建模流程 day02 扫把星133 机器学习人工智能 python
机器学习建模流程通常可以分为以下几个主要步骤：问题定义与数据收集：确定问题的类型（分类、回归、聚类等可见上篇所讲内容）和目标。收集相关数据，可以是从数据库、API、文件或其他来源获取。注释：数据库是计算机里面的存储的数据的，当然可以对数据进行一些操作增删改查，通常用于存储大量结构化数据，并提供高效的数据操作和查询功能。API（ApplicationProgrammingInterface，应用程序
史上最强！Spring Boot 3.3 高效批量插入万级数据的多种方案 m0_74825074 面试学习路线阿里巴巴 spring boot 后端 java
SpringBoot3.3多种方式实现高效批量插入万级数据，史上最强！在大数据处理场景下，如何高效地将大量数据插入数据库是一个重要课题。本文基于SpringBoot3.3及MyBatis-Plus，介绍几种高效的批量插入数据的方法，包括：使用JDBC批处理使用自定义SQL批处理单条插入（for循环）拼接SQL语句插入MyBatis-Plus的saveBatch方法循环插入+开启批处理模式每种方式都
SQLServer中DBCC INPUTBUFFER显示从客户端发送到 SQL Server 实例的最后一个语句 zxrhhm sqlserver 数据库
SQLServer中DBCCINPUTBUFFER显示从客户端发送到SQLServer实例的最后一个语句1、本文内容语法参数结果集权限示例适用于：SQLServerAzureSQL数据库AzureSQL托管实例显示从客户端发送到SQLServer实例的最后一个语句。2、语法DBCCINPUTBUFFER(session_id[,request_id])[WITHNO_INFOMSGS]3、参数se
golang请求云数据库ClickHouse数据库报错:err code: 202, message: Too many simultaneous queries. Maximum: 100 zhoupenghui168 golang #golang基础数据库 golang 开发语言后端 sync
1.场景描述开发环境:语言:golang1.22数据库引擎:GORM数据库:ClickHouse场景:当使用sync.WaitGroup并发执行多个gorm相关的goroutine时,报错:errcode:202,message:Toomanysimultaneousqueries.Maximum:1002.错误原因从上面错误中可以看出:(1).这是因为当前正在进行的查询或插入操作超过了设置的最大
golang通过AutoMigrate方法自动创建table详解 zhoupenghui168 golang #golang基础数据库数据库 GORM AUTOMigrate
一.AutoMigrate介绍1.介绍在Go语言中，GORM支持Migration特性，支持根据GoStruct结构自动生成对应的表结构,使用GORMORM库的AutoMigrate方法可以自动创建数据库表，确保数据库结构与定义的模型结构一致。AutoMigrate方法非常方便，特别适合在开发阶段进行快速迭代注意：AutoMigrate会创建表、缺失的外键、约束、列和索引出于保护数据的目的，它不会
JAVA开源免费项目基于Vue和SpringBoot的医院后台管理系统（附源码）胡晗靓 java vue.js spring boot 开源前端开发语言
本文项目编号T170，文末自助获取源码\color{red}{T170，文末自助获取源码}T170，文末自助获取源码目录一、系统介绍二、数据库设计三、配套教程3.1启动教程3.2讲解视频3.3二次开发教程四、功能截图五、文案资料5.1选题背景5.2国内外研究现状六、核心代码6.1查询数据6.2新增数据6.3删除数据一、系统介绍在管理员功能模块确定下来的基础上，对管理员各个功能进行设计，确定管理员功
MYSQL学习笔记(六)：聚合函数、sql语句执行原理简要分析羊小猪~~ MYSQL mysql sql 数据库考研后端 c++java
前言：学习和使用数据库可以说是程序员必须具备能力，这里将更新关于MYSQL的使用讲解，大概应该会更新30篇+，涵盖入门、进阶、高级(一些原理分析);这一篇是内容较少，主要讲解：聚合函数和简要介绍sql语句执行过程；虽然MYSQL命令很多，但是自己去多敲一点，到后面忘记了，查一下就可以回忆起来使用了；这一系列也是本人学习MYSQL做的笔记，也是为了方便后面忘记查询；参考资料：尚硅谷、黑马、csdn和
scrapy六 SSSCAESAR
目录设置代理ip设置随机的请求头(u-a)scrapy集成seleniumRedisNoSQL和SQL数据库的比较Redis特性设置代理ip代理的作用：突破自身的IP访问限制隐藏自身真实的ip如何获取ip：付费代理代理ip的匿名度：透明服务器知道这次使用了代理也知道真实的ip匿名服务器知道使用了代理不知道真实的ip高匿不知道使用了代理也不知道真实的ipclassIPProxyDownloaderM
【详解】MySQL重连，连接丢失：Thelastpacketsuccessfullyreceivedfromtheserve 牛肉胡辣汤 mysql adb 数据库
目录MySQL重连，连接丢失：Thelastpacketsuccessfullyreceivedfromtheserver1.连接丢失的原因1.1超时设置不当1.2网络问题1.3数据库服务器资源限制2.诊断方法2.1查看日志文件2.2使用SHOWPROCESSLIST命令2.3监控系统资源3.解决方案3.1调整超时参数3.2增强网络稳定性3.3优化数据库配置3.4应用层处理代码说明：注意事项：错误
MySQL中有哪几种锁？ chengxuyuan66666 mysql 数据库
MySQL中的锁机制是数据库并发控制的重要组成部分，这些锁可以根据不同的分类标准进行划分。以下是对MySQL中锁的详细分类和解释：一、按锁的性质分类乐观锁（OptimisticLocking）假设并发操作时不会发生冲突，只在提交事务时检查数据是否被其他事务修改过。适用于读多写少的场景。实现方式通常是通过记录版本号或时间戳来判断数据是否被修改。悲观锁（PessimisticLocking）假设并发操
neo4j desktop点击启动失败解决方案手板心里煎鱼吃数据库 neo4j
项目场景：neo4jdesktop点击start出现报错，即使重装后仍然显示感叹号。问题描述neo4jdesktop重装几次之后，数据库出现感叹号，而且出现了以前的数据库，且无法删除。解决方案：解决方案参考：链接:https://blog.csdn.net/qq_34045989/article/details/115458261
【热门主题】000045 分布式数据库：技术演进与应用探索宝码香车热门主题数据库
前言：哈喽，大家好，今天给大家分享一篇文章！并提供具体代码帮助大家深入理解，彻底掌握！创作不易，如果能帮助到大家或者给大家一些灵感和启发，欢迎收藏+关注哦目录【热门主题】000045分布式数据库：技术演进与应用探索一、分布式数据库概述（一）定义与原理（二）发展历程二、数据一致性实现方法（一）传统方法与挑战（二）多种实现方案三、架构设计（一）MySQL常见架构1.搭建步骤2.复制原理3.优缺点（二）
【热门主题】000059 分布式数据库：技术演进与未来展望宝码香车热门主题数据库
前言：哈喽，大家好，今天给大家分享一篇文章！并提供具体代码帮助大家深入理解，彻底掌握！创作不易，如果能帮助到大家或者给大家一些灵感和启发，欢迎收藏+关注哦目录【热门主题】000059分布式数据库：技术演进与未来展望一、分布式数据库概述二、发展历程（一）传统单机数据库的局限（二）互联网时代的挑战与探索（三）分布式数据库的崛起三、核心技术（一）数据复制（二）数据分区（三）分布式事务四、架构类型（一）分
基于JavaWeb的原色蛋糕商城的设计与实现 yh1340327157 计算机毕业设计实战案例 java-ee struts kafka tomcat hibernate intellij-idea spring
开发环境开发语言：Java框架：springbootJDK版本：JDK1.8服务器：tomcat7数据库：mysql5.7（一定要5.7版本）数据库工具：Navicat11开发软件：eclipse/myeclipse/ideaMaven包：Maven3.3.9浏览器：谷歌浏览器后台路径地址：localhost:8080/项目名称/admin/dist/index.html前台路径地址：localh
如何在AWS上部署一个Web应用？电脑高手-小林 aws 前端云计算
随着云计算的普及，越来越多的开发者选择将Web应用部署到AWS（AmazonWebServices）上。AWS提供了丰富的云服务，包括计算、存储、数据库等，适用于不同规模的项目。本文将详细介绍如何在AWS上部署一个简单的Web应用，并通过Chrome浏览器验证部署效果。部署前的准备工作在开始部署之前，请确保您已经完成以下准备工作：注册AWS账户访问AWS官方网站，完成账户注册。如果您是新用户，可以
python3连接mysql8.0 _l_r_k_ 数据库 python
最近在学习数据库，尝试用python连接mysql8.0，但是一直报错，最后才发现是密码设置错误，导致一直连接不上数据库。先在my.ini配置：[mysqld]default_authentication_plugin=mysql_native_password再在mysql下执行命令：ALTERUSER'root'@'localhost'IDENTIFIEDWITHmysql_native_pa
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，