爱弥儿er

HIVE优化：语句、参数、表结构优化

文章目录

- - map相关配置
  - reduce相关配置
  - 表结构
  - - 分区
    - 分桶
    - 索引
    - 列筛选
  - 语句优化
  - - 大表join小表：Replication
    - count(distinct)
    - 表过滤
  - 参数优化
  - - with语句
    - 向量运算
    - Hint
    - mapjoin
    - map端预聚合
    - 文件压缩
    - 合并小文件
    - 作业并行
    - 相关性优化
    - 本地执行
    - Fetch抓取
    - 其他
  - 连接优化器
  - 其他相关
  - - 查看SQL执行计划
    - show：查看信息
    - desc：描述库表信息
    - load：数据加载
    - export命令

show conf 值名：查看配置项当前的值，如 show conf 'hive.execution.engine'。

map相关配置

在默认情况下Map的个数defaultNum=目标文件或数据的总大小totalSize/hdfs集群文件块的大小blockSize。
当用户指定mapred.map.tasks，即为用户期望的Map大小，用expNum表示，这个期望值计算引擎不会立即采纳，它会获取mapred.map.tasks与defaultNum的较大值，用expMaxNum表示，作为待定选项。
获取文件分片的大小和分片个数，分片大小为参数mapred.min.split.size 和blockSize间的较大值，用splitMaxSize表示，将目标文件或数据的总大小除以splitMaxSize即为真实的分片个数，用realSplitNum表示。
获取realSplitNum与expMaxNum较小值则为实际的Map个数。

减少Map个数，需要增大mapred.min.split.size的值，减少mapred.map.tasks的值；
增大Map个数，需要减少mapred.min.split.size的值，同时增大mapred.map.tasks的值。

reduce相关配置

mapred.reduce.tasks：设置Reducer的数量，默认值是-1，代表有系统根据需要自行决定Reducer的数量。
hive.exec.reducers.bytes.per.reducer：设置每个Reducer所能处理的数据量，在Hive 0.14版本以前默认是1000000000（1GB）, Hive 0.14及之后的版本默认是256MB。输入到Reduce的数据量有1GB，那么将会拆分成4个Reducer任务。
hive.exec.reducers.max：设置一个作业运行的最大Reduce个数，默认值是999。
hive.multigroupby.singlereducer：表示如果一个SQL 语句中有多个分组聚合操作，且分组是使用相同的字段，那么这些分组聚合操作可以用一个作业的Reduce完成，而不是分解成多个作业、多个Reduce完成。这可以减少作业重复读取和Shuffle的操作。
hive.mapred.reduce.tasks.speculative.execution：表示是否开启Reduce 任务的推测执行。即系统在一个Reduce 任务中执行进度远低于其他任务的执行进度，会尝试在另外的机器上启动一个相同的Reduce任务。
hive.optimize.reducededuplication：表示当数据需要按相同的键再次聚合时，则开启这个配置，可以减少重复的聚合操作。
hive.vectorized.execution.reduce.enabled：表示是否启用Reduce任务的向量化执行模式，默认是true。MapReduce计算引擎并不支持对Reduce阶段的向量化处理。
hive.vectorized.execution.reduce.groupby.enabled：表示是否移动Reduce任务分组聚合查询的向量化模式，默认值为true。MapReduce计算引擎并不支持对Reduce阶段的向量化处理。

表结构

分区

where条件是在map端过滤，分区筛选在输入阶段过滤；在hdfs上一个分区对应一个目录；对常用字段使用分区字段，比如日期，筛选某天的数据速度显著提升；

分桶

分桶能够对原有表或者分区所存储的数据进行重新组织，使得通过分桶的方式能够快速过滤掉大量不需要遍历的文件。分桶是对文件过滤，一般使用hash模余，每个记录存储到桶的算法：记录所存储的桶=mod(hash(分桶列的值),4)
hash表示Hash函数，获取分桶列的值对应的哈希值；mod表示取余函数。
如果查询字段为分桶字段，能快速定位条件所在记录位置，而无须全表扫表，类似索引。对于大表，可以快速缩短读取数据时间，同时也能优化表的链接。比如在两表JOIN中，相同桶的数据进行join可以节约时间。（不是一个桶的数据join不上）
可以使用hdfs dfs -ls 表路径查看表在HDFS的存储。
使用桶的Map连接要保证连接的两张表的分桶数之间是倍数关系。
如果两个表的某字段分桶是10个，在两个表使用该字段关联join时，启用6个reduce

索引

Hive的索引在Hive 3.0版本中被废弃，可以使用两种方式进行替换：

物化视图（Materialized views）。这个概念对于使用Oracle的开发者并不陌生，通过使用物化视图，可以达到类似hive索引的效果，该特性在Hive 2.3.0版本中引入。
使用ORC/Parquet的文件存储格式，也能够实现类似索引选择性扫描，快速过滤不需要遍历的block，这是比分桶更为细粒度的过滤。

列筛选

ORC/Parquet中存储了文件定义的Schema, ORC/Parquet可以通过Schema直接读取表所在的列，以达到列过滤的目的。
在spark中，rdd需要对每一行按分隔符分割筛选，DataFrame有表结构可直接筛选对应数据列。

语句优化

大表join小表：Replication

HIVE中表连接的两种方式，Repartition连接和Replication连接。
Repartition连接
发生在Shuffle和Reduce阶段。一般如果不特别做其他声明，通常提到的连接就是Repartition连接。Map的任务读取A、B两个表的数据，将按连接条件发往相同的Reduce，在Reduce中计算合并的结果。

Replication连接
发生在Map阶段，Replication连接在Map阶段完成连接操作，相比发生在Shuffle阶段的Repartition连接，可以减少从HDFS读取表的次数，可以在Map 阶段实现连接时不匹配条件的记录行的过滤，减少下游网络传输的数据量和下游计算节点处理的数据量。
Replication 连接在操作时会将一个表的数据复制到各个Map 任务所在的节点并存储在缓存中，如果连接的两个表都是数据量庞大的表，会带来较大的性能问题，仅适用于两表连接中有一张小表的情况。
Replication连接根据实现的不同表连接可以分为：

普通的MapJoin：对使用的表类型无特殊限制，只需要配置相应的Hive配置。
Bucket MapJoin：要求使用的表为桶表。hash模余相同的值会被分发到同一个桶。
Skewed MapJoin：要求使用的表为倾斜表。
Sorted Merge Bucket MapJoin：要求使用的表为桶排序表。

普通mapjoin

-- hive命令可能被禁用，这里开启
set hive.ignore.mapjoin.hint=false;
select /*+mapjoin(t2)*/ t2.product_type
	,sum(t1.salses) as sum_sale
from sales_table t1 
join dim_product_info t2 
on t1.product_id = t2.product_id
group by t2.product_type

在Hive中使用common map join有几种方式，方式一是使用MapJoin的hint语法。需要注意的是要关闭忽略hint的配置项，否则该方法不会生效，即set hive.ignore.mapjoin.hint=false;

可使用Hive配置MapJoin。使用Hive配置需要使用到以下配置：

hive.auto.convert.join：在Hive 0.11版本以后，默认值为true，表示是否根据文件大小将普通的repartition连接将化为Map的连接。
hive.smalltable.filesize/hive.mapjoin.smalltable.filesize：默认值为25000000（bytes）。两个配置表示的含义都是当小表的数据小于该配置指定的阀值时，将尝试使用普通repartition连接转化Map连接。该配置需要和hive.auto.convert.join配合使用。

Map Join相关的Hive配置如下：

hive.mapjoin.localtask.max.memory.usage：默认值为0.9。表示小表保存到内存的哈希表的数据量最大可以占用到本地任务90%的内存，如果超过该值，则表示小表的数据量太大，无法保存到内存中。
hive.mapjoin.followby.gby.localtask.max.memory.usage：默认值是0.55。表示如果在MapJoin之后还有group by的分组聚合操作，本地任务最大可以分配当前任务55%的内存给哈希表缓存数据，如果缓存的数据大于该值，表示停止当前本地任务。在优化时，如果分组聚合后的数据会大幅度地缩小，可以适当提高该阀值，以提升内存可以缓存的数据量，如果分组聚合后的数据不降反增，则需要适当调低该比值防止内存溢出，导致作业失败。

倾斜连接：

set hive.optimize.skewjoin=true;
-- 负载均衡参数
set hive.skewjoin.key=100000;
select  t2.product_type
	,t1.salses
from sales_table t1 
join dim_product_info t2 
on t1.product_id = t2.product_id

创建倾斜表：通过在创建表时指定数据倾斜键，将指定的数据键分割成单独的数据文件或者目录，这样可以加快数据过滤从而提供作业的运行速度。

--创建倾斜表student_list_bucket表
CREATE TABLE student_info_bucket (s_no STRING, s_score bigint)
--指定倾斜的键
SKEWED BY (s_score) ON (96,97)
--以目录形式存储倾斜的数据
STORED AS DIRECTORIES;

倾斜键的数据存储在Hive_DEFAULT_LIST_BUCKETING_DIR_NAME目录中（比如上面的96和97），而其他数据则存储在与该目录同一级的文件目录下。
Hive中与SkewedJoin相关的配置如下：

hive.optimize.skewjoin：默认值是false，表示是否优化有倾斜键的表连接。如果为true, Hive将为连接中的表的倾斜键创建单独的计划。
hive.skewjoin.key：默认值为100000。如果在进行表连接时，相同键的行数多于该配置所指定的值，则认为该键是倾斜连接键。
hive.skewjoin.mapjoin.map.tasks：默认值为10000。倾斜连接键，在做MapJoin 的Map任务个数。需要与hive.skewjoin.mapjoin.min.split一起使用。
hive.skewjoin.mapjoin.min.split：默认值为33554432，即32MB。指定每个split块最小值，该值用于控制倾斜连接的Map任务个数。

count(distinct)

语句1：
select count(distinct age) as dis_cnt from user_info
count(distinct)会将同一个key的数据交给一个reduce处理，数据数据记录行多，跑批相对耗时长。以上语句由一个MR处理完成。
语句2：

select count(1) as dis_cnt 
from (select age from user_info group by age) t

语句2执行计划由两个MR构成；
age年龄枚举值较少，map段预聚合，shuffle到reduce端数据量整体还是比较少，两者区别不是很明显。count(distinct)计算使用一个MR计算耗时可能会更短些。
如果key数据量比较大的情况下，两个MR处理相对会快些，比如大企业用户规模较大，查看近1年的用户活跃数（月表，用户id去重），如果使用count(distinct)，如果每个月活跃去重在1亿，一年意味着大概有12亿的数据交由1个reduce去重计数。这时候交由两个MR处理，多处一个MR的开销相比时效提升几乎可以忽略不计。
在Hive 3.0中即使遇到数据倾斜，语句1将hive.optimize.countdistinct设置为true，写法也能达到语句2的效果。

表过滤

表过滤是指过滤掉同一个SQL 语句需要多次访问相同表的数据，将重复的访问操作过滤掉并压缩成只读取一次。表过滤的常见操作就是使用multi-group-by语法替换多个查询语句求并集的句式。

set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;
explain
insert into table insert_table partition(tp)
select s_age, min(s_birth) as birth, 'max' as label
from user_info
group by s_age
union all 
select s_age, max(s_birth) as birth, 'min' as label
from user_info
group by s_age

上面的sql，user_info表会读两次

set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.partition.mode=nonstrict;
explain
from user_info
insert into table student_stat partition(tp)
select s_age, min(s_birth) as birth, 'max' as label
group by s_age
insert into table  student_stat partition(tp)
select s_age, max(s_birth) as birth, 'min' as label
group by s_age;

参数优化

with语句

hive的with语句默认生成with语句一个视图，并不会把数据物化。使用with语句代码看起来相对简洁；如果sql中with的代码块有多次调用，会重复生成with执行计划，不一定会提高执行效率。
在高版本中，with语句可物化，参数为：hive.optimize.cte.materialize.threshold，参数默认是-1关闭。如果开启（大于0），比如n，当with…as语句被引用n次以上，会物化with生成的表，对应的with语句只执行一次。

-- 该sql中，tmp_tb1有调用了两次，该部分语句只会执行一次
set hive.optimize.cte.materialize.threshol=2
with tmp_tb1 as (
	select user_id,register_date from tb 
),tmp_tb2 as (
	select user_id from tb2 where dt = '20220918' group by userid
)
select user_id,register_date from tmp_tb1 
union all
-- tmp_tb2剔除tmp_tb1的数据
select t2.user_id,'20220918' as register_date
from tmp_tb2 t2 left join tmp_tb1 t1 
on t2.user_id=t1.user_id 
where t1.user_id is null

向量运算

hive开启向量计算，将一次处理一条数据变为一次处理1万条数据，以此提高程序的性能
hive.vectorized.execution.enabled：表示是否开启向量模式，默认值为false。
开启：set hive.vectorized.execution.enabled = true;

目前MapReduce计算引擎只支持Map端的向量化执行模式，Tez和Spark计算引擎可以支持Map和Reduce端的向量化执行模式

Hint

hive.ignore.mapjoin.Hint：是否忽略SQL中MapJoin的Hint关键，在Hive 0.11版本之后默认值为true，即开启忽略Hint的关键字。如果要使用MapJoin的Hint关键字，要在使用前开启支持Hint语法，否则达不到预期的效果。
Hint关键字，比如/*+ MAPJOIN(smalltable)*/

mapjoin

大表join小表
hive.auto.convert.join：是否开启MapJoin自动优化，hive 0.11版本以前默认关闭， 0.11及以后的版本默认开启。
hive.smalltable.filesize or hive.mapjoin.smalltable.filesize：默认值2500000（25MB）如果大小表在进行表连接时的小表数据量小于这个默认值，则自动开启MapJoin优化。在Hive 0.8.1以前使用hive.smalltable.filesize，之后的版本使用hive.mapjoin.smalltable.filesize参数。

hive.mapjoin.optimized.hashtable：默认值是true, Hive 0.14新增，表示使用一种内存优化的哈希表去做MapJoin。由于该类型的哈希表无法被序列化到磁盘，因此该配置只能用于Tez或者Spark。
hive.mapjoin.optimized.hashtable.wbsize：默认值是10485760（10MB），优化的哈希表使用的是一种链块的内存缓存，该值表示一个块的内存缓存大小。这种结构对于数据相对较大的表能够加快数据加载，但是对于数据量较小的表，将会分配多余的内存。
hive.vectorized.execution.mapjoin.native.enabled：是否使用原生的向量化执行模式执行MapJoin，它会比普通MapJoin速度快。默认值为False。

mapjoin失效情况
mapjoin在left或者right连接，小表为主表时会失效。
如下：小表 left join，大表开启了两个map，对于小表为2这一行，在上面这个map，由于没有2，大表为null，但在第二个map时，大表存在2这行有记录。这样就会出现一个问题，在大表某一个map不存在2这条记录时，大表的这个字段是为null还是2？
不可操作，所以该种情况mapjoin失效

map端预聚合

Map端聚合通常指代实现Combiner类。Combiner也是处理数据聚合，不同于Reduce是聚合集群的全局数据。Combiner聚合是Map阶段处理后的数据，处理类似于spark里边的reduceByKey。
Map预聚合目标可以减少Shuffle数据量。如果数据经过聚合后不能明显减少，那就是浪费机器的I/O资源。

hive.map.aggr：是否开启Map任务的聚合，默认值是true。
hive.map.aggr.hash.min.reduction：是一个阈值，默认值是0.5。
hive.groupby.mapaggr.checkinterval：默认值是100000。Hive在启用Combiner时会尝试取这个配置对应的数据量进行聚合，将聚合后的数据除以聚合前的数据，如果小于hive.map.aggr.hash.min.reduction会自动关闭。
hive.map.aggr.hash.percentmemory：默认值是0.5。该值表示在进行Mapper端的聚合运行占用的最大内存。例如，分配给该节点的最大堆（xmx）为1024MB，那么聚合所能使用的最大Hash表内存是512MB，如果资源较为宽裕，可以适当调节这个参数。
hive.map.aggr.hash.force.flush.memory.threshold：默认值是0.9。该值表示当在聚合时，所占用的Hash表内存超过0.9，将触发Hash表刷写磁盘的操作。例如Hash表内存是512MB，当Hash表的数据内存超过461MB时将触发Hash表写

文件压缩

减少Shuffle数据量，开启压缩同时意味着有解压缩消耗，一般适用于大型作业。
开启文件作业的压缩只要将hive.exec.compress.intermediate参数设置为true
压缩如果要是MapReduce中起作用，前提是需要配置mapred.output.compression. codec和mapred.output.compression两个属性。

合并小文件

启用hive.merge.mapfile参数，默认启用，合并只有Map任务作业的输出文件；
启用hive.merge.mapredfiles参数，默认启用，合并MapReduce作业最终的输出文件；
设置hive.merge.smallfiles.avgsize参数，默认16MB，当输出的文件小于该值时，启用一个MapReduce任务合并小文件；
设置hive.merge.size.per.task参数，默认256MB，是每个任务合并后文件的大小。一般设置为和HDFS集群的文件块大小一致。

作业并行

hive.optimize.countdistinct：默认值为true, Hive 3.0新增的配置项。当开启该配置项时，去重并计数的作业会分成两个作业来处理这类SQL，以达到减缓SQL的数据倾斜作用。
hive.exec.parallel：默认值是False，是否开启作业的并行。默认情况下，如果一个SQL被拆分成两个阶段，如stage1、stage2，假设这两个stage没有直接的依赖关系，还是会采用窜行的方式依次执行两个阶段。如果开启该配置，则会同时执行两个阶段。在资源较为充足的情况下开启该配置可以有效节省作业的运行时间。

本地执行

文件数量大，使用分布式计算，多台机器并行计算可以显著减少计算时间。当hive数据量非常小，查询触发执行任务消耗的时间可能会比实际job的执行时间要多的多。这种情况，hive可以通过本地模式在单台机器上处理所有的任务。对于小数据集，执行时间可以明显减少。
相关参数：
set hive.exec.mode.local=true开启本地mr
set hive.exec.mode.local.auto.inputbytes.max=5000000设置local mr的最大数据数据量，当输入数据量小于这个值时采用local mr的方式，默认为134217728，即128M。
set hive.exec.mode.local.auto.input.files.max=12`设置local mr的最大输入文件个数，当输入文件个数小于这个值时采用local mr的方式，默认为4。

Fetch抓取

Fetch抓取：hive中某些情况可以不必使用mr计算，例如：select * from table1。这种情况，hive可以简单读取文件输出到控制台。
在hive-default.xml.tempate文件中，hive.fetch.task.conversion默认是more，老版本是minimal，这个属性修改为more后，全局查找，字段查找，limit查找不走mr计算。
在关系型数据库中使用select * from table limit 10会全表扫描再limit。

其他

hive.map.groupby.sorted：在Hive 2.0以前的默认值是False,2.0及2.0以后的版本默认值为true。对于分桶或者排序表，如果分组聚合的键（列）和分桶或者排序的列一致，将会使用BucketizedHiveInputFormat。
hive.vectorized.execution.mapjoin.minmax.enabled：默认值为False，是否使用vector map join哈希表，用于整型连接的最大值和最小值过滤。

连接优化器

CBO(成本优化器:Cost Based Optimizer)可以基于收集到的统计信息，估算出每个表连接的组合，生成一个成本代价最低的表连接方案，预先两两结合生成中间结果集，再针对这些中间结果集进行操作。
简化表的连接，在多表连接的情况下，CBO在解析SQL子句时，会识别并抽取相同的连接谓词，并根据情况适当构造一个隐式的连接谓词作为替换，以避免高昂的表连接操作。

select tb1.id
	,tb2.field2
	,tb3.field3
	,tb4.field4
from table1 tb1 
join table2 tb2
on tb1.id = tb2.id
join table3 tb3
on tb2.id = tb3.id
join table4 tb4
on tb3.id = tb4.id

正常来说，tb3的join要等待tb1和tb2的join之后发生，这样无法充分利用集群计算。优化后的执行过程可能是：tb1 join tb2和tb3 join tb4同时进行。
step1:
tb1 join tb2 -> tb_tmp1
tb3 join tb4 -> tb_tmp2
step2:
tb_tmp1 join tb_tmp2

其他相关

查看SQL执行计划

查看执行计划的基本信息，即explain；
查看执行计划的扩展信息，即explain extended；
查看SQL数据输入依赖的信息，即explain dependency；
查看SQL操作相关权限的信息，即explain authorization；
查看SQL的向量化描述信息，即explain vectorization。

show：查看信息

show databases：获取hive的库名列表。
show tables：获取当前库下的表名列表。
show partitions表名：获取表的分区列表。
show functions：获取当前可用函数列表。
show views：获取当前库下的视图列表，Hive 2.2版本中新增。
show tblproperties：获取某个表的表配置属性。
show create table表名：获取某个表的完整建表语句。
show column from表名：获取表的所有字段名。
show locks：获取某个库、表或者某个表的分区的锁信息。
show transactions：获取库内的事务信息。
show compactions：获取已经被压缩或正在被压缩的表/分区的压缩信息。
show conf ’值名’：查看配置项当前的值，如show conf ‘hive.execution.engine’。
show table extended like表名：获取表的大部分信息，包括数据存储位置、输入/输出格式、列基本信息和表的配置信息等
desc：描述库表信息
desc database库名，用于获取库的描述，包括库的存储位置及权限信息。
desc [extended|formatted]表/分区，用于获取表或者某个表的分区的详细信息，比show table extend更加具体。

load：数据加载

将本地/集群上的某个文件直接插入表/分区

LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename
[PARTITION (partcol1=val1, partcol2=val2 ...)]

export命令

将表或分区的数据连同元数据导出到指定的输出位置。

EXPORT TABLE tablename [PARTITION (part_column="value"[, ...])]
TO 'export_target_path' [ FOR replication('eventid') ]

你可能感兴趣的:(SQL,hive,大数据,hadoop,HIVE优化)

【MySQL】性能优化实战指南：释放数据库潜能的艺术
文章目录MySQL性能优化实战指南：释放数据库潜能的艺术引言为什么需要MySQL性能优化？性能优化基础知识MySQL性能瓶颈分析1.硬件资源瓶颈2.MySQL内部瓶颈优化配置策略大全内存配置优化InnoDB缓冲池配置查询缓存配置连接和线程配置磁盘I/O优化InnoDB存储引擎配置临时表配置独特优化创意配置创意1：分层存储优化创意2：动态配置自适应创意3：负载感知配置高级优化技巧并行处理优化索引和查
毕业设计基于python + flask +mysql + Layui新闻系统项目源码 love0everything flask python 课程设计
毕业设计基于python+flask+mysql+Layui新闻系统项目源码介绍该项目采用Flask框架开发，数据库采用mysql。这是一个作业项目。该项目采用Flask框架开发的一个新闻、论坛、博客系统。。前端采用的是layui框架，后端模板是X-admin下载地址：毕业设计基于python+flask+mysql+Layui新闻系统项目源码模块版本PyMysql1.0.2Flask1.1.2M
Paimon：Range Partition and Sort优化无主键表（Append-Only Table）查询 lifallen Paimon 数据库大数据数据结构 java apache
这个优化是通过对数据进行全局排序，从而让查询时能够跳过大量不相关的数据文件（DataSkipping），极大地减少I/O，提升查询速度。只需要在执行INSERT语句时，通过OPTIONSHint来启用和配置这个功能即可。RangePartitionAndSortForUnawareBucketTableITCase测试文件本身就是最好的例子。比如测试中的这句SQL：INSERTINTOtest_t
PHP MySQL 读取数据 froginwe11 开发语言
PHPMySQL读取数据引言在Web开发中，PHP和MySQL是两个常用的技术栈。PHP作为服务器端脚本语言，而MySQL作为关系型数据库管理系统，两者结合能够构建强大的动态网站。本文将详细介绍如何使用PHP从MySQL数据库中读取数据，包括连接数据库、执行查询、处理结果等关键步骤。连接MySQL数据库在PHP中，首先需要连接到MySQL数据库。以下是一个示例代码，展示了如何使用mysqli扩展连
大数据时代下的时序数据库选型指南：基于工业场景的IoTDB技术优势与适用性研究 Loving_enjoy 计算机学科论文创新点机器学习 facebook 经验分享课程设计
>在宝钢集团的智能工厂里，5万多个传感器每秒产生150万+数据点，传统数据库系统每天积压3TB未处理数据——这揭示了工业4.0时代的核心矛盾：**海量时序数据处理能力已成为智能制造的关键瓶颈**。###工业时序数据的四大特殊性工业场景下的时序数据与传统互联网数据存在本质差异：1.**高精度时间要求**-数控机床振动监测需微秒级时间戳-电网故障定位要求时间同步精度≤1μs2.**多源异构性**```
Mysql基本语法到表设计吴鹰飞侠 mysql 数据库
由于笔者之前了解过sql所以此篇仅作复习使用。1.MySQL基本语法1.1创建数据库createdatabaselogin_demo;1.2使用数据库uselogin_demo;1.3创建表CREATETABLEusers(idintprimarykeyauto_increment,usernamevarchar(50)notnull,passwordvarchar(255)notnull,ema
linux安装Node.js 环境，Docker 环境，Ruby 环境，MongoDB 环境，PostgreSQL 数据库，Go 开发环境，Python 虚拟环境 2401_87017622 数据库 linux node.js
在Linux上安装其他常见的开发环境可以根据具体需求而定，以下是一些常见的安装步骤：1.Node.js环境Node.js是一个基于ChromeV8引擎的JavaScript运行环境，适用于服务器端开发。安装Node.js：通过包管理器安装：sudoyuminstall-ygcc-c++makecurl-sLhttps://rpm.nodesource.com/setup_14.x|sudo-Eba
3步！用代码生成工具秒建SqlSugar Winform项目？手把手教学，小白也能轻松上手！墨瑾轩数据库学习 oracle 数据库
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣（对比传统开发效率：人工写代码vs魔法生成器，谁才是真正的“代码魔法师”？）代码生成工具——程序员的“魔法棒”你有没有试过用Excel表格生成代码？或者像搭积木一样拼出一个完整的Winform项目？SqlSugar+代码生成工具（比如Database2Shar
3步搞定Java漏洞修复？别再让黑客当“家”！
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣Java城堡的“裂缝”与程序员的救赎想象一下：你的Java应用是一座巍峨的城堡，而安全漏洞就是那些悄悄蔓延的裂缝。SQL注入：像是小偷从窗户溜进来，偷偷改写数据库的账本。XSS攻击：像在城堡里偷偷放了一张带毒的地毯，路过的人会被“刺”伤。SSRF漏洞：像让城堡
MySQL 索引详解：从原理到实战的全方位指南一切皆有迹可循 mysql mysql 数据库后端 java sql
前言索引是MySQL高性能查询的核心驱动力，合理设计索引能将查询性能提升几个数量级，而不当使用则可能导致严重的性能瓶颈。本文从索引的基础概念出发，深入解析数据结构、分类特性、设计原则及实战优化，帮助开发者掌握索引的核心原理与最佳实践。一、索引基础概念1.索引定义与本质索引是存储引擎用于快速查找数据的一种数据结构，本质是「数据项→数据地址」的映射表类比：相当于书籍的目录，通过目录（索引）快速定位章节
MySQL 锁详解：从原理到实战的并发控制指南一切皆有迹可循 mysql mysql 数据库后端 java sql
前言在高并发场景下，锁是MySQL保证数据一致性的核心机制。正确理解锁的类型、行为及适用场景，能有效避免数据竞争、死锁等问题，是构建可靠数据库应用的关键。本文从锁的分类、存储引擎差异到实战优化，结合代码示例，系统解析MySQL锁机制的核心原理与最佳实践。一、锁分类：按粒度与功能划分1.按锁粒度划分（1）全局锁（GlobalLock）作用范围：锁定整个数据库实例典型场景：全库逻辑备份（FLUSHTA
浅谈MySQL SQL优化的底层原理干净的坏蛋 mysql sql 数据库
深入理解MySQL的SQL优化底层原理，需要从查询的执行流程出发，结合优化器原理、执行计划生成机制、索引原理和存储引擎行为全面剖析。以下是完整的底层视角分析：✅一、MySQLSQL查询的底层执行流程客户端->SQL解析器->查询优化器->执行器->存储引擎（如InnoDB）1.SQL解析（Parser）词法分析+语法分析→生成抽象语法树（AST）比如：识别出SELECT、FROM、WHERE、字段
MySQL MVCC解密：多版本并发控制的魔法世界码农技术栈 MySQL mysql 数据库开发语言 java jvm 后端性能优化
当多个用户同时读写数据库时，MySQL如何避免数据混乱？本文将揭开MVCC的神秘面纱，带你探索这个让数据库高并发运行的魔法引擎！一、为什么需要MVCC？并发控制的困境想象图书馆借阅场景：传统方式：一本书只能一个人看（锁机制）MVCC方式：复印多份，每人看不同版本（多版本控制）传统锁机制的痛点：事务A读数据加锁事务B写数据等待锁释放长时间等待系统卡顿二、MVCC是什么？时间旅行的艺术MVCC核心概念
斗鱼大数据面试题及参考答案大模型大数据攻城狮大数据大数据面试 hadoop面试 spark面试 flink面试手撕SQL 手撕代码
GC（垃圾回收）相关知识一、常见的GC收集器SerialGCSerialGC是最基本的垃圾收集器，它是单线程的。在进行垃圾收集时，会暂停所有的用户线程，直到垃圾收集完成。它的工作过程比较简单，首先标记出所有的垃圾对象，然后将它们清除。例如，在一个小型的、对响应时间要求不高的Java应用程序中，如简单的命令行工具，SerialGC可以满足垃圾收集的需求。因为这种应用程序通常没有很高的并发要求，暂停用
PostgreSQL 中的 pg_trgm 扩展详解 Yashar Qian 数据库(SQL)随笔 postgresql 数据库
PostgreSQL中的pg_trgm扩展详解pg_trgm是PostgreSQL提供的一个核心扩展，用于实现基于三元组(trigram)的文本相似度计算和高效搜索。它特别适合优化模糊匹配、部分匹配和相似度查询。核心功能三元组(trigram)概念：将字符串拆解为连续的3个字符组例如：“hello”→["h","he",“hel”,“ell”,“llo”,"lo"]主要用途：优化LIKE'%pat
Java 大视界 -- Java 大数据机器学习模型在金融市场情绪指数构建与投资决策支持中的应用（339）青云交大数据新视界 Java 大视界 java 大数据机器学习金融情绪指数投资决策量化策略情绪分析
Java大视界--Java大数据机器学习模型在金融市场情绪指数构建与投资决策支持中的应用（339）引言：正文：一、Java构建的金融市场情绪数据采集与预处理体系1.1多源异构数据接入引擎1.2数据采集延迟测试报告1.3情绪数据预处理管道二、Java驱动的金融市场情绪指数构建模型2.1多维度情绪指数计算框架2.2情绪指数与投资决策的映射模型三、Java在金融投资决策支持中的实战应用3.1量化私募情绪
【MySQL基础】MySQL事务详解：原理、特性与实战应用 GG Bond.ฺ MySQL学习 mysql 数据库
MySQL学习：https://blog.csdn.net/2301_80220607/category_12971838.html?spm=1001.2014.3001.5482前言：事务是数据库管理系统的核心概念之一，它确保了数据库操作的可靠性和一致性。本文将深入探讨MySQL事务的各个方面，包括基本概念、ACID特性、隔离级别、锁机制以及实战应用。目录一、事务的基本概念1.1什么是事务？1.
CentOS7环境卸载MySQL5.7 Hadoop_Liang mysql 数据库 mysql
备份重要数据切记，卸载之前先备份mysql重要的数据。备份一个数据库例如：备份名为mydatabase的数据库到backup.sql的文件中mysqldump-uroot-ppassword123mydatabase>backup.sql备份所有数据库mysqldump-uroot-ppassword123--all-databases>all_databases_backup.sql注意：-p后
centos7安装 mysql5.7(安装包) heiPony linux mysql mariadb centos mysql
一.卸载centos7自带数据库查看系统自带的Mariadbrpm-qa|grepmariadbmariadb-libs-5.5.44-2.el7.centos.x86_64卸载rpm-e--nodepsmariadb-libs-5.5.44-2.el7.centos.x86_64删除etc目录下的my.cnfrm/etc/my.cnf二.检查mysql是否存在(有就卸载,删除相关文件)rpm-q
MySQL Explain 详解：从入门到精通，让你的 SQL 飞起来
引言：为什么Explain是SQL优化的“照妖镜”？在Java开发中，我们常常会遇到数据库性能瓶颈的问题。一条看似简单的SQL语句，在数据量增长到一定规模后，可能会从毫秒级响应变成秒级甚至分钟级响应，直接拖慢整个应用的性能。此时，你是否曾困惑于：为什么这条SQL突然变慢了？索引明明建了，为什么没生效？到底是哪里出了问题？答案就藏在MySQL的EXPLAIN命令里。EXPLAIN就像一面“照妖镜”，
Linux/Centos7离线安装并配置MySQL 5.7 有事开摆无事百杜同学 LInux/CentOS7 linux mysql 运维
Linux/Centos7离线安装并配置MySQL5.7超详细教程一、环境准备1.下载MySQL5.7离线包2.使用rpm工具卸载MariaDB（避免冲突）3.创建系统级别的MySQL专用用户二、安装与配置1.解压并重命名MySQL目录2.创建数据目录和配置文件3.设置目录权限4.初始化MySQL5.配置启动脚本6.配置环境变量三、启动与验证1.启动MySQL服务2.获取初始密码3.登录并修改密码
数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
C++11中的std::function
文章转载自：http://www.jellythink.com/archives/771看看这段代码先来看看下面这两行代码：std::functiononKeyPressed;std::functiononKeyReleased;这两行代码是从Cocos2d-x中摘出来的，重点是这两行代码的定义啊。std::function这是什么东西？如果你对上述两行代码表示毫无压力，那就不妨再看看本文，就当温
自动化运维工程师面试题解析【真题】
ZabbixAgent默认监听的端口是A.10050。以下是关键分析：选项排除：C.80是HTTP默认端口，与ZabbixAgent无关。D.5432是PostgreSQL数据库的默认端口，不涉及ZabbixAgent。B.10051是ZabbixServer的默认监听端口，用于接收Agent发送的数据，而非Agent自身的监听端口。ZabbixAgent的配置：根据官方文档，ZabbixAgen
Flutter——数据库Drift开发详细教程(七) 怀君 flutter flutter 数据库
目录入门设置漂移文件入门变量数组定义表支持的列类型漂移特有的功能导入嵌套结果LIST子查询Dart互操作SQL中的Dart组件类型转换器现有的行类Dart文档注释结果类名称支持的语句自定义SQL类型定义类型使用自定义类型在Dart中在SQL中方言意识支持的SQLite扩展json1fts5地缘垄断自定义查询带有生成的api的语句自定义选择语句自定义更新语句入门Drift提供了一个dart_api来
android中百度定位、城市选择列表，右侧字母展示
好久好久没光顾过自己空空的博客了，做项目的时候都是逛着别人的博客急着把功能实现，近来闲下来了总结总结。这个城市选择功能也是当时做项目急着实现从哪找来的框架不记得了，然后改改用到项目中来的。非常感谢提供最初源码的博主，主要的区别是添加了搜索功能、定位功能，把以前的操作本地数据库sqlite的部分，改为操作对assest文件的操作，封装的有百度地图定位方法、可删除的edittext。百度地图的key需
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
老系统改造增加初始化，自动化数据源配置（tomcat+jsp+springmvc）
老系统改造增加初始化，自动化数据源配置一、前言二、改造描述1、环境说明2、实现步骤简要思考三、开始改造1、准备sql初始化文件2、启动时自动读取jdbc文件，创建数据源，如未配置，需要一个默认的临时数据源2.1去掉spingmvc原本配置的固定dataSource，改为动态dataSource2.2代码类，这里是示例，我就不管规范了，放到一起2.2.1DynamicDataSourceConfig
ETL可视化工具 DataX -- 简介( 一) dazhong2012 软件工具数据仓库 datax ETL
引言DataX系列文章：ETL可视化工具DataX–安装部署(二)ETL可视化工具DataX–DataX-Web安装(三)1.1DataX1.1.1DataX概览DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、
【Android】安卓四大组件之内容提供者（ContentProvider）：从基础到进阶 m0_59734531 Android android Java ContentProvider 安卓四大组件
你手机里的通讯录，存储了所有联系人的信息。如果你想把这些联系人信息分享给其他App，就可以通过ContentProvider来实现。。一、什么是ContentProvider‌ContentProvider‌是Android四大组件之一，负责实现‌跨应用程序的数据共享与访问‌，通过统一接口封装数据存储细节，提供标准化操作方式。其中主要功能包括：数据抽象层：将应用内部的数据（如SQLite数据库、文
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，