houzhizhen

Spark Optimizer 规则详解和示例

Optimizer 是在 Analyzer 生成 Resolved Logical Plan 后，进行优化的阶段。

1. Batch Finish Analysis

有5条优化规则，这些规则都执行一次

1.1 EliminateSubqueryAliases

消除查询别名，对应逻辑算子树中的 SubqueryAlias 节点。一般来讲，Subqueries 仅用于提供查询的视角范围信息，一旦 Analyzer 阶段结束，该节点就可以被删除，该优化规则直接将 SubqueryAlias 替换为其子节点。
如下SQL，子查询 alias 为 t，在 Analyzed Logical Plan 中，还有 SubqueryAlias t节点。

explain extended select sum(len) from ( select c1,length(c1) len  from t1 group by c1) t;

== Analyzed Logical Plan ==
sum(len): bigint
Aggregate [sum(len#56) AS sum(len)#64L]
+- SubqueryAlias t
   +- Aggregate [c1#62], [c1#62, length(c1#62) AS len#56]
      +- SubqueryAlias spark_catalog.test.t1
         +- HiveTableRelation [`test`.`t1`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, Data Cols: [c1#62], Partition Cols: []]

== Optimized Logical Plan ==
Aggregate [sum(len#56) AS sum(len)#64L]
+- Aggregate [c1#62], [length(c1#62) AS len#56]
   +- HiveTableRelation [`test`.`t1`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, Data Cols: [c1#62], Partition Cols: []]

1.2 ReplaceExpressions

ReplaceExpressions 表达式替换。
4个替换规则，如下所示。

case e: RuntimeReplaceable => e.child
    case CountIf(predicate) => Count(new NullIf(predicate, Literal.FalseLiteral))
    case BoolOr(arg) => Max(arg)
    case BoolAnd(arg) => Min(arg)

1.2.1 RuntimeReplaceable

RuntimeReplaceable 是一个 trait，有好多子类，用 child 节点把自己替换。如 Nvl 的child是 Coalesce(Seq(left, right))。那么优化的时候用 child 替换 nvl 。

case class Nvl(left: Expression, right: Expression, child: Expression) extends RuntimeReplaceable {

  def this(left: Expression, right: Expression) = {
    this(left, right, Coalesce(Seq(left, right)))
  }

explain extended SELECT nvl(c1,c2) FROM VALUES ('v1', 'v12'), ('v2', 'v22'), ('v3', 'v32') AS tab(c1, c2);

输出结果

== Analyzed Logical Plan ==
nvl(c1, c2): string
Project [nvl(c1#85, c2#86) AS nvl(c1, c2)#87]
+- SubqueryAlias tab
   +- LocalRelation [c1#85, c2#86]

== Optimized Logical Plan ==
LocalRelation [nvl(c1, c2)#87]

1.2.2 bool_or

用max替换 bool_or.

explain extended SELECT bool_or(col) FROM 
VALUES (true), (false), (false) AS tab(col);

输出结果

== Analyzed Logical Plan ==
bool_or(col): boolean
Aggregate [bool_or(col#101) AS bool_or(col)#103]
+- SubqueryAlias tab
   +- LocalRelation [col#101]

== Optimized Logical Plan ==
Aggregate [max(col#101) AS bool_or(col)#103]
+- LocalRelation [col#101]

1.2.3 bool_and

用 min 替换 bool_and.

explain extended SELECT bool_and(col) FROM 
VALUES (true), (false), (false) AS tab(col);

输出结果：

== Analyzed Logical Plan ==
bool_and(col): boolean
Aggregate [bool_and(col#112) AS bool_and(col)#114]
+- SubqueryAlias tab
   +- LocalRelation [col#112]

== Optimized Logical Plan ==
Aggregate [min(col#112) AS bool_and(col)#114]
+- LocalRelation [col#112]

1.3 ComputeCurrentTime

计算当前时间相关的表达式，在同一条 SQL 中可能包含多个计算时间的表达式，如 CurentDate 和 CurrentTimestamp，保证同一个 SQL query 中多个表达式返回相同的值。

subQuery.transformAllExpressionsWithPruning(transformCondition) {
          case cd: CurrentDate =>
            Literal.create(DateTimeUtils.microsToDays(currentTimestampMicros, cd.zoneId), DateType)
          case CurrentTimestamp() | Now() => currentTime
          case CurrentTimeZone() => timezone
          case localTimestamp: LocalTimestamp =>
            val asDateTime = LocalDateTime.ofInstant(instant, localTimestamp.zoneId)
            Literal.create(localDateTimeToMicros(asDateTime), TimestampNTZType)
        }

2. BatchUnion

Combine Union，把相邻的 union 节点可以合并为一个 union 节点，如以下SQL.

explain extended 
select c1 from t1 
union 
select c1 from t1 where length(c1) = 2 
union 
select c1 from t1 where length(c1) = 3;

输出结果如下， Analyzed Logical Plan 有2个 Union，Optimized Logical Plan 有 1 个 Union.

== Analyzed Logical Plan ==
c1: string
Distinct
+- Union false, false
   :- Distinct
   :  +- Union false, false
   :     :- Project [c1#161]
   :     :  +- SubqueryAlias spark_catalog.test.t1
   :     :     +- HiveTableRelation [`test`.`t1`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, Data Cols: [c1#161], Partition Cols: []]
   :     +- Project [c1#162]
   :        +- Filter (length(c1#162) = 2)
   :           +- SubqueryAlias spark_catalog.test.t1
   :              +- HiveTableRelation [`test`.`t1`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, Data Cols: [c1#162], Partition Cols: []]
   +- Project [c1#163]
      +- Filter (length(c1#163) = 3)
         +- SubqueryAlias spark_catalog.test.t1
            +- HiveTableRelation [`test`.`t1`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, Data Cols: [c1#163], Partition Cols: []]

== Optimized Logical Plan ==
Aggregate [c1#161], [c1#161]
+- Union false, false
   :- HiveTableRelation [`test`.`t1`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, Data Cols: [c1#161], Partition Cols: []]
   :- Filter (isnotnull(c1#162) AND (length(c1#162) = 2))
   :  +- HiveTableRelation [`test`.`t1`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, Data Cols: [c1#162], Partition Cols: []]
   +- Filter (isnotnull(c1#163) AND (length(c1#163) = 3))
      +- HiveTableRelation [`test`.`t1`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, Data Cols: [c1#163], Partition Cols: []]

3. Batch Subquery

3.1 OptimizeSubqueries

当SQL语句包含子查询时，会在逻辑算子树上生成 SubqueryExpression 表达式。OptimizeSubqueries 优化规则在遇到 SubqueryExpression 表达式时，进一步调用 Optimizer 对该表达式的子计划进行优化。

4. Batch Replace Operators

用来执行算子的替换操作。在SQL语句中，某些查询算子可以直接改写为已有的算子，避免进行重复的逻辑转换。

4.1 ReplaceIntersectWithSemiJoin

将 Intersect 操作算子替换为 Left-Semi Join 操作算子，从逻辑上来看，这两种算子是等价的。需要注意的是，ReplaceIntersectWithSemiJoin 仅适用于 INTERSECT DISTINCT 类型的语句，不适用于 INTERSECT ALL 语句。此外，该优化规则执行之前必须消除重复的属性，避免生成的 Join 条件不正确。
示例：

create table t1(c1 string) stored as textfile;
create table t2(c1 string) stored as textfile;
load data local inpath '/etc/profile' overwrite into table t1;
load data local inpath '/etc/profile' overwrite into table t2;

查找长度为4的。

 select c1 from t1 where length(c1)=4;

输出结果：

else
else
else
done
Time taken: 0.064 seconds, Fetched 4 row(s)

intersect distinct

explain extended 
select  c1 from t2 where length(c1)<5 
intersect distinct 
select c1 from t1 where length(c1)=4;

输出结果如下，可以看到，Analyzed Logical Plan 中，为 Intersect，而 Optimized Logical Plan 变为 Join LeftSemi。

== Analyzed Logical Plan ==
c1: string
Intersect false
:- Project [c1#149]
:  +- Filter (length(c1#149) < 5)
:     +- SubqueryAlias spark_catalog.hzz.t2
:        +- HiveTableRelation [`hzz`.`t2`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, Data Cols: [c1#149], Partition Cols: []]
+- Project [c1#150]
   +- Filter (length(c1#150) = 4)
      +- SubqueryAlias spark_catalog.hzz.t1
         +- HiveTableRelation [`hzz`.`t1`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, Data Cols: [c1#150], Partition Cols: []]

== Optimized Logical Plan ==
Aggregate [c1#149], [c1#149]
+- Join LeftSemi, (c1#149 <=> c1#150)
   :- Filter (isnotnull(c1#149) AND (length(c1#149) < 5))
   :  +- HiveTableRelation [`hzz`.`t2`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, Data Cols: [c1#149], Partition Cols: []]
   +- Filter (isnotnull(c1#150) AND (length(c1#150) = 4))
      +- HiveTableRelation [`hzz`.`t1`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, Data Cols: [c1#150], Partition Cols: []]

4.2 ReplaceExceptWithAntiJoin

用 AntiJoin 替换 Except。
示例如下：

explain extended 
select  c1 from t2 where length(c1) <=5 
except 
select c1 from t1 where length(c1)=4;

输出结果：

== Analyzed Logical Plan ==
c1: string
Except false
:- Project [c1#156]
:  +- Filter (length(c1#156) <= 5)
:     +- SubqueryAlias spark_catalog.hzz.t2
:        +- HiveTableRelation [`hzz`.`t2`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, Data Cols: [c1#156], Partition Cols: []]
+- Project [c1#157]
   +- Filter (length(c1#157) = 4)
      +- SubqueryAlias spark_catalog.hzz.t1
         +- HiveTableRelation [`hzz`.`t1`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, Data Cols: [c1#157], Partition Cols: []]

== Optimized Logical Plan ==
Aggregate [c1#156], [c1#156]
+- Join LeftAnti, (c1#156 <=> c1#157)
   :- Filter (isnotnull(c1#156) AND (length(c1#156) <= 5))
   :  +- HiveTableRelation [`hzz`.`t2`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, Data Cols: [c1#156], Partition Cols: []]
   +- Filter (isnotnull(c1#157) AND (length(c1#157) = 4))
      +- HiveTableRelation [`hzz`.`t1`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, Data Cols: [c1#157], Partition Cols: []]

4.3 RelaceDistinctWithAggregate

示例：

explain extended 
select distinct c1 from t1;

输出结果如下：

== Analyzed Logical Plan ==
c1: string
Distinct
+- Project [c1#163]
   +- SubqueryAlias spark_catalog.hzz.t1
      +- HiveTableRelation [`hzz`.`t1`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, Data Cols: [c1#163], Partition Cols: []]

== Optimized Logical Plan ==
Aggregate [c1#163], [c1#163]
+- HiveTableRelation [`hzz`.`t1`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, Data Cols: [c1#163], Partition Cols: []]

5. Batch Aggregate

5.1 RemoveLiteralFromGroupExceptions

去除 group by中的常数。
示例：group by 都是常数，用 0 替代

explain extended 
select sum(length(c1)) from t1 group by 'aa','bb';

== Analyzed Logical Plan ==
sum(length(c1)): bigint
Aggregate [aa, bb], [sum(length(c1#189)) AS sum(length(c1))#191L]
+- SubqueryAlias spark_catalog.hzz.t1
   +- HiveTableRelation [`hzz`.`t1`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, Data Cols: [c1#189], Partition Cols: []]

== Optimized Logical Plan ==
Aggregate [0], [sum(length(c1#189)) AS sum(length(c1))#191L]
+- HiveTableRelation [`hzz`.`t1`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, Data Cols: [c1#189], Partition Cols: []]

5.2 RemoteRepetitionFromGroupExpressions

去除 group by 中重复的表达式，如

explain extended 
select sum(length(c1)) from t1 group by c1,c1;

输出结果

== Analyzed Logical Plan ==
sum(length(c1)): bigint
Aggregate [c1#201, c1#201], [sum(length(c1#201)) AS sum(length(c1))#203L]
+- SubqueryAlias spark_catalog.hzz.t1
   +- HiveTableRelation [`hzz`.`t1`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, Data Cols: [c1#201], Partition Cols: []]

== Optimized Logical Plan ==
Aggregate [c1#201], [sum(length(c1#201)) AS sum(length(c1))#203L]
+- HiveTableRelation [`hzz`.`t1`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, Data Cols: [c1#201], Partition Cols: []]

6. Batch Operator Optimizations

包括3大分类。1. 算子下推。2. 算子组合。3. 常量折叠与长度消减。
算子下推：谓词下推，列裁剪。
算子组合：

优化规则	优化操作
PushProjectionThroughUnion	列裁剪下推
ReorderJoin	Join 顺序优化，和 CostBasedJoinReorder 没有关系
EliminateOuterJoin	消除 OuterJoin
PushPredicateThroughJoin	谓词下推到Join 算子
PushDownPredicate	谓词下推
LimitPushDown	Limit 算子下推
ColumnPruning	列剪裁
InferFiltersFromConstraints
CollapseRepartition	重分区组合
CollapseProject	投影算子组合
CollapseWindow	Window 组合
CombineFilters	投影算子组合
CombineLimits	Limit算子组合
CombineUnions	Union算子组合
NullPropagation	Null 提取
FoldablePropagation	可折叠算子提取
OptimizeIn	In 操作优化
ConstantFolding	常数折叠
ReorderAssociativeOperator	重排序关联算子优化
LikeSimplification	Like 算子简化
BooleanSimplification	Boolean 算子简化
SimplifyConditionals	条件简化
RemoveDispensableExpressions	Dispensable 表达式消除
SimplifyBianryComparison	比较算子简化
PruneFilter	过滤条件剪裁
EliminateSorts	排序算子消除
SimplifyCasts	Cast 算子简化
SimplifyCaseConversionExpressions	Case 表达式简化
RewriteCorrelatedScalarSubquery	依赖子查询重写
EliminateSerialization	序列化消除
RemoveAliasOnlyPorject	消除别名

InferFiltersFromConstraints

explain extended 
select t1.c1 from t1 join t2 
on t1.c1=t2.c1 
where t2.c1='done';

通过 t2.c1 = t1.c1 并且t2.c1=‘done’ 推测出 t1.c1=‘done’.

== Analyzed Logical Plan ==
c1: string
Project [c1#235]
+- Filter (c1#236 = done)
   +- Join Inner, (c1#235 = c1#236)
      :- SubqueryAlias spark_catalog.hzz.t1
      :  +- HiveTableRelation [`hzz`.`t1`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, Data Cols: [c1#235], Partition Cols: []]
      +- SubqueryAlias spark_catalog.hzz.t2
         +- HiveTableRelation [`hzz`.`t2`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, Data Cols: [c1#236], Partition Cols: []]

== Optimized Logical Plan ==
Project [c1#235]
+- Join Inner, (c1#235 = c1#236)
   :- Filter ((c1#235 = done) AND isnotnull(c1#235))
   :  +- HiveTableRelation [`hzz`.`t1`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, Data Cols: [c1#235], Partition Cols: []]
   +- Filter (isnotnull(c1#236) AND (c1#236 = done))
      +- HiveTableRelation [`hzz`.`t2`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, Data Cols: [c1#236], Partition Cols: []]

ConstantFolding

在Analyzed Logical Plan中 Filter 中还是 (1 + (2 * 3)，在 Optimized Logical Plan 变为了具体的值 7.

explain extended 
select  c1 from t1 where length(c1)> 1+2*3;

== Analyzed Logical Plan ==
c1: string
Project [c1#266]
+- Filter (length(c1#266) > (1 + (2 * 3)))
   +- SubqueryAlias spark_catalog.hzz.t1
      +- HiveTableRelation [`hzz`.`t1`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, Data Cols: [c1#266], Partition Cols: []]

== Optimized Logical Plan ==
Filter (isnotnull(c1#266) AND (length(c1#266) > 7))
+- HiveTableRelation [`hzz`.`t1`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, Data Cols: [c1#266], Partition Cols: []]

RemoveDispensableExpressions

如以下SQL 1 < 2 可以消除。

explain extended 
select  c1 from t1 where 1 < 2 and length(c1) = 4;

== Analyzed Logical Plan ==
c1: string
Project [c1#272]
+- Filter ((1 < 2) AND (length(c1#272) = 4))
   +- SubqueryAlias spark_catalog.hzz.t1
      +- HiveTableRelation [`hzz`.`t1`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, Data Cols: [c1#272], Partition Cols: []]

== Optimized Logical Plan ==
Filter (isnotnull(c1#272) AND (length(c1#272) = 4))
+- HiveTableRelation [`hzz`.`t1`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, Data Cols: [c1#272], Partition Cols: []]

7. Batch Check Cartesian Products

CheckCartesianProducts 判断逻辑算子树是否存在迪卡尔类型的 Join 操作。当存在这样的操作，而SQL中没有显示的使用 cross join 表达式，则会抛出异常。当spark.sql.crossJoin.enabled为true时，该规则会被忽略。

8. Batch Decimal Optimizations =>DecimalAggregates

一般情况下，如果聚和查询中涉及浮点数的精度处理，性能就会受到很大的影响。对于固定精度的 Decinal 类型，DecimalAggregates 规则将其当做 unscaledLong 类型来执行，这样可以加速聚和操作的速度。

9. BatchTyped Filter Optimization => CombineTypedFilters

当逻辑算子树中存在两个 TypedFilter 过滤条件且针对同类型的对象条件时，CombineTypeFilters 优化规则会将他们合并到同一个过滤函数中。

10. Batch LocalRelation

ConvertToLocalRelation 将一个 LocalRelation 上的本地操作转化为另一个 LocalRelation
如 VALUES ('v1', 'v12'), ('v2', 'v22'), ('v3', 'v32') AS tab(c1, c2) 就是一个local relation。

explain extended 
 SELECT c1 FROM VALUES 
 ('v1', 'v12'), ('v2', 'v22'), ('v3', 'v32') 
 AS tab(c1, c2) where c1='v1';

输出结果, Parsed Logical Plan 中转化为 UnresolvedInlineTable。在Analyzed Logical Plan 中 UnresolvedInlineTable 转化为 LocalRelation。Optimized Logical Plan 变成仅有一个 LocalRelation，把 LocalRelation 和其上的操作转化为一个新的 LocalRelation。

== Parsed Logical Plan ==
'Project ['c1]
+- 'Filter ('c1 = v1)
   +- 'SubqueryAlias tab
      +- 'UnresolvedInlineTable [c1, c2], [[v1, v12], [v2, v22], [v3, v32]]

== Analyzed Logical Plan ==
c1: string
Project [c1#323]
+- Filter (c1#323 = v1)
   +- SubqueryAlias tab
      +- LocalRelation [c1#323, c2#324]

== Optimized Logical Plan ==
LocalRelation [c1#323]

PropageEmptyRelation 对空的 LocalRelation 进行折叠。

 explain extended 
  select t1.c1 from (
    SELECT c1 FROM VALUES 
    ('v1', 'v12'), ('v2', 'v22'), ('v3', 'v32') AS tab(c1, c2) 
    where c1='v4'
   )t1 join (
    SELECT c1 FROM 
    VALUES ('v1', 'v12'), ('v2', 'v22'), ('v3', 'v32') AS tab(c1, c2) where c1='v4' 
  )t2 where t1.c1=t2.c1;

结果如下, Analyzed Logical Plan 还有两个子查询做 join 操作。
到了 Optimized Logical Plan 中，仅有一个LocalRelation ，标记 LocalRelation 是空的。因为两个子查询经过优化后都是 LocalRelation ，join 后也是 LocalRelation 。

== Analyzed Logical Plan ==
c1: string
Project [c1#337]
+- Filter (c1#337 = c1#339)
   +- Join Inner
      :- SubqueryAlias t1
      :  +- Project [c1#337]
      :     +- Filter (c1#337 = v4)
      :        +- SubqueryAlias tab
      :           +- LocalRelation [c1#337, c2#338]
      +- SubqueryAlias t2
         +- Project [c1#339]
            +- Filter (c1#339 = v4)
               +- SubqueryAlias tab
                  +- LocalRelation [c1#339, c2#340]

== Optimized Logical Plan ==
LocalRelation <empty>, [c1#337]

== Physical Plan ==
LocalTableScan <empty>, [c1#337]

11. Batch OptimizeCodegen => OptimizeCodegen

现在 Optimize 里已经没有 OptimizeCodegen 规则。

12. Batch RewriteSubquery

包含 RewritePredicateSubquery 和 CollapseProject 两条优化规则。

掌握大数据领域数据湖的部署要点
掌握大数据领域数据湖的部署要点关键词：数据湖,大数据部署,数据治理,存储架构,元数据管理,数据质量,湖仓一体摘要：在数据爆炸的时代，企业面临着"数据多却用不好"的困境——结构化数据藏在数据库里，非结构化数据堆在服务器上，半结构化数据散落在日志文件中。数据湖就像一个"智能中央仓库"，能统一存储所有类型的数据，并通过灵活的管理让数据"活起来"。本文将用"图书馆管理员建仓库"的故事，从概念理解、架构设计
spring中@Transactional注解和事务的实战理解附代码 GJCTYU spring oracle 数据库 spring boot mybatis 后端
文章目录前言一、事务是什么？二、事务的特性2.1隔离性2.2事务的隔离级别三、@Transactional注解@Transactional注解简介基本用法常用属性配置事务传播行为事务隔离级别异常处理与回滚性能优化建议四、事务不生效的可能原因方法访问权限非public自调用问题异常被捕获未抛出数据库引擎不支持事务未启用事务管理特殊场景：final/static方法五、分布式事务考虑总结前言在开发过程
Kafka 小熊哥^--^ kafka 分布式
一、什么是Kafka？Kafka的主要用途？Kafka是一个分布式流处理平台，是Apache的一个顶级项目，它被设计用于高吞吐量，分布式、持久性的数据流处理。Kafka实现了一套非常高效的一种发布订阅模型，应用场景非常广泛，比如日志聚合（收集日志）、数据流处理、数据仓库集成（传输数据到数据仓库）、应用程序集成（作为消息中间件来实现异步通信）、流媒体处理（列如实时监控，事件驱动的应用程序）二、top
Git通讲-第二章（4）：分布式版本控制焦糖酒 Git通讲 git 分布式
前言也是到第二章的第四篇了，这篇我希望能结合前面讲到的快照模型、不可变数据对象、分支模型的知识，来探讨Git是如何实现分布式这件事情的，或许会捎带嘴的提一下Github之类远程托管仓库平台的兴起。Git分布式版本控制的实现Git的分布式版本控制系统与传统的集中式版本控制（如SVN）相比，有几个关键的不同点。Git的架构使得每个开发者的本地仓库不仅仅是一个工作副本，而是一个完整的仓库，包含了项目的所
202505架构师论文《论静态负载均衡策略设计和应用》文琪小站系统架构师软考论文负载均衡运维软考论文
软件架构师论文范文系列摘要在当今高度依赖信息技术的时代，构建高性能、高可用的分布式系统已成为必然趋势。负载均衡作为分布式系统中的关键技术，旨在将请求或数据有效地分发到多个处理单元，以优化资源利用率、提升系统吞吐量并确保服务的稳定运行。本文深入探讨了静态负载均衡策略的设计原理、技术特点及其在实际项目中的应用。首先，概述了负载均衡的整体概念及静态策略的分类，重点介绍了基于哈希、轮询和权重等静态算法的实
Python Scrapy的爬虫中间件开发 AI天才研究院 python scrapy 爬虫 ai
PythonScrapy爬虫中间件开发：从原理到实战的深度解析关键词Scrapy中间件、爬虫扩展、请求响应处理、反爬绕过、中间件生命周期、钩子函数、分布式爬取摘要本文系统解析Scrapy爬虫中间件（SpiderMiddleware）的开发方法论，覆盖从基础概念到高级实践的全链路知识。通过第一性原理推导中间件的核心机制，结合层次化架构分析（理论→设计→实现→应用），提供生产级代码示例与可视化流程模型
（阳：算法霸权 / 阴：数据确权）→当GDPR类法规覆盖53%经济体量时，催生出隐私计算新范式百态老人人工智能机器学习深度学习算法
当GDPR类法规覆盖53%经济体量时，隐私计算新范式的兴起可归因于以下多维度因素的相互作用：一、算法霸权与数据确权的矛盾激化算法霸权的危害大型科技公司通过算法歧视、大数据杀熟等手段形成垄断优势，利用数据优势操控用户行为，导致消费者权益受损。这种"算法黑箱"不仅加剧市场不公平，还阻碍数据要素的自由流动。例如，算法框架的底层逻辑掌握在少数企业手中，产生"数据黑箱"问题。数据确权的立法需求数据权属不明确
ElasticSearch中的分片是什么? java1234_小锋 java elasticsearch 大数据搜索引擎
大家好，我是锋哥。今天分享关于【ElasticSearch中的分片是什么?】面试题。希望对大家有帮助；ElasticSearch中的分片是什么?超硬核AI学习资料，现在永久免费了！在Elasticsearch中，分片（Shard）是将数据拆分成更小的部分，允许在分布式环境中并行处理和存储数据的机制。它是Elasticsearch在水平扩展时用于管理大量数据的关键概念。主要概念：主分片（Primar
FeignClient客户端调用入门超龄超能程序猿 java spring
在分布式微服务架构广泛应用的技术背景下，服务间通信机制的设计与实现已成为系统开发的核心环节。Feign作为一种基于声明式编程范式的HTTP客户端框架，通过标准化的接口定义与注解配置，显著降低了Web服务调用的开发复杂度，有效提升了微服务间的交互效率。在SpringCloud技术栈体系中，Feign客户端功能的实现主要依托于@FeignClient注解，该注解通过整合Spring框架的依赖注入与动态
解析大数据领域结构化数据的管理模式大数据洞察大数据 ai
解码结构化数据：大数据时代的高效管理模式与实践指南关键词结构化数据、大数据管理、数据建模、分布式数据库、数据仓库、数据治理、性能优化摘要在大数据的洪流中，结构化数据犹如隐藏在波涛之下的磐石，虽然不如非结构化数据那般引人注目，却是企业决策的基石。本文深入剖析了大数据环境下结构化数据的管理模式，从传统关系型数据库到现代分布式系统，从数据建模到存储架构，全面解读了结构化数据管理的核心技术与实践方法。通过
ClickHouse【理论篇】01：什么是ClickHouse
ClickHouse是一款开源的列式数据库管理系统（Column-OrientedDBMS），专为高性能实时数据分析（OLAP,OnlineAnalyticalProcessing）场景设计。它由俄罗斯搜索引擎公司Yandex开发（2016年开源），目前由独立基金会ClickHouse,Inc.维护，广泛应用于大数据分析、日志处理、用户行为洞察等领域。一、核心定位：OLAP场景的“性能标杆”传统关
ClickHouse【理论篇】02：ClickHouse架构和组件做一个有趣的人Zz ClickHouse clickhouse 架构
ClickHouse的架构设计深度适配OLAP（在线分析处理）场景，通过列式存储、向量化执行、分布式分片与副本等核心技术，实现了对海量数据的高效分析与实时查询。以下从核心存储引擎、查询处理流程、分布式架构、元数据管理、复制与分片等维度详细解析其内部架构与关键组件。一、核心存储引擎：MergeTree系列ClickHouse的存储引擎是其性能的核心，其中MergeTree系列引擎（如MergeTre
Kafka消费者分区分配机制与生产环境配置指南
引言在分布式系统中，Kafka作为高性能消息队列被广泛应用。本文将深入探讨Kafka消费者的分区分配机制，分析不同分配策略的优劣，并提供生产环境中的最佳配置实践。我们还将详细解析消费者常见问题的排查方法，特别是消费者未分配到分区的情况。一、Kafka消费者分区分配机制1.1基础分配原则Kafka通过消费者组（ConsumerGroup）机制实现消息的并行处理。核心规则包括：消费者组隔离：不同消费者
【大数据入门核心技术-DolphinScheduler】（二）DolphinScheduler安装部署-集群模式 forest_long 大数据技术入门到21天通关大数据 spark hive hadoop 交互 flink mapreduce
目录一、部署模式1、单机模式2、伪集群模式3、集群模式二、部署安装1、下载2、创建mysql元数据库3、配置一键部署脚本4、初始化数据库5、一键部署DolphinScheduler6、访问DolphinSchedulerUI三、启停命令一、部署模式DolphinScheduler支持多种部署模式，包括单机模式（Standalone）、伪集群模式（PseudoCluster）、集群模式（Cluste
利用已有的 PostgreSQL 和 ZooKeeper 服务，启动dolphinscheduler-standalone-server3.1.9 镜像云游大数据平台 zookeeper docker postgresql 工作流任务调度
ApacheDolphinScheduler是一个分布式易扩展的可视化DAG工作流任务调度开源系统。适用于企业级场景，提供了一个可视化操作任务、工作流和全生命周期数据处理过程的解决方案。ApacheDolphinScheduler旨在解决复杂的大数据任务依赖关系，并为应用程序提供数据和各种OPS编排中的关系。解决数据研发ETL依赖错综复杂，无法监控任务健康状态的问题。DolphinSchedule
Alpha系统联结大数据、GPT两大功能，助力律所管理降本增效资讯分享周大数据 gpt
如何通过AI工具实现法律服务的提质增效,是每一位法律人都积极关注和学习的课题。但从AI技术火爆一下,法律人一直缺乏系统、实用的学习资料,来掌握在法律场景下AI的使用技巧。今年5月,iCourt携手贵阳律协大数据与人工智能专业委员会,联合举办了《人工智能助力律师行业高质量发展巡回讲座》,超过100家律所的律师参与活动。讲座上,iCourtAIGC研究员、AlphaGPT产品研发负责人兰洋,为贵州律协
电商API性能优化：策略体系与实施要点 Joe13265449558 性能优化电商返回值淘宝 API 接口京东
电商API性能优化策略介绍在电商领域，API（应用程序编程接口）作为连接电商平台与外部系统、服务或应用的关键桥梁，其性能直接关系到用户体验、业务效率以及系统的整体稳定性。随着电商业务的快速发展，API接口面临着高并发、大数据量处理等挑战，因此，对电商API进行性能优化显得尤为重要。本文将从多个维度探讨电商API性能优化的策略。一、数据库优化策略数据库是电商API接口的核心组件之一，其性能直接影响A
《Spring 中上下文传递的那些事儿》Part 5：分布式链路追踪——SkyWalking 实战指南大手你不懂 Spring 中上下文传递的那些事儿 Java项目实战 spring 分布式 skywalking
Part5：分布式链路追踪——SkyWalking实战指南随着微服务架构的广泛应用，分布式系统的链路追踪和性能监控变得尤为重要。在之前的文章中，我们探讨了如何使用Sleuth和Zipkin实现基本的链路追踪。今天，我们将介绍另一种强大的工具——ApacheSkyWalking，它不仅提供了全面的链路追踪功能，还支持JVM、数据库、消息队列等多方面的监控。本文将带你了解SkyWalking的核心概念
5G与边缘计算融合架构：核心能力下沉与网络切片技术解析码农老gou 5G 5G 边缘计算架构
15G核心能力下沉的技术逻辑在数字化转型浪潮中，网络架构正经历从中心化向分布式模式的根本性变革。5G网络与边缘计算的深度融合正在重构下一代智能连接架构，其核心在于将传统的中心化网络能力下沉至边缘节点，形成分布式算力网络。这种架构转型源于对超低时延、高带宽和海量连接的业务需求，驱动网络基础设施向用户侧靠拢，实现计算与通信的无缝融合。1.1分布式架构转型需求5G三大核心能力——增强移动宽带（eMBB）
阿里P7面试实录：靠这份“收割机指南”，他当场拿下60k+ offer！
“上周面了个前阿里P7，Java八股文和分布式架构原理背得炉火纯青，秒杀系统设计讲得比我们架构组还细！”一位蚂蚁金服面试官在技术群感慨道。细问才知，这位求职者刚用一份阿里内部流出的《后端offer收割机养成指南》突击了2周，直接通过6轮面试斩下60k+offer。2025年Java后端面试的3大新趋势（附高频考点）据近期阿里、字节、美团等大厂面试反馈，技术考察正发生显著变化：八股文升级场景化基础题
ECharts 智慧医疗大屏制作实例详解
在大数据时代，数据可视化已成为信息传递和决策支持的重要手段。ECharts作为一款功能强大、易于上手的开源可视化库，凭借其丰富的图表类型、灵活的配置项和良好的跨平台兼容性，广泛应用于企业级数据大屏、BI报表、实时监控等场景。本教程以“智慧医疗大屏”为例，完整演示了从页面搭建、图表配置到动态交互与响应式适配的全过程。通过循序渐进的讲解，读者将掌握如何使用ECharts构建专业、美观、可交互的数据可视
分布式数据库设计——分布式数据库的基础概念庄小焱数据库域数据库
摘要分布式数据库设计系列将分为四个大的部分。将从以下四方面让大家对分布式数据库的设计和使用有深入的理解。模块一，分布式数据历史演变及其核心原理。从历史背景出发，讲解了分布式数据库要解决的问题、应用场景，以及核心技术特点。模块二，分布式数据库的高性能保证——存储引擎。这是专栏的亮点内容，简要展示了现代数据库的存储引擎，比如典型存储引擎、分布式索引、数据文件与日志结构存储、事务处理。其中，我会特别介绍
【分布式数据库】
分布式数据库是一种数据存储系统，它的设计使得数据库可以存储在多个物理位置（服务器、节点）上，同时对用户呈现为一个统一的数据库。分布式数据库的核心思想是将数据分布在多个地点进行存储和处理，这些地点可以是同一数据中心内的不同服务器，也可以是地理上分散的多个数据中心。分布式数据库的目标是在保证数据一致性、可用性和性能的前提下，提供一个灵活、可扩展且高效的数据存储解决方案。它结合了数据库系统和分布式系统的
多探头分布式雷达测流系统解决方案概述
一、雷达测流的方案背景近年来，雷达测流作为一种新的测量方式，正在不断被引进和使用，其旨在解决传统测量方式无法解决的问题或难题。传统的测量方式，如直接接触式测流，受到多种因素的影响，如水中含沙量、漂浮物、气候等，导致测量结果不准确。而雷达测流设备则以非接触方法测量水体表面流速，不受水中含沙量、漂浮物、气候等因素影响，适用于一般河流、污水流速等测量。此外，雷达测流设备还特别适用于夹带污物的排水、高洪和
【1.5 漫画TiDB分布式数据库】
漫画TiDB分布式数据库‍小明：“老王，TiDB作为NewSQL数据库，它是如何既保证ACID又实现水平扩展的？”‍♂️架构师老王：“TiDB是PingCAP开发的分布式关系数据库，它将传统数据库的ACID特性与NoSQL的扩展性完美结合！让我们深入了解这个’钛’级数据库！”目录TiDB核心架构分布式事务原理SQL兼容性集群部署管理性能优化Java集成实战最佳实践️TiDB核心架构三层架构设计┌─
鸿蒙应用多租户为操作系统领域的创新提供动力操作系统内核探秘 harmonyos 华为 ai
鸿蒙应用多租户为操作系统领域的创新提供动力关键词：鸿蒙操作系统、多租户架构、操作系统创新、资源隔离、安全沙箱、分布式能力、应用生态摘要：本文深入探讨鸿蒙操作系统(HarmonyOS)中多租户架构的创新设计与实现原理。我们将从操作系统基础概念出发，逐步解析多租户如何为鸿蒙带来独特的竞争优势，包括资源隔离机制、安全沙箱技术、分布式能力支持等核心特性。通过实际代码示例和架构图解，展示鸿蒙如何通过多租户设
探索AI人工智能领域多智能体系统的技术原理 AI大模型应用之禅人工智能网络 ai
探索AI人工智能领域多智能体系统的技术原理关键词：AI人工智能、多智能体系统、技术原理、智能体交互、分布式计算摘要：本文深入探索了AI人工智能领域多智能体系统的技术原理。首先介绍了多智能体系统的背景，包括其目的、预期读者、文档结构和相关术语。接着阐述了多智能体系统的核心概念与联系，通过文本示意图和Mermaid流程图进行清晰展示。详细讲解了核心算法原理，结合Python源代码进行说明，并给出了相关
在 Redis 分布式锁场景中，锁超时但业务逻辑未完成解决方案程序媛青青 redis 分布式数据库
在Redis分布式锁场景中，锁超时但业务逻辑未完成是一个典型问题，通常称为锁过期与业务执行时间不匹配。以下是几种解决方案：方案一：自续期（看门狗机制）在获取锁的同时启动一个后台线程，定期检查业务是否仍在执行，若未执行完则自动延长锁的过期时间。示例代码（使用Redisson框架）：importorg.redisson.Redisson;importorg.redisson.api.RLock;imp
大数据 ETL 工具 Sqoop 深度解析与实战指南
一、Sqoop核心理论与应用场景1.1设计思想与技术定位Sqoop是Apache旗下的开源数据传输工具，核心设计基于MapReduce分布式计算框架，通过并行化的Map任务实现高效的数据批量迁移。其特点包括：批处理特性：基于MapReduce作业实现导入/导出，适合大规模离线数据迁移，不支持实时数据同步。异构数据源连接：支持关系型数据库（如MySQL、Oracle）与Hadoop生态（HDFS、H
meilisearch-轻量级搜索引擎 Leon.ENV 大数据搜索引擎
meilisearch是一款开源的轻量级搜索引擎，相比于elasticsearch等重量级搜索引擎，meilisearch注重数据搜索，从而而省去了其它不必要的功能（如支持聚合分析、分布式搜索等特性），以便于快速上手开发和构建应用。meilisearch有以下优点1）非常轻量级，只需500MB内存就可以运行2）支持多种接入方式：http、多种语言SDK3）无其它依赖环境，下载启动即可使用4）非常适
web前段跨域nginx代理配置刘正强 nginx cms Web
nginx代理配置可参考server部分 server { listen 80; server_name localhost;
spring学习笔记 caoyong spring
一、概述 a>、核心技术 : IOC与AOP b>、开发为什么需要面向接口而不是实现接口降低一个组件与整个系统的藕合程度，当该组件不满足系统需求时，可以很容易的将该组件从系统中替换掉，而不会对整个系统产生大的影响 c>、面向接口编口编程的难点在于如何对接口进行初始化,(使用工厂设计模式)
Eclipse打开workspace提示工作空间不可用 0624chenhong eclipse
做项目的时候，难免会用到整个团队的代码，或者上一任同事创建的workspace， 1.电脑切换账号后，Eclipse打开时，会提示Eclipse对应的目录锁定，无法访问，根据提示，找到对应目录，G:\eclipse\configuration\org.eclipse.osgi\.manager，其中文件.fileTableLock提示被锁定。解决办法，删掉.fileTableLock文件，重
Javascript 面向对面写法的必要性？一炮送你回车库 JavaScript
现在Javascript面向对象的方式来写页面很流行，什么纯javascript的mvc框架都出来了：ember 这是javascript层的mvc框架哦,不是j2ee的mvc框架我想说的是，javascript本来就不是一门面向对象的语言，用它写出来的面向对象的程序，本身就有些别扭，很多人提到js的面向对象首先提的是：复用性。那么我请问你写的js里有多少是可以复用的，用fu
js array对象的迭代方法换个号韩国红果果 array
1.forEach 该方法接受一个函数作为参数，对数组中的每个元素使用该函数 return 语句失效 function square(num) { print(num, num * num); } var nums = [1,2,3,4,5,6,7,8,9,10]; nums.forEach(square); 2.every 该方法接受一个返回值为布尔类型
对Hibernate缓存机制的理解归来朝歌 session 一级缓存对象持久化
在hibernate中session一级缓存机制中，有这么一种情况：问题描述：我需要new一个对象，对它的几个字段赋值，但是有一些属性并没有进行赋值，然后调用 session.save()方法，在提交事务后，会出现这样的情况： 1：在数据库中有默认属性的字段的值为空 2：既然是持久化对象，为什么在最后对象拿不到默认属性的值？通过调试后解决方案如下：对于问题一，如你在数据库里设置了
WebService调用错误合集 darkranger webservice
Java.Lang.NoClassDefFoundError: Org/Apache/Commons/Discovery/Tools/DiscoverSingleton 调用接口出错，一个简单的WebService import org.apache.axis.client.Call;import org.apache.axis.client.Service; 首先必不可
JSP和Servlet的中文乱码处理 aijuans Java Web
JSP和Servlet的中文乱码处理前几天学习了JSP和Servlet中有关中文乱码的一些问题，写成了博客，今天进行更新一下。应该是可以解决日常的乱码问题了。现在作以下总结希望对需要的人有所帮助。我也是刚学，所以有不足之处希望谅解。一、表单提交时出现乱码：在进行表单提交的时候，经常提交一些中文，自然就避免不了出现中文乱码的情况，对于表单来说有两种提交方式：get和post提交方式。所以
面试经典六问 atongyeye 工作面试
题记：因为我不善沟通，所以在面试中经常碰壁，看了网上太多面试宝典，基本上不太靠谱。只好自己总结，并试着根据最近工作情况完成个人答案。以备不时之需。以下是人事了解应聘者情况的最典型的六个问题： 1 简单自我介绍关于这个问题，主要为了弄清两件事，一是了解应聘者的背景，二是应聘者将这些背景信息组织成合适语言的能力。我的回答：(针对技术面试回答，如果是人事面试，可以就掌
contentResolver.query()参数详解百合不是茶 android query()详解
收藏csdn的博客,介绍的比较详细,新手值得一看 1.获取联系人姓名一个简单的例子，这个函数获取设备上所有的联系人ID和联系人NAME。 [java] view plain copy public void fetchAllContacts() {
ora-00054:resource busy and acquire with nowait specified解决方法 bijian1013 oracle 数据库 kill nowait
当某个数据库用户在数据库中插入、更新、删除一个表的数据，或者增加一个表的主键时或者表的索引时，常常会出现ora-00054:resource busy and acquire with nowait specified这样的错误。主要是因为有事务正在执行（或者事务已经被锁），所有导致执行不成功。 1.下面的语句
web 开发乱码征客丶 spring Web
以下前端都是 utf-8 字符集编码一、后台接收 1.1、 get 请求乱码 get 请求中，请求参数在请求头中；乱码解决方法： a、通过在web 服务器中配置编码格式：tomcat 中，在 Connector 中添加URIEncoding="UTF-8"； 1.2、post 请求乱码 post 请求中，请求参数分两部份， 1.2.1、url？参数，
【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式 bit1129 spark
Spark SQL数据源和表的Schema case class apply schema parquet json JSON数据源准备源数据 {"name":"Jack", "age": 12, "addr":{"city":"beijing&
JVM学习之:调优总结 -Xms -Xmx -Xmn -Xss BlueSkator -Xss -Xmn -Xms -Xmx
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx355
jqGrid 各种参数详解(转帖) BreakingBad jqGrid
jqGrid 各种参数详解分类：源代码分享个人随笔请勿参考解决开发问题 2012-05-09 20:29 84282人阅读评论(22) 收藏举报 jquery 服务器 parameters function ajax string
读《研磨设计模式》-代码笔记-代理模式-Proxy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.lang.reflect.InvocationHandler; import java.lang.reflect.Method; import java.lang.reflect.Proxy; /* * 下面
应用升级iOS8中遇到的一些问题 chenhbc ios8 升级iOS8
1、很奇怪的问题，登录界面，有一个判断，如果不存在某个值，则跳转到设置界面，ios8之前的系统都可以正常跳转，iOS8中代码已经执行到下一个界面了，但界面并没有跳转过去，而且这个值如果设置过的话，也是可以正常跳转过去的，这个问题纠结了两天多，之前的判断我是在 -(void)viewWillAppear:(BOOL)animated 中写的，最终的解决办法是把判断写在 -(void
工作流与自组织的关系？ comsci 设计模式工作
目前的工作流系统中的节点及其相互之间的连接是事先根据管理的实际需要而绘制好的，这种固定的模式在实际的运用中会受到很多限制，特别是节点之间的依存关系是固定的，节点的处理不考虑到流程整体的运行情况，细节和整体间的关系是脱节的，那么我们提出一个新的观点，一个流程是否可以通过节点的自组织运动来自动生成呢？这种流程有什么实际意义呢？这里有篇论文，摘要是：“针对网格中的服务
Oracle11.2新特性之INSERT提示IGNORE_ROW_ON_DUPKEY_INDEX daizj oracle
insert提示IGNORE_ROW_ON_DUPKEY_INDEX 转自：http://space.itpub.net/18922393/viewspace-752123 在 insert into tablea ...select * from tableb中，如果存在唯一约束，会导致整个insert操作失败。使用IGNORE_ROW_ON_DUPKEY_INDEX提示，会忽略唯一
二叉树:堆 dieslrae 二叉树
这里说的堆其实是一个完全二叉树,每个节点都不小于自己的子节点,不要跟jvm的堆搞混了.由于是完全二叉树,可以用数组来构建.用数组构建树的规则很简单: 一个节点的父节点下标为: (当前下标 - 1)/2 一个节点的左节点下标为: 当前下标 * 2 + 1 &
C语言学习八结构体 dcj3sjt126com c
为什么需要结构体，看代码 # include <stdio.h> struct Student //定义一个学生类型，里面有age, score, sex, 然后可以定义这个类型的变量 { int age; float score; char sex; } int main(void) { struct Student st = {80, 66.6,
centos安装golang dcj3sjt126com centos
#在国内镜像下载二进制包 wget -c http://www.golangtc.com/static/go/go1.4.1.linux-amd64.tar.gz tar -C /usr/local -xzf go1.4.1.linux-amd64.tar.gz #把golang的bin目录加入全局环境变量 cat >>/etc/profile<
10.性能优化-监控-MySQL慢查询 frank1234 性能优化 MySQL慢查询
1.记录慢查询配置 show variables where variable_name like 'slow%' ; --查看默认日志路径查询结果：--不用的机器可能不同 slow_query_log_file=/var/lib/mysql/centos-slow.log 修改mysqld配置文件：/usr /my.cnf[一般在/etc/my.cnf，本机在/user/my.cn
Java父类取得子类类名 happyqing java this 父类子类类名
在继承关系中，不管父类还是子类，这些类里面的this都代表了最终new出来的那个类的实例对象，所以在父类中你可以用this获取到子类的信息！ package com.urthinker.module.test; import org.junit.Test; abstract class BaseDao<T> { public void
Spring3.2新注解@ControllerAdvice jinnianshilongnian @Controller
@ControllerAdvice，是spring3.2提供的新注解，从名字上可以看出大体意思是控制器增强。让我们先看看@ControllerAdvice的实现： @Target(ElementType.TYPE) @Retention(RetentionPolicy.RUNTIME) @Documented @Component public @interface Co
Java spring mvc多数据源配置 liuxihope spring
转自：http://www.itpub.net/thread-1906608-1-1.html 1、首先配置两个数据库 <bean id="dataSourceA" class="org.apache.commons.dbcp.BasicDataSource" destroy-method="close&quo
第12章 Ajax（下） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BW / Universe Mappings blueoxygen BO
BW Element OLAP Universe Element Cube Dimension Class Charateristic A class with dimension and detail objects (Detail objects for key and desription) Hi
Java开发熟手该当心的11个错误 tomcat_oracle java 多线程工作单元测试
#1、不在属性文件或XML文件中外化配置属性。比如，没有把批处理使用的线程数设置成可在属性文件中配置。你的批处理程序无论在DEV环境中，还是UAT（用户验收测试）环境中，都可以顺畅无阻地运行，但是一旦部署在PROD 上，把它作为多线程程序处理更大的数据集时，就会抛出IOException，原因可能是JDBC驱动版本不同，也可能是#2中讨论的问题。如果线程数目可以在属性文件中配置，那么使它成为
推行国产操作系统的优劣 yananay windows linux 国产操作系统
最近刮起了一股风，就是去“国外货”。从应用程序开始，到基础的系统，数据库，现在已经刮到操作系统了。原因就是“棱镜计划”，使我们终于认识到了国外货的危害，开始重视起了信息安全。操作系统是计算机的灵魂。既然是灵魂，为了信息安全，那我们就自然要使用和推行国货。可是，一味地推行，是否就一定正确呢？先说说信息安全。其实从很早以来大家就在讨论信息安全。很多年以前，就据传某世界级的网络设备制造商生产的交

Spark Optimizer 规则详解和示例

1. Batch Finish Analysis

1.1 EliminateSubqueryAliases

1.2 ReplaceExpressions

1.2.1 RuntimeReplaceable

1.2.2 bool_or

1.2.3 bool_and

1.3 ComputeCurrentTime

2. BatchUnion

3. Batch Subquery

3.1 OptimizeSubqueries

4. Batch Replace Operators

4.1 ReplaceIntersectWithSemiJoin

4.2 ReplaceExceptWithAntiJoin

4.3 RelaceDistinctWithAggregate

5. Batch Aggregate

5.1 RemoveLiteralFromGroupExceptions

5.2 RemoteRepetitionFromGroupExpressions

6. Batch Operator Optimizations

InferFiltersFromConstraints

ConstantFolding

RemoveDispensableExpressions

7. Batch Check Cartesian Products

8. Batch Decimal Optimizations =>DecimalAggregates

9. BatchTyped Filter Optimization => CombineTypedFilters

10. Batch LocalRelation

11. Batch OptimizeCodegen => OptimizeCodegen

12. Batch RewriteSubquery

你可能感兴趣的:(spark,spark,大数据,分布式)