zhixingheyi_tian

Spark 之 WholeStageCodegen

CodeGen framework

CodegenSupport(接口)
相邻Operator通过Produce-Consume模式生成代码。
Produce生成整体处理的框架代码，例如aggregation生成的代码框架如下:

if (!initialized) {
 # create a hash map, then build the aggregation hash map
 # call child.produce()
 initialized = true;
}
while (hashmap.hasNext()) {
 row = hashmap.next();
 # build the aggregation results
 # create variables for results
 # call consume(), which will call parent.doConsume()
 if (shouldStop()) return;
}

Consume生成当前节点处理上游输入的Row的逻辑。如Filter生成代码如下:

# code to evaluate the predicate expression, result is isNull1 and value2
if (!isNull1 && value2) {
 # call consume(), which will call parent.doConsume()
}

WholeStageCodegenExec(类)
CodegenSupport的实现类之一，Stage内部所有相邻的实现CodegenSupport接口的Operator的融合，产出的代码把所有被融合的Operator的执行逻辑封装到一个Wrapper类中，该Wrapper类作为Janino即时compile的入参。
InputAdapter(类)
CodegenSupport的实现类之一，胶水类，用来连接WholeStageCodegenExec节点和未实现CodegenSupport的上游节点。
BufferedRowIterator(接口)
WholeStageCodegenExec生成的java代码的父类，重要方法:

public InternalRow next() // 返回下一条Row
public void append(InternalRow row) // append一条Row

Simple call graph

/**
 * WholeStageCodegen compiles a subtree of plans that support codegen together into single Java
 * function.
 *
 * Here is the call graph of to generate Java source (plan A supports codegen, but plan B does not):
 *
 *   WholeStageCodegen       Plan A               FakeInput        Plan B
 * =========================================================================
 *
 * -> execute()
 *     |
 *  doExecute() --------->   inputRDDs() -------> inputRDDs() ------> execute()
 *     |
 *     +----------------->   produce()
 *                             |
 *                          doProduce()  -------> produce()
 *                                                   |
 *                                                doProduce()
 *                                                   |
 *                         doConsume() <--------- consume()
 *                             |
 *  doConsume()  <--------  consume()
 *
 * SparkPlan A should override `doProduce()` and `doConsume()`.
 *
 * `doCodeGen()` will create a `CodeGenContext`, which will hold a list of variables for input,
 * used to generated code for [[BoundReference]].
 */

Produce-Consume Pattern

doProduce() doConsume() 会被子类覆写
produce() consume() 均为 trait CodegenSupport extends SparkPlan 的 final 方法

insertInputAdapter

InputAdapter(类)

CodegenSupport的实现类之一，胶水类，用来连接WholeStageCodegenExec节点和未实现CodegenSupport的上游节点。

/**
   * Inserts an InputAdapter on top of those that do not support codegen.
   */
  private def insertInputAdapter(plan: SparkPlan): SparkPlan = {
    plan match {
      case p if !supportCodegen(p) =>
        // collapse them recursively
        InputAdapter(insertWholeStageCodegen(p))
      case j: SortMergeJoinExec =>
        // The children of SortMergeJoin should do codegen separately.
        j.withNewChildren(j.children.map(
          child => InputAdapter(insertWholeStageCodegen(child))))
      case j: ShuffledHashJoinExec =>
        // The children of ShuffledHashJoin should do codegen separately.
        j.withNewChildren(j.children.map(
          child => InputAdapter(insertWholeStageCodegen(child))))
      case p => p.withNewChildren(p.children.map(insertInputAdapter))
    }
  }

WholeStageCodegenExec 核心函数 doExecute

  override def doExecute(): RDD[InternalRow] = {
    val (ctx, cleanedSource) = doCodeGen()
    // try to compile and fallback if it failed
    val (_, compiledCodeStats) = try {
      CodeGenerator.compile(cleanedSource)
    } catch {
      case NonFatal(_) if !Utils.isTesting && sqlContext.conf.codegenFallback =>
        // We should already saw the error message
        logWarning(s"Whole-stage codegen disabled for plan (id=$codegenStageId):\n $treeString")
        return child.execute()
    }

    // Check if compiled code has a too large function
    if (compiledCodeStats.maxMethodCodeSize > sqlContext.conf.hugeMethodLimit) {
      logInfo(s"Found too long generated codes and JIT optimization might not work: " +
        s"the bytecode size (${compiledCodeStats.maxMethodCodeSize}) is above the limit " +
        s"${sqlContext.conf.hugeMethodLimit}, and the whole-stage codegen was disabled " +
        s"for this plan (id=$codegenStageId). To avoid this, you can raise the limit " +
        s"`${SQLConf.WHOLESTAGE_HUGE_METHOD_LIMIT.key}`:\n$treeString")
      return child.execute()
    }

    val references = ctx.references.toArray

    val durationMs = longMetric("pipelineTime")

    // Even though rdds is an RDD[InternalRow] it may actually be an RDD[ColumnarBatch] with
    // type erasure hiding that. This allows for the input to a code gen stage to be columnar,
    // but the output must be rows.
    val rdds = child.asInstanceOf[CodegenSupport].inputRDDs()
    assert(rdds.size <= 2, "Up to two input RDDs can be supported")
    if (rdds.length == 1) {
      rdds.head.mapPartitionsWithIndex { (index, iter) =>
        val (clazz, _) = CodeGenerator.compile(cleanedSource)
        val buffer = clazz.generate(references).asInstanceOf[BufferedRowIterator]
        buffer.init(index, Array(iter))
        new Iterator[InternalRow] {
          override def hasNext: Boolean = {
            val v = buffer.hasNext
            if (!v) durationMs += buffer.durationMs()
            v
          }
          override def next: InternalRow = buffer.next()
        }
      }
    } else {
      // Right now, we support up to two input RDDs.
      rdds.head.zipPartitions(rdds(1)) { (leftIter, rightIter) =>
        Iterator((leftIter, rightIter))
        // a small hack to obtain the correct partition index
      }.mapPartitionsWithIndex { (index, zippedIter) =>
        val (leftIter, rightIter) = zippedIter.next()
        val (clazz, _) = CodeGenerator.compile(cleanedSource)
        val buffer = clazz.generate(references).asInstanceOf[BufferedRowIterator]
        buffer.init(index, Array(leftIter, rightIter))
        new Iterator[InternalRow] {
          override def hasNext: Boolean = {
            val v = buffer.hasNext
            if (!v) durationMs += buffer.durationMs()
            v
          }
          override def next: InternalRow = buffer.next()
        }
      }
    }
  }

里面的关键点就在编译出来的代码转成了Iterator。

mapPartitionsWithIndex { (index, iter) =>
        val (clazz, _) = CodeGenerator.compile(cleanedSource)
        val buffer = clazz.generate(references).asInstanceOf[BufferedRowIterator]
        buffer.init(index, Array(iter))
        new Iterator[InternalRow] {
          override def hasNext: Boolean = {
            val v = buffer.hasNext
            if (!v) durationMs += buffer.durationMs()
            v
          }
          override def next: InternalRow = buffer.next()
        }
      }

UT

test("range/filter should be combined") {
    val df = spark.range(10).filter("id = 1").selectExpr("id + 1")
    val plan = df.queryExecution.executedPlan
    assert(plan.find(_.isInstanceOf[WholeStageCodegenExec]).isDefined)
    assert(df.collect() === Array(Row(2)))
    df.explain(false)
    df.queryExecution.debug.codegen
  }


11:32:34.837 WARN org.apache.hadoop.util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
== Physical Plan ==
*(1) Project [(id#0L + 1) AS (id + 1)#4L]
+- *(1) Filter (id#0L = 1)
   +- *(1) Range (0, 10, step=1, splits=2)


Found 1 WholeStageCodegen subtrees.
== Subtree 1 / 1 (maxMethodCodeSize:301; maxConstantPoolSize:177(0.27% used); numInnerClasses:0) ==
*(1) Project [(id#0L + 1) AS (id + 1)#4L]
+- *(1) Filter (id#0L = 1)
   +- *(1) Range (0, 10, step=1, splits=2)

Generated code:
/* 001 */ public Object generate(Object[] references) {
/* 002 */   return new GeneratedIteratorForCodegenStage1(references);
/* 003 */ }
/* 004 */
/* 005 */ // codegenStageId=1
/* 006 */ final class GeneratedIteratorForCodegenStage1 extends org.apache.spark.sql.execution.BufferedRowIterator {
/* 007 */   private Object[] references;
/* 008 */   private scala.collection.Iterator[] inputs;
/* 009 */   private boolean range_initRange_0;
/* 010 */   private long range_nextIndex_0;
/* 011 */   private TaskContext range_taskContext_0;
/* 012 */   private InputMetrics range_inputMetrics_0;
/* 013 */   private long range_batchEnd_0;
/* 014 */   private long range_numElementsTodo_0;
/* 015 */   private org.apache.spark.sql.catalyst.expressions.codegen.UnsafeRowWriter[] range_mutableStateArray_0 = new org.apache.spark.sql.catalyst.expressions.codegen.UnsafeRowWriter[3];
/* 016 */
/* 017 */   public GeneratedIteratorForCodegenStage1(Object[] references) {
/* 018 */     this.references = references;
/* 019 */   }
/* 020 */
/* 021 */   public void init(int index, scala.collection.Iterator[] inputs) {
/* 022 */     partitionIndex = index;
/* 023 */     this.inputs = inputs;
/* 024 */
/* 025 */     range_taskContext_0 = TaskContext.get();
/* 026 */     range_inputMetrics_0 = range_taskContext_0.taskMetrics().inputMetrics();
/* 027 */     range_mutableStateArray_0[0] = new org.apache.spark.sql.catalyst.expressions.codegen.UnsafeRowWriter(1, 0);
/* 028 */     range_mutableStateArray_0[1] = new org.apache.spark.sql.catalyst.expressions.codegen.UnsafeRowWriter(1, 0);
/* 029 */     range_mutableStateArray_0[2] = new org.apache.spark.sql.catalyst.expressions.codegen.UnsafeRowWriter(1, 0);
/* 030 */
/* 031 */   }
/* 032 */
/* 033 */   private void initRange(int idx) {
/* 034 */     java.math.BigInteger index = java.math.BigInteger.valueOf(idx);
/* 035 */     java.math.BigInteger numSlice = java.math.BigInteger.valueOf(2L);
/* 036 */     java.math.BigInteger numElement = java.math.BigInteger.valueOf(10L);
/* 037 */     java.math.BigInteger step = java.math.BigInteger.valueOf(1L);
/* 038 */     java.math.BigInteger start = java.math.BigInteger.valueOf(0L);
/* 039 */     long partitionEnd;
/* 040 */
/* 041 */     java.math.BigInteger st = index.multiply(numElement).divide(numSlice).multiply(step).add(start);
/* 042 */     if (st.compareTo(java.math.BigInteger.valueOf(Long.MAX_VALUE)) > 0) {
/* 043 */       range_nextIndex_0 = Long.MAX_VALUE;
/* 044 */     } else if (st.compareTo(java.math.BigInteger.valueOf(Long.MIN_VALUE)) < 0) {
/* 045 */       range_nextIndex_0 = Long.MIN_VALUE;
/* 046 */     } else {
/* 047 */       range_nextIndex_0 = st.longValue();
/* 048 */     }
/* 049 */     range_batchEnd_0 = range_nextIndex_0;
/* 050 */
/* 051 */     java.math.BigInteger end = index.add(java.math.BigInteger.ONE).multiply(numElement).divide(numSlice)
/* 052 */     .multiply(step).add(start);
/* 053 */     if (end.compareTo(java.math.BigInteger.valueOf(Long.MAX_VALUE)) > 0) {
/* 054 */       partitionEnd = Long.MAX_VALUE;
/* 055 */     } else if (end.compareTo(java.math.BigInteger.valueOf(Long.MIN_VALUE)) < 0) {
/* 056 */       partitionEnd = Long.MIN_VALUE;
/* 057 */     } else {
/* 058 */       partitionEnd = end.longValue();
/* 059 */     }
/* 060 */
/* 061 */     java.math.BigInteger startToEnd = java.math.BigInteger.valueOf(partitionEnd).subtract(
/* 062 */       java.math.BigInteger.valueOf(range_nextIndex_0));
/* 063 */     range_numElementsTodo_0  = startToEnd.divide(step).longValue();
/* 064 */     if (range_numElementsTodo_0 < 0) {
/* 065 */       range_numElementsTodo_0 = 0;
/* 066 */     } else if (startToEnd.remainder(step).compareTo(java.math.BigInteger.valueOf(0L)) != 0) {
/* 067 */       range_numElementsTodo_0++;
/* 068 */     }
/* 069 */   }
/* 070 */
/* 071 */   protected void processNext() throws java.io.IOException {
/* 072 */     // initialize Range
/* 073 */     if (!range_initRange_0) {
/* 074 */       range_initRange_0 = true;
/* 075 */       initRange(partitionIndex);
/* 076 */     }
/* 077 */
/* 078 */     while (true) {
/* 079 */       if (range_nextIndex_0 == range_batchEnd_0) {
/* 080 */         long range_nextBatchTodo_0;
/* 081 */         if (range_numElementsTodo_0 > 1000L) {
/* 082 */           range_nextBatchTodo_0 = 1000L;
/* 083 */           range_numElementsTodo_0 -= 1000L;
/* 084 */         } else {
/* 085 */           range_nextBatchTodo_0 = range_numElementsTodo_0;
/* 086 */           range_numElementsTodo_0 = 0;
/* 087 */           if (range_nextBatchTodo_0 == 0) break;
/* 088 */         }
/* 089 */         range_batchEnd_0 += range_nextBatchTodo_0 * 1L;
/* 090 */       }
/* 091 */
/* 092 */       int range_localEnd_0 = (int)((range_batchEnd_0 - range_nextIndex_0) / 1L);
/* 093 */       for (int range_localIdx_0 = 0; range_localIdx_0 < range_localEnd_0; range_localIdx_0++) {
/* 094 */         long range_value_0 = ((long)range_localIdx_0 * 1L) + range_nextIndex_0;
/* 095 */
/* 096 */         do {
/* 097 */           boolean filter_value_0 = false;
/* 098 */           filter_value_0 = range_value_0 == 1L;
/* 099 */           if (!filter_value_0) continue;
/* 100 */
/* 101 */           ((org.apache.spark.sql.execution.metric.SQLMetric) references[1] /* numOutputRows */).add(1);
/* 102 */
/* 103 */           // common sub-expressions
/* 104 */
/* 105 */           long project_value_0 = -1L;
/* 106 */
/* 107 */           project_value_0 = range_value_0 + 1L;
/* 108 */           range_mutableStateArray_0[2].reset();
/* 109 */
/* 110 */           range_mutableStateArray_0[2].write(0, project_value_0);
/* 111 */           append((range_mutableStateArray_0[2].getRow()));
/* 112 */
/* 113 */         } while(false);
/* 114 */
/* 115 */         if (shouldStop()) {
/* 116 */           range_nextIndex_0 = range_value_0 + 1L;
/* 117 */           ((org.apache.spark.sql.execution.metric.SQLMetric) references[0] /* numOutputRows */).add(range_localIdx_0 + 1);
/* 118 */           range_inputMetrics_0.incRecordsRead(range_localIdx_0 + 1);
/* 119 */           return;
/* 120 */         }
/* 121 */
/* 122 */       }
/* 123 */       range_nextIndex_0 = range_batchEnd_0;
/* 124 */       ((org.apache.spark.sql.execution.metric.SQLMetric) references[0] /* numOutputRows */).add(range_localEnd_0);
/* 125 */       range_inputMetrics_0.incRecordsRead(range_localEnd_0);
/* 126 */       range_taskContext_0.killTaskIfInterrupted();
/* 127 */     }
/* 128 */   }
/* 129 */
/* 130 */ }


11:32:40.126 WARN org.apache.spark.sql.execution.WholeStageCodegenSuite: 

===== POSSIBLE THREAD LEAK IN SUITE o.a.s.sql.execution.WholeStageCodegenSuite, thread names: rpc-boss-3-1, shuffle-boss-6-1 =====


Process finished with exit code 0

一个简单的实验

/** Physical plan for Filter. */
case class FilterExec(condition: Expression, child: SparkPlan)

在FilterExec 增加这一行

override def supportCodegen: Boolean = false

会拆成两个wholestagecodegen


16:27:42.332 WARN org.apache.hadoop.util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
== Physical Plan ==
*(2) Project [(id#0L + 1) AS (id + 1)#4L]
+- Filter (id#0L = 1)
   +- *(1) Range (0, 10, step=1, splits=2)


Found 2 WholeStageCodegen subtrees.
== Subtree 1 / 2 (maxMethodCodeSize:282; maxConstantPoolSize:175(0.27% used); numInnerClasses:0) ==
*(1) Range (0, 10, step=1, splits=2)

Generated code:
/* 001 */ public Object generate(Object[] references) {
/* 002 */   return new GeneratedIteratorForCodegenStage1(references);
/* 003 */ }
/* 004 */
/* 005 */ // codegenStageId=1
/* 006 */ final class GeneratedIteratorForCodegenStage1 extends org.apache.spark.sql.execution.BufferedRowIterator {
/* 007 */   private Object[] references;
/* 008 */   private scala.collection.Iterator[] inputs;
/* 009 */   private boolean range_initRange_0;
/* 010 */   private long range_nextIndex_0;
/* 011 */   private TaskContext range_taskContext_0;
/* 012 */   private InputMetrics range_inputMetrics_0;
/* 013 */   private long range_batchEnd_0;
/* 014 */   private long range_numElementsTodo_0;
/* 015 */   private org.apache.spark.sql.catalyst.expressions.codegen.UnsafeRowWriter[] range_mutableStateArray_0 = new org.apache.spark.sql.catalyst.expressions.codegen.UnsafeRowWriter[1];
/* 016 */
/* 017 */   public GeneratedIteratorForCodegenStage1(Object[] references) {
/* 018 */     this.references = references;
/* 019 */   }
/* 020 */
/* 021 */   public void init(int index, scala.collection.Iterator[] inputs) {
/* 022 */     partitionIndex = index;
/* 023 */     this.inputs = inputs;
/* 024 */
/* 025 */     range_taskContext_0 = TaskContext.get();
/* 026 */     range_inputMetrics_0 = range_taskContext_0.taskMetrics().inputMetrics();
/* 027 */     range_mutableStateArray_0[0] = new org.apache.spark.sql.catalyst.expressions.codegen.UnsafeRowWriter(1, 0);
/* 028 */
/* 029 */   }
/* 030 */
/* 031 */   private void initRange(int idx) {
/* 032 */     java.math.BigInteger index = java.math.BigInteger.valueOf(idx);
/* 033 */     java.math.BigInteger numSlice = java.math.BigInteger.valueOf(2L);
/* 034 */     java.math.BigInteger numElement = java.math.BigInteger.valueOf(10L);
/* 035 */     java.math.BigInteger step = java.math.BigInteger.valueOf(1L);
/* 036 */     java.math.BigInteger start = java.math.BigInteger.valueOf(0L);
/* 037 */     long partitionEnd;
/* 038 */
/* 039 */     java.math.BigInteger st = index.multiply(numElement).divide(numSlice).multiply(step).add(start);
/* 040 */     if (st.compareTo(java.math.BigInteger.valueOf(Long.MAX_VALUE)) > 0) {
/* 041 */       range_nextIndex_0 = Long.MAX_VALUE;
/* 042 */     } else if (st.compareTo(java.math.BigInteger.valueOf(Long.MIN_VALUE)) < 0) {
/* 043 */       range_nextIndex_0 = Long.MIN_VALUE;
/* 044 */     } else {
/* 045 */       range_nextIndex_0 = st.longValue();
/* 046 */     }
/* 047 */     range_batchEnd_0 = range_nextIndex_0;
/* 048 */
/* 049 */     java.math.BigInteger end = index.add(java.math.BigInteger.ONE).multiply(numElement).divide(numSlice)
/* 050 */     .multiply(step).add(start);
/* 051 */     if (end.compareTo(java.math.BigInteger.valueOf(Long.MAX_VALUE)) > 0) {
/* 052 */       partitionEnd = Long.MAX_VALUE;
/* 053 */     } else if (end.compareTo(java.math.BigInteger.valueOf(Long.MIN_VALUE)) < 0) {
/* 054 */       partitionEnd = Long.MIN_VALUE;
/* 055 */     } else {
/* 056 */       partitionEnd = end.longValue();
/* 057 */     }
/* 058 */
/* 059 */     java.math.BigInteger startToEnd = java.math.BigInteger.valueOf(partitionEnd).subtract(
/* 060 */       java.math.BigInteger.valueOf(range_nextIndex_0));
/* 061 */     range_numElementsTodo_0  = startToEnd.divide(step).longValue();
/* 062 */     if (range_numElementsTodo_0 < 0) {
/* 063 */       range_numElementsTodo_0 = 0;
/* 064 */     } else if (startToEnd.remainder(step).compareTo(java.math.BigInteger.valueOf(0L)) != 0) {
/* 065 */       range_numElementsTodo_0++;
/* 066 */     }
/* 067 */   }
/* 068 */
/* 069 */   protected void processNext() throws java.io.IOException {
/* 070 */     // initialize Range
/* 071 */     if (!range_initRange_0) {
/* 072 */       range_initRange_0 = true;
/* 073 */       initRange(partitionIndex);
/* 074 */     }
/* 075 */
/* 076 */     while (true) {
/* 077 */       if (range_nextIndex_0 == range_batchEnd_0) {
/* 078 */         long range_nextBatchTodo_0;
/* 079 */         if (range_numElementsTodo_0 > 1000L) {
/* 080 */           range_nextBatchTodo_0 = 1000L;
/* 081 */           range_numElementsTodo_0 -= 1000L;
/* 082 */         } else {
/* 083 */           range_nextBatchTodo_0 = range_numElementsTodo_0;
/* 084 */           range_numElementsTodo_0 = 0;
/* 085 */           if (range_nextBatchTodo_0 == 0) break;
/* 086 */         }
/* 087 */         range_batchEnd_0 += range_nextBatchTodo_0 * 1L;
/* 088 */       }
/* 089 */
/* 090 */       int range_localEnd_0 = (int)((range_batchEnd_0 - range_nextIndex_0) / 1L);
/* 091 */       for (int range_localIdx_0 = 0; range_localIdx_0 < range_localEnd_0; range_localIdx_0++) {
/* 092 */         long range_value_0 = ((long)range_localIdx_0 * 1L) + range_nextIndex_0;
/* 093 */
/* 094 */         range_mutableStateArray_0[0].reset();
/* 095 */
/* 096 */         range_mutableStateArray_0[0].write(0, range_value_0);
/* 097 */         append((range_mutableStateArray_0[0].getRow()));
/* 098 */
/* 099 */         if (shouldStop()) {
/* 100 */           range_nextIndex_0 = range_value_0 + 1L;
/* 101 */           ((org.apache.spark.sql.execution.metric.SQLMetric) references[0] /* numOutputRows */).add(range_localIdx_0 + 1);
/* 102 */           range_inputMetrics_0.incRecordsRead(range_localIdx_0 + 1);
/* 103 */           return;
/* 104 */         }
/* 105 */
/* 106 */       }
/* 107 */       range_nextIndex_0 = range_batchEnd_0;
/* 108 */       ((org.apache.spark.sql.execution.metric.SQLMetric) references[0] /* numOutputRows */).add(range_localEnd_0);
/* 109 */       range_inputMetrics_0.incRecordsRead(range_localEnd_0);
/* 110 */       range_taskContext_0.killTaskIfInterrupted();
/* 111 */     }
/* 112 */   }
/* 113 */
/* 114 */ }

== Subtree 2 / 2 (maxMethodCodeSize:89; maxConstantPoolSize:91(0.14% used); numInnerClasses:0) ==
*(2) Project [(id#0L + 1) AS (id + 1)#4L]
+- Filter (id#0L = 1)
   +- *(1) Range (0, 10, step=1, splits=2)

Generated code:
/* 001 */ public Object generate(Object[] references) {
/* 002 */   return new GeneratedIteratorForCodegenStage2(references);
/* 003 */ }
/* 004 */
/* 005 */ // codegenStageId=2
/* 006 */ final class GeneratedIteratorForCodegenStage2 extends org.apache.spark.sql.execution.BufferedRowIterator {
/* 007 */   private Object[] references;
/* 008 */   private scala.collection.Iterator[] inputs;
/* 009 */   private scala.collection.Iterator inputadapter_input_0;
/* 010 */   private org.apache.spark.sql.catalyst.expressions.codegen.UnsafeRowWriter[] project_mutableStateArray_0 = new org.apache.spark.sql.catalyst.expressions.codegen.UnsafeRowWriter[1];
/* 011 */
/* 012 */   public GeneratedIteratorForCodegenStage2(Object[] references) {
/* 013 */     this.references = references;
/* 014 */   }
/* 015 */
/* 016 */   public void init(int index, scala.collection.Iterator[] inputs) {
/* 017 */     partitionIndex = index;
/* 018 */     this.inputs = inputs;
/* 019 */     inputadapter_input_0 = inputs[0];
/* 020 */     project_mutableStateArray_0[0] = new org.apache.spark.sql.catalyst.expressions.codegen.UnsafeRowWriter(1, 0);
/* 021 */
/* 022 */   }
/* 023 */
/* 024 */   protected void processNext() throws java.io.IOException {
/* 025 */     while ( inputadapter_input_0.hasNext()) {
/* 026 */       InternalRow inputadapter_row_0 = (InternalRow) inputadapter_input_0.next();
/* 027 */
/* 028 */       // common sub-expressions
/* 029 */
/* 030 */       long inputadapter_value_0 = inputadapter_row_0.getLong(0);
/* 031 */
/* 032 */       long project_value_0 = -1L;
/* 033 */
/* 034 */       project_value_0 = inputadapter_value_0 + 1L;
/* 035 */       project_mutableStateArray_0[0].reset();
/* 036 */
/* 037 */       project_mutableStateArray_0[0].write(0, project_value_0);
/* 038 */       append((project_mutableStateArray_0[0].getRow()));
/* 039 */       if (shouldStop()) return;
/* 040 */     }
/* 041 */   }
/* 042 */
/* 043 */ }


16:27:47.464 WARN org.apache.spark.sql.execution.WholeStageCodegenSuite: 

===== POSSIBLE THREAD LEAK IN SUITE o.a.s.sql.execution.WholeStageCodegenSuite, thread names: rpc-boss-3-1, shuffle-boss-6-1 =====


Process finished with exit code 0

最里侧的operator

比如rangeExec，肯定要实现 doproduce方法，但 consume不需要实现，直接调用父类的consume()

/**
 * Physical plan for range (generating a range of 64 bit numbers).
 */
case class RangeExec(range: org.apache.spark.sql.catalyst.plans.logical.Range)
  extends LeafExecNode with CodegenSupport {

  val start: Long = range.start
  val end: Long = range.end
  val step: Long = range.step
  val numSlices: Int = range.numSlices.getOrElse(sparkContext.defaultParallelism)
  val numElements: BigInt = range.numElements
  val isEmptyRange: Boolean = start == end || (start < end ^ 0 < step)

  override val output: Seq[Attribute] = range.output

  override def outputOrdering: Seq[SortOrder] = range.outputOrdering

  override def outputPartitioning: Partitioning = {
    if (numElements > 0) {
      if (numSlices == 1) {
        SinglePartition
      } else {
        RangePartitioning(outputOrdering, numSlices)
      }
    } else {
      UnknownPartitioning(0)
    }
  }

  override lazy val metrics = Map(
    "numOutputRows" -> SQLMetrics.createMetric(sparkContext, "number of output rows"))

  override def doCanonicalize(): SparkPlan = {
    RangeExec(range.canonicalized.asInstanceOf[org.apache.spark.sql.catalyst.plans.logical.Range])
  }

  override def inputRDDs(): Seq[RDD[InternalRow]] = {
    val rdd = if (isEmptyRange) {
      new EmptyRDD[InternalRow](sqlContext.sparkContext)
    } else {
      sqlContext.sparkContext.parallelize(0 until numSlices, numSlices).map(i => InternalRow(i))
    }
    rdd :: Nil
  }

  protected override def doProduce(ctx: CodegenContext): String = {
    val numOutput = metricTerm(ctx, "numOutputRows")

    val initTerm = ctx.addMutableState(CodeGenerator.JAVA_BOOLEAN, "initRange")
    val nextIndex = ctx.addMutableState(CodeGenerator.JAVA_LONG, "nextIndex")

    val value = ctx.freshName("value")
    val ev = ExprCode.forNonNullValue(JavaCode.variable(value, LongType))
    val BigInt = classOf[java.math.BigInteger].getName

    // Inline mutable state since not many Range operations in a task
    val taskContext = ctx.addMutableState("TaskContext", "taskContext",
      v => s"$v = TaskContext.get();", forceInline = true)
    val inputMetrics = ctx.addMutableState("InputMetrics", "inputMetrics",
      v => s"$v = $taskContext.taskMetrics().inputMetrics();", forceInline = true)

    // In order to periodically update the metrics without inflicting performance penalty, this
    // operator produces elements in batches. After a batch is complete, the metrics are updated
    // and a new batch is started.
    // In the implementation below, the code in the inner loop is producing all the values
    // within a batch, while the code in the outer loop is setting batch parameters and updating
    // the metrics.

    // Once nextIndex == batchEnd, it's time to progress to the next batch.
    val batchEnd = ctx.addMutableState(CodeGenerator.JAVA_LONG, "batchEnd")

    // How many values should still be generated by this range operator.
    val numElementsTodo = ctx.addMutableState(CodeGenerator.JAVA_LONG, "numElementsTodo")

    // How many values should be generated in the next batch.
    val nextBatchTodo = ctx.freshName("nextBatchTodo")

    // The default size of a batch, which must be positive integer
    val batchSize = 1000

    val initRangeFuncName = ctx.addNewFunction("initRange",
      s"""
        | private void initRange(int idx) {
        |   $BigInt index = $BigInt.valueOf(idx);
        |   $BigInt numSlice = $BigInt.valueOf(${numSlices}L);
        |   $BigInt numElement = $BigInt.valueOf(${numElements.toLong}L);
        |   $BigInt step = $BigInt.valueOf(${step}L);
        |   $BigInt start = $BigInt.valueOf(${start}L);
        |   long partitionEnd;
        |
        |   $BigInt st = index.multiply(numElement).divide(numSlice).multiply(step).add(start);
        |   if (st.compareTo($BigInt.valueOf(Long.MAX_VALUE)) > 0) {
        |     $nextIndex = Long.MAX_VALUE;
        |   } else if (st.compareTo($BigInt.valueOf(Long.MIN_VALUE)) < 0) {
        |     $nextIndex = Long.MIN_VALUE;
        |   } else {
        |     $nextIndex = st.longValue();
        |   }
        |   $batchEnd = $nextIndex;
        |
        |   $BigInt end = index.add($BigInt.ONE).multiply(numElement).divide(numSlice)
        |     .multiply(step).add(start);
        |   if (end.compareTo($BigInt.valueOf(Long.MAX_VALUE)) > 0) {
        |     partitionEnd = Long.MAX_VALUE;
        |   } else if (end.compareTo($BigInt.valueOf(Long.MIN_VALUE)) < 0) {
        |     partitionEnd = Long.MIN_VALUE;
        |   } else {
        |     partitionEnd = end.longValue();
        |   }
        |
        |   $BigInt startToEnd = $BigInt.valueOf(partitionEnd).subtract(
        |     $BigInt.valueOf($nextIndex));
        |   $numElementsTodo  = startToEnd.divide(step).longValue();
        |   if ($numElementsTodo < 0) {
        |     $numElementsTodo = 0;
        |   } else if (startToEnd.remainder(step).compareTo($BigInt.valueOf(0L)) != 0) {
        |     $numElementsTodo++;
        |   }
        | }
       """.stripMargin)

    val localIdx = ctx.freshName("localIdx")
    val localEnd = ctx.freshName("localEnd")
    val stopCheck = if (parent.needStopCheck) {
      s"""
         |if (shouldStop()) {
         |  $nextIndex = $value + ${step}L;
         |  $numOutput.add($localIdx + 1);
         |  $inputMetrics.incRecordsRead($localIdx + 1);
         |  return;
         |}
       """.stripMargin
    } else {
      "// shouldStop check is eliminated"
    }
    val loopCondition = if (limitNotReachedChecks.isEmpty) {
      "true"
    } else {
      limitNotReachedChecks.mkString(" && ")
    }

    // An overview of the Range processing.
    //
    // For each partition, the Range task needs to produce records from partition start(inclusive)
    // to end(exclusive). For better performance, we separate the partition range into batches, and
    // use 2 loops to produce data. The outer while loop is used to iterate batches, and the inner
    // for loop is used to iterate records inside a batch.
    //
    // `nextIndex` tracks the index of the next record that is going to be consumed, initialized
    // with partition start. `batchEnd` tracks the end index of the current batch, initialized
    // with `nextIndex`. In the outer loop, we first check if `nextIndex == batchEnd`. If it's true,
    // it means the current batch is fully consumed, and we will update `batchEnd` to process the
    // next batch. If `batchEnd` reaches partition end, exit the outer loop. Finally we enter the
    // inner loop. Note that, when we enter inner loop, `nextIndex` must be different from
    // `batchEnd`, otherwise we already exit the outer loop.
    //
    // The inner loop iterates from 0 to `localEnd`, which is calculated by
    // `(batchEnd - nextIndex) / step`. Since `batchEnd` is increased by `nextBatchTodo * step` in
    // the outer loop, and initialized with `nextIndex`, so `batchEnd - nextIndex` is always
    // divisible by `step`. The `nextIndex` is increased by `step` during each iteration, and ends
    // up being equal to `batchEnd` when the inner loop finishes.
    //
    // The inner loop can be interrupted, if the query has produced at least one result row, so that
    // we don't buffer too many result rows and waste memory. It's ok to interrupt the inner loop,
    // because `nextIndex` will be updated before interrupting.

    s"""
      | // initialize Range
      | if (!$initTerm) {
      |   $initTerm = true;
      |   $initRangeFuncName(partitionIndex);
      | }
      |
      | while ($loopCondition) {
      |   if ($nextIndex == $batchEnd) {
      |     long $nextBatchTodo;
      |     if ($numElementsTodo > ${batchSize}L) {
      |       $nextBatchTodo = ${batchSize}L;
      |       $numElementsTodo -= ${batchSize}L;
      |     } else {
      |       $nextBatchTodo = $numElementsTodo;
      |       $numElementsTodo = 0;
      |       if ($nextBatchTodo == 0) break;
      |     }
      |     $batchEnd += $nextBatchTodo * ${step}L;
      |   }
      |
      |   int $localEnd = (int)(($batchEnd - $nextIndex) / ${step}L);
      |   for (int $localIdx = 0; $localIdx < $localEnd; $localIdx++) {
      |     long $value = ((long)$localIdx * ${step}L) + $nextIndex;
      |     ${consume(ctx, Seq(ev))}
      |     $stopCheck
      |   }
      |   $nextIndex = $batchEnd;
      |   $numOutput.add($localEnd);
      |   $inputMetrics.incRecordsRead($localEnd);
      |   $taskContext.killTaskIfInterrupted();
      | }
     """.stripMargin
  }

  protected override def doExecute(): RDD[InternalRow] = {
    val numOutputRows = longMetric("numOutputRows")
    if (isEmptyRange) {
      new EmptyRDD[InternalRow](sqlContext.sparkContext)
    } else {
      sqlContext
        .sparkContext
        .parallelize(0 until numSlices, numSlices)
        .mapPartitionsWithIndex { (i, _) =>
          val partitionStart = (i * numElements) / numSlices * step + start
          val partitionEnd = (((i + 1) * numElements) / numSlices) * step + start

          def getSafeMargin(bi: BigInt): Long =
            if (bi.isValidLong) {
              bi.toLong
            } else if (bi > 0) {
              Long.MaxValue
            } else {
              Long.MinValue
            }

          val safePartitionStart = getSafeMargin(partitionStart)
          val safePartitionEnd = getSafeMargin(partitionEnd)
          val rowSize = UnsafeRow.calculateBitSetWidthInBytes(1) + LongType.defaultSize
          val unsafeRow = UnsafeRow.createFromByteArray(rowSize, 1)
          val taskContext = TaskContext.get()

          val iter = new Iterator[InternalRow] {
            private[this] var number: Long = safePartitionStart
            private[this] var overflow: Boolean = false
            private[this] val inputMetrics = taskContext.taskMetrics().inputMetrics

            override def hasNext =
              if (!overflow) {
                if (step > 0) {
                  number < safePartitionEnd
                } else {
                  number > safePartitionEnd
                }
              } else false

            override def next() = {
              val ret = number
              number += step
              if (number < ret ^ step < 0) {
                // we have Long.MaxValue + Long.MaxValue < Long.MaxValue
                // and Long.MinValue + Long.MinValue > Long.MinValue, so iff the step causes a step
                // back, we are pretty sure that we have an overflow.
                overflow = true
              }

              numOutputRows += 1
              inputMetrics.incRecordsRead(1)
              unsafeRow.setLong(0, ret)
              unsafeRow
            }
          }
          new InterruptibleIterator(taskContext, iter)
        }
    }
    }
    override def simpleString(maxFields: Int): String = {
    s"Range ($start, $end, step=$step, splits=$numSlices)"

你可能感兴趣的:(spark,大数据)

网络安全态势感知：企业数字化转型的 “安全密钥” 知白守黑V 安全运营网络安全态势感知网络
在数字经济飞速发展的当下，网络安全已经成为企业平稳运营的关键所在。从大型企业的数据泄露事故，到中小企业遭遇的各类网络攻击，网络安全威胁无处不在。而网络安全态势感知产品，作为应对复杂网络威胁的关键技术，正逐渐成为企业守护数字资产的“智慧大脑”。一、态势感知：全景掌控，精准防御你可以把网络安全态势感知想象成企业网络的“超级侦察兵”。它借助大数据分析、机器学习这些先进技术，就像是拥有了超级强大的“洞察力
Apache Flink 替换 Spark Stream的架构与实践( bilibili 案例解读)_streamsparkflink加载udf 2501_90243308 apache flink spark
3.基于ApacheFlink的流式计算平台为解决上述问题，bilibili希望根据以下三点要求构建基于ApacheFlink的流式计算平台。第一点，需要提供SQL化编程。bilibili对SQL进行了扩展，称为BSQL。BSQL扩展了Flink底层SQL的上层，即SQL语法层。**第二点，**DAG拖拽编程,一方面用户可以通过画板来构建自己的Pipeline，另一方面用户也可以使用原生Jar方式
Kafka：架构与核心机制 J老熊 kafka 架构分布式面试系统架构后端
ApacheKafka是一种高吞吐量的分布式消息队列，广泛应用于实时数据流处理和大数据架构中。本文将详细探讨Kafka的架构、Replica管理、消息读取、分区策略、可靠性保障等核心机制。1.Kafka的架构1.1组件概述Kafka的架构由多个组件构成，主要包括以下部分：Broker：Kafka集群中的服务器，每个Broker存储一部分消息。Kafka集群通常由多个Broker组成，以提高可用性和
车联网安全黄一113530 网络安全网络安全渗透测试
1、智能汽车安全如何分类？智能汽车终极发展阶段是无人驾驶，车联网则是无人驾驶实现的基础，然而车联网技术应用过程中却会带来信息安全问题，具体可分为以下三种：一、用户隐私汽车智能化是建立在车辆动态数据收集及应用上的，如车辆行驶、车体、动力、安全及环境数据等层面，尤其是车辆行驶数据一直都被视为变现的大数据金矿，无论是车联网前装的车商，还是车联网后装的互联网科技公司，都在用户不知情的情况下收集车主驾驶历史
【趋势】《2024—2026金融科技十大趋势预测》一览学客汇商业研究商业观察人工智能大数据金融科技科技洞察 IT趋势金融行业预测
本白皮书基于新华三在金融行业的前沿实践和IDC的全球研究成果，深入分析了金融科技领域的十大关键趋势，旨在为金融机构提供前瞻性的战略指导和业务创新的参考。导言当前，在地缘政治冲突加剧、商业经济市场环境高度不确定、数字化业务加速发展的背景下，金融行业处于深度变革的潮流中，金融机构亟需重新思考其在技术支出、业务决策及业务创新发展等方面的投资重点。此外，金融机构也越来越需要借助大数据和AI技术来提升业务的
【爬虫】使用 Scrapy 框架爬取豆瓣电影 Top 250 数据的完整教程 m0_74825360 面试学习路线阿里巴巴爬虫 scrapy
前言在大数据和网络爬虫领域，Scrapy是一个功能强大且广泛使用的开源爬虫框架。它能够帮助我们快速地构建爬虫项目，并高效地从各种网站中提取数据。在本篇文章中，我将带大家从零开始使用Scrapy框架，构建一个简单的爬虫项目，爬取豆瓣电影Top250的电影信息。Scrapy官方文档：ScrapyDocumentation豆瓣电影Top250：豆瓣电影Top250本文的爬虫项目配置如下：系统：Windo
CDH大数据平台梦龙zmc 大数据大数据
CDH概念CDH（ClouderaDistributionIncludingApacheHadoop)是由Cloudera公司提供的一个集成了ApacheHadoop以及相关生态系统的发行版本。CDH是一个大数据平台，简化和加速了大数据处理分析的部署和管理。CDH提供Hadoop的核心元素-可伸缩存储和分布式计算-以及基于web的用户界面和重要的企业功能。CDH是Apache许可的开放源码，是唯一
免费AI大模型API汇总（非常详细），零基础入门到精通，看这一篇就够了大模型扬叔人工智能免费AI大模型API汇总大模型
前言一、免费大模型API一览大模型免费版本免费限制控制台（api_key等）讯飞星火大模型spark-litetokens：总量无限；QPS：2；(每秒发送的请求数)有效期：不限访问链接百度千帆大模型平台ERNIE-Speed-8KRPM=300，TPM=300000（RPM是每分钟请求数（RequestsPerMinute），TPM是指每分钟处理的tokens数量）访问链接ERNIE-Speed
Spring Boot集成RocketMQ实现分布式事务 missterzy 分布式与微服务消息队列（MQ）java-rocketmq spring boot rocketmq
RocketMQ是由阿里巴巴集团开发的一款高性能、高可靠、分布式的开源消息中间件，它在2012年对外开源，并于2016年捐赠给Apache软件基金会，随后在2017年成为了Apache的顶级项目。RocketMQ的设计旨在满足互联网业务场景中的海量消息传递需求，尤其擅长处理高并发、大数据量以及实时计算场景。主要特点和功能包括：1.分布式架构：RocketMQ采用了分布式部署架构，允许生产者、消费者
Java 大视界 -- Java 大数据中的自然语言生成技术与实践（63）青云交大数据新视界 Java 大视界大数据自然语言生成基于规则模型基于统计模型基于深度学习模型新闻写作智能客服
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
动态规划详解-最小路径和问题【python】数据分析螺丝钉 LeetCode刷题与模拟面试动态规划算法 leetcode python 数据结构
作者介绍：10年大厂数据\经营分析经验，现任大厂数据部门负责人。会一些的技术：数据分析、算法、SQL、大数据相关、python欢迎加入社区：码上找工作作者专栏每日更新：LeetCode解锁1000题:打怪升级之旅python数据分析可视化：企业实战案例备注说明：方便大家阅读，统一使用python，带必要注释，公众号数据分析螺丝钉一起打怪升级1.问题介绍和应用场景最小路径和问题是一个常见的动态规划问
Java 大视界 -- Java 大数据中的知识图谱构建与应用（62）青云交大数据新视界 Java 大视界大数据知识图谱信息抽取知识融合智能搜索智能推荐风险评估
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
[Python从零到壹] 七十七.图像识别及经典案例篇之目标检测入门普及和ImageAI对象检测详解 Eastmount Python从零到壹 python 目标检测 ImageAI 图像是被基础系列
欢迎大家来到“Python从零到壹”，在这里我将分享约200篇Python系列文章，带大家一起去学习和玩耍，看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解，真心想把自己近十年的编程经验分享给大家，希望对您有所帮助，文章中不足之处也请海涵。Python系列整体框架包括基础语法10篇、网络爬虫30篇、可视化分析10篇、机器学习20篇、大数据分析20篇、图像识别30篇、人工智
用 Java 的思路快速学习 Scala 进朱者赤其他大数据 scala Scala
引言Scala是一种结合了面向对象和函数式编程的现代编程语言，广泛应用于大数据处理框架如ApacheSpark和ApacheFlink。对于熟悉Java的开发者来说，Scala的学习曲线相对平缓。本文将通过类比Java中的概念，帮助Java开发者快速上手Scala。1.基本语法1.1.数据类型以下是Scala和Java数据类型的汇总表格：Scala数据类型Java数据类型说明Intint32位整数
python鸢尾花数据集knn_【python+机器学习1】python 实现 KNN weixin_39629269 python鸢尾花数据集knn
欢迎关注哈希大数据微信公众号【哈希大数据】1KNN算法基本介绍K-NearestNeighbor(k最邻近分类算法)，简称KNN，是最简单的一种有监督的机器学习算法。也是一种懒惰学习算法，即开始训练仅仅是保存所有样本集的信息，直到测试样本到达才开始进行分类决策。KNN算法的核心思想：要想确定测试样本属于哪一类，就先寻找所有训练样本中与该测试样本“距离”最近的前K个样本，然后判断这K个样本中大部分所
函数计算 FC 诚邀您参加【Cloud Up 挑战赛】赢取丰厚奖品！ github
亲爱的开发者们，函数计算FC团队向你们发出诚挚邀请，加入我们即将举办的【CloudUp挑战赛】，这不仅是一场技术盛宴，更是一次展示才华与创新的机会。从互联网应用开发到AI、大数据，再到现代化应用开发，本次赛事覆盖了所有你渴望掌握的技能点，旨在为你提供一个实践平台，将理论知识转化为解决实际业务问题的能力。挑战赛为期三周，活动时间为2024年11月25日至12月13日，立即参与：https://dev
未来商贸物流：人工智能与大数据的深度融合呆码科技临沂软件开发软件开发商贸物流科技人工智能
未来商贸物流：人工智能与大数据的深度融合在当今数字化浪潮汹涌澎湃的时代，商贸物流行业正站在变革的十字路口，而人工智能与大数据宛如一对闪耀的双子星，为其照亮前行的道路，深度融合之下，一个全新的未来画卷正徐徐展开。智能预测需求：精准把握市场脉搏传统的商贸物流往往依赖过往经验和粗略的市场调研来预估货物需求，这就如同在迷雾中摸索，充满不确定性。而如今，借助大数据的海量存储与超强分析能力，以及人工智能的深度
【大数据之路11】多范式编程语言 Scala 程序员老五大数据 scala 开发语言
多范式编程语言Scala1.Scala概述1.Scala介绍2.学习Scala的必要性1.基于编程语⾔⾃身2.基于活跃度2.Scala基础语法1.HelloScala2.变量定义1.变量与常量2.Scala自动类型识别3.lazy懒加载3.数据类型1.相关概述1.Scala数据类型列表2.测试代码3.Scala数据类型结构图2.Scala基本类型操作3.编码规范4.流程控制1.if2.块表达式3.
2024年大数据最全数据仓库｜数据库面试题总结_面试题数据仓库 2301_82243558 程序员大数据数据仓库数据库
这里值得注意的是不要想着为每个字段建立索引，因为优先使用索引的优势就在于其体积小。索引有哪几种类型？主键索引:数据列不允许重复，不允许为NULL，一个表只能有一个主键。唯一索引:数据列不允许重复，允许为NULL值，一个表允许多个列创建唯一索引。可以通过ALTERTABLEtable_nameADDUNIQUE(column);创建唯一索引可以通过ALTERTABLEtable_nameADDUNI
AI Agent：一场智能革命的开始机器人openai区块链
在当今科技日新月异的时代，AI（人工智能）技术正以前所未有的速度改变着我们的生活和工作方式。其中，AIAgent作为AI领域的一个新兴分支，正逐渐展现出其巨大的潜力和价值。本文将深入探讨AIAgent的发展现状、核心优势以及未来的发展方向，带您领略这一前沿技术的无限魅力。一、AIAgent的发展现状：技术突破与广泛应用近年来，随着大数据、云计算和机器学习等技术的飞速发展，AIAgent的技术水平得
C# 与.NET 日志变革：JSON 让程序“开口说清话” 步、步、为营 c#.net json
一、引言：日志新时代的开启在软件开发的漫长旅程中，日志一直是我们不可或缺的伙伴。它就像是应用程序的“黑匣子”，默默地记录着程序运行过程中的点点滴滴，为我们在调试、排查问题以及性能优化时提供关键线索。在早期，文本日志是我们最常用的记录方式，它简单直接，就像我们随手写下的日记，记录着事件发生的时间、内容等基本信息。然而，随着软件系统规模的不断扩大，架构日益复杂，尤其是在微服务、大数据分析以及云原生应用
python方差分析误差棒_一文讲透，带你学会用Python绘制带误差棒的柱状图和条形图... 加勒比考斯 python方差分析误差棒
Python数据可视化，作为数据常用的必备技能，是目前大数据和数据分析的一个热门，而matplotlib库作为Python中最为常用和经典的二维绘图库，受到了很多人的青睐，最近已经和大家共同探讨了多种类型的图表的绘制，其中关于误差棒图，咱们已经在上次一起讨论过了，今天咱们继续深入研究误差棒图相关的知识。那今天咱们聊点什么呢？咱们一起探讨一下如何在Python中绘制带误差棒的柱状图和条形图吧！首先，
【Spark】Spark Join类型及Join实现方式 DataCrafter Spark 大数据计算框架 spark 大数据分布式
如果觉得这篇文章对您有帮助，别忘了点赞、分享或关注哦！您的一点小小支持，不仅能帮助更多人找到有价值的内容，还能鼓励我持续分享更多精彩的技术文章。感谢您的支持，让我们一起在技术的世界中不断进步！SparkJoin类型1.InnerJoin(内连接)示例：valresult=df1.join(df2,df1("id")===df2("id"),"inner")执行逻辑：只返回那些在两个表中都有匹配的行
Spark运行模式及Spark on Yarn两种运行模式的区别 DataCrafter Spark 大数据计算框架 spark 大数据
如果觉得这篇文章对您有帮助，别忘了点赞、分享或关注哦！您的一点小小支持，不仅能帮助更多人找到有价值的内容，还能鼓励我持续分享更多精彩的技术文章。感谢您的支持，让我们一起在技术的世界中不断进步！Spark运行模式1.Standalone模式描述：Standalone模式是Spark的独立集群模式，Spark自己管理资源和调度任务。适合小型集群或个人开发环境。特点：简单易用，适合开发和测试。不依赖外部
【大数据入门核心技术-Hive】（十六）hive表加载csv格式数据或者json格式数据 forest_long 大数据技术入门到21天通关大数据 hive hadoop 开发语言后端数据仓库
一、环境准备hive安装部署参考：【大数据入门核心技术-Hive】（三）Hive3.1.2非高可用集群搭建【大数据入门核心技术-Hive】（四）Hive3.1.2高可用集群搭建二、hive加载Json格式数据1、数据准备vistu.json[{"id":111,"name":"name111"},{"id":222,"name":"name22"}]上传到hdfshadoopfs-putstu.j
镜舟科技荣登《2024 中国大数据产业年度「国产化」优秀代表厂商》榜单！数据库软件数据分析
在近日于上海成功举办的“释放×数效应·共创智+未来”2024第七届金猿&魔方论坛上，镜舟科技凭借其在数据分析领域的卓越贡献和国产化技术实力，入选《2024中国大数据产业年度「国产化」优秀代表厂商》榜单，展现了其在国产化、信创道路上的成果。镜舟科技自2022年成立以来，始终致力于帮助中国企业建立卓越的数据分析系统，形成自身的“数据护城河”。基于开源项目StarRocks进行深度研发，镜舟科技推出2款
云起无垠入选中国信息通信研究院2024年度首期“磐安”优秀案例人工智能
近日，中国信通院举办的深度观察报告会系列论坛在北京顺利召开。在数字生态治理分论坛上，2024年度首期“磐安”优秀案例——AI+数字安全应用优秀案例遴选结果正式公布，云起无垠凭借其在生成式AI网络安全攻防对抗垂直领域扎实的研究及应用成果，成功入选该年度首期“磐安”优秀案例。当下，数字化浪潮席卷全球，信息技术广泛渗透各个产业。云计算、大数据、人工智能、物联网等前沿技术深度融合，传统制造业生产线、现代服
东华发思特&巨杉数据库：打造智慧城市分布式大数据联合解决方案巨杉数据库SequoiaDB SequoiaDB巨杉数据库巨杉数据库 sequoiadb 东华发思特联合解决方案
合作伙伴公司简介东华发思特为东华软件旗下控股子公司，是一家通过高新技术企业认定的技术企业，拥有CMMI3、ISO27001、ISO9000、ISO20000等高级行业资质认证。公司组建了一批视野开拓、经验丰富的管理和研发团队，如今已打造了一系列新型智慧城市产品体系，以HarryData大数据中台和BobbyLink物联网中台为核心，以数字政府、数字文旅、数字乡村、城市精细化管理平台等为产业互联网助
数据治理组织架构产品经理自我修养大数据
企业数据治理体系除了在技术方面的实施架构，还需要管理方面的组织架构支撑。一般在数据治理建设初期，集团会先成立数据治理管理委员会。从上至下由决策层、管理层、执行层构成。决策层决策、管理层制定方案、执行层实施。层级管理、统一协调。4.2.1组织架构1）决策层提供数据标准管理的决策职能，通俗理解即拍板定方案。2）管理层审议数据标准管理相关制度对跨部门难的数据标准管理争议事项进行讨论并决策管理重大数据标准
基于数据可视化+SpringBoot+Vue的医院综合管理平台设计和实现(源码+论文+部署讲解等) java李杨勇 Java精品毕设实战案例 Java毕业设计实战案例信息可视化 spring boot vue.js 医院综合管理平台 Java毕业设计
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement