是小先生

大数据技术之-Hive源码

一、HQL是如何转换为MR任务的

1、Hive的核心组成介绍

#用户接口：Client
	CLI（command-line interface）、JDBC/ODBC(jdbc访问hive)、WEBUI（浏览器访问hive）
#元数据：Metastore
	元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等；
	默认存储在自带的derby数据库中，推荐使用MySQL存储Metastore
#Hadoop
	使用HDFS进行存储，使用MapReduce进行计算。
#驱动器：Driver
#解析器（SQL Parser）
	将SQL字符串转换成抽象语法树AST，这一步一般都用第三方工具库完成，比如antlr；对AST进行语法分析，比如表是否存在、字段是否存在、SQL语义是否有误。
#编译器（Physical Plan）
	将AST编译生成逻辑执行计划。
#优化器（Query Optimizer）
	对逻辑执行计划进行优化。
#执行器（Execution）
	把逻辑执行计划转换成可以运行的物理计划。对于Hive来说，就是MR/Spark。

2、HQL转换为MR任务流程说明

1）进入程序，利用Antlr框架定义HQL的语法规则，对HQL完成词法语法解析，将HQL转换为AST（抽象语法树）；

2）遍历AST，抽象出查询的基本组成单元QueryBlock（查询块），可以理解为最小的查询执行单元；

3）遍历QueryBlock，将其转换为OperatorTree（操作树，也就是逻辑执行计划）可以理解为不可拆分的一个逻辑执行单元；

4）使用逻辑优化器对OperatorTree（操作树）进行逻辑优化。例如合并不必要的ReduceSinkOperator，减少Shuffle数据量；

5）遍历OperatorTree，转换为TaskTree。也就是翻译为MR任务的流程，将逻辑执行计划转换为物理执行计划；

6）使用物理优化器对TaskTree进行物理优化

7）生成最终的执行计划，提交任务到Hadoop集群运行

二、HQL转换为MR源码详细解读

1、HQL转换为MR源码整体流程介绍

2、程序入口–CliDriver

我们执行一个HQL语句通常有以下几种方式：

$HIVE_HOME/bin/hive 进入客户端，然后执行HQL；

$HIVE_HOME/bin/hive -e “hql”;

$HIVE_HOME/bin/hive -f hive.sql;

先开启hiveserver2服务端，然后通过JDBC方式连接远程提交HQL。

可以知道我们执行HQL主要依赖于HIVE_HOME/bin/hive和HIVE_HOME/bin/hiveserver2两种脚本来实现提交HQL，而在这两个脚本中，最终启动的JAVA进程的主类为”org.apache.hadoop.hive.cli.CliDriver“，所以其实hive程序的入口就是CliDriver类。

3、HQL的读取与参数解析

3.1、找到"CLiDriver"这个类的”main“方法

public static void main(String[] args) throws Exception {
    int ret = new CliDriver().run(args);
    System.exit(ret);
  }

3.2、主类的run方法

 public  int run(String[] args) throws Exception {
    OptionsProcessor oproc = new OptionsProcessor();
    //解析系统参数
    if (!oproc.process_stage1(args)) {
      return 1;
    }
    ... ...
    CliSessionState ss = new CliSessionState(new HiveConf(SessionState.class));
    //标准输入输出以及错误输出流的定义,后续需要输入HQL以及打印控制台信息
    ss.in = System.in;
    try {
      ss.out = new PrintStream(System.out, true, "UTF-8");
      ss.info = new PrintStream(System.err, true, "UTF-8");
      ss.err = new CachingPrintStream(System.err, true, "UTF-8");
    } catch (UnsupportedEncodingException e) {
      return 3;
    }
    //解析用户参数,包含"-e -f -v -database"等等
    if (!oproc.process_stage2(ss)) {
      return 2;
    }
    ... ...
    // execute cli driver work
    try {
      return executeDriver(ss, conf, oproc);
    } finally {
      ss.resetThreadName();
      ss.close();
    }
  }

3.3、executeDriver方法

private int executeDriver(CliSessionState ss, HiveConf conf, OptionsProcessor oproc) throws Exception {
    CliDriver cli = new CliDriver();
    cli.setHiveVariables(oproc.getHiveVariables());
    // use the specified database if specified
    cli.processSelectDatabase(ss);
    // Execute -i init files (always in silent mode)
    cli.processInitFiles(ss);

    if (ss.execString != null) {
      int cmdProcessStatus = cli.processLine(ss.execString);
      return cmdProcessStatus;
    }

    ... ...

    setupConsoleReader();

    String line;
    int ret = 0;
    String prefix = "";
    String curDB = getFormattedDb(conf, ss);
    String curPrompt = prompt + curDB;
    String dbSpaces = spacesForString(curDB);

    //读取客户端的输入HQL 
    while ((line = reader.readLine(curPrompt + "> ")) != null) {
      if (!prefix.equals("")) {
        prefix += '\n';
      }
      if (line.trim().startsWith("--")) {
        continue;
      }
      //以按照“;”分割的方式解析
      if (line.trim().endsWith(";") && !line.trim().endsWith("\\;")) {
        line = prefix + line;
        ret = cli.processLine(line, true);
        prefix = "";
        curDB = getFormattedDb(conf, ss);
        curPrompt = prompt + curDB;
        dbSpaces = dbSpaces.length() == curDB.length() ? dbSpaces : spacesForString(curDB);
      } else {
        prefix = prefix + line;
        curPrompt = prompt2 + dbSpaces;
        continue;
      }
    }

    return ret;
  }

3.4、processLine方法

 public int processLine(String line, boolean allowInterrupting) {
    SignalHandler oldSignal = null;
    Signal interruptSignal = null;
    ... ...
    try {
      int lastRet = 0, ret = 0;

      // we can not use "split" function directly as ";" may be quoted
      List<String> commands = splitSemiColon(line);

      String command = "";
      for (String oneCmd : commands) {

        if (StringUtils.endsWith(oneCmd, "\\")) {
          command += StringUtils.chop(oneCmd) + ";";
          continue;
        } else {
          command += oneCmd;
        }
        if (StringUtils.isBlank(command)) {
          continue;
        }

//解析单行HQL
        ret = processCmd(command);
        command = "";
        lastRet = ret;
        boolean ignoreErrors = HiveConf.getBoolVar(conf, HiveConf.ConfVars.CLIIGNOREERRORS);
        if (ret != 0 && !ignoreErrors) {
          return ret;
        }
      }
      return lastRet;
    } finally {
      // Once we are done processing the line, restore the old handler
      if (oldSignal != null && interruptSignal != null) {
        Signal.handle(interruptSignal, oldSignal);
      }
    }
  }

3.5、processCmd方法

public int processCmd(String cmd) {
    CliSessionState ss = (CliSessionState) SessionState.get();
    
    ... ...

    //1.如果命令为"quit"或者"exit",则退出
    if (cmd_trimmed.toLowerCase().equals("quit") || cmd_trimmed.toLowerCase().equals("exit")) {

      // if we have come this far - either the previous commands
      // are all successful or this is command line. in either case
      // this counts as a successful run
      ss.close();
      System.exit(0);

    //2.如果命令为"source"开头,则表示执行HQL文件,继续读取文件并解析
    } else if (tokens[0].equalsIgnoreCase("source")) {
      String cmd_1 = getFirstCmd(cmd_trimmed, tokens[0].length());
      cmd_1 = new VariableSubstitution(new HiveVariableSource() {
        @Override
        public Map<String, String> getHiveVariable() {
          return SessionState.get().getHiveVariables();
        }
      }).substitute(ss.getConf(), cmd_1);

      File sourceFile = new File(cmd_1);
      if (! sourceFile.isFile()){
        console.printError("File: "+ cmd_1 + " is not a file.");
        ret = 1;
      } else {
        try {
          ret = processFile(cmd_1);
        } catch (IOException e) {
          console.printError("Failed processing file "+ cmd_1 +" "+ e.getLocalizedMessage(),
            stringifyException(e));
          ret = 1;
        }
      }

      //3.如果命令以"!"开头,则表示用户需要执行Linux命令
    } else if (cmd_trimmed.startsWith("!")) {
      // for shell commands, use unstripped command
      String shell_cmd = cmd.trim().substring(1);
      shell_cmd = new VariableSubstitution(new HiveVariableSource() {
        @Override
        public Map<String, String> getHiveVariable() {
          return SessionState.get().getHiveVariables();
        }
      }).substitute(ss.getConf(), shell_cmd);

      // shell_cmd = "/bin/bash -c \'" + shell_cmd + "\'";
      try {
        ShellCmdExecutor executor = new ShellCmdExecutor(shell_cmd, ss.out, ss.err);
        ret = executor.execute();
        if (ret != 0) {
          console.printError("Command failed with exit code = " + ret);
        }
      } catch (Exception e) {
        console.printError("Exception raised from Shell command " + e.getLocalizedMessage(),
            stringifyException(e));
        ret = 1;
      }

      //4.以上三者都不是,则认为用户输入的为"select ..."正常的增删改查HQL语句,则进行HQL解析
    }  else {
      try {

        try (CommandProcessor proc = CommandProcessorFactory.get(tokens, (HiveConf) conf)) {
          if (proc instanceof IDriver) {
            // Let Driver strip comments using sql parser
            ret = processLocalCmd(cmd, proc, ss);
          } else {
            ret = processLocalCmd(cmd_trimmed, proc, ss);
          }
        }
      } catch (SQLException e) {
        console.printError("Failed processing command " + tokens[0] + " " + e.getLocalizedMessage(),
          org.apache.hadoop.util.StringUtils.stringifyException(e));
        ret = 1;
      }
      catch (Exception e) {
        throw new RuntimeException(e);
      }
    }

    ss.resetThreadName();
    return ret;
  }

3.6、processLocalCmd方法

 int processLocalCmd(String cmd, CommandProcessor proc, CliSessionState ss) {
    boolean escapeCRLF = HiveConf.getBoolVar(conf, HiveConf.ConfVars.HIVE_CLI_PRINT_ESCAPE_CRLF);
    int ret = 0;

    if (proc != null) {
      if (proc instanceof IDriver) {
        IDriver qp = (IDriver) proc;
        PrintStream out = ss.out;

        //获取系统时间作为开始时间,以便后续计算HQL执行时长
        long start = System.currentTimeMillis();
        if (ss.getIsVerbose()) {
          out.println(cmd);
        }

        //HQL执行的核心方法
        ret = qp.run(cmd).getResponseCode();
        if (ret != 0) {
          qp.close();
          return ret;
        }

        // query has run capture the time
        //获取系统时间作为结束时间,以便后续计算HQL执行时长
        long end = System.currentTimeMillis();
        double timeTaken = (end - start) / 1000.0;

        ArrayList<String> res = new ArrayList<String>();

        //打印头信息
        printHeader(qp, out);

        // print the results,包含结果集并获取抓取到数据的条数
        int counter = 0;
        try {
          if (out instanceof FetchConverter) {
            ((FetchConverter) out).fetchStarted();
          }
          while (qp.getResults(res)) {
            for (String r : res) {
                  if (escapeCRLF) {
                    r = EscapeCRLFHelper.escapeCRLF(r);
                  }
              out.println(r);
            }
            counter += res.size();
            res.clear();
            if (out.checkError()) {
              break;
            }
          }
        } catch (IOException e) {
          console.printError("Failed with exception " + e.getClass().getName() + ":" + e.getMessage(),
              "\n" + org.apache.hadoop.util.StringUtils.stringifyException(e));
          ret = 1;
        }

        qp.close();

        if (out instanceof FetchConverter) {
          ((FetchConverter) out).fetchFinished();
        }

        //打印HQL执行时间以及抓取数据的条数（经常使用Hive的同学是否觉得这句很熟悉呢，其实就是执行完一个HQL最后打印的那句话）
        console.printInfo(
            "Time taken: " + timeTaken + " seconds" + (counter == 0 ? "" : ", Fetched: " + counter + " row(s)"));
      } else {
        String firstToken = tokenizeCmd(cmd.trim())[0];
        String cmd_1 = getFirstCmd(cmd.trim(), firstToken.length());

        if (ss.getIsVerbose()) {
          ss.out.println(firstToken + " " + cmd_1);
        }
        CommandProcessorResponse res = proc.run(cmd_1);
        if (res.getResponseCode() != 0) {
          ss.out
              .println("Query returned non-zero code: " + res.getResponseCode() + ", cause: " + res.getErrorMessage());
        }
        if (res.getConsoleMessages() != null) {
          for (String consoleMsg : res.getConsoleMessages()) {
            console.printInfo(consoleMsg);
          }
        }
        ret = res.getResponseCode();
      }
    }

    return ret;
  }

3.7、qp.run(cmd)方法

点击进入”run“方法，该方法为IDriver接口的抽象方法，此处实际调用的是“org.apache.hadoop.hive.ql.Driver”类中的“run”方法，找到“Driver”类中的“run”方法。

public CommandProcessorResponse run(String command) {
    return run(command, false);
  }

public CommandProcessorResponse run(String command, boolean alreadyCompiled) {

    try {
      runInternal(command, alreadyCompiled);
      return createProcessorResponse(0);
    } catch (CommandProcessorResponse cpr) {
      ... ...
    }
    
  }

3.8、runInternal方法

 private void runInternal(String command, boolean alreadyCompiled) throws CommandProcessorResponse {
    errorMessage = null;
    SQLState = null;
    downstreamError = null;
    LockedDriverState.setLockedDriverState(lDrvState);

    lDrvState.stateLock.lock();
    ... ...
      PerfLogger perfLogger = null;
      if (!alreadyCompiled) {
        // compile internal will automatically reset the perf logger
        //1.编译HQL语句
        compileInternal(command, true);
        // then we continue to use this perf logger
        perfLogger = SessionState.getPerfLogger();
      }
      ... ...
      
      try {
        //2.执行
        execute();
      } catch (CommandProcessorResponse cpr) {
        rollback(cpr);
        throw cpr;
      }
      isFinishedWithError = false;
    } 
  }

4、HQL生成AST（抽象语法树）

4.1、compileInternal方法

 private void compileInternal(String command, boolean deferClose) throws CommandProcessorResponse {
    Metrics metrics = MetricsFactory.getInstance();
    if (metrics != null) {
      metrics.incrementCounter(MetricsConstant.WAITING_COMPILE_OPS, 1);
}

    … …

    if (compileLock == null) {
      throw createProcessorResponse(ErrorMsg.COMPILE_LOCK_TIMED_OUT.getErrorCode());
    }

    try {
      compile(command, true, deferClose);
    } catch (CommandProcessorResponse cpr) {
      try {
        releaseLocksAndCommitOrRollback(false);
      } catch (LockException e) {
        LOG.warn("Exception in releasing locks. " + org.apache.hadoop.util.StringUtils.stringifyException(e));
      }
      throw cpr;
    } 
  }

4.2、compile方法

private void compile(String command, boolean resetTaskIds, boolean deferClose) throws CommandProcessorResponse {
    PerfLogger perfLogger = SessionState.getPerfLogger(true);
    perfLogger.PerfLogBegin(CLASS_NAME, PerfLogger.DRIVER_RUN);
    perfLogger.PerfLogBegin(CLASS_NAME, PerfLogger.COMPILE);
    lDrvState.stateLock.lock();

    ... ...

	 //HQL生成AST
      ASTNode tree;
      try {
        tree = ParseUtils.parse(command, ctx);
      } catch (ParseException e) {
        parseError = true;
        throw e;
      } finally {
        hookRunner.runAfterParseHook(command, parseError);
      }
}

4.3、parse方法

 /** Parses the Hive query. */
  public static ASTNode parse(String command, Context ctx) throws ParseException {
    return parse(command, ctx, null);
  }
  
  public static ASTNode parse(
      String command, Context ctx, String viewFullyQualifiedName) throws ParseException {
    ParseDriver pd = new ParseDriver();
    ASTNode tree = pd.parse(command, ctx, viewFullyQualifiedName);
    tree = findRootNonNullToken(tree);
    handleSetColRefs(tree);
    return tree;
  }
  
  public ASTNode parse(String command, Context ctx, String viewFullyQualifiedName)
      throws ParseException {
    if (LOG.isDebugEnabled()) {
      LOG.debug("Parsing command: " + command);
    }

    //1.构建词法解析器
    HiveLexerX lexer = new HiveLexerX(new ANTLRNoCaseStringStream(command));

    //2.将HQL中的关键词替换为Token
    TokenRewriteStream tokens = new TokenRewriteStream(lexer);
    if (ctx != null) {
      if (viewFullyQualifiedName == null) {
        // Top level query
        ctx.setTokenRewriteStream(tokens);
      } else {
        // It is a view
        ctx.addViewTokenRewriteStream(viewFullyQualifiedName, tokens);
      }
      lexer.setHiveConf(ctx.getConf());
    }

说明：Antlr框架。Hive使用Antlr实现SQL的词法和语法解析。Antlr是一种语言识别的工具，可以用来构造领域语言。使用Antlr构造特定的语言只需要编写一个语法文件，定义词法和语法替换规则即可，Antlr完成了词法分析、语法分析、语义分析、中间代码生成的过程。

hive中语法规则的定义文件在0.10版本以前是一个Hive.g一个文件，随着语法规则越来越复杂，由语法规则生成的Java解析类可能超过Java类文件的最大上限，0.11版本将Hive.g拆成了5个文件，词法规则HiveLexer.g和语法规则的4个文件SelectClauseParser.g、FromClauseParser.g、IdentifiersParser.g、HiveParser.g。

HiveParser parser = new HiveParser(tokens);
    if (ctx != null) {
      parser.setHiveConf(ctx.getConf());
    }
    parser.setTreeAdaptor(adaptor);
    HiveParser.statement_return r = null;
    try {
      //3.进行语法解析，生成最终的AST
      r = parser.statement();
    } catch (RecognitionException e) {
      e.printStackTrace();
      throw new ParseException(parser.errors);
    }

    if (lexer.getErrors().size() == 0 && parser.errors.size() == 0) {
      LOG.debug("Parse Completed");
    } else if (lexer.getErrors().size() != 0) {
      throw new ParseException(lexer.getErrors());
    } else {
      throw new ParseException(parser.errors);
    }

    ASTNode tree = (ASTNode) r.getTree();
    tree.setUnknownTokenBoundaries();
    return tree;
  }

说明：例如HQL语句为：

FROM
( 
  SELECT
    p.datekey datekey,
    p.userid userid,
    c.clienttype
  FROM
    detail.usersequence_client c
    JOIN fact.orderpayment p ON p.orderid = c.orderid
    JOIN default.user du ON du.userid = p.userid
  WHERE p.datekey = 20131118 
) base
INSERT OVERWRITE TABLE `test`.`customer_kpi`
SELECT
  base.datekey,
  base.clienttype,
  count(distinct base.userid) buyer_count
GROUP BY base.datekey, base.clienttype

生成对应的AST抽象语法树为：

5、对AST进一步解析

接下来的步骤包括：

1）将AST转换为QueryBlock进一步转换为OperatorTree；

2）对OperatorTree进行逻辑优化（LogicalOptimizer）；

3）将OperatorTree转换为TaskTree（任务树）；

4）对TaskTree进行物理优化（PhysicalOptimizer）。

之所以将这4个步骤写在一起，是因为这几个步骤在源码中存在于一个方法中。

5.1、compile方法

 private void compile(String command, boolean resetTaskIds, boolean deferClose) throws CommandProcessorResponse {
    PerfLogger perfLogger = SessionState.getPerfLogger(true);
    perfLogger.PerfLogBegin(CLASS_NAME, PerfLogger.DRIVER_RUN);
    perfLogger.PerfLogBegin(CLASS_NAME, PerfLogger.COMPILE);
    lDrvState.stateLock.lock();

    ... ...

	 //HQL生成AST
      ASTNode tree;
      try {
        tree = ParseUtils.parse(command, ctx);
      } catch (ParseException e) {
        parseError = true;
        throw e;
      } finally {
        hookRunner.runAfterParseHook(command, parseError);
      }

      // Do semantic analysis and plan generation
      BaseSemanticAnalyzer sem = SemanticAnalyzerFactory.get(queryState, tree);

      if (!retrial) {
        openTransaction();
        generateValidTxnList();
      }

		 //进一步解析抽象语法树
      sem.analyze(tree, ctx);
}

5.2、analyze方法

  public void analyze(ASTNode ast, Context ctx) throws SemanticException {
    initCtx(ctx);
    init(true);
    analyzeInternal(ast);
  }

5.3、analyzeInternal方法

  public abstract void analyzeInternal(ASTNode ast) throws SemanticException;

此方法为"org.apache.hadoop.hive.ql.parse.BaseSemanticAnalyzer"抽象类的抽象方法，我们进入实现类“org.apache.hadoop.hive.ql.parse.SemanticAnalyzer”的analyzeInternal方法。

 public void analyzeInternal(ASTNode ast) throws SemanticException {
    analyzeInternal(ast, new PlannerContextFactory() {
      @Override
      public PlannerContext create() {
        return new PlannerContext();
      }
    });
  }

5.4、继续调用重载的analyzeInternal方法

注意：该段源码中出现的“1,2,3,4…11”均为源码所定义步骤，该方法代码虽然很长，但是由于存在官方提供的步骤注释，其实读懂并不难。

void analyzeInternal(ASTNode ast, PlannerContextFactory pcf) throws SemanticException {
    LOG.info("Starting Semantic Analysis");
    // 1. Generate Resolved Parse tree from syntax tree
    boolean needsTransform = needsTransform();
    //change the location of position alias process here
    processPositionAlias(ast);
    PlannerContext plannerCtx = pcf.create();
//处理AST，转换为QueryBlock
    if (!genResolvedParseTree(ast, plannerCtx)) {
      return;
    }

      ... ...

    // 2. Gen OP Tree from resolved Parse Tree
    Operator sinkOp = genOPTree(ast, plannerCtx);

    // 3. Deduce Resultset Schema:定义输出数据的Schema
… …

    // 4. Generate Parse Context for Optimizer & Physical compiler
    copyInfoToQueryProperties(queryProperties);
    ParseContext pCtx = new ParseContext(queryState, opToPartPruner, opToPartList, topOps,
        new HashSet<JoinOperator>(joinContext.keySet()),
        new HashSet<SMBMapJoinOperator>(smbMapJoinContext.keySet()),
        loadTableWork, loadFileWork, columnStatsAutoGatherContexts, ctx, idToTableNameMap, destTableId, uCtx,
        listMapJoinOpsNoReducer, prunedPartitions, tabNameToTabObject, opToSamplePruner,
        globalLimitCtx, nameToSplitSample, inputs, rootTasks, opToPartToSkewedPruner,
        viewAliasToInput, reduceSinkOperatorsAddedByEnforceBucketingSorting,
        analyzeRewrite, tableDesc, createVwDesc, materializedViewUpdateDesc,
        queryProperties, viewProjectToTableSchema, acidFileSinks);

      ... ...

    // 5. Take care of view creation：处理视图相关

… …

    // 6. Generate table access stats if required
    if (HiveConf.getBoolVar(this.conf, HiveConf.ConfVars.HIVE_STATS_COLLECT_TABLEKEYS)) {
      TableAccessAnalyzer tableAccessAnalyzer = new TableAccessAnalyzer(pCtx);
      setTableAccessInfo(tableAccessAnalyzer.analyzeTableAccess());
    }

    // 7. Perform Logical optimization：对操作树执行逻辑优化
    if (LOG.isDebugEnabled()) {
      LOG.debug("Before logical optimization\n" + Operator.toString(pCtx.getTopOps().values()));
    }
    
//创建优化器
    Optimizer optm = new Optimizer();
    optm.setPctx(pCtx);
    optm.initialize(conf);
//执行优化
    pCtx = optm.optimize();
    if (pCtx.getColumnAccessInfo() != null) {
      // set ColumnAccessInfo for view column authorization
      setColumnAccessInfo(pCtx.getColumnAccessInfo());
    }
    if (LOG.isDebugEnabled()) {
      LOG.debug("After logical optimization\n" + Operator.toString(pCtx.getTopOps().values()));
    }

    // 8. Generate column access stats if required - wait until column pruning
    // takes place during optimization
    boolean isColumnInfoNeedForAuth = SessionState.get().isAuthorizationModeV2()
        && HiveConf.getBoolVar(conf, HiveConf.ConfVars.HIVE_AUTHORIZATION_ENABLED);
    if (isColumnInfoNeedForAuth
        || HiveConf.getBoolVar(this.conf, HiveConf.ConfVars.HIVE_STATS_COLLECT_SCANCOLS)) {
      ColumnAccessAnalyzer columnAccessAnalyzer = new ColumnAccessAnalyzer(pCtx);
      // view column access info is carried by this.getColumnAccessInfo().
      setColumnAccessInfo(columnAccessAnalyzer.analyzeColumnAccess(this.getColumnAccessInfo()));
    }

    // 9. Optimize Physical op tree & Translate to target execution engine (MR,
    // TEZ..)：执行物理优化
    if (!ctx.getExplainLogical()) {
      TaskCompiler compiler = TaskCompilerFactory.getCompiler(conf, pCtx);
      compiler.init(queryState, console, db);
	   //compile为抽象方法，对应的实现类分别为MapReduceCompiler、TezCompiler和SparkCompiler
      compiler.compile(pCtx, rootTasks, inputs, outputs);
      fetchTask = pCtx.getFetchTask();
    }
    //find all Acid FileSinkOperatorS
    QueryPlanPostProcessor qp = new QueryPlanPostProcessor(rootTasks, acidFileSinks, ctx.getExecutionId());

    // 10. Attach CTAS/Insert-Commit-hooks for Storage Handlers

      ... ...

    LOG.info("Completed plan generation");

    // 11. put accessed columns to readEntity
    if (HiveConf.getBoolVar(this.conf, HiveConf.ConfVars.HIVE_STATS_COLLECT_SCANCOLS)) {
      putAccessedColumnsToReadEntity(inputs, columnAccessInfo);
    }

    if (isCacheEnabled && lookupInfo != null) {
      if (queryCanBeCached()) {
        QueryResultsCache.QueryInfo queryInfo = createCacheQueryInfoForQuery(lookupInfo);

        // Specify that the results of this query can be cached.
        setCacheUsage(new CacheUsage(
            CacheUsage.CacheStatus.CAN_CACHE_QUERY_RESULTS, queryInfo));
      }
    }
  }

5.5、提交任务并执行3.8的第二步

 //2.执行
 execute();

5.6、execute方法

 private void execute() throws CommandProcessorResponse {
    PerfLogger perfLogger = SessionState.getPerfLogger();
    perfLogger.PerfLogBegin(CLASS_NAME, PerfLogger.DRIVER_EXECUTE);

      ... ...

      //1.构建任务：根据任务树构建MrJob
      setQueryDisplays(plan.getRootTasks());
      int mrJobs = Utilities.getMRTasks(plan.getRootTasks()).size();
      int jobs = mrJobs + Utilities.getTezTasks(plan.getRootTasks()).size()
          + Utilities.getSparkTasks(plan.getRootTasks()).size();
      if (jobs > 0) {
        logMrWarning(mrJobs);
        console.printInfo("Query ID = " + queryId);
        console.printInfo("Total jobs = " + jobs);
      }
      

      perfLogger.PerfLogBegin(CLASS_NAME, PerfLogger.RUN_TASKS);
      // Loop while you either have tasks running, or tasks queued up
      while (driverCxt.isRunning()) {
        // Launch upto maxthreads tasks
        Task<? extends Serializable> task;
        while ((task = driverCxt.getRunnable(maxthreads)) != null) {

          //2.启动任务
          TaskRunner runner = launchTask(task, queryId, noName, jobname, jobs, driverCxt);
          if (!runner.isRunning()) {
            break;
          }
        }

        ... ...

    //打印结果中最后的OK
    if (console != null) {
      console.printInfo("OK");
    }
  }

5.7、launchTask方法

private TaskRunner launchTask(Task<? extends Serializable> tsk, String queryId, boolean noName,
      String jobname, int jobs, DriverContext cxt) throws HiveException {
    if (SessionState.get() != null) {
      SessionState.get().getHiveHistory().startTask(queryId, tsk, tsk.getClass().getName());
    }
    if (tsk.isMapRedTask() && !(tsk instanceof ConditionalTask)) {
      if (noName) {
        conf.set(MRJobConfig.JOB_NAME, jobname + " (" + tsk.getId() + ")");
      }
      conf.set(DagUtils.MAPREDUCE_WORKFLOW_NODE_NAME, tsk.getId());
      Utilities.setWorkflowAdjacencies(conf, plan);
      cxt.incCurJobNo(1);
      console.printInfo("Launching Job " + cxt.getCurJobNo() + " out of " + jobs);
    }
    tsk.initialize(queryState, plan, cxt, ctx.getOpContext());
    TaskRunner tskRun = new TaskRunner(tsk);

    //添加启动任务
cxt.launching(tskRun);

    // Launch Task：根据是否可以并行来决定是否并行启动Task
    if (HiveConf.getBoolVar(conf, HiveConf.ConfVars.EXECPARALLEL) && tsk.canExecuteInParallel()) {
      // Launch it in the parallel mode, as a separate thread only for MR tasks
      if (LOG.isInfoEnabled()){
        LOG.info("Starting task [" + tsk + "] in parallel");
      }
      //可并行任务启动,实际上还是执行tskRun.runSequential();
      tskRun.start();
    } else {
      if (LOG.isInfoEnabled()){
        LOG.info("Starting task [" + tsk + "] in serial mode");
      }
      //不可并行任务,则按照序列顺序执行任务
      tskRun.runSequential();
    }
    return tskRun;
  }

5.8、runSequential方法

 public void runSequential() {
    int exitVal = -101;
    try {
      exitVal = tsk.executeTask(ss == null ? null : ss.getHiveHistory());
    } catch (Throwable t) {
      if (tsk.getException() == null) {
        tsk.setException(t);
      }
      LOG.error("Error in executeTask", t);
    }
    result.setExitVal(exitVal);
    if (tsk.getException() != null) {
      result.setTaskError(tsk.getException());
    }
  }

5.9、 executeTask方法

public int executeTask(HiveHistory hiveHistory) {
    try {
      this.setStarted();
      if (hiveHistory != null) {
        hiveHistory.logPlanProgress(queryPlan);
      }
      int retval = execute(driverContext);
      this.setDone();
      if (hiveHistory != null) {
        hiveHistory.logPlanProgress(queryPlan);
      }
      return retval;
    } catch (IOException e) {
      throw new RuntimeException("Unexpected error: " + e.getMessage(), e);
    }
  }

5.10、 execute方法

 protected abstract int execute(DriverContext driverContext);

此时我们进入了一个抽象“org.apache.hadoop.hive.ql.exec.Task”的“execute”方法，我们则需要找到一个实现类的“execute”方法，此处我选择“org.apache.hadoop.hive.ql.exec.mr.MapRedTask”这个类。

public int execute(DriverContext driverContext) {

    Context ctx = driverContext.getCtx();
    boolean ctxCreated = false;

    try {
      
      ... ...

      if (!runningViaChild) {
        // since we are running the mapred task in the same jvm, we should update the job conf
        // in ExecDriver as well to have proper local properties.
        if (this.isLocalMode()) {
          // save the original job tracker
          ctx.setOriginalTracker(ShimLoader.getHadoopShims().getJobLauncherRpcAddress(job));
          // change it to local
          ShimLoader.getHadoopShims().setJobLauncherRpcAddress(job, "local");
        }
        // we are not running this mapred task via child jvm
        // so directly invoke ExecDriver

        //设置MR任务的InputFormat、OutputFormat等等这些MRJob的执行类
        int ret = super.execute(driverContext);

        // restore the previous properties for framework name, RM address etc.
        if (this.isLocalMode()) {
          // restore the local job tracker back to original
          ctx.restoreOriginalTracker();
        }
        return ret;
      }

      ... ...

      //构建执行MR任务的命令
      String isSilent = "true".equalsIgnoreCase(System
          .getProperty("test.silent")) ? "-nolog" : "";

      String jarCmd = hiveJar + " " + ExecDriver.class.getName() + libJarsOption;

      String cmdLine = hadoopExec + " jar " + jarCmd + " -plan "
          + planPath.toString() + " " + isSilent + " " + hiveConfArgs;

      ... ...

      // Run ExecDriver in another JVM
      executor = Runtime.getRuntime().exec(cmdLine, env, new File(workDir));
  }

三、Hive源码Debug介绍

1、Debug环境准备

1.1、源码包

下载hive3.1.2版本。编译，建议在linux环境下编译，然后将整个编译好的包全部拷贝到IDEA工作目录中并打开。

1.2、打开项目配置项

1.3、添加远程连接配置组

2、测试

2.1、在CliDriver类的run方法中随机打上断点

2.2、开启Hive客户端Debug模式

$HIVE_HOME/bin/hive –debug

2.3、使用debug模式启动本地项目

2.4、在hive客户端执行HQL,切换到IDEA查看

2.5、在Hive Debug模式客户端查看

你可能感兴趣的:(大数据05-Hive,hive,大数据,hadoop)

GBase 数据库的高性能架构与优化实践 big crab 数据库架构
引言随着信息技术的快速发展，数据库作为支撑各行各业数据存储和处理的核心技术之一，承担着越来越重要的角色。在现代企业中，大数据量、复杂查询和高并发处理已成为普遍需求。GBase数据库作为国内领先的数据库产品之一，提供了卓越的性能和灵活的架构设计，能够高效处理复杂的事务、分析查询和海量数据。本文将探讨GBase数据库的高性能架构，并结合实际案例展示其优化实践。一、GBase数据库架构概述GBase数据
大数据知识图谱之深度学习——基于BERT+LSTM+CRF深度学习识别模型医疗知识图谱问答可视化系统_bert+lstm 2301_76348014 程序员深度学习大数据知识图谱
文章目录大数据知识图谱之深度学习——基于BERT+LSTM+CRF深度学习识别模型医疗知识图谱问答可视化系统一、项目概述二、系统实现基本流程三、项目工具所用的版本号四、所需要软件的安装和使用五、开发技术简介Django技术介绍Neo4j数据库Bootstrap4框架Echarts简介NavicatPremium15简介Layui简介Python语言介绍MySQL数据库深度学习六、核心理论贪心算法A
Apache ZooKeeper 分布式协调服务 slovess 分布式 apache zookeeper
1.ZooKeeper概述1.1定义与定位核心定位：分布式系统的协调服务，提供强一致性的配置管理、命名服务、分布式锁和集群管理能力核心模型：基于树形节点（ZNode）的键值存储，支持Watcher监听机制生态地位：Hadoop/Kafka等生态核心依赖，分布式系统基础设施级组件1.2设计目标强一致性：所有节点数据最终一致（基于ZAB协议）高可用性：集群半数以上节点存活即可提供服务顺序性：全局唯一递
Hadoop常用端口号海洋之心 Hadoop问题解决 hadoop hbase 大数据
Hadoop是一个由多个组件构成的分布式系统，每个组件都会使用一些特定的端口号来进行通信和交互。以下是Hadoop2.x常用的端口号列表：HDFS端口号：NameNode：50070SecondaryNameNode：50090DataNode：50010DataNode（数据传输）：50020YARN端口号：ResourceManager：8088NodeManager：8042MapReduc
python编译成dll文件_Python 调用DLL文件 weixin_39682511 python编译成dll文件
http://blog.csdn.net/magictong/archive/2008/10/14/3075478.aspx貌似原文的网页服务器有问题，总是load不全，所以备个份：Python调用windows下DLL详解在python中某些时候需要C做效率上的补充，在实际应用中，需要做部分数据的交互。使用python中的ctypes模块可以很方便的调用windows的dll（也包括linux下
大数据专业毕业设计选题118例：数据挖掘数据分析可视化 HaiLang_IT 毕设选题教程毕业设计大数据数据挖掘
目录前言毕设选题开题指导建议更多精选选题选题帮助最后前言大家好,这里是海浪学长毕设专题!大四是整个大学期间最忙碌的时光，一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理了大数据专业最新精选选题，如遇选题困难或选题有任何疑问，都可以问学长哦(见文末)!对毕设有任何疑问都可以问学长哦!更多选题指导:最新最全计算机专业毕设选题精选推荐汇总
Hadoop综合项目——二手房统计分析（可视化篇） WHYBIGDATA 大数据项目 hadoop 大数据
Hadoop综合项目——二手房统计分析（可视化篇）文章目录Hadoop综合项目——二手房统计分析（可视化篇）0、写在前面1、数据可视化1.1二手房四大一线城市总价Top51.2统计各个楼龄段的二手房比例1.3统计各个城市二手房标签的各类比例1.4统计各个城市各个楼层的平均价格1.5统计各个城市二手房优势的各类比例1.6统计各个城市二手房数量和关注人数的关系1.7统计各个城市二手房规格的各类比例1.
大数据之-hdfs+hive+hbase+kudu+presto集群(6节点) 管哥的运维私房菜大数据 hdfs hive kudu presto hbase
几个主要软件的下载地址：prestohttps://prestosql.io/docs/current/index.htmlkudurpm包地址https://github.com/MartinWeindel/kudu-rpm/releaseshivehttp://mirror.bit.edu.cn/apache/hive/hdfshttp://archive.apache.org/dist/ha
使用Docker搭建Flink集群 O_1CxH Flink大数据 Kafka大数据 docker flink 容器
目录使用Docker搭建Flink集群docker-compose一键搭建步骤附录参考资料使用Docker搭建Flink集群在学习大数据框架的时候，需要一个真实的环境。我们知道，像spark、flink这些计算框架都有多种运行模式：在本地使用多线程模拟集群真正的分布式集群如果直接在IDE（Intellj）里面编译和运行写好的程序，实际上是用的前一种运行模式；如果想尝试真正的生产环境中任务的提交和管
国家网络安全宣传周 | 2024年网络安全领域重大政策法规一览网安加社区安全网络安全政策法规
随着我国网络安全政策法规不断健全，网络安全工作机制也日渐成熟，各项工作已稳步步入法治化的轨道，与此同时，网络安全标准体系逐步清晰，安全防线日益坚固，为国家的网络安全建设提供了坚实的基础。网安加社区特为大家整理了2024年国内发布的网络安全领域相关政策法规，希望能为广大从业者与关注者提供相关参考，共同促进网络安全生态的健康发展。2024年网络安全重大政策法规一览◉1.《旅游大数据安全与隐私保护要求（
高可用（HA）架构 weixin_34344403 运维系统架构 java
http://aokunsang.iteye.com/blog/2053719浅谈web应用的负载均衡、集群、高可用(HA)解决方案http://zhuanlan.51cto.com/art/201612/524201.htm互联网架构“高可用”http://www.blogjava.net/ivanwan/archive/2013/12/25/408014.htmlLVS/Nginx/HAPro
【计算机毕设选题】2025计算机毕业设计选题推荐-高通过率选题指南（二）计算机YiDian 计算机毕设实战案例毕业设计选题/开题源码计算机毕业设计选题毕业设计选题计算机毕设选题计算机毕业设计
计算机毕业设计作为大学生涯的收官之作，承载着对学生专业技能、创新思维及实践能力的全面考验。随着信息技术的飞速发展，计算机毕业设计的形式也日益多样化，从传统的网站（Web）开发到新兴的小程序、APP构建，再到大数据分析与处理，每一种形式都代表着不同的技术挑战与实现路径。本文旨在探讨这些多样化的毕业设计形式及其背后的技术支撑，为即将踏上毕业设计征程的学子们提供一份详实的参考指南，对毕设开发需要帮助，以
Mongodb主从模式最佳方案 Christian Bai mongodb 数据库
我整理的一些关于【Java】的项目学习资料（附讲解～～）和大家一起分享、学习一下：https://d.51cto.com/bLN8S1MongoDB主从模式最佳方案MongoDB是一款开源的文档型数据库，被广泛应用于许多现代应用中。其强大的性能和灵活的数据结构使得它特别适合处理大数据和高并发访问。本文将介绍MongoDB的主从模式，并提供最佳方案和示例代码，帮助你更好地理解这种模式的运作原理。什么
go hive skynet_MMORPG游戏服务器技术选型参考-Go语言中文社区 weixin_39908948 go hive skynet
游戏服务器一般追求稳定和效率，所以偏向于保守，使用的技术手段也是以已经过验证、开发人员最熟悉、能HOLD为主要前提。1、典型按场景分服设计开发语言：c++数据库：mysql架构：多个网关：维持与玩家间的SOCKET连接，可处理广播、断线重连等逻辑。一个或多个账号登陆验证服务器：处理登陆、排队等逻辑。多个场景服务器：处理在本地图上能解决的逻辑，如：打怪、玩家间战斗、接任务、完成任务等各种不需要跨地图
DeepSeek推荐未来好就业的十大专业东锋1.3 人工智能 deepseek推荐就业
一、人工智能与数据科学专业聚焦人工智能、大数据技术、计算机科学与技术、机器学习、数据科学与大数据技术等专业，构成了这一前沿领域的核心。这些专业旨在培养学生掌握从数据收集、处理到模型构建、算法优化的全流程能力。就业前景洞察人工智能已广泛渗透到医疗、金融、制造、交通等众多领域。在医疗领域，AI辅助诊断系统帮助医生更精准地识别疾病；金融行业里，智能风控模型有效防范风险。未来，算法工程师负责开发和优化各种
云桌面主流架构解析与应用场景分析一休哥助手架构
引言随着云计算、大数据和虚拟化技术的快速发展，云桌面作为一种高效、安全、便捷的办公方式，逐渐被企业、教育和政府等多个领域广泛采用。云桌面通过虚拟化技术将计算资源集中管理，并将桌面操作系统、应用程序和数据存储在云端。用户通过终端设备访问云桌面，从而实现随时随地的灵活办公。云桌面架构的设计是其性能、安全性和用户体验的关键因素。目前主流的云桌面架构有多种类型，包括集中式架构、分布式架构、混合式架构等。本
Linux安装Anaconda、Miniconda 让我安静会配置与安装 linux 运维服务器
Anaconda下载：https://repo.anaconda.com/archive/MinicondaDocument：https://docs.conda.io/projects/miniconda/en/latest/index.html进入Linux系统，到/data/file/文件夹下，直接将anaconda下载到该文件夹中：wgethttps://repo.anaconda.com
微信视频号中的“多位朋友看过”是真的有朋友看过，还是系统分析过大数据后推荐的？ cda2024 微信大数据
不知道你有没有注意到，在微信视频号里，经常会出现“多位朋友看过”的提示。这一行小字往往能勾起人们的好奇心，让人不由自主地想要点击观看。那么，这究竟是不是真的意味着我们的朋友确确实实地浏览过这些视频呢？今天，我们就来聊聊这个话题。一、社交网络背后的算法在探讨这个问题之前，我们首先得了解一下社交网络平台背后的算法原理。社交网络平台的推荐机制主要依赖于大数据分析技术，通过用户的行为习惯、兴趣偏好等多维度
云计算、大数据、人工智能、物联网、虚拟现实技术、区块链技术 2301_79098963 程序员云计算大数据人工智能
物联网一、物联网的基本概念二、物联网的特征(一)物体感知(二)信息传输(三)智能处理三、物联网关键技术(一)射频识别技术(二)产品电子编码(三)短距离通信技术(四)互联网(五)感知控制技术(六)无线网络技术(七)中间件技术(八)智能处理技术四、物联网的应用领域虚拟现实技术一、VR的基本概念二、VR的特征(一)沉浸性(二)人交互性(三)多感知性(四)想象性(五)自主性三、VR的技术应用(一)在影视娱
阿里云MWC 2019发布7款重磅产品，助力全球企业迈向智能化数据库技术分享者大数据数据库人工智能
当地时间2月25日，在巴塞罗那举行的MWC2019上，阿里云面向全球发布了7款重磅产品，涵盖无服务器计算、高性能存储、全球网络、企业级数据库、大数据计算等主要云产品，可满足电子商务、物流、金融科技以及制造等各行业企业的数字化转型需求，助力全球企业迈向智能化。在大会期间，阿里云还携手德勤、RedHat以及VMware等合作伙伴展示了从基础设施到企业级应用的智能化解决方案。阿里云在MWC2019上展示
Spark 和 Flink 信徒_ spark flink 大数据
Spark和Flink都是目前流行的大数据处理引擎，但它们在架构设计、应用场景、性能和生态方面有较大区别。以下是详细对比：1.架构与核心概念方面ApacheSparkApacheFlink计算模型微批（Micro-Batch）为主，但支持结构化流（StructuredStreaming）原生流（TrueStreaming），基于事件驱动处理方式以RDD、DataFrame/Dataset作为核心抽
尚硅谷课程【笔记】——大数据之Zookeeper【一】赶紧写完去睡觉大数据生态圈大数据 zookeeper linux
课程视频：【尚硅谷Zookeeper教程】一、Zookeeper入门概述Zookeeper是一个开源的分布式的，为分布式应用提供协调服务的Apache项目。Zookeeper从设计模式角度理解：是一个基于观察者模式设计的分布式服务管理框架，它负责存储和管理大家都关心的数据，然后接受观察者的注册，一旦这些数据的状态发生变化，Zookeeper就将负责同志已经在Zookeeper上注册的哪些观察者做出
spark任务运行冰火同学 Spark spark 大数据分布式
运行环境在这里插入代码片[root@hadoop000conf]#java-versionjavaversion"1.8.0_144"Java(TM)SERuntimeEnvironment(build1.8.0_144-b01)[root@hadoop000conf]#echo$JAVA_HOME/home/hadoop/app/jdk1.8.0_144[root@hadoop000conf]#
Hadoop 的分布式缓存机制是如何实现的？如何在大规模集群中优化缓存性能？晚夜微雨问海棠呀分布式 hadoop 缓存
Hadoop的分布式缓存机制是一种用于在MapReduce任务中高效分发和访问文件的机制。通过分布式缓存，用户可以将小文件（如配置文件、字典文件等）分发到各个计算节点，从而提高任务的执行效率。分布式缓存的工作原理文件上传：用户将需要缓存的文件上传到HDFS（HadoopDistributedFileSystem）。文件路径可以在作业配置中指定。作业提交：在提交MapReduce作业时，用户可以通过
集群与分片：深入理解及应用实践一休哥助手架构系统架构
目录引言什么是集群？集群的定义集群的类型什么是分片？分片的定义分片的类型集群与分片的关系集群的应用场景负载均衡高可用性分片的应用场景大数据处理数据库分片集群与分片的架构设计系统架构设计数据存储设计案例分析Hadoop集群Elasticsearch分片性能优化策略集群性能优化分片性能优化挑战和解决方案总结参考资料引言在现代计算系统中，处理大规模数据和提高系统的可靠性已经成为了基础需求。集群和分片是两
hive spark读取hive hbase外表报错分析和解决 spring208208 hive hive spark hbase
问题现象使用Sparkshell操作hive关联Hbase的外表导致报错；hive使用tez引擎操作关联Hbase的外表时报错。问题1：使用tez或spark引擎，在hive查询时只要关联hbase的hive表就会有问题其他表正常。“org.apache.hadoop.hbase.client.RetriesExhaustedException:Can’tgetthelocations”问题2：s
如何学习Elasticsearch（ES）：从入门到精通的完整指南狮歌~资深攻城狮 jenkins 运维 elasticsearch 大数据
如何学习Elasticsearch（ES）：从入门到精通的完整指南嘿，小伙伴们！如果你对大数据搜索和分析感兴趣，并且想要掌握Elasticsearch这一强大的分布式搜索引擎，那么你来对地方了！本文将为你提供一个系统的学习路径，帮助你从零开始逐步深入理解Elasticsearch。1.基础知识准备1.1理解全文搜索在开始学习Elasticsearch之前，建议先了解一下全文搜索的基本概念。全文搜索
如何学习HBase：从入门到精通的完整指南狮歌~资深攻城狮 hbase 大数据
如何学习HBase：从入门到精通的完整指南嘿，小伙伴们！如果你对大数据存储感兴趣，并且想要掌握HBase这一强大的分布式数据库，那么你来对地方了！本文将为你提供一个系统的学习路径，帮助你从零开始逐步深入理解HBase。1.基础知识准备1.1理解NoSQL数据库在开始学习HBase之前，建议先了解一下NoSQL数据库的基本概念和分类。NoSQL数据库与传统的关系型数据库（如MySQL）有很大的不同，
Go 语言的优势和学习路线图 weixin_jie401214 golang 学习 java
简介Go语言又称Golang，由Google公司于2009年发布，近几年伴随着云计算、微服务、分布式的发展而迅速崛起，跻身主流编程语言之列，和Java类似，它是一门静态的、强类型的、编译型编程语言，为并发而生，所以天生适用于并发编程（网络编程）。目前Go语言支持Windows、Linux等多个平台，也可以直接在Android和iOS等移动端执行，从业务角度来看，Go语言在云计算、微服务、大数据、区
【Python】解决PyTorch报错：PytorchStreamReader failed reading zip archive: failed finding central的解决方案 I'mAlex python pytorch 开发语言
在使用PyTorch时，遇到“PytorchStreamReaderfailedreadingziparchive:failedfindingcentral”错误通常是由于损坏的模型文件或不兼容的文件版本导致的。这种问题在加载模型或数据时比较常见。以下是一些排查和解决该问题的步骤。博主简介：现任阿里巴巴嵌入式技术专家，15年工作经验，深耕嵌入式+人工智能领域，精通嵌入式领域开发、技术管理、简历招聘
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb