小王是个弟弟

Hive 源码解析一：Driver

本文为 Hive 源码系列的第一节(共三节)客户端部分，本节主要内容是通过源码分析总结从 bin/hive 启动到 SQL 解析转换成 MR 再到提交任务打印结果的一个宏观流程；第二节则针对 HSQL 如何解析、转换成 MR 程序；第三节则针对 MR 的提交流程再加 Hive 的远程 DEBUG 模式。

这是 hive 的架构图

从架构图来看，黄颜色属于 Hive 范畴，蓝颜色属于 Hadoop 范畴，其中 MetaStore 可以说是独立 Hive 核心源码之外的，元数据信息会在编译器和优化器部分被使用。下面开始客户端也就是架构中 Driver 的部分，看启动 hive 时系统到底做了什么。

默认你下载编译好了源码(hive 的部分源码需要额外编译如：HiveParse)，本系列源码 hive-3.1.2

CliDriver

看一个框架的源码个人习惯是：找到程序的入口、只看核心部分、跳过校验异常等。一切都要从hive这个脚本开始

首先可以看到在判断 hive 的客户端模式，是 cli 还是 beeline(80行左右)

if [ "$SERVICE" = "" ] ; then
  if [ "$HELP" = "_help" ] ; then
    SERVICE="help"
  else
    SERVICE="cli"
  fi
fi

if [[ "$SERVICE" == "cli" && "$USE_BEELINE_FOR_HIVE_CLI" == "true" ]] ; then
  SERVICE="beeline"
fi

之后在 314 行左右可以找到一段代码，执行 ./ext 目录下的脚本

for i in "$bin"/ext/*.sh ; do
  . $i
done

这个目录中有一个 cli.sh 的脚本

THISSERVICE=cli
export SERVICE_LIST="${SERVICE_LIST}${THISSERVICE} "

# Set old CLI as the default client
# if USE_DEPRECATED_CLI is not set or is not equal to false use old CLI
if [ -z "$USE_DEPRECATED_CLI" ] || [ "$USE_DEPRECATED_CLI" != "false" ]; then
  USE_DEPRECATED_CLI="true"
fi

updateCli() {
  if [ "$USE_DEPRECATED_CLI" == "true" ]; then
    export HADOOP_CLIENT_OPTS=" -Dproc_hivecli $HADOOP_CLIENT_OPTS "
    CLASS=org.apache.hadoop.hive.cli.CliDriver
    JAR=hive-cli-*.jar
  else
    export HADOOP_CLIENT_OPTS=" -Dproc_beeline $HADOOP_CLIENT_OPTS -Dlog4j.configurationFile=beeline-log4j2.properties"
    CLASS=org.apache.hive.beeline.cli.HiveCli
    JAR=hive-beeline-*.jar
  fi
}

cli () {
  updateCli
  execHiveCmd $CLASS $JAR "$@"
}

cli_help () {
  updateCli
  execHiveCmd $CLASS $JAR "--help"
}

因此 hivecli 的入口类是 hive-cli-*.jar 里面的 org.apache.hadoop.hive.cli.CliDriver,从这个类的 main 方法开始

main

public static void main(String[] args) throws Exception {
  // todo hive cli 程序入口
  int ret = new CliDriver().run(args);
  // todo ret 退出的代码 0 正常退出 5 用户取消 等
  System.exit(ret);
}

记住这个 ret，这个返回参数将贯穿始终，之后可以总结一下 ret 的各种返回值，或许在工作中可以根据退出的 code 先大致判断一下是什么类型的错误，如：0 正常退出，5 用户取消

run

OptionsProcessor oproc = new OptionsProcessor();
// todo 解析bin/hive 传入的系统参数是否正确
if (!oproc.process_stage1(args)) {
  // todo 1 系统参数异常
  return 1;
}

通过 process_stage1 这个方法进行参数校验，该方法主要是校验系统级别的参数，如：hiveconf、hive.root.logger、define、hivevar，若该类参数异常返回参数 ret = 1

之后会初始化日志类非重点

// todo SessionState 包含客户端的标准输入输出流。存储 sql、存储 sql 的查询结果等
CliSessionState ss = new CliSessionState(new HiveConf(SessionState.class));
// todo 定义输入流
ss.in = System.in;
try {
  // todo 定义输出、信息、错误流
  ss.out = new PrintStream(System.out, true, "UTF-8");
  ss.info = new PrintStream(System.err, true, "UTF-8");
  ss.err = new CachingPrintStream(System.err, true, "UTF-8");
} catch (UnsupportedEncodingException e) {
  // todo 3 字符编码异常
  return 3;
}

该部分首先创建了以客户端会话类 CliSessionState，该类会存储即为重要的数据，如我们输入的 sql，sql 执行结果都会封装在其中，之后基于这个类初始化标准输入、输出、错误流，这里如果环境不支持 UTF-8 字符编码会得到返回值 ret = 3

// todo 解析bin/hive 传入的用户参数是否正确
if (!oproc.process_stage2(ss)) {
  // todo 2 用户参数异常
  return 2;
}

通过 process_stage2 再次校验参数，注意入参的区别，process_stage1 入的是 args，其实在 process_stage1 的时候 OptionsProcessor 会保存所有的 args，并在 process_stage2 根据参数的 key 赋值给 CliSessionState 也就是 ss 对象(扯多了，不是很重要)，process_stage2 负责解析用户参数如 -e、-f、-v、-database 等，这类参数异常得到返回值 ret = 2

// todo 是否设置静默模式
if (!ss.getIsSilent()) {
  if (logInitFailed) {
    System.err.println(logInitDetailMessage);
  } else {
    SessionState.getConsole().printInfo(logInitDetailMessage);
  }
}

HiveConf conf = ss.getConf();
for (Map.Entry<Object, Object> item : ss.cmdProperties.entrySet()) {
  conf.set((String) item.getKey(), (String) item.getValue());
  ss.getOverriddenConfigurations().put((String) item.getKey(), (String) item.getValue());
}

prompt = conf.getVar(HiveConf.ConfVars.CLIPROMPT);
prompt = new VariableSubstitution(new HiveVariableSource() {
  @Override
  public Map<String, String> getHiveVariable() {
    return SessionState.get().getHiveVariables();
  }
}).substitute(conf, prompt);
prompt2 = spacesForString(prompt);

判断是否需要设置静默模式，HiveConf 为 hive 的配置类，我们在命令行中通过 set 修改当前会话的配置就是通过这个 conf 对象，prompt 就是交互页面的 hive >可以通过配置修改，代码就是读取的HiveConf.ConfVars.CLIPROMPT可以点进去看看具体的配置项，做到这里代表着启动参数级别不存在问题，即将进入交互式页面

try {
  // todo 核心代码
  return executeDriver(ss, conf, oproc);
} finally {
  ss.resetThreadName();
  ss.close();
}

核心代码，携带 CliSessionState(会话信息)，HiveConf(配置信息)，OptionsProcessor(参数信息) 执行下一步操作

executeDriver

CliDriver cli = new CliDriver();
cli.setHiveVariables(oproc.getHiveVariables());

// use the specified database if specified
// todo 处理 hive --database default
cli.processSelectDatabase(ss);

// Execute -i init files (always in silent mode)
// todo 处理 hive -i initFile
cli.processInitFiles(ss);

// todo 处理 hive -e
if (ss.execString != null) {
  int cmdProcessStatus = cli.processLine(ss.execString);
  return cmdProcessStatus;
}

try {
  // todo 处理 hive -f
  if (ss.fileName != null) {
    return cli.processFile(ss.fileName);
  }
} catch (FileNotFoundException e) {
  System.err.println("Could not open input file for reading. (" + e.getMessage() + ")");
  // todo 3 -f 文件不存在
  return 3;
}
// todo 判断执行引擎是否是 mr，如果是 打印过时提示
if ("mr".equals(HiveConf.getVar(conf, ConfVars.HIVE_EXECUTION_ENGINE))) {
  console.printInfo(HiveConf.generateMrDeprecationWarning());
}

这部分主要做一些初始化的工作，若我们在启动 hive 的时候指定了数据库会交由 processSelectDatabase 来处理，这个方法的核心就是 processLine("use " + database + ";")，processLine 是一个很重要的方法先不说。processInitFiles 就是执行初始化文件对应命令是 hive -i initFile 这个下面可以稍微说一下

public void processInitFiles(CliSessionState ss) throws IOException {
  boolean saveSilent = ss.getIsSilent();
  // todo 开启静默模式
  ss.setIsSilent(true);
  for (String initFile : ss.initFiles) {
    int rc = processFile(initFile);
    if (rc != 0) {
      System.exit(rc);
    }
  }
  // todo 如果 initFile 没有指定，尝试获取 .hiverc 文件
  if (ss.initFiles.size() == 0) {

    if (System.getenv("HIVE_HOME") != null) {
      // todo $HIVE/bin/.hiverc
      String hivercDefault = System.getenv("HIVE_HOME") + File.separator +
        "bin" + File.separator + HIVERCFILE;
      if (new File(hivercDefault).exists()) {
        int rc = processFile(hivercDefault);
        if (rc != 0) {
          System.exit(rc);
        }
        console.printError("Putting the global hiverc in " +
                           "$HIVE_HOME/bin/.hiverc is deprecated. Please " +
                           "use $HIVE_CONF_DIR/.hiverc instead.");
      }
    }
    // todo $HIVE_CONF_DIR/.hiverc
    if (System.getenv("HIVE_CONF_DIR") != null) {
      String hivercDefault = System.getenv("HIVE_CONF_DIR") + File.separator
        + HIVERCFILE;
      if (new File(hivercDefault).exists()) {
        int rc = processFile(hivercDefault);
        if (rc != 0) {
          System.exit(rc);
        }
      }
    }
    // todo ~/.hiverc
    if (System.getProperty("user.home") != null) {
      String hivercUser = System.getProperty("user.home") + File.separator +
        HIVERCFILE;
      if (new File(hivercUser).exists()) {
        int rc = processFile(hivercUser);
        if (rc != 0) {
          System.exit(rc);
        }
      }
    }
  }
  // todo 恢复最开始的静默模式状态
  ss.setIsSilent(saveSilent);
}

如果我们指定了初始化文件，则通过 processFile 执行文件里面的 SQL，processFile 其实就是多了一步文件内容的处理，找出文件里一个个独立的 SQL 交给 processLine 执行，之后会继续加载三个地方的默认初始化文件：$HIVE/bin/.hiverc(过时)、$HIVE_CONF_DIR/.hiverc、~/.hiverc，因此对于一些通用的又不方便放在配置文件的参数可以放在上面三个路径的文件中；之后就是处理 -e、-f这类操作，-f 文件不存在得到返回值 ret = 3

执行完上述这些就进入了命令行交互界面，开始检测我们的输入 SQL 了

String line;
// 默认返回
int ret = 0;
String prefix = "";
String curDB = getFormattedDb(conf, ss);
// hive (default) > 
String curPrompt = prompt + curDB;
String dbSpaces = spacesForString(curDB);
// 循环读取控制台内容
while ((line = reader.readLine(curPrompt + "> ")) != null) {
  // todo 处理回车
  if (!prefix.equals("")) {
    prefix += '\n';
  }
  // todo 读取到 -- 即注释，继续舍弃读取
  if (line.trim().startsWith("--")) {
    continue;
  }
  if (line.trim().endsWith(";") && !line.trim().endsWith("\\;")) {
    line = prefix + line;
    // todo 读取到;结尾，这里开始执行一行sql
    ret = cli.processLine(line, true);
    // todo 执行完，重置 prefix
    prefix = "";
    curDB = getFormattedDb(conf, ss);
    curPrompt = prompt + curDB;
    dbSpaces = dbSpaces.length() == curDB.length() ? dbSpaces : spacesForString(curDB);
  } else {
    // todo 如果不是;结尾，进行追加，直到读取到;
    prefix = prefix + line;
    curPrompt = prompt2 + dbSpaces;
    continue;
  }
}

原来高大上的黑窗口交互页面其实就是 while true 实现的，首先处理回车；处理 – 即 hive 的注释直接 continue 忽略这一行；直到读取到以;结尾且不是\\;的输入，如果不是则继续输入同时把当前行的输入拼接到上次输入之后。最后通过 processLine 来执行，执行完重置 prefix 再次循环接受;的输入。

processLine

上面进入的方法是 processLine(line, true)，true 代表允许打断，可以理解为用户 ctrl c 操作，因此 processLine 最开始是处理打断的逻辑，这类操作本质就是注册一个 JVM 的 hook 程序，检测信号量在 JVM 退出时执行一段退出逻辑，我们可以手写一个类似的程序

import java.util.concurrent.TimeUnit;

public class Test {
  public static void main(String[] args) throws InterruptedException {
    Runtime.getRuntime().addShutdownHook(new Thread(() -> {
      System.out.println("程序异常终止...执行首尾工作");
    }, "hook线程"));

    while (true) {
      System.out.println("消费数据");
      TimeUnit.SECONDS.sleep(1);
    }
  }
}

手动终止程序

而当前的 hook 程序，我们在 ctrl c 时控制台打印的信息就是这里的

Exiting the JVM
Interrupting... Be patient, this might take some time.
Press Ctrl+C again to kill JVM

上面作为一个饭后谈资，不是 hive 的重点，看下面的核心逻辑

// todo 分割 SQL，处理一行多条 SQL 的情况
List<String> commands = splitSemiColon(line);

这行代码是非常细节的，因为上面判断是否是以;结尾并发送到这里，但存在一行有好几个 SQL

hive > use hive; select * from t1;

这行在 hive 是可行的，且从打印信息来看是有两条记录，也就是说 hive 一次只会执行一个独立的 SQL，这也是模块化的思路，设计执行模块的时候肯定是针对单个 SQL，那问题是既然处理多个 SQL，为什么要整一个方法，而且这个方法实现还不简单，直接 line.split(";")不就好了吗？考虑下面的 SQL

hive > use hive; select split(t1.c1,';') from t1

真是细节到家了，最后拿个分割后的 SQL 调用 processCmd 方法，这个方法就是执行单个 SQL

processCmd

// todo 再次见到 SessionState
CliSessionState ss = (CliSessionState) SessionState.get();
ss.setLastCommand(cmd);

ss.updateThreadName();

// Flush the print stream, so it doesn't include output from the last command
ss.err.flush();
String cmd_trimmed = HiveStringUtils.removeComments(cmd).trim();
// todo 将一个 SQL 按照任意多个空格分割成一个个 token
String[] tokens = tokenizeCmd(cmd_trimmed);
int ret = 0;

再次见到 SessionState，同时将 SQL 做一些格式上的处理，去除前后空格，按空格分割成一个个 token等操作，之后对 SQL 或 token 做一些判断

if (cmd_trimmed.toLowerCase().equals("quit") || cmd_trimmed.toLowerCase().equals("exit")) {
  // if we have come this far - either the previous commands
  // are all successful or this is command line. in either case
  // this counts as a successful run
  ss.close();
  System.exit(0);

}

如果 SQL 是 quit、exit 直接正常退出

else if (tokens[0].equalsIgnoreCase("source")) {
  // todo 处理 使用 source 执行 sql 文件
  String cmd_1 = getFirstCmd(cmd_trimmed, tokens[0].length());
  cmd_1 = new VariableSubstitution(new HiveVariableSource() {
    @Override
    public Map<String, String> getHiveVariable() {
      return SessionState.get().getHiveVariables();
    }
  }).substitute(ss.getConf(), cmd_1);

  File sourceFile = new File(cmd_1);
  if (!sourceFile.isFile()) {
    console.printError("File: " + cmd_1 + " is not a file.");
    ret = 1;
  } else {
    try {
      // todo 执行SQL文件
      ret = processFile(cmd_1);
    } catch (IOException e) {
      console.printError("Failed processing file " + cmd_1 + " " + e.getLocalizedMessage(),
                         stringifyException(e));
      ret = 1;
    }
  }
}

取第一个 token 判断是否是 source，source 就是在命令行执行一个 SQL 文件，因此这段逻辑就是 executeDriver 里 -f 的操作，source 的文件不存在得到返回值 ret = 1

else if (cmd_trimmed.startsWith("!")) {
  // todo ! 执行 shell 命令
  // for shell commands, use unstripped command
  String shell_cmd = cmd.trim().substring(1);
  shell_cmd = new VariableSubstitution(new HiveVariableSource() {
    @Override
    public Map<String, String> getHiveVariable() {
      return SessionState.get().getHiveVariables();
    }
  }).substitute(ss.getConf(), shell_cmd);

  // shell_cmd = "/bin/bash -c \'" + shell_cmd + "\'";
  try {
    ShellCmdExecutor executor = new ShellCmdExecutor(shell_cmd, ss.out, ss.err);
    ret = executor.execute();
    if (ret != 0) {
      console.printError("Command failed with exit code = " + ret);
    }
  } catch (Exception e) {
    console.printError("Exception raised from Shell command " + e.getLocalizedMessage(),
                       stringifyException(e));
    ret = 1;
  }
}

判断是否是!开头的，这段是处理在 hive 中执行 shell 命令的操作，如果上面的都不是那就是普通 SQL

if (proc instanceof IDriver) {
  // Let Driver strip comments using sql parser
  ret = processLocalCmd(cmd, proc, ss);
} else {
  ret = processLocalCmd(cmd_trimmed, proc, ss);
}

不用管是哪个 Driver，最终走的都是 processLocalCmd

processLocalCmd

这个方法做的是全流程宏观上的事情，从 SQL 的解析，到 SQL 执行，再到结果打印。

// todo 获取开始时间
long start = System.currentTimeMillis();
if (ss.getIsVerbose()) {
  out.println(cmd);
}
// todo 执行 sql
ret = qp.run(cmd).getResponseCode();
if (ret != 0) {
  qp.close();
  return ret;
}

// query has run capture the time
// todo 获取结束时间
long end = System.currentTimeMillis();
double timeTaken = (end - start) / 1000.0;

qp.run 是真正开始执行本次 SQL，先不看具体的细节是下一节的内容，同时记录执行的时间，作为后面的输出打印

// todo 打印头信息
printHeader(qp, out);

这个方法会根据配置信息hive.cli.print.header判断是否要打印头信息，之后从 qp 中获取执行结果并按行循环打印

console.printInfo("Time taken: " + timeTaken + " seconds" + (counter == 0 ? "" : ", Fetched: " + counter + " row(s)"));

超熟悉是不是，如

hive (default)> select split('123;123',';');
OK
_c0
["123","123"]
Time taken: 1.941 seconds, Fetched: 1 row(s)

就是在这里面打印的，如果后面公司需要修改源码，可以在这里加一些公司信息用来 ZB

回到核心的 qp.run(cmd) 方法，看 hive 如何执行 SQL，明确一下这个是一种多态写法，需要看具体的实现类

因此 CliDriver 的代码就结束了，开始进入 Driver 类，这个类完成了SQL的解析、编译、优化、执行

Driver

run

public CommandProcessorResponse run() {
  return run(null, true);
}

进入重载方法，最后到 runInternal，这是一种常见的写法很多源码都喜欢这么写，提供一个内部的方法

runInternal

这里面做了很多事情，也注册了类似的 hook，感兴趣的可以研究一下，这个方法重点是

if (!alreadyCompiled) {
  // compile internal will automatically reset the perf logger
  compileInternal(command, true);
  // then we continue to use this perf logger
  perfLogger = SessionState.getPerfLogger();
}

开始编译 SQL 了，编译完直接执行，这部分是第三节的内容

try {
  execute();
} catch (CommandProcessorResponse cpr) {
  rollback(cpr);
  throw cpr;
}

compileInternal

try {
	// todo 编译
  compile(command, true, deferClose);
} catch (CommandProcessorResponse cpr) {
  try {
    releaseLocksAndCommitOrRollback(false);
  } catch (LockException e) {
    LOG.warn("Exception in releasing locks. " + org.apache.hadoop.util.StringUtils.stringifyException(e));
  }
  throw cpr;
} finally {
  compileLock.unlock();
}

这里体现出 hive 的源码其实是有点乱的，至少从命名规范来看，不管了继续进入 compile(command, true, deferClose)

compile

重点来了，这个方法有近 300 行，但我们只需要关注 3 行即可，建议直接搜方法名，肉眼不太容易能找到这三行

// todo:解析器。将 SQL -> AST
tree = ParseUtils.parse(command, ctx);

解析器，将我们的 SQL 转换成 AST(抽象语法书)，基于 Antlr 框架直接生成。

// todo:编译器、优化器
sem.analyze(tree, ctx);

AST 编译成 QueryBlock(QB，查询块)
QB 转换成 OperatorTree(操作树，也称逻辑执行计划)
重写逻辑执行计划
OperatorTree 转换成 TaskTree(执行树，也称物理执行计划)
优化物理执行计划

因此这部分是 Hive 最核心的部分没有之一，到这里本节就结束了。下面是本节的类方法调用关系图

下一节将从 compile 开始

你可能感兴趣的:(hive,hadoop,big,data)

Android ViewBinding 使用与封装教程积跬步DEV Android 开发实战大全 android
AndroidViewBinding使用与封装教程：一、ViewBinding是什么？核心功能：为每个XML布局文件自动生成一个绑定类（如ActivityMainBinding），直接暴露所有带ID的视图引用。优点：避免繁琐的findViewById()，类型安全且编译时检查。对比DataBinding：ViewBinding仅处理视图引用，无数据绑定功能。DataBinding支持双向数据绑定，
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
CentOS7环境卸载MySQL5.7 Hadoop_Liang mysql 数据库 mysql
备份重要数据切记，卸载之前先备份mysql重要的数据。备份一个数据库例如：备份名为mydatabase的数据库到backup.sql的文件中mysqldump-uroot-ppassword123mydatabase>backup.sql备份所有数据库mysqldump-uroot-ppassword123--all-databases>all_databases_backup.sql注意：-p后
“Datawhale AI夏令营”基于带货视频评论的用户洞察挑战赛 fzyz123 Datawhale AI夏令营人工智能 Datawhale 大模型技术 NLP 深度学习 AI夏令营
前言：本次是DatawhaleAI夏令营2025年第一期的内容，赛事是：基于带货视频评论的用户洞察挑战赛（科大讯飞AI大赛）一、赛事背景在直播电商爆发式增长浪潮中，短视频平台积累的海量带货视频及用户评论数据蕴含巨大商业价值。这些数据不仅是消费者体验的直接反馈，更是驱动品牌决策的关键资产。用户洞察的核心在于视频内容与评论数据的联合挖掘：通过智能识别推广商品分析评论中的情感表达与观点聚合精准捕捉消费者
C++11中的std::function
文章转载自：http://www.jellythink.com/archives/771看看这段代码先来看看下面这两行代码：std::functiononKeyPressed;std::functiononKeyReleased;这两行代码是从Cocos2d-x中摘出来的，重点是这两行代码的定义啊。std::function这是什么东西？如果你对上述两行代码表示毫无压力，那就不妨再看看本文，就当温
老系统改造增加初始化，自动化数据源配置（tomcat+jsp+springmvc）
老系统改造增加初始化，自动化数据源配置一、前言二、改造描述1、环境说明2、实现步骤简要思考三、开始改造1、准备sql初始化文件2、启动时自动读取jdbc文件，创建数据源，如未配置，需要一个默认的临时数据源2.1去掉spingmvc原本配置的固定dataSource，改为动态dataSource2.2代码类，这里是示例，我就不管规范了，放到一起2.2.1DynamicDataSourceConfig
redis中什么是bigkey？会有什么影响？ Vic2334 redis
什么是bigkey？会有什么影响？bigkey是指key对应的value所占的内存空间比较大，例如一个字符串类型的value可以最大存到512MB，一个列表类型的value最多可以存储23-1个元素。如果按照数据结构来细分的话，一般分为字符串类型bigkey和非字符串类型bigkey。字符串类型：体现在单个value值很大，一般认为超过10KB就是bigkey，但这个值和具体的OPS相关。非字符串
如何发现 Redis 中的 BigKey？ sevevty-seven redis bootstrap 数据库
如何发现Redis中的BigKey？Redis因其出色的性能，常被用作缓存、消息队列和会话存储。然而，在Redis的使用过程中，BigKey是一个不容忽视的问题。BigKey指的是存储了大量数据或包含大量成员的键。它们不仅会占用大量内存，还可能导致网络延迟、主从同步延迟，甚至在极端情况下引发Redis服务崩溃。因此，有效地发现和处理BigKey对于维护Redis服务的稳定性和性能至关重要。本文将深
ETL可视化工具 DataX -- 简介( 一) dazhong2012 软件工具数据仓库 datax ETL
引言DataX系列文章：ETL可视化工具DataX–安装部署(二)ETL可视化工具DataX–DataX-Web安装(三)1.1DataX1.1.1DataX概览DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、
TCP和UDP协议区别+应用场景+优缺点+常用协议马拉萨的春天一天一读基础知识点 tcp/ip udp 网络
文章目录1.TCP协议特点应用场景优点缺点运行于TCP协议之上的协议2.UDP协议特点应用场景优点缺点运行于UDP协议之上的协议TCP（TransmissionControlProtocol）和UDP（UserDatagramProtocol）是两种常用的传输层协议，它们在网络通信中扮演不同的角色，各有优缺点。1.TCP协议特点提供面向连接的、可靠的数据传输服务。使用三次握手建立连接，四次挥手断开
将多个小型YOLO数据集合并为一个大型数据集梦实学习室 YOLO python YOLO python 机器学习
一、将多个小型YOLO数据集合并为一个大型数据集importosimportshutilimportargparsedefmerge_data(source_dir,target_dir,images_dir,labels_dir):images_target=os.path.join(target_dir,images_dir)labels_target=os.path.join(target_
[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
MySQL数据库访问（C/C++）敲上瘾 MySQL数据库 mysql 数据库 c++c语言数据库开发数据库架构
访问数据库的方式：命令行：使用命令行输入SQL指令直接访问。需记忆命令和SQL语法，对新手不友好。正因如此推荐新手使用该方式访问，能倒逼学习者对SQL语法的记忆，并对MySQL更深入理解。图形化界面访问：使用图形化界面工具，如：DBeaver、DataGrip、Navicat、HeidiSQL（MySQL）、MySQLWorkbench。特点：有语法提示，可以直接对数据手动增删改。编程接口：在编写
AWS 管理秘籍（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/cf1c4e1db999839ba88fc56df4011156译者：飞龙协议：CCBY-NC-SA4.0序言AWS平台的增长速度非常快，正在被各行各业广泛采用。正如俗话所说，朋友不会让朋友建立数据中心。不管从哪个角度看，按需计算、网络和存储的模式将持续存在。尤其是当你看到AWS平台在功能和增强方面的更新速度时，很难再去反对站在巨人的肩膀上，尤其是
Flink 2.0 DataStream算子全景 Edingbrugh.南空大数据 flink flink 人工智能
在实时流处理中，ApacheFlink的DataStreamAPI算子是构建流处理pipeline的基础单元。本文基于Flink2.0，聚焦算子的核心概念、分类及高级特性。一、算子核心概念：流处理的"原子操作1.数据流拓扑（StreamTopology）每个Flink应用可抽象为有向无环图（DAG），由源节点（Source）、算子节点（Operator）和汇节点（Sink）构成，算子通过数据流（S
Flink DataStream API详解（一） bxlj_jcj Flink flink 大数据
一、引言Flink的DataStreamAPI，在流处理领域大显身手的核心武器。在很多实时数据处理场景中，如电商平台实时分析用户购物行为以实现精准推荐，金融领域实时监控交易数据以防范风险，DataStreamAPI都发挥着关键作用，能够对源源不断的数据流进行高效处理和分析。接下来，就让我们一起深入探索FlinkDataStreamAPI。二、DataStream编程基础搭建在开始使用FlinkDa
AWS Terraform 架构指南（二）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/8b2d222956a050c7632b9eee086dadcf译者：飞龙协议：CCBY-NC-SA4.0第七章：7在项目中实现Terraform您准备好开始使用Terraform开发您的AWS基础设施了吗？在本章中，您将学习Terraform的基础知识，并了解如何在AWS中部署您的第一个模板。我们将介绍选择合适的AWS提供商和选择满足您项目需求的
Flink DataStream API详解（二）
一、引言咱两书接上回，上一篇文章主要介绍了DataStreamAPI一些基本的使用，主要是针对单数据流的场景下，但是在实际的流处理场景中，常常需要对多个数据流进行合并、拆分等操作，以满足复杂的业务需求。Flink的DataStreamAPI提供了一系列强大的多流转换算子，如union、connect和split等，下面我们来详细了解一下它们的功能和用法。二、多流转换2.1union算子union算
docker常见问题解决方法小王聊技术 docker
目录迁移至其他服务器清理Docker占用的磁盘空间常见问题：迁移至其他服务器1.将docker容器导出dockerexport-o保存路径/xxx.tar容器id2.将容器tar远程拷贝到新的服务器(从新的服务器上向老服务器上请求复制)scproot@服务器地址:/data/xxx.tar/root3.将导入的tar包转为镜像dockerimport-cxxx.tarimage_name:tag
vue如何实现Cascader 级联选择器(二级全部选中只展示一级，三级全部选中只展示二级) 小周同学: vue vue.js
select提交重置级联exportdefault{data(){return{ruleForm:{selectLabel:[],idList:[],},citiesList:[],rules:{selectLabel:[{type:'array',required:true,message:'多选不能为空',trigger:'change'}],},props:{multiple:true,va
Redis第五讲：详解 Redis 中 BigKey、HotKey 的发现与处理程序员 jet_qi 深入理解数据库 redis 数据库缓存大key 热点key
简介：在Redis的使用过程中，我们经常会遇到BigKey（下文将其称为“大key”）及HotKey（下文将其称为“热key”）。大Key与热Key如果未能及时发现并进行处理，很可能会使服务性能下降、用户体验变差，甚至引发大面积故障。本文详解Redis中BigKey、HotKey的发现与处理。文章目录1、大Key与热Key的定义1.1、什么是大Key1.2、什么是热Key2、大Key与热Key带来
如何发现Redis中的bigkey？代码中の快捷键 redis 数据库缓存
如何发现Redis中的bigkey？我主要用这几个方法：redis-cli--bigkeys(最常用，最省事)：直接在命令行敲这个命令：redis-cli-h你的redis地址-p端口--bigkeys作用：它会自动扫描整个数据库。结果：告诉你每种数据类型（String,Hash,List,Set,ZSet）里最大的那个key是什么，有多大（比如String多大，List有多少元素）。优点：简单、
pandas销售数据分析
pandas销售数据分析数据保存在data目录消费者数据：customers.csv商品数据：products.csv交易数据：transactions.csvcustomers.csv数据结构：字段描述customer_id客户IDgender性别age年龄region地区membership_date会员日期products.csv数据结构：字段描述product_id产品IDcategory
MyBatis-Plus 使用wrapper自定义SQL
MyBatis-Plus使用wrapper自定义SQL，以下是单表查询。官方文档官方的例子：//mapper接口@Select("select*frommysql_data${ew.customSqlSegment}")ListgetAll(@Param(Constants.WRAPPER)Wrapperwrapper);//xmlListgetAll(Wrapperew);SELECT*FROM
Mysql数据库可以使用命令行msyql -u root -p连接，但是Navicat连不上 2501_92753117 数据库 mysql
1.Mysql服务启动1.1输入命令回车输入密码可以正常连接msyql-uroot-p1.1.2Navicat连不上2.解决方案2.1连接mysqlmsyql-uroot-p1.2.2查询所有数据库showdatabases;1.2.3切换到mysql数据库usemysql;1.2.4查询hostSELECThost,userFROMuserWHEREuser='root';1.2.5更新任意ip
Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
python把竖着的变成横着的数_python – Reportlab：如何切换纵向和横向？ weixin_39524703
我正在使用reportlab从动态数据自动生成pdf报告.由于内容有时太大,无法以纵向显示,所以我正在为大量内容切换到景观.以下是我的报告生成工作原理：主功能：doc=DocTemplate(...)//DoctemplateisacustomedBaseDocTemplateclassarray=[]some_data="Hereissomedatadisplayedinportrait"arr
精益敏捷之道（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/0b2addbef6e2afb0ce49d44d7300959a译者：飞龙协议：CCBY-NC-SA4.0前言“精益敏捷之道：通过价值流管理释放企业潜力”一书源于首席作者塞西尔·‘加里’·鲁普与尊敬的同事理查德·克纳斯特、史蒂夫·佩雷拉和艾尔·沙洛韦的合作努力。他们的目标是为IT专家、商业专业人士以及各行业和组织的领域专家提供一本关于现代精益敏捷和
Python DevOps 实用指南（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/0228db3442938136abc9262d5596d201译者：飞龙协议：CCBY-NC-SA4.0序言欢迎阅读本书！让我们来谈谈本书的内容以及你将从中学到的东西。本书涉及两件事：DevOps和Python。它讲述了这两者是如何相互作用的——无论你称它们为实体、哲学、框架，或者其他任何名称。本书将帮助你在技术层面上理解Python，同时也在概
Python 取证学习指南第二版（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/46c71d4b3d6fceaba506eebc55284aa5译者：飞龙协议：CCBY-NC-SA4.0前言在编写《学习Python取证》一书时，我们有一个目标：以一种方式教授Python在取证中的应用，使得没有编程经验的读者可以立即跟随并开发出可以用于案件工作中的实用代码。但这并不意味着本书仅适合Python新手；在整个过程中，我们会逐步让读者
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe