wangzhaotongalex

hadoop脚本解析

“兵马未动，粮草先行”，要想深入的了解hadoop，我觉得启动或停止hadoop的脚本是必须要先了解的。说到底，hadoop就是一个分布式存储和计算框架，但是这个分布式环境是如何启动，管理的呢，我就带着大家先从脚本入手吧。说实话，hadoop的启动脚本写的真好，里面考虑的地方非常周全（比如说路径中有空格，软连接等）。

1、hadoop脚本简单介绍

hadoop的脚本分布在$HADOOP_HOME下面的bin目录下和conf文件夹下，主要介绍如下：

bin目录下
hadoop hadoop底层核心脚本，所有分布式程序最终都是通过这个脚本启动的。
hadoop-config.sh 基本别的脚本都会内嵌调用这个脚本，这个脚本作用就是解析命令行可选参数（--config ：hadoop conf文件夹路径和--hosts）
hadoop-daemon.sh 启动或停止本机command参数所指定的分布式程序，通过调用hadoop脚本实现。
hadoop-daemons.sh 启动所有机器上的hadoop分布式程序，通过调用slaves.sh实现。
slaves.sh 在所有的机器上运行一组指定的命令（通过ssh无密码登陆），供上层使用。
start-dfs.sh 在本机启动namenode，在slaves机器上启动datanode，在master机器上启动secondarynamenode，通过调用hadoop-daemon.sh和hadoop-daemons.sh实现。
start-mapred.sh 在本机启动jobtracker，在slaves机器上启动tasktracker，通过调用hadoop-daemon.sh和hadoop-daemons.sh实现。
start-all.sh 启动所有分布式hadoop程序，通过调用start-dfs.sh和start-mapred.sh实现。
start-balancer.sh 启动hadoop分布式环境复杂均衡调度程序，平衡各节点存储和处理能力。
还有几个stop 脚本，就不用详细说了。

conf目录下
hadoop-env.sh 配置hadoop运行时所需要的一些参数变量，比如JAVA_HOME,HADOOP_LOG_DIR,HADOOP_PID_DIR等。

2、脚本的魅力（详细解释）

hadoop的脚本写的真好，不服不行，从中学习到了好多知识。

2.1、hadoop-config.sh

这个脚本比较简单，而且基本其他脚本都内嵌通过“. $bin/hadoop-config.sh”的形式调用此脚本，所以这个脚本就不用在第一行声明解释权，因为这种调用方式类似于把此脚本内容复制到父脚本里在同一个解释器里面运行。

这个脚本主要做三部分内容：

1、软连接解析和绝对路径解析

[html]  view plain copy print ?   
      
     
 #软连接解析  
 this="$0"  
 while [ -h "$this" ]; do  
   ls=`ls -ld "$this"`  
   link=`expr "$ls" : '.*-> \(.*\)$'`  
   if expr "$link" : '.*/.*' > /dev/null; then  
     this="$link"  
   else  
     this=`dirname "$this"`/"$link"  
   fi  
 done  
   
 #绝对路径解析  
 # convert relative path to absolute path  
 bin=`dirname "$this"`  
 script=`basename "$this"`  
 bin=`cd "$bin"; pwd`  
 this="$bin/$script"  
   
 # the root of the Hadoop installation  
 export HADOOP_HOME=`dirname "$this"`/..  

2、命令行可选参数--config解析并赋值

[html]  view plain copy print ?   
      
     
 #check to see if the conf dir is given as an optional argument  
 if [ $# -gt 1 ]  
 then  
     if [ "--config" = "$1" ]  
       then  
           shift  
           confdir=$1  
           shift  
           HADOOP_CONF_DIR=$confdir  
     fi  
 fi  

3、命令行可选参数--config解析并赋值

[html]  view plain copy print ?   
      
     
 #check to see it is specified whether to use the slaves or the  
 # masters file  
 if [ $# -gt 1 ]  
 then  
     if [ "--hosts" = "$1" ]  
     then  
         shift  
         slavesfile=$1  
         shift  
         export HADOOP_SLAVES="${HADOOP_CONF_DIR}/$slavesfile"  
     fi  
 fi  

2.2、hadoop

此脚本是hadoop脚本的核心，变量的设置，程序的启动都是通过这个脚本做的。

1、声明使用方法

[html]  view plain copy print ?   
      
     
 # if no args specified, show usage  
 if [ $# = 0 ]; then  
   echo "Usage: hadoop [--config confdir] COMMAND"  
   echo "where COMMAND is one of:"  
   echo "  namenode -format     format the DFS filesystem"  
   echo "  secondarynamenode    run the DFS secondary namenode"  
   echo "  namenode             run the DFS namenode"  
   echo "  datanode             run a DFS datanode"  
   echo "  dfsadmin             run a DFS admin client"  
   echo "  mradmin              run a Map-Reduce admin client"  
   echo "  fsck                 run a DFS filesystem checking utility"  
   echo "  fs                   run a generic filesystem user client"  
   echo "  balancer             run a cluster balancing utility"  
   echo "  jobtracker           run the MapReduce job Tracker node"   
   echo "  pipes                run a Pipes job"  
   echo "  tasktracker          run a MapReduce task Tracker node"   
   echo "  job                  manipulate MapReduce jobs"  
   echo "  queue                get information regarding JobQueues"   
   echo "  version              print the version"  
   echo "  jar <jar>            run a jar file"  
   echo "  distcp <srcurl> <desturl> copy file or directories recursively"  
   echo "  archive -archiveName NAME <src>* <dest> create a hadoop archive"  
   echo "  daemonlog            get/set the log level for each daemon"  
   echo " or"  
   echo "  CLASSNAME            run the class named CLASSNAME"  
   echo "Most commands print help when invoked w/o parameters."  
   exit 1  
 fi  

2、设置java运行环境

代码简单，就不写出来了，包括JAVA_HOME，JAVA_HEAP_MAX，CLASSPATH，HADOOP_LOG_DIR，HADOOP_POLICYFILE。其中用到了设置IFS-储界定符号的环境变量，默认值是空白字符(换行，制表符或者空格)。

3、根据cmd设置运行时class

[html]  view plain copy print ?   
     
    
 # figure out which class to run  
 if [ "$COMMAND" = "namenode" ] ; then  
   CLASS='org.apache.hadoop.hdfs.server.namenode.NameNode'  
   HADOOP_OPTS="$HADOOP_OPTS $HADOOP_NAMENODE_OPTS"  
 elif [ "$COMMAND" = "secondarynamenode" ] ; then  
   CLASS='org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode'  
   HADOOP_OPTS="$HADOOP_OPTS $HADOOP_SECONDARYNAMENODE_OPTS"  
 elif [ "$COMMAND" = "datanode" ] ; then  
   CLASS='org.apache.hadoop.hdfs.server.datanode.DataNode'  
   HADOOP_OPTS="$HADOOP_OPTS $HADOOP_DATANODE_OPTS"  
 elif [ "$COMMAND" = "fs" ] ; then  
   CLASS=org.apache.hadoop.fs.FsShell  
   HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"  
 elif [ "$COMMAND" = "dfs" ] ; then  
   CLASS=org.apache.hadoop.fs.FsShell  
   HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"  
 elif [ "$COMMAND" = "dfsadmin" ] ; then  
   CLASS=org.apache.hadoop.hdfs.tools.DFSAdmin  
   HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"  
 elif [ "$COMMAND" = "mradmin" ] ; then  
   CLASS=org.apache.hadoop.mapred.tools.MRAdmin  
   HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"  
 elif [ "$COMMAND" = "fsck" ] ; then  
   CLASS=org.apache.hadoop.hdfs.tools.DFSck  
   HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"  
 elif [ "$COMMAND" = "balancer" ] ; then  
   CLASS=org.apache.hadoop.hdfs.server.balancer.Balancer  
   HADOOP_OPTS="$HADOOP_OPTS $HADOOP_BALANCER_OPTS"  
 elif [ "$COMMAND" = "jobtracker" ] ; then  
   CLASS=org.apache.hadoop.mapred.JobTracker  
   HADOOP_OPTS="$HADOOP_OPTS $HADOOP_JOBTRACKER_OPTS"  
 elif [ "$COMMAND" = "tasktracker" ] ; then  
   CLASS=org.apache.hadoop.mapred.TaskTracker  
   HADOOP_OPTS="$HADOOP_OPTS $HADOOP_TASKTRACKER_OPTS"  
 elif [ "$COMMAND" = "job" ] ; then  
   CLASS=org.apache.hadoop.mapred.JobClient  
 elif [ "$COMMAND" = "queue" ] ; then  
   CLASS=org.apache.hadoop.mapred.JobQueueClient  
 elif [ "$COMMAND" = "pipes" ] ; then  
   CLASS=org.apache.hadoop.mapred.pipes.Submitter  
   HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"  
 elif [ "$COMMAND" = "version" ] ; then  
   CLASS=org.apache.hadoop.util.VersionInfo  
   HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"  
 elif [ "$COMMAND" = "jar" ] ; then  
   CLASS=org.apache.hadoop.util.RunJar  
 elif [ "$COMMAND" = "distcp" ] ; then  
   CLASS=org.apache.hadoop.tools.DistCp  
   CLASSPATH=${CLASSPATH}:${TOOL_PATH}  
   HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"  
 elif [ "$COMMAND" = "daemonlog" ] ; then  
   CLASS=org.apache.hadoop.log.LogLevel  
   HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"  
 elif [ "$COMMAND" = "archive" ] ; then  
   CLASS=org.apache.hadoop.tools.HadoopArchives  
   CLASSPATH=${CLASSPATH}:${TOOL_PATH}  
   HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"  
 elif [ "$COMMAND" = "sampler" ] ; then  
   CLASS=org.apache.hadoop.mapred.lib.InputSampler  
   HADOOP_OPTS="$HADOOP_OPTS $HADOOP_CLIENT_OPTS"  
 else  
   CLASS=$COMMAND  
 fi  

4、设置本地库

[html]  view plain copy print ?   
     
    
 # setup 'java.library.path' for native-hadoop code if necessary  
 JAVA_LIBRARY_PATH=''  
 if [ -d "${HADOOP_HOME}/build/native" -o -d "${HADOOP_HOME}/lib/native" ]; then  
 #通过运行一个java 类来决定当前平台，挺有意思  
   JAVA_PLATFORM=`CLASSPATH=${CLASSPATH} ${JAVA} -Xmx32m org.apache.hadoop.util.PlatformName | sed -e "s/ /_/g"`  
     
   if [ -d "$HADOOP_HOME/build/native" ]; then  
     JAVA_LIBRARY_PATH=${HADOOP_HOME}/build/native/${JAVA_PLATFORM}/lib  
   fi  
     
   if [ -d "${HADOOP_HOME}/lib/native" ]; then  
     if [ "x$JAVA_LIBRARY_PATH" != "x" ]; then  
       JAVA_LIBRARY_PATH=${JAVA_LIBRARY_PATH}:${HADOOP_HOME}/lib/native/${JAVA_PLATFORM}  
     else  
       JAVA_LIBRARY_PATH=${HADOOP_HOME}/lib/native/${JAVA_PLATFORM}  
     fi  
   fi  
 fi  

5、运行分布式程序

[html]  view plain copy print ?   
     
    
 # run it  
 xec "$JAVA" $JAVA_HEAP_MAX $HADOOP_OPTS -classpath "$CLASSPATH" $CLASS "$@"  

2.3、hadoop-daemon.sh

启动或停止本机command参数所指定的分布式程序，通过调用hadoop脚本实现，其实也挺简单的。

1、声明使用方法

[html]  view plain copy print ?   
     
    
 usage="Usage: hadoop-daemon.sh [--config <conf-dir>] [--hosts hostlistfile] (start|stop) <hadoop-command> <args...>"  
   
 # if no args specified, show usage  
 if [ $# -le 1 ]; then  
   echo $usage  
   exit 1  
 fi  

2、设置环境变量

首先内嵌运行hadoop-env.sh脚本，然后设置HADOOP_PID_DIR等环境变量。

3、启动或停止程序

[html]  view plain copy print ?   
     
    
 case $startStop in  
   
   (start)  
   
     mkdir -p "$HADOOP_PID_DIR"  
   
     if [ -f $pid ]; then  
     #如果程序已经启动的话，就停止，并退出。  
       if kill -0 `cat $pid` > /dev/null 2>&1; then  
         echo $command running as process `cat $pid`.  Stop it first.  
         exit 1  
       fi  
     fi  
   
     if [ "$HADOOP_MASTER" != "" ]; then  
       echo rsync from $HADOOP_MASTER  
       rsync -a -e ssh --delete --exclude=.svn --exclude='logs/*' --exclude='contrib/hod/logs/*' $HADOOP_MASTER/ "$HADOOP_HOME"  
     fi  
 # rotate 当前已经存在的log  
     hadoop_rotate_log $log  
     echo starting $command, logging to $log  
     cd "$HADOOP_HOME"  
     #通过nohup 和bin/hadoop脚本启动相关程序  
     nohup nice -n $HADOOP_NICENESS "$HADOOP_HOME"/bin/hadoop --config $HADOOP_CONF_DIR $command "$@" > "$log" 2>&1 < /dev/null &  
     #获取新启动的进程pid并写入到pid文件中  
     echo $! > $pid  
     sleep 1; head "$log"  
     ;;  
             
   (stop)  
   
     if [ -f $pid ]; then  
       if kill -0 `cat $pid` > /dev/null 2>&1; then  
         echo stopping $command  
         kill `cat $pid`  
       else  
         echo no $command to stop  
       fi  
     else  
       echo no $command to stop  
     fi  
     ;;  
   
   (*)  
     echo $usage  
     exit 1  
     ;;  
 esac  

2.4、slaves.sh

在所有的机器上运行一组指定的命令（通过ssh无密码登陆），供上层使用。

1、声明使用方法

[html]  view plain copy print ?   
     
    
 usage="Usage: slaves.sh [--config confdir] command..."  
   
 # if no args specified, show usage  
 if [ $# -le 0 ]; then  
   echo $usage  
   exit 1  
 fi  

2、设置远程主机列表

[html]  view plain copy print ?   
     
    
 # If the slaves file is specified in the command line,  
 # then it takes precedence over the definition in   
 # hadoop-env.sh. Save it here.  
 HOSTLIST=$HADOOP_SLAVES  
   
 if [ -f "${HADOOP_CONF_DIR}/hadoop-env.sh" ]; then  
   . "${HADOOP_CONF_DIR}/hadoop-env.sh"  
 fi  
   
 if [ "$HOSTLIST" = "" ]; then  
   if [ "$HADOOP_SLAVES" = "" ]; then  
     export HOSTLIST="${HADOOP_CONF_DIR}/slaves"  
   else  
     export HOSTLIST="${HADOOP_SLAVES}"  
   fi  
 fi  

3、分别在远程主机执行相关命令

[html]  view plain copy print ?   
     
    
 #挺重要，里面技术含量也挺高，对远程主机文件进行去除特殊字符和删除空行；对命令行进行空格替换，并通过ssh在目标主机执行命令；最后等待命令在所有目标主机执行完后，退出。  
 for slave in `cat "$HOSTLIST"|sed  "s/#.*$//;/^$/d"`; do  
  ssh $HADOOP_SSH_OPTS $slave $"${@// /\\ }" \  
    2>&1 | sed "s/^/$slave: /" &  
  if [ "$HADOOP_SLAVE_SLEEP" != "" ]; then  
    sleep $HADOOP_SLAVE_SLEEP  
  fi  
 done  
   
 wait  

2.5、hadoop-daemons.sh

启动远程机器上的hadoop分布式程序，通过调用slaves.sh实现。

1、声明使用方法

[html]  view plain copy print ?   
      
     
 # Run a Hadoop command on all slave hosts.  
   
 usage="Usage: hadoop-daemons.sh [--config confdir] [--hosts hostlistfile] [start|stop] command args..."  
   
 # if no args specified, show usage  
 if [ $# -le 1 ]; then  
   echo $usage  
   exit 1  
 fi  

2、在远程主机调用命令

[html]  view plain copy print ?   
      
     
 #通过salves.sh来实现  
 exec "$bin/slaves.sh" --config $HADOOP_CONF_DIR cd "$HADOOP_HOME" \; "$bin/hadoop-daemon.sh" --config $HADOOP_CONF_DIR "$@"  

2.6、start-dfs.sh

在本机（调用此脚本的主机）启动namenode，在slaves机器上启动datanode，在master机器上启动secondarynamenode，通过调用hadoop-daemon.sh和hadoop-daemons.sh实现。

1、声明使用方式

[html]  view plain copy print ?   
     
    
 # Start hadoop dfs daemons.  
 # Optinally upgrade or rollback dfs state.  
 # Run this on master node.  
   
 usage="Usage: start-dfs.sh [-upgrade|-rollback]"  

2、启动程序

[html]  view plain copy print ?   
     
    
 # start dfs daemons  
 # start namenode after datanodes, to minimize time namenode is up w/o data  
 # note: datanodes will log connection errors until namenode starts  
 #在本机（调用此脚本的主机）启动namenode  
 "$bin"/hadoop-daemon.sh --config $HADOOP_CONF_DIR start namenode $nameStartOpt  
 #在slaves机器上启动datanode  
 "$bin"/hadoop-daemons.sh --config $HADOOP_CONF_DIR start datanode $dataStartOpt  
 #在master机器上启动secondarynamenode  
 "$bin"/hadoop-daemons.sh --config $HADOOP_CONF_DIR --hosts masters start secondarynamenode  

2.7、start-mapred.sh

在本机（调用此脚本的主机）启动jobtracker，在slaves机器上启动tasktracker，通过调用hadoop-daemon.sh和hadoop-daemons.sh实现。

[html]  view plain copy print ?   
      
     
  # start mapred daemons  
 # start jobtracker first to minimize connection errors at startup  
 #在本机（调用此脚本的主机）启动jobtracker  
 "$bin"/hadoop-daemon.sh --config $HADOOP_CONF_DIR start jobtracker  
 #在master机器上启动tasktracker  
 "$bin"/hadoop-daemons.sh --config $HADOOP_CONF_DIR start tasktracker  

其他的脚本就都已经非常简单了，不用再详细说明了，只要看下，大致都能看懂。

对了，最后再说下hadoop的脚本里面用的shell解释器的声明吧。

[html]  view plain copy print ?   
     
 #!/usr/bin/env bash

作用就是适应各种linux操作系统，能够找到 bash shell来解释执行本脚本，也挺有用的。

高效运维工具箱：精选10款Linux运维神器（非常详细）零基础入门到精通，收藏这一篇就够了_运维工程师脚本软件狂野帅哥运维 linux 服务器网络安全 web安全计算机网络系统安全
运维工程师在日常工作中频繁运用的10款工具，并细致阐述每款工具的功能、适用场景以及其卓越之处。1.Shell脚本功能：主要用于自动化任务和批处理作业。适用场景：频繁用于文件处理、系统管理、简单的网络管理等操作。优势：灵活且强大，能够直接与系统进行交互操作。实例：运维工程师常常使用Shell脚本来批量修改服务器上的配置文件。#!/bin/bash#配置文件的路径``config_path="/pat
机器学习核心评估指标解析：AUC-ROC、RMSE、轮廓系数与PR AUC详解奋斗者1号机器学习人工智能
机器学习术语详解1.AUC-ROC(AreaUndertheROCCurve)定义AUC-ROC是评估二分类模型性能的指标，通过绘制真正例率（TPR，纵轴）和假正例率（FPR，横轴）的ROC曲线，计算曲线下的面积。AUC值越接近1，模型性能越好；0.5表示随机猜测。使用场景适用于需要平衡分类器在正负类上表现的任务（如医学诊断、信用评分）。尤其在类别相对均衡时，ROC曲线能直观反映模型在不同阈值下的
Docker run -e 环境变量传值并使用Python获取一个叫欧维的程序员在此写博客 Docker docker python 容器
Dockerrun-e环境变量传值并使用Python获取背景docker镜像中的Python程序，需要根据测试、生产环境的不同，使用不同的环境变量。因此，需要在docker镜像启动时，传入不同的环境变量，供内部Python程序调用实现start.sh在docker镜像（docker_env_run_demo:1.0）中编写脚本，声明环境变量#环境变量echo"flag1=${flag1}"echo
java导出/解析excel 深圳厨神 java excel 开发语言
本文有三个方法：1，导出excel模板，只有表头2，导出excel，将数据导出为excel3，解析excelpackagecom.hebi.util;importorg.apache.poi.hssf.usermodel.HSSFCell;importorg.apache.poi.hssf.usermodel.HSSFCellStyle;importorg.apache.poi.hssf.user
uvm configuration weifexie UVM uvm systemverilog configuration
UVMConfiguration机制详解UVM的配置机制（ConfigurationMechanism）是验证环境中实现参数传递和动态配置的核心方法，通过uvm_config_db类实现跨组件的数据共享和灵活配置。以下是其核心概念、使用方法和最佳实践的详细解析：1.核心概念目的：在不直接修改组件代码的前提下，动态传递参数、接口句柄或对象，提升验证环境的灵活性和复用性。核心类：uvm_config_
uvm factory weifexie UVM uvm systemverilog factory
UVMFactory是验证环境中实现动态对象和组件创建的核心机制，它通过类型注册和覆盖（Override）机制，允许在不修改原有代码的情况下替换组件或事务类型，从而提升验证环境的灵活性和可重用性。以下是Factory机制的详细解析：Factory的核心概念核心作用：动态对象创建：通过类型名称（字符串）或代理类（ProxyClass）创建对象。类型覆盖：在运行时替换默认组件或事务类型（例如将普通Dr
perl 高阶语法 weifexie Perl scala 开发语言后端 perl
perl栏分为perl基本语法、高阶语法、和一个perl自动化脚本生成器案例。语法部分是笔者学习perl的总结，并非原创。案例是笔者原创。perl高阶语法Contentsprint6语法.6文件句柄.6打开文件句柄.6标量变量中的文件句柄.7返回文件句柄.7glob函数.8描述.8语法.8perlregularexpression9形式.9匹配.9替换.9转化.9模式匹配修饰符.10正则表达式变量
Python高级：GIL、C扩展与分布式系统深度解析幼儿园扛把子\ python 开发语言
文章目录**前言****第一章：Python语言的本质与生态**1.1**Python的实现与版本演进**1.2**开发环境与工具链****第二章：元编程与动态特性**2.1**描述符协议（DescriptorProtocol）**2.2**元类（Metaclass）**2.3**动态代码生成****第三章：并发与高性能编程**3.1**多线程与GIL（全局解释器锁）**3.2**异步IO与协程*
Canvas渲染管线解析：从API调用到像素落地的全过程沐土Arvin 信息可视化前端 javascript html css
1.Canvas基本定义★了解Canvas是HTML5提供的一个通过JavaScript来绘制图形的元素。它提供了一个空白的绘图区域，开发者可以使用JavaScript脚本在其中绘制各种图形、动画、游戏画面等。2.Canvas使用场景★了解数据可视化：绘制图表、图形等游戏开发：HTML5游戏图像处理：滤镜、像素操作动画效果：创建动态视觉效果交互式图形：绘图应用、设计工具教育演示：数学函数可视化等3
RISC_V GPU skybox 系列之rtlsim运行测试(4) CDerL skybox _core skybox rtlsim
RISC_VGPUskybox系列之rtlsim运行测试(2-3)中，我们介绍了1-5部分内容，这里我们继续介绍。1.初始化退出码//见RISC_VGPUskybox系列之rtlsim运行测试(2)2.解析命令行参数//见RISC_VGPUskybox系列之rtlsim运行测试(2)3.创建内存模块和处理器//见RISC_VGPUskybox系列之rtlsim运行测试(2)4.关联内存模块和处理器
多维数据聚合方案：SQL GROUPING SETS深度解析水涵幽树 sql 数据库后端 mysql java
一、什么是GROUPINGSETS？GROUPINGSETS是SQL标准中的多维聚合运算符，允许在单个查询中实现多维度组合的分组统计。相较于传统UNIONALL方案，性能可提升3-10倍（TPC-DS基准测试）。二、核心语法解析SELECTcolumn1,column2,SUM(metric)FROMtableGROUPBYGROUPINGSETS((column1),--维度1单独分组(colu
MySQL字符串处理神器：SUBSTRING_INDEX函数深度解析水涵幽树 mysql 数据库 sql 后端学习 clickhouse
一、函数概述SUBSTRING_INDEX是MySQL中用于按分隔符截取字符串的核心函数，特别适合处理包含固定分隔符的文本数据（如日志、路径、标签等）。二、语法结构SUBSTRING_INDEX(str,delimiter,count)str：被处理的原始字符串（支持字段名）delimiter：分隔符（区分大小写）count：截取方向控制参数正数：从左往右截取前N段负数：从右往左截取前N段三、核心
linux shell获取当前脚本所在目录 qq_863909 linux 运维服务器
1.获得shell脚本所在的绝对路径CURRENT_DIR=$(cd$(dirname$0);pwd)或者CURRENT_DIR=$(cd`dirname$0`;pwd)执行步骤解析：dirname$0:取得当前执行的脚本文件所在的目录；cd:进入当前工作目录；pwd:显示当前工作目录；将当前工作目录输出给变量CURRENT_DIR。2.获得shell脚本所在目录的父级目录的绝对路径由于能1获得s
[运维|SHELL] SHELL获取脚本所在目录（笔记）梦醒贰零壹柒 SHELL脚本 linux shell
SHELL获取脚本所在目录script_dir=$(dirname"$0")echo"脚本所在目录:$script_dir"
shell脚本里相对路径转绝对路径 caz28 Linux 脚本语言 linux shell 相对路径绝对路径
一个shell脚本A，要调用另一个脚本B，参数需要绝对路径，因为脚本B里有目录进出操作。但如果脚本A里，调用时写成绝对路径，父目录变化时，就需要手工修改脚本。CURRENT_PATH=$(cd$(dirname$0);pwd)echo${CURRENT_PATH}ABSOLUTE_PATH=$(cd$CUR_PATH/../../aaa/bbb;pwd)echo${ABSOLUTE_PATH}通过
大数据必学免费、开源分布式数据库——Apache Hive 遇码大数据数据仓库开源 hive hadoop sql 数据库 Apache Hive
Hive是大数据开发、分析领域无法绕开的一个话题。我将分认识Hive、快速部署、快速入门等几个模块为同学们详细地介绍Hive，期望可以为刚刚接触大数据领域的同学们建立一个初步的认知。Hive是什么Hive，又称ApacheHive，由Facebook开源用于解决海量结构化日志的数据统计工具。Hive是基于ApacheHadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查
【Mysql】SQL 优化全解析小样vvv mysql sql 数据库
文章目录一、理解执行计划1.1执行计划的作用1.2查看执行计划二、查询优化2.1避免全表扫描2.2使用覆盖索引2.3合理使用JOIN三、索引优化3.1索引设计原则3.2索引维护在数据驱动的当今时代，MySQL作为应用广泛的开源关系型数据库，肩负着存储和处理大量关键业务数据的重任。而决定MySQL数据库性能优劣的核心因素，正是高效的SQL语句。一条未经优化的SQL，不仅可能导致系统响应迟缓，在高并发
Matlab建模脚本工具之——批量改颜色 gaoxuexidan0307 Matlab脚本小工具 matlab
一、前言当模型完成之后，若模型较大层级较多时，想统一建模颜色风格，就可以制作一个m脚本工具来批量改色。二、脚本制作1、新建一个GUI界面创建一个GUI界面，思考需要多选项的内容，如下：1）改色的对象有哪些类型子系统、接口、标定量、常量、信号线等设置为可选2）改色的模型层级检索模型的深度设置为可选3）改色的颜色颜色设置为可选那么界面可以设计为如下：至于其中的多选项，双击后，在String中列举。将R
记一个阿里云CDN域名配置不当引起服务鉴权失效问题 DavidSoCool 小问题阿里云云计算 CDN
背景：公司最近需要通过不同的域名提供给不同角色的用户使用，在阿里云上新增了多个域名，新域名与原域名指向的是一样的服务器地址。问题现象：用户使用新域名登录后，返回的不是该用户的身份信息，不管是哪个账号，登录后返回的都是第一个使用该域名登录的用户信息，并且原先有鉴权的接口，现在通过该域名访问都不需要写在JWT凭证就能访问成功。排查：1、排查服务器生成、解析JWT的代码，仔细排查发现没有问题。2、排查服
ffmpeg-学习计划 hello-world-via ffmpeg
一、音视频基础知识掌握以下的基础知识，针对每个知识点，要做好学习笔记，资源来自大雷神的博客，以及自己上网搜相关的资料RGB、YUV像素数据处理-(1day)PCM音频采样数据处理-(1day)H.264视频码流解析-(1day)AAC音频码流解析-(1day)FLV封装格式解析-(1day)UDP-RTP协议解析-(1day)二、ffmpeg程序的使用（ffmpeg.exe，ffplay.exe，
【音视频学习笔记】- FFMPEG - 1.命令行参数解析及生效过程 Y&LOVE&G ffmpeg 音视频学习笔记
目录一、文章简介二、源码阅读2.1代码位置2.2主要功能及函数介绍2.2.1解析命令行参数及参数生效2.2.2解析命令行参数2.2.3处理命令行的全局参数2.2.4打开输入文件(输入参数生效)2.2.5打开输出文件(输出参数生效)音视频学习笔记系列主要介绍笔者在学习音视频过程中，学习了解到的音视频相关知识点，涉及内容包括但不限于音视频基础、音视频封装、传输协议、FFMPEG。本系列持续更新一、文章
学习ffmpeg-从了解开始邪恶的贝利亚 FFMPEG 学习 ffmpeg
前言：从安装开始sudoaptupdatesudoaptinstallffmpegffmpeg的基本组成模块名称功能描述主要用途AVFormat实现媒体封装格式的处理，支持多种音视频容器格式（如MP4、AVI、MKV等）。-读取和解析音视频文件的容器格式-封装和复用音视频流-支持流媒体协议（如RTMP、HTTP）AVCodec提供音视频编解码器，支持多种编解码格式（如H.264、AAC、MP3等）
Nillion 项目深度解析：代币、团队与投资全剖析 AC_HUB 888 区块链比特币 web3 去中心化人工智能
最近Nillion（$NIL）热度挺高，通过广泛收集和深入研读Nillion项目的白皮书、官方文档以及各个渠道相关项目资料，我们做了一个详细的研究，今天我就带你们拆解一下它的代币经济学、团队背景和投资情况，看看它到底值不值得我们关注！代币经济学：设计精妙，激励多元Nillion的原生代币为$NIL，总供应量10亿枚，初始流通量约19.52%，每年通胀率1%。不算多也不少，挺平衡的一个数字。$NIL
Spring IoC容器：原理与实现机制深度解析程序媛学姐 Java Spring 全家桶 spring rpc java
文章目录引言一、IoC的核心概念二、SpringIoC容器的核心接口三、Bean的生命周期管理四、依赖注入的实现方式五、IoC容器的初始化过程六、循环依赖的解决方案七、基于注解的IoC配置八、IoC容器的设计模式应用总结引言Spring框架是Java企业级应用开发中的核心框架，其中IoC（InversionofControl，控制反转）容器是Spring的基础和精髓。IoC通过将对象创建和依赖关系
Spring中的IoC的基本概念及实现原理 YETA Java-Spring Boot
本文内容基于《Spring5企业级开发实战》，周冠亚、黄文毅著。1.IoC的概念1.1依赖倒置原则1.2依赖注入2.SpringIoC的实现方式2.1XML方式2.2注解方式3.SpringIoC实现原理解析3.1BeanFactory代码解析3.2ApplicationContext代码解析3.3BeanDefinition代码解析3.4SpringIoC代码分析4.SpringIoC容器中的B
Opencv 源码解读之 ImageEncoder Farmwang openCV
ImageDecoder类ImageDecoder这个类，这个类其实就是一个图像数据的解析类。且看下面的源代码：classBaseImageDecoder//这就是我们要找的ImageDecoder类{public:BaseImageDecoder();virtual~BaseImageDecoder(){};intwidth()const{returnm_width;};intheight()c
80端口深度解析：从协议原理到工程实践网安秘谈后端网络协议
一、端口机制与HTTP协议栈1.1TCP/IP模型中的端口定位在TCP/IP四层模型中，端口属于传输层的核心概念。每个端口对应一个16位无符号整数（0-65535），其中0-1023为知名端口（Well-KnownPorts）。80端口作为HTTP协议默认端口，在RFC2616中明确规定其标准用途。1.2协议栈交互流程典型HTTP请求在协议栈中的封装过程：plaintextApplicationL
RSA算法深度解析：从数学基础到安全实践网安秘谈算法安全
一、密码学基础与RSA定位在对称加密体系中（如AES），加解密使用相同密钥的特性导致密钥分发成为核心安全问题。RSA作为首个实用的非对称加密算法（1977年由Rivest,Shamir,Adleman提出），通过巧妙的数论构造实现了：公钥加密：任何人可用公钥加密数据私钥解密：只有私钥持有者可解密数字签名：私钥签名可被公钥验证二、核心数学原理2.1模运算基础同余定理：a≡b(modn)当且仅当n|(
RSA非对称加密算法深度解析与技术实现指南网安秘谈算法
一、密码学基础与RSA背景RSA算法（Rivest-Shamir-Adleman）是首个实用的非对称加密体系，由MIT学者于1977年提出。其数学基础建立在大数分解难题和欧拉定理之上，核心思想是利用模指数运算构造单向陷门函数。数学预备知识：欧拉函数φ(n)：小于n且与n互质的正整数数量贝祖定理：gcd(a,b)=ax+by的解存在性模逆元：a·a⁻¹≡1modn的解存在条件费马小定理：a^(p-1
Python 数据库自动化脚本开发详解笑远数据库 python 自动化
Python数据库自动化脚本开发详解在Python中进行数据库操作和自动化脚本开发是常见的任务，涉及到连接数据库、备份、监控、事务管理、日志分析等多个方面。以下将详细介绍相关的库、实现方法及最佳实践。1.在Python中连接数据库时，你通常使用哪些库或模块？请举例说明如何建立与MySQL数据库的连接。常用的Python数据库连接库mysql-connector-python：由MySQL官方提供，
对股票分析时要注意哪些主要因素？会飞的奇葩猪股票分析云掌股吧
　　众所周知，对散户投资者来说，股票技术分析是应战股市的核心武器，想学好股票的技术分析一定要知道哪些是重点学习的，其实非常简单，我们只要记住三个要素：成交量、价格趋势、振荡指标。一、成交量　　大盘的成交量状态。成交量大说明市场的获利机会较多，成交量小说明市场的获利机会较少。当沪市的成交量超过150亿时是强市市场状态，运用技术找综合买点较准；
【Scala十八】视图界定与上下文界定 bit1129 scala
Context Bound，上下文界定，是Scala为隐式参数引入的一种语法糖，使得隐式转换的编码更加简洁。隐式参数首先引入一个泛型函数max，用于取a和b的最大值 def max[T](a: T, b: T) = { if (a > b) a else b } 因为T是未知类型，只有运行时才会代入真正的类型，因此调用a >
C语言的分支——Object-C程序设计阅读有感 darkblue086 apple c 框架 cocoa
自从1972年贝尔实验室Dennis Ritchie开发了C语言，C语言已经有了很多版本和实现，从Borland到microsoft还是GNU、Apple都提供了不同时代的多种选择，我们知道C语言是基于Thompson开发的B语言的，Object-C是以SmallTalk-80为基础的。和C++不同的是，Object C并不是C的超集，因为有很多特性与C是不同的。 Object-C程序设计这本书
去除浏览器对表单值的记忆周凡杨 html 记忆 autocomplete form 浏览
&n
java的树形通讯录 g21121 java
最近用到企业通讯录，虽然以前也开发过，但是用的是jsf，拼成的树形，及其笨重和难维护。后来就想到直接生成json格式字符串，页面上也好展现。 // 首先取出每个部门的联系人 for (int i = 0; i < depList.size(); i++) { List<Contacts> list = getContactList(depList.get(i
Nginx安装部署 510888780 nginx linux
Nginx ("engine x") 是一个高性能的 HTTP 和反向代理服务器，也是一个 IMAP/POP3/SMTP 代理服务器。 Nginx 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的，第一个公开版本0.1.0发布于2004年10月4日。其将源代码以类BSD许可证的形式发布，因它的稳定性、丰富的功能集、示例配置文件和低系统资源
java servelet异步处理请求墙头上一根草ｊａｖａ异步返回ｓｅｒｖｌｅｔ
servlet3.0以后支持异步处理请求，具体是使用AsyncContext ，包装httpservletRequest以及httpservletResponse具有异步的功能， final AsyncContext ac = request.startAsync(request, response); ac.s
我的spring学习笔记8-Spring中Bean的实例化 aijuans Spring 3
在Spring中要实例化一个Bean有几种方法： 1、最常用的（普通方法） <bean id="myBean" class="www.6e6.org.MyBean" /> 使用这样方法，按Spring就会使用Bean的默认构造方法，也就是把没有参数的构造方法来建立Bean实例。（有构造方法的下个文细说） 2、还
为Mysql创建最优的索引 annan211 mysql 索引
索引对于良好的性能非常关键，尤其是当数据规模越来越大的时候，索引的对性能的影响越发重要。索引经常会被误解甚至忽略，而且经常被糟糕的设计。索引优化应该是对查询性能优化最有效的手段了，索引能够轻易将查询性能提高几个数量级，最优的索引会比较好的索引性能要好2个数量级。 1 索引的类型 (1) B-Tree 不出意外，这里提到的索引都是指 B-
日期函数百合不是茶 oracle sql 日期函数查询
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits 三位年显示值:007
线程优先级 bijian1013 java thread 多线程 java多线程
多线程运行时需要定义线程运行的先后顺序。线程优先级是用数字表示，数字越大线程优先级越高，取值在1到10，默认优先级为5。实例： package com.bijian.study; /** * 因为在代码段当中把线程B的优先级设置高于线程A,所以运行结果先执行线程B的run()方法后再执行线程A的run()方法 * 但在实际中，JAVA的优先级不准，强烈不建议用此方法来控制执
适配器模式和代理模式的区别 bijian1013 java 设计模式
一.简介适配器模式：适配器模式（英语：adapter pattern）有时候也称包装样式或者包装。将一个类的接口转接成用户所期待的。一个适配使得因接口不兼容而不能在一起工作的类工作在一起，做法是将类别自己的接口包裹在一个已存在的类中。 &nbs
【持久化框架MyBatis3三】MyBatis3 SQL映射配置文件 bit1129 Mybatis3
SQL映射配置文件一方面类似于Hibernate的映射配置文件，通过定义实体与关系表的列之间的对应关系。另一方面使用<select>,<insert>,<delete>，<update>元素定义增删改查的SQL语句，这些元素包含三方面内容 1. 要执行的SQL语句 2. SQL语句的入参，比如查询条件 3. SQL语句的返回结果
oracle大数据表复制备份个人经验 bitcarter oracle 大表备份大表数据复制
前提：数据库仓库A（就拿oracle11g为例）中有两个用户user1和user2,现在有user1中有表ldm_table1,且表ldm_table1有数据5千万以上，ldm_table1中的数据是从其他库B（数据源）中抽取过来的，前期业务理解不够或者需求有变，数据有变动需要重新从B中抽取数据到A库表ldm_table1中。
HTTP加速器varnish安装小记 ronin47 http varnish 加速
上午共享的那个varnish安装手册，个人看了下，有点不知所云，好吧~看来还是先安装玩玩！苦逼公司服务器没法连外网，不能用什么wget或yum命令直接下载安装，每每看到别人博客贴出的在线安装代码时，总有一股羡慕嫉妒“恨”冒了出来。。。好吧，既然没法上外网，那只能麻烦点通过下载源码来编译安装了！ Varnish 3.0.4下载地址： http://repo.varnish-cache.org/
java-73-输入一个字符串，输出该字符串中对称的子字符串的最大长度 bylijinnan java
public class LongestSymmtricalLength { /* * Q75题目：输入一个字符串，输出该字符串中对称的子字符串的最大长度。 * 比如输入字符串“google”，由于该字符串里最长的对称子字符串是“goog”，因此输出4。 */ public static void main(String[] args) { Str
学习编程的一点感想 Cb123456 编程感想 Gis
写点感想，总结一些，也顺便激励一些自己.现在就是复习阶段，也做做项目. 本专业是GIS专业，当初觉得本专业太水，靠这个会活不下去的，所以就报了培训班。学习的时候，进入状态很慢，而且当初进去的时候，已经上到Java高级阶段了，所以.....，呵呵，之后有点感觉了，不过，还是不好好写代码，还眼高手低的，有
[能源与安全]美国与中国 comsci 能源
现在有一个局面：地球上的石油只剩下N桶，这些油只够让中国和美国这两个国家中的一个顺利过渡到宇宙时代，但是如果这两个国家为争夺这些石油而发生战争，其结果是两个国家都无法平稳过渡到宇宙时代。。。。而且在战争中，剩下的石油也会被快速消耗在战争中，结果是两败俱伤。。。在这个大
SEMI-JOIN执行计划突然变成HASH JOIN了的原因分析 cwqcwqmax9 oracle
甲说： A B两个表总数据量都很大，在百万以上。 idx1 idx2字段表示是索引字段 A B 两表上都有 col1字段表示普通字段 select xxx from A where A.idx1 between mmm and nnn and exists (select 1 from B where B.idx2 =
SpringMVC-ajax返回值乱码解决方案 dashuaifu Ajax springMVC response 中文乱码
SpringMVC-ajax返回值乱码解决方案一：（自己总结，测试过可行） ajax返回如果含有中文汉字，则使用：（如下例：） @RequestMapping(value="/xxx.do") public @ResponseBody void getPunishReasonB
Linux系统中查看日志的常用命令 dcj3sjt126com OS
因为在日常的工作中，出问题的时候查看日志是每个管理员的习惯，作为初学者，为了以后的需要，我今天将下面这些查看命令共享给各位 cat tail -f 日志文件说明 /var/log/message 系统启动后的信息和错误日志，是Red Hat Linux中最常用的日志之一 /var/log/secure 与安全相关的日志信息 /var/log/maillog 与邮件相关的日志信
[应用结构]应用 dcj3sjt126com PHP yii2
应用主体应用主体是管理 Yii 应用系统整体结构和生命周期的对象。每个Yii应用系统只能包含一个应用主体，应用主体在入口脚本中创建并能通过表达式 \Yii::$app 全局范围内访问。补充: 当我们说"一个应用"，它可能是一个应用主体对象，也可能是一个应用系统，是根据上下文来决定[译：中文为避免歧义，Application翻译为应
assertThat用法 eksliang JUnit assertThat
junit4.0 assertThat用法一般匹配符1、assertThat( testedNumber, allOf( greaterThan(8), lessThan(16) ) ); 注释： allOf匹配符表明如果接下来的所有条件必须都成立测试才通过，相当于“与”（&&） 2、assertThat( testedNumber, anyOf( g
android点滴2 gundumw100 应用服务器 android 网络应用 OS HTC
如何让Drawable绕着中心旋转？ Animation a = new RotateAnimation(0.0f, 360.0f, Animation.RELATIVE_TO_SELF, 0.5f, Animation.RELATIVE_TO_SELF,0.5f); a.setRepeatCount(-1); a.setDuration(1000); 如何控制Andro
超简洁的CSS下拉菜单 ini html Web 工作 html5 css
效果体验：http://hovertree.com/texiao/css/3.htmHTML文件： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>简洁的HTML+CSS下拉菜单-HoverTree</title>
kafka consumer防止数据丢失 kane_xie kafka offset commit
kafka最初是被LinkedIn设计用来处理log的分布式消息系统，因此它的着眼点不在数据的安全性（log偶尔丢几条无所谓），换句话说kafka并不能完全保证数据不丢失。尽管kafka官网声称能够保证at-least-once，但如果consumer进程数小于partition_num，这个结论不一定成立。考虑这样一个case，partiton_num=2
@Repository、@Service、@Controller 和 @Component mhtbbx DAO spring bean prototype
@Repository、@Service、@Controller 和 @Component 将类标识为Bean Spring 自 2.0 版本开始，陆续引入了一些注解用于简化 Spring 的开发。@Repository注解便属于最先引入的一批，它用于将数据访问层 (DAO 层 ) 的类标识为 Spring Bean。具体只需将该注解标注在 DAO类上即可。同时，为了让 Spring 能够扫描类
java 多线程高并发读写控制误区 qifeifei java thread
先看一下下面的错误代码，对写加了synchronized控制，保证了写的安全，但是问题在哪里呢？ public class testTh7 { private String data; public String read(){ System.out.println(Thread.currentThread().getName() + "read data "
mongodb replica set(副本集)设置步骤 tcrct java mongodb
网上已经有一大堆的设置步骤的了，根据我遇到的问题，整理一下，如下：首先先去下载一个mongodb最新版，目前最新版应该是2.6 cd /usr/local/bin wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.6.0.tgz tar -zxvf mongodb-linux-x86_64-2.6.0.t
rust学习笔记 wudixiaotie 学习笔记
1.rust里绑定变量是let，默认绑定了的变量是不可更改的，所以如果想让变量可变就要加上mut。 let x = 1; let mut y = 2; 2.match 相当于erlang中的case，但是case的每一项后都是分号，但是rust的match却是逗号。 3.match 的每一项最后都要加逗号，但是最后一项不加也不会报错，所有结尾加逗号的用法都是类似。 4.每个语句结尾都要加分

hadoop脚本解析

1、hadoop脚本简单介绍

2、脚本的魅力（详细解释）

2.1、hadoop-config.sh

2.2、hadoop

2.3、hadoop-daemon.sh

2.4、slaves.sh

2.5、hadoop-daemons.sh

2.6、start-dfs.sh

2.7、start-mapred.sh

你可能感兴趣的:(hadoop脚本解析)