ancin

hadoop基础

Hadoop源代码分为三大模块：MapReduce、HDFS和Hadoop Common。其中MapReduce模块主要实现了MapReduce模型的相关功能；HDFS模块主要实现了HDFS的相关功能；而Hadoop Common主要实现了一些基础功能，比如说RPC、网络通信等。

在用户使用HadoopMapReduce模型进行并行计算时，用户只需要写好Map函数、Reduce函数，之后调用JobClient将Job提交即可。在JobTracker收到提交的Job之后，便会对Job进行一系列的配置，然后交给TaskTracker进行执行。执行完毕之后，JobTracker会通知JobClient任务完成，并将结果存入HDFS中

如图所示，用户提交Job是通过JobClient类的submitJob（）函数实现的。在Hadoop源代码中，一个被提交了的Job由JobInProgress类的一个实例表示。该类封装了表示Job的各种信息，以及Job所需要执行的各种动作。在调用submitJob（）函数之后，JobTracker会将作业加入到一个队列中去，这个队列的名字叫做jobInitQueue。然后，在JobTracker中，有一个名为JobQueueTaskScheduler的对象，会不断轮询jobInitQueue队列，一旦发现有新的Job加入，便将其取出，然后将其初始化。

在Hadoop代码中，一个Task由一个TaskInProgress类的实例表示。该类封装了描述Task所需的各种信息以及Task执行的各种动作。

TaskTracker自从启动以后，会每隔一段时间向JobTracker发送消息，消息的名称为“Heartbeat”。Heartbeat中包含了该TaskTracker当前的状态以及对Task的请求。JobTracker在收到Heartbeat之后，会检查该heartbeat的里所包含的各种信息，如果发现错误会启动相应的错误处理程序。如果TaskTracker在Heartbeat中添加了对Task的请求，则JobTracker会添加相应的指令在对Heartbeat的回复中。在Hadoop源代码中，JobTracker对TaskTracker的指令称为action，JobTracker对TaskTracker所发送来的Heartbeat的回复消息称为HeartbeatResponse。

在TaskTracker内部，有一个队列叫做TaskQueue。该中包含了所有新加入的Task。每当TaskTracker收到HeartbeatResponse后，会对其进行检查，如果其中包含了新的Task，便将其加入到TaskQueue中。在TaskTracker内部，有两个线程不断轮询TaskQueue，一个是MapLauncher，另一个是ReduceLauncher。如果发现有新加入的Map任务，MapLauncher便将其取出并且执行。如果是Reduce任务，ReduceLauncher便将其取出执行。

不论是Map Task还是Reduce Task，当他们被取出之后，都要进行本地化。本地化的意思就是将所有需要的信息，比如需要运行的jar文件、配置文件、输入数据等等，一起拷贝到本地的文件系统。这样做的目的是为了方便任务在某台机器上独立执行。本地化之后，TaskTracker会为每一个task单独创建一个jvm，然后单独运行。等Task运行完之后，TaskTracker会通知JobTracker任务完成，以进行下一步的动作。

等到所有的Task都完成之后，Job也就完成了，此时JobTracker会通知JobClient工作完成。

3 代码详细分析
下面从用户使用Hadoop进行MapReduce计算的过程为线索，详细介绍Task执行的细节，并对Hadoop MapReduce的主要代码进行分析。

3.1 启动Hadoop集群
Hadoop集群的启动是通过在Master上运行start-all.sh脚本进行的。运行该脚本之后，Hadoop会配置一系列的环境变量以及其他Hadoop运行所需要的参数，然后在本机运行JobTracker和NameNode。然后通过SSH登录到所有slave机器上，启动TaskTracker和DataNode。

因为本文只介绍HadoopMapReduce模块，所以NameNode和DataNode的相关知识不再介绍。

3.2 JobTracker启动以及Job的初始化
org.apache.hadoop.mapred.JobTracker类实现了Hadoop MapReduce模型的JobTracker的功能，主要负责任务的接受，初始化，调度以及对TaskTracker的监控。

JobTracker单独作为一个JVM运行，main函数就是启动JobTracker的入口函数。在main函数中，有以下两行非常重要的代码：

startTracker(new JobConf())；

JobTracker.offerService()；

startTracker函数是一个静态函数，它调用JobTracker的构造函数生成一个JobTracker类的实例，名为result。然后，进行了一系列初始化活动，包括启动RPC server，启动内置的jetty服务器，检查是否需要重启JobTracker等。

在JobTracker.offerService()中，调用了taskScheduler对象的start()方法。该对象是JobTracker的一个数据成员，类型为TaskScheduler。该类型的提供了一系列接口，使得JobTracker可以对所有提交的job进行初始化以及调度。但是该类型实际上是一个抽象类型，其真正的实现类型为JobQueueTaskScheduler类，所以，taskScheduler.start（）方法执行的是JobQueueTaskScheduler类的start方法。

该方法的详细代码如下：

public synchronized void start() throwsIOException {

//调用TaskScheduler.start()方法，实际上没有做任何事情

super.start();

//注册一个JobInProgressListerner监听器

taskTrackerManager.addJobInProgressListener(jobQueueJobInProgressListener

);

eagerTaskInitializationListener.setTaskTrackerManager(taskTrackerManager);

eagerTaskInitializationListener.start();

taskTrackerManager.addJobInProgressListener(eagerTaskInitializationListener)

}

JobQueueTaskScheduler类的start方法主要注册了两个非常重要的监听器：jobQueueJobInProgressListener和eagerTaskInitializationListener。前者是JobQueueJobInProgressListener类的一个实例，该类以先进先出的方式维持一个JobInProgress的队列，并且监听各个JobInProgress实例在生命周期中的变化；后者是EagerTaskInitializationListener类的一个实例，该类不断监听jobInitQueue，一旦发现有新的job被提交（即有新的JobInProgress实例被加入），则立即调用该实例的initTasks方法，对job进行初始化。

JobInProgress类的initTasks方法的主要代码如下：

public synchronized void initTasks() throwsIOException {

……

//从HDFS中读取job.split文件从而生成input splits

String jobFile = profile.getJobFile();

Path sysDir = newPath(this.jobtracker.getSystemDir());

FileSystem fs = sysDir.getFileSystem(conf);

DataInputStream splitFile =

fs.open(newPath(conf.get("mapred.job.split.file")));

JobClient.RawSplit[] splits;

try {

splits = JobClient.readSplitFile(splitFile);

} finally {

splitFile.close();

}

//map task的个数就是input split的个数

numMapTasks = splits.length;

//为每个map tasks生成一个TaskInProgress来处理一个input split

maps = newTaskInProgress[numMapTasks];

for(inti=0; i < numMapTasks; ++i) {

inputLength += splits[i].getDataLength();

maps[i] =new TaskInProgress(jobId, jobFile,

splits[i],

jobtracker, conf, this, i);

}

/*

对于map task，将其放入nonRunningMapCache，是一个Map<Node,

List<TaskInProgress>>，也即对于map task来讲，其将会被分配到其input

split所在的Node上。在此，Node代表一个datanode或者机架或者数据中

心。nonRunningMapCache将在JobTracker向TaskTracker分配map task的

时候使用。

*/

if(numMapTasks > 0) {

nonRunningMapCache = createCache(splits,maxLevel);

}

//创建reduce task

this.reduces = new TaskInProgress[numReduceTasks];

for (int i= 0; i < numReduceTasks; i++) {

reduces[i]= new TaskInProgress(jobId, jobFile,

numMapTasks, i,

jobtracker, conf, this);

/*reducetask放入nonRunningReduces，其将在JobTracker向TaskTracker

分配reduce task的时候使用。*/

nonRunningReduces.add(reduces[i]);

}

//创建两个cleanup task，一个用来清理map，一个用来清理reduce.

cleanup =new TaskInProgress[2];

cleanup[0]= new TaskInProgress(jobId, jobFile, splits[0],

jobtracker, conf, this, numMapTasks);

cleanup[0].setJobCleanupTask();

cleanup[1]= new TaskInProgress(jobId, jobFile, numMapTasks,

numReduceTasks, jobtracker, conf, this);

cleanup[1].setJobCleanupTask();

//创建两个初始化 task，一个初始化map，一个初始化reduce.

setup =new TaskInProgress[2];

setup[0] =new TaskInProgress(jobId, jobFile, splits[0],

jobtracker,conf, this, numMapTasks + 1 );

setup[0].setJobSetupTask();

setup[1] =new TaskInProgress(jobId, jobFile, numMapTasks,

numReduceTasks + 1, jobtracker, conf, this);

setup[1].setJobSetupTask();

tasksInited.set(true);//初始化完毕

……

}

3.3 TaskTracker启动以及发送Heartbeat
org.apache.hadoop.mapred.TaskTracker类实现了MapReduce模型中TaskTracker的功能。

TaskTracker也是作为一个单独的JVM来运行的，其main函数就是TaskTracker的入口函数，当运行start-all.sh时，脚本就是通过SSH运行该函数来启动TaskTracker的。

Main函数中最重要的语句是：

new TaskTracker(conf).run();

其中run函数主要调用了offerService函数：

State offerService() throws Exception {

longlastHeartbeat = 0;

//TaskTracker进行是一直存在的

while(running && !shuttingDown) {

      ……

      longnow = System.currentTimeMillis();

      //每隔一段时间就向JobTracker发送heartbeat

      longwaitTime = heartbeatInterval - (now - lastHeartbeat);

      if(waitTime > 0) {

       synchronized(finishedCount) {

         if (finishedCount[0] == 0) {

           finishedCount.wait(waitTime);

          }

         finishedCount[0] = 0;

        }

      }

      ……

      //发送Heartbeat到JobTracker，得到response

     HeartbeatResponse heartbeatResponse = transmitHeartBeat(now);

      ……

     //从Response中得到此TaskTracker需要做的事情

     TaskTrackerAction[] actions = heartbeatResponse.getActions();

      ……

      if(actions != null){

        for(TaskTrackerAction action: actions) {

         if (action instanceof LaunchTaskAction) {

           //如果是运行一个新的Task，则将Action添加到任务队列中

           addToTaskQueue((LaunchTaskAction)action);

          }else if (action instanceof CommitTaskAction) {

          CommitTaskAction commitAction = (CommitTaskAction)action;

           if (!commitResponses.contains(commitAction.getTaskID())) {

             commitResponses.add(commitAction.getTaskID());

           }

          }else {

           tasksToCleanup.put(action);

          }

        }

      }

}

returnState.NORMAL;

}

其中transmitHeartBeat函数的作用就是第2章中提到的向JobTracker发送Heartbeat。其主要逻辑如下：

private HeartbeatResponse transmitHeartBeat(longnow) throws IOException {

//每隔一段时间，在heartbeat中要返回给JobTracker一些统计信息

booleansendCounters;

if (now> (previousUpdate + COUNTER_UPDATE_INTERVAL)) {

   sendCounters = true;

   previousUpdate = now;

}

else {

   sendCounters = false;

}

……

//报告给JobTracker，此TaskTracker的当前状态

if(status == null) {

   synchronized (this) {

     status = new TaskTrackerStatus(taskTrackerName, localHostname,

                                     httpPort,

cloneAndResetRunningTaskStatuses(

       sendCounters),

       failures,

       maxCurrentMapTasks,

        maxCurrentReduceTasks);

    }

}

……

//当满足下面的条件的时候，此TaskTracker请求JobTracker为其分配一个新的Task来运行：

//当前TaskTracker正在运行的map task的个数小于可以运行的map task的最大个数

//当前TaskTracker正在运行的reduce task的个数小于可以运行的reduce task的最大个数

booleanaskForNewTask;

longlocalMinSpaceStart;

synchronized (this) {

   askForNewTask = (status.countMapTasks() < maxCurrentMapTasks ||

                   status.countReduceTasks() <maxCurrentReduceTasks)

&& acceptNewTasks;

   localMinSpaceStart = minSpaceStart;

}

……

//向JobTracker发送heartbeat，这是一个RPC调用

HeartbeatResponse heartbeatResponse = jobClient.heartbeat(status,

justStarted, askForNewTask,

heartbeatResponseId);

……

returnheartbeatResponse;

}

3.4 JobTracker接收Heartbeat并向TaskTracker分配任务
当JobTracker被RPC调用来发送heartbeat的时候，JobTracker的heartbeat(TaskTrackerStatus status,boolean initialContact, booleanacceptNewTasks, short responseId)函数被调用：

public synchronized HeartbeatResponseheartbeat(TaskTrackerStatus status,

boolean initialContact, boolean acceptNewTasks,short responseId)

throws IOException{

……

StringtrackerName = status.getTrackerName();

……

shortnewResponseId = (short)(responseId + 1);

……

HeartbeatResponse response = newHeartbeatResponse(newResponseId, null);

List<TaskTrackerAction> actions = new ArrayList<TaskTrackerAction>();

//如果TaskTracker向JobTracker请求一个task运行

if(acceptNewTasks) {

   TaskTrackerStatus taskTrackerStatus = getTaskTracker(trackerName);

    if(taskTrackerStatus == null) {

     LOG.warn("Unknown task tracker polling; ignoring: " +trackerName);

    } else{

     //setup和cleanup的task优先级最高

     List<Task> tasks = getSetupAndCleanupTasks(taskTrackerStatus);

      if(tasks == null ) {

        //任务调度器分配任务

       tasks = taskScheduler.assignTasks(taskTrackerStatus);

      }

      if(tasks != null) {

        for(Task task : tasks) {

         //将任务放入actions列表，返回给TaskTracker

         expireLaunchingTasks.addNewTask(task.getTaskID());

         actions.add(new LaunchTaskAction(task));

        }

      }

    }

}

……

intnextInterval = getNextHeartbeatInterval();

response.setHeartbeatInterval(nextInterval);

response.setActions(

actions.toArray(newTaskTrackerAction[actions.size()]));

……

returnresponse;

}

默认的任务调度器为JobQueueTaskScheduler，其assignTasks如下：

public synchronized List<Task>assignTasks(TaskTrackerStatus taskTracker)

    throwsIOException {

ClusterStatus clusterStatus = taskTrackerManager.getClusterStatus();

intnumTaskTrackers = clusterStatus.getTaskTrackers();

Collection<JobInProgress> jobQueue

= jobQueueJobInProgressListener.getJobQueue();

intmaxCurrentMapTasks = taskTracker.getMaxMapTasks();

intmaxCurrentReduceTasks = taskTracker.getMaxReduceTasks();

intnumMaps = taskTracker.countMapTasks();

intnumReduces = taskTracker.countReduceTasks();

//计算剩余的map和reduce的工作量：remaining

intremainingReduceLoad = 0;

intremainingMapLoad = 0;

synchronized (jobQueue) {

    for(JobInProgress job : jobQueue) {

      if(job.getStatus().getRunState() == JobStatus.RUNNING) {

        inttotalMapTasks = job.desiredMaps();

        inttotalReduceTasks = job.desiredReduces();

       remainingMapLoad += (totalMapTasks - job.finishedMaps());

       remainingReduceLoad += (totalReduceTasks -job.finishedReduces());

      }

    }

}

//计算平均每个TaskTracker应有的工作量，remaining/numTaskTrackers是剩余的工作量除以TaskTracker的个数。

intmaxMapLoad = 0;

intmaxReduceLoad = 0;

if(numTaskTrackers > 0) {

   maxMapLoad = Math.min(maxCurrentMapTasks,

(int)Math.ceil((double) remainingMapLoad numTaskTrackers));

   maxReduceLoad = Math.min(maxCurrentReduceTasks,

    (int)Math.ceil((double) remainingReduceLoad

    numTaskTrackers));

}

……

//map优先于reduce，当TaskTracker上运行的map task数目小于平均的工作量，则向其分配map task

if(numMaps < maxMapLoad) {

    inttotalNeededMaps = 0;

   synchronized (jobQueue) {

      for(JobInProgress job : jobQueue) {

        if(job.getStatus().getRunState() != JobStatus.RUNNING) {

         continue;

        }

        Task t = job.obtainNewMapTask(taskTracker,numTaskTrackers,

           taskTrackerManager.getNumberOfUniqueHosts());

        if(t != null) {

         return Collections.singletonList(t);

        }

        ……

      }

    }

}

//分配完map task，再分配reduce task

if(numReduces < maxReduceLoad) {

    inttotalNeededReduces = 0;

   synchronized (jobQueue) {

      for(JobInProgress job : jobQueue) {

        if(job.getStatus().getRunState() != JobStatus.RUNNING ||

           job.numReduceTasks == 0) {

          continue;

        }

       Task t = job.obtainNewReduceTask(taskTracker, numTaskTrackers,

           taskTrackerManager.getNumberOfUniqueHosts());

        if(t != null) {

         return Collections.singletonList(t);

        }

        ……

      }

    }

}

returnnull;

}

从上面的代码中我们可以知道，JobInProgress的obtainNewMapTask是用来分配map task的，其主要调用findNewMapTask，根据TaskTracker所在的Node从nonRunningMapCache中查找TaskInProgress。JobInProgress的obtainNewReduceTask是用来分配reduce task的，其主要调用findNewReduceTask，从nonRunningReduces查找TaskInProgress。

3.5 TaskTracker接收HeartbeatResponse
在向JobTracker发送heartbeat后，如果返回的reponse中含有分配好的任务LaunchTaskAction，TaskTracker则调用addToTaskQueue方法，将其加入TaskTracker类中MapLauncher或者ReduceLauncher对象的taskToLaunch队列。在此，MapLauncher和ReduceLauncher对象均为TaskLauncher类的实例。该类是TaskTracker类的一个内部类，具有一个数据成员，是TaskTracker.TaskInProgress类型的队列。在此特别注意，在TaskTracker类内部所提到的TaskInProgress类均为TaskTracker的内部类，我们用TaskTracker.TaskInProgress表示，一定要和MapRed包中的TaskInProgress类区分，后者我们直接用TaskInProgress表示。如果应答包中包含的任务是map task则放入mapLancher的taskToLaunch队列，如果是reduce task则放入reduceLancher的taskToLaunch队列：

private void addToTaskQueue(LaunchTaskActionaction) {

if(action.getTask().isMapTask()) {

   mapLauncher.addToTaskQueue(action);

} else {

   reduceLauncher.addToTaskQueue(action);

}

}

TaskLauncher类的addToTaskQueue方法代码如下：

private TaskInProgress registerTask(LaunchTaskAction action,

      TaskLauncher launcher) {

         //从action中获取Task对象

    Task t = action.getTask();

    LOG.info("LaunchTaskAction(registerTask): " + t.getTaskID() +

             " task's state:" + t.getState());

    //生成TaskTracker.TaskInProgress对象

    TaskInProgress tip = new TaskInProgress(t, this.fConf, launcher);

    synchronized(this){

      /*在相应的数据结构中增加所生成的TaskTracker.TaskInProgress对

        象，以通知程序其他部分该任务的建立*/

      tasks.put(t.getTaskID(),tip);

      runningTasks.put(t.getTaskID(),tip);

      boolean isMap =t.isMapTask();

      if (isMap) {

        mapTotal++;

      } else {

        reduceTotal++;

      }

    }

    return tip;

}

同时，TaskLauncher类继承了Thread类，所以在程序运行过程中，它们各自都以一个线程独立运行。它们的启动在TaskTracker初始化过程中已经完成。该类的run函数就是不断监测taskToLaunch队列中是否有新的TaskTracker.TaskInProgress对象加入。如果有则从中取出一个对象，然后调用TaskTracker类的startNewTask(TaskInProgress tip)来启动一个task，其又主要调用了localizeJob(TaskInProgresstip)，该函数的工作就是第二节中提到的本地化。该函数代码如下：

private void localizeJob(TaskInProgress tip)throws IOException {

//首先要做的一件事情是有关Task的文件从HDFS拷贝的TaskTracker的本地文件系统中：job.split，job.xml以及job.jar

PathlocalJarFile = null;

Task t =tip.getTask();

JobIDjobId = t.getJobID();

PathjobFile = new Path(t.getJobFile());

……

PathlocalJobFile = lDirAlloc.getLocalPathForWrite(

                  getLocalJobDir(jobId.toString())

                 + Path.SEPARATOR + "job.xml",

                  jobFileSize, fConf);

RunningJob rjob = addTaskToJob(jobId, tip);

synchronized (rjob) {

    if(!rjob.localized) {

     FileSystem localFs = FileSystem.getLocal(fConf);

      PathjobDir = localJobFile.getParent();

      ……

      //将job.split拷贝到本地

     systemFS.copyToLocalFile(jobFile, localJobFile);

     JobConf localJobConf = new JobConf(localJobFile);

      PathworkDir = lDirAlloc.getLocalPathForWrite(

                      (getLocalJobDir(jobId.toString())

                       + Path.SEPARATOR +"work"), fConf);

      if(!localFs.mkdirs(workDir)) {

       throw new IOException("Mkdirs failed to create "

                    + workDir.toString());

      }

     System.setProperty("job.local.dir", workDir.toString());

     localJobConf.set("job.local.dir", workDir.toString());

      //copy Jar file to the local FS and unjar it.

     String jarFile = localJobConf.getJar();

      longjarFileSize = -1;

      if(jarFile != null) {

       Path jarFilePath = new Path(jarFile);

       localJarFile = new Path(lDirAlloc.getLocalPathForWrite(

                                  getLocalJobDir(jobId.toString())

                                   +Path.SEPARATOR + "jars",

                                   5 *jarFileSize, fConf), "job.jar");

        if(!localFs.mkdirs(localJarFile.getParent())) {

         throw new IOException("Mkdirs failed to create jars directory");

        }

        //将job.jar拷贝到本地

       systemFS.copyToLocalFile(jarFilePath, localJarFile);

       localJobConf.setJar(localJarFile.toString());

       //将job得configuration写成job.xml

       OutputStream out = localFs.create(localJobFile);

        try{

         localJobConf.writeXml(out);

        }finally {

         out.close();

        }

        // 解压缩job.jar

       RunJar.unJar(new File(localJarFile.toString()),

                     newFile(localJarFile.getParent().toString()));

      }

     rjob.localized = true;

     rjob.jobConf = localJobConf;

    }

}

//真正的启动此Task

launchTaskForJob(tip, new JobConf(rjob.jobConf));

}

当所有的task运行所需要的资源都拷贝到本地后，则调用TaskTracker的launchTaskForJob方法，其又调用TaskTracker.TaskInProgress的launchTask函数：

public synchronized void launchTask() throwsIOException {

    ……

    //创建task运行目录

   localizeTask(task);

    if(this.taskStatus.getRunState() == TaskStatus.State.UNASSIGNED) {

     this.taskStatus.setRunState(TaskStatus.State.RUNNING);

    }

    //创建并启动TaskRunner，对于MapTask，创建的是MapTaskRunner，对于ReduceTask，创建的是ReduceTaskRunner

   this.runner = task.createRunner(TaskTracker.this, this);

   this.runner.start();

   this.taskStatus.setStartTime(System.currentTimeMillis());

}

TaskRunner是抽象类，是Thread类的子类，其run函数如下：

public final void run() {

    ……

   TaskAttemptID taskid = t.getTaskID();

   LocalDirAllocator lDirAlloc = newLocalDirAllocator("mapred.local.dir");

    FilejobCacheDir = null;

    if(conf.getJar() != null) {

     jobCacheDir = new File(

                        newPath(conf.getJar()).getParent().toString());

    }

    File workDir = newFile(lDirAlloc.getLocalPathToRead(

                             TaskTracker.getLocalTaskDir(

                               t.getJobID().toString(),

                               t.getTaskID().toString(),

                                t.isTaskCleanupTask())

           + Path.SEPARATOR + MRConstants.WORKDIR,

                              conf).toString());

   FileSystem fileSystem;

    PathlocalPath;

    ……

    //拼写classpath

    StringbaseDir;

    Stringsep = System.getProperty("path.separator");

   StringBuffer classPath = new StringBuffer();

    //start with same classpath as parent process

   classPath.append(System.getProperty("java.class.path"));

   classPath.append(sep);

    if(!workDir.mkdirs()) {

      if(!workDir.isDirectory()) {

       LOG.fatal("Mkdirs failed to create " + workDir.toString());

      }

    }

    Stringjar = conf.getJar();

    if (jar!= null) {

      // ifjar exists, it into workDir

     File[] libs = new File(jobCacheDir, "lib").listFiles();

      if(libs != null) {

        for(int i = 0; i < libs.length; i++) {

         classPath.append(sep);         //add libs from jar to classpath

         classPath.append(libs[i]);

        }

      }

     classPath.append(sep);

     classPath.append(new File(jobCacheDir, "classes"));

     classPath.append(sep);

     classPath.append(jobCacheDir);

    }

    ……

   classPath.append(sep);

   classPath.append(workDir);

    //拼写命令行java及其参数

   Vector<String> vargs = new Vector<String>(8);

    Filejvm =

      newFile(new File(System.getProperty("java.home"), "bin"),"java");

   vargs.add(jvm.toString());

    StringjavaOpts = conf.get("mapred.child.java.opts", "-Xmx200m");

   javaOpts = javaOpts.replace("@taskid@", taskid.toString());

    String[] javaOptsSplit = javaOpts.split(" ");

    StringlibraryPath = System.getProperty("java.library.path");

    if(libraryPath == null) {

     libraryPath = workDir.getAbsolutePath();

    } else{

     libraryPath += sep + workDir;

    }

    booleanhasUserLDPath = false;

    for(inti=0; i<javaOptsSplit.length ;i++) {

     if(javaOptsSplit[i].startsWith("-Djava.library.path=")) {

       javaOptsSplit[i] += sep + libraryPath;

        hasUserLDPath = true;

       break;

      }

    }

   if(!hasUserLDPath) {

     vargs.add("-Djava.library.path=" + libraryPath);

    }

    for(int i = 0; i < javaOptsSplit.length; i++) {

     vargs.add(javaOptsSplit[i]);

    }

    //添加Child进程的临时文件夹

    Stringtmp = conf.get("mapred.child.tmp", "./tmp");

    PathtmpDir = new Path(tmp);

    if(!tmpDir.isAbsolute()) {

     tmpDir = new Path(workDir.toString(), tmp);

    }

   FileSystem localFs = FileSystem.getLocal(conf);

    if(!localFs.mkdirs(tmpDir) && !localFs.getFileStatus(tmpDir).isDir()) {

      thrownew IOException("Mkdirs failed to create " + tmpDir.toString());

    }

   vargs.add("-Djava.io.tmpdir=" + tmpDir.toString());

    // Addclasspath.

   vargs.add("-classpath");

   vargs.add(classPath.toString());

    //log文件夹

    longlogSize = TaskLog.getTaskLogLength(conf);

   vargs.add("-Dhadoop.log.dir=" +

        newFile(System.getProperty("hadoop.log.dir")

       ).getAbsolutePath());

   vargs.add("-Dhadoop.root.logger=INFO,TLA");

   vargs.add("-Dhadoop.tasklog.taskid=" + taskid);

   vargs.add("-Dhadoop.tasklog.totalLogFileSize=" + logSize);

    // 运行map task和reduce task的子进程的main class是Child

   vargs.add(Child.class.getName()); // main of Child

    ……

    //运行子进程

   jvmManager.launchJvm(this,

       jvmManager.constructJvmEnv(setup,vargs,stdout,stderr,logSize,

           workDir, env, pidFile, conf));

}

在程序运行过程中，实际运行的TaskRunner实例应该是MapTaskRunner或者是ReduceTaskRunner。这两个子类只对TaskRunner进行了简单修改，在此不做赘述。

在jvmManager.launchJvm（）方法中，程序将创建一个新的jvm，来执行新的程序。

3.6 MapReduce任务的运行
真正的map task和reduce task都是在Child进程中运行的，Child的main函数的主要逻辑如下：

while (true) {

//从TaskTracker通过网络通信得到JvmTask对象

JvmTaskmyTask = umbilical.getTask(jvmId);

……

idleLoopCount = 0;

task =myTask.getTask();

taskid =task.getTaskID();

isCleanup= task.isTaskCleanupTask();

JobConfjob = new JobConf(task.getJobFile());

TaskRunner.setupWorkDir(job);

numTasksToExecute = job.getNumTasksToExecutePerJvm();

task.setConf(job);

defaultConf.addResource(newPath(task.getJobFile()));

……

//运行task

task.run(job, umbilical);            // run the task

if(numTasksToExecute > 0 && ++numTasksExecuted ==

numTasksToExecute){

    break;

}

}

3.6.1 MapTask的运行
3.6.1.1 MapTask.run（）方法
如果task是MapTask，则其run函数如下：

public void run(final JobConf job, finalTaskUmbilicalProtocol umbilical)

    throws IOException,ClassNotFoundException, InterruptedException {

   //负责与TaskTracker的通信，通过该对象可以获得必要的对象

   this.umbilical = umbilical;

    // 启动Reporter线程，用来和TaskTracker交互目前运行的状态

   TaskReporter reporter = new TaskReporter(getProgress(), umbilical);

   reporter.startCommunicationThread();

    boolean useNewApi =job.getUseNewMapper();

    /*用来初始化任务，主要是进行一些和任务输出相关的设置，比如创

      建commiter，设置工作目录等*/

    initialize(job, getJobID(),reporter, useNewApi);

   /*以下4个if语句均是根据任务类型的不同进行相应的操作，这些方

   法均是Task类的方法，所以与任务是MapTask还是ReduceTask无关*/

    if(jobCleanup) {

      runJobCleanupTask(umbilical,reporter);

      return;

    }

    if(jobSetup) {

      //主要是创建工作目录的FileSystem对象

      runJobSetupTask(umbilical,reporter);

      return;

    }

    if(taskCleanup) {

      //设置任务目前所处的阶段为结束阶段，并且删除工作目录

      runTaskCleanupTask(umbilical,reporter);

      return;

    }

    //如果不是上述四种类型，则真正运行任务

    if (useNewApi) {

      runNewMapper(job, split, umbilical,reporter);

    } else {

      runOldMapper(job, split, umbilical, reporter);

    }

    done(umbilical, reporter);

}

3.6.1.2 MapTask.runNewMapper()方法
其中，我们只研究运用新API编写程序的情况，所以runOldMapper函数我们将不做考虑。runNewMapper的代码如下：

private   <INKEY,INVALUE,OUTKEY,OUTVALUE>

    voidrunNewMapper(

                final JobConf job,

                final BytesWritable rawSplit,

                final TaskUmbilicalProtocol umbilical,

                TaskReporter reporter

) throws IOException, ClassNotFoundException, InterruptedException{

/*TaskAttemptContext类继承于JobContext类，相对于JobContext类增加

了一些有关task的信息。通过taskContext对象可以获得很多与任务执行相

关的类，比如用户定义的Mapper类，InputFormat类等等 */

   org.apache.hadoop.mapreduce.TaskAttemptContexttaskContext =

   new org.apache.hadoop.mapreduce.TaskAttemptContext(job,getTaskID());

    //创建用户自定义的Mapper类的实例

   org.apache.hadoop.mapreduce.Mapper

    <INKEY,INVALUE,OUTKEY,OUTVALUE> mapper=

org.apache.hadoop.mapreduce.Mapper<INKEY,INVALUE,OUTKEY,OUTVALUE>) ReflectionUtils.newInstance(taskContext.getMapperClass(),job);

    // 创建用户指定的InputFormat类的实例

org.apache.hadoop.mapreduce.InputFormat<INKEY,INVALUE> inputFormat= (org.apache.hadoop.mapreduce.InputFormat<INKEY,INVALUE>)

ReflectionUtils.newInstance(taskContext.getInputFormatClass(),job);

    // 重新生成InputSplit

    org.apache.hadoop.mapreduce.InputSplit split =null;

    DataInputBuffer splitBuffer =new DataInputBuffer();

   splitBuffer.reset(rawSplit.getBytes(), 0, rawSplit.getLength());

    SerializationFactory factory =new SerializationFactory(job);

    Deserializer<? extendsorg.apache.hadoop.mapreduce.InputSplit>

      deserializer =

        (Deserializer<? extendsorg.apache.hadoop.mapreduce.InputSplit>)

        factory.getDeserializer(job.getClassByName(splitClass));

    deserializer.open(splitBuffer);

    split =deserializer.deserialize(null);

//根据InputFormat对象创建RecordReader对象，默认是LineRecordReader

   org.apache.hadoop.mapreduce.RecordReader<INKEY,INVALUE> input =

      new NewTrackingRecordReader<INKEY,INVALUE>

         (inputFormat.createRecordReader(split, taskContext), reporter);



   job.setBoolean("mapred.skip.on", isSkipping());

//生成RecordWriter对象

org.apache.hadoop.mapreduce.RecordWriter output = null;

org.apache.hadoop.mapreduce.Mapper<INKEY,INVALUE,OUTKEY,OUTVALUE>.Context mapperContext = null;

    try {

     Constructor<org.apache.hadoop.mapreduce.Mapper.Context>

        contextConstructor =

       org.apache.hadoop.mapreduce.Mapper.Context.class.getConstructor

        (newClass[]{org.apache.hadoop.mapreduce.Mapper.class,

                    Configuration.class,

                    org.apache.hadoop.mapreduce.TaskAttemptID.class,

                    org.apache.hadoop.mapreduce.RecordReader.class,

                     org.apache.hadoop.mapreduce.RecordWriter.class,

                 org.apache.hadoop.mapreduce.OutputCommitter.class,

                    org.apache.hadoop.mapreduce.StatusReporter.class,

                    org.apache.hadoop.mapreduce.InputSplit.class});

      //get an output object

      if(job.getNumReduceTasks() == 0) {

         output = newNewDirectOutputCollector(taskContext, job,

               umbilical, reporter);

      } else{

       output = new NewOutputCollector(taskContext, job, umbilical,

              reporter);

      }

     mapperContext = contextConstructor.newInstance(mapper, job,

               getTaskID(), input, output, committer, reporter, split);

      /*初始化，在默认情况下调用的是LineRecordReader的initialize方

       法，主要是打开输入文件并且将文件指针指向文件头*/

     input.initialize(split, mapperContext);

     mapper.run(mapperContext);    //运行真正的Mapper类

     input.close();

     output.close(mapperContext);

    } catch(NoSuchMethodException e) {

      thrownew IOException("Can't find Context constructor", e);

    } catch(InstantiationException e) {

      thrownew IOException("Can't create Context", e);

    } catch(InvocationTargetException e) {

      thrownew IOException("Can't invoke Context constructor", e);

    } catch(IllegalAccessException e) {

      thrownew IOException("Can't invoke Context constructor", e);

    }

}

3.6.1.3 Mapper.run（）方法
其中mapper.run方法调用的是Mapper类的run方法。这也是用户要实现map方法所需要继承的类。该类的run方法代码如下：

public void run(Context context) throws IOException, InterruptedException{

    setup(context);

    while (context.nextKeyValue()){

      map(context.getCurrentKey(),context.getCurrentValue(), context);

    }

    cleanup(context);

}

该方法首先调用了setup方法，这个方法在Mapper当中实际上是什么也没有做。用户可重写此方法让程序在执行map函数之前进行一些其他操作。然后，程序将不断获取键值对交给map函数处理，也就是用户所希望进行的操作。之后，程序调用cleanup函数。这个方法和setup一样，也是Mapper类的一个方法，但是实际上什么也没有做。用户可以重写此方法进行一些收尾工作。

3.6.1.4 Map任务执行序列图

图 Map任务执行序列图
3.6.2 ReduceTask的运行
3.6.2.1 ReduceTask.run()方法
如果运行的任务是ReduceTask，则其run函数如下：

public void run(JobConfjob, final TaskUmbilicalProtocol umbilical)

    throws IOException,InterruptedException, ClassNotFoundException {

    this.umbilical = umbilical;

   job.setBoolean("mapred.skip.on", isSkipping());

    /*添加reduce过程需要经过的几个阶段。以便通知TaskTracker目前运

     行的情况*/

    if (isMapOrReduce()) {

      copyPhase =getProgress().addPhase("copy");

      sortPhase = getProgress().addPhase("sort");

      reducePhase =getProgress().addPhase("reduce");

    }

    // 设置并启动reporter进程以便和TaskTracker进行交流

    TaskReporter reporter = newTaskReporter(getProgress(), umbilical);

   reporter.startCommunicationThread();

    boolean useNewApi =job.getUseNewReducer();

     /*用来初始化任务，主要是进行一些和任务输出相关的设置，比如创

      建commiter，设置工作目录等*/

    initialize(job, getJobID(), reporter,useNewApi);

/*以下4个if语句均是根据任务类型的不同进行相应的操作，这些方

   法均是Task类的方法，所以与任务是MapTask还是ReduceTask无关*/

    if(jobCleanup) {

     runJobCleanupTask(umbilical, reporter);

     return;

    }

    if(jobSetup) {

      //主要是创建工作目录的FileSystem对象

     runJobSetupTask(umbilical, reporter);

     return;

    }

    if(taskCleanup) {

      //设置任务目前所处的阶段为结束阶段，并且删除工作目录

     runTaskCleanupTask(umbilical, reporter);

     return;

    }



    //Initialize the codec

    codec =initCodec();

    boolean isLocal ="local".equals(job.get("mapred.job.tracker","local"));

    if (!isLocal) {

     //ReduceCopier对象负责将Map函数的输出拷贝至Reduce所在机器

      reduceCopier = newReduceCopier(umbilical, job, reporter);

      //fetchOutputs函数负责拷贝各个Map函数的输出

      if (!reduceCopier.fetchOutputs()){

       if(reduceCopier.mergeThrowable instanceof FSError) {

          throw(FSError)reduceCopier.mergeThrowable;

        }

        throw newIOException("Task: " + getTaskID() +

            " - The reducecopier failed", reduceCopier.mergeThrowable);

      }

    }

    copyPhase.complete();                // copy is already complete

   setPhase(TaskStatus.Phase.SORT);

    statusUpdate(umbilical);

    final FileSystem rfs =FileSystem.getLocal(job).getRaw();

    //根据JobTracker是否在本地来决定调用哪种排序方式

    RawKeyValueIterator rIter =isLocal

      ? Merger.merge(job, rfs,job.getMapOutputKeyClass(),

         job.getMapOutputValueClass(), codec, getMapFiles(rfs, true),

         !conf.getKeepFailedTaskFiles(), job.getInt("io.sort.factor",100),

          newPath(getTaskID().toString()), job.getOutputKeyComparator(),

          reporter,spilledRecordsCounter, null)

      :reduceCopier.createKVIterator(job, rfs, reporter);



    // free up the data structures

    mapOutputFilesOnDisk.clear();



    sortPhase.complete();                         // sort is complete

   setPhase(TaskStatus.Phase.REDUCE);

    statusUpdate(umbilical);

    Class keyClass =job.getMapOutputKeyClass();

    Class valueClass =job.getMapOutputValueClass();

    RawComparator comparator =job.getOutputValueGroupingComparator();

    if (useNewApi) {

      runNewReducer(job, umbilical,reporter, rIter, comparator,

                    keyClass,valueClass);

   } else {

      runOldReducer(job, umbilical,reporter, rIter, comparator,

                    keyClass,valueClass);

    }

    done(umbilical, reporter);

}

3.6.2.2 ReduceTask.runNewReducer()方法
同样，在此我们只考虑当用户用新的API编写程序时的情况。所以我们只关注runNewReducer方法，其代码如下：

private <INKEY,INVALUE,OUTKEY,OUTVALUE>

void runNewReducer(JobConfjob,

                     finalTaskUmbilicalProtocol umbilical,

                     final TaskReporterreporter,

                     RawKeyValueIterator rIter,

                     RawComparator<INKEY>comparator,

                     Class<INKEY>keyClass,

                     Class<INVALUE>valueClass

                     ) throwsIOException,InterruptedException,

                             ClassNotFoundException {

    // wrapvalue iterator to report progress.

    finalRawKeyValueIterator rawIter = rIter;

    rIter =new RawKeyValueIterator() {

     public void close() throws IOException {

       rawIter.close();

      }

     public DataInputBuffer getKey() throws IOException {

       return rawIter.getKey();

      }

     public Progress getProgress() {

       return rawIter.getProgress();

      }

     public DataInputBuffer getValue() throws IOException {

       return rawIter.getValue();

      }

     public boolean next() throws IOException {

       boolean ret = rawIter.next();

       reducePhase.set(rawIter.getProgress().get());

       reporter.progress();

       return ret;

      }

    };

/*TaskAttemptContext类继承于JobContext类，相对于JobContext类增加

了一些有关task的信息。通过taskContext对象可以获得很多与任务执行相

关的类，比如用户定义的Mapper类，InputFormat类等等 */

   org.apache.hadoop.mapreduce.TaskAttemptContexttaskContext =

   neworg.apache.hadoop.mapreduce.TaskAttemptContext(job, getTaskID());

    //创建用户定义的Reduce类的实例

   org.apache.hadoop.mapreduce.Reducer

    <INKEY,INVALUE,OUTKEY,OUTVALUE> reducer =

(org.apache.hadoop.mapreduce.Reducer

<INKEY,INVALUE,OUTKEY,OUTVALUE>)

       ReflectionUtils.newInstance(taskContext.getReducerClass(), job);

    //创建用户指定的RecordWriter

   org.apache.hadoop.mapreduce.RecordWriter

<OUTKEY,OUTVALUE> output =

(org.apache.hadoop.mapreduce.RecordWriter<OUTKEY,OUTVALUE>)

       outputFormat.getRecordWriter(taskContext);

org.apache.hadoop.mapreduce.RecordWriter<OUTKEY,OUTVALUE>

trackedRW =

new NewTrackingRecordWriter<OUTKEY,OUTVALUE>

(output, reduceOutputCounter);

   job.setBoolean("mapred.skip.on", isSkipping());

   org.apache.hadoop.mapreduce.Reducer.Context

        reducerContext = createReduceContext(reducer, job, getTaskID(),

         rIter,reduceInputKeyCounter,

         reduceInputValueCounter,

         trackedRW, committer,

         reporter, comparator, keyClass,

       valueClass);

   reducer.run(reducerContext);

   output.close(reducerContext);

}

3.6.2.3 reducer.run()方法
其中，reducer的run函数如下：

public void run(Context context) throws IOException, InterruptedException{

    setup(context);

    while (context.nextKey()) {

     reduce(context.getCurrentKey(), context.getValues(), context);

    }

    cleanup(context);

}

该函数先调用setup函数，该函数默认是什么都不做，但是用户可以通过重写此函数来在运行reduce函数之前做一些初始化工作。然后程序会不断读取输入数据，交给reduce函数处理。这里的reduce函数就是用户所写的reduce函数。最后调用cleanup函数。默认的cleanup函数是没有做任何事情，但是用户可以通过重写此函数来进行一些收尾工作。

3.6.2.4 Reduce任务执行序列图

图 Reduce任务执行序列图

你可能感兴趣的:(apache,mapreduce)

Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
最简单将静态网页挂载到服务器上(不用nginx) 全能全知者服务器 nginx 运维前端 html 笔记
最简单将静态网页挂载到服务器上(不用nginx)如果随便弄个静态网页挂在服务器都要用nignx就太麻烦了，所以直接使用Apache来搭建一些简单前端静态网页会相对方便很多检查Web服务器服务状态：sudosystemctlstatushttpd#ApacheWeb服务器如果发现没有安装web服务器：安装Apache：sudoyuminstallhttpd启动Apache：sudosystemctl
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
maven-assembly-plugin 打包实例带着二娃去遛弯
1.先在pom.xml文件中添加assembly打包插件org.apache.maven.pluginsmaven-assembly-plugin2.6assembly/assembly.xmlmake-assemblypackagesingle说明:1.需要修改的可能就是descriptors标签下面的打包配置文件目录,指定assembly.xml的路径.2.可以添加多个打包配置文件,进行多种形
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
java 技术架构相关文档圣心 java 架构开发语言
在Java中，有许多不同的技术和架构，这里我将列举一些常见的Java技术和架构，并提供一些相关的文档资源。SpringFrameworkSpring是一个开源的Java/JavaEE全功能框架，以Apache许可证形式发布，提供了一种实现企业级应用的方法。官方文档：SpringFrameworkSpringBootSpringBoot是Spring的一个子项目，旨在简化创建生产级的Spring应用
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
Apache Shiro安全框架(2)-用户认证 heyrian Java shiro
身份认证在shiro中用户需要提供用户的principals（身份）和credentials（证明）来证明该用户属于当前系统用户。常见的认证方式即用户名/密码。在解释身份认证之前，我们先来看看shiro中的Subject和Realm,这是身份认证的两个关键的概念。Subjectsubject代表当前用户，内部主要维护当前用户信息。shiro中所有的subject都交给SecurityManager
Apache HBase基础（基本概述，物理架构，逻辑架构，数据管理，架构特点，HBase Shell） May--J--Oldhu HBase HBase shell hbase物理架构 hbase逻辑架构 hbase
NoSQL综述及ApacheHBase基础一.HBase1.HBase概述2.HBase发展历史3.HBase应用场景3.1增量数据-时间序列数据3.2信息交换-消息传递3.3内容服务-Web后端应用程序3.4HBase应用场景示例4.ApacheHBase生态圈5.HBase物理架构5.1HMaster5.2RegionServer5.3Region和Table6.HBase逻辑架构-Row7.
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
Superset二次开发之源码DependencyList.tsx 分析 aimmon Superset二次开发 Superset BI 二次开发 typescript 前端
功能点路径superset-frontend\src\dashboard\components\nativeFilters\FiltersConfigModal\FiltersConfigForm\DependencyList.tsx/***LicensedtotheApacheSoftwareFoundation(ASF)underone*ormorecontributorlicenseagre
史上最全的maven的pom.xml文件详解 Meta999 Maven
注：详解文件中，用红色进行标注的是平常项目中常用的配置节点。要详细学习！转载的，太经典了、、、、欢迎收藏xxxxxxxxxxxx4.0.0xxxxxxjar1.0-SNAPSHOTxxx-mavenhttp://maven.apache.orgAmavenprojecttostudymaven.jirahttp://jira.baidu.com/[email protected]
利用apache-pdfbox库修改pdf文件模板，进行信息替换区块链攻城狮 pdf 合同模板 pdf生成合同生成
publicStringcreateSignFile(Longid)throwsIOException{//1.验证企业信息CompanyDOcompany=validateCompanyExists(id);//2.验证签约状态if(company.getSignStatus()!=0){throwexception(COMPANY_SIGN_STATUS_NOT_ZERO);}//3.获取合同
Apache DataFusion Python 绑定教程柏赢安Simona
ApacheDataFusionPython绑定教程datafusion-pythonApacheDataFusionPythonBindings项目地址:https://gitcode.com/gh_mirrors/data/datafusion-python项目介绍ApacheDataFusion是一个基于ApacheArrow的内存查询引擎，提供了高性能的查询处理能力。DataFusion的
压测服务器并使用 Grafana 进行可视化豆瑞瑞 grafana
简介仓库代码GitCode-全球开发者的开源社区,开源代码托管平台参考Welcome!-TheApacheHTTPServerProjectGrafana|查询、可视化、警报观测平台https://prometheus.io/docs/introduction/overview/
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
2.Jmeter安装配置，核心目录详情，组件和作用域 XXX-17 Jmeter jmeter 软件测试接口测试
一、Jmeter安装配置以及核心目录详情Jmeter基于java语言来开发，java需要jdk环境。1.安装jdk并且配置jdk的环境变量。2.jmeter只需要解压就可以使用了。3.在D:\apache-jmeter-5.5\bin目录下双击jmeter.bat文件就可以启动使用了backups：自动备份的目录bin：启动文件、配置文件（jmeter.bat是启动问题，jmeter.propti
BindingException: Invalid bound statement (not found) 小卡车555 MyBatis mybatis java mysql
Mybatis出现绑定异常问题的解决org.apache.ibatis.binding.BindingException:Invalidboundstatement(notfound)一般的原因是Mapperinterface和xml文件的定义对应不上，需要检查包名，namespace，函数名称等能否对应上，需要比较细致的对比，我经常就是写错了一两个字母搞的很长时间找不到错误按以下步骤一一执行：1
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
NoClassDefFoundError: org.apache.poi.POIXMLDocument问题排查解决 qinmingjun718 apache
java.lang.NoClassDefFoundError:org/apache/poi/POIXMLDocumentPart这错很明显就是没找到这个类POIXMLDocumentPart就是找不到类问题原因是大概是因为poi从3.1.X低版本版本升级到pio4.1.2高版本的后与org.apache.poi.xwpf.converter.core-1.0.6.jar不兼容问题，导致这个情况的主
使用poi替换XWPFTableCell内容，并设置行间距 RR369_yyh javaUtil java poi
使用poi读取word文档（docx类型），进行数据替换。另外，为了记录poi设置行间距的api，真是找了好几十分钟才找到啊啊啊啊！！！importorg.apache.poi.xwpf.usermodel.*;importorg.springframework.util.StringUtils;importjava.io.File;importjava.io.FileInputStream;im
揭秘OozieBundle：架构组件与核心概念光剑书架上的书计算大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
揭秘OozieBundle：架构、组件与核心概念1.背景介绍在大数据领域，数据处理工作流程通常由多个复杂的作业组成,这些作业之间存在着依赖关系。ApacheOozie作为一个工作流调度系统,可以有效管理这些复杂的工作流程。OozieBundle是Oozie提供的一种特殊的工作流程,用于协调和控制多个相关的工作流程。OozieBundle的主要目的是将多个相关的工作流程组织在一起,并根据它们之间的依
Apache POI用法 JH3073 apache
一、ApachePOI是什么ApachePOI是用Java编写的免费开源的跨平台的JavaAPI，ApachePOI提供API给Java程序对MicrosoftOffice格式档案读和写的功能，其中使用最多的就是使用POI操作Excel文件。二、POI结构HSSF－提供读写MicrosoftExcelXLS格式档案的功能XSSF－提供读写MicrosoftExcelOOXMLXLSX格式档案的功能
【LINUX】在ubuntu中安装tomcat 缘起性本空 linux 运维服务器
#instaljdkaptinstallopenjdk-8-jdk-y#enterinstallpathcd/home/a/#copytomcatpackagecp/mnt/hgfs/Share/apache-tomcat-9.0.93.tar.gz.#unpresstomcatpackagetar-xfapache-tomcat-9.0.93.tar.gz#enterbinpathcdapach
Hadoop windows intelij 跑 MR WordCount piziyang12138
一、软件环境我使用的软件版本如下:IntellijIdea2017.1Maven3.3.9Hadoop分布式环境二、创建maven工程打开Idea,file->new->Project,左侧面板选择maven工程。(如果只跑MapReduce创建java工程即可，不用勾选Creatfromarchetype，如果想创建web工程或者使用骨架可以勾选)image.png设置GroupId和Artif
最好用的e2e框架，使用 Cypress 让产品持续稳定交付 Node全栈 java python 编程语言软件测试 html
以前我们经常使用nightwatch，现在都已经切换到cypress了，可以说cypress目前最好用的e2e框架。具体原因和对比，就是本文要讲的内容。背景ApacheAPISIXDashboard的设计是为了让用户通过前端界面尽可能方便地操作ApacheAPISIX。从项目初始化到现在，已经有552commits、发布了10个版本。在如此之快的产品迭代过程中，确保开源产品质量显的尤为重要。为此，
Linux下apache的安装轴儿
1.获取软件：http://httpd.apache.org/httpd-2.4.25.tar.gz并上传至服务器。运行以上命令时，可能会出现“APRnotfound.”的错误。此时需要下载依赖包。2.下载安装依赖包：创建文件夹：mkdir/usr/httpd-refercd/usr/httpd-refer/下载依赖包：wgethttp://p5osdejt4.bkt.clouddn.com/ap
使用 Apache Cassandra 实现 LLM 缓存：提升 AI 应用性能的实用指南 afTFODguAKBF apache 缓存人工智能 python
使用ApacheCassandra实现LLM缓存：提升AI应用性能的实用指南引言在当今的AI驱动的应用程序中，大语言模型（LLM）扮演着越来越重要的角色。然而，频繁调用LLMAPI不仅会增加延迟，还会导致高昂的成本。为了解决这个问题，实现有效的缓存策略变得至关重要。本文将介绍如何使用ApacheCassandra®或AstraDB来实现LLM缓存，从而显著提升您的AI应用性能和成本效率。为什么选择
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C