chlaws

MapReduce源码分析之InputSplit分析

前言

MapReduce的源码分析是基于Hadoop1.2.1基础上进行的代码分析。

什么是InputSplit

InputSplit是指分片，在MapReduce当中作业中，作为map task最小输入单位。分片是基于文件基础上出来的而来的概念，通俗的理解一个文件可以切分为多少个片段，每个片段包括了<文件名，开始位置，长度，位于哪些主机>等信息。在MapTask拿到这些分片后，会知道从哪开始读取数据。

Job提交时如何获取到InputSplit
以org.apache.hadoop.mapred包中的FileInputFormat为例（因为该类作为其他文件类型的基类），内部实现了如何获取分片，通过分析代码，以便知晓文件是如何被切片的。

 
 public InputSplit[] getSplits(JobConf job, int numSplits)
   throwsIOException {
    //获取文件列表的状态，底层通过HDFS客户端的//DistributedFileSystem.getFileStatus获取到文件的状态（文件长度，访问时间，权限，块大小，副本数等信息）
   FileStatus[] files = listStatus(job);
   
   // 保存输入的文件的文件个数
   job.setLong(NUM_INPUT_FILES, files.length);
    //计算所有文件的总长度
   longtotalSize = 0;                           // compute total size
   for(FileStatus file: files) {               // check we have valid files
     if(file.isDir()) {
        throw new IOException("Not a file: "+ file.getPath());
     }
     totalSize += file.getLen();
   }
    
    // 计算出目标长度，通过总长度和用户指定的map task的个数相除得到
   longgoalSize = totalSize / (numSplits == 0 ? 1 : numSplits);
   // 获取用户配置文件中指定的最小split的长度，默认为1，如果不希望按默认计算出的大//小进行分片，则可以指定最小切分的大小，当这个值大于计算出的分片大小，则会以此为准。
   longminSize = Math.max(job.getLong("mapred.min.split.size", 1),
                            minSplitSize);
 
   // 保存后续生成的split
   ArrayList splits = new ArrayList(numSplits);
   NetworkTopology clusterMap = new NetworkTopology();
 
    //对每个文件进行切片
   for(FileStatus file: files) {
     Path path = file.getPath();
     FileSystem fs = path.getFileSystem(job);
     longlength = file.getLen();
      // 获取到整个文件的所有block的位置信息
     BlockLocation[] blkLocations = fs.getFileBlockLocations(file, 0,length);
     // 文件长度不为0，且能被切分（二进制文件总是不允许切分）
     if((length != 0) && isSplitable(fs, path)) {
        long blockSize = file.getBlockSize();
        //计算出当前文件需要按多长作为当前该文件切分的单位(一般为blockSize,当map task指定的多，则为goalSize，这需要按具体的参数)
        long splitSize = computeSplitSize(goalSize,minSize, blockSize);
 
        long bytesRemaining = length;
        //循环按分片大小取出一个个分片
        while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {
        //获取分片所在的主机列表,这里会涉及到如何计算本地化,这在后面会拿出来分析
          String[] splitHosts =getSplitHosts(blkLocations,
              length-bytesRemaining, splitSize,clusterMap);
          splits.add(new FileSplit(path,length-bytesRemaining, splitSize,
              splitHosts));
          bytesRemaining -= splitSize;
        }
       
        //对尾部不足一个分片大小的也生成一个分片
        if (bytesRemaining != 0) {
          splits.add(new FileSplit(path,length-bytesRemaining, bytesRemaining,
                     blkLocations[blkLocations.length-1].getHosts()));
        }
     } elseif(length != 0) {
        // 不允许被切分的文件,不会因为文件大小而去计算需要占用几个分片
        String[] splitHosts = getSplitHosts(blkLocations,0,length,clusterMap);
        splits.add(new FileSplit(path, 0, length, splitHosts));
     } else{
        //文件长度为空的也会产生一个分片
        //Create empty hosts array for zero length files
        splits.add(new FileSplit(path, 0, length, new String[0]));
     }
   }
   LOG.debug("Total # of splits: "+ splits.size());
   returnsplits.toArray(newFileSplit[splits.size()]);
 }

通过上述分析，可以知道我们指定一个目录作为job的输入源时，用户指定的MapTask的个数，以及文件总长度，块大小，以及用户指定的最小分片长度会影响到最后可以产生多少个分片，也就是这个Job最后需要执行多少次MapTask。

同时，还可以得知，一个分片是不会跨越两个文件的；一个空的文件也会占用到一个分片；不是每个分片都是等长的；以及一个分片可以跨一个大文件中连续的多个block。

主机列表是什么，如何选择

InputSplit作为一个分片，所包含的的信息中有主机列表这一信息，这不是说这个分片就在这个主机列表上，这是错误的理解。主机列表是指做task的时候，JobTracker会把Task发送到主机列表所在的节点上，由该节点来执行task。

在上面我们已经得出过结论“一个分片可以有多个block”，那么这种这情况下，主机列表就不会覆盖所有block所对应的主机信息，而是根据一种算法来：通过将机架和数据节点引入进来，形成网络拓扑；机架对应的信息中会存储这个机架有这个分片的多少数据量，数据节点对应的节点信息中会存储这个节点有这个分片的多少数据量。根据机架和数据节点这两个信息来排序，会选择出机架列表里包含的了最多数据量的机架，在该机架内选择包含了最多的数据量的数据节点。如果第一个机架的主机列表数量不够，则再从第二个机架内选择数据节点。通过这种形式来选择出最合理的主机列表信息。

另外对应的，如果一个分片只包含一个block，那么就没有上述这么复杂的情况，只要将这个块对应的信息（BlockLocation）中的主机列表信息返回即可。

下面我们来实际分析代码，会通过注释来解释关键的步骤。

protected String[] getSplitHosts(BlockLocation[] blkLocations,
     longoffset, longsplitSize, NetworkTopology clusterMap)
 throwsIOException {
   
    // 通过指定的偏移来确定在偏移是落在了第几个Block上
   intstartIndex = getBlockIndex(blkLocations, offset);
   
    // 计算出当前这个Block从偏移开始到块结束还有多少数据量
   longbytesInThisBlock = blkLocations[startIndex].getOffset() +
                         blkLocations[startIndex].getLength() - offset;
 
    // 如果这个块的剩余的数据量是大于一个分片的长度的,
    // 则直接返回这个block所对应的主机列表。也就是一个分片不足一个block的情况
   //If this is the only block, just return
   if(bytesInThisBlock >= splitSize) {
     returnblkLocations[startIndex].getHosts();
   }
   
    // 否则，说明了这个分片还会包含其他的block，因此需要算出除当前块外的分片长度
   longbytesInFirstBlock = bytesInThisBlock;
   intindex = startIndex + 1;
   splitSize -= bytesInThisBlock;
   
    // 计算出在最后一个块做这个分片占了多少长度的数据量。
   while(splitSize > 0) {
     bytesInThisBlock =
        Math.min(splitSize,blkLocations[index++].getLength());
     splitSize -= bytesInThisBlock;
   }
 
   longbytesInLastBlock = bytesInThisBlock;
   intendIndex = index - 1;
   
    //这是两个核心的结果，用于记录网络拓扑信息
    //Node用来表示节点（如数据节点，机架）
    //NodeInfo用来表示节点的信息，包含（叶子节点列表，blockId列表，数据长度）
    //hostsMap会记录数据节点（简称节点，即Datanode）到对应的节点信息的关系
    //在hostsMap记录的value中会记录数据节点包含了这个分片中的多少个块索引
    //以及包含的这些block有多少数据是在这个分片中的。
    //racksMap会记录机架到这个机架信息，在racksMap中会记录包括上述的数据节点
    //所包含的的信息之外，还记录了有哪些数据节点属于这个机架
   Map  hostsMap = new IdentityHashMap();
   Map  racksMap = new IdentityHashMap();
   String [] allTopos = new String[0];
 
   // Build the hierarchy and aggregate thecontribution of
   // bytes at each level. SeeTestGetSplitHosts.java  
    // 遍历这个分片所包含的的block，将block的拓扑信息和数据长度信息记录到
    // hostsMap和racksMap中
   for(index = startIndex; index <= endIndex; index++) {
   
      // 确认block有多少数据是属于当前这个分片的
     // Establish the bytes in this block
     if(index == startIndex) {
        bytesInThisBlock = bytesInFirstBlock;
     }
     elseif(index == endIndex) {
        bytesInThisBlock = bytesInLastBlock;
     }
     else{
        bytesInThisBlock =blkLocations[index].getLength();
     }
       
      // 获取block的拓扑信息，取得拓扑的路径
      // 如["/rack1/node1"，"/rack1/node2","/rack2/node3"]
     allTopos = blkLocations[index].getTopologyPaths();
 
     // If no topology information is available,just
     // prefix a fakeRack
     if(allTopos.length== 0) {
        allTopos = fakeRacks(blkLocations,index);
     }
 
     // NOTE: This code currently works only forone level of
     // hierarchy (rack/host). However, it isrelatively easy
     // to extend this to support aggregation atdifferent
     // levels
     
      // 遍历每个拓扑，将信息构建到hostsMap和racksMap
     for(String topo: allTopos) {
 
        Node node, parentNode;
        NodeInfo nodeInfo, parentNodeInfo;
 
        node = clusterMap.getNode(topo);
 
        if (node == null) {
          node = new NodeBase(topo);
          clusterMap.add(node);
        }
       
        nodeInfo = hostsMap.get(node);
       
        // 数据节点信息不存在，则在主机和机架信息中都加入新的记录
        //否则则更新下数据
        if (nodeInfo == null) {
          nodeInfo = new NodeInfo(node);
          hostsMap.put(node,nodeInfo);
          parentNode = node.getParent();
          parentNodeInfo =racksMap.get(parentNode);
          if (parentNodeInfo == null) {
            parentNodeInfo = new NodeInfo(parentNode);
           racksMap.put(parentNode,parentNodeInfo);
          }
          parentNodeInfo.addLeaf(nodeInfo);
        }
        else {
          nodeInfo = hostsMap.get(node);
          parentNode = node.getParent();
          parentNodeInfo =racksMap.get(parentNode);
        }
       
        // 更新这个数据节点包含了哪些块索引和包含了分片中多少的数据量
        nodeInfo.addValue(index,bytesInThisBlock);
        //更新机架包含了哪些块索引和包含了分片中多少的数据量
        parentNodeInfo.addValue(index,bytesInThisBlock);
 
     } // for all topos
   
   } // for all indices
    // 真正开始按选择主机
   returnidentifyHosts(allTopos.length, racksMap);
 }
 
 // 会选择出副本数的主机列表，即有副本数是3，则会返回3个主机的信息
 // 选择的算法，是前面所说的先根据机架包含的数据量排序，再根据节点包含的数据量
 // 进行排序，然后依次从高到底选出副本数个主机信息返回
 privateString[] identifyHosts(int replicationFactor,
                                Map racksMap) {
   
   String [] retVal = new String[replicationFactor];
  
   List  rackList = new LinkedList();
 
   rackList.addAll(racksMap.values());
   
    //对所有机架按包含的数据量多少进行排序
   // Sort the racks based on theircontribution to this split
   sortInDescendingOrder(rackList);
   
   booleandone = false;
   intindex = 0;
   
    //依次遍历这些机架，在机架内会按节点包含的数据量的多少进行排序
   // Get the host list for all our aggregateditems, sort
   // them and return the top entries
   for(NodeInfo ni: rackList) {
 
     Set hostSet= ni.getLeaves();
 
     ListhostList = new LinkedList();
     hostList.addAll(hostSet);
   
     // Sort the hosts in this rack based ontheir contribution
     sortInDescendingOrder(hostList);
     
      // 从按数据量的多少从高到底选择主机
     for(NodeInfo host: hostList) {
        // Strip out the port number from the host name
        retVal[index++] = host.node.getName().split(":")[0];
        if (index == replicationFactor) {
          done = true;
          break;
        }
     }
     
     if(done == true){
        break;
     }
   }
   returnretVal;
 }

通过上述选择主机的算法，我们可以知道，当一个分片包含的多个block的时候，总会从其他节点读取数据，也就是做不到所有的计算都是本地化。为了发挥计算本地化性能，应该尽量使InputSplit大小与块大小相当。

在旧版的接口中，InputSplit的大小会受maptask个数，和split参数的影响，需要具体情况具体调整。在新版的接口中，这个比较容易控制，因为不受maptask的影响，InputSplit大小计算公式如下： splitSize=max("mapred.min.split.size",min("mapred.max.split.size",blockSize))

两个参数都取默认配置的时候，分片大小就是blockSize

2019-11-04复盘——飞来山上千寻塔，闻说鸡鸣见日升。那一叶秋
1、大盘篇先上老图，看习惯了，也就知道走势了图1上证指数日线图还是那张老图，自己可以在自己的相关软件上画出来，快变盘了。2、个股篇未加仓、未减仓。分析量能的时候，突然发现这么一个东西：“放量突破年线，缩量回调。”合众科技日线图其实，最近的N只个股，在技术分析上，都到了变盘的临界时候。结合这么久的走势，特别是ZJH不断放开IPO的申请，本质上说是融资难度变大，或者说是为企业的融资开创便利。但现在市场
Java：爬虫框架 dingcho Java java 爬虫
一、ApacheNutch2【参考地址】Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。Nutch致力于让每个人能很容易,同时花费很少就可以配置世界一流的Web搜索引擎.为了完成这一宏伟的目标,Nutch必须能够做到:每个月取几十亿网页为这些网页维护一个索引对索引文件进行每秒上千次的搜索提供高质量的搜索结果简单来说Nutch支持分
最简单将静态网页挂载到服务器上(不用nginx) 全能全知者服务器 nginx 运维前端 html 笔记
最简单将静态网页挂载到服务器上(不用nginx)如果随便弄个静态网页挂在服务器都要用nignx就太麻烦了，所以直接使用Apache来搭建一些简单前端静态网页会相对方便很多检查Web服务器服务状态：sudosystemctlstatushttpd#ApacheWeb服务器如果发现没有安装web服务器：安装Apache：sudoyuminstallhttpd启动Apache：sudosystemctl
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
JVM源码分析之堆外内存完全解读 HeapDump性能社区
概述广义的堆外内存说到堆外内存，那大家肯定想到堆内内存，这也是我们大家接触最多的，我们在jvm参数里通常设置-Xmx来指定我们的堆的最大值，不过这还不是我们理解的Java堆，-Xmx的值是新生代和老生代的和的最大值，我们在jvm参数里通常还会加一个参数-XX:MaxPermSize来指定持久代的最大值，那么我们认识的Java堆的最大值其实是-Xmx和-XX:MaxPermSize的总和，在分代算法
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
maven-assembly-plugin 打包实例带着二娃去遛弯
1.先在pom.xml文件中添加assembly打包插件org.apache.maven.pluginsmaven-assembly-plugin2.6assembly/assembly.xmlmake-assemblypackagesingle说明:1.需要修改的可能就是descriptors标签下面的打包配置文件目录,指定assembly.xml的路径.2.可以添加多个打包配置文件,进行多种形
Golang Channel PandaSkr golang
Channel解析1.Channel源码分析1.1Channel数据结构typehchanstruct{qcountuint//channel的元素数量dataqsizuint//channel循环队列长度bufunsafe.Pointer//指向循环队列的指针elemsizeuint16//元素大小closeduint32//channel是否关闭0-未关闭elemtype*_type//元素类
Kafka详细解析与应用分析芊言芊语 kafka 分布式
Kafka是一个开源的分布式事件流平台（EventStreamingPlatform），由LinkedIn公司最初采用Scala语言开发，并基于ZooKeeper协调管理。如今，Kafka已经被Apache基金会纳入其项目体系，广泛应用于大数据实时处理领域。Kafka凭借其高吞吐量、持久化、分布式和可靠性的特点，成为构建实时流数据管道和流处理应用程序的重要工具。Kafka架构Kafka的架构主要由
TA-Lib Python 库 Windows 64位安装包黄桥壮Quinn
TA-LibPython库Windows64位安装包TA.rar项目地址:https://gitcode.com/open-source-toolkit/3ff39简介本仓库提供了一个适用于Windows64位系统的TA-LibPython库安装包。TA-Lib是一个广泛用于金融技术分析的库，支持多种技术指标的计算。资源文件文件名TA-Lib-0.4.29-cp312-win-amd64.whl描
Java集合类框架源码分析之 RoleList源码解析【6】 yunzhonghefei Java集合类源码分析 RoleList源码解析
该类继承于ArrayList，针对Role进行了一些扩展。其他方法和ArrayList中基本相同，源码不做针对性分析：看一下类简介：/***代表了一个roles的列表，作为方法setRoles()的参数，去创建一个关联关系，并且尝试在同一个关系中设置多个角色。*ARoleListrepresentsalistofroles(Roleobjects).Itisusedas*parameterwhen
【鸿蒙OH-v5.0源码分析之 Linux Kernel 部分】004 - Kernel 启动引导代码head.S 源码逐行分析 "小夜猫&小懒虫&小财迷"的男人鸿蒙OH-v5.0源码分析之 Uboot+Kernel 部分 harmonyos linux 华为
【鸿蒙OH-v5.0源码分析之LinuxKernel部分】004-Kernel启动引导代码head.S源码逐行分析系列文章汇总：《鸿蒙OH-v5.0源码分析之Uboot+Kernel部分】000-文章链接汇总》本文链接：《【鸿蒙OH-v5.0源码分析之LinuxKernel部分】004-Kernel启动引导代码head.S源码逐行分析》head.S主要工作如下：保存内核启动参数,无效化处理器缓存(
java 技术架构相关文档圣心 java 架构开发语言
在Java中，有许多不同的技术和架构，这里我将列举一些常见的Java技术和架构，并提供一些相关的文档资源。SpringFrameworkSpring是一个开源的Java/JavaEE全功能框架，以Apache许可证形式发布，提供了一种实现企业级应用的方法。官方文档：SpringFrameworkSpringBootSpringBoot是Spring的一个子项目，旨在简化创建生产级的Spring应用
Linux驱动-字符设备驱动 Vis-Lin Linux驱动 linux 驱动开发运维单片机物联网
Linux驱动-字符设备驱动前言一、预备知识1、file_operations结构体2、地址映射二、涉及的API函数1、字符设备驱动1.1、设备号1.1.1、register_chrdev_region函数1.1.2、alloc_chrdev_region函数1.1.3、unregister_chrdev_region函数1.2、字符设备1.2.1、cdev_init函数1.2.2、dev_add
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
Apache Shiro安全框架(2)-用户认证 heyrian Java shiro
身份认证在shiro中用户需要提供用户的principals（身份）和credentials（证明）来证明该用户属于当前系统用户。常见的认证方式即用户名/密码。在解释身份认证之前，我们先来看看shiro中的Subject和Realm,这是身份认证的两个关键的概念。Subjectsubject代表当前用户，内部主要维护当前用户信息。shiro中所有的subject都交给SecurityManager
Apache HBase基础（基本概述，物理架构，逻辑架构，数据管理，架构特点，HBase Shell） May--J--Oldhu HBase HBase shell hbase物理架构 hbase逻辑架构 hbase
NoSQL综述及ApacheHBase基础一.HBase1.HBase概述2.HBase发展历史3.HBase应用场景3.1增量数据-时间序列数据3.2信息交换-消息传递3.3内容服务-Web后端应用程序3.4HBase应用场景示例4.ApacheHBase生态圈5.HBase物理架构5.1HMaster5.2RegionServer5.3Region和Table6.HBase逻辑架构-Row7.
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
Superset二次开发之源码DependencyList.tsx 分析 aimmon Superset二次开发 Superset BI 二次开发 typescript 前端
功能点路径superset-frontend\src\dashboard\components\nativeFilters\FiltersConfigModal\FiltersConfigForm\DependencyList.tsx/***LicensedtotheApacheSoftwareFoundation(ASF)underone*ormorecontributorlicenseagre
史上最全的maven的pom.xml文件详解 Meta999 Maven
注：详解文件中，用红色进行标注的是平常项目中常用的配置节点。要详细学习！转载的，太经典了、、、、欢迎收藏xxxxxxxxxxxx4.0.0xxxxxxjar1.0-SNAPSHOTxxx-mavenhttp://maven.apache.orgAmavenprojecttostudymaven.jirahttp://jira.baidu.com/[email protected]
利用apache-pdfbox库修改pdf文件模板，进行信息替换区块链攻城狮 pdf 合同模板 pdf生成合同生成
publicStringcreateSignFile(Longid)throwsIOException{//1.验证企业信息CompanyDOcompany=validateCompanyExists(id);//2.验证签约状态if(company.getSignStatus()!=0){throwexception(COMPANY_SIGN_STATUS_NOT_ZERO);}//3.获取合同
Apache DataFusion Python 绑定教程柏赢安Simona
ApacheDataFusionPython绑定教程datafusion-pythonApacheDataFusionPythonBindings项目地址:https://gitcode.com/gh_mirrors/data/datafusion-python项目介绍ApacheDataFusion是一个基于ApacheArrow的内存查询引擎，提供了高性能的查询处理能力。DataFusion的
压测服务器并使用 Grafana 进行可视化豆瑞瑞 grafana
简介仓库代码GitCode-全球开发者的开源社区,开源代码托管平台参考Welcome!-TheApacheHTTPServerProjectGrafana|查询、可视化、警报观测平台https://prometheus.io/docs/introduction/overview/
Java高并发编程详解系列-深入理解Thread构造 nihui123 高并发 Java高并发 Java 高并发
上篇分享中主要是对线程的基本概念和基本操作做了一个分享，同时提出了两种常用的创建多线程的方法，当然在后期的分享中也会提及到更多的创建线程的方式，到后期的分享的时候再说。这次主要是深入的理解一下Thread的构造函数，通过构造函数对于Thread有一个更加深入的了解。这里首先提供一个JDK1.6的ThreadAPI截图线程命名规范从源码分析可以看到在Thread类中默认提供了线程的命名方式，这个
【QT教程】QT6硬件图形界面编程 QT硬件编程 QT性能优化QT原理源码QT界面美化 qt qt6.3 qt5 c++QT教程
QT6硬件图形界面编程使用AI技术辅助生成QT界面美化视频课程QT性能优化视频课程QT原理与源码分析视频课程QTQMLC++扩展开发视频课程免费QT视频课程您可以看免费1000+个QT技术视频免费QT视频课程QT统计图和QT数据可视化视频免费看免费QT视频课程QT性能优化视频免费看免费QT视频课程QT界面美化视频免费看1QT6硬件图形界面编程概述1.1QT6硬件图形界面编程简介1.1.1QT6硬件
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
2.Jmeter安装配置，核心目录详情，组件和作用域 XXX-17 Jmeter jmeter 软件测试接口测试
一、Jmeter安装配置以及核心目录详情Jmeter基于java语言来开发，java需要jdk环境。1.安装jdk并且配置jdk的环境变量。2.jmeter只需要解压就可以使用了。3.在D:\apache-jmeter-5.5\bin目录下双击jmeter.bat文件就可以启动使用了backups：自动备份的目录bin：启动文件、配置文件（jmeter.bat是启动问题，jmeter.propti
BindingException: Invalid bound statement (not found) 小卡车555 MyBatis mybatis java mysql
Mybatis出现绑定异常问题的解决org.apache.ibatis.binding.BindingException:Invalidboundstatement(notfound)一般的原因是Mapperinterface和xml文件的定义对应不上，需要检查包名，namespace，函数名称等能否对应上，需要比较细致的对比，我经常就是写错了一两个字母搞的很长时间找不到错误按以下步骤一一执行：1
Unreal Engine——AI生成高精度的虚拟人物和环境（虚拟世界构建、电影场景生成）（二）（技术分析）爱研究的小牛 AIGC—虚拟现实人工智能虚幻游戏引擎 AIGC
UnrealEngine（虚幻引擎）是业界领先的3D实时渲染引擎，广泛应用于游戏开发、影视制作、建筑可视化和虚拟现实等领域。其核心技术实现涵盖了多项复杂的功能模块，包括图形渲染、物理引擎、动画系统、音效系统和网络系统等。1.图形渲染技术UnrealEngine的图形渲染系统非常强大，支持实时渲染复杂的3D场景，生成高品质的视觉效果。虚幻引擎使用先进的渲染管线，主要分为以下几个方面：1.1渲染管线虚
Jetpack LiveData源码分析 xiangxiongfly915 #Android Jetpack系列 Jetpack LiveData 源码分析
文章目录JetpackLiveData源码分析前提源码分析注册订阅流程LiveData#observe()LifecycleRegistry#addObserver()ObserverWithState#dispatchEvent()LiveData#removeObserver()LiveData$LifecycleBoundObserver类LifecycleBoundObserver#sho
ztree设置禁用节点 3213213333332132 JavaScript ztree json setDisabledNode Ajax
ztree设置禁用节点的时候注意，当使用ajax后台请求数据,必须要设置为同步获取数据，否者会获取不到节点对象，导致设置禁用没有效果。 $(function(){ showTree(); setDisabledNode(); });
JVM patch by Taobao bookjovi java HotSpot
在网上无意中看到淘宝提交的hotspot patch，共四个，有意思，记录一下。 7050685：jsdbproc64.sh has a typo in the package name 7058036：FieldsAllocationStyle=2 does not work in 32-bit VM 7060619：C1 should respect inline and
将session存储到数据库中 dcj3sjt126com sql PHP session
CREATE TABLE sessions ( id CHAR(32) NOT NULL, data TEXT, last_accessed TIMESTAMP NOT NULL, PRIMARY KEY (id) ); <?php /** * Created by PhpStorm. * User: michaeldu * Date
Vector 171815164 vector
public Vector<CartProduct> delCart(Vector<CartProduct> cart, String id) { for (int i = 0; i < cart.size(); i++) { if (cart.get(i).getId().equals(id)) { cart.remove(i);
各连接池配置参数比较 g21121 连接池
排版真心费劲，大家凑合看下吧，见谅~ Druid DBCP C3P0 Proxool 数据库用户名称 Username Username User 数据库密码 Password Password Password 驱动名
[简单]mybatis insert语句添加动态字段 53873039oycg mybatis
mysql数据库,id自增,配置如下： <insert id="saveTestTb" useGeneratedKeys="true" keyProperty="id" parameterType=&
struts2拦截器配置云端月影 struts2拦截器
struts2拦截器interceptor的三种配置方法方法1. 普通配置法 <struts> <package name="struts2" extends="struts-default"> &
IE中页面不居中，火狐谷歌等正常 aijuans IE中页面不居中
问题是首页在火狐、谷歌、所有IE中正常显示，列表页的页面在火狐谷歌中正常，在IE6、7、8中都不中，觉得可能那个地方设置的让IE系列都不认识，仔细查看后发现，列表页中没写HTML模板部分没有添加DTD定义，就是<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3
String,int,Integer,char 几个类型常见转换 antonyup_2006 html sql .net
如何将字串 String 转换成整数 int? int i = Integer.valueOf(my_str).intValue(); int i=Integer.parseInt(str); 如何将字串 String 转换成Integer ? Integer integer=Integer.valueOf(str); 如何将整数 int 转换成字串 String ? 1.
PL/SQL的游标类型百合不是茶显示游标(静态游标)隐式游标游标的更新和删除 %rowtype ref游标(动态游标)
游标是oracle中的一个结果集,用于存放查询的结果; PL/SQL中游标的声明; 1,声明游标 2,打开游标(默认是关闭的); 3,提取数据 4,关闭游标注意的要点:游标必须声明在declare中,使用open打开游标,fetch取游标中的数据,close关闭游标隐式游标:主要是对DML数据的操作隐
JUnit4中@AfterClass @BeforeClass @after @before的区别对比 bijian1013 JUnit4 单元测试
一.基础知识 JUnit4使用Java5中的注解（annotation），以下是JUnit4常用的几个annotation： @Before：初始化方法对于每一个测试方法都要执行一次（注意与BeforeClass区别，后者是对于所有方法执行一次）@After：释放资源对于每一个测试方法都要执行一次（注意与AfterClass区别，后者是对于所有方法执行一次
精通Oracle10编程SQL(12)开发包 bijian1013 oracle 数据库 plsql
/* *开发包 *包用于逻辑组合相关的PL/SQL类型（例如TABLE类型和RECORD类型）、PL/SQL项（例如游标和游标变量）和PL/SQL子程序（例如过程和函数） */ --包用于逻辑组合相关的PL/SQL类型、项和子程序，它由包规范和包体两部分组成 --建立包规范：包规范实际是包与应用程序之间的接口，它用于定义包的公用组件，包括常量、变量、游标、过程和函数等 --在包规
【EhCache二】ehcache.xml配置详解 bit1129 ehcache.xml
在ehcache官网上找了多次，终于找到ehcache.xml配置元素和属性的含义说明文档了，这个文档包含在ehcache.xml的注释中！ ehcache.xml ： http://ehcache.org/ehcache.xml ehcache.xsd ： http://ehcache.org/ehcache.xsd ehcache配置文件的根元素是ehcahe ehcac
java.lang.ClassNotFoundException: org.springframework.web.context.ContextLoaderL 白糖_ java eclipse spring tomcat Web
今天学习spring+cxf的时候遇到一个问题：在web.xml中配置了spring的上下文监听器： <listener> <listener-class>org.springframework.web.context.ContextLoaderListener</listener-class> </listener> 随后启动
angular.element boyitech AngularJS AngularJS API angular.element
angular.element 描述: 包裹着一部分DOM element或者是HTML字符串，把它作为一个jQuery元素来处理。（类似于jQuery的选择器啦）如果jQuery被引入了，则angular.element就可以看作是jQuery选择器，选择的对象可以使用jQuery的函数；如果jQuery不可用，angular.e
java-给定两个已排序序列，找出共同的元素。 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class CommonItemInTwoSortedArray { /** * 题目：给定两个已排序序列，找出共同的元素。 * 1.定义两个指针分别指向序列的开始。 * 如果指向的两个元素
sftp 异常，有遇到的吗？求解 Chen.H java jcraft auth jsch jschexception
com.jcraft.jsch.JSchException: Auth cancel at com.jcraft.jsch.Session.connect(Session.java:460) at com.jcraft.jsch.Session.connect(Session.java:154) at cn.vivame.util.ftp.SftpServerAccess.connec
[生物智能与人工智能]神经元中的电化学结构代表什么? comsci 人工智能
我这里做一个大胆的猜想,生物神经网络中的神经元中包含着一些化学和类似电路的结构,这些结构通常用来扮演类似我们在拓扑分析系统中的节点嵌入方程一样,使得我们的神经网络产生智能判断的能力,而这些嵌入到节点中的方程同时也扮演着"经验"的角色.... 我们可以尝试一下...在某些神经
通过LAC和CID获取经纬度信息 dai_lm lac cid
方法1：用浏览器打开http://www.minigps.net/cellsearch.html，然后输入lac和cid信息(mcc和mnc可以填0)，如果数据正确就可以获得相应的经纬度方法2：发送HTTP请求到http://www.open-electronics.org/celltrack/cell.php?hex=0&lac=<lac>&cid=&
JAVA的困难分析 datamachine java
前段时间转了一篇SQL的文章（http://datamachine.iteye.com/blog/1971896），文章不复杂，但思想深刻，就顺便思考了一下java的不足，当砖头丢出来，希望引点和田玉。 -----------------------------------------------------------------------------------------
小学5年级英语单词背诵第二课 dcj3sjt126com english word
money 钱 paper 纸 speak 讲，说 tell 告诉 remember 记得，想起 knock 敲，击，打 question 问题 number 数字，号码 learn 学会，学习 street 街道 carry 搬运，携带 send 发送，邮寄，发射 must 必须 light 灯，光线，轻的 front
linux下面没有tree命令 dcj3sjt126com linux
centos p安装 yum -y install tree mac os安装 brew install tree 首先来看tree的用法 tree 中文解释：tree 功能说明：以树状图列出目录的内容。语　　法：tree [-aACdDfFgilnNpqstux][-I <范本样式>][-P <范本样式
Map迭代方式，Map迭代，Map循环蕃薯耀 Map循环 Map迭代 Map迭代方式
Map迭代方式，Map迭代，Map循环 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年
Spring Cache注解+Redis hanqunfeng spring
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redis</artifactId>
Guava中针对集合的 filter和过滤功能 jackyrong filter
在guava库中，自带了过滤器(filter)的功能，可以用来对collection 进行过滤，先看例子： @Test public void whenFilterWithIterables_thenFiltered() { List<String> names = Lists.newArrayList("John"
学习编程那点事 lampcy 编程 android PHP html5
一年前的夏天，我还在纠结要不要改行，要不要去学php？能学到真本事吗？改行能成功吗？太多的问题，我终于不顾一切，下定决心，辞去了工作，来到传说中的帝都。老师给的乘车方式还算有效，很顺利的就到了学校，赶巧了，正好学校搬到了新校区。先安顿了下来，过了个轻松的周末，第一次到帝都，逛逛吧！接下来的周一，是我噩梦的开始，学习内容对我这个零基础的人来说，除了勉强完成老师布置的作业外，我已经没有时间和精力去
架构师之流处理---------bytebuffer的mark,limit和flip nannan408 ByteBuffer
1.前言。如题，limit其实就是可以读取的字节长度的意思，flip是清空的意思，mark是标记的意思。 2.例子. 例子代码: String str = "helloWorld"; ByteBuffer buff = ByteBuffer.wrap(str.getBytes()); Sy
org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1, column 1 Everyday都不同 $转义 el表达式
最近在做Highcharts的过程中，在写js时，出现了以下异常：严重: Servlet.service() for servlet jsp threw exception org.apache.el.parser.ParseException: Encountered " ":" ": "" at line 1,
用Java实现发送邮件到163 tntxia java实现
/* 在java版经常看到有人问如何用javamail发送邮件？如何接收邮件？如何访问多个文件夹等。问题零散，而历史的回复早已经淹没在问题的海洋之中。本人之前所做过一个java项目，其中包含有WebMail功能，当初为用java实现而对javamail摸索了一段时间，总算有点收获。看到论坛中的经常有此方面的问题，因此把我的一些经验帖出来，希望对大家有些帮助。此篇仅介绍用
探索实体类存在的真正意义 java小叶檀 POJO
一. 实体类简述实体类其实就是俗称的POJO,这种类一般不实现特殊框架下的接口，在程序中仅作为数据容器用来持久化存储数据用的 POJO（Plain Old Java Objects）简单的Java对象它的一般格式就是 public class A{ private String id; public Str

MapReduce源码分析之InputSplit分析

前言

什么是InputSplit

Job提交时如何获取到InputSplit 以org.apache.hadoop.mapred包中的FileInputFormat为例（因为该类作为其他文件类型的基类），内部实现了如何获取分片，通过分析代码，以便知晓文件是如何被切片的。

主机列表是什么，如何选择

你可能感兴趣的:(MapReduce,1.2.1源码分析,技术分析,apache,hadoop系列)

Job提交时如何获取到InputSplit
以org.apache.hadoop.mapred包中的FileInputFormat为例（因为该类作为其他文件类型的基类），内部实现了如何获取分片，通过分析代码，以便知晓文件是如何被切片的。