baolibin528

MapReduce源码分析之InputSplit分析

前言

MapReduce的源码分析是基于Hadoop1.2.1基础上进行的代码分析。

什么是InputSplit

InputSplit是指分片，在MapReduce当中作业中，作为map task最小输入单位。分片是基于文件基础上出来的而来的概念，通俗的理解一个文件可以切分为多少个片段，每个片段包括了<文件名，开始位置，长度，位于哪些主机>等信息。在MapTask拿到这些分片后，会知道从哪开始读取数据。

Job提交时如何获取到InputSplit
以org.apache.hadoop.mapred包中的FileInputFormat为例（因为该类作为其他文件类型的基类），内部实现了如何获取分片，通过分析代码，以便知晓文件是如何被切片的。

[java]  view plain copy   
     
    
 public InputSplit[] getSplits(JobConf job, int numSplits)  
   throwsIOException {  
    //获取文件列表的状态，底层通过HDFS客户端的//DistributedFileSystem.getFileStatus获取到文件的状态（文件长度，访问时间，权限，块大小，副本数等信息）  
   FileStatus[] files = listStatus(job);  
     
   // 保存输入的文件的文件个数  
   job.setLong(NUM_INPUT_FILES, files.length);  
    //计算所有文件的总长度  
   longtotalSize = 0;                           // compute total size  
   for(FileStatus file: files) {               // check we have valid files  
     if(file.isDir()) {  
        throw new IOException("Not a file: "+ file.getPath());  
     }  
     totalSize += file.getLen();  
   }  
      
    // 计算出目标长度，通过总长度和用户指定的map task的个数相除得到  
   longgoalSize = totalSize / (numSplits == 0 ? 1 : numSplits);  
   // 获取用户配置文件中指定的最小split的长度，默认为1，如果不希望按默认计算出的大//小进行分片，则可以指定最小切分的大小，当这个值大于计算出的分片大小，则会以此为准。  
   longminSize = Math.max(job.getLong("mapred.min.split.size", 1),  
                            minSplitSize);  
   
   // 保存后续生成的split  
   ArrayList<FileSplit> splits = new ArrayList<FileSplit>(numSplits);  
   NetworkTopology clusterMap = new NetworkTopology();  
   
    //对每个文件进行切片  
   for(FileStatus file: files) {  
     Path path = file.getPath();  
     FileSystem fs = path.getFileSystem(job);  
     longlength = file.getLen();  
      // 获取到整个文件的所有block的位置信息  
     BlockLocation[] blkLocations = fs.getFileBlockLocations(file, 0,length);  
     // 文件长度不为0，且能被切分（二进制文件总是不允许切分）  
     if((length != 0) && isSplitable(fs, path)) {  
        long blockSize = file.getBlockSize();  
        //计算出当前文件需要按多长作为当前该文件切分的单位(一般为blockSize,当map task指定的多，则为goalSize，这需要按具体的参数)  
        long splitSize = computeSplitSize(goalSize,minSize, blockSize);  
   
        long bytesRemaining = length;  
        //循环按分片大小取出一个个分片  
        while (((double) bytesRemaining)/splitSize > SPLIT_SLOP) {  
        //获取分片所在的主机列表,这里会涉及到如何计算本地化,这在后面会拿出来分析  
          String[] splitHosts =getSplitHosts(blkLocations,  
              length-bytesRemaining, splitSize,clusterMap);  
          splits.add(new FileSplit(path,length-bytesRemaining, splitSize,  
              splitHosts));  
          bytesRemaining -= splitSize;  
        }  
         
        //对尾部不足一个分片大小的也生成一个分片  
        if (bytesRemaining != 0) {  
          splits.add(new FileSplit(path,length-bytesRemaining, bytesRemaining,  
                     blkLocations[blkLocations.length-1].getHosts()));  
        }  
     } elseif(length != 0) {  
        // 不允许被切分的文件,不会因为文件大小而去计算需要占用几个分片  
        String[] splitHosts = getSplitHosts(blkLocations,0,length,clusterMap);  
        splits.add(new FileSplit(path, 0, length, splitHosts));  
     } else{  
        //文件长度为空的也会产生一个分片  
        //Create empty hosts array for zero length files  
        splits.add(new FileSplit(path, 0, length, new String[0]));  
     }  
   }  
   LOG.debug("Total # of splits: "+ splits.size());  
   returnsplits.toArray(newFileSplit[splits.size()]);  
 }  

通过上述分析，可以知道我们指定一个目录作为job的输入源时，用户指定的MapTask的个数，以及文件总长度，块大小，以及用户指定的最小分片长度会影响到最后可以产生多少个分片，也就是这个Job最后需要执行多少次MapTask。

同时，还可以得知，一个分片是不会跨越两个文件的；一个空的文件也会占用到一个分片；不是每个分片都是等长的；以及一个分片可以跨一个大文件中连续的多个block。

主机列表是什么，如何选择

InputSplit作为一个分片，所包含的的信息中有主机列表这一信息，这不是说这个分片就在这个主机列表上，这是错误的理解。主机列表是指做task的时候，JobTracker会把Task发送到主机列表所在的节点上，由该节点来执行task。

在上面我们已经得出过结论“一个分片可以有多个block”，那么这种这情况下，主机列表就不会覆盖所有block所对应的主机信息，而是根据一种算法来：通过将机架和数据节点引入进来，形成网络拓扑；机架对应的信息中会存储这个机架有这个分片的多少数据量，数据节点对应的节点信息中会存储这个节点有这个分片的多少数据量。根据机架和数据节点这两个信息来排序，会选择出机架列表里包含的了最多数据量的机架，在该机架内选择包含了最多的数据量的数据节点。如果第一个机架的主机列表数量不够，则再从第二个机架内选择数据节点。通过这种形式来选择出最合理的主机列表信息。

另外对应的，如果一个分片只包含一个block，那么就没有上述这么复杂的情况，只要将这个块对应的信息（BlockLocation）中的主机列表信息返回即可。

下面我们来实际分析代码，会通过注释来解释关键的步骤。

[java]  view plain copy   
     
    
 protected String[] getSplitHosts(BlockLocation[] blkLocations,  
      longoffset, longsplitSize, NetworkTopology clusterMap)  
  throwsIOException {  
      
     // 通过指定的偏移来确定在偏移是落在了第几个Block上  
    intstartIndex = getBlockIndex(blkLocations, offset);  
      
     // 计算出当前这个Block从偏移开始到块结束还有多少数据量  
    longbytesInThisBlock = blkLocations[startIndex].getOffset() +  
                          blkLocations[startIndex].getLength() - offset;  
    
     // 如果这个块的剩余的数据量是大于一个分片的长度的,  
     // 则直接返回这个block所对应的主机列表。也就是一个分片不足一个block的情况  
    //If this is the only block, just return  
    if(bytesInThisBlock >= splitSize) {  
      returnblkLocations[startIndex].getHosts();  
    }  
      
     // 否则，说明了这个分片还会包含其他的block，因此需要算出除当前块外的分片长度  
    longbytesInFirstBlock = bytesInThisBlock;  
    intindex = startIndex + 1;  
    splitSize -= bytesInThisBlock;  
      
     // 计算出在最后一个块做这个分片占了多少长度的数据量。  
    while(splitSize > 0) {  
      bytesInThisBlock =  
         Math.min(splitSize,blkLocations[index++].getLength());  
      splitSize -= bytesInThisBlock;  
    }  
    
    longbytesInLastBlock = bytesInThisBlock;  
    intendIndex = index - 1;  
      
     //这是两个核心的结果，用于记录网络拓扑信息  
     //Node用来表示节点（如数据节点，机架）  
     //NodeInfo用来表示节点的信息，包含（叶子节点列表，blockId列表，数据长度）  
     //hostsMap会记录数据节点（简称节点，即Datanode）到对应的节点信息的关系  
     //在hostsMap记录的value中会记录数据节点包含了这个分片中的多少个块索引  
     //以及包含的这些block有多少数据是在这个分片中的。  
     //racksMap会记录机架到这个机架信息，在racksMap中会记录包括上述的数据节点  
     //所包含的的信息之外，还记录了有哪些数据节点属于这个机架  
    Map <Node,NodeInfo> hostsMap = new IdentityHashMap<Node,NodeInfo>();  
    Map <Node,NodeInfo> racksMap = new IdentityHashMap<Node,NodeInfo>();  
    String [] allTopos = new String[0];  
    
    // Build the hierarchy and aggregate thecontribution of  
    // bytes at each level. SeeTestGetSplitHosts.java    
     // 遍历这个分片所包含的的block，将block的拓扑信息和数据长度信息记录到  
     // hostsMap和racksMap中  
    for(index = startIndex; index <= endIndex; index++) {  
      
       // 确认block有多少数据是属于当前这个分片的  
      // Establish the bytes in this block  
      if(index == startIndex) {  
         bytesInThisBlock = bytesInFirstBlock;  
      }  
      elseif(index == endIndex) {  
         bytesInThisBlock = bytesInLastBlock;  
      }  
      else{  
         bytesInThisBlock =blkLocations[index].getLength();  
      }  
          
       // 获取block的拓扑信息，取得拓扑的路径  
       // 如["/rack1/node1"，"/rack1/node2","/rack2/node3"]  
      allTopos = blkLocations[index].getTopologyPaths();  
    
      // If no topology information is available,just  
      // prefix a fakeRack  
      if(allTopos.length== 0) {  
         allTopos = fakeRacks(blkLocations,index);  
      }  
    
      // NOTE: This code currently works only forone level of  
      // hierarchy (rack/host). However, it isrelatively easy  
      // to extend this to support aggregation atdifferent  
      // levels  
        
       // 遍历每个拓扑，将信息构建到hostsMap和racksMap  
      for(String topo: allTopos) {  
    
         Node node, parentNode;  
         NodeInfo nodeInfo, parentNodeInfo;  
    
         node = clusterMap.getNode(topo);  
    
         if (node == null) {  
           node = new NodeBase(topo);  
           clusterMap.add(node);  
         }  
          
         nodeInfo = hostsMap.get(node);  
          
         // 数据节点信息不存在，则在主机和机架信息中都加入新的记录  
         //否则则更新下数据  
         if (nodeInfo == null) {  
           nodeInfo = new NodeInfo(node);  
           hostsMap.put(node,nodeInfo);  
           parentNode = node.getParent();  
           parentNodeInfo =racksMap.get(parentNode);  
           if (parentNodeInfo == null) {  
             parentNodeInfo = new NodeInfo(parentNode);  
            racksMap.put(parentNode,parentNodeInfo);  
           }  
           parentNodeInfo.addLeaf(nodeInfo);  
         }  
         else {  
           nodeInfo = hostsMap.get(node);  
           parentNode = node.getParent();  
           parentNodeInfo =racksMap.get(parentNode);  
         }  
          
         // 更新这个数据节点包含了哪些块索引和包含了分片中多少的数据量  
         nodeInfo.addValue(index,bytesInThisBlock);  
         //更新机架包含了哪些块索引和包含了分片中多少的数据量  
         parentNodeInfo.addValue(index,bytesInThisBlock);  
    
      } // for all topos  
      
    } // for all indices  
     // 真正开始按选择主机  
    returnidentifyHosts(allTopos.length, racksMap);  
  }  
    
  // 会选择出副本数的主机列表，即有副本数是3，则会返回3个主机的信息  
  // 选择的算法，是前面所说的先根据机架包含的数据量排序，再根据节点包含的数据量  
  // 进行排序，然后依次从高到底选出副本数个主机信息返回  
  privateString[] identifyHosts(int replicationFactor,  
                                 Map<Node,NodeInfo> racksMap) {  
      
    String [] retVal = new String[replicationFactor];  
     
    List <NodeInfo> rackList = new LinkedList<NodeInfo>();  
    
    rackList.addAll(racksMap.values());  
      
     //对所有机架按包含的数据量多少进行排序  
    // Sort the racks based on theircontribution to this split  
    sortInDescendingOrder(rackList);  
      
    booleandone = false;  
    intindex = 0;  
      
     //依次遍历这些机架，在机架内会按节点包含的数据量的多少进行排序  
    // Get the host list for all our aggregateditems, sort  
    // them and return the top entries  
    for(NodeInfo ni: rackList) {  
    
      Set<NodeInfo> hostSet= ni.getLeaves();  
    
      List<NodeInfo>hostList = new LinkedList<NodeInfo>();  
      hostList.addAll(hostSet);  
      
      // Sort the hosts in this rack based ontheir contribution  
      sortInDescendingOrder(hostList);  
        
       // 从按数据量的多少从高到底选择主机  
      for(NodeInfo host: hostList) {  
         // Strip out the port number from the host name  
         retVal[index++] = host.node.getName().split(":")[0];  
         if (index == replicationFactor) {  
           done = true;  
           break;  
         }  
      }  
        
      if(done == true){  
         break;  
      }  
    }  
    returnretVal;  
  }  

通过上述选择主机的算法，我们可以知道，当一个分片包含的多个block的时候，总会从其他节点读取数据，也就是做不到所有的计算都是本地化。为了发挥计算本地化性能，应该尽量使InputSplit大小与块大小相当。

在旧版的接口中，InputSplit的大小会受maptask个数，和split参数的影响，需要具体情况具体调整。在新版的接口中，这个比较容易控制，因为不受maptask的影响，InputSplit大小计算公式如下： splitSize=max("mapred.min.split.size",min("mapred.max.split.size",blockSize))

两个参数都取默认配置的时候，分片大小就是blockSize

转载地址：http://blog.csdn.net/chlaws/article/details/22900141

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
地推话术，如何应对地推过程中家长的拒绝校师学
相信校长们在做地推的时候经常遇到这种情况：市场专员反馈家长不接单，咨询师反馈难以邀约这些家长上门，校区地推疲软，招生难。为什么？仅从地推层面分析，一方面因为家长受到的信息轰炸越来越多，对信息越来越“免疫”；而另一方面地推人员的专业能力和营销话术没有提高，无法应对家长的拒绝，对有意向的家长也不知如何跟进，眼睁睁看着家长走远；对于家长的疑问，更不知道如何有技巧地回答，机会白白流失。由于回答没技巧和专业
扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
抖音乐买买怎么加入赚钱?赚钱方法是什么测评君高省
你会在抖音买东西吗?如果会，那么一定要免费注册一个乐买买，抖音直播间，橱窗，小视频里的小黄车买东西都可以返佣金!省下来都是自己的，分享还可以赚钱乐买买是好省旗下的抖音返佣平台，乐买买分析社交电商的价值，乐买买属于今年难得的副业项目风口机会，2019年错过做好省的搞钱的黄金时期，那么2022年千万别再错过乐买买至于我为何转到高省呢？当然是高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自
2018-07-23-催眠日作业-#不一样的31天#-66小鹿小鹿_33
预言日：人总是在逃避命运的路上，与之不期而遇。心理学上有个著名的名词，叫做自证预言；经济学上也有一个很著名的定律叫做，墨菲定律；在灵修派上，还有一个很著名的法则，叫做吸引力法则。这3个领域的词，虽然看起来不太一样，但是他们都在告诉人们一个现象：你越担心什么，就越有可能会发生什么。同样的道理，你越想得到什么，就应该要积极地去创造什么。无论是自证预言，墨菲定律还是吸引力法则，对人都有正反2个维度的影响
《大清方方案》| 第二话谁佐清欢
和珅究竟说了些什么？竟能令堂堂九五之尊龙颜失色！此处暂且按下不表；单说这位乾隆皇帝，果真不愧是康熙从小带过的，一旦决定了要做的事，便杀伐决断毫不含糊。他当即亲自拟旨，着令和珅为钦差大臣，全权负责处理方方事件，并钦赐尚方宝剑，遇急则三品以下官员可先斩后奏。和珅身负皇上重托，岂敢有半点怠慢，当夜即率领相关人等，马不停蹄杀奔江汉。这一路上，和珅的几位幕僚一直在商讨方方事件的处置方案。有位年轻幕僚建议快刀
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
《庄子.达生9》钱江潮369
【原文】孔子观于吕梁，县水三十仞，流沫四十里，鼋鼍鱼鳖之所不能游也。见一丈夫游之，以为有苦而欲死也，使弟子并流而拯之。数百步而出，被发行歌而游于塘下。孔子从而问焉，曰：“吾以子为鬼，察子则人也。请问，‘蹈水有道乎’”曰：“亡，吾无道。吾始乎故，长乎性，成乎命。与齐俱入，与汩偕出，从水之道而不为私焉。此吾所以蹈之也。”孔子曰：“何谓始乎故，长乎性，成乎命？”曰：“吾生于陵而安于陵，故也；长于水而安于
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
18-115 一切思考不能有效转化为行动，都TM是扯淡！成长时间线
7月25号写了一篇关于为什么会断更如此严重的反思，然而，之后日更仅仅维持了一周，又出现了这次更严重的现象。从8月2号到昨天8月6号，5天！又是5天没有更文！虽然这次断更时间和上次一样，那为什么说这次更严重？因为上次之后就分析了问题的原因，以及应该如何解决，按理说应该会好转，然而，没过几天严重断更的现象再次出现，想想，经过反思，问题依然没有解决与改变，这让我有些担忧。到底是哪里出了问题，难道我就真的
高端密码学院笔记285 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（598）期《幸福》之回归内在深层生命原动力基础篇——揭秘“激励”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:成功=艰苦劳动+正确方法+少说空话。贪图省力的船夫，目标永远下游。智者的梦再美，也不如愚人实干的脚印。幸福早课堂2020.10.16星期五一笔记:1，重视和珍惜的前提是知道它的价值非常重要，当你珍惜了，你就真正定下来，真正的学到身上。2，大家需要
2020-04-12每天三百字之连接与替代冷眼看潮
不知道是不是好为人师，有时候还真想和别人分享一下我对某些现象的看法或者解释。人类社会不断发展进步的过程，就是不断连接与替代的过程。人类发现了火并应用火以后，告别了茹毛饮血的野兽般的原始生活（火烧、烹饪替代了生食）人类用石器代替了完全手工，工具的使用使人类进步一大步。类似这样的替代还有很多，随着科技的发展，有更多的原始的事物被替代，代之以更高效、更先进的技术。在近现代，汽车替代了马车，高速公路和铁路
东南林氏之九牧林候选父系祖缘树TheYtree
渊源介绍东晋初年晋安林始祖林禄公入闽，传十世隋右丞林茂，由晋安迁居莆田北螺村。又五世而至林万宠，唐开元间任高平太守，生三子：韬、披、昌。韬公之孙攒，唐德宗立双阙以旌表其孝，时号"阙下林家"。昌公字茂吉，乃万宠公第三子，官兵部司马，配宋氏，生一子名萍。萍于唐贞元间明经及第，官沣洲司马(后追赠中宪大夫)。唐太和年间归隐后，迁居仙游游洋，世称“游洋林”；其后裔居游洋后迁移漳州漳浦路下，由路下林第四房平和
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
大伟说成语之唉声叹气求索大伟
＊大伟说成语＊【唉声叹气】叹气：因心里不痛快或不如意而吐出长气，发出声音。因为痛苦、憋闷或感伤而发出叹息的声音。【大伟说】情绪外露，非人类所特有，动物亦有情绪，悲哀和欢乐所表示的情绪亦是不一样的，会嗷嗷大叫也会低吟痛哭。不同的是，人类的情绪更复杂，更多样，更丰富。唉声叹气，可以说是最基础的情绪，因为无奈而举足无措，不知该如何如何化解，只有独自一人慢慢承受，长吁短叹不知如何是好，其实是无能无力的表现
libyuv之linux编译 jaronho Linux linux 运维服务器
文章目录一、下载源码二、编译源码三、注意事项1、银河麒麟系统（aarch64）（1）解决armv8-a+dotprod+i8mm指令集支持问题（2）解决armv9-a+sve2指令集支持问题一、下载源码到GitHub网站下载https://github.com/lemenkov/libyuv源码，或者用直接用git克隆到本地，如：gitclonehttps://github.com/lemenko
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
怎么做淘客赚钱(2022最新免费淘客盈利的方法) 高省_飞智666600
很多人都不知道什么是淘宝客，今天小编为大家解答一下吧。淘宝客，现在简称淘客，是时下比较流行的一个词语，特质为淘宝店推广商品获取提成的人，这些人没有自己的产品，只是在淘宝里面选择适合自己的产品，在自己比较熟悉的领域推广，把产品卖出去之后，会从淘宝店家那里获得百分之五到百分之五十左右的佣金。淘宝客付出的是什么呢？时间。你需要花时间去选适合自己推广的产品，需要花时间去选自己的推广方法，如果你打算自己做个
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
闲鱼鱼小铺怎么开通？鱼小铺开通需要哪些流程？高省APP大九
闲鱼鱼小铺是平台推出的一个专业程度的店铺，与普通店铺相比会有更多的权益，比如说发布的商品数量从50增加到500；拥有专业的店铺数据看板与分析的功能，这对于专门在闲鱼做生意的用户来说是非常有帮助的，那么鱼小铺每个人都能开通吗？大家好，我是高省APP联合创始人蓓蓓导师，高省APP是2021年推出的电商导购平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个可省钱佣金高，能
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
锁之缘尘缘诗词原创作品
是谁追寻梦的足迹，是谁在偷偷的哭泣，日月隔离在黑白天地情感在心中蔓延的痕迹天与地的距离有多远流失的星晨落入哪片空间不要让泪水模糊双眼心牢中一样充满温暖谁说爱情没有永远白娘子又为何爱许仙蝴蝶墓地展翅翩翩轻歌慢舞袖卷人间传奇千古留爱万年…………月落星飞徘徊是选择不去问自已为合舍不得寂寞本就是痛苦的不在追寻梦中的痕迹才不会失去真实的自已
ARM驱动学习之基础小知识 JT灬新一 ARM 嵌入式 arm开发学习
ARM驱动学习之基础小知识•sch原理图工程师工作内容–方案–元器件选型–采购（能不能买到，价格）–原理图（涉及到稳定性）•layout画板工程师–layout（封装、布局，布线，log）（涉及到稳定性）–焊接的一部分工作（调试阶段板子的焊接）•驱动工程师–驱动，原理图，layout三部分的交集容易发生矛盾•PCB研发流程介绍–方案，原理图(网表)–layout工程师（gerber文件）–PCB板
ARM驱动学习之5 LEDS驱动 JT灬新一嵌入式 C 底层 arm开发学习单片机
ARM驱动学习之5LEDS驱动知识点：•linuxGPIO申请函数和赋值函数–gpio_request–gpio_set_value•三星平台配置GPIO函数–s3c_gpio_cfgpin•GPIO配置输出模式的宏变量–S3C_GPIO_OUTPUT注意点：DRIVER_NAME和DEVICE_NAME匹配。实现步骤：1.加入需要的头文件：//Linux平台的gpio头文件#include//三
ARM驱动学习之4小结 JT灬新一嵌入式 C++arm开发学习 linux
ARM驱动学习之4小结#include#include#include#include#include#defineDEVICE_NAME"hello_ctl123"MODULE_LICENSE("DualBSD/GPL");MODULE_AUTHOR("TOPEET");staticlonghello_ioctl(structfile*file,unsignedintcmd,unsignedlo
C++ | Leetcode C++题解之第409题最长回文串 Ddddddd_158 经验分享 C++Leetcode 题解
题目：题解：classSolution{public:intlongestPalindrome(strings){unordered_mapcount;intans=0;for(charc:s)++count[c];for(autop:count){intv=p.second;ans+=v/2*2;if(v%2==1andans%2==0)++ans;}returnans;}};
2019-11-04复盘——飞来山上千寻塔，闻说鸡鸣见日升。那一叶秋
1、大盘篇先上老图，看习惯了，也就知道走势了图1上证指数日线图还是那张老图，自己可以在自己的相关软件上画出来，快变盘了。2、个股篇未加仓、未减仓。分析量能的时候，突然发现这么一个东西：“放量突破年线，缩量回调。”合众科技日线图其实，最近的N只个股，在技术分析上，都到了变盘的临界时候。结合这么久的走势，特别是ZJH不断放开IPO的申请，本质上说是融资难度变大，或者说是为企业的融资开创便利。但现在市场
2020-12-24 我和我的天使们
阅读《老子的心事》391—403“将欲取之，必固与之”：想要得到什么，首先就要送出什么。我常常对孩子们说，你希望别人怎样对你你就怎样对待别人。想要得到别人的尊重，首先要尊重别人。我希望她们可以不迟到，因为不迟到是对别人的尊重，我就自己就先做到不迟到。哪怕是约朋友逛街，我尽量准时赴约。我严格要求孩子们，也同样严格要求自己，我跟孩子们一起把好的品格变成习惯。“是谓微明”：这就是微妙的智慧。看起来很少很
18、架构-可观测性之聚合度量大树~~ 架构 java python 后端架构
聚合度量聚合度量是指对系统运行时产生的各种指标数据进行收集、聚合和分析，以了解系统的健康状况和性能表现。聚合度量是可观测性的关键组成部分，通过对度量数据的分析，可以及时发现系统中的异常和瓶颈。以下是对聚合度量各个方面的详细解析，并结合具体的数据案例和技术支撑。指标收集收集系统运行时产生的各种指标数据是聚合度量的基础。常见的指标包括CPU使用率、内存使用率、请求处理时间、请求数、错误率等。以下是指标
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一

MapReduce源码分析之InputSplit分析

MapReduce源码分析之InputSplit分析

前言

什么是InputSplit

Job提交时如何获取到InputSplit 以org.apache.hadoop.mapred包中的FileInputFormat为例（因为该类作为其他文件类型的基类），内部实现了如何获取分片，通过分析代码，以便知晓文件是如何被切片的。

主机列表是什么，如何选择

你可能感兴趣的:(MapReduce源码分析之InputSplit分析)

Job提交时如何获取到InputSplit
以org.apache.hadoop.mapred包中的FileInputFormat为例（因为该类作为其他文件类型的基类），内部实现了如何获取分片，通过分析代码，以便知晓文件是如何被切片的。