hadoop运行原理之Job运行(五) 任务调度

　　接着上篇来说。hadoop首先调度辅助型task(job-cleanup task、task-cleanup task和job-setup task)，这是由JobTracker来完成的；但对于计算型task，则是由作业调度器TaskScheduler来分配的，其默认实现为JobQueueTaskScheduler。具体过程在assignTasks()方法中完成，下面来一段一段的分析该方法。

 public synchronized List<Task> assignTasks(TaskTracker taskTracker) throws IOException { // Check for JT safe-mode

    if (taskTrackerManager.isInSafeMode()) { LOG.info("JobTracker is in safe-mode, not scheduling any tasks."); return null; } TaskTrackerStatus taskTrackerStatus = taskTracker.getStatus(); ClusterStatus clusterStatus = taskTrackerManager.getClusterStatus(); final int numTaskTrackers = clusterStatus.getTaskTrackers(); final int clusterMapCapacity = clusterStatus.getMaxMapTasks(); final int clusterReduceCapacity = clusterStatus.getMaxReduceTasks(); Collection<JobInProgress> jobQueue = jobQueueJobInProgressListener.getJobQueue();

　　首先检查是否处于安全模式；接着分别获取该TaskTracker的状态信息、集群状态信息、集群中的TaskTracker数目、集群能运行的最大Map Task个数和Reduce Task个数；再选择一个作业队列，对该队列中的作业进行调度。

 1 //

 2     // Get map + reduce counts for the current tracker.  3     //  4     final int trackerMapCapacity = taskTrackerStatus.getMaxMapSlots();  5     final int trackerReduceCapacity = taskTrackerStatus.getMaxReduceSlots();  6     final int trackerRunningMaps = taskTrackerStatus.countMapTasks();  7     final int trackerRunningReduces = taskTrackerStatus.countReduceTasks();  8 

 9     // Assigned tasks

10     List<Task> assignedTasks = new ArrayList<Task>();

　　这4行分别是获取Map和Reduce的slot，然后是获取当前TaskTracker上正在运行的Map和Reduce task数目；最后一行的集合用来存放分配给该TaskTracker的task。

 1 //

 2     // Compute (running + pending) map and reduce task numbers across pool  3     //  4     int remainingReduceLoad = 0;  5     int remainingMapLoad = 0;  6     synchronized (jobQueue) {  7       for (JobInProgress job : jobQueue) {  8         if (job.getStatus().getRunState() == JobStatus.RUNNING) {  9           remainingMapLoad += (job.desiredMaps() - job.finishedMaps()); 10           if (job.scheduleReduces()) { 11             remainingReduceLoad += 

12               (job.desiredReduces() - job.finishedReduces()); 13  } 14  } 15  } 16     }

　　该段代码用来计算作业队列中还有多少Map和Reduce task需要运行。job.desiredMaps()方法用来计算该Job总共有多少个Map task。job.finishedMaps()方法用来计算该Job有多少个已完成的Map task。同理，job.desiredReduces()方法与job.finishedReduces()方法用来计算Reduce。

// Compute the 'load factor' for maps and reduces

    double mapLoadFactor = 0.0; if (clusterMapCapacity > 0) { mapLoadFactor = (double)remainingMapLoad / clusterMapCapacity; } double reduceLoadFactor = 0.0; if (clusterReduceCapacity > 0) { reduceLoadFactor = (double)remainingReduceLoad / clusterReduceCapacity; }

　　用来计算Map和Reduce task的装载百分比，即根据剩余需要运行的Map task和集群能运行的最大Map Task个数的比例，来为TaskTracker计算一个装载因子，使得该TaskTracker上的Map task个数不超过这个比例。Reduce也一样。

 1  //

 2     // In the below steps, we allocate first map tasks (if appropriate),  3     // and then reduce tasks if appropriate. We go through all jobs  4     // in order of job arrival; jobs only get serviced if their  5     // predecessors are serviced, too.  6     //

 7 

 8     //

 9     // We assign tasks to the current taskTracker if the given machine 10     // has a workload that's less than the maximum load of that kind of 11     // task. 12     // However, if the cluster is close to getting loaded i.e. we don't 13     // have enough _padding_ for speculative executions etc., we only 14     // schedule the "highest priority" task i.e. the task from the job 15     // with the highest priority. 16     // 17     

18     final int trackerCurrentMapCapacity = 

19       Math.min((int)Math.ceil(mapLoadFactor * trackerMapCapacity), 20  trackerMapCapacity); 21     int availableMapSlots = trackerCurrentMapCapacity - trackerRunningMaps; 22     boolean exceededMapPadding = false; 23     if (availableMapSlots > 0) { 24       exceededMapPadding = 

25         exceededPadding(true, clusterStatus, trackerMapCapacity); 26     }

　　第一行根据上一步计算出来的Map task装载因子，计算当前结点能够运行的Map task个数；第二行计算剩余的能够运行Map task的slot个数availableMapSlots。如果availableMapSlots大于0表示还有余地运行Map task。Hadoop不会把所有的slot 都分配完，而是会留一些slot给失败的和推测执行的任务，exceededPadding()方法就是来完成这个任务的。

 1  int numLocalMaps = 0;  2     int numNonLocalMaps = 0;  3  scheduleMaps:  4     for (int i=0; i < availableMapSlots; ++i) {  5       synchronized (jobQueue) {  6         for (JobInProgress job : jobQueue) {  7           if (job.getStatus().getRunState() != JobStatus.RUNNING) {  8             continue;  9  } 10 

11           Task t = null; 12           

13           // Try to schedule a Map task with locality between node-local 14           // and rack-local

15           t = 

16  job.obtainNewNodeOrRackLocalMapTask(taskTrackerStatus, 17  numTaskTrackers, taskTrackerManager.getNumberOfUniqueHosts()); 18           if (t != null) { 19  assignedTasks.add(t); 20             ++numLocalMaps; 21             

22             // Don't assign map tasks to the hilt! 23             // Leave some free slots in the cluster for future task-failures, 24             // speculative tasks etc. beyond the highest priority job

25             if (exceededMapPadding) { 26               break scheduleMaps; 27  } 28            

29             // Try all jobs again for the next Map task 

30             break; 31  } 32           

33           // Try to schedule a node-local or rack-local Map task

34           t = 

35  job.obtainNewNonLocalMapTask(taskTrackerStatus, numTaskTrackers, 36  taskTrackerManager.getNumberOfUniqueHosts()); 37           

38           if (t != null) { 39  assignedTasks.add(t); 40             ++numNonLocalMaps; 41             

42             // We assign at most 1 off-switch or speculative task 43             // This is to prevent TaskTrackers from stealing local-tasks 44             // from other TaskTrackers.

45             break scheduleMaps; 46  } 47  } 48  } 49  } 50     int assignedMaps = assignedTasks.size();

　　以上这部分就是分配Map task的过程。obtainNewNodeOrRackLocalMapTask()方法和obtainNewNonLocalMapTask()方法分别用来分配node-local/rack-local task和非本地的task(我觉得hadoop中这个方法的注释写的有问题，第33行，原代码第195行)。他们最终都调用了findNewMapTask()方法来分配task，但区别在于调用时的级别：obtainNewNodeOrRackLocalMapTask ()方法是“maxLevel”，表示可以运行node-local/rack-local级别的task，obtainNewNonLocalMapTask()方法是“NON_LOCAL_CACHE_LEVEL”，表示只能运行off-switch/speculative级别的task。而“anyCacheLevel”级别最高，表示node-local, rack-local, off-switch and speculative task都可以分配。

  1 1 /**

  2   2    * Find new map task

  3   3    * @param tts The task tracker that is asking for a task

  4   4    * @param clusterSize The number of task trackers in the cluster

  5   5    * @param numUniqueHosts The number of hosts that run task trackers

  6   6    * @param avgProgress The average progress of this kind of task in this job

  7   7    * @param maxCacheLevel The maximum topology level until which to schedule

  8   8    *                      maps. 

  9   9    *                      A value of {@link #anyCacheLevel} implies any 

 10  10    *                      available task (node-local, rack-local, off-switch and 

 11  11    *                      speculative tasks).

 12  12    *                      A value of {@link #NON_LOCAL_CACHE_LEVEL} implies only

 13  13    *                      off-switch/speculative tasks should be scheduled.

 14  14    * @return the index in tasks of the selected task (or -1 for no task)

 15  15    */

 16  16  private synchronized int findNewMapTask(final TaskTrackerStatus tts, 

 17  17                                           final int clusterSize,

 18  18                                           final int numUniqueHosts,

 19  19                                           final int maxCacheLevel,

 20  20                                           final double avgProgress) {

 21  21     if (numMapTasks == 0) {

 22  22       if(LOG.isDebugEnabled()) {

 23  23         LOG.debug("No maps to schedule for " + profile.getJobID());

 24  24       }

 25  25       return -1;

 26  26     }

 27  27 

 28  28     String taskTracker = tts.getTrackerName();

 29  29     TaskInProgress tip = null;

 30  30     

 31  31     //

 32  32     // Update the last-known clusterSize

 33  33     //

 34  34     this.clusterSize = clusterSize;

 35  35 

 36  36     if (!shouldRunOnTaskTracker(taskTracker)) {

 37  37       return -1;

 38  38     }

 39  39 

 40  40     // Check to ensure this TaskTracker has enough resources to 

 41  41     // run tasks from this job

 42  42     long outSize = resourceEstimator.getEstimatedMapOutputSize();

 43  43     long availSpace = tts.getResourceStatus().getAvailableSpace();

 44  44     if(availSpace < outSize) {

 45  45       LOG.warn("No room for map task. Node " + tts.getHost() + 

 46  46                " has " + availSpace + 

 47  47                " bytes free; but we expect map to take " + outSize);

 48  48 

 49  49       return -1; //see if a different TIP might work better. 

 50  50     }

 51  51     

 52  52     

 53  53     // When scheduling a map task:

 54  54     //  0) Schedule a failed task without considering locality

 55  55     //  1) Schedule non-running tasks

 56  56     //  2) Schedule speculative tasks

 57  57     //  3) Schedule tasks with no location information

 58  58 

 59  59     // First a look up is done on the non-running cache and on a miss, a look 

 60  60     // up is done on the running cache. The order for lookup within the cache:

 61  61     //   1. from local node to root [bottom up]

 62  62     //   2. breadth wise for all the parent nodes at max level

 63  63     // We fall to linear scan of the list ((3) above) if we have misses in the 

 64  64     // above caches

 65  65 

 66  66     // 0) Schedule the task with the most failures, unless failure was on this

 67  67     //    machine

 68  68     tip = findTaskFromList(failedMaps, tts, numUniqueHosts, false);

 69  69     if (tip != null) {

 70  70       // Add to the running list

 71  71       scheduleMap(tip);

 72  72       LOG.info("Choosing a failed task " + tip.getTIPId());

 73  73       return tip.getIdWithinJob();

 74  74     }

 75  75 

 76  76     Node node = jobtracker.getNode(tts.getHost());

 77  77     

 78  78     //

 79  79     // 1) Non-running TIP :

 80  80     // 

 81  81 

 82  82     // 1. check from local node to the root [bottom up cache lookup]

 83  83     //    i.e if the cache is available and the host has been resolved

 84  84     //    (node!=null)

 85  85     if (node != null) {

 86  86       Node key = node;

 87  87       int level = 0;

 88  88       // maxCacheLevel might be greater than this.maxLevel if findNewMapTask is

 89  89       // called to schedule any task (local, rack-local, off-switch or

 90  90       // speculative) tasks or it might be NON_LOCAL_CACHE_LEVEL (i.e. -1) if

 91  91       // findNewMapTask is (i.e. -1) if findNewMapTask is to only schedule

 92  92       // off-switch/speculative tasks

 93  93       int maxLevelToSchedule = Math.min(maxCacheLevel, maxLevel);

 94  94       for (level = 0;level < maxLevelToSchedule; ++level) {

 95  95         List <TaskInProgress> cacheForLevel = nonRunningMapCache.get(key);

 96  96         if (cacheForLevel != null) {

 97  97           tip = findTaskFromList(cacheForLevel, tts, 

 98  98               numUniqueHosts,level == 0);

 99  99           if (tip != null) {

100 100             // Add to running cache

101 101             scheduleMap(tip);

102 102 

103 103             // remove the cache if its empty

104 104             if (cacheForLevel.size() == 0) {

105 105               nonRunningMapCache.remove(key);

106 106             }

107 107 

108 108             return tip.getIdWithinJob();

109 109           }

110 110         }

111 111         key = key.getParent();

112 112       }

113 113       

114 114       // Check if we need to only schedule a local task (node-local/rack-local)

115 115       if (level == maxCacheLevel) {

116 116         return -1;

117 117       }

118 118     }

119 119 

120 120     //2. Search breadth-wise across parents at max level for non-running 

121 121     //   TIP if

122 122     //     - cache exists and there is a cache miss 

123 123     //     - node information for the tracker is missing (tracker's topology

124 124     //       info not obtained yet)

125 125 

126 126     // collection of node at max level in the cache structure

127 127     Collection<Node> nodesAtMaxLevel = jobtracker.getNodesAtMaxLevel();

128 128 

129 129     // get the node parent at max level

130 130     Node nodeParentAtMaxLevel = 

131 131       (node == null) ? null : JobTracker.getParentNode(node, maxLevel - 1);

132 132     

133 133     for (Node parent : nodesAtMaxLevel) {

134 134 

135 135       // skip the parent that has already been scanned

136 136       if (parent == nodeParentAtMaxLevel) {

137 137         continue;

138 138       }

139 139 

140 140       List<TaskInProgress> cache = nonRunningMapCache.get(parent);

141 141       if (cache != null) {

142 142         tip = findTaskFromList(cache, tts, numUniqueHosts, false);

143 143         if (tip != null) {

144 144           // Add to the running cache

145 145           scheduleMap(tip);

146 146 

147 147           // remove the cache if empty

148 148           if (cache.size() == 0) {

149 149             nonRunningMapCache.remove(parent);

150 150           }

151 151           LOG.info("Choosing a non-local task " + tip.getTIPId());

152 152           return tip.getIdWithinJob();

153 153         }

154 154       }

155 155     }

156 156 

157 157     // 3. Search non-local tips for a new task

158 158     tip = findTaskFromList(nonLocalMaps, tts, numUniqueHosts, false);

159 159     if (tip != null) {

160 160       // Add to the running list

161 161       scheduleMap(tip);

162 162 

163 163       LOG.info("Choosing a non-local task " + tip.getTIPId());

164 164       return tip.getIdWithinJob();

165 165     }

166 166 

167 167     //

168 168     // 2) Running TIP :

169 169     // 

170 170  

171 171     if (hasSpeculativeMaps) {

172 172       long currentTime = jobtracker.getClock().getTime();

173 173 

174 174       // 1. Check bottom up for speculative tasks from the running cache

175 175       if (node != null) {

176 176         Node key = node;

177 177         for (int level = 0; level < maxLevel; ++level) {

178 178           Set<TaskInProgress> cacheForLevel = runningMapCache.get(key);

179 179           if (cacheForLevel != null) {

180 180             tip = findSpeculativeTask(cacheForLevel, tts, 

181 181                                       avgProgress, currentTime, level == 0);

182 182             if (tip != null) {

183 183               if (cacheForLevel.size() == 0) {

184 184                 runningMapCache.remove(key);

185 185               }

186 186               return tip.getIdWithinJob();

187 187             }

188 188           }

189 189           key = key.getParent();

190 190         }

191 191       }

192 192 

193 193       // 2. Check breadth-wise for speculative tasks

194 194       

195 195       for (Node parent : nodesAtMaxLevel) {

196 196         // ignore the parent which is already scanned

197 197         if (parent == nodeParentAtMaxLevel) {

198 198           continue;

199 199         }

200 200 

201 201         Set<TaskInProgress> cache = runningMapCache.get(parent);

202 202         if (cache != null) {

203 203           tip = findSpeculativeTask(cache, tts, avgProgress, 

204 204                                     currentTime, false);

205 205           if (tip != null) {

206 206             // remove empty cache entries

207 207             if (cache.size() == 0) {

208 208               runningMapCache.remove(parent);

209 209             }

210 210             LOG.info("Choosing a non-local task " + tip.getTIPId() 

211 211                      + " for speculation");

212 212             return tip.getIdWithinJob();

213 213           }

214 214         }

215 215       }

216 216 

217 217       // 3. Check non-local tips for speculation

218 218       tip = findSpeculativeTask(nonLocalRunningMaps, tts, avgProgress, 

219 219                                 currentTime, false);

220 220       if (tip != null) {

221 221         LOG.info("Choosing a non-local task " + tip.getTIPId() 

222 222                  + " for speculation");

223 223         return tip.getIdWithinJob();

224 224       }

225 225     }

226 226     

227 227     return -1;

228 228   }

findNewMapTask

　　这里穿插说一下findNewMapTask()方法，真正的任务分配都是它来做的，task分配的优先级为：

1）、从failedMaps中调度failed Task

2）、从nonRunningMapCache中选择具有本地性的任务，优先级为node-local、rack-local、off-switch。至于本地性如何体现在后边说。

3）、从nonLocalMaps中选择任务

4）、从runningMapCache中选择任务，为其启动备份执行

5）、从nonLocalRunningMaps中选择任务，为其启动备份执行

最后，如果findNewMapTask()方法返回值为-1，则表示没有找到合适的Map task。否则返回值表示该Map task在JobInProgress的maps[]数组中的下标。

 1   //

 2     // Same thing, but for reduce tasks  3     // However we _never_ assign more than 1 reduce task per heartbeat  4     //  5     final int trackerCurrentReduceCapacity = 

 6       Math.min((int)Math.ceil(reduceLoadFactor * trackerReduceCapacity),  7  trackerReduceCapacity);  8     final int availableReduceSlots = 

 9       Math.min((trackerCurrentReduceCapacity - trackerRunningReduces), 1); 10     boolean exceededReducePadding = false; 11     if (availableReduceSlots > 0) { 12       exceededReducePadding = exceededPadding(false, clusterStatus, 13                                               trackerReduceCapacity);

　　同理，这部分用来计算是否给Reduce task留有足够的slot去执行失败的和推测执行的Reduce task。

 1 synchronized (jobQueue) {  2         for (JobInProgress job : jobQueue) {  3           if (job.getStatus().getRunState() != JobStatus.RUNNING ||

 4               job.numReduceTasks == 0) {  5             continue;  6  }  7 

 8           Task t = 

 9  job.obtainNewReduceTask(taskTrackerStatus, numTaskTrackers, 10  taskTrackerManager.getNumberOfUniqueHosts() 11  ); 12           if (t != null) { 13  assignedTasks.add(t); 14             break; 15  } 16           

17           // Don't assign reduce tasks to the hilt! 18           // Leave some free slots in the cluster for future task-failures, 19           // speculative tasks etc. beyond the highest priority job

20           if (exceededReducePadding) { 21             break; 22  } 23  } 24  } 25     }

　　这部分用来分配Reduce task。可以看到，与分配Map task时用的双层for循环不同，分配Reduce task的时候是单层for循环，因为每次只分配一个Reduce task。Reduce task分配优先级为：

1）、从nonRunningReduces中选择

2）、从runningReduces选择一个task为其启动推测任务

最后，如果findNewReduceTask ()方法返回值为-1，则表示没有找到合适的Reduce task。否则返回值表示该Reduce task在JobInProgress的reduces[]数组中的下标。

 1 if (LOG.isDebugEnabled()) {  2       LOG.debug("Task assignments for " + taskTrackerStatus.getTrackerName() + " --> " +

 3                 "[" + mapLoadFactor + ", " + trackerMapCapacity + ", " + 

 4                 trackerCurrentMapCapacity + ", " + trackerRunningMaps + "] -> [" + 

 5                 (trackerCurrentMapCapacity - trackerRunningMaps) + ", " +

 6                 assignedMaps + " (" + numLocalMaps + ", " + numNonLocalMaps + 

 7                 ")] [" + reduceLoadFactor + ", " + trackerReduceCapacity + ", " + 

 8                 trackerCurrentReduceCapacity + "," + trackerRunningReduces + 

 9                 "] -> [" + (trackerCurrentReduceCapacity - trackerRunningReduces) + 

10                 ", " + (assignedTasks.size()-assignedMaps) + "]"); 11  } 12 

13     return assignedTasks;

　　最后返回分配给该TaskTracker的task集合。

　　说一下JobInProgress中与分配任务相关的重要数据结构：

1 Map<Node, List<TaskInProgress>> nonRunningMapCache：Node与未运行的TIP集合映射关系，通过作业的InputFormat可直接获取 2 Map<Node, Set<TaskInProgress>> runningMapCache：Node与运行的TIP集合映射关系，一个任务获得调度机会，其TIP便会添加进来 3 final List<TaskInProgress> nonLocalMaps：non-local(没有输入数据，InputSplit为空)且未运行的TIP集合 4 final SortedSet<TaskInProgress> failedMaps：按照Task Attempt失败次数排序的TIP集合 5 Set<TaskInProgress> nonLocalRunningMaps：non-local且正在运行的TIP集合 6 Set<TaskInProgress> nonRunningReduces：等待运行的Reduce集合 7 Set<TaskInProgress> runningReduces：正在运行的Reduce集合

　　关于Map task本地性的实现：

　　JobInProgress中的数据结构nonRunningMapCache体现了本地性，其中记录的是node与该node上待运行的Map task(TaskInProgress)集合。这个数据结构在JobInProgress中的createCache()中创建：

 1 private Map<Node, List<TaskInProgress>> createCache(  2                                  TaskSplitMetaInfo[] splits, int maxLevel)  3                                  throws UnknownHostException {  4     Map<Node, List<TaskInProgress>> cache = 

 5       new IdentityHashMap<Node, List<TaskInProgress>>(maxLevel);  6     

 7     Set<String> uniqueHosts = new TreeSet<String>();  8     for (int i = 0; i < splits.length; i++) {  9       String[] splitLocations = splits[i].getLocations(); 10       if (splitLocations == null || splitLocations.length == 0) { 11  nonLocalMaps.add(maps[i]); 12         continue; 13  } 14 

15       for(String host: splitLocations) { 16         Node node = jobtracker.resolveAndAddToTopology(host); 17  uniqueHosts.add(host); 18         LOG.info("tip:" + maps[i].getTIPId() + " has split on node:" + node); 19         for (int j = 0; j < maxLevel; j++) { 20           List<TaskInProgress> hostMaps = cache.get(node); 21           if (hostMaps == null) { 22             hostMaps = new ArrayList<TaskInProgress>(); 23  cache.put(node, hostMaps); 24  hostMaps.add(maps[i]); 25  } 26           //check whether the hostMaps already contains an entry for a TIP 27           //This will be true for nodes that are racks and multiple nodes in 28           //the rack contain the input for a tip. Note that if it already 29           //exists in the hostMaps, it must be the last element there since 30           //we process one TIP at a time sequentially in the split-size order

31           if (hostMaps.get(hostMaps.size() - 1) != maps[i]) { 32  hostMaps.add(maps[i]); 33  } 34           node = node.getParent(); 35  } 36  } 37  } 38     

39     // Calibrate the localityWaitFactor - Do not override user intent!

40     if (localityWaitFactor == DEFAULT_LOCALITY_WAIT_FACTOR) { 41       int jobNodes = uniqueHosts.size(); 42       int clusterNodes = jobtracker.getNumberOfUniqueHosts(); 43       

44       if (clusterNodes > 0) { 45         localityWaitFactor = 

46           Math.min((float)jobNodes/clusterNodes, localityWaitFactor); 47  } 48       LOG.info(jobId + " LOCALITY_WAIT_FACTOR=" + localityWaitFactor); 49  } 50     

51     return cache; 52   }

　　在这个方法中，根据split所在的node，将与该分片对应的Map Task(TaskInProgress)和Node添加到该数据结构中。当选择未运行的Map Task时，只要从该数据结构中查找与该结点对应的任务即可实现本地性。

　　本文基于hadoop1.2.1

　　如有错误，还请指正

　　参考文章：《Hadoop技术内幕深入理解MapReduce架构设计与实现原理》董西成

　　　　　　　　http://www.cnblogs.com/lxf20061900/p/3775963.html

　　转载请注明出处：http://www.cnblogs.com/gwgyk/p/4085627.html

浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
月度总结 | 2022年03月 | 考研与就业的抉择 | 确定未来走大数据开发路线「已注销」个人总结 hadoop
一、时间线梳理3月3日，寻找到同专业的就业伙伴3月5日，着手准备Java八股文，决定先走Java后端路线3月8月，申请到了校图书馆的考研专座，决定暂时放弃就业，先准备考研，买了数学和408的资料书3月9日-3月13日，因疫情原因，宿舍区暂封，这段时间在准备考研，发现内容特别多3月13日-3月19日，大部分时间在刷Hadoop、Zookeeper、Kafka的视频，同时在准备实习的项目3月20日，退
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
Hadoop windows intelij 跑 MR WordCount piziyang12138
一、软件环境我使用的软件版本如下:IntellijIdea2017.1Maven3.3.9Hadoop分布式环境二、创建maven工程打开Idea,file->new->Project,左侧面板选择maven工程。(如果只跑MapReduce创建java工程即可，不用勾选Creatfromarchetype，如果想创建web工程或者使用骨架可以勾选)image.png设置GroupId和Artif
Hadoop学习第三课（HDFS架构--读、写流程）小小程序员呀~ 数据库 hadoop 架构 big data
1.块概念举例1：一桶水1000ml，瓶子的规格100ml=>需要10个瓶子装完一桶水1010ml，瓶子的规格100ml=>需要11个瓶子装完一桶水1010ml，瓶子的规格200ml=>需要6个瓶子装完块的大小规格，只要是需要存储，哪怕一点点，也是要占用一个块的块大小的参数：dfs.blocksize官方默认的大小为128M官网：https://hadoop.apache.org/docs/r3.
hadoop启动HDFS命令 m0_67401228 java 搜索引擎 linux 后端
启动命令：/hadoop/sbin/start-dfs.sh停止命令：/hadoop/sbin/stop-dfs.sh
【计算机毕设-大数据方向】基于Hadoop的电商交易数据分析可视化系统的设计与实现程序员-石头山大数据实战案例大数据 hadoop 毕业设计毕设
博主介绍：✌全平台粉丝5W+,高级大厂开发程序员，博客之星、掘金/知乎/华为云/阿里云等平台优质作者。【源码获取】关注并且私信我【联系方式】最下边感兴趣的可以先收藏起来，同学门有不懂的毕设选题，项目以及论文编写等相关问题都可以和学长沟通，希望帮助更多同学解决问题前言随着电子商务行业的迅猛发展，电商平台积累了海量的数据资源，这些数据不仅包括用户的基本信息、购物记录，还包括用户的浏览行为、评价反馈等多
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
spark常用命令我是浣熊的微笑 spark
查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME目录，输入bin/spark-submit--help可以得到该命令的使用帮助。hadoop@wyy:/app/hadoop/spark100$bin/spark-submit--
spark启动命令学不会又听不懂 spark 大数据分布式
hadoop启动：cd/root/toolssstart-dfs.sh，只需在hadoop01上启动stop-dfs.sh日志查看：cat/root/toolss/hadoop/logs/hadoop-root-datanode-hadoop03.outzookeeper启动：cd/root/toolss/zookeeperbin/zkServer.shstart，三台都要启动bin/zkServ
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
Hadoop常见面试题整理及解答叶青舟 Linux hdfs 大数据 hadoop linux
Hadoop常见面试题整理及解答一、基础知识篇：1.把数据仓库从传统关系型数据库转到hadoop有什么优势？答：（1）关系型数据库成本高，且存储空间有限。而Hadoop使用较为廉价的机器存储数据，且Hadoop可以将大量机器构建成一个集群，并在集群中使用HDFS文件系统统一管理数据，极大的提高了数据的存储及处理能力。（2）关系型数据库仅支持标准结构化数据格式，Hadoop不仅支持标准结构化数据格式
2025毕业设计指南：如何用Hadoop构建超市进货推荐系统？大数据分析助力精准采购计算机编程指导师 Java实战集 Python实战集大数据实战集课程设计 hadoop 数据分析 spring boot java 进货 python
✍✍计算机编程指导师⭐⭐个人介绍：自己非常喜欢研究技术问题！专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。⛽⛽实战项目：有源码或者技术上的问题欢迎在评论区一起讨论交流！⚡⚡Java实战|SpringBoot/SSMPython实战项目|Django微信小程序/安卓实战项目大数据实战项目⚡⚡文末获取源码文章目录⚡⚡文末获取源码基于hadoop的超市进货推荐系
Hadoop Common 之序列化机制小解猫君之上 #Apache Hadoop
1.JavaSerializable序列化该序列化通过ObjectInputStream的readObject实现序列化，ObjectOutputStream的writeObject实现反序列化。这不过此种序列化虽然跨病态兼容性强，但是因为存储过多的信息，但是传输效率比较低，所以hadoop弃用它。（序列化信息包括这个对象的类，类签名，类的所有静态，费静态成员的值，以及他们父类都要被写入）publ
深入理解hadoop(一)----Common的实现----Configuration maoxiao_jsd 深入理解----hadoop
属本人个人原创，转载请注明,希望对大家有帮助！！一,hadoop的配置管理a,hadoop通过独有的Configuration处理配置信息Configurationconf=newConfiguration();conf.addResource("core-default.xml");conf.addResource("core-site.xml");后者会覆盖前者中未final标记的相同配置项b
hadoop 0.22.0 部署笔记 weixin_33701564 大数据 java 运维
为什么80%的码农都做不了架构师？>>>因为需要使用hbase，所以开始对hbase进行学习。hbase是部署在hadoop平台上的NOSql数据库，因此在部署hbase之前需要先部署hadoop。环境：redhat5、hadoop-0.22.0.tar.gz、jdk-6u13-linux-i586.zipip192.168.1.128hostname：localhost.localdomain（
解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(4) 2401_84160087 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！org.apache.hadoophadoop-com
解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(3) 2401_84160087 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！xmlns:xsi="http://www.w3.or
深入解析HDFS：定义、架构、原理、应用场景及常用命令 CloudJourney hdfs 架构 hadoop
引言Hadoop分布式文件系统（HDFS，HadoopDistributedFileSystem）是Hadoop框架的核心组件之一，它提供了高可靠性、高可用性和高吞吐量的大规模数据存储和管理能力。本文将从HDFS的定义、架构、工作原理、应用场景以及常用命令等多个方面进行详细探讨，帮助读者全面深入地了解HDFS。1.HDFS的定义1.1什么是HDFSHDFS是Hadoop生态系统中的一个分布式文件系
Hadoop的搭建流程 lzhlizihang hadoop 大数据分布式
文章目录一、配置IP二、配置主机名三、配置主机映射四、关闭防火墙五、配置免密六、安装jdk1、第一步：2、第二步：3、第三步：4、第四步：5、第五步：七、安装hadoop1、上传2、解压3、重命名4、开始配置环境变量5、刷新配置文件6、验证hadoop命令是否可以识别八、全分布搭建7、修改配置文件core-site.xml8、修改配置文件hdfs-site.xml9、修改配置文件hadoop-en
hive搭建 -----内嵌模式和本地模式 lzhlizihang hive hadoop
文章目录一、内嵌模式（使用较少）1、上传、解压、重命名2、配置环境变量3、配置conf下的hive-env.sh4、修改conf下的hive-site.xml5、启动hadoop集群6、给hdfs创建文件夹7、修改hive-site.xml中的非法字符8、初始化元数据9、测试是否成功10、内嵌模式的缺点二、本地模式（最常用）1、检查mysql是否正常2、上传、解压、重命名3、配置环境变量4、修改c
Hadoop之mapreduce -- WrodCount案例以及各种概念 lzhlizihang hadoop mapreduce 大数据
文章目录一、MapReduce的优缺点二、MapReduce案例--WordCount1、导包2、Mapper方法3、Partitioner方法（自定义分区器）4、reducer方法5、driver（main方法）6、Writable（手机流量统计案例的实体类）三、关于片和块1、什么是片，什么是块？2、mapreduce启动多少个MapTask任务？四、MapReduce的原理五、Shuffle过
IAAS: IT公司去IOE-Alibaba系统构架解读 wishchin 心理学/职业 BigDataMini Spark PaaS
从Hadoop到自主研发，技术解读阿里去IOE后的系统架构原地址：......................云计算阿里飞天摘要：从IOE时代，到Hadoop与飞天并行，再到飞天单集群5000节点的实现，阿里一直摸索在技术衍变的前沿。这里，我们将从架构、性能、运维等多个方面深入了解阿里基础设施。【导读】互联网的普及，智能终端的增加，大数据时代悄然而至。在这个数据为王的时代，数十倍、数百倍的数据给各
Java 并发包之线程池和原子计数 lijingyao8206 Java计数 ThreadPool 并发包 java线程池
对于大数据量关联的业务处理逻辑，比较直接的想法就是用JDK提供的并发包去解决多线程情况下的业务数据处理。线程池可以提供很好的管理线程的方式，并且可以提高线程利用率，并发包中的原子计数在多线程的情况下可以让我们避免去写一些同步代码。这里就先把jdk并发包中的线程池处理器ThreadPoolExecutor 以原子计数类AomicInteger 和倒数计时锁C
java编程思想抽象类和接口百合不是茶 java 抽象类接口
接口c++对接口和内部类只有简介的支持,但在java中有队这些类的直接支持 1 ,抽象类 : 如果一个类包含一个或多个抽象方法,该类必须限定为抽象类(否者编译器报错) 抽象方法 : 在方法中仅有声明而没有方法体 package com.wj.Interface;
[房地产与大数据]房地产数据挖掘系统 comsci 数据挖掘
随着一个关键核心技术的突破,我们已经是独立自主的开发某些先进模块,但是要完全实现,还需要一定的时间... 所以,除了代码工作以外,我们还需要关心一下非技术领域的事件..比如说房地产 &nb
数组队列总结沐刃青蛟数组队列
数组队列是一种大小可以改变，类型没有定死的类似数组的工具。不过与数组相比，它更具有灵活性。因为它不但不用担心越界问题，而且因为泛型（类似c++中模板的东西）的存在而支持各种类型。以下是数组队列的功能实现代码： import List.Student; public class
Oracle存储过程无法编译的解决方法 IT独行者 oracle 存储过程　
今天同事修改Oracle存储过程又导致2个过程无法被编译，流程规范上的东西，Dave 这里不多说，看看怎么解决问题。 1. 查看无效对象 XEZF@xezf(qs-xezf-db1)> select object_name,object_type,status from all_objects where status='IN
重装系统之后oracle恢复文强chu oracle
前几天正在使用电脑，没有暂停oracle的各种服务。突然win8.1系统奔溃，无法修复，开机时系统提示正在搜集错误信息，然后再开机，再提示的无限循环中。无耐我拿出系统u盘准备重装系统，没想到竟然无法从u盘引导成功。晚上到外面早了一家修电脑店，让人家给装了个系统，并且那哥们在我没反应过来的时候，直接把我的c盘给格式化了并且清理了注册表，再装系统。然后的结果就是我的oracl
python学习二（一些基础语法）小桔子 pthon 基础语法
紧接着把！昨天没看继续看django 官方教程，学了下python的基本语法与c类语言还是有些小差别： 1.ptyhon的源文件以UTF-8编码格式 2. / 除结果浮点型 // 除结果整形 % 除取余数 * 乘 ** 乘方 eg 5**2 结果是5的2次方25 _&
svn 常用命令 aichenglong SVN 版本回退
1 svn回退版本 1)在window中选择log,根据想要回退的内容,选择revert this version或revert chanages from this version 两者的区别: revert this version:表示回退到当前版本(该版本后的版本全部作废) revert chanages from this versio
某小公司面试归来 alafqq 面试
先填单子，还要写笔试题，我以时间为急，拒绝了它。。时间宝贵。老拿这些对付毕业生的东东来吓唬我。。面试官很刁难，问了几个问题，记录下； 1，包的范围。。。public,private,protect. --悲剧了 2，hashcode方法和equals方法的区别。谁覆盖谁.结果，他说我说反了。 3，最恶心的一道题，抽象类继承抽象类吗？（察，一般它都是被继承的啊） 4，stru
动态数组的存储速度比较集合框架百合不是茶集合框架
集合框架：自定义数据结构(增删改查等) package 数组; /** * 创建动态数组 * @author 百合 * */ public class ArrayDemo{ //定义一个数组来存放数据 String[] src = new String[0]; /** * 增加元素加入容器 * @param s要加入容器
用JS实现一个JS对象，对象里有两个属性一个方法 bijian1013 js对象
<html> <head> </head> <body> 用js代码实现一个js对象，对象里有两个属性，一个方法 </body> <script> var obj={a:'1234567',b:'bbbbbbbbbb',c:function(x){
探索JUnit4扩展：使用Rule bijian1013 java 单元测试 JUnit Rule
在上一篇文章中，讨论了使用Runner扩展JUnit4的方式，即直接修改Test Runner的实现(BlockJUnit4ClassRunner)。但这种方法显然不便于灵活地添加或删除扩展功能。下面将使用JUnit4.7才开始引入的扩展方式——Rule来实现相同的扩展功能。 1. Rule &n
[Gson一]非泛型POJO对象的反序列化 bit1129 POJO
当要将JSON数据串反序列化自身为非泛型的POJO时，使用Gson.fromJson(String, Class)方法。自身为非泛型的POJO的包括两种： 1. POJO对象不包含任何泛型的字段 2. POJO对象包含泛型字段，例如泛型集合或者泛型类 Data类 a.不是泛型类， b.Data中的集合List和Map都是泛型的 c.Data中不包含其它的POJO
【Kakfa五】Kafka Producer和Consumer基本使用 bit1129 kafka
0.Kafka服务器的配置一个Broker，一个Topic Topic中只有一个Partition（） 1. Producer： package kafka.examples.producers; import kafka.producer.KeyedMessage; import kafka.javaapi.producer.Producer; impor
lsyncd实时同步搭建指南——取代rsync+inotify ronin47
1. 几大实时同步工具比较 1.1 inotify + rsync 最近一直在寻求生产服务服务器上的同步替代方案，原先使用的是 inotify + rsync，但随着文件数量的增大到100W+，目录下的文件列表就达20M，在网络状况不佳或者限速的情况下，变更的文件可能10来个才几M，却因此要发送的文件列表就达20M，严重减低的带宽的使用效率以及同步效率；更为要紧的是，加入inotify
java-9. 判断整数序列是不是二元查找树的后序遍历结果 bylijinnan java
public class IsBinTreePostTraverse{ static boolean isBSTPostOrder(int[] a){ if(a==null){ return false; } /*1.只有一个结点时，肯定是查找树 *2.只有两个结点时，肯定是查找树。例如{5,6}对应的BST是 6 {6,5}对应的BST是
MySQL的sum函数返回的类型 bylijinnan java spring sql mysql jdbc
今天项目切换数据库时，出错访问数据库的代码大概是这样： String sql = "select sum(number) as sumNumberOfOneDay from tableName"; List<Map> rows = getJdbcTemplate().queryForList(sql); for (Map row : rows
java设计模式之单例模式 chicony java设计模式
在阎宏博士的《JAVA与模式》一书中开头是这样描述单例模式的：　　作为对象的创建模式，单例模式确保某一个类只有一个实例，而且自行实例化并向整个系统提供这个实例。这个类称为单例类。单例模式的结构　　单例模式的特点：单例类只能有一个实例。单例类必须自己创建自己的唯一实例。单例类必须给所有其他对象提供这一实例。　　饿汉式单例类 publ
javascript取当月最后一天 ctrain JavaScript
 <script language=javascript> var current = new Date(); var year = current.getYear(); var month = current.getMonth(); showMonthLastDay(year, mont
linux tune2fs命令详解 daizj linux tune2fs 查看系统文件块信息
一.简介： tune2fs是调整和查看ext2/ext3文件系统的文件系统参数，Windows下面如果出现意外断电死机情况，下次开机一般都会出现系统自检。Linux系统下面也有文件系统自检，而且是可以通过tune2fs命令，自行定义自检周期及方式。二.用法： Usage: tune2fs [-c max_mounts_count] [-e errors_behavior] [-g grou
做有中国特色的程序员 dcj3sjt126com 程序员
从出版业说起网络作品排到靠前的，都不会太难看，一般人不爱看某部作品也是因为不喜欢这个类型，而此人也不会全不喜欢这些网络作品。究其原因，是因为网络作品都是让人先白看的，看的好了才出了头。而纸质作品就不一定了，排行榜靠前的，有好作品，也有垃圾。许多大牛都是写了博客，后来出了书。这些书也都不次，可能有人让为不好，是因为技术书不像小说，小说在读故事，技术书是在学知识或温习知识，有
Android：TextView属性大全 dcj3sjt126com textview
android:autoLink 设置是否当文本为URL链接/email/电话号码/map时，文本显示为可点击的链接。可选值(none/web/email/phone/map/all) android:autoText 如果设置，将自动执行输入值的拼写纠正。此处无效果，在显示输入法并输
tomcat虚拟目录安装及其配置 eksliang tomcat配置说明 tomca部署web应用 tomcat虚拟目录安装
转载请出自出处：http://eksliang.iteye.com/blog/2097184 1.-------------------------------------------tomcat 目录结构 config：存放tomcat的配置文件 temp ：存放tomcat跑起来后存放临时文件用的 work ：当第一次访问应用中的jsp
浅谈：APP有哪些常被黑客利用的安全漏洞 gg163 APP
首先，说到APP的安全漏洞，身为程序猿的大家应该不陌生；如果抛开安卓自身开源的问题的话，其主要产生的原因就是开发过程中疏忽或者代码不严谨引起的。但这些责任也不能怪在程序猿头上，有时会因为BOSS时间催得紧等很多可观原因。由国内移动应用安全检测团队爱内测（ineice.com）的CTO给我们浅谈关于Android 系统的开源设计以及生态环境。 1. 应用反编译漏洞：APK 包非常容易被反编译成可读
C#根据网址生成静态页面 hvt Web .net C#asp.net hovertree
HoverTree开源项目中HoverTreeWeb.HVTPanel的Index.aspx文件是后台管理的首页。包含生成留言板首页，以及显示用户名，退出等功能。根据网址生成页面的方法： bool CreateHtmlFile(string url, string path) { //http://keleyi.com/a/bjae/3d10wfax.htm stri
SVG 教程（一）天梯梦 svg
SVG 简介 SVG 是使用 XML 来描述二维图形和绘图程序的语言。学习之前应具备的基础知识：继续学习之前，你应该对以下内容有基本的了解： HTML XML 基础如果希望首先学习这些内容，请在本站的首页选择相应的教程。什么是SVG？ SVG 指可伸缩矢量图形 (Scalable Vector Graphics) SVG 用来定义用于网络的基于矢量
一个简单的java栈 luyulong java 数据结构栈
public class MyStack { private long[] arr; private int top; public MyStack() { arr = new long[10]; top = -1; } public MyStack(int maxsize) { arr = new long[maxsize]; top
基础数据结构和算法八：Binary search sunwinner Algorithm Binary search
Binary search needs an ordered array so that it can use array indexing to dramatically reduce the number of compares required for each search, using the classic and venerable binary search algori
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！刘星宇 c 面试
12个C语言面试题，涉及指针、进程、运算、结构体、函数、内存，看看你能做出几个！ 1.gets()函数问：请找出下面代码里的问题： #include<stdio.h> int main(void) { char buff[10]; memset(buff,0,sizeof(buff));
ITeye 7月技术图书有奖试读获奖名单公布 ITeye管理员活动 ITeye 试读
ITeye携手人民邮电出版社图灵教育共同举办的7月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 7月试读活动回顾： http://webmaster.iteye.com/blog/2092746 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《Java性能优化权威指南》

hadoop运行原理之Job运行(五) 任务调度

你可能感兴趣的:(hadoop)