xin_jmail

Giraph 源码分析（五）—— 加载数据+同步总结

本人原创，转载请注明出处！本人QQ：530422429，欢迎大家指正、讨论。

欢迎访问：西北工业大学 - 大数据与知识管理研究室（Northwestern Polytechnical University - BigData and Knowledge Management Lab），链接：http://wowbigdata.cn/，http://wowbigdata.net.cn/，http://wowbigdata.com.cn。

环境：在单机上（机器名：giraphx）启动了2个workers。

输入:SSSP文件夹，里面有1.txt和2.txt两个文件

1. 在Worker向Master汇报健康状况后，就开始等待Master创建InputSplit。方法：每个Worker通过检某个Znode节点是否存在，同时在此Znode上设置Watcher。若不存在，就通过BSPEvent的waitForever()方法释放当前线程的锁，陷入等待状态。一直等到master创建该znode。此步骤位于BSPServiceWorker类中的startSuperStep方法中，等待代码如下：

	//Znode的路径
    String addressesAndPartitionsPath =
        getAddressesAndPartitionsPath(getApplicationAttempt(),
            getSuperstep());
	//把该znode的data读入到addressesAndPartitions中
    AddressesAndPartitionsWritable addressesAndPartitions =
        new AddressesAndPartitionsWritable(
            workerGraphPartitioner.createPartitionOwner().getClass());
	 //当master创建该znode后，退出while循环
     while (getZkExt().exists(addressesAndPartitionsPath, true) ==
          null) {
		 //陷入等待状态
        getAddressesAndPartitionsReadyChangedEvent().waitForever();
		//当master创建该znode后，触发Watcher。调用process进而唤醒线程
        getAddressesAndPartitionsReadyChangedEvent().reset();
      }
	  //读入数据
      WritableUtils.readFieldsFromZnode(
          getZkExt(),
          addressesAndPartitionsPath,
          false,
          null,
          addressesAndPartitions);

2. Master调用createInputSplits()方法创建InputSplit。

在generateInputSplits()方法中，根据用户设定的VertexInputFormat获得InputSplits。代码如下：

List<InputSplit> splits=inputFormat.getSplits(getContext(), minSplitCountHint);

其中minSplitCountHint为创建split的最小数目，其值如下：

minSplitCountHint = Workers数目 * NUM_INPUT_THREADS
NUM_INPUT_THREADS表示每个Input split loading的线程数目，默认值为1 。经查证，在TextVertexValueInputFormat抽象类中的getSplits()方法中的minSplitCountHint参数被忽略。用户输入的VertexInputFormat继承TextVertexValueInputFormat抽象类。

如果得到的splits.size小于minSplitCountHint，那么有些worker就没被用上。

得到split信息后，要把这些信息写到Zookeeper上，以便其他workers访问。上面得到的split信息如下：

[hdfs://giraphx:9000/user/root/SSSP/1.txt:0+66, hdfs://giraphx:9000/user/root/SSSP/2.txt:0+46]

遍历splits List，为每个split创建一个Znode，值为split的信息。如为split-0创建Znode，值为：hdfs://giraphx:9000/user/root/SSSP/1.txt:0+66

 /_hadoopBsp/job_201404102333_0013/_vertexInputSplitDir/0

为split-1创建znode（如下），值为：hdfs://giraphx:9000/user/root/SSSP/2.txt:0+46

/_hadoopBsp/job_201404102333_0013/_vertexInputSplitDir/1

最后创建znode： /_hadoopBsp/job_201404102333_0013/_vertexInputSplitsAllReady 表示所有splits都创建好了。

3. Master根据splits创建Partitions。首先确定partition的数目。

BSPServiceMaster中的MasterGraphPartitioner<I.V,E,M>对象默认为HashMasterPartitioner。它的createInitialPartitionOwners()方法如下：

@Override
  public Collection<PartitionOwner> createInitialPartitionOwners(
      Collection<WorkerInfo> availableWorkerInfos, int maxWorkers) {
	  //maxWorkers为Workers的最大数目，用户通过 -w 指定。实验时指定为 2
	  //availableWorkerInfos为健康的Workers列表,此处为：[Worker(hostname=giraphx, MRtaskID=1, port=30001), Worker(hostname=giraphx, MRtaskID=2, port=30002)]
    int partitionCount = PartitionUtils.computePartitionCount(
        availableWorkerInfos, maxWorkers, conf);
    List<PartitionOwner> ownerList = new ArrayList<PartitionOwner>();
    Iterator<WorkerInfo> workerIt = availableWorkerInfos.iterator();
	//为每个Partition指定一个PartitionOwner，表示该Partition的元数据信息
    for (int i = 0; i < partitionCount; ++i) {
      PartitionOwner owner = new BasicPartitionOwner(i, workerIt.next());
	  //若遍历完availableWorkerInfos，则开始下一轮遍历。
      if (!workerIt.hasNext()) {
        workerIt = availableWorkerInfos.iterator();
      }
      ownerList.add(owner);
    }
    this.partitionOwnerList = ownerList;
    return ownerList;
  }

上面代码中是在工具类PartitionUtils计算Partition的数目，计算公式如下：

partitionCount=PARTITION_COUNT_MULTIPLIER * availableWorkerInfos.size() * availableWorkerInfos.size() ，其中PARTITION_COUNT_MULTIPLIER表示Multiplier for the current workers squared，默认值为1 。

可见，partitionCount值为4（1*2*2）。创建的partitionOwnerList信息如下：

[(id=0,cur=Worker(hostname=giraphx, MRtaskID=1, port=30001),prev=null,ckpt_file=null),

(id=1,cur=Worker(hostname=giraphx, MRtaskID=2, port=30002),prev=null,ckpt_file=null),

(id=2,cur=Worker(hostname=giraphx, MRtaskID=1, port=30001),prev=null,ckpt_file=null),

(id=3,cur=Worker(hostname=giraphx, MRtaskID=2, port=30002),prev=null,ckpt_file=null)]

4. Master创建Znode：/_hadoopBsp/job_201404102333_0013/_applicationAttemptsDir/0/_superstepDir/-1/_partitionExchangeDir ，用于后面的exchange partition。

5. Master最后在assignPartitionOwners()方法中，把masterinfo，chosenWorkerInfoList，partitionOwners等信息写入Znode中（作为Znode的data），该Znode的路径为： /_hadoopBsp/job_201404102333_0013/_applicationAttemptsDir/0/_superstepDir/-1/_addressesAndPartitions 。

Master调用barrierOnWorkerList()方法开始等待各个Worker完成数据加载。调用关系如下：

在barrierOnWorkerList中创建znode，path=/_hadoopBsp/job_201404102333_0013/_vertexInputSplitDoneDir 。然后检查该znode的子节点数目是否等于workers的数目，若不等于，则线程陷入等待状态。后面某个worker完成数据加载后，会创建子node（如 /_hadoopBsp/job_201404102333_0013/_vertexInputSplitDoneDir/giraphx_1）来激活该线程继续判断。

6. 当Master创建第5步的znode后，会激活worker。每个worker从znode上读出data，data包含masterInfo，WorkerInfoList和partitionOwnerList，然后各个worker开始加载数据。

把partitionOwnerList复制给BSPServiceWorker类中的workerGraphPartitioner（默认为HashWorkerPartitioner类型）对象的partitionOwnerList变量，后续每个顶点把根据vertexID通过workerGraphPartitioner对象获取其对应的partitionOwner.

每个Worker从znode： /_hadoopBsp/job_201404102333_0013/_vertexInputSplitDir获取子节点，得到inputSplitPathList，内容如下：

[/_hadoopBsp/job_201404102333_0013/_vertexInputSplitDir/1,
/_hadoopBsp/job_201404102333_0013/_vertexInputSplitDir/0]

然后每个Worker创建N个InputsCallable线程读取数据。N=Min(NUM_INPUT_THREADS,maxInputSplitThread)，其中NUM_INPUT_THREADS默认值为1，maxInputSplitThread=（InputSplitSize-1/maxWorkers +1

那么，默认每个worker就是创建一个线程来加载数据。

在InputSplitsHandler类中的reserveInputSplit()方法中，每个worker都是遍历inputSplitPathList，通过创建znode来保留(标识要处理)的split。代码及注释如下：

    public String reserveInputSplit() {
    String reservedInputSplitPath;
    Stat reservedStat;
  
    while (true) {
	  //currentIndex递增，要遍历完pathList
      int splitToTry = currentIndex.getAndIncrement();
	  //遍历完pathList，说明所有的split都被处理了，退出while循环。
      if (splitToTry >= pathList.size()) {
        return null;
      }
	  //得到split的znode path，如/_hadoopBsp/job_201404102333_0013/_vertexInputSplitDir/1
      String nextSplitToClaim = pathList.get(splitToTry);
	  
	  //构造znode路径，如： /_hadoopBsp/job_201404102333_0013/_vertexInputSplitDir/1/_vertexInputSplitReserved
      String tmpInputSplitReservedPath = nextSplitToClaim + inputSplitReservedNode;
      
	  //检测znode是否存在。若存在，说明该split已经被其他worker处理了。设置watcher是为了容错，可暂时忽略。
      reservedStat =
          zooKeeper.exists(tmpInputSplitReservedPath, this);
	  //若不存在，说明该znode对应的split还没有被处理掉。但有可能其他worker也在申请处理当前znode，
	  //所以下面创建znode时,可能会出现KeeperException.NodeExistsException异常。
      if (reservedStat == null) {
        try {
          // Attempt to reserve this InputSplit
		  //若成功创建，那么当前worker就出该split
          zooKeeper.createExt(tmpInputSplitReservedPath,
              null,
              ZooDefs.Ids.OPEN_ACL_UNSAFE,
              CreateMode.EPHEMERAL,
              false);
          reservedInputSplitPath = nextSplitToClaim;
          return reservedInputSplitPath;
        } catch (KeeperException.NodeExistsException e) {
          LOG.info("reserveInputSplit: Couldn't reserve " +
              "(already reserved) inputSplit" +
              " at " + tmpInputSplitReservedPath);
        }
      }
    }
  }

当用reserveInputSplit()方法获取某个znode后，loadSplitsCallable类的loadInputSplit方法就开始通过该znode获取其HDFS的路径信息，然后读入数据、重分布数据。

 //inputSplitPath为znode的path，如： /_hadoopBsp/job_201404102333_0013/_vertexInputSplitDir/1
 private VertexEdgeCount loadInputSplit(
      String inputSplitPath,
      GraphState<I, V, E, M> graphState) {
	//获取该znode对应的InputSplit信息，如得到：hdfs://giraphx:9000/user/root/SSSP/2.txt:0+46
    InputSplit inputSplit = getInputSplit(inputSplitPath);
    
	//从split中一行一行读入数据，把每行数据创建成一个vertex。
	//然后根据vertexId把vertex发送到相应的partition上(数据重分布过程)
    VertexEdgeCount vertexEdgeCount =
        readInputSplit(inputSplit, graphState);
   //处理完当前split后，创建结束znode标识该split已被处理掉。znode的path为： /_hadoopBsp/job_201404102333_0013/_vertexInputSplitDir/1/_vertexInputSplitFinished
    splitsHandler.markInputSplitPathFinished(inputSplitPath);
    return vertexEdgeCount;
  }

VertexInputSplitsCallable类的readInputSplit()方法如下：

 protected VertexEdgeCount readInputSplit(
      InputSplit inputSplit,
      GraphState<I, V, E, M> graphState)
    throws IOException, InterruptedException {
	//获取用户输入的InputFormat类
    VertexInputFormat<I, V, E> vertexInputFormat =
        configuration.createVertexInputFormat();
    VertexReader<I, V, E> vertexReader =
        vertexInputFormat.createVertexReader(inputSplit, context);
    vertexReader.setConf(
        (ImmutableClassesGiraphConfiguration<I, V, E, Writable>) configuration);
    vertexReader.initialize(inputSplit, context);
    long inputSplitVerticesLoaded = 0;
    long edgesSinceLastUpdate = 0;
    long inputSplitEdgesLoaded = 0;
    while (vertexReader.nextVertex()) {
	  //获取vertex
      Vertex<I, V, E, M> readerVertex =
          (Vertex<I, V, E, M>) vertexReader.getCurrentVertex();
      if (readerVertex.getId() == null) {
        throw new IllegalArgumentException(
            "readInputSplit: Vertex reader returned a vertex " +
                "without an id!  - " + readerVertex);
      }
      if (readerVertex.getValue() == null) {
        readerVertex.setValue(configuration.createVertexValue());
      }
      readerVertex.setConf(configuration);
      readerVertex.setGraphState(graphState);
      //根据vertexID获取其partitionOwner
      PartitionOwner partitionOwner =
          bspServiceWorker.getVertexPartitionOwner(readerVertex.getId());
      //把顶点发送到对应的partition上
      graphState.getWorkerClientRequestProcessor().sendVertexRequest(
          partitionOwner, readerVertex);
      context.progress(); // do this before potential data transfer
      ++inputSplitVerticesLoaded;
     
      edgesSinceLastUpdate += readerVertex.getNumEdges();
    }
    vertexReader.close();
    return new VertexEdgeCount(inputSplitVerticesLoaded,
        inputSplitEdgesLoaded + edgesSinceLastUpdate);
  }

7. 每个worker加载完数据后，调用waitForOtherWorkers()方法等待其他workers都处理完split。

策略如下，每个worker在/_hadoopBsp/job_201404102333_0013/_vertexInputSplitDoneDir目录下创建子节点，后面追加自己的worker信息，如worker1、worker2创建的子节点分别如下：

/_hadoopBsp/job_201404102333_0013/_vertexInputSplitDoneDir/giraphx_1

/_hadoopBsp/job_201404102333_0013/_vertexInputSplitDoneDir/giraphx_2

，创建完后，然后等待master创建/_hadoopBsp/job_201404102333_0013/_vertexInputSplitsAllDone。

8.从第5步骤可知，若master发现/_hadoopBsp/job_201404102333_0013/_vertexInputSplitDoneDir下的子节点数目等于workers的总数目，就会在coordinateInputSplits()方法中创建

_hadoopBsp/job_201404102333_0013/_vertexInputSplitsAllDone，告诉每个worker，所有的worker都处理完了split。

9. 最后就是就行全局同步。

master创建znode，path=/_hadoopBsp/job_201404102333_0013/_applicationAttemptsDir/0/_superstepDir/-1/_workerFinishedDir ，然后再调用barrierOnWorkerList方法检查该znode的子节点数目是否等于workers的数目，若不等于，则线程陷入等待状态。等待worker创建子节点来激活该线程继续判断。

每个worker获取自身的Partition Stats，进入finishSuperStep方法中，等待所有的Request都被处理完；把自身的Aggregator信息发送给master；创建子节点，如/_hadoopBsp/job_201404102333_0013/_applicationAttemptsDir/0/_superstepDir/-1/_workerFinishedDir/giraphx_1，data为该worker的partitionStatsList和workerSentMessages统计量；

最后调用waitForOtherWorkers()方法等待master创建/_hadoopBsp/job_201404102333_0013/_applicationAttemptsDir/0/_superstepDir/-1/_superstepFinished 节点。

master发现/_hadoopBsp/job_201404102333_0013/_applicationAttemptsDir/0/_superstepDir/-1/_workerFinishedDir的子节点数目等于workers数目后，根据/_hadoopBsp/job_201404102333_0013/_applicationAttemptsDir/0/_superstepDir/-1/_workerFinishedDir子节点上的data收集每个worker发送的aggregator信息，汇总为globalStats。

Master若发现全局信息中（1）所有顶点都voteHalt且没有消息传递，或（2）达到最大迭代次数时，设置 globalStats.setHaltComputation(true)。告诉works结束迭代。

master创建/_hadoopBsp/job_201404102333_0013/_applicationAttemptsDir/0/_superstepDir/-1/_superstepFinished 节点，data为globalStats。告诉所有workers当前超级步结束。

每个Worker检测到master创建/_hadoopBsp/job_201404102333_0013/_applicationAttemptsDir/0/_superstepDir/-1/_superstepFinished 节点后，读出该znode的数据，即全局的统计信息。然后决定是否继续下一次迭代。

10. 同步之后开始下一个超级步。

11.master和workers同步过程总结。

（1）master创建znode A，然后检测A的子节点数目是否等于workers数目，不等于就陷入等待。某个worker创建一个子节点后，就会唤醒master进行检测一次。

（2）每个worker进行自己的工作，完成后，创建A的子节点A1。然后等待master创建znode B。

（3）若master检测到A的子节点数目等于workers的数目时，创建Znode B

（4）master创建B 节点后，会激活各个worker。同步结束，各个worker就可以开始下一个超步。

本质是通过znode B来进行全局同步的。

本人原创，转载请注明出处！本人QQ：530422429，欢迎大家指正、讨论。

软件体系结构城堡修炼者 hadoop mapreduce hbase
名词解释Zookeeper：是一个分布式的，开放源码的分布式应用程序协调服务，是Google的一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。Giraph：是一个迭代的图计算系统。Giraph计算的输入是由点和直连的边组成的图。图形(Graph)是大数据领域最热门的关键词。Hive：hive是
2013 Bossie评选：最佳开源大数据工具 xiyf2046 大数据
标签：开源,开源工具,NoSQL,大数据,IT头条【IT168评论】MapReduce的出现是为了突破数据库的局限。Giraph、Hama以及Impala等工具的出现则是为了突破MapReduce的局限。虽然上述方案的运行都需要以Hadoop为基础，但图形、文档、列式以及其它NoSQL数据库也是大数据当中不可或缺的组成部分。哪款大数据工具能够满足您的需求?这个问题在如今解决方案数量迅速增长的背景之
大数据图数据库之离线挖掘计算模型张俊林博客大数据
/*版权声明：可以任意转载，转载时请务必标明文章原始出处和作者信息.*/author:张俊林节选自《大数据日知录：架构与算法》十四章，书籍目录在此对于离线挖掘类图计算而言，目前已经涌现出众多各方面表现优秀而各具特点的实际系统，典型的比如Pregel、Giraph、Hama、PowerGraph、GraphLab、GraphChi等。通过对这些系统的分析，我们可以归纳出离线挖掘类图计算中一些常见的计
运行 Giraph 提示 too many counters weixin_30421525 java netty 大数据
运行Giraph提示toomanycounters在加入-camapreduce.job.counters.limit=1000后，仍然运行失败16/10/2008:56:08INFOjob.GiraphJob:Waitingforresources...Jobwillstartonlywhenitgetsall2mappers16/10/2008:56:38INFOjob.HaltApplica
Giraph测试用例之Parallel BFS 飞火流云高性能计算
该用例源自：https://github.com/MarcoLotz/GiraphBFSSO/blob/master/src/uk/co/qmul/giraph/structurebfs/SimpleBFSStructureComputation.java本人对其做了轻度修改和注释，想将消息修改为出发点ID的，但是发现作者原版能看出BFS的深度和解决环的问题就不改了。关于结果正确性的问题，只要该点
Giraph源码分析（九）—— Aggregators 原理解析 HamaWhite Giraph 大规模图数据专栏
HamaWhite原创，转载请注明出处！欢迎大家加入Giraph技术交流群：228591158Giraph中Aggregator的基本用法请参考官方文档：http://giraph.apache.org/aggregators.html，本文重点在解析Giraph如何实现Aggregators，后文用图示的方法描述了Aggregator的执行过程。基本原理：在每个超级步中，每个Worker计算本地
Giraph源码分析（八）—— 统计每个SuperStep中参与计算的顶点数目 conglian1917
作者|白松目的：科研中，需要分析在每次迭代过程中参与计算的顶点数目，来进一步优化系统。比如，在SSSP的compute()方法最后一行，都会把当前顶点voteToHalt，即变为InActive状态。所以每次迭代完成后，所有顶点都是InActive状态。在大同步后，收到消息的顶点会被激活，变为Active状态，然后调用顶点的compute()方法。本文的目的就是统计每次迭代过程中，参与计算的顶点数
Giraph源码分析（七）—— 添加消息统计功能 conglian1917
作者|白松1、添加类，把每个超步发送的消息量大小写入Hadoop的Counter中。在org.apache.giraph.counters包下新建GiraphMessages类，来统计消息量。源代码如下：packageorg.apache.giraph.counters;importjava.util.Iterator;importjava.util.Map;importorg.apache.ha
Giraph参数说明 houzhizhen graphdb
公共参数参数名称简称默认值示例备注giraph.maxNumberOfSupersteps-15最多迭代次数giraph.computationClass--org.apache.giraph.examples.PageRankComputationVertex计算classgiraph.vertex.input.dir-vip-/data/data_wdc_600/arc数据输入路径giraph
Giraph Aggregator Guide houzhizhen graphdb
AggregatorAggregator运行聚集在一个超级步中所有顶点的操作。Aggregator的操作类型可以是多样的，并不总是对值求和，如LongSumAggregator是对Long性进行求和，而LongMinAggregator只保留所有的最小值。LongMaxAggregator只保留最大值。LongProductAggregator保留把聚集的每个数的乘积。如LongProductAg
Hadoop 图处理 oxuzhenyi 实验楼课程
Hadoop图处理1.1实验内容本课程将基于hadoop平台实现Giraph分布式系统中的图处理。1.2课程来源本课程基于图灵教育的《Hadoop应用架构》第5章制作，真诚感谢图灵教育对实验楼的授权。为了保证可以在实验楼环境中完成本次实验，我们在原书内容基础上补充了一系列的实验指导，比如实验截图，代码注释，帮助您更好的实战。如果您对于实验有疑惑或者建议可以随时在讨论区中提问，与同学们一起探讨。1.
Hadoop生态圈 _梓杰_ 大数据
文章目录一、Hadoop三、Mapreduce四、HBASE五、Zookeeper六、HIVE七、Pig八、Sqoop九、Flume十、Mahout十一、Oozie十二、Yarn十三、Mesos十四、Tachyon十五、Tez十六、Spark十七、Giraph十八、GraphX十九、MLib二十、Streaming二十一、Kafka二十二、Phoenix二十三、ranger二十四、knox二十五、
Giraph 运行常见错误 -山海經- giraph
1.Couldnotfindorloadmainclassorg.apache.giraph.yarn.GiraphApplicationMaster16/08/3008:45:13ERRORyarn.GiraphYarnClient:Giraph:org.apache.giraph.examples.SimpleShortestPathsComputationreportsFAILEDstate
HPC大规模集群下的Hadoop2.5+Zookeeper3.4+Giraph1.2的配置、安装与应用 AlexP5 大数据
因为实验室项目需求需要进行上亿规模的图文件计算，还好学校HPC（高性能计算机中心）有100多台机器可以用，不用花高价买阿里云服务了，不过。。因为HPC的机器都是用来跑mpi程序的，很少进行分布式计算，更坑爹的是里面装的Hadoop2.7.4版本和Giraph不兼容，所以只有全部纯手动进行安装配置了...在安装的过程中遇到了非常非常多的坑，下面进行学习总结，以防重蹈覆辙。一、项目需求首先简单介绍一下
Giraph源码分析（四）—— Master 如何检查Worker启动成功 HamaWhite Giraph 大规模图数据专栏 Giraph ZooKeeper
HamaWhite原创，转载请注明出处！欢迎大家加入Giraph技术交流群：228591158欢迎访问：西北工业大学-大数据与知识管理研究室（NorthwesternPolytechnicalUniversity-BigDataandKnowledgeManagementLab），链接：http://wowbigdata.cn/，http://wowbigdata.net.cn/，http://w
Hello Giraph zqhxuyuan Hadoop Graph
ApacheGiraphhttp://blog.cloudera.com/blog/2014/02/how-to-write-and-run-giraph-jobs-on-hadoop/http://blog.cloudera.com/blog/2014/05/how-to-manage-time-dependent-multilayer-networks-in-apache-hadoop/大规模
The Message Process of Giraph houzhizhen graphdb
AbstractComputation.sendMessage/***Sendamessagetoavertexid.**@paramidVertexidtosendthemessageto*@parammessageMessagedatatosend*/@OverridepublicvoidsendMessage(Iid,M2message){workerClientRequestProcess
Giraph: The process of read Vertices houzhizhen graphdb
GraphTaskManager.execute/***Performtheworkassignedtothiscomputenodeforthisjobrun.*1)Runcheckpointperfrequencypolicy.*2)Foreveryvertexonthismapper,runthecompute()function*3)Waituntilallmessagingisdone.
YARN Stephen__Chou Hadoop
YARN是Hadoop的资源管理器。理解YARN如何为Hadoop集群提供灵活的资源管理理解YARN如何拓展Hadoop使得能够支持多种框架如MapReduce、Spark、Giraph和FlinkYARN是Hadoop从1.0升级至2.0出现的，hadoop1.0只支持MapReduce任务、资源利用率低。如图，Hadoop2.0中加入YARN使得hadoop中的编程模型有了除MapReduce
Giraph源码分析（八）—— 统计每个SuperStep中参与计算的顶点数目 HamaWhite Giraph 大规模图数据专栏
HamaWhite原创，转载请注明出处！欢迎大家加入Giraph技术交流群：228591158目的：科研中，需要分析在每次迭代过程中参与计算的顶点数目，来进一步优化系统。比如，在SSSP的compute()方法最后一行，都会把当前顶点voteToHalt，即变为InActive状态。所以每次迭代完成后，所有顶点都是InActive状态。在大同步后，收到消息的顶点会被激活，变为Active状态，然后
Giraph superstep中做的事情，以及其与BSP模型的对比上杉绘梨衣- Giraph
Giraph在一个superstep中要做的事情大概分为3步1.处理单元要对每一个activevertices迭代，callcompute(),在一个vertex生成message后，它们会被发送到对应的处理单元根据destinationvertex.在message被发送前沪指当它们到底destination的时候,combiners会被调用，在这些不同的阶段。处理单元在结束computingv
SparkGraphX介绍长空飞鹰分布式计算
1并行图计算从社交网络到自然语言建模，图数据的规模和重要性已经促进了许多并行图系统的发展（例如Giraph和GraphLab等）。通过限制可描述的计算类型以引入新的划分图的方法，这些图计算模型可以有效地执行复杂的图算法，效率远远高于更通用的数据并行系统。下图比较了常见的数据并行模型和图并行模型。分布式图计算框架的目的，就是将对于巨型图的各种操作，包装为简单的接口，让分布式存储，并行计算等复杂问题对
分布式大数据系统概览（HDFS/MapReduce/Spark/Yarn/Zookeeper/Storm/SparkStreaming/Lambda/DataFlow/Flink/Giraph）华师数据学院·王嘉宁分布式大数据处理系统大数据 storm sparkstreaming
分布式大数据处理系统概览（三）本博文主要对现如今分布式大数据处理系统进行概括整理，相关课程为华东师范大学数据科学与工程学院《大数据处理系统》，参考大夏学堂，下面主要整理HDFS/MapReduce/Spark/Yarn/Zookeeper/Storm/SparkStreaming/Lambda/DataFlow/Flink/Giraph有关的内容。分布式大数据处理系统大纲分布式大数据处理系统概
Giraph源码分析（八）—— 统计每个SuperStep中参与计算的顶点数目数澜大数据
作者|白松目的：科研中，需要分析在每次迭代过程中参与计算的顶点数目，来进一步优化系统。比如，在SSSP的compute()方法最后一行，都会把当前顶点voteToHalt，即变为InActive状态。所以每次迭代完成后，所有顶点都是InActive状态。在大同步后，收到消息的顶点会被激活，变为Active状态，然后调用顶点的compute()方法。本文的目的就是统计每次迭代过程中，参与计算的顶点数
Giraph源码分析（八）—— 统计每个SuperStep中参与计算的顶点数目数澜科技大数据
作者|白松目的：科研中，需要分析在每次迭代过程中参与计算的顶点数目，来进一步优化系统。比如，在SSSP的compute()方法最后一行，都会把当前顶点voteToHalt，即变为InActive状态。所以每次迭代完成后，所有顶点都是InActive状态。在大同步后，收到消息的顶点会被激活，变为Active状态，然后调用顶点的compute()方法。本文的目的就是统计每次迭代过程中，参与计算的顶点数
Giraph源码分析（七）—— 添加消息统计功能数澜大数据 h a d
作者|白松1、添加类，把每个超步发送的消息量大小写入Hadoop的Counter中。在org.apache.giraph.counters包下新建GiraphMessages类，来统计消息量。源代码如下：packageorg.apache.giraph.counters;importjava.util.Iterator;importjava.util.Map;importorg.apache.ha
Giraph源码分析（七）—— 添加消息统计功能数澜科技 hadoop
作者|白松1、添加类，把每个超步发送的消息量大小写入Hadoop的Counter中。在org.apache.giraph.counters包下新建GiraphMessages类，来统计消息量。源代码如下：packageorg.apache.giraph.counters;importjava.util.Iterator;importjava.util.Map;importorg.apache.ha
Giraph源码分析（六）——Edge 分析数澜大数据
1.在Vertex类中，顶点的存储方式采用邻接表形式。每个顶点有VertexId、VertexValue、OutgoingEdges和Halt，boolean型的halt变量用于记录顶点的状态，false时表示active，true表示inactive状态。片段代码如下。2.org.apache.giraph.edge.Edge接口，用于存储顶点的边，每条边包含targetVertexId和edg
Giraph源码分析（六）——Edge 分析数澜科技大数据 hadoop
1.在Vertex类中，顶点的存储方式采用邻接表形式。每个顶点有VertexId、VertexValue、OutgoingEdges和Halt，boolean型的halt变量用于记录顶点的状态，false时表示active，true表示inactive状态。片段代码如下。2.org.apache.giraph.edge.Edge接口，用于存储顶点的边，每条边包含targetVertexId和edg
Giraph 源码分析（五）—— 加载数据+同步总结数澜大数据 Hadoop
作者|白松关于Giraph共有九个章节，本文第五个章节。环境：在单机上（机器名：giraphx）启动了2个workers。输入：SSSP文件夹，里面有1.txt和2.txt两个文件。1、在Worker向Master汇报健康状况后，就开始等待Master创建InputSplit。方法：每个Worker通过检某个Znode节点是否存在，同时在此Znode上设置Watcher。若不存在，就通过BSPEv
书其实只有三类西蜀石兰类
一个人一辈子其实只读三种书，知识类、技能类、修心类。知识类的书可以让我们活得更明白。类似十万个为什么这种书籍，我一直不太乐意去读，因为单纯的知识是没法做事的，就像知道地球转速是多少一样（我肯定不知道），这种所谓的知识，除非用到，普通人掌握了完全是一种负担，维基百科能找到的东西，为什么去记忆？知识类的书，每个方面都涉及些，让自己显得不那么没文化，仅此而已。社会认为的学识渊博，肯定不是站在
《TCP/IP 详解，卷1：协议》学习笔记、吐槽及其他 bylijinnan tcp
《TCP/IP 详解，卷1：协议》是经典，但不适合初学者。它更像是一本字典，适合学过网络的人温习和查阅一些记不清的概念。这本书，我看的版本是机械工业出版社、范建华等译的。这本书在我看来，翻译得一般，甚至有明显的错误。如果英文熟练，看原版更好： http://pcvr.nl/tcpip/ 下面是我的一些笔记，包括我看书时有疑问的地方，也有对该书的吐槽，有不对的地方请指正： 1.
Linux—— 静态IP跟动态IP设置 eksliang linux IP
一.在终端输入 vi /etc/sysconfig/network-scripts/ifcfg-eth0 静态ip模板如下： DEVICE="eth0" #网卡名称 BOOTPROTO="static" #静态IP（必须） HWADDR="00:0C:29:B5:65:CA" #网卡mac地址 IPV6INIT=&q
Informatica update strategy transformation 18289753290
更新策略组件：标记你的数据进入target里面做什么操作，一般会和lookup配合使用，有时候用0,1,1代表 forward rejected rows被选中，rejected row是输出在错误文件里，不想看到reject输出，将错误输出到文件，因为有时候数据库原因导致某些column不能update，reject就会output到错误文件里面供查看，在workflow的
使用Scrapy时出现虽然队列里有很多Request但是却不下载，造成假死状态酷的飞上天空 request
现象就是：程序运行一段时间，可能是几十分钟或者几个小时，然后后台日志里面就不出现下载页面的信息，一直显示上一分钟抓取了0个网页的信息。刚开始已经猜到是某些下载线程没有正常执行回调方法引起程序一直以为线程还未下载完成，但是水平有限研究源码未果。经过不停的google终于发现一个有价值的信息，是给twisted提出的一个bugfix 连接地址如下http://twistedmatrix.
利用预测分析技术来进行辅助医疗蓝儿唯美医疗
2014年，克利夫兰诊所（Cleveland Clinic）想要更有效地控制其手术中心做膝关节置换手术的费用。整个系统每年大约进行2600例此类手术，所以，即使降低很少一部分成本，都可以为诊所和病人节约大量的资金。为了找到适合的解决方案，供应商将视野投向了预测分析技术和工具，但其分析团队还必须花时间向医生解释基于数据的治疗方案意味着什么。克利夫兰诊所负责企业信息管理和分析的医疗
java 线程(一)：基础篇 DavidIsOK java 多线程线程
&nbs
Tomcat服务器框架之Servlet开发分析 aijuans servlet
最近使用Tomcat做web服务器，使用Servlet技术做开发时，对Tomcat的框架的简易分析：疑问：为什么我们在继承HttpServlet类之后，覆盖doGet(HttpServletRequest req, HttpServetResponse rep)方法后，该方法会自动被Tomcat服务器调用，doGet方法的参数有谁传递过来？怎样传递？分析之我见： doGet方法的
揭秘玖富的粉丝营销之谜与小米粉丝社区类似 aoyouzi 揭秘玖富的粉丝营销之谜
玖富旗下悟空理财凭借着一个微信公众号上线当天成交量即破百万，第七天成交量单日破了1000万;第23天时，累计成交量超1个亿……至今成立不到10个月，粉丝已经超过500万，月交易额突破10亿，而玖富平台目前的总用户数也已经超过了1800万，位居P2P平台第一位。很多互联网金融创业者慕名前来学习效仿，但是却鲜有成功者，玖富的粉丝营销对外至今仍然是个谜。　　近日，一直坚持微信粉丝营销
Java web的会话跟踪技术百合不是茶 url会话 Cookie会话 Seession会话 Java Web 隐藏域会话
会话跟踪主要是用在用户页面点击不同的页面时,需要用到的技术点会话:多次请求与响应的过程 1,url地址传递参数,实现页面跟踪技术格式:传一个参数的 url?名=值传两个参数的 url?名=值 &名=值关键代码
web.xml之Servlet配置 bijian1013 java web.xml Servlet配置
定义： <servlet> <servlet-name>myservlet</servlet-name> <servlet-class>com.myapp.controller.MyFirstServlet</servlet-class> <init-param> <param-name>
利用svnsync实现SVN同步备份 sunjing SVN 同步 E000022 svnsync 镜像
1. 在备份SVN服务器上建立版本库 svnadmin create test 2. 创建pre-revprop-change文件 cd test/hooks/ cp pre-revprop-change.tmpl pre-revprop-change 3. 修改pre-revprop-
【分布式数据一致性三】MongoDB读写一致性 bit1129 mongodb
本系列文章结合MongoDB，探讨分布式数据库的数据一致性，这个系列文章包括：数据一致性概述与CAP 最终一致性(Eventually Consistency) 网络分裂(Network Partition)问题多数据中心(Multi Data Center) 多个写者(Multi Writer)最终一致性一致性图表(Consistency Chart) 数据
Anychart图表组件-Flash图转IMG普通图的方法白糖_ Flash
问题背景：项目使用的是Anychart图表组件，渲染出来的图是Flash的，往往一个页面有时候会有多个flash图，而需求是让我们做一个打印预览和打印功能，让多个Flash图在一个页面上打印出来。那么我们打印预览的思路是获取页面的body元素，然后在打印预览界面通过$("body").append(html)的形式显示预览效果，结果让人大跌眼镜：Flash是
Window 80端口被占用 WHY? bozch 端口占用 window
平时在启动一些可能使用80端口软件的时候，会提示80端口已经被其他软件占用，那一般又会有那些软件占用这些端口呢？下面坐下总结： 1、web服务器是最经常见的占用80端口的，例如：tomcat , apache , IIS , Php等等； 2
编程之美-数组的最大值和最小值-分治法（两种形式） bylijinnan 编程之美
import java.util.Arrays; public class MinMaxInArray { /** * 编程之美数组的最大值和最小值分治法 * 两种形式 */ public static void main(String[] args) { int[] t={11,23,34,4,6,7,8,1,2,23}; int[]
Perl正则表达式 chenbowen00 正则表达式 perl
首先我们应该知道 Perl 程序中，正则表达式有三种存在形式，他们分别是：匹配：m/<regexp>;/ （还可以简写为 /<regexp>;/ ，略去 m）替换：s/<pattern>;/<replacement>;/ 转化：tr/<pattern>;/<replacemnt>;
[宇宙与天文]行星议会是否具有本行星大气层以外的权力呢? comsci
举个例子: 地球,地球上由200多个国家选举出一个代表地球联合体的议会,那么现在地球联合体遇到一个问题,地球这颗星球上面的矿产资源快要采掘完了....那么地球议会全体投票,一致通过一项带有法律性质的议案,既批准地球上的国家用各种技术手段在地球以外开采矿产资源和其它资源........ &
Oracle Profile 使用详解 daizj oracle profile 资源限制
Oracle Profile 使用详解转一、目的： Oracle系统中的profile可以用来对用户所能使用的数据库资源进行限制，使用Create Profile命令创建一个Profile，用它来实现对数据库资源的限制使用，如果把该profile分配给用户，则该用户所能使用的数据库资源都在该profile的限制之内。二、条件：创建profile必须要有CREATE PROFIL
How HipChat Stores And Indexes Billions Of Messages Using ElasticSearch & Redis dengkane elasticsearch Lucene
This article is from an interview with Zuhaib Siddique, a production engineer at HipChat, makers of group chat and IM for teams. HipChat started in an unusual space, one you might not
循环小示例，菲波拉契序列，循环解一元二次方程以及switch示例程序 dcj3sjt126com c 算法
# include <stdio.h> int main(void) { int n; int i; int f1, f2, f3; f1 = 1; f2 = 1; printf("请输入您需要求的想的序列："); scanf("%d", &n); for (i=3; i<n; i
macbook的lamp环境 dcj3sjt126com lamp
sudo vim /etc/apache2/httpd.conf /Library/WebServer/Documents 是默认的网站根目录重启Mac上的Apache服务这个命令很早以前就查过了，但是每次使用的时候还是要在网上查：停止服务：sudo /usr/sbin/apachectl stop 开启服务：s
java ArrayList源码下 shuizhaosi888 ArrayList源码
版本 jdk-7u71-windows-x64 JavaSE7 ArrayList源码上：http://flyouwith.iteye.com/blog/2166890 /** * 从这个列表中移除所有c中包含元素 */ public boolean removeAll(Collection<?> c) {
Spring Security（08）——intercept-url配置 234390216 Spring Security intercept-url 访问权限访问协议请求方法
intercept-url配置目录 1.1 指定拦截的url 1.2 指定访问权限 1.3 指定访问协议 1.4 指定请求方法 1.1 &n
Linux环境下的oracle安装 jayung oracle
linux系统下的oracle安装本文档是Linux(redhat6.x、centos6.x、redhat7.x) 64位操作系统安装Oracle 11g(Oracle Database 11g Enterprise Edition Release 11.2.0.4.0 - 64bit Production)，本文基于各种网络资料精心整理而成，共享给有需要的朋友。如有问题可联系：QQ：52-7
hotspot虚拟机 leichenlei java HotSpot jvm 虚拟机文档
JVM参数 http://docs.oracle.com/javase/6/docs/technotes/guides/vm/index.html JVM工具 http://docs.oracle.com/javase/6/docs/technotes/tools/index.html JVM垃圾回收 http://www.oracle.com
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” noaighost Web node.js
读《Node.js项目实践：构建可扩展的Web应用》 ——引编程慢慢变成系统化的“砌砖活” 眼里的Node.JS 初初接触node是一年前的事，那时候年少不更事。还在纠结什么语言可以编写出牛逼的程序，想必每个码农都会经历这个月经性的问题：微信用什么语言写的？facebook为什么推荐系统这么智能，用什么语言写的？dota2的外挂这么牛逼，用什么语言写的？……用什么语言写这句话，困扰人也是阻碍
快速开发Android应用 rensanning android
Android应用开发过程中，经常会遇到很多常见的类似问题，解决这些问题需要花时间，其实很多问题已经有了成熟的解决方案，比如很多第三方的开源lib，参考 Android Libraries 和 Android UI/UX Libraries。编码越少，Bug越少，效率自然会高。但可能由于根本没听说过、听说过但没用过、特殊原因不能用、自己已经有了解决方案等等原因，这些成熟的解决
理解Java中的弱引用 tomcat_oracle java 工作面试
　不久之前，我面试了一些求职Java高级开发工程师的应聘者。我常常会面试他们说，“你能给我介绍一些Java中得弱引用吗？”，如果面试者这样说，“嗯，是不是垃圾回收有关的？”，我就会基本满意了，我并不期待回答是一篇诘究本末的论文描述。　　然而事与愿违，我很吃惊的发现，在将近20多个有着平均5年开发经验和高学历背景的应聘者中，居然只有两个人知道弱引用的存在，但是在这两个人之中只有一个人真正了
标签输出html标签" target="_blank">关于标签输出html标签 xshdch jsp
http://back-888888.iteye.com/blog/1181202 关于<c:out value=""/>标签的使用，其中有一个属性是escapeXml默认是true(将html标签当做转移字符，直接显示不在浏览器上面进行解析)，当设置escapeXml属性值为false的时候就是不过滤xml，这样就能在浏览器上解析html标签， &nb

Giraph 源码分析（五）—— 加载数据+同步总结

你可能感兴趣的:(Giraph)