LIUXUN1993728

Hadoop详解(三)——MapReduce原理和执行过程，远程Debug，Writable序列化接口，MapReduce程序编写

MapReduce概述

MapReduce是一种分布式计算模型，由Google提出，主要用于搜索领域，解决海量数据的计算问题。

MR由两个阶段组成：Map和Reduce，用户只需要实现map()和Reduce()两个函数，即可实现分布式计算。

这两个函数的形参是key、Value对，表示函数的输入信息。

MapReduce的老大是JobTracker 小弟叫TaskTracker相当于小组长执行具体任务的是Map任务和reduce任务
在Hadoop 0.23版本之后 JobTracker—>ResourceManager(RM) TaskTracker—>NodeManager(NM)
RM和NM只存在于Hadoop 2.0之后的版本中 JobTracker和TaskTracker只存在Hadoop1.0以下除了0.23版本
有了Yarn之后完全转为RM和NM YARN不仅仅可以运行MapReduce

MapReduce的大致流程

Hadoop详解(三)——MapReduce原理和执行过程，远程Debug，Writable序列化接口，MapReduce程序编写_第1张图片

① Client将业务逻辑代码(计算逻辑)打成jar包上传到Linux运行。

② client然后向RM发出提交作业的请求（使用RPC协议），RM根据任务请求获取jar包的信息，然后向客户端发送元数据信息(在HDFS上的jar包位置即存放jar包的路径和一个jobid) ,

③ 客户端Client拿到RM返回的信息为避免重复，将信息里存放jar包的路径作为前缀，jobid作为后缀进行拼接作为唯一标识在HDFS上存放此jar包的路径，得到唯一路径后，将此jar包写入到HDFS中(Client中持有FileSystem对象的引用)。一般手动上传文件默认是保存3份(伪分布式配置为1份)，为了减轻计算压力 jar包(map和reducer)会在HSDF上保存10份，运行完成一段时间后就会删除。

④ 写入成功完成后，客户端会将jar包的存储位置，jobid 作为参数以RPC的方式传递给RM。

⑤、⑥ RM就会存储此作业的描述信息。然后RM就会使用任务调度器(默认的调度器是队列调度器(job queue) 以先进先出(FIFO)的方式执行)来执行任务。

⑦ 一旦作业被放入调度器内，NM就会通过心跳机制领取任务，由RM根据NM的机器状况决定是否将任务分配给NM。

⑧、⑨NM领取到任务后就会从HDFS上下载jar包，并启动独立于自己的子进程(MapTask从HDFS读取数据。

10、ReduceTask计算结果并写入到HDFS中)执行任务

注意：这里所谓的心跳机制就是每隔一段时间，NM会向RM回报信息并自动向RM询问申请任务，然后RM就会将元数据信息发送给NM，NM根据元数据信息从HDFS上现在对应的jar包数据并运行。

Hadoop1.0版本中任务执行的详细步骤如下：

Hadoop详解(三)——MapReduce原理和执行过程，远程Debug，Writable序列化接口，MapReduce程序编写_第2张图片

MR执行流程可以概括为以下步骤：

(1).客户端提交一个mr的jar包给JobClient(提交方式：hadoop jar ...)
(2).JobClient通过RPC和JobTracker进行通信，返回一个存放jar包的地址（HDFS）和jobId
(3).client将jar包写入到HDFS当中(path = hdfs上的地址 + jobId)
(4).开始提交任务(任务的描述信息，不是jar, 包括jobid，jar存放的位置，配置信息等等)
(5).JobTracker进行初始化任务
(6).读取HDFS上的要处理的文件，开始计算输入分片，每一个分片对应一个MapperTask
(7).TaskTracker通过心跳机制领取任务（任务的描述信息）
(8).下载所需的jar，配置文件等
(9).TaskTracker启动一个java child子进程，用来执行具体的任务（MapperTask或ReducerTask）
(10).将结果写入到HDFS当中

MapReduce原理

JobTracker 功能是资源分配由它根据机器性能决定在哪台机器上运行几个Mapper和几个Reducer
同时它还进行任务的监控，如果检测到某执行任务的机器宕机了 JobTracker会将该任务进行转移
InputSplit 输入切片一个InputSplit对应一个Mapper
Mapper的任务执行完成后 Mapper的输出会作为Reducer的输入进行运算，Reducer任务完成后会将结果输出到HDFS中。

任务逻辑代码(jar) 上传到HDFS 被物理切分成多个Block
通过记录文件偏移量将任务逻辑切分成多个任务切片(split)
每个TaskSplit对应一个Mapper
Mapper和Reducer和输入输出都是以的形式存在的
Shuffle (****)非常重要主要完成Mapper输出的排序和分组进行合并
框架已经完成了分区排序和分组，如果想实现MapReduce模型，只需重写Map方法和Reduce方法实现具体的业务逻辑即可。

MapReduce相关的类简介：

(一) FIleInputFormat：

FileInputFormat是所有以文件为数据源的InputFormat实现的基类，FileInputFormat保存作为job输入的所有文件，并实现了对输入文件计算splits的方法。至于获得记录的方法是有不同的子类——TextInputFormat进行实现的。

(二) InputFormat：

InputFormat负责处理MR的输入部分。

有三个作用：

① 验证作业的输入是否规范。

② 将输入文件切分成InputSplit。

③ 提供RecordReader的实现类，将InputSplit读到Mapper中进行处理。

(三) InputSplit

① 在执行MapReduce之前，原始数据被切割成若干个split，每个split作为一个map任务的输入，在map执行过程中split会被分解成一个个记录(key-value对)，map会依次处理每一个记录。

② FileInputFormat只划分比HDFS Block大的文件，所以FileInputFormat划分的结果就是这个文件或者是这个文件中的一部分。

③ 如果一个文件的大小比Block小，将不会被划分，这也就是Hadoop处理大文件的效率要比处理很多小文件的效率高的原因。

④ 当Hadoop处理很多小文件(文件大小小于HDFS Block大小)的时候，由于FileInputFormat不会对小文件进行划分，所以每一个小文件都会被当做一个split并分配一个map任务，导致效率低下。

例如：一个G的文件，会被划分成8个128MB的split，并分配8个map任务处理，而10000个100KB的文件会被10000个map任务处理。

(四) TextInputFormat

TextInputFormat是默认的处理类，处理普通文本文件。

文件每一行作为一个记录，它将每一行在文件中的起始偏移量作为key，每一行的内容作为Value。

默认以\n或者回车键作为一行记录

TextInputFormat继承了FileInputFormat

(五)其它输入类

◆ CombineFileInputFormat
相对于大量的小文件来说，hadoop更合适处理少量的大文件。
CombineFileInputFormat可以缓解这个问题，它是针对小文件而设计的。
◆ KeyValueTextInputFormat
当输入数据的每一行是两列，并用tab分离的形式的时候，KeyValueTextInputformat处理这种格式的文件非常适合。
◆ NLineInputformat NLineInputformat可以控制在每个split中数据的行数。
◆ SequenceFileInputformat
当输入文件格式是sequencefile的时候，要使用SequenceFileInputformat作为输入。
(六) 自定义输入格式

1）继承FileInputFormat基类。
2）重写里面的getSplits(JobContext context)方法。
3）重写createRecordReader(InputSplit split,TaskAttemptContext context)方法。
(七) Hadoop的输出

◆ TextOutputformat
默认的输出格式，key和value中间值用tab隔开的。
◆ SequenceFileOutputformat
将key和value以sequencefile格式输出。
◆ SequenceFileAsOutputFormat
将key和value以原始二进制的格式输出。
◆ MapFileOutputFormat
将key和value写入MapFile中。由于MapFile中的key是有序的，所以写入的时候必须保证记录是按key值顺序写入的。
◆ MultipleOutputFormat
默认情况下一个reducer会产生一个输出，但是有些时候我们想一个reducer产生多个输出，MultipleOutputFormat和MultipleOutputs可以实现这个功能。

Hadoop序列化

序列化概念

序列化(Serialization) 是指将结构化对象转化为字节流的过程。

反序列化(Deserization) 是指将字节流转化为结构化对象的过程。

Java序列化(java.io.Serializable)

Hadoop序列化特点

① 紧凑：高效使用存储空间。

② 快速：读取数据时的额外开销小

③ 可扩展：可透明地读取老格式的数据

④ 互操作：支持多语言的交互

Hadoop的序列化格式：Writable

Java序列化的不足：

① 不精简。附加信息多。不大适合随机访问。
② 存储空间大。递归地输出类的超类描述直到不再有超类。序列化图对象，反序列化时为每个对象新建一个实例。相反。Writable对象可以重用。
③ 扩展性差。而Writable方便用户自定义

总结：因为JDK自带的序列化接口序列化对象时需要保存其继承关系，会导致网络传输非常慢
Hadoop有两套序列化机制：一是自己的序列化机制，二是Google提供的Protobuf(protocol buffer)
Hadoop 框架中标已经使用自己的序列化机制对一些类型进行了包装
String —>Text Long—>LongWritable

Hadoop序列化的作用

① 序列化在分布式环境的两大作用：进程间通讯，永久存储。

② Hadoop节点间通讯，如下图所示：

Hadoop详解(三)——MapReduce原理和执行过程，远程Debug，Writable序列化接口，MapReduce程序编写_第4张图片

Writable接口

① Writable接口，是根据 DataInput和 DataOutput实现的简单的、有效的序列化对象。

② MR任意的key和Value必须实现Writable,官方源码如下：

package org.apache.hadoop.io;
import java.io.DataOutput;
import java.io.DataInput;
import java.io.IOException;
import org.apache.hadoop.classification.InterfaceAudience;
import org.apache.hadoop.classification.InterfaceStability;

@InterfaceAudience.Public
@InterfaceStability.Stable
public interface Writable {
   void write(DataOutput out) throws IOException;
   void readFields(DataInput in) throws IOException;
}

③ MR任意的key必须实现WritableComparable接口

官方源码如下：

package org.apache.hadoop.io;
import org.apache.hadoop.classification.InterfaceAudience;
import org.apache.hadoop.classification.InterfaceStability;
@InterfaceAudience.Public
@InterfaceStability.Stable
public interface WritableComparable extends Writable, Comparable {
}

WordCount测试和编写

测试Hadoop自带的wordCount程序

测试运行MapReduce
测试步骤1：首先启动HDFS 再启动Yarn

Hadoop详解(三)——MapReduce原理和执行过程，远程Debug，Writable序列化接口，MapReduce程序编写_第5张图片

测试步骤2：新建一个words文档，内容如下：

Hadoop详解(三)——MapReduce原理和执行过程，远程Debug，Writable序列化接口，MapReduce程序编写_第6张图片

测试步骤3：将words上传到HDFS

测试步骤4：进入到/cloud/hadoop-2.7.4/share/hadoop/mapreduce 使用示例jar进行测试
[root@hadoop1 mapreduce]# hadoop jar hadoop-mapreduce-examples-2.7.4.jar wordcount /word.txt /wcount 其中/word.txt 是输入内容 /wcount是输出内容

测试步骤5：查看输出内容

Hadoop详解(三)——MapReduce原理和执行过程，远程Debug，Writable序列化接口，MapReduce程序编写_第7张图片

分析Wordcount执行过程

Hadoop详解(三)——MapReduce原理和执行过程，远程Debug，Writable序列化接口，MapReduce程序编写_第8张图片

根据执行过程编写WordCount

① 编写Mapper类WCMapper

package liuxun.test.hadoop.mr;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class WCMapper extends Mapper {

	@Override
	protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
		// 接收数据
		String line = value.toString();
		// 切分数据
		String[] words = line.split(" ");
		// 循环
		for (String w : words) {
			// 出现一次，记一个1
			context.write(new Text(w), new LongWritable(1));
		}
		
	}

}

② 编写Reducer类WCReducer

package liuxun.test.hadoop.mr;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class WCReducer extends Reducer {

	@Override
	protected void reduce(Text k2, Iterable v2s, Context context)
			throws IOException, InterruptedException {
		// 接收数据
		Text k3 = k2;  // 这里仍将接收的key作为输出的key
		// 定义一个计数器
		long counter = 0;
		// 循环迭代v2s
		for (LongWritable i : v2s) {
			counter+= i.get();
		}
		// 输出
		context.write(k3, new LongWritable(counter));
	}
}

③ 编写主程序组装Mapper和Reducer

package liuxun.test.hadoop.mr;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
/**
 * 
 * @author liuxun
 * 1.分析具体的业务逻辑，确定输入和输出数据的样式
 * 2.自定义一个类继承自org.apache.hadoop.mapreduce.Mapper类，重写map方法，实现具体业务逻辑，将新的key-Value输出
 * 3.自定义一个类继承自org.apache.hadoop.mapreduce.Reducer类，重写reduce方法，实现具体业务逻辑，将新的key-Value输出
 * 4.将自定义的mapper和reducer通过job对象组装起来
 */
public class WordCount {

	public static void main(String[] args) throws Exception {
		// 构建一个Job对象
		Job job = Job.getInstance(new Configuration());
		
		// 注意：一定要将main方法所在的类设置进去
		job.setJarByClass(WordCount.class);
		
		// 设置Mapper相关属性
		job.setMapperClass(WCMapper.class);
		job.setMapOutputKeyClass(Text.class); //设置Map的输出参数key的类型
		job.setMapOutputValueClass(LongWritable.class); //设置Map输出参数Value的类型
		FileInputFormat.setInputPaths(job, new Path(args[0])); //设置输入的路径
		
		// 设置Reducer相关属性
		job.setReducerClass(WCReducer.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(LongWritable.class);
		FileOutputFormat.setOutputPath(job, new Path(args[1]));
		
		// 提交任务
		// 参数 表示在执行任务的过程中是否打印进程信息
		job.waitForCompletion(true);
	}
}

程序打包并指定主方法，然后将jar包上传至Linux主机，使用命令进行测试

hadoop jar /root/Desktop/WC.jar /words /wcResult

查看运行结果

[root@hadoop0 ~]# hadoop fs -cat /wcResult/part-r-00000
hello 5
jetty 1
kitty 1
tom 2
world 1
注意事项：

① 在编写job进行组装时FileInputFormat需要使用新的接口

org.apache.hadoop.mapred 是过时的老接口
org.apache.hadoop.mapreduce.lib.input 是最新的接口

② 在打包时需要注意：

Hadoop详解(三)——MapReduce原理和执行过程，远程Debug，Writable序列化接口，MapReduce程序编写_第9张图片

如果导出的是Runnable JAR file 运行时才可以使用java -jar
如果导出的是JAR file 运行时hadoop jar
在涉及到Hadoop中Mapper和Reducer自己的逻辑代码进行打包时选择JAR file

③ 打包时尽量指定Main函数所在的类

如果不指定，那么在运行时需要指定Main方法所在类的全路径，格式如下：

hadoop jar <参数>

Maven开发自定义Bean实现MR

日志内容如下：

HTTP_20130313143750.dat

1363157985066 	13726230503	00-FD-07-A4-72-B8:CMCC	120.196.100.82	i02.c.aliimg.com		24	27	2481	24681	200
1363157995052 	13826544101	5C-0E-8B-C7-F1-E0:CMCC	120.197.40.4			4	0	264	0	200
1363157991076 	13926435656	20-10-7A-28-CC-0A:CMCC	120.196.100.99			2	4	132	1512	200
1363154400022 	13926251106	5C-0E-8B-8B-B1-50:CMCC	120.197.40.4			4	0	240	0	200
1363157993044 	18211575961	94-71-AC-CD-E6-18:CMCC-EASY	120.196.100.99	iface.qiyi.com	视频网站	15	12	1527	2106	200
1363157995074 	84138413	5C-0E-8B-8C-E8-20:7DaysInn	120.197.40.4	122.72.52.12		20	16	4116	1432	200
1363157993055 	13560439658	C4-17-FE-BA-DE-D9:CMCC	120.196.100.99			18	15	1116	954	200
1363157995033 	15920133257	5C-0E-8B-C7-BA-20:CMCC	120.197.40.4	sug.so.360.cn	信息安全	20	20	3156	2936	200
1363157983019	13719199419	68-A1-B7-03-07-B1:CMCC-EASY	120.196.100.82			4	0	240	0	200
1363157984041 	13660577991	5C-0E-8B-92-5C-20:CMCC-EASY	120.197.40.4	s19.cnzz.com	站点统计	24	9	6960	690	200
1363157973098 	15013685858	5C-0E-8B-C7-F7-90:CMCC	120.197.40.4	rank.ie.sogou.com	搜索引擎	28	27	3659	3538	200
1363157986029 	15989002119	E8-99-C4-4E-93-E0:CMCC-EASY	120.196.100.99	www.umeng.com	站点统计	3	3	1938	180	200
1363157992093 	13560439658	C4-17-FE-BA-DE-D9:CMCC	120.196.100.99			15	9	918	4938	200
1363157986041 	13480253104	5C-0E-8B-C7-FC-80:CMCC-EASY	120.197.40.4			3	3	180	180	200
1363157984040 	13602846565	5C-0E-8B-8B-B6-00:CMCC	120.197.40.4	2052.flash2-http.qq.com	综合门户	15	12	1938	2910	200
1363157995093 	13922314466	00-FD-07-A2-EC-BA:CMCC	120.196.100.82	img.qfc.cn		12	12	3008	3720	200
1363157982040 	13502468823	5C-0A-5B-6A-0B-D4:CMCC-EASY	120.196.100.99	y0.ifengimg.com	综合门户	57	102	7335	110349	200
1363157986072 	18320173382	84-25-DB-4F-10-1A:CMCC-EASY	120.196.100.99	input.shouji.sogou.com	搜索引擎	21	18	9531	2412	200
1363157990043 	13925057413	00-1F-64-E1-E6-9A:CMCC	120.196.100.55	t3.baidu.com	搜索引擎	69	63	11058	48243	200
1363157988072 	13760778710	00-FD-07-A4-7B-08:CMCC	120.196.100.82			2	2	120	120	200
1363157985066 	13726238888	00-FD-07-A4-72-B8:CMCC	120.196.100.82	i02.c.aliimg.com		24	27	2481	24681	200
1363157993055 	13560436666	C4-17-FE-BA-DE-D9:CMCC	120.196.100.99			18	15	1116	954	200

日志描述如下：

Hadoop详解(三)——MapReduce原理和执行过程，远程Debug，Writable序列化接口，MapReduce程序编写_第10张图片

要求计算出每个手机用户的上行总流量，下行总流量和总流量。

需要自定义Bean实现

安装Maven插件 http://blog.csdn.net/u013087513/article/details/71716667

① 在Eclipse下新建maven project，如果出错，在当前项目的pom.xml中添加如下内容，刷新即可（需要有网络）

 
	
      org.apache.maven.plugins
      maven-resources-plugin
      2.4.3

② HDFS程序需要引入如下依赖


	
	  junit
	  junit
	  4.8.2
	  test
	

	
		org.apache.hadoop
		hadoop-common
		2.4.1
	

	
		org.apache.hadoop
		hadoop-hdfs
		2.4.1

③mr程序需要引入依赖：


	
		junit
		junit
		4.8.2
		test
	

	
		org.apache.hadoop
		hadoop-common
		2.4.1
	

	
		org.apache.hadoop
		hadoop-mapreduce-client-core
		2.4.1

开始程序的编写

一、自定义Bean DataBean实现Writable接口

package liuxun.hadoop.mr.dc;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

import org.apache.hadoop.io.Writable;

public class DataBean implements Writable {

	private String tel;

	private long upPayLoad;

	private long downPayLoad;

	private long totalPayLoad;

	public DataBean() {
	}

	public DataBean(String tel, long upPayLoad, long downPayLoad) {
		this.tel = tel;
		this.upPayLoad = upPayLoad;
		this.downPayLoad = downPayLoad;
		this.totalPayLoad = upPayLoad + downPayLoad;
	}

	@Override
	public String toString() {
		return this.upPayLoad + "\t" + this.downPayLoad + "\t" + this.totalPayLoad;
	}

	public void readFields(DataInput in) throws IOException {
		this.tel = in.readUTF();
		this.upPayLoad = in.readLong();
		this.downPayLoad = in.readLong();
		this.totalPayLoad = in.readLong();

	}

	// 注意两点：写入的顺序和写入的类型
	public void write(DataOutput out) throws IOException {
		out.writeUTF(tel);
		out.writeLong(upPayLoad);
		out.writeLong(downPayLoad);
		out.writeLong(totalPayLoad);
	}

	public String getTel() {
		return tel;
	}

	public void setTel(String tel) {
		this.tel = tel;
	}

	public long getUpPayLoad() {
		return upPayLoad;
	}

	public void setUpPayLoad(long upPayLoad) {
		this.upPayLoad = upPayLoad;
	}

	public long getDownPayLoad() {
		return downPayLoad;
	}

	public void setDownPayLoad(long downPayLoad) {
		this.downPayLoad = downPayLoad;
	}

	public long getTotalPayLoad() {
		return totalPayLoad;
	}

	public void setTotalPayLoad(long totalPayLoad) {
		this.totalPayLoad = totalPayLoad;
	}

}

二、编写MapReduce程序使用job进行组装

DataCount

package liuxun.hadoop.mr.dc;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class DataCount {

	public static class DCMapper extends Mapper{

		@Override
		protected void map(LongWritable key, Text value, Context context)
				throws IOException, InterruptedException {
			//accept 
			String line = value.toString();
			//split
			String[] fields = line.split("\t");
			String tel = fields[1];
			long up = Long.parseLong(fields[8]);
			long down = Long.parseLong(fields[9]);	
			DataBean bean = new DataBean(tel, up, down);
			//send
			context.write(new Text(tel), bean);
		}
		
	}
	
	public static class DCReducer extends Reducer{

		@Override
		protected void reduce(Text key, Iterable values, Context context)
				throws IOException, InterruptedException {
			long up_sum = 0;
			long down_sum = 0;
			for(DataBean bean : values){
				up_sum += bean.getUpPayLoad();
				down_sum += bean.getDownPayLoad();
			}
			DataBean bean = new DataBean("", up_sum, down_sum);
			context.write(key, bean);
		}
		
		
	}
	
	
	public static void main(String[] args) throws Exception {
		Configuration conf = new Configuration();
		Job job = Job.getInstance(conf);
		
		job.setJarByClass(DataCount.class);
		
		job.setMapperClass(DCMapper.class);
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(DataBean.class);
		FileInputFormat.setInputPaths(job, new Path(args[0]));
		
		job.setReducerClass(DCReducer.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(DataBean.class);
		FileOutputFormat.setOutputPath(job, new Path(args[1]));
		
		job.waitForCompletion(true);
		
	}
	

}

打包上传测试运行最后查看运行结果

Hadoop详解(三)——MapReduce原理和执行过程，远程Debug，Writable序列化接口，MapReduce程序编写_第11张图片

Hadoop远程Debug

注意：
如果没有打包在Linux上运行，而是在Eclipse上调试运行是按本地模式启动的只会启动一个Mapper和一个Reducer 看不到真正的集群效果
JPDA 简介
Sun Microsystem 的 Java Platform Debugger Architecture (JPDA) 技术是一个多层架构，使您能够在各种环境中轻松调试 Java 应用程序。JPDA 由两个接口（分别是 JVM Tool Interface 和 JDI）、一个协议（Java Debug Wire Protocol）和两个用于合并它们的软件组件（后端和前端）组成。它的设计目的是让调试人员在任何环境中都可以进行调试。
更详细的介绍，可以参考使用 Eclipse 远程调试 Java 应用程序
JDWP 设置
JVM本身就支持远程调试，Eclipse也支持JDWP，只需要在各模块的JVM启动时加载以下参数：
dt_socket表示使用套接字传输。
address=8000
JVM在8000端口上监听请求，这个设定为一个不冲突的端口即可。
server=y
y表示启动的JVM是被调试者。如果为n，则表示启动的JVM是调试器。
suspend=y
y表示启动的JVM会暂停等待，直到调试器连接上才继续执行。suspend=n，则JVM不会暂停等待。

需要在$HADOOP_HOME/etc/hadoop/hadoop-env.sh文件的最后添加需要debug的进程
#远程调试namenode
export HADOOP_NAMENODE_OPTS="-agentlib:jdwp=transport=dt_socket,address=8888,server=y,suspend=y"
#远程调试datanode
export HADOOP_DATANODE_OPTS="-agentlib:jdwp=transport=dt_socket,address=9888,server=y,suspend=y"
#远程调试RM
export YARN_RESOURCEMANAGER_OPTS="-agentlib:jdwp=transport=dt_socket,address=10888,server=y,suspend=y"
#远程调试NM
export YARN_NODEMANAGER_OPTS="-agentlib:jdwp=transport=dt_socket,address=10888,server=y,suspend=y"

测试：

单个启动： daemon 守护进程，后台程序
hadoop-daemon.sh start namenode
hadoop-daemon.sh start datanode
测试案例：测试NameNode和DataNode
编辑$HADOOP_HOME/etc/hadoop/hadoop-env.sh 添加如下配置
#远程调试namenode
export HADOOP_NAMENODE_OPTS="-agentlib:jdwp=transport=dt_socket,address=8888,server=y,suspend=y"
#远程调试datanode
export HADOOP_DATANODE_OPTS="-agentlib:jdwp=transport=dt_socket,address=9888,server=y,suspend=y"
单个启动：

Hadoop详解(三)——MapReduce原理和执行过程，远程Debug，Writable序列化接口，MapReduce程序编写_第12张图片

然后在Eclipse中Ctrl+shift+t（Mac上是command+shift+t）查找NameNode
然后关联源码：再使用command+o 查找Main方法

选中main方法名右键Debug as—>Debug Configurations

然后在弹窗内使用Remote Java Application

Hadoop详解(三)——MapReduce原理和执行过程，远程Debug，Writable序列化接口，MapReduce程序编写_第13张图片

在SecureCRT 输入jps 发现 NameNode已经启动了

注意：Debug时如果不打断点直接就运行了是不会停住的
接下来断点调试DataNode
在main方法中打断点

Hadoop详解(三)——MapReduce原理和执行过程，远程Debug，Writable序列化接口，MapReduce程序编写_第14张图片

以下步骤上同

Hadoop详解(三)——MapReduce原理和执行过程，远程Debug，Writable序列化接口，MapReduce程序编写_第15张图片

然后apply ， debug 就OK了

Hadoop详解(三)——MapReduce原理和执行过程，远程Debug，Writable序列化接口，MapReduce程序编写_第16张图片

远程调试一般在分布式上用的最多。
例如在Eclipse调试时普通调试只能调试客户端的代码，当通过RPC协议与云主机上的Server进行通讯时，即使导入全部的源码也无法走到服务器端的程序，因为当与服务器交互时走的是服务器上的程序。只有通过远程调试才可进入Server端程序进行查看。
远程调试技巧：
客户端与服务端进行交互一般都是通过某种协议进行通讯，例如Hadoop是通过RPC通讯的。共同点是服务端和实现了协议接口，客户端通过协议接口代理服务端的程序，调用协议中的方法，进行通讯。
首先找到通讯的协议接口查找协议接口的实现类(协议接口的实现是服务器端实现的)
在需要调试的部分查找客户端调用的是协议接口中的哪个方法，选中右键查看其方法的实现
然后打上断点调试即可。

分享一个基于Spark的招聘数据可视化与分析系统Hadoop大数据源码（源码、调试、LW、开题、PPT）计算机源码社大数据大数据 spark 毕业设计项目计算机毕业设计源码计算机毕设论文 hadoop 计算机课程设计
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|基
Hadoop大数据实战系列文章之Hive 测试帮日记
hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，Hive定义了简单的类SQL查询语言，称为HQL，它允许熟悉SQL的用户查询数据可以将sql语句转换为MapReduce任务进行运行，不必开发专门的MapReduce。毕竟会写SQL的人比写JAVA的人多，这样可以让一大批运营人员直接获取海量数据。在数据仓库建设中，HIVE灵活易用且
Hadoop 大数据技术原理与应用 kk8_ hadoop 大数据 hdfs
Hadoop大数据技术原理与应用大数据概述定义特征大量，多样，高速，价值研究意义应用场景医疗，金融，零售Hadoop概述历史优势扩容能力强，成本低，高效率，可靠性，高容错Hadoop生态分布式存储系统（HDFS）分布式计算框架（MapReduce）资源管理（YARN）数据迁移（Sqoop）数据挖掘算法库（Mahout）分布式数据库（HBase）分布式协调服务（Zookeeper）数据仓库（Hive
Hadoop大数据原理(3) - 分布式计算框架MapReduce 小爱玄策大数据技术 hadoop mapreduce big data
文章目录1.大数据的通用计算2MapReduce编程模型3.MapReduce计算框架3.1三类关键进程大数据应用进程JobTracker进程TaskTracker进程3.2作业启动和运行机制3.3数据合并与连接机制shuffle的过程1.大数据的通用计算 Hadoop出现前就已经有了分布式计算，那个时候的分布式计算是专用的系统，只能专门处理某一类计算，比如进行大规模数据的排序。这样的系统无法复
Hadoop大数据技术有什么市场价值？2019年Hadoop大数据技术7大应用领域金光闪闪耶
由于国家对大数据、AI等等技术的关注，在多次发展规划中都提高了大数据技术，因此大数据技术对于这个时代的发展来说至关重要，大数据也正处于发展期、巩固期，基于已有的技术去完善和不断的发展大数据技术产品，满足互联网不符按发在的需求，使国家的技术产业得到进步和发展。大数据已经成长为时代发展的标志，在各大行业机领域都拥有其应用，今天小编就带着大家一起了解一下，大数据技术到底带来了什么？大数据技术是如何发挥自
大数据平台的硬件规划、网络调优、架构设计、节点规划小枫@码大数据架构师大数据
1.大数据平台硬件选型要对Hadoop大数据平台进行硬件选型，首先需要了解Hadoop的运行架构以及每个角色的功能。在一个典型的Hadoop架构中，通常有5个角色，分别是NameNode、StandbyNameNode、ResourceManager、NodeManager、DataNode以及外围机。其中NameNode负责协调集群上的数据存储，StandbyNameNode属于NameNode
【项目实战】基于Hadoop大数据电商平台用户行为分析与可视化系统Hive、Spark计算机程序开发 Q2643365023 项目大数据 hadoop 大数据 hive
注意：该项目只展示部分功能，如需了解，评论区咨询即可。本文目录1设计背景2设计意义3系统展示3.1页面展示3.2视频展示4更多推荐5部分功能代码1设计背景在当今数字化时代，电商行业成为全球商业生态系统的关键组成部分，电商平台已经深入各行各业，影响了人们的购物方式和消费习惯。随着互联网技术的不断发展，电商平台产生了大量的用户数据，包括点击、购买、搜索、浏览历史等行为数据。这些数据蕴含着宝贵的商业洞察
HADOOP大数据之HDFS管理与运维奋斗的韭菜汪
一、HDFS数据迁移解决方案HDFS分布式拷贝工具DistCp数据迁移使用场景：冷热集群数据同步、分类存储集群数据整体搬迁数据的准实时同步数据迁移要素考量带宽性能是否支持增量同步4、数据迁移的同步性image.pngDistCp是Hadoop中的一种工具，在hadoop-tools工程下，作为独立子工程存在定位用于数据迁移，定期在集群之间和集群内部备份数据在备份过程中，每次运行DistCp都称为一
基于Hadoop的网上购物行为大数据分析及预测系统【flask+echarts+机器学习】前后端交互王小王-123 hadoop flask 网上购物行为分析 Hadoop大数据淘宝 Hadoop系统
有需要本项目或者部署的系统可以私信博主，提供远程部署和讲解本研究基于淘宝用户行为的开源数据展开大数据分析研究，通过Hadoop大数据分析平台对阿里天池公开的开源数据集进行多维度的用户行为分析，为电商销售提供可行性决策。首先我们将大数据集上传到Hadoop中的HDFS存储，之后利用Hadoop的Flume组件，配置好自动加载数据的环境，将数据加载到hive数据库中进行大数据分析。通过对常见的电商指标
【学习笔记】尚硅谷Hadoop大数据教程笔记棉花糖灬大数据大数据 hadoop MapReduce yarn hdfs
本文是尚硅谷Hadoop教程的学习笔记，由于个人的需要，只致力于搞清楚Hadoop是什么，它可以解决什么问题，以及它的原理是什么。至于具体怎么安装、使用和编写代码不在我考虑的范围内。一、Hadoop入门大数据的特点：Volume（大量）Velocity（高速）Variety（多样）Value（低价值密度）1.Hadoop概念是一个分布式系统基础架构2.Hadoop优势高可靠高扩展性高效性高容错性3
《Hadoop大数据技术原理与运用》知识点总结呆小黎大数据 hadoop 数据库分布式
Hadoop学习过程中的一些笔记参考书籍《Hadoop大数据技术原理与应用》清华大学出版社黑马程序员/编著1.什么是大数据？大数据的四个特征是什么？答：一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合具有海量数据规模、快速数据流转、多样数据类型一级价值密度四大特征。2.另外，在Hadoop架构里面，元数据的含义是什么？答：文件的大小、位置、权限3.本书里面使用
大数据开发个人简历范本（2024最新版-附模板） itLeeyw 简历怎么写大数据简历简历工具个人简历简历模板
大数据开发工程师个人简历范本>男22本科张三计算机科学与技术1234567890个人概述具备深入的Hadoop大数据运维工程师背景，熟悉相关技术和工具具备良好的团队合作能力，善于沟通和协作具有快速学习新知识和解决问题的能力对于数据科学和分析充满热情，喜欢研究和探索新技术专业技能大数据熟悉Hadoop、Spark、Hive等大数据技术栈，具有实际项目经验数据库熟悉MySQL、MongoDB等数据库系
Hadoop大数据生态系统及常用组件简介 669生活大数据编程语言人工智能大数据程序员编程语言 hadoop
经过多年信息化建设，我们已经进入一个神奇的“大数据”时代，无论是在通讯社交过程中使用的微信、QQ、电话、短信，还是吃喝玩乐时的用到的团购、电商、移动支付，都不断产生海量信息数据，数据和我们的工作生活密不可分、须臾难离。什么是大数据什么是大数据，多大算大，100G算大么?如果是用来存储1080P的高清电影，也就是几部影片的容量。但是如果100G都是文本数据，比如我们的后端kafka里的数据，抽取一条
【2023Hadoop大数据技术应用期末复习】填空题题型整理 Lacszer 大数据
大数据的4V特征包含（）（）（）（）答案：大量、多样、高速、价值Hadoop三大组件包含（）（）（）答案：HDFS、MapReduce、YarnHadoop2.x版本中的HDFS是由（）（）（）组成答案：NameNode、DataNode、SecondaryNameNodeHadoop发行版本分为答案：开源社区版、商业版目前Hadoop发布的版本主要有（）（）（）答案：Hadoop1.x、Hado
【2023Hadoop大数据技术应用期末复习】选择题题型整理 Lacszer 大数据
文章目录单选题多选题单选题创建虚拟机的过程中，网络类型建议选择？A.使用桥接网络B.使用网络地址转换（NAT）C.使用仅主机模式网路D.不适用网路连接答案：B使用什么命令对jdk压缩包解压？A.tar-zxvfjdk-8u141-linux-x64.tar.gzB.zip-zxvfjdk-8u141-linux-x64.tar.gzC.uzipjdk-8u141-linux-x64.tar.gzD
Hadoop大数据实战系列文章之HDFS文件系统测试帮日记
Hadoop附带了一个名为HDFS(Hadoop分布式文件系统)的分布式文件系统，专门存储超大数据文件，为整个Hadoop生态圈提供了基础的存储服务。本章内容：1)HDFS文件系统的特点，以及不适用的场景2)HDFS文件系统重点知识点：体系架构和数据读写流程3)关于操作HDFS文件系统的一些基本用户命令1.HDFS特点：HDFS专为解决大数据存储问题而产生的，其具备了以下特点：1)HDFS文件系统
基于Hadoop大数据的物资数据可视化分析系统晨曦编程 python实战项目大数据 hadoop 分布式 1024程序员节 spark 课程设计 python
大家可以帮忙点赞、收藏、关注、评论啦精彩专栏推荐订阅：在下方专栏JAVA实战项目文章目录JAVA实战项目一、项目介绍二、开发环境三、项目展示-基于Hadoop大数据的物资数据可视化分析系统四、代码展示五、项目总结大家点赞、收藏、关注、有问题都可留言交流一、项目介绍一、背景随着经济的快速发展，人类社会面临着诸多挑战，其中之一便是。这一问题的存在已经严重影响到社会各个领域的发展，因此，解决这一问题是当
hadoop大数据学习笔记驰宇爱吃鱼学习笔记大数据 hadoop 学习
一、Hadoop的作用本质来说hadoop的作用是在多计算机集群环境中营造一个统一而稳定的存储和计算环境，并能为其他分布式应用服务提供平台支持。或者说将多台计算机组织成了一台计算机，让他们做同一件事，在这其中HDFS就相当于这台计算机的硬盘，而MapReduce就是这台计算机的CPU控制器。二、Hadoop环境部署按着正常来说我们想要部署Hadoop集群需要把相同的软件部署到众多计算机上，实际学习
DKhadoop大数据平台基础框架方案概述 yoku酱
大数据作为当下最为热门的事件之一，其实已经不算是很新鲜的事情了。如果是三五年前在讨论大数据，那可能会给人一种很新鲜的感觉。大数据作为当下最为重要的一项战略资源，已经是越来越得到国家和企业的高度重视，我们从大数据被上升到国家战略层面就可窥见一二！现在关于大数据的知识分享可以说已经是铺天盖地了，作为新手入门想查询的信息基本都可以通过网络查询到一些。我对的大数据的了解其实也不是特别丰富，毕竟学习的时间也
Hadoop大数据集群搭建（超详细）小飞飞V5 大数据Hadoop hadoop
使用了几个学期的实验手册，应该没有啥大问题了，现在分享给大家，希望对你学习hadoop有用实验环境：Vmwareworkstation+CentOS7+Hadoop3.1.3目录第一步：安装虚拟机第二步：虚拟机克隆第三步：网络配置第四步：ssh服务配置第五步：安装JDK第六步：安装Hadoop第七步：Hadoop集群配置第八步：格式化文件系统第九步：启动和关闭hadoop集群第十步：通过UI界面查
大数据开发：Hbase集群安装配置入门成都加米谷大数据
作为Hadoop大数据生态的重要组件，Hbase的学习是非常重要的一块，Hbase作为Hadoop生态原生支持的数据库，基于列式存储，能够承载规模庞大的数据存储需求任务。今天的大数据开发学习分享，我们就主要来讲讲Hbase集群安装配置入门。一、搭建集群环境1、解压文件tar-zxvfhbase-1.3.1-bin.tar.gz2、配置环境变量vim/etc/profileexportHBASE_H
在centos7上搭建hadoop大数据平台船长灬普朗克大数据 hadoop 大数据 java
目录一、安装搭建java环境1、安装方法2、查看是否已安装3、卸载4、安装4.1检查yum中有没有java1.8包4.2开始安装5、验证二、Hadoop安装1、下载2、准备启动Hadoop集群2.1配置Hadoop守护进程的环境2.2配置系统环境变量2.3配置etc/hadoop/core-site.xml文件2.4配置etc/hadoop/hdfs-site.xml文件2.5配置etc/hado
Hadoop大数据开发__Spark on YARN模式分布式集群安装部署姚华军大数据大数据 hadoop spark Spark on YARN YARN
1、下载解压sparkcd/home/hadoop/apptar-zxvfspark-3.3.0-bin-hadoop3.tgzrmspark-3.3.0-bin-hadoop3.tgzln-sspark-3.3.0-bin-hadoop3spark2、修改spark-env.shcd/home/hadoop/app/spark/confvispark-env.sh#追加下面的路径HADOOP_C
HADOOP大数据之HDFS数据安全与隐私保护奋斗的韭菜汪
HDFSTrash垃圾桶功能概述HDFSTrash机制，叫做回收站或者垃圾桶。Trash就像Windows操作系统中的回收站一样。它的目的是防止你无意中删除某些东西。默认情况下是不开启的。启用ITrash功能后，从HDFS中删除某些内容时，文件或目录不会立即被清除，它们将被移动到回收站Current目录中(/user/$(username}/.Trash/current)。.Trash中的文件在用
cdh亲测2022/11/12 Tian.Mrs 大数据 hadoop spark
一、Hadoop大数据平台1、Hadoop发行版(1)完全开源的原生的ApacheHadoop(2)Cloudera与Hortonworks公司的CDH和HDP：在Cloudera和Hortonworks合并后，Cloudera公司推出了新一代的数据平台产品CDPDataCenter（以下简称为CDP），从2021年1月31日开始，所有Cloudera软件都需要有效的订阅，并且只能通过付费墙进行访
CDH6安装教程(亲自测试越坑版) inrgihc Hadoop big data hadoop spark
一、Hadoop大数据平台1、Hadoop发行版(1)完全开源的原生的ApacheHadoop(2)Cloudera与Hortonworks公司的CDH和HDP：在Cloudera和Hortonworks合并后，Cloudera公司推出了新一代的数据平台产品CDPDataCenter（以下简称为CDP），从2021年1月31日开始，所有Cloudera软件都需要有效的订阅，并且只能通过付费墙进行访
hadoop@bigdate-VirtualBox:/mnt/shared$ tar -xzvf hadoop-2.10.2.tar.gz tar (child): hadoop-2.10.2.tar 北辰Charih 大数据挖掘 hadoop 大数据分布式
在virtualbox的ubuntu虚拟机上使用共享文件夹安装hadoop大数据软件在在virtualbox的ubuntu虚拟机上设置共享文件夹步骤：1.设置共享文件夹自行设定共享文件夹路径以及名称，记得勾选自动挂载（A），运行虚拟机的时候才会自动加载该文件夹。小提示：我按和下面连接的教程差不多的步骤安装配置VM虚拟机Ubuntu系统https://blog.csdn.net/duchenlong
Hadoop大数据学习线路图-单篇 doers123 hadoop hadoop
入门知识对于我们新手入门学习hadoop的朋友来说，首先了解一下云计算和云计算技术是有必要的。下面先是介绍云计算和云计算技术的：云计算，是一种基于互联网的计算方式，通过这种方式，共享的软硬件资源和信息可以按需求提供给计算机和其他设备，主要是基于互联网的相关服务地增加、使用和交付模式，通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电信
《大数据时代》读书笔记 Lucia夏天呀
其实是很久很久之前就应该看的一本书，放在“想读”中，最近终于花了几天时间看完。作者在文中的观点集中在五个方面：一、大数据带来公共卫生、商业、思维的变革，开启重大的时代转型，而预测是大数据的核心作者举了谷歌预测流感的快速有效性、机票价格趋势预测网站这两个例子。介绍了随之而来的hadoop大数据处理技术，同时通过各行业的例子说明了当今时代，数据增速超过以往任何一个时代，海量数据将会最终产生质变，改变这
毕设分享基于hadoop大数据教育可视化系统(源码+论文) 毕设算法家大数据 hadoop python 毕业设计数据分析
0简介今天学长向大家介绍一个机器视觉的毕设项目毕设分享基于hadoop大数据教育可视化系统(源码+论文)项目获取：https://gitee.com/sinonfin/algorithm-sharing基于hadoop和echarts的教育大数据可视化系统一、摘要在线教育平台现在是教育体系的重要组成部分，在当前大数据时代的背景下，促进教育机构建立统一平台、统一资源管理的数字化教学系统。如何评估系统
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_