cloudeagle_bupt

Hadoop DistributedCache使用及原理

转自:http://hpuxtbjvip0.blog.163.com/blog/static/3674131320132794940734/

概览

DistributedCache是一个提供给Map/Reduce框架的工具，用来缓存文件（text, archives, jars and so on）文件的默认访问协议为(hdfs://).

DistributedCache将拷贝缓存的文件到Slave节点在任何Job在节点上执行之前。

文件在每个Job中只会被拷贝一次，缓存的归档文件会被在Slave节点中解压缩。

符号链接

每个存储在HDFS中的文件被放到缓存中后都可以通过一个符号链接使用。

URI hdfs://namenode/test/input/file1#myfile你可以在程序中直接使用myfile来访问file1这个文件。myfile是一个符号链接文件。

缓存在本地的存储目录

<name>mapred.local.dir</name>

<value>${hadoop.tmp.dir}/mapred/local</value>

<description>The local directory where MapReduce stores intermediate

data files.May be a comma-separated list of

directories on different devices in order to spread disk i/o.

Directories that do not exist are ignored.

</description>

</property>

<name>local.cache.size</name>

<value>10737418240</value>（默认大小：10GB）

<description>The limit on the size of cache you want to keep, set by default

to 10GB. This will act as a soft limit on the cache directory for out of band data.

</description>

</property>

实际在DataNode节点中的存储目录：

/netqin/hadoop/tmp{${hadoop.tmp.dir}}/mapred/local/taskTracker/archive/hadoop-server01{NameNode主机名称}

Archive文件会被解压缩

例子

packagecom.netqin.examples;

importjava.io.BufferedReader;

importjava.io.FileReader;

importjava.io.IOException;

importjava.net.URI;

importjava.util.StringTokenizer;

importorg.apache.hadoop.conf.Configuration;

importorg.apache.hadoop.filecache.DistributedCache;

importorg.apache.hadoop.fs.Path;

importorg.apache.hadoop.io.IntWritable;

importorg.apache.hadoop.io.Text;

importorg.apache.hadoop.mapreduce.Job;

importorg.apache.hadoop.mapreduce.Mapper;

importorg.apache.hadoop.mapreduce.Reducer;

importorg.apache.hadoop.mapreduce.lib.input.FileInputFormat;

importorg.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

importorg.apache.hadoop.util.GenericOptionsParser;

publicclassCacheDemo {

publicstaticvoidUseDistributedCacheBySymbolicLink()throwsException {

FileReader reader =newFileReader("hdfs://mail.py");

BufferedReader br =newBufferedReader(reader);

String s =null;

while((s = br.readLine()) !=null) {

System.out.println(s);

}

br.close();

reader.close();

}

publicstaticclassTokenizerMapperextends

Mapper<Object, Text, Text, IntWritable> {

privatefinalstaticIntWritableone=newIntWritable(1);

privateTextword=newText();

protectedvoidsetup(Context context)throwsIOException,

InterruptedException {

System.out.println("Now, use the distributed cache and syslink");

try{

UseDistributedCacheBySymbolicLink();

}catch(Exception e) {

e.printStackTrace();

}

publicvoidmap(Object key, Text value, Context context)

throwsIOException, InterruptedException {

StringTokenizer itr =newStringTokenizer(value.toString());

while(itr.hasMoreTokens()) {

word.set(itr.nextToken());

context.write(word,one);

}

publicstaticclassIntSumReducerextends

Reducer<Text, IntWritable, Text, IntWritable> {

privateIntWritableresult=newIntWritable();

publicvoidreduce(Text key, Iterable<IntWritable> values,

Context context)throwsIOException, InterruptedException {

intsum = 0;

for(IntWritable val : values) {

sum += val.get();

}

result.set(sum);

context.write(key,result);

}

publicstaticvoidmain(String[] args)throwsException {

Configuration conf =newConfiguration();

String[] otherArgs =newGenericOptionsParser(conf, args)

.getRemainingArgs();

if(otherArgs.length!= 2) {

System.err.println("Usage: wordcount <in> <out>");

System.exit(2);

}

DistributedCache.createSymlink(conf);

String path ="/tmp/test/mail.py";

Path filePath =newPath(path);

String uriWithLink = filePath.toUri().toString() +"#"+"mail.py";

DistributedCache.addCacheFile(newURI(uriWithLink), conf);

// Path p = new Path("/tmp/hadoop-0.20.2-capacity-scheduler.jar#hadoop-0.20.2-capacity-scheduler.jar");

// DistributedCache.addArchiveToClassPath(p, conf);

Job job =newJob(conf,"CacheDemo");

job.setJarByClass(CacheDemo.class);

job.setMapperClass(TokenizerMapper.class);

job.setCombinerClass(IntSumReducer.class);

job.setReducerClass(IntSumReducer.class);

job.setOutputKeyClass(Text.class);

job.setOutputValueClass(IntWritable.class);

FileInputFormat.addInputPath(job,newPath(otherArgs[0]));

FileOutputFormat.setOutputPath(job,newPath(otherArgs[1]));

System.exit(job.waitForCompletion(true) ? 0 : 1);

}

=========

DistributedCache

DistributedCache可将具体应用相关的、大尺寸的、只读的文件有效地分布放置。

DistributedCache是Map/Reduce框架提供的功能，能够缓存应用程序所需的文件（包括文本，档案文件，jar文件等）。

应用程序在JobConf中通过url(hdfs://)指定需要被缓存的文件。DistributedCache假定由hdfs://格式url指定的文件已经在FileSystem上了。

Map-Redcue框架在作业所有任务执行之前会把必要的文件拷贝到slave节点上。它运行高效是因为每个作业的文件只拷贝一次并且为那些没有文档的slave节点缓存文档。

DistributedCache根据缓存文档修改的时间戳进行追踪。在作业执行期间，当前应用程序或者外部程序不能修改缓存文件。

distributedCache可以分发简单的只读数据或文本文件，也可以分发复杂类型的文件例如归档文件和jar文件。归档文件(zip,tar,tgz和tar.gz文件)在slave节点上会被解档（un-archived）。这些文件可以设置执行权限。

用户可以通过设置mapred.cache.{files|archives}来分发文件。如果要分发多个文件，可以使用逗号分隔文件所在路径。也可以利用API来设置该属性：DistributedCache.addCacheFile(URI,conf)/DistributedCache.addCacheArchive(URI,conf)andDistributedCache.setCacheFiles(URIs,conf)/DistributedCache.setCacheArchives(URIs,conf)其中URI的形式是hdfs://host:port/absolute-path#link-name在Streaming程序中，可以通过命令行选项-cacheFile/-cacheArchive分发文件。

用户可以通过DistributedCache.createSymlink(Configuration)方法让DistributedCache在当前工作目录下创建到缓存文件的符号链接。或者通过设置配置文件属性mapred.create.symlink为yes。分布式缓存会截取URI的片段作为链接的名字。例如，URI是hdfs://namenode:port/lib.so.1#lib.so，则在task当前工作目录会有名为lib.so的链接，它会链接分布式缓存中的lib.so.1。

DistributedCache可在map/reduce任务中作为一种基础软件分发机制使用。它可以被用于分发jar包和本地库（native libraries）。DistributedCache.addArchiveToClassPath(Path, Configuration)和DistributedCache.addFileToClassPath(Path, Configuration)API能够被用于缓存文件和jar包，并把它们加入子jvm的classpath。也可以通过设置配置文档里的属性mapred.job.classpath.{files|archives}达到相同的效果。缓存文件可用于分发和装载本地库。

http://www.open-open.com/lib/view/open1337349822015.html

Hadoop有一个叫做分布式缓存(distributed cache)的机制来将数据分发到集群上的所有节点上。为了节约网络带宽，在每一个作业中，各个文件通常只需要复制到一个节点一次。

缓存文件复制位置：mapred-site.xml中

<name>mapred.local.dir</name>

<value>/home/hadoop/tmp</value>

</property>

操作步骤：

1.将数据的分发到每个节点上：

DistributedCache.addCacheFile(new URI("hdfs://cloud01:9000/user/hadoop/mrinput/ST.txt"), conf);

注意，此操作一定要在创建Job，将conf传递给Job之前进行，否则数据文件的路径不会被Mapper中取到。

2.在每个Mapper中获取文件URI，再进行相关操作：

URI[] uris=DistributedCache.getCacheFiles(context.getConfiguration());

比如读取该文件：

FileSystem fs = FileSystem.get(URI.create("hdfs://cloud01:9000"), context.getConfiguration());

　　FSDataInputStream in = null;

　　in = fs.open(new Path(uris[0].getPath()));

　　BufferedReader br=new BufferedReader(new InputStreamReader(in));

hadoop中的DistributedCache 2

WordCount.javaHadoop的分布式缓存机制使得一个job的所有map或reduce可以访问同一份文件。在任务提交后，hadoop将由-files和-archive选项指定的文件复制到HDFS上（JobTracker的文件系统）。在任务运行前，TaskTracker从JobTracker文件系统复制文件到本地磁盘作为缓存，这样任务就可以访问这些文件。对于job来说，它并不关心文件是从哪儿来的。在使用DistributedCache时，对于本地化文件的访问，通常使用Symbolic Link来访问，这样更方便。通过URI hdfs://namenode/test/input/file1#myfile指定的文件在当前工作目录中被符号链接为myfile。这样job里面可直接通过myfile来访问文件，而不用关心该文件在本地的具体路径。

示例如下：

 
     packageorg.myorg; 
     
     importjava.io.BufferedReader; 
     
     importjava.io.FileReader; 
     
     importjava.io.IOException; 
     
     importjava.net.URI; 
     
     importjava.util.StringTokenizer; 
     
     importjava.io.IOException; 
     
     importjava.util.*; 
     
     importorg.apache.hadoop.filecache.DistributedCache; 
     
     importorg.apache.hadoop.fs.Path; 
     
     importorg.apache.hadoop.conf.*; 
     
     importorg.apache.hadoop.io.*; 
     
     importorg.apache.hadoop.mapred.*; 
     
     importorg.apache.hadoop.util.*; 
     
     public 
     classWordCount 
     
 { 
     
     public 
     static 
     voidUseDistributedCacheBySymbolicLink() 
     throwsException 
     
 { 
     
 FileReaderreader= 
     newFileReader("god.txt"); 
     
 BufferedReaderbr= 
     newBufferedReader(reader); 
     
 Strings1= 
     null; 
     
     while((s1=br.readLine())!= 
     null) 
     
 { 
     
 System.out.println(s1); 
     
 } 
     
 br.close(); 
     
 reader.close(); 
     
 } 
     
     public 
     static 
     classMap 
     extendsMapReduceBase 
     implementsMapper<LongWritable,Text,Text,IntWritable> 
     
 { 
     
     public 
     voidconfigure(JobConfjob) 
     
 { 
     
 System.out.println("Now,usethedistributedcacheandsyslink"); 
     
     try{ 
     
 UseDistributedCacheBySymbolicLink(); 
     
 } 
     
     catch(Exceptione) 
     
 { 
     
 e.printStackTrace(); 
     
 } 
     
 } 
     
     private 
     final 
     staticIntWritableone= 
     newIntWritable(1); 
     
     privateTextword= 
     newText(); 
     
     public 
     voidmap(LongWritablekey,Textvalue,OutputCollector<Text,IntWritable>output,Reporterreporter) 
     throwsIOException 
     
 { 
     
 Stringline=value.toString(); 
     
 StringTokenizertokenizer= 
     newStringTokenizer(line); 
     
     while(tokenizer.hasMoreTokens()) 
     
 { 
     
 word.set(tokenizer.nextToken()); 
     
 output.collect(word,one); 
     
 } 
     
 } 
     
 } 
     
     public 
     static 
     classReduce 
     extendsMapReduceBase 
     implementsReducer<Text,IntWritable,Text,IntWritable> 
     
 { 
     
     public 
     voidreduce(Textkey,Iterator<IntWritable>values,OutputCollector<Text,IntWritable>output,Reporterreporter) 
     throwsIOException 
     
 { 
     
     intsum=0; 
     
     while(values.hasNext()) 
     
 { 
     
 sum+=values.next().get(); 
     
 } 
     
 output.collect(key, 
     newIntWritable(sum)); 
     
 } 
     
 } 
     
     public 
     static 
     voidmain(String[]args) 
     throwsException 
     
 { 
     
 JobConfconf= 
     newJobConf(WordCount. 
     class); 
     
 conf.setJobName("wordcount"); 
     
 conf.setOutputKeyClass(Text. 
     class); 
     
 conf.setOutputValueClass(IntWritable. 
     class); 
     
 conf.setMapperClass(Map. 
     class); 
     
 conf.setCombinerClass(Reduce. 
     class); 
     
 conf.setReducerClass(Reduce. 
     class); 
     
 conf.setInputFormat(TextInputFormat. 
     class); 
     
 conf.setOutputFormat(TextOutputFormat. 
     class); 
     
 FileInputFormat.setInputPaths(conf, 
     newPath(args[0])); 
     
 FileOutputFormat.setOutputPath(conf, 
     newPath(args[1])); 
     
 DistributedCache.createSymlink(conf); 
     
 Stringpath="/xuxm_dev_test_61_pic/in/WordCount.java"; 
     
 PathfilePath= 
     newPath(path); 
     
 StringuriWithLink=filePath.toUri().toString()+"#"+"god.txt"; 
     
 DistributedCache.addCacheFile( 
     newURI(uriWithLink),conf); 
     
 JobClient.runJob(conf); 
     
 } 
    
 }

执行方法参考http://hadoop.apache.org/common/docs/r0.19.2/cn/mapred_tutorial.html#%E4%BE%8B%E5%AD%90%EF%BC%9AWordCount+v1.0

　　程序运行的结果是在jobtracker中的task的log可以看到打印后的/xuxm_dev_test_61_pic/in/WordCount.java文件的内容。

　　如果程序中要用到很多小文件，那么使用Symbolic Link将非常方便。

请在执行前先将WordCount.java文件放到指定位置,否则就会找不到文件

概念：

reduce-side join技术是灵活的，但是有时候它仍然会变得效率极低。由于join直到reduce()阶段才会开始，我们将会在网络中传递shuffle所有数据，而在大多数情况下，我们会在join阶段丢掉大多数传递的数据。因此我们期望能够在map阶段完成整个join操作。

主要技术难点：

在map阶段完成join的主要困难就是mapper可能需要与一个它自己不能获得的数据进行join操作，如果我们能够保证这样子的数据可被mapper获得，那我们这个技术就可用。举个例子，如果我们知道两个源数据被分为同样大小的partition，而且每个partition都以适合作为join key的key值排序的话，那每个mapper()就可以获取所有join操作需要的数据。事实上，Hadoop的org.apache.hadoop.mared.join包中包含了这样的帮助类来实现mapside join，但不幸的是，这样的情况太少了。而且使用这样的类会造成额外的开销。因此，我们不会继续讨论这个包。

什么情况下使用？

情况1：如果我们知道两个源数据被分为同样大小的partition，而且每个partition都以适合作为join key的 key值排序

情况2：当join大型数据时，通常只有一个源数据十分巨大，另一个数据可能就会呈数量级的减小。例如，一个电话公司的用户数据可能只有千万条用户数据，但他的交易记录数据可能会有十亿条数量级以上的具体电话记录。当小的数据源可以被分配到mapper的内存中时，我们可以获得效果明显的性能提高，只要通过将小的数据源拷贝到每一台mapper机器上，使mapper在map阶段就进行join操作。这个操作就叫做replicate join。

解决方案：

Hadoop有一个叫做分布式缓存(distributed cache)的机制来将数据分发到集群上的所有节点上。它通常用来分发所有mapper需要的包含“background”数据的文件。例如你使用Hadoop来分类文档，你可能会有一个关键字的列表，你将使用distributed cache来保证所有mapper能够获得这些keywords（"background data"）。

操作步骤：

1.将数据分发到每个节点上：

[java]view plaincopy 
       
 DistributedCache.addCacheFile(newPath(args[0]).toUri(),conf); 

2.在每个mapper上使用DistributedCache.getLocalCacheFiles()来获取文件，之后再进行相应的操作：

[java]view plaincopy 
       
 DistributedCache.getLocalCacheFiles(); 

新出现的问题：

我们的又一个限制是我们其中一个join的表必须足够小以至于能保存到内存中。尽管在不对称大小的输入数据中，较小的那个数据可能仍然不够小（不够小到可以放入内存中。）

1.我们可以通过重新安排数据加工步骤来使它们有效。例如：如果你需要一个所有用户在415区的排序数据时，在滤除一定记录前就将Orders以及Customers表连接起来虽然正确，但是效率却不高。Customers和Orders表都可能大到不能放入内存中。此时我们可以预处理数据使Customers或者Orders表变小。

2.有时候我们不论怎样预处理数据都不能使数据足够小，那我们应该在map时过滤掉不属于415 area的用户。详见《Hadoop in Action》 Chapter5.2.3 semijoin

华夏35度

Data Mining,NLP,Search Engine

用Hadoop1.0.3实现KMeans算法

从理论上来讲用MapReduce技术实现KMeans算法是很Natural的想法：在Mapper中逐个计算样本点离哪个中心最近，然后Emit(样本点所属的簇编号，样本点)；在Reducer中属于同一个质心的样本点在一个链表中，方便我们计算新的中心，然后Emit(质心编号，质心)。但是技术上的事并没有理论层面那么简单。

Mapper和Reducer都要用到K个中心（我习惯称之为质心），Mapper要读这些质心，Reducer要写这些质心。另外Mapper还要读存储样本点的数据文件。我先后尝试以下3种方法，只有第3种是可行的，如果你不想被我误导，请直接跳过前两种。

一、用一个共享变量在存储K个质心

由于K很小，所以我们认为用一个Vector<Sample>来存储K个质心是没有问题的。以下代码是错误的：

?

class MyJob extends Tool{

static Vector<Sample> centers= new Vector<Sample>(K);

　　 static class MyMapper extends Mapper{

　　　　 //read centers

　　}　

　　 static class MyMapper extends Reducer{

　　　　 //update centers

　　}

　　 void run(){

　　　　until ( convergence ){

　　　　　　map();

　　　　　　reduce();

　　　　}

发生这种错误是因为对hadoop执行流程不清楚，对数据流不清楚。简单地说Mapper和Reducer作为MyJob的内部静态类，它们应该是独立的--它们不应该与MyJob有任何交互，因为Mapper和Reducer分别在Task Tracker的不同JVM中运行，而MyJob以及MyJob的内部其他类都在客户端上运行，自然不能在不同的JVM中共享一个变量。

详细的流程是这样的：

首先在客户端上，JVM加载MyJob时先初始化静态变量，执行static块。然后提交作业到Job Tracker。

在Job Tracker上，分配Mapper和Reducer到不同的Task Tracker上。Mapper和Reducer线程获得了MyJob类静态变量的初始拷贝（这份拷贝是指MyJob执行完静态块之后静态变量的模样）。

在Task Tracker上，Mapper和Reducer分别地读写MyJob的静态变量的本地拷贝，但是并不影响原始的MyJob中的静态变量的值。

二、用分布式缓存文件存储K个质心

既然不能通过共享外部类变量的方式，那我们通过文件在map和reduce之间传递数据总可以吧，Mapper从文件中读取质心，Reducer把更新后的质心再写入这个文件。这里的问题是：如果确定要把质心放在文件中，那Mapper就需要从2个文件中读取数据--质心文件和样本数据文件。虽然有MutipleInputs可以指定map()的输入文件有多个，并可以为每个输入文件分别指定解析方式，但是MutipleInputs不能保证每条记录从不同文件中传给map()的顺序。在我们的KMeans中，我们希望质心文件全部被读入后再逐条读入样本数据。

于是乎就想到了DistributedCache，它主要用于Mapper和Reducer之间共享数据。DistributedCacheFile是缓存在本地文件，在Mapper和Reducer中都可使用本地Java I/O的方式读取它。于是我又有了一个错误的思路：

?

class MyMaper{

Vector<Sample> centers= new Vector<Sample>(K);

void setup(){

//读取cacheFile，给centers赋值

}

void map(){

//计算样本离哪个质心最近

}

class MyReducer{

Vector<Sample> centers= new Vector<Sample>(K);

void reduce(){

//更新centers

}

void cleanup(){

//把centers写回cacheFile

}

错因：DistributedCacheFile是只读的，在任务运行前，TaskTracker从JobTracker文件系统复制文件到本地磁盘作为缓存，这是单向的复制，是不能写回的。试想在分布式环境下，如果不同的mapper和reducer可以把缓存文件写回的话，那岂不又需要一套复杂的文件共享机制，严重地影响hadoop执行效率。

三、用分布式缓存文件存储样本数据

其实DistributedCache还有一个特点，它更适合于“大文件”（各节点内存容不下）缓存在本地。仅存储了K个质心的文件显然是小文件，与之相比样本数据文件才是大文件。

此时我们需要2个质心文件：一个存放上一次的质心prevCenterFile，一个存放reducer更新后的质心currCenterFile。Mapper从prevCenterFile中读取质心，Reducer把更新后有质心写入currCenterFile。在Driver中读入prevCenterFile和currCenterFile，比较前后两次的质心是否相同（或足够地接近），如果相同则停止迭代，否则就用currCenterFile覆盖prevCenterFile（使用fs.rename），进入下一次的迭代。

这时候Mapper就是这样的：

?

class MyMaper{

Vector<Sample> centers= new Vector<Sample>(K);

void map(){

//逐条读取质心，给centers赋值

}

void cleanup(){

//逐行读取cacheFile,计算每个样本点离哪个质心最近

//然后Emit(样本点所属的簇编号，样本点)

}

源代码

试验数据是在Mahout项目中作为example提供的，600个样本点，每个样本是一个60维的浮点向量。点击下载

为样本数据建立一个类Sample.java。

 
           View Code

KMeans.java

 
           View Code

注意在Driver中创建Job实例时一定要把Configuration类型的参数传递进去，否则在Mapper或Reducer中调用DistributedCache.getLocalCacheFiles(context.getConfiguration());返回值就为null。因为空构造函数的Job采用的Configuration是从hadoop的配置文件中读出来的（使用new Configuration()创建的Configuration就是从hadoop的配置文件中读出来的），请注意在main()函数中有一句：DistributedCache.addCacheFile(dataFile.toUri(), conf);即此时的Configuration中多了一个DistributedCacheFile，所以你需要把这个Configuration传递给Job构造函数，如果传递默认的Configuration，那在Job中当然不知道DistributedCacheFile的存在了。

Further

方案三还是不如人意，质心文件是很小的（因为质心总共就没几个），用map()函数仅仅是来读一个质心文件根本就没有发挥并行的作用，而且在map()中也没有调用context.write()，所以Mapper中做的事情可以放在Reducer的setup()中来完成，这样就不需要Mapper了，或者说上面设计的就不是MapReduce程序，跟平常的单线程串行程序是一样的。sigh

原文来自:博客园（华夏35度）http://www.cnblogs.com/zhangchaoyang 作者:Orisun

<p style="line-height:20px; margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; background-color:rgb(196,196,196); color:rgb(34,34,34); text-indent:2em; font-family:'Courier New',微软雅黑; letter-spacing:1px"> 1、DistributedCache In Hadoop <p style="line-height:20px; margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; background-color:rgb(196,196,196); color:rgb(34,34,34); text-indent:2em; font-family:'Courier New',微软雅黑; letter-spacing:1px"> 此篇文章主要是<a target="_blank" rel="nofollow" href="http://www.hongweiyi.com/?p=250" style="color:rgb(34,34,34); line-height:21px; text-decoration:none; margin:0px; padding:0px; border-bottom-style:dotted; border-bottom-width:1px">前一篇</a>的后续，主要讲Hadoop的分布式缓存机制的原理与运用。 <p style="line-height:20px; margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; background-color:rgb(196,196,196); color:rgb(34,34,34); text-indent:2em; font-family:'Courier New',微软雅黑; letter-spacing:1px"> 分布式缓存在MapReduce中称之为DistributedCache，它可以方便map task之间或者reduce task之间共享一些信息，同时也可以将第三方包添加到其classpath路径中去。Hadoop会将缓存数据分发到集群的所有准备启动的节点上，复制到在mapred.temp.dir中配置的目录。 <p style="line-height:20px; margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; background-color:rgb(196,196,196); color:rgb(34,34,34); text-indent:2em; font-family:'Courier New',微软雅黑; letter-spacing:1px"> <p style="line-height:20px; margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; background-color:rgb(196,196,196); color:rgb(34,34,34); text-indent:2em; font-family:'Courier New',微软雅黑; letter-spacing:1px"> <p style="line-height:20px; margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; background-color:rgb(196,196,196); color:rgb(34,34,34); text-indent:2em; font-family:'Courier New',微软雅黑; letter-spacing:1px"> 2、DistributedCache的使用 <p style="line-height:20px; margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; background-color:rgb(196,196,196); color:rgb(34,34,34); text-indent:2em; font-family:'Courier New',微软雅黑; letter-spacing:1px"> DistributedCache的使用的本质其实是添加Configuraton中的属性：mapred.cache.{files|archives}。图方便的话，可以使用DistributedCache类的静态方法。 <p style="line-height:20px; margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; background-color:rgb(196,196,196); color:rgb(34,34,34); text-indent:2em; font-family:'Courier New',微软雅黑; letter-spacing:1px"> 不省事法： <table border="1" cellspacing="0" cellpadding="0" style="line-height:20px; background-color:rgb(196,196,196); margin:0px; padding:0px; color:rgb(17,17,17); font-family:'Courier New',微软雅黑; font-size:12px; letter-spacing:1px"><tbody style="line-height:21px; margin:0px; padding:0px"><tr style="margin:0px; padding:0px"> <td valign="top" width="568" style="margin:0px; padding:0px"> conf.set("mapred.cache.files", "/data/data"); conf.set("mapred.cache. archives", "/data/data.zip"); </td> </tr></tbody></table> <p style="line-height:20px; margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; background-color:rgb(196,196,196); color:rgb(34,34,34); text-indent:2em; font-family:'Courier New',微软雅黑; letter-spacing:1px"> 省事法： <table border="1" cellspacing="0" cellpadding="0" style="line-height:20px; background-color:rgb(196,196,196); margin:0px; padding:0px; color:rgb(17,17,17); font-family:'Courier New',微软雅黑; font-size:12px; letter-spacing:1px"><tbody style="line-height:21px; margin:0px; padding:0px"><tr style="margin:0px; padding:0px"> <td valign="top" width="568" style="margin:0px; padding:0px"> <a target="_blank" rel="nofollow" href="http://hadoop.apache.org/common/docs/current/api/org/apache/hadoop/filecache/DistributedCache.html" style="color:rgb(34,34,34); text-decoration:none; margin:0px; padding:0px; border-bottom-style:dotted; border-bottom-width:1px">DistributedCache</a>.<code style="margin:0px; padding:0px; font-family:'Courier New',微软雅黑"><a target="_blank" rel="nofollow" href="http://hadoop.apache.org/common/docs/current/api/org/apache/hadoop/filecache/DistributedCache.html#addCacheFile(java.net.URI,%20org.apache.hadoop.conf.Configuration)" style="color:rgb(34,34,34); text-decoration:none; margin:0px; padding:0px; border-bottom-style:dotted; border-bottom-width:1px">addCacheFile</a></code><code style="margin:0px; padding:0px; font-family:'Courier New',微软雅黑">(<a target="_blank" rel="nofollow" href="http://java.sun.com/javase/6/docs/api/java/net/URI.html?is-external=true" style="color:rgb(34,34,34); text-decoration:none; margin:0px; padding:0px; border-bottom-style:dotted; border-bottom-width:1px">URI</a>,</code><code style="margin:0px; padding:0px; font-family:'Courier New',微软雅黑"><a target="_blank" rel="nofollow" href="http://hadoop.apache.org/common/docs/current/api/org/apache/hadoop/conf/Configuration.html" style="color:rgb(34,34,34); text-decoration:none; margin:0px; padding:0px; border-bottom-style:dotted; border-bottom-width:1px">Configuration</a>)</code> <a target="_blank" rel="nofollow" href="http://hadoop.apache.org/common/docs/current/api/org/apache/hadoop/filecache/DistributedCache.html" style="color:rgb(34,34,34); text-decoration:none; margin:0px; padding:0px; border-bottom-style:dotted; border-bottom-width:1px">DistributedCache</a>.<code style="margin:0px; padding:0px; font-family:'Courier New',微软雅黑"><a target="_blank" rel="nofollow" href="http://hadoop.apache.org/common/docs/current/api/org/apache/hadoop/filecache/DistributedCache.html#addArchiveToClassPath(org.apache.hadoop.fs.Path,%20org.apache.hadoop.conf.Configuration,%20org.apache.hadoop.fs.FileSystem)" style="color:rgb(34,34,34); text-decoration:none; margin:0px; padding:0px; border-bottom-style:dotted; border-bottom-width:1px">addArchiveToClassPath</a></code><code style="margin:0px; padding:0px; font-family:'Courier New',微软雅黑">(<a target="_blank" rel="nofollow" href="http://hadoop.apache.org/common/docs/current/api/org/apache/hadoop/fs/Path.html" style="color:rgb(34,34,34); text-decoration:none; margin:0px; padding:0px; border-bottom-style:dotted; border-bottom-width:1px">Path</a>,</code><code style="margin:0px; padding:0px; font-family:'Courier New',微软雅黑"><a target="_blank" rel="nofollow" href="http://hadoop.apache.org/common/docs/current/api/org/apache/hadoop/conf/Configuration.html" style="color:rgb(34,34,34); text-decoration:none; margin:0px; padding:0px; border-bottom-style:dotted; border-bottom-width:1px">Configuration</a>,</code><code style="margin:0px; padding:0px; font-family:'Courier New',微软雅黑"><a target="_blank" rel="nofollow" href="http://hadoop.apache.org/common/docs/current/api/org/apache/hadoop/fs/FileSystem.html" style="color:rgb(34,34,34); text-decoration:none; margin:0px; padding:0px; border-bottom-style:dotted; border-bottom-width:1px">FileSystem</a>)</code> </td> </tr></tbody></table> <p style="line-height:20px; margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; background-color:rgb(196,196,196); color:rgb(34,34,34); text-indent:2em; font-family:'Courier New',微软雅黑; letter-spacing:1px"> 需要注意的是，上面几行代码需要写在Job类初始化之前，否则在运行会中找不到文件（被折磨了很长时间），因为Job初始化时将传入Configuration对象克隆一份给了JobContext。 <p style="line-height:20px; margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; background-color:rgb(196,196,196); color:rgb(34,34,34); text-indent:2em; font-family:'Courier New',微软雅黑; letter-spacing:1px"> 在MapReduce的0.21版本以后的org.apache.hadoop.mapreduce均移到org.apache.hadoop.mapred包下。但文档中提供的configure方法是重写的MapReduceBase中的，而新版本中map继承于mapper，reduce继承于reducer，所以configure方法一律改成了setup。要获得cache数据，就得在map/reduce task中的setup方法中取得cache数据，再进行相应操作： <table border="1" cellspacing="0" cellpadding="0" style="line-height:20px; background-color:rgb(196,196,196); margin:0px; padding:0px; color:rgb(17,17,17); font-family:'Courier New',微软雅黑; font-size:12px; letter-spacing:1px"><tbody style="line-height:21px; margin:0px; padding:0px"><tr style="margin:0px; padding:0px"> <td valign="top" width="568" style="margin:0px; padding:0px"> <div style="line-height:25px; margin:0px; padding:0px; font-family:'Courier New',微软雅黑,Arial; background-color:rgb(250,250,250); border:1px solid rgb(209,215,220); width:562.3125px; overflow:auto"> <div style="margin:0px; padding:2px"></div> <ol style="line-height:21px; margin:0px 0px 1px 38px; padding:2px; color:rgb(43,145,175)"> <li style="line-height:18px; margin:0px; padding:0px 0px 0px 10px; border-left-width:1px; border-left-style:solid; border-left-color:rgb(209,215,220)"> @Override </li> <li style="line-height:18px; margin:0px; padding:0px 0px 0px 10px; border-left-width:1px; border-left-style:solid; border-left-color:rgb(209,215,220)"> protectedvoidsetup(Context context)throwsIOException, </li> <li style="line-height:18px; margin:0px; padding:0px 0px 0px 10px; border-left-width:1px; border-left-style:solid; border-left-color:rgb(209,215,220)"> InterruptedException { </li> <li style="line-height:18px; margin:0px; padding:0px 0px 0px 10px; border-left-width:1px; border-left-style:solid; border-left-color:rgb(209,215,220)"> super.setup(context); </li> <li style="line-height:18px; margin:0px; padding:0px 0px 0px 10px; border-left-width:1px; border-left-style:solid; border-left-color:rgb(209,215,220)"> URI[] uris = DistributedCache.getCacheFiles(context </li> <li style="line-height:18px; margin:0px; padding:0px 0px 0px 10px; border-left-width:1px; border-left-style:solid; border-left-color:rgb(209,215,220)"> .getConfiguration()); </li> <li style="line-height:18px; margin:0px; padding:0px 0px 0px 10px; border-left-width:1px; border-left-style:solid; border-left-color:rgb(209,215,220)"> Path[] paths = DistributedCache.getLocalCacheFiles(context </li> <li style="line-height:18px; margin:0px; padding:0px 0px 0px 10px; border-left-width:1px; border-left-style:solid; border-left-color:rgb(209,215,220)"> .getConfiguration()); </li> <li style="line-height:18px; margin:0px; padding:0px 0px 0px 10px; border-left-width:1px; border-left-style:solid; border-left-color:rgb(209,215,220)"> // TODO </li> <li style="line-height:18px; margin:0px; padding:0px 0px 0px 10px; border-left-width:1px; border-left-style:solid; border-left-color:rgb(209,215,220)"> } </li> </ol> </div> </td> </tr></tbody></table> <p style="line-height:20px; margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; background-color:rgb(196,196,196); color:rgb(34,34,34); text-indent:2em; font-family:'Courier New',微软雅黑; letter-spacing:1px"> 而三方库的使用稍微简单，只需要将库上传至hdfs，再用代码添加至classpath即可： <table border="1" cellspacing="0" cellpadding="0" style="line-height:20px; background-color:rgb(196,196,196); margin:0px; padding:0px; color:rgb(17,17,17); font-family:'Courier New',微软雅黑; font-size:12px; letter-spacing:1px"><tbody style="line-height:21px; margin:0px; padding:0px"><tr style="margin:0px; padding:0px"> <td valign="top" width="568" style="margin:0px; padding:0px"> DistributedCache.addArchiveToClassPath(new Path("/data/test.jar"), conf); </td> </tr></tbody></table> <p style="line-height:20px; margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; background-color:rgb(196,196,196); color:rgb(34,34,34); text-indent:2em; font-family:'Courier New',微软雅黑; letter-spacing:1px"> 3、symlink的使用 <p style="line-height:20px; margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; background-color:rgb(196,196,196); color:rgb(34,34,34); text-indent:2em; font-family:'Courier New',微软雅黑; letter-spacing:1px"> Symlink其实就是hdfs文件的一个快捷方式，只需要在路径名后加入#linkname，之后在task中使用linkname即使用相应文件，如下： <table border="1" cellspacing="0" cellpadding="0" style="line-height:20px; background-color:rgb(196,196,196); margin:0px; padding:0px; color:rgb(17,17,17); font-family:'Courier New',微软雅黑; font-size:12px; letter-spacing:1px"><tbody style="line-height:21px; margin:0px; padding:0px"> <tr style="margin:0px; padding:0px"> <td valign="top" width="568" style="margin:0px; padding:0px"> conf.set("mapred.cache.files", "/data/data#mData"); conf.set("mapred.cache. archives", "/data/data.zip#mDataZip"); </td> </tr> <tr style="margin:0px; padding:0px"> <td valign="top" width="568" style="margin:0px; padding:0px"> <div style="line-height:25px; margin:0px; padding:0px; font-family:'Courier New',微软雅黑,Arial; background-color:rgb(250,250,250); border:1px solid rgb(209,215,220); width:562.3125px; overflow:auto"> <div style="margin:0px; padding:2px"></div> <ol style="line-height:21px; margin:0px 0px 1px 38px; padding:2px; color:rgb(43,145,175)"> <li style="line-height:18px; margin:0px; padding:0px 0px 0px 10px; border-left-width:1px; border-left-style:solid; border-left-color:rgb(209,215,220)"> @Override </li> <li style="line-height:18px; margin:0px; padding:0px 0px 0px 10px; border-left-width:1px; border-left-style:solid; border-left-color:rgb(209,215,220)"> protectedvoidsetup(Context context)throwsIOException, </li> <li style="line-height:18px; margin:0px; padding:0px 0px 0px 10px; border-left-width:1px; border-left-style:solid; border-left-color:rgb(209,215,220)"> InterruptedException { </li> <li style="line-height:18px; margin:0px; padding:0px 0px 0px 10px; border-left-width:1px; border-left-style:solid; border-left-color:rgb(209,215,220)"> super.setup(context); </li> <li style="line-height:18px; margin:0px; padding:0px 0px 0px 10px; border-left-width:1px; border-left-style:solid; border-left-color:rgb(209,215,220)"> FileReader reader =newFileReader(newFile("mData")); </li> <li style="line-height:18px; margin:0px; padding:0px 0px 0px 10px; border-left-width:1px; border-left-style:solid; border-left-color:rgb(209,215,220)"> BufferedReader bReader =newBufferedReader(reader); </li> <li style="line-height:18px; margin:0px; padding:0px 0px 0px 10px; border-left-width:1px; border-left-style:solid; border-left-color:rgb(209,215,220)"> // TODO </li> <li style="line-height:18px; margin:0px; padding:0px 0px 0px 10px; border-left-width:1px; border-left-style:solid; border-left-color:rgb(209,215,220)"> } </li> </ol> </div> </td> </tr> </tbody></table> <p style="line-height:20px; margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; background-color:rgb(196,196,196); color:rgb(34,34,34); text-indent:2em; font-family:'Courier New',微软雅黑; letter-spacing:1px"> 在使用symlink之前，需要告知hadoop，如下： <table border="1" cellspacing="0" cellpadding="0" style="line-height:20px; background-color:rgb(196,196,196); margin:0px; padding:0px; color:rgb(17,17,17); font-family:'Courier New',微软雅黑; font-size:12px; letter-spacing:1px"><tbody style="line-height:21px; margin:0px; padding:0px"> <tr style="margin:0px; padding:0px"> <td valign="top" width="568" style="margin:0px; padding:0px"> conf.set("mapred.create.symlink", "yes"); // 是yes，不是true </td> </tr> <tr style="margin:0px; padding:0px"> <td valign="top" width="568" style="margin:0px; padding:0px"> <a target="_blank" rel="nofollow" href="http://www.hongweiyi.com/wp-content/uploads/2012/02/DistributedCache.html" style="color:rgb(34,34,34); text-decoration:none; margin:0px; padding:0px; border-bottom-style:dotted; border-bottom-width:1px">DistributedCache.createSymlink(Configuration)</a> </td> </tr> </tbody></table> <p style="line-height:20px; margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; background-color:rgb(196,196,196); color:rgb(34,34,34); text-indent:2em; font-family:'Courier New',微软雅黑; letter-spacing:1px"> 4、注意事项 <p style="line-height:20px; margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; background-color:rgb(196,196,196); color:rgb(34,34,34); text-indent:2em; font-family:'Courier New',微软雅黑; letter-spacing:1px"> 1）缓存文件（数据、三方库）需上传至HDFS，方能使用； <p style="line-height:20px; margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; background-color:rgb(196,196,196); color:rgb(34,34,34); text-indent:2em; font-family:'Courier New',微软雅黑; letter-spacing:1px"> 2）缓存较小的情况下，建议将数据全部读入相应节点内存，提高访问速度； <p style="line-height:20px; margin-top:0px; margin-bottom:0px; padding-top:0px; padding-bottom:0px; background-color:rgb(196,196,196); color:rgb(34,34,34); text-indent:2em; font-family:'Courier New',微软雅黑; letter-spacing:1px"> 3）缓存文件是read-only的，不能修改。若要修改得重新输出，将新输出文件作为新缓存进入下一次迭代。

你可能感兴趣的:(hadoop)

浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
月度总结 | 2022年03月 | 考研与就业的抉择 | 确定未来走大数据开发路线「已注销」个人总结 hadoop
一、时间线梳理3月3日，寻找到同专业的就业伙伴3月5日，着手准备Java八股文，决定先走Java后端路线3月8月，申请到了校图书馆的考研专座，决定暂时放弃就业，先准备考研，买了数学和408的资料书3月9日-3月13日，因疫情原因，宿舍区暂封，这段时间在准备考研，发现内容特别多3月13日-3月19日，大部分时间在刷Hadoop、Zookeeper、Kafka的视频，同时在准备实习的项目3月20日，退
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
Hadoop windows intelij 跑 MR WordCount piziyang12138
一、软件环境我使用的软件版本如下:IntellijIdea2017.1Maven3.3.9Hadoop分布式环境二、创建maven工程打开Idea,file->new->Project,左侧面板选择maven工程。(如果只跑MapReduce创建java工程即可，不用勾选Creatfromarchetype，如果想创建web工程或者使用骨架可以勾选)image.png设置GroupId和Artif
Hadoop学习第三课（HDFS架构--读、写流程）小小程序员呀~ 数据库 hadoop 架构 big data
1.块概念举例1：一桶水1000ml，瓶子的规格100ml=>需要10个瓶子装完一桶水1010ml，瓶子的规格100ml=>需要11个瓶子装完一桶水1010ml，瓶子的规格200ml=>需要6个瓶子装完块的大小规格，只要是需要存储，哪怕一点点，也是要占用一个块的块大小的参数：dfs.blocksize官方默认的大小为128M官网：https://hadoop.apache.org/docs/r3.
hadoop启动HDFS命令 m0_67401228 java 搜索引擎 linux 后端
启动命令：/hadoop/sbin/start-dfs.sh停止命令：/hadoop/sbin/stop-dfs.sh
【计算机毕设-大数据方向】基于Hadoop的电商交易数据分析可视化系统的设计与实现程序员-石头山大数据实战案例大数据 hadoop 毕业设计毕设
博主介绍：✌全平台粉丝5W+,高级大厂开发程序员，博客之星、掘金/知乎/华为云/阿里云等平台优质作者。【源码获取】关注并且私信我【联系方式】最下边感兴趣的可以先收藏起来，同学门有不懂的毕设选题，项目以及论文编写等相关问题都可以和学长沟通，希望帮助更多同学解决问题前言随着电子商务行业的迅猛发展，电商平台积累了海量的数据资源，这些数据不仅包括用户的基本信息、购物记录，还包括用户的浏览行为、评价反馈等多
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
spark常用命令我是浣熊的微笑 spark
查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME目录，输入bin/spark-submit--help可以得到该命令的使用帮助。hadoop@wyy:/app/hadoop/spark100$bin/spark-submit--
spark启动命令学不会又听不懂 spark 大数据分布式
hadoop启动：cd/root/toolssstart-dfs.sh，只需在hadoop01上启动stop-dfs.sh日志查看：cat/root/toolss/hadoop/logs/hadoop-root-datanode-hadoop03.outzookeeper启动：cd/root/toolss/zookeeperbin/zkServer.shstart，三台都要启动bin/zkServ
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
Hadoop常见面试题整理及解答叶青舟 Linux hdfs 大数据 hadoop linux
Hadoop常见面试题整理及解答一、基础知识篇：1.把数据仓库从传统关系型数据库转到hadoop有什么优势？答：（1）关系型数据库成本高，且存储空间有限。而Hadoop使用较为廉价的机器存储数据，且Hadoop可以将大量机器构建成一个集群，并在集群中使用HDFS文件系统统一管理数据，极大的提高了数据的存储及处理能力。（2）关系型数据库仅支持标准结构化数据格式，Hadoop不仅支持标准结构化数据格式
2025毕业设计指南：如何用Hadoop构建超市进货推荐系统？大数据分析助力精准采购计算机编程指导师 Java实战集 Python实战集大数据实战集课程设计 hadoop 数据分析 spring boot java 进货 python
✍✍计算机编程指导师⭐⭐个人介绍：自己非常喜欢研究技术问题！专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。⛽⛽实战项目：有源码或者技术上的问题欢迎在评论区一起讨论交流！⚡⚡Java实战|SpringBoot/SSMPython实战项目|Django微信小程序/安卓实战项目大数据实战项目⚡⚡文末获取源码文章目录⚡⚡文末获取源码基于hadoop的超市进货推荐系
Hadoop Common 之序列化机制小解猫君之上 #Apache Hadoop
1.JavaSerializable序列化该序列化通过ObjectInputStream的readObject实现序列化，ObjectOutputStream的writeObject实现反序列化。这不过此种序列化虽然跨病态兼容性强，但是因为存储过多的信息，但是传输效率比较低，所以hadoop弃用它。（序列化信息包括这个对象的类，类签名，类的所有静态，费静态成员的值，以及他们父类都要被写入）publ
深入理解hadoop(一)----Common的实现----Configuration maoxiao_jsd 深入理解----hadoop
属本人个人原创，转载请注明,希望对大家有帮助！！一,hadoop的配置管理a,hadoop通过独有的Configuration处理配置信息Configurationconf=newConfiguration();conf.addResource("core-default.xml");conf.addResource("core-site.xml");后者会覆盖前者中未final标记的相同配置项b
hadoop 0.22.0 部署笔记 weixin_33701564 大数据 java 运维
为什么80%的码农都做不了架构师？>>>因为需要使用hbase，所以开始对hbase进行学习。hbase是部署在hadoop平台上的NOSql数据库，因此在部署hbase之前需要先部署hadoop。环境：redhat5、hadoop-0.22.0.tar.gz、jdk-6u13-linux-i586.zipip192.168.1.128hostname：localhost.localdomain（
解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(4) 2401_84160087 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！org.apache.hadoophadoop-com
解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(3) 2401_84160087 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！xmlns:xsi="http://www.w3.or
深入解析HDFS：定义、架构、原理、应用场景及常用命令 CloudJourney hdfs 架构 hadoop
引言Hadoop分布式文件系统（HDFS，HadoopDistributedFileSystem）是Hadoop框架的核心组件之一，它提供了高可靠性、高可用性和高吞吐量的大规模数据存储和管理能力。本文将从HDFS的定义、架构、工作原理、应用场景以及常用命令等多个方面进行详细探讨，帮助读者全面深入地了解HDFS。1.HDFS的定义1.1什么是HDFSHDFS是Hadoop生态系统中的一个分布式文件系
Hadoop的搭建流程 lzhlizihang hadoop 大数据分布式
文章目录一、配置IP二、配置主机名三、配置主机映射四、关闭防火墙五、配置免密六、安装jdk1、第一步：2、第二步：3、第三步：4、第四步：5、第五步：七、安装hadoop1、上传2、解压3、重命名4、开始配置环境变量5、刷新配置文件6、验证hadoop命令是否可以识别八、全分布搭建7、修改配置文件core-site.xml8、修改配置文件hdfs-site.xml9、修改配置文件hadoop-en
hive搭建 -----内嵌模式和本地模式 lzhlizihang hive hadoop
文章目录一、内嵌模式（使用较少）1、上传、解压、重命名2、配置环境变量3、配置conf下的hive-env.sh4、修改conf下的hive-site.xml5、启动hadoop集群6、给hdfs创建文件夹7、修改hive-site.xml中的非法字符8、初始化元数据9、测试是否成功10、内嵌模式的缺点二、本地模式（最常用）1、检查mysql是否正常2、上传、解压、重命名3、配置环境变量4、修改c
Hadoop之mapreduce -- WrodCount案例以及各种概念 lzhlizihang hadoop mapreduce 大数据
文章目录一、MapReduce的优缺点二、MapReduce案例--WordCount1、导包2、Mapper方法3、Partitioner方法（自定义分区器）4、reducer方法5、driver（main方法）6、Writable（手机流量统计案例的实体类）三、关于片和块1、什么是片，什么是块？2、mapreduce启动多少个MapTask任务？四、MapReduce的原理五、Shuffle过
IAAS: IT公司去IOE-Alibaba系统构架解读 wishchin 心理学/职业 BigDataMini Spark PaaS
从Hadoop到自主研发，技术解读阿里去IOE后的系统架构原地址：......................云计算阿里飞天摘要：从IOE时代，到Hadoop与飞天并行，再到飞天单集群5000节点的实现，阿里一直摸索在技术衍变的前沿。这里，我们将从架构、性能、运维等多个方面深入了解阿里基础设施。【导读】互联网的普及，智能终端的增加，大数据时代悄然而至。在这个数据为王的时代，数十倍、数百倍的数据给各
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> True </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多