zc02051126

Hadoop in Practice

第8章使用R和Hadoop进行统计分析及与之相关的信息

本章主要内容为：

Ø 将R脚本和MapReduce和Streaming集成起来

Ø 理解什么是Rhipe，RHadoop，R+Streaming

R是用于统计分析和图形展示的统计分析语言。R语言可以对数据进行统计和预测分析、数据挖掘、可视化后处理等操作。它有诸多功能且应用广泛，如在金融、生命科学、制造业、零售业等都有所应用，所以R是一种非常流行的工具。

对数据分析科学家而言，有了Hadoop就像拥有了核武库，同时还需要使用R软件包。如果用Java或者其它高级语言重写这些R软件包将非常繁琐且开发速度也会很慢。所以我们需要做的就是将R和Hadoop集成起来，在Hadoop和R中的数据库之间建立一座桥梁将他们连接起来。

在我们工作中，大部分的数据都是文本格式的，比如来自Twitter的tweets，log文件、和库存记录等都是文本类型的。本章将介绍如何使用R对文本类型的库存记录进行简单的平均计算。以这个计算为例，重点介绍R与Hadoop的三种集成方式：R通过Streaming与Hadoop集成、通过Rhipe集成、以及通过RHadoop集成。在本章结束的时候，你将学会R与Hadoop集成的各种方式，并为你的应用选择一种最适合的方式。

R和统计学：

本章主要介绍R和Hadoop的集成。更多关于R的信息参考<<R inAction>>这本书

(August 2011, http://www.manning.com/kabacoff/).有关统计学的参考书见<<Statistics:A Gentle Introduction>>, http://www.sagepub.com/books/Book235514.

8.1 R和MapReduce的集成方法概述

本节将介绍三种用于集成R和MapReduce的方法。选择者三种方法是因为其非常流行，为了演示R和MapReduce的集成方式，将使用这三种方法处理同一个问题。

1、R+Streaming：这种方式允许你在MapReduce模式的map和reduce阶段执行R脚本。

2、Rhipe：Rhipe是一个开源项目，它可以让MapReduce和R在客户端紧密结合在一起。

3、RHadoop：RHadoop和Rhipe类似，但其对R进行了MapReduce封装，所以在客户端其能够与MapReduce无缝集成。

表8.1对R和MapReduce的集成方式的某些特性进行了对比。

表8.1 R和MapReduce集成方式对比

特性	R+Streaming	Rhipe	RHadoop
授权方式	R是GPL-2和GPL-3授权；Streaming是Apache2.0授权	Apache2.0	Apache2.0
安装复杂度	安装简单，需要在每台DataNode上安装R，R包可以方便从互联网获取	安装最复杂，R必须要安装在每个DataNode上，并和协议缓冲区以及Rhipe集成到一起，因此需要建立协议缓冲区，Rhipe不需要时无缝安装的，如果想让Rhipe工作起来，可能还要做些工作	安装中等复杂，R需要安装在每个DataNode上，RHadoop依赖R的某些包，这些包可以用CRAN安装，and the RHadoop installation, while not via CRAN, is straight-forward.
客户端与R集成	无集成，必须使用Hadoop的命令行执行Streaming Job并通过参数定义map端和reduce端的R脚本	高度集成，Rhipe是一个R的库文件，当调用R函数时，它将控制执行MapReduce的Job。用户在R中写好map和reduce函数，Rhipe能够维护R写成的应用的逻辑传输关系，并在map和reduce的任务中调用R脚本	高度集成，RHadoop也是R的一个库，用户可以在R中定义map和reduce脚本
使用的底层技术	Streaning	和Streaming不同Rhipe没有使用Hadoop的map和reduce函数，Rhipe以协议缓冲区编码的形式将map和reduce的输入分配给Rhipe的可执行C程序，可执行程序使用R调用用户的map和reduce脚本	RHadoop技术简单，其在Hadoop和Streaming的顶层做了封装。因此，它没有专门的MapReduce代码，它只有一个简单的能够被Streaming调用的R脚本，以达到轮流调用用户用R编写的map和reduce脚本

哪种工具最适合你的应用？当你学习了本章内容之后，你将会找到适合自己的工具。表8.2是作者对这三种工具适用范围的描述。

表8.2 对三种方式适用情况的描述

方式	适用情况	需要牢记的点
R+Streaming	如果你想控制你的MapReduce函数，比如控制分割和排序过程	与其它方式比起来，该法无法从R脚本中直接调用执行
Rhipe	如果你现在R环境中使用R和MapReduce，可以选择该方式	为了能够和协议缓冲区的编码数据一起工作，要求此种方法的输入、输入符合特定的数据格式
RHadoop	如果你既不想离开R环境，又能够控制MapReduce的输入输出格式，可以采用此方法	需要大内存，因为一个键所对应的值都要存储在内存中，值并不会流到reduce函数

8.2 R基础

这部分介绍R的安装及R的基本语法结构和数据类型。

安装：

可以参照附录A安装R。需要注意的是：在所有节点上，要将R安装在相同的路径中，而且要求R的版本要一至。

启动R并运行简单的脚本命令：

启动R很简单，在终端输入R即可，如下

快速入门：

下面将介绍一些R的基本知识，以帮助理解本章中所用到的技术，详细内容如图8.1。

在R中向量是很有用的数据结构，因为大多数数值计算的函数都支持向量格式的数据结构。图8.2介绍了一些R 的向量知识。

R语言还支持其它一些数据结构，如：矩阵、数组、数据帧、因子等数据结构。本章中将主要介绍向量的使用，因为本章中主要用到向量。所以其它数据结构不做过多介绍。如果要了解R的更详细知识，可以参考Robert Kabacoff的《R in Action》（http://www.manning.com/kabacoff/）。

图8.1 R中变量使用实例

图8.2 R中向量和函数使用实例

以上已经介绍了R语言的一些简单知识。下面将介绍如何将Hadoop的Streaming与R结合起来。

8.3 R和Streaming

只要是支持标准输入、输出流的脚本语言都可以写成map和reduce函数与Hadoop的Streaming集成。在本节中将会看到R语言如何与Streaming集成，首先介绍只有map的作业情况，然后介绍map和reduce函数都有的作业情况。本例中将使用股票数据并进行简单的计算。目的是介绍如何通过Streaming将R和Hadoop集成起来。

8.3.1Streming和只有map的R脚本

就像普通的MapReduce一样，也可以用R编写只有map而没有reduce的R作业与Streaming集成。在不需要对数据进行合并、分组等操作时，可以使用只有map而没有reduce的作业。

技巧57：计算股票数据的日均值

在这个技术中，介绍Hadoop的Streaming与R集成计算股票数据的日均值。

问题描述：

将R和MapReduce集成起来，不需要对数据进行合并和排序。

解决方法：

采用只有map的作业处理数据。

详细介绍：

该技术将工作在CSV文件上，对于每只股票包括如下信息：

Symbol,Date,Open,High,Low,Close,Volume,AdjClose

查看股票子集内容如下：

$ head -6test-data/stocks.txt

AAPL,2009-01-02,85.88,91.04,85.16,90.75,26643400,90.75

AAPL,2008-01-02,199.27,200.26,192.55,194.84,38542100,194.84

AAPL,2007-01-03,86.29,86.58,81.90,83.80,44225700,83.80

AAPL,2006-01-03,72.38,74.75,72.25,74.75,28829800,74.75

AAPL,2005-01-03,64.78,65.11,62.60,63.29,24714000,31.65

AAPL,2004-01-02,21.55,21.75,21.18,21.28,5165800,10.64

在作业中将计算没行中开始和结束的股价均值。实现功能的R脚本如下：

#! /usr/bin/envRscript //用于识别可以执行脚本的R进程名

options(warn=-1)//屏蔽警告信息，可以减少输出流的杂乱程度

sink("/dev/null")//sink函数控制输出的位置。因为R代码被Streaming使用，用户就需要控制标准输出流的内容，因此重定向R的输出到/dev/null

input <-file("stdin", "r") //打开标准输入句柄

while(length(currentLine<-readLines(input, n=1, warn=FALSE)) > 0) //从标准输入中读入数据，n是每次读入的数据行数，将warn设置为FALSE，因为在标准输入流中无法读取EOF结束标记。如果读取了一个空行，意味着输入结束。

{

fields <- unlist(strsplit(currentLine,",")) //将读取的字符串按照逗号分隔，并将结果转化为向量

lowHigh <- c(as.double(fields[3]),as.double(fields[6])) //将股票的开盘和收盘价格放到一个向量中

mean <- mean(lowHigh) //计算均值

sink() // 调用无参数的sink函数，恢复输出位置

cat(fields[1], fields[2], mean,"\n", sep="\t") //将每天的股票名称、日期、均值写到标准输出流

sink("/dev/null") // 重定向R的输出到/dev/null.

}

close(input)

总结：

图8.3中展示了只有map时Streaming和R的集成。

图8.3 只有map的R和Streaming数据流

为了测试map脚本的正确性，可以对任何MapReduce的代码进行修改。但是最方便的办法是不用启动MapReeduce而直接在命令行中对map脚本进行测试。下面用Linux的cat命令对R脚本进行测试

$ cattest-data/stocks.txt | src/main/R/ch8/stock_day_avg.R

AAPL 2009-01-0288.315

AAPL 2008-01-02197.055

AAPL 2007-01-0385.045

AAPL 2006-01-0373.565

...

输出无误，所以可以进行Hadoop上的计算了

$ exportHADOOP_HOME=/usr/lib/hadoop //设置Hadooop安装路径，该路径必须是全路径

$ ${HADOOP_HOME}/bin/hadoopfs -rmr output //删除HDFS上的output文件，如果HDFS上不存在output文件，会产生一个警告，该警告可以忽略

$${HADOOP_HOME}/bin/hadoop fs -put test-data/stocks.txt \

stocks.txt // 拷贝股票数据到HDFS

$${HADOOP_HOME}/bin/hadoop \

jar${HADOOP_HOME}/contrib/streaming/*.jar \ //定义运行Streaming的JAR文件，这里必须给出完成路径

-Dmapreduce.job.reduces=0 \ //因为只有map，所以讲reduce的数量设置为0

-inputformatorg.apache.hadoop.mapred.TextInputFormat \ //定义输入格式

-inputstocks.txt \ //设置输入文件

-output output \//设置输出路径

-mapper`pwd`/src/main/R/ch8/stock_day_avg.R \ //通知Streming在map阶段可以运行的文件位置

-file`pwd`/src/main/R/ch8/stock_day_avg.R //定义需要被拷贝到分布式缓存中并被map作业使用的R脚本所在的位置

用cat查看output中的数据，其和直接调用R脚本产生的数据一致：

$ hadoop fs -catoutput/part*

AAPL 2009-01-0288.315

AAPL 2008-01-02197.055

AAPL 2007-01-0385.045

AAPL 2006-01-0373.565

...

在以上的命令中使用了TextInputFormat，该出入格式产生key/value对，key值是value在文件中的偏移量，value是每行数据。在R脚本中仅使用了value。这是因为在Hadoop的Streaming中做了优化处理，如果检测到使用TextInputFormat格式，Streaming将忽略key值，如果希望key值不被忽略可以将属性stream.map.input.ignoreKey设置为true。

图8.4显示了一些Streming的配置

图8.4 map任务的Streaming配置

现在应该理解如何使用R和Streaming实现只有map的作业了。下面介绍如何实现既有map又有reduce的作业。

8.3.2Streaming，R实现完全MapReduce

现在演示如何实现完全的MapReduce作业。在8.3.1的基础上介绍如何构建reduce函数。当map和reduce函数都完成后。我们将会看到Hadoop的Streaming如何将map输出的键值对输出到R的标准输入流中的，以及如何收集R函数的输出结果。

技巧58：计算股票的累积移动平均

在技巧57中计算了股票的每天平均值，下面将使用MapReduce框架收集同一只股票每天的平均值，然后计算股票的累积移动平均（CMA）。

问题描述：

希望在map端和reduce端与Streaming集成

解决方法：

使用R和Hadoop的Streaming编写的map和reduce函数与Streaming集成起来

详细介绍：

只执行map端的作业时，产生如下空格分隔的域：

Symbol Date Mean

MapReduce将对map输出的key值（股票的名称，即Symbol）进行排序和分组。MapReduce将与同一只股票相关的由map输出的值传递给reduce。reduce脚本中对所有的均值进行求和，reduce最终的输出包括CMA。

#! /usr/bin/envRscript

options(warn=-1)

sink("/dev/null")

outputMean <-function(stock, means) //该函数将股票的名称和均值向量作为输入参数，计算CMA后，将股票名称和CMA写入到标准输出中

{

stock_mean <- mean(means)

sink()

cat(stock, stock_mean, "\n",sep="\t")

sink("/dev/null")

}

input <-file("stdin", "r")

prevKey <-"

means <-numeric(0)

while(length(currentLine<- readLines(input, n=1, warn=FALSE)) > 0)

{

fields <- unlist(strsplit(currentLine,"\t"))

key <- fields[1] //读股票名称

mean <- as.double(fields[3]) //从输入流中读取均值

if( identical(prevKey, ") ||identical(prevKey, key))

{

prevKey <- key

means <- c(means, mean)

}

else

{

outputMean(prevKey, means) //当找到一个新的key值时，意味着有一个新的map输出的key，这也意味着此时需要调用参数计算CMA并将结果写到标准输出中

prevKey <- key

means <- c(means, mean)

}

if(!identical(prevKey,"))

{

outputMean(prevKey, means)

}

close(input)

图8.5 R和Streaming的MapReduce数据流

总结：

图8.5中显示了Streaming和R脚本在reduce端的工作模式。Streaming的好处是可以使用Linux的流命令此时R脚本，命令如下：

$ cattest-data/stocks.txt | src/main/R/ch8/stock_day_avg.R | \

sort --key 1,1 |src/main/R/ch8/stock_cma.R

AAPL 68.997

CSCO 49.94775

GOOG 123.9468

MSFT 101.297

YHOO 94.55789

上面输出的结果正确，所以下面开始执行Hadoop作业：

$ exportHADOOP_HOME=/usr/lib/hadoop

$${HADOOP_HOME}/bin/hadoop fs -rmr output

$ ${HADOOP_HOME}/bin/hadoopfs -put test-data/stocks.txt stocks.txt

$${HADOOP_HOME}/bin/hadoop \

jar${HADOOP_HOME}/contrib/streaming/*.jar \

-inputformatorg.apache.hadoop.mapred.TextInputFormat \

-inputstocks.txt \

-output output \

-mapper`pwd`/src/main/R/ch8/stock_day_avg.R \ //定义map脚本

-reducer`pwd`/src/main/R/ch8/stock_cma.R \ //定义reduce脚本

-file`pwd`/src/main/R/ch8/stock_day_avg.R \

-file`pwd`/src/main/R/ch8/stock_cma.R

用cat命令查看output结果，其与Linux测试结果相同，结果如下：

$ hadoop fs -catoutput/part*

AAPL 68.997

CSCO 49.94775

GOOG 123.9468

MSFT 101.297

YHOO 94.55789

图8.6显示了某些Streaming参数项，其可以对reduce的输入、输出进行控制。

图8.6 用于控制reduce输入、输出的Streaming参数

如果map的输出值在传递给reduce之前需要按照一定的顺序排列（被称之为二次排序），这时该如何处理。二次排序的内容在第4章和第七章有详细介绍。在Streaming中进行二次排序时可以通过KeyFieldBasedPartitioner,设置，设置方法如下：

$ exportHADOOP_HOME=/usr/lib/hadoop

$${HADOOP_HOME}/bin/hadoop fs -rmr output

$${HADOOP_HOME}/bin/hadoop fs -put test-data/stocks.txt stocks.txt

$${HADOOP_HOME}/bin/hadoop \

jar${HADOOP_HOME}/contrib/streaming/*.jar \

-Dstream.num.map.output.key.fields=2 \ //定义股票的名称和日期是map输出的key的一部分

-Dmapred.text.key.partitioner.options=-k1,1\ //定义MapReduce按照map输出的第一个字符，即股票名称，进行分割

-inputformatorg.apache.hadoop.mapred.TextInputFormat \

-inputstocks.txt \

-output output \

-mapper`pwd`/src/main/R/ch8/stock_day_avg.R \

-reducer`pwd`/src/main/R/ch8/stock_cma.R \

-partitioner \ //设置KeyFieldBasedPartitioner参数，其将解析mapred.text.key.partitioner.options决定分割方法

org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner\

-file`pwd`/src/main/R/ch8/stock_day_avg.R

更多关于Streaming关于排序控制的内容见Hadoop的Streaming文档。

至此已经完成了R与Streaming集成计算股票均值的全部内容。这种方式的缺点是，在客户端R脚本与Hadoop的集成不是那么方便。这也正是Rhipe和RHadoop需要解决的问题。下面将介绍Rhipe。

8.4 Rhipe-R和Hadoop客户端无缝集成

Rhipe是R和Hadoop集成处理环境的简称，它是一个开源项目。与Streaning相比Rhipe使R和Hadoop更紧密的结合在一起。在8.3中通过命令行将R和Hadoop集成起来，而在Rhipe中可以在R中直接运行MapReduce程序。

在开始Rhipe之前，需要按照附录A中的方法，在集群上安装Rhipe及其依赖项。

技巧59：使用Rhipe计算累积移动平均

在该节中将再次计算每只股票的CMA。但是实现的技术采用Rhipe，你将会看到R和Hadoop的是如何紧密结合在一起的。

1）问题描述：

希望在R代码中直接调用Hadoop。

2）解决方法：

该例子演示如何使用Rhipe在客户端，直接从R中调用MapReduce作业。同时也会看到Rhipe的MapReduce作业中Rhipe的R回调函数的使用方式。

3）详细介绍：

下面介绍用Rhipe脚本计算CMA。值得注意的是，MapReduce完全嵌入在Rhipe中，这便于将现有的R脚本与MapReduce集成到一起，脚本如下：

#! /usr/bin/env Rscript

library(Rhipe)//加载Rhipe库到内存

rhinit(TRUE,TRUE)//初始化Rhipe

map <- expression({//定义map代码，其在map端执行

process_line <- function(currentLine) {

fields <- unlist(strsplit(currentLine, ","))

lowHigh <- c(as.double(fields[3]), as.double(fields[6]))

rhcollect(fields[1], toString(mean(lowHigh)))//调用Rhipe的rhcollect函数生成map阶段的键值对

}

lapply(map.values, process_line)

})

reduce <- expression(

pre = {//reduce阶段保留了三个步骤，在输入reduce的value值赋给reduce模块之前，对于map输出的每个key，都会调用pre模块一次，map输出的key值存储在reduce.key中（此处没有使用）

means <- numeric(0)

reduce = {//调用reduce模块，value值以向量形式存储在reduce.value中，如果value的值个数大于10000时，该模块会被调用多次，知道value的值读取完毕

means <- c(means, as.numeric(unlist(reduce.values)))

post = {//和map中的类似，调用rhcollect产生最终的键值对结果

rhcollect(reduce.key, toString(mean(means)))

}

)

input_file <- "stocks.txt"

output_dir <- "output"

job <- rhmr(//用rhmr函数设置作业

jobname = "Rhipe CMA",

map = map,

reduce = reduce,

ifolder = input_file,

ofolder = output_dir,

inout = c("text", "sequence")

)

rhex(job)//启动MapReduce作业

4）总结

和Streaming方式相比，使用Rhipe可以直接在R脚本中执行MapReduce作业

$ hadoop fs -put test-data/stocks.txt /tmp/stocks.txt

$ export HADOOP_BIN=/usr/lib/hadoop/bin

$ src/main/R/ch8/stock_cma_rhipe.R//脚本stock_cma_rhipe.R可以直接运行，因为在开始运行时其会通知shell，该脚本的运行方式是通过Rhipe执行的。

为了理解Rhipe的工作方式，以及R代码是如何和Rhipe一起工作的，这就需要了解Rhipe的一系列工作流。首先分析R脚本，理解MapReduce作业是如何被触发的，如图8.7所示：

图8.7更高层次的Rhipe流程

下面展示Rhipe是如何与MapReduce任务上下文一起工作的，首先从map端的任务开始，见图8.8。

Rhipe在reduce端工作方式见图8.9。

Rhipe还包括了一系列用于读取HDFS文件的函数，更多信息参考：http://saptarshiguha.github.com/RHIPE/functions.html#hdfs-related。

需要注意的一点是，Rhipe没有使用Streaming，而是使用其自己的map和reduce函数，以及其自己的输入、输出格式。所以如果你的数据的输入、输出格式和Rhipe要求的不一样，将无法使用。

至此，以及介绍了Rhipe的使用过程，Rhipe提供了R和Hadoop在客户端的集成方式。下一部分介绍RHadoop，其也在客服端提供了R与Hadoop的集成方式，RHadoop更注重于轻量级层面的集成。

图8.8 map端的Rhipe

图8.9 reduce端Rhipe

8.5 RHadoop-R和Hadoop客户端简单集成

RHadoop是由Revolution Analytics创建的开源项目，它提供了另一种R与Hadoop集成的方式，和Rhipe类似，在客户端的R脚本中执行MapReduce程序。

RHadoop由三部分组成：

1 rmr：支持MapReduce集成

2 rdfs：HDFS的R接口

3 rhbase：R与HBase接口

本节主要介绍rmr，因为R与MapReduce的集成是最常使用的，如果想完全理解R和Hadoop的集成，rdfs和rhbase亦值得一窥。

安装RHadoop以及依赖项，可以参考、附录A。

技术60：用RHadoop计算CMA

在这部分介绍如何用RHadoop计算股票的CMA。

1）问题描述：

R和Hadoop在客户端的轻量级集成

2）解决方法：

该技术介绍如何使用RHadoop，在R脚本中直接启动MapReduce作业，同时也会看到RHadoop是如何和Streaming一起工作的。

3）详细介绍：

从概念上来看，RHadoop的工作方式和Rhipe类似，Rhipe中需要设置map和reduce的操作控制，而在RHadoop这也会有类似的设置。

#! /usr/bin/env Rscript

library(rmr)//加载rmr库

map <- function(k,v) {//定义map函数，它的输入是key，value对，调用keyval函数输出map的key，value

fields <- unlist(strsplit(v, ","))

keyval(fields[1], mean(as.double(c(fields[3], fields[6]))))

}

reduce <- function(k,vv) {//每有个map输出的key值，就要调用一次reduce函数，k代表key值，v是一系列值

keyval(k, mean(as.numeric(unlist(vv))))

}

kvtextoutputformat = function(k,v) {//自定义reduce的key，value输出时的分割方式

paste(c(k,v, "\n"), collapse = "\t")

}

mapreduce( //运行MapReduce作业

input = "stocks.txt",

output = "output",

textinputformat = rawtextinputformat,

textoutputformat = kvtextoutputformat,

map = map,

reduce = reduce)

为了执行RHadoop，可以运行如下命令：

$ HADOOP_HOME=<Hadoop installation directory>

$ $HADOOP_HOME/bin/hadoop fs -put test-data/stocks.txt stocks.txt

$ src/main/R/ch8/stock_cma_rmr.R

$ hadoop fs -cat output/part*

CSCO 30.8985

MSFT 44.6725

AAPL 68.997

GOOG 419.943

YHOO 70.971

rmr和Rhipe不同，因为rmr使用的是Streaming。图8.10展示了R代码是如何与MapReduce作业一起工作的。

rmr比较有趣的特性是，在MapReduce的map和reduce中可以使用R的客户端环境。这意味着map和reduce函数可以引用函数体外面的变量，这对R的开发者来说意义重大。

图8.10 rmr和客户端的交互

rmr还有另外一项特性，它可以和MapReduce的输入、输出无缝集成。在该例子中作业的输入已经在HDFS上，在R中不需要与输出进行交互。rmr可以将R变量直接写入HDFS作为MapReduce作业的输入，但计算结束后在将HDFS上的结果加载成为R的数据结构。在处理大数据集是RHadoop可能有些捉襟见肘，但在小数据集的测试和原型验证时其还是有相当优势。

$ R

> library(rmr)

> small.ints = to.dfs(1:10)//创建1:10的数组，将结果存储在HDFS

> out = mapreduce( //The result from the MapReduce job is a closure that can

be used to read the results back out of HDFS

input = small.ints,

map = function(k,v) keyval(v, v^2))

...

> result = from.dfs(out) //从HDFS读取结果

> print(result)

[[1]]

[[1]]$key

[1] 10

[[1]]$val

[1] 100

attr(,"rmr.keyval")

[1] TRUE

...

如果希望学习更多的rmr示例，可以参考https://github.com/RevolutionAnalytics/RHadoop/blob/master/rmr/pkg/docs/tutorial.md。

8.6本章小结

R和Hadoop的融合使大规模统计计算成为可能。随着数据规模和分析需求的增长，R和Hadoop的融合技术变得引人注目。本章主要集中讨论了三种可以将R和Hadoop集成在一起的技术。R和Streaming提供了较低层次的集成，Rhipe和RHadoop框架提供了在客户端R与Hadoop集成。

在学习完本章之后，你可以为自己的项目选择合适的技术。

下一章将继续数据科学主题，主要介绍Mahout用于预测分析。

你可能感兴趣的:(Hadoop in Practice)

浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
国际与国内GCP指南的历史演变和未来方向一线临研人
作为一名临床试验从业者，耳边萦绕最多的恐怕就是“遵守GCP”了。那么，GCP是什么？从哪里来？又到哪里去？本文将全面介绍GCP指南的现状及发展历程，从国际和国内两个角度，分享最新的关于GCP的资讯。GCP是什么？GCP是GoodClinicalPractice的缩写，即《药物临床试验质量管理规范》。GCP是规范药物临床试验全过程的标准规定，包括方案设计、组织实施、监查、稽查、记录、分析总结和报告,
深入理解单元测试元闰子单元测试 log4j
荐语本文要介绍的是2020年O’Reilly出版的书籍UnitTestingPrinciples,Practices,andPatterns，一本在豆瓣评分高达9.9的好书。作为一名软件开发工程师，你应该对单元测试（unittest）很熟悉，但单元测试的目的、Mock的正确用法、单元测试和集成测试的区别等等，你真的懂吗？书中对这些内容都做了深入的介绍，并通过实际案例教你如何写出好的单元测试。读完这
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
月度总结 | 2022年03月 | 考研与就业的抉择 | 确定未来走大数据开发路线「已注销」个人总结 hadoop
一、时间线梳理3月3日，寻找到同专业的就业伙伴3月5日，着手准备Java八股文，决定先走Java后端路线3月8月，申请到了校图书馆的考研专座，决定暂时放弃就业，先准备考研，买了数学和408的资料书3月9日-3月13日，因疫情原因，宿舍区暂封，这段时间在准备考研，发现内容特别多3月13日-3月19日，大部分时间在刷Hadoop、Zookeeper、Kafka的视频，同时在准备实习的项目3月20日，退
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
Hadoop windows intelij 跑 MR WordCount piziyang12138
一、软件环境我使用的软件版本如下:IntellijIdea2017.1Maven3.3.9Hadoop分布式环境二、创建maven工程打开Idea,file->new->Project,左侧面板选择maven工程。(如果只跑MapReduce创建java工程即可，不用勾选Creatfromarchetype，如果想创建web工程或者使用骨架可以勾选)image.png设置GroupId和Artif
Hadoop学习第三课（HDFS架构--读、写流程）小小程序员呀~ 数据库 hadoop 架构 big data
1.块概念举例1：一桶水1000ml，瓶子的规格100ml=>需要10个瓶子装完一桶水1010ml，瓶子的规格100ml=>需要11个瓶子装完一桶水1010ml，瓶子的规格200ml=>需要6个瓶子装完块的大小规格，只要是需要存储，哪怕一点点，也是要占用一个块的块大小的参数：dfs.blocksize官方默认的大小为128M官网：https://hadoop.apache.org/docs/r3.
hadoop启动HDFS命令 m0_67401228 java 搜索引擎 linux 后端
启动命令：/hadoop/sbin/start-dfs.sh停止命令：/hadoop/sbin/stop-dfs.sh
【计算机毕设-大数据方向】基于Hadoop的电商交易数据分析可视化系统的设计与实现程序员-石头山大数据实战案例大数据 hadoop 毕业设计毕设
博主介绍：✌全平台粉丝5W+,高级大厂开发程序员，博客之星、掘金/知乎/华为云/阿里云等平台优质作者。【源码获取】关注并且私信我【联系方式】最下边感兴趣的可以先收藏起来，同学门有不懂的毕设选题，项目以及论文编写等相关问题都可以和学长沟通，希望帮助更多同学解决问题前言随着电子商务行业的迅猛发展，电商平台积累了海量的数据资源，这些数据不仅包括用户的基本信息、购物记录，还包括用户的浏览行为、评价反馈等多
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
spark常用命令我是浣熊的微笑 spark
查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME目录，输入bin/spark-submit--help可以得到该命令的使用帮助。hadoop@wyy:/app/hadoop/spark100$bin/spark-submit--
spark启动命令学不会又听不懂 spark 大数据分布式
hadoop启动：cd/root/toolssstart-dfs.sh，只需在hadoop01上启动stop-dfs.sh日志查看：cat/root/toolss/hadoop/logs/hadoop-root-datanode-hadoop03.outzookeeper启动：cd/root/toolss/zookeeperbin/zkServer.shstart，三台都要启动bin/zkServ
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
Hadoop常见面试题整理及解答叶青舟 Linux hdfs 大数据 hadoop linux
Hadoop常见面试题整理及解答一、基础知识篇：1.把数据仓库从传统关系型数据库转到hadoop有什么优势？答：（1）关系型数据库成本高，且存储空间有限。而Hadoop使用较为廉价的机器存储数据，且Hadoop可以将大量机器构建成一个集群，并在集群中使用HDFS文件系统统一管理数据，极大的提高了数据的存储及处理能力。（2）关系型数据库仅支持标准结构化数据格式，Hadoop不仅支持标准结构化数据格式
2025毕业设计指南：如何用Hadoop构建超市进货推荐系统？大数据分析助力精准采购计算机编程指导师 Java实战集 Python实战集大数据实战集课程设计 hadoop 数据分析 spring boot java 进货 python
✍✍计算机编程指导师⭐⭐个人介绍：自己非常喜欢研究技术问题！专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。⛽⛽实战项目：有源码或者技术上的问题欢迎在评论区一起讨论交流！⚡⚡Java实战|SpringBoot/SSMPython实战项目|Django微信小程序/安卓实战项目大数据实战项目⚡⚡文末获取源码文章目录⚡⚡文末获取源码基于hadoop的超市进货推荐系
Hadoop Common 之序列化机制小解猫君之上 #Apache Hadoop
1.JavaSerializable序列化该序列化通过ObjectInputStream的readObject实现序列化，ObjectOutputStream的writeObject实现反序列化。这不过此种序列化虽然跨病态兼容性强，但是因为存储过多的信息，但是传输效率比较低，所以hadoop弃用它。（序列化信息包括这个对象的类，类签名，类的所有静态，费静态成员的值，以及他们父类都要被写入）publ
深入理解hadoop(一)----Common的实现----Configuration maoxiao_jsd 深入理解----hadoop
属本人个人原创，转载请注明,希望对大家有帮助！！一,hadoop的配置管理a,hadoop通过独有的Configuration处理配置信息Configurationconf=newConfiguration();conf.addResource("core-default.xml");conf.addResource("core-site.xml");后者会覆盖前者中未final标记的相同配置项b
hadoop 0.22.0 部署笔记 weixin_33701564 大数据 java 运维
为什么80%的码农都做不了架构师？>>>因为需要使用hbase，所以开始对hbase进行学习。hbase是部署在hadoop平台上的NOSql数据库，因此在部署hbase之前需要先部署hadoop。环境：redhat5、hadoop-0.22.0.tar.gz、jdk-6u13-linux-i586.zipip192.168.1.128hostname：localhost.localdomain（
解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(4) 2401_84160087 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！org.apache.hadoophadoop-com
解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(3) 2401_84160087 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！xmlns:xsi="http://www.w3.or
深入解析HDFS：定义、架构、原理、应用场景及常用命令 CloudJourney hdfs 架构 hadoop
引言Hadoop分布式文件系统（HDFS，HadoopDistributedFileSystem）是Hadoop框架的核心组件之一，它提供了高可靠性、高可用性和高吞吐量的大规模数据存储和管理能力。本文将从HDFS的定义、架构、工作原理、应用场景以及常用命令等多个方面进行详细探讨，帮助读者全面深入地了解HDFS。1.HDFS的定义1.1什么是HDFSHDFS是Hadoop生态系统中的一个分布式文件系
Hadoop的搭建流程 lzhlizihang hadoop 大数据分布式
文章目录一、配置IP二、配置主机名三、配置主机映射四、关闭防火墙五、配置免密六、安装jdk1、第一步：2、第二步：3、第三步：4、第四步：5、第五步：七、安装hadoop1、上传2、解压3、重命名4、开始配置环境变量5、刷新配置文件6、验证hadoop命令是否可以识别八、全分布搭建7、修改配置文件core-site.xml8、修改配置文件hdfs-site.xml9、修改配置文件hadoop-en
hive搭建 -----内嵌模式和本地模式 lzhlizihang hive hadoop
文章目录一、内嵌模式（使用较少）1、上传、解压、重命名2、配置环境变量3、配置conf下的hive-env.sh4、修改conf下的hive-site.xml5、启动hadoop集群6、给hdfs创建文件夹7、修改hive-site.xml中的非法字符8、初始化元数据9、测试是否成功10、内嵌模式的缺点二、本地模式（最常用）1、检查mysql是否正常2、上传、解压、重命名3、配置环境变量4、修改c
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l

Hadoop in Practice

第8章 使用R和Hadoop进行统计分析及与之相关的信息

8.1 R和MapReduce的集成方法概述

8.2 R基础

8.3 R和Streaming

8.3.1Streming和只有map的R脚本

8.3.2Streaming，R实现完全MapReduce

8.4 Rhipe-R和Hadoop客户端无缝集成

8.5 RHadoop-R和Hadoop客户端简单集成

8.6本章小结

你可能感兴趣的:(Hadoop in Practice)

第8章使用R和Hadoop进行统计分析及与之相关的信息