xiaolang85

Hadoop学习笔记

应用开发

主要知识点如下：

Configuration类（支持overwrite，variable $）

测试（mock单元测试，本地测试，集群测试）

Tool, ToolRunner

集群测试（package, 启动job, Job web UI for namenode and jobtracker）

运程调试器(keep.failed.task.files = true, 使用ISolationRunner)

作业调优（HPROF）

MapReduce工作流 (oozie)

1. 在本地运行测试数据

public class MaxTemperatureDriver extends Configured implements Tool {

public int run(String[] args) throws Exception {

Job job = new Job(getConf(), “compute max temperature”);

job.setJarByClass();

job.setMapperClass();

job.setReducerClass();

FileInputFormat.addInputPath(job, new Path(args[0]));

FileOutputFormat.addOutputPath(job, new Path(args[1]));

return job.waitForCompletion(true);

}

public static void main(String[] args) {

int exitCode = ToolRunner.run(new MaxTemperatureDriver(), args);

System.exit(exitCode);

}

编译上面的代码，在根节点处运行hadoop命令(事先将hadoop进程在本地启动)：

hadoop MaxTemperature –conf conf/hadoop-local.xml input/ncdc max-temp

2. 集群上运行

使用jar命令将class文件打包，然后使用jar命令上传并启动任务(事先将hadoop在集群中启动)：

%hadoop jar job.jar MaxTempratureDriver –conf conf/hadoop-cluster.xml input output

3. Hadoop守护进程的地址和端口

RPC

namenode RPC地址和端口 hdfs://localhost:8020 (fs.default.name)

jobtracker RPC地址和端口 localhost:8021 (mapred.job.tracker)

datanode TCP/IP服务器（块传输） 50010 (dfs.datanode.address)

datanode RPC 地址和端口 localhost:50020 (dfs.datanode.ipc.address)

tasktracker RPC 地址和端口 (mapred.task.tracker.report.address)

HTTP

jobtracker 50030 (mapred.job.tracker.http.address)

tasktracker 50060 (mapred.task.tracker.http.address)

namenode 50070 (dfs.http.address)

datanode 50075 (dfs.datanode.http.address)

secondary 50090 (dfs.secondary.http.address)

4. 作业调试（计数器和状态）

在map/reduce程序中可以通过计数器和状态来记录数据中的一些状态，可以通过webUI或脚本指令来查看运行后的计数器或状态。

context.setStatus(“”);

context.incrCounter(String group, String counter, int num);

命令行查询计数器：

%hadoop job –counter job_201111160811_0003 ‘MaxTemperatureMaper$Temperature’ ENUM

远程调试器

在集群上运行作业很难调试，但是可以配置Hadoop保留作业运行期间产生的所有中间值，以便稍后在调试器上重新运行这些出错的任务。

1) 设置属性保留中间数据 keep.failed.task.files = true

2) 运行作业，在web界面上查看故障节点和task_attempt_ID;

3) 通过上面的ID来查找保存的中间数据文件。mapred.local.dir定义了本地缓存目录，在指定的一个或多个目录下寻找对应的job_id下的task_temp_id目录，下面存放着job.xml，map输入的序列化文件，map输出备份(在output目录下)，和work目录(task_attempt的工作目录)。

4) 在脚本控制台cd到上面的work目录，设置运程调试器属性并启动hadoop进入debug模式：

%export HADOOP_OPTS=”-agentlib:jdwp=transfport=dt_socket,server=y,suspend=y,address=8787”

%hadoop org.apache.hadoop.mapred.IsolationRunner ../job.xml

5) 在运程客户端启动Java IDE如Eclipse远程连接上面主机的8787端口，在map/reduce源代码中设置断点等待。

上述调试技术不只适用于失败的任务，还可以保留成功完成的任务数据来调试内部逻辑。这是，可将属性keep.task.files.pattern设置为一个正则表达式(与保留的任务ID匹配)。

其它一些调试的技巧：

在linux下dump Java thread stack trace

如果是在控制台中运行，则直接ctrl+\

如果是在后台运行，可以先找到运行java的pid，然后kill -QUIT PID，会将thread stack内容输出到该java进程的标准输出流里，例如tomcat就会写在catalina.out里。

jstack[-l]pid

如果java程序崩溃生成core文件，jstack工具可以用来获得core文件的javastack和nativestack的信息，从而可以轻松地知道java程序是如何崩溃和在程序何处发生问题。另外，jstack工具还可以附属到正在运行的java程序中，看到当时运行的java程序的javastack和nativestack的信息,如果现在运行的java程序呈现hung的状态，jstack是非常有用的。

5 作业调优

哪些因素影响作业的运行效率？

mapper的数量：尽量将输入数据切分成数据块的整数倍。如有太多小文件，则考虑CombineFileInputFormat;

reducer的数量：为了达到最高性能，集群中reducer数应该略小于reducer的任务槽数。

combiner: 充分使用合并函数减少map和reduce之间传递的数据量，combiner在map后运行；

中间值的压缩：对map输出值进行压缩减少到reduce前的传递量（conf.setCompressMapOutput(true)和setMapOutputCompressorClass(GzipCodec.class)）；

自定义序列：如果使用自定义的Writable对象或自定义的comparator，则必须确保已实现RawComparator

调整shuffle：MapReduce的shuffle过程可以对一些内存管理的参数进行调整，以弥补性能不足；

另一个有用的方法是启用JDK的HPROF分析来获取程序的CPU和堆栈使用情况。

conf.setProfileEnabled(true); // “mapred.task.profile”

conf.setProfileParams(“-agentlib:hprof=cpu=samples,heap=sites,depth=6,force=n,thread=y,verbose=n,file=%s”); // “mapred.task.profile.params”

conf.setProfileTaskRange(true, “0-2”); // 第一个参数表示map,false则分析reduce;第二个参数任务ID范围

将上述程序加入驱动程序后重新运行，分析结果将输出到作业日志的末尾。

MapReduce工作机制

知识点小结：

shuffle影响性能的因素

1 Map –>buffer –> partition, sort, spill to disk (输出缓冲区，溢出写磁盘比例，运行combiner最小溢出写文件数3, task tracker工作线程数)

2 Reduce

copy (5 threads) –> memory (buffer size) –> disk (threhold) –> merge –> reduce

1 剖析MapReduce作业运行机制

1.1 作业的提交

客户端通过JobClient.runJob()来提交一个作业到jobtracker，JobClient程序逻辑如下：

a) 向Jobtracker请求一个新的job id (JobTracker.getNewJobId())；

b) 检查作业的输出说明，如已存在抛错误给客户端；计算作业的输入分片；

c) 将运行作业所需要的资源（包括作业jar文件，配置文件和计算所得的输入分片）复制到jobtracker的文件系统中以job id命名的目录下。作业jar副本较多（mapred.submit.replication = 10）;

d) 告知jobtracker作业准备执行（submit job）。

1.2 作业的初始化

job tracker接收到对其submitJob()方法的调用后，将其放入内部队列，交由job scheduler进行调度，并对其进行初始化，包括创建一个正在运行作业的对象（封装任务和记录信息）。

为了创建任务运行列表，job scheduler首先从共享文件系统中获取JobClient已计算好的输入分片信息，然后为每个分片创建一个map任务；创建的reduce任务数量由JobConf的mapred.reduce.task属性决定，schedule创建相应数量的reduce任务。任务此时被执行ID。

1.3 任务的分配

jobtacker应该先选择哪个job来运行？这个由job scheduler来决定，下面会详细讲到。

jobtracker如何选择tasktracker来运行选中作业的任务呢？

每个tasktracker定期发送心跳给jobtracker，告知自己还活着，是否可以接受新的任务。jobtracker以此来决定将任务分配给谁（仍然使用心跳的返回值与tasktracker通信）。每个tasktracker会有固定数量的任务槽来处理map和reduce（比如2，表示tasktracker可以同时运行两个map和reduce），由机器内核的数量和内存大小来决定。job tracker会先将tasktracker的map槽填满，然后分配reduce任务到tasktracker。

jobtracker选择哪个tasktracker来运行map任务需要考虑网络位置，它会选择一个离输入分片较近的tasktracker，优先级是数据本地化(data-local)–>机架本地化(rack-local)。

对于reduce任务，没有什么标准来选择哪个tasktracker，因为无法考虑数据的本地化。map的输出始终是需要经过整理（切分排序合并）后通过网络传输到reduce的，可能多个map的输出会切分出一部分送给一个reduce，所以reduce任务没有必要选择和map相同或最近的机器上。

1.4 任务的执行

1. tasktracker分配到一个任务后，首先从HDFS中把作业的jar文件复制到tasktracker所在的本地文件系统（jar本地化用来启动JVM）。同时将应用程序所需要的全部文件从分布式缓存复制到本地磁盘。

2. 接下来tasktracker为任务新建一个本地工作目录work，并把jar文件的内容解压到这个文件夹下。

3. tasktracker新建一个taskRunner实例来运行该任务。TaskRunner启动一个新的JVM来运行每个任务，以便客户的map/reduce不会影响tasktracker守护进程。但在不同任务之间重用JVM还是可能的。子进程通过umbilical接口（？什么含义，暂时未知）与父进程进行通信。任务的子进程每隔几秒便告知父进程的进度，直到任务完成。

Streaming和Pipes是用来运行其它语言编写的map和reduce。Streaming任务特指任务使用标准输入输出steaming与进程通信，可以是任何语言编写的。pipes特指C++语言编写的任务，其通过socket来通信（persistent socket connection）。

1.5 进度和状态的更新

一个作业和每个任务都有一个状态信息，包括：作业或任务的运行状态（running, successful, failed），map和reduce的进度，计数器值，状态消息或描述。

这些信息通过一定的时间间隔由child JVM –> task tracker –> job tracker汇聚。job tracker将产生一个表明所有运行作业及其任务状态的全局试图。你可以通过Web UI查看。同时JobClient通过每秒查询jobtracker来获得最新状态。

1.6 作业的完成

1.7 作业的失败

2. 作业的调度

默认调度器 – 基于队列的FIFO调度器

公平调度器（Fair Scheduler）- 每个用户都有自己的作业池，用map和reduce的任务槽数来定制作业池的最小容量，也可以设置每个池的权重。Fair Scheduler支持抢占，如果一个池在特定的一段时间内未得到公平的资源共享，它会中止运行池得到过多资源的任务，以便把任务槽让给运行资源不足的池。启动步骤：

1）拷贝contrib/fairscheduler下的jar复制到lib下；

2） mapred.jobtracker.taskScheduler = org.apache.hadoop.mapred.FairScheduler

3）重启节点hadoop

能力调度器（Capacity Scheduler）-

3. shuffle和排序

shuffle特指map输出后到reduce运行前得到输入的整个过程，它是MapReduce的心脏，属于不断被优化和改进的代码库的一部分，下面主要针对0.20版本。

Map端

1）Map输出首先放在内存缓冲区（io.sort.mb属性定义，默认100MB）；

2）守护进程会将缓冲区的数据按照目标reducer划分成不同的分区(partition)，同时按键进行内排序；如果客户端定义了combiner，则combiner会在排序后运行，继续压缩缓存区的数据；

3）缓冲区上定义了一个阈值（io.sort.spill.percent，默认为0.8），当存储内容达到这个值时，缓冲区的值会被写到本地文件中（mapred.local.dir定义，可以是一个或多个目录）；这种文件会有多个，每个的内容都是按照reducer分区且局部排序的。这个过程简称spill to disk；

4）Map输出完毕前，这些中间的输出文件会合并成一个已分区且已排序的输出文件中，合并会分多次，每次合并的中间文件个数有io.sort.factor来定义，默认是10；这个过程也会伴随着combiner的运行，min.num.spills.for.combine定义了运行combiner之前溢出写的次数；

5）写磁盘时可以压缩文件。mapred.compress.map.output设置为true，mapred.map.output.compression.codec指定压缩实现类；

map任务完成后，会通知父tasktracker状态已更新，然后tasktracker通过心跳通知jobtracker。下面的reduce所在的tasktracker有一个线程定期询问jobtracker以便获得map输出的位置，直到它获得所有输出的位置。

Reduce端

1）每个map任务的完成时间可能不同，但只要有一个任务完成，reduce任务得知后就开始复制对应它的输出，复制线程数由mapred.reduce.parallel.copies定义，默认为5；

2）如果map输出相当小，则不用复制到文件中，而是reduce tasktracker的内存中。缓冲区大小由mapred.job.shuffle.input.buffer.percent定义用于此用途的堆空间的百分比，默认0.7；一旦内存缓冲区达到阈值大小（由mapred.iob.shuffle.merge.percent，默认值为0.66）或达到reduce输出阈值（mapred.inmem.merge.threshold，默认值为1000），则合并后溢出写到磁盘中；

3）随着磁盘上副本的增多，后台线程会将它们合并为更大的排好序的文件。为了合并，压缩的map输出必须在内存中被解压缩；

4）复制完所有的map输出后，reduce任务进入合并阶段(sort phase，合并多个文件，并按键排序)。io.sort.factor定义了每次合并数，默认为10，即每10个map输出合并一次。会有很多个合并后的中间文件。

5）最后直接把中间文件数据输入给reduce函数，对已排序输出中的每个键都要调用reduce函数，此阶段的输出直接写到HDFS中。

配置的调优

总原则：给shuffle过程尽量多提供内存空间，但也要确保map函数和reduce函数能得到足够的内存。

运行map和reduce任务的JVM内存大小有mapred.child.java.opts属性设置。

在map端，避免多次溢出写磁盘来获得最佳性能。计数器spilled.records计算在作业运行整个阶段中溢出写磁盘的记录数，大则表明写磁盘太频繁；

在reduce端，中间数据全部驻留在内存中就能得到最佳性能。如果reduce函数的内存需求不大，那么把mapred.inmem.merg.threshold设置为0，把mapred.job.reduce.input.buffer.percent设置为1会带来性能的提升。

4. 任务的执行

Hadoop发现一个任务运行比预期慢的时候，它会尽量检测，并启动另一个相同的任务作为备份，即“推测执行”(speculative execution)。

推测执行是一种优化措施，并不能使作业运行更可靠。默认启用，但可以单独为map/reduce任务设置，mapred.map.tasks.speculative.execution和mapred.reduce.tasks.speculative.execution。开启此功能会减少整个吞吐量，在集群中倾向于关闭此选项，而让用户根据个别作业需要开启该功能。

Hadoop为每个任务启动一个新JVM需要耗时1秒，对于大量超短任务如果重用JVM会提升性能。当启用JVM重用后，JVM不会同时运行多个任务，而是顺序执行。tasktracker可以一次启动多个JVM然后同时运行，接着重用这些JVM。控制任务重用JVM的属性是mapred.job.reuse.jvm.num.tasks，它指定给定作业每个JVM运行的任务的最大数，默认为1，即无重用；-1表示无限制即该作业的所有的任务都是有一个JVM。

在map/reduce程序中，可以通过某些环境属性(Configuration)得知作业和任务的信息。

mapred.job.id 作业ID，如job_201104121233_0001

mapred.tip.id 任务ID，如task_201104121233_0001_m_000003

mapred.task.id 任务尝试ID，如attempt_201104121233_0001_m_000003_0

mapred.task.partition 作业中任务的ID，如3

mapred.task.is.map 此任务是否为map任务，如true

MapReduce类型和格式

1. MapReduce的类型

map(K1, V1) –> list (K2, V2) // 对输入数据进行抽取过滤排序等操作

combine(K2, list(V2)) –> list(K2, V2) // 为了减少reduce的输入，需要在map端对输出进行预处理，类似reduce。不是所有的reduce都在部分数据集上有效，比如求平均值就不能简单用于combine

partition(K2, V2) –> integer //将中间键值对划分到一个reduce分区，返回分区索引号。分区内的键会排序，相同的键的所有值会合成一个组（list(V2)）

reduce(K2, list(V2)) –> list(K3, V3) //每个reduce会处理具有某些特性的键，每个键上都有值的序列，是通过对所有map输出的值进行统计得来的；当获得一个分区后，tasktracker会对每条记录调用reduce。

默认的map和reduce函数是IdentityMapper和IdentityReducer，均是泛型类型，简单的将所有输入写到输出中。默认的 partitioner是HashPartitioner，对每天记录的键进行哈希操作以决定该记录属于那个分区让reduce处理。

输入数据的类型有输入格式（InputFormat类）进行设置，其它的类型通过JobConf上的方法显示设置。这里显式设置中间和最终输出类型的原因是因为Java语言的泛型实现是type erasure。另外如果K2和K3是相同类型，就不需要调用setMapOutputKeyClass()，因为它将调用setOutputKeyClass()来设置。

2. 输入格式

2.1输入分片与记录

一个输入分片（split）是由单个map处理的输入块（分片个数即map所需的tasktracker个数），每个分片包含若干记录（key+value），map函数依次处理每条记录。输入分片表示为InputSplit接口，其包含一个以字节为单位的长度和一组存储位置，分片不包含数据本身，而是指向数据的引用。

InputSplit是由InputFormat创建的，一般无需应用开发人员处理。InputFormat负责产生输入分片并将它们分割成记录。

1) JobClient调用InputFormat.getSplites()方法，传入预期的map任务数（只是一个参考值）；

2）InputFormat计算好分片数后，客户端将它们发送到jobtracker，jobtracker便使用其存储位置信息来调度map任务从而在tasktracker上处理这些分片数据。

3）在tasktracker上，map任务把输入分片传给InputFormat的getRecordReader()方法来获得这个分片的RecordReader；RecordReader基本上就是记录上的迭代器，map任务用一个RecordReader来生成记录的键值对，然后在传给map函数。

2.2 FileInputFormat

输入路径可由多个函数FileInputFormat.addInputPath()指定，还可以利用FileInputFormat.setInputPathFilter()设置过滤器。输入分片的大小有上个属性控制：分片最小字节数，分片最大字节数和HDFS数据块字节数。

mapred.min.split.size, mapred.max.split.size, dfs.block.size

计算公式是：

max(minSplitSize, min(maxSplitSize, blockSize))

没有特殊需求，应该尽量让分片大小和数据块大小一致。如果HDFS中存在大批量的小文件，则需要使用CombineFileInputFormat将多个文件打包到一个分片中，以便mapper可以处理更多的数据。一个可以减少大量小文件的方法（适合于小文件在本地文件系统，在上传至HDFS之前将它们合并成大文件）是使用SequenceFile将小文件合并成一个或多个大文件，可以将文件名作为键，文件内容作为值。

有时候不希望输入文件被切分，只需覆盖InputFormat的isSplitable()方法返回false即可。

有时候map程序想知道正在处理的分片信息，可以通过Configuration中的属性得到，包括map.input.file（正在处理的输入文件的路径），map.input.start（分片开始处的字节偏移量）， map.input.length（分片的字节长度）。

有时候map想访问一个文件的所有内容，需要一个RecordReader来读取文件内容作为record的值。可行的方法是实现一个FileInputFormat的子类，将文件标记为不可切分，同时指定一个特定的RecordReader；该RecordReader只是在第一次next()时返回文件的内容。

2.3 文本输入

TextInputFormat是默认的InputFormat。每条记录是一行输入。键是LongWritable类型，存储该行在整个文件中的字节偏移量；值是这行的内容，不包括任何行终止符（换行符和回车符），Text类型。由于一行的长度不定，所以极易出现split分片会跨越HDFS的数据块。

KeyValueTextInputFormat将文件的每一行看作一个键值对，使用某个分界符进行分隔，比如制表符。Hadoop默认输出的TextOutputFormat格式即键值对为一行组成一个文件，处理这类文件就可以使用键值文本输入格式。

NLineInputFormat可以保证map收到固定行数的输入分片，键是文件中行的字节偏移量，值是行内容。默认为1，即一行为一个分片，送给每个map。

2.4 二进制输入

SequenceFileInputFormat存储二进制的键值对的序列。顺序文件SequenceFile是可分割的，也支持压缩，很符合MapReduce数据的格式。

2.5 多种输入

Hadoop也支持在一个作业中对不同的数据集进行连接(join)，即定义多个不同的数据输入源，每个源对应不同的目录、输入格式和Map函数。

MultipleInputs.addInputpath(conf, inputPath, TextInputFormat.class, MaxTemperatureMapper.class);

2.6 数据库输入和输出

DBInputFormat用于使用JDBC从关系数据库中读取数据，但只适合少量的数据集。如果需要与来自HDFS的大数据集连接，要使用MultipleInputs。

在关系数据库和HDFS之间移动数据的另一个方法是Sqoop。

HBase和HDFS之间移动数据使用TableInputFormat和TableOutputFormat。

3. 输出格式

TextOutputFormat是默认的输出格式，它把每条记录写为文本行，键和值可以是任意类型。

SequenceFileOutputFormat将输出写入一个顺序文件，是二进制格式。MapFileOutputFormat把MapFile作为输出，键必须顺序添加，所以必须确保reducer输出的键已经排好序。

FileOutputFormat及其子类产生的文件放在输出目录下，每个reducer一个文件并且文件由分区号命名，如part-00000，part-00001等。有时候需要对文件名进行控制，或让每个reduce输出多个文件，则可使用MultipleOutputFormat和MultipleOutputs类。

MultipleFileOuputFormat可以将数据写到多个文件，关键是如何控制输出文件的命名。它有两个子类：MultipleTextOutputFormat和MultipleSequenceFileOutputFormat。在使用多文件输出时，只需实现它们任何一个的子类，并覆盖generateFileNameForKeyValue()返回输出文件名。

MultipleOutputs类不同的是，可以为不同的输出产生不同的类型。

MultipleOutputs.addMultiNameOutput(conf, “name”, TextOutputFormat.class, KeyClass, valueClass);

新版本Hadoop中上述两个多输出类也合并。

FileOutputFormat的子类会产生输出文件，即使文件是空的。可以使用LazyOutputFormat来去除空文件。

MapReduce的特性

这章主要总结MapReduce的高级特性，包括计数器，数据集的排序和连接。

1. 计数器

计数器是一种收集作业统计信息的有效手段，由于质量控制或应用统计。计数器还可辅助诊断系统故障。

Hadoop为每个作业维护若干内置计数器，以描述该作业的各项指标。计数器由关联任务维护，并定期（3秒）传到tasktracker，再由tasktracker传给jobtracker（5秒，心跳）。一个任务的计数器值每次都是完整传输的，而非增量值。

MapReduce允许用户编写程序定义计数器，一般是由一个Java枚举(enum)类型定义。枚举类型的名称即计数器组名称，枚举类型的字段即计数器名称。计数器在作业实例级别是全局的，MapReduce框架会跨所有的map和reduce来统计这些计数器，并在作业结束时产生一个最终的结果。

enum Temperature {

MISSING, MAlFORMED

}

…

context.incrCounter(Temperature.MISSING, 1);

MapReduce同时支持非枚举类型的动态计数器。

context.incrContext(String group, String counter, int amount);

计数器可以通过很多方式获取，Web界面和命令行（hadoop job -counter指令）之外，用户可以用Java API获取计数器的值。

RunningJob job = jobClient.getJob(JobID.forName(id));

Counters counters = job.getCounters();

long missing = counters.getCounter(MaxTemperatue.Temperature.MISSING);

2. 排序

排序是MapReduce的核心技术，尽管应用程序本身不需要对数据排序，但可以使用MapReduce的排序功能来组织数据。默认情况下，MapReduce根据输入记录的键对数据排序。键的排列顺序是由RawComparator控制的，规则如下：

1）若属性mapred.output.key.comparator.class已设置，则使用该类的实例；

2）否则键必须是WritableComparable的子类，并使用针对该键类的已登记的comparator；

3）如果还没有已登记的comparator，则使用RawComparator将字节流反序列化为一个对象，再由WritableComparable的compareTo()方法进行操作。

全排序

如何用Hadoop产生一个键全局排序的文件？（最好的回答是使用Pig或Hive，两者均可使用一条指令进行排序）

大致方法是，想办法创建一系列排好序的文件，而且这些文件直接也是排序的，比方说第一个文件的值都不第二个文件的值小，则简单的拼装这些文件就可以得到全局排序的结果。问题是如何划分这些文件，并把原始文件的值放入这些排序的文件中？可以使用map的partition来将某一范围的键放入对于的reduce，每个reduce的输入可以保证已排序（局部排序），默认直接输出到part-000×，那所有这些输出组合成一个文件就是全局排序的。为了得到合适的范围，需要对所有输入数据进行统计，实际做法是通过抽样，Hadoop提供InputSampler和IntervalSampler。使用抽样函数事先对input数据进行抽样，得到抽样范围，然后将范围写入分布式缓存，供集群上其它任务使用。

DistributedCache.addCacheFile(cacheFile, conf);

DistributedCache.createSymlink(conf);

辅助排序

MapReduce框架在记录达到reducer之前按键对记录排序，但键所对应的值并没有排序。大多情况下不需考虑值在reduce函数中的出现顺序，但是，有时也需要通过对键进行排序和分组等以实现对值的排序。

例子：设计一个MapReduce程序以计算每年最高气温。

1）使用组合键IntPair，将年份和气温都作为键；

2）按照年份来分区和分组，但排序需要按照年份升序和气温降序。

conf.setPartitionerClass();

conf.setOutputKeyComparatorClass();

conf.setOutputValueGroupingComparator();

3 连接

MapReduce能执行大型数据集间的“连接”操作。

Map端连接指在数据到达map函数之前就执行连接操作。为达到此目的，各map的输入数据必须先分区并且以特定方式排序。各个数据集被划分成相同数量的分区，并且均按相同的键（连接键）排序。同一键的所有记录均会放在同一分区之中。

map连接操作可以连接多个作业的输出，只要这些作业的reduce数量相同，键相同，并且输出文件是不可切分的（如小于HDFS块大小，或gzip压缩）。利用org.apache.mapred.join包中的CompositeInputFormat类来运行一个map端连接，其输入源和连接类型（内连接或外连接）可以通过一个连接表达式进行配置。

Reduce连接不要求数据集符合特定结构，因此比Map连接更为常用。但是，由于数据集均经过mapReduce的shuffle过程，所以reduce端连接的效率往往更低一些。基本思路是mapper为各个记录标记源，并且使用连接键作为map输出键，使键相同的记录放在同一个reducer中。

1）可以使用MultipleInputs来解析和标注各个源；

2）先将某一个数据源传输到reduce。举天气数据为例，气象站信息（气象站id和名字）以气象站ID+“0”为组合键，名字为值，但是按照ID来分区和分组；气象站天气情况（气象站id，时间和气温）以气象站ID+“1”为组合键，气温为值，但是按照ID来分区和分组。两组数据经过不同的map之后，具有相同的ID的记录被合并作为一个记录输入reduce程序，值列表中的第一个是气象站名称，其余的记录都是温度信息。reduce程序只需要取出一个值，并将其作为后续每条输出记录的一部分写到输出文件即可。

conf.setPartitionerClass();

conf.setOutputValueGroupingComparator(Textpair.FirstComparator.class);

4 边数据分布（side data）

边数据是作业所需的额外的只读数据，已辅助处理主数据集。面临的挑战是如何让所有的map和reduce都能方便高效地使用边数据。

1）如果仅需向任务传递少量元数据，则可以通过Configuration来设置每个job的属性，则map/reduce可以覆盖configure（）方法来获取这些元数据值。如果你设置的值是复杂对象，则需要处理序列化工作。在几百个作业同在一个系统中运行的情况下，这种方法会增多内存开销，而且元数据信息在所有节点都缓存，即使在不需要它的jobtracker和tasktracker上。

2）针对小数据量边数据的常用办法是将在map/reduce数据缓存在内存中，并通过重用JVM使tasktracker上同一个作业的后续任务共享这些数据。

3）分布式缓存（-files, -archives）

a）启动作业时，使用files或archives传入元数据文件路径，

%hadoop jar job.jar MaxTempratureSample –file input/metadata/stations-fixed-width.txt input/all output

b）当tasktracker获得任务后，首先将jobtracker中的上述文件复制到本地磁盘，具体在${mapred.local.dir}/taskTracker/archive，缓存的容量是有限的，默认10GB，可以通过local.cache.size来设置。

c）在map/reduce程序中，直接读取“stations-fixed-width.txt”文件。同时可以通过JobConf.getLocalCacheFiles()和JobConf.getLocalCacheArchives()来获取本地文件路径的数组。

5 MapReduce类库

Hadoop还提供了一个MapReduce类库，方便完成常用的功能。

ChainMapper, ChainReducer 在一个MapReduce中运行多个mapper或reducer。（M+RM*）

IntSumReducer, LongSumReducer 对各键的所有整数值进行求和操作的reducer

TokenCounterMapper 输出各单词及其出现的次数

RegexMapper 检查输入值是否匹配某正则表达式，输出匹配字符串和计数器值

原文地址:http://www.distream.org/?cat=17

你可能感兴趣的:(Hadoop学习笔记)

C# Hadoop学习笔记第八个猴子大数据
记录一下学习地址http://www.360doc.com/content/14/0607/22/3218170_384675141.shtml转载于:https://www.cnblogs.com/TF12138/p/4170558.html
hadoop学习笔记草琳情 hadoop 学习笔记
下载安装伪分布式：1.国内源下载地址：https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/Indexof/apache/hadoop/commonhttps://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/https://mirrors.tuna.tsinghua.edu.cn/
第一章大数据Hadoop学习笔记(一） Thanks. hadoop 学习大数据
一、存储单位按顺序给出数据存储单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。一般TB、PB、EB为单位的数据为大数据。1Byte=8bit1K=1024Byte1MB=1024K1G=1024M1T=1024G1P=1024T二、大数据主要解决海量数据的采集、存储和分析计算问题。三、大数据特点(4V)Volume(大量)、Velocity(高速)、Var
【大数据进阶第三阶段之Hive学习笔记】Hive安装伊达 Hive 大数据大数据 hive 学习
1、环境准备安装hadoop以及zookeeper、mysql【大数据进阶第二阶段之Hadoop学习笔记】Hadoop运行环境搭建-CSDN博客《zookeeper的安装与配置》自行百度《Linux环境配置MySQL》自行百度2、下载安装CSDN下载：https://download.csdn.net/download/liguohuaty/88702104Hive官网下载：Downloads(a
大数据高级开发工程师——Hadoop学习笔记（4）讲文明的喜羊羊拒绝pua 大数据 hadoop mapreduce
文章目录Hadoop进阶篇MapReduce：Hadoop分布式并行计算框架MapReduce的理解MapReduce的核心思想MapReduce编程模型MapReduce编程指导思想【八大步骤】Map阶段2个步骤shuffle阶段4个步骤reduce阶段2个步骤MapReduce编程入门——单词统计hadoop当中常用的数据类型词频统计MapReduce的运行模式1.本地模式2.集群运行模式Ma
【大数据进阶第二阶段之Hadoop学习笔记】Hadoop 概述伊达 Hadoop 大数据大数据学习 hadoop
【大数据进阶第二阶段之Hadoop学习笔记】Hadoop概述-CSDN博客【大数据进阶第二阶段之Hadoop学习笔记】Hadoop运行环境搭建-CSDN博客【大数据进阶第二阶段之Hadoop学习笔记】Hadoop运行模式-CSDN博客1、Hadoop是什么（1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构（2）主要解决海量数据的存储和海量数据的分析计算问题（3）广义上来说，Ha
【大数据进阶第二阶段之Hadoop学习笔记】Hadoop 运行环境搭建伊达大数据 Hadoop 大数据 hadoop 学习
【大数据进阶第二阶段之Hadoop学习笔记】Hadoop概述-CSDN博客【大数据进阶第二阶段之Hadoop学习笔记】Hadoop运行环境搭建-CSDN博客【大数据进阶第二阶段之Hadoop学习笔记】Hadoop运行模式-CSDN博客1、模板虚拟机环境准备1.1、hadoop100虚拟机配置要求如下（1）使用yum安装需要虚拟机可以正常上网，yum安装前可以先测试下虚拟机联网情况[root@had
【大数据进阶第二阶段之Hadoop学习笔记】Hadoop 运行模式伊达大数据 hadoop 学习
【大数据进阶第二阶段之Hadoop学习笔记】Hadoop概述-CSDN博客【大数据进阶第二阶段之Hadoop学习笔记】Hadoop运行环境搭建-CSDN博客【大数据进阶第二阶段之Hadoop学习笔记】Hadoop运行模式-CSDN博客目录1、Hadoop运行模式2、编写集群分发脚本xsync2.1、scp(securecopy)：安全拷贝2.2、rsync远程同步工具2.3、xsync集群分发脚本
Hadoop学习笔记[6]-MapReduce与Yarn安装部署流程 kinglinch 大数据 mapreduce yarn hadoop 大数据
Hadoop学习笔记[6]-MapReduce与Yarn安装部署流程前面的文章已经对MR和Yarn做了基本介绍，本文主要介绍MR和Yarn的安装部署流程1、角色划分 NodeManager和DataNode一般都是1:1，主要是为了计算向数据移动，如果NM和DN分开，就得用网路拷贝数据，在Yarn的体系里NM也是从节点，既然其和DN是1:1的关系，所以配置中和HDFS共用一个slaves文件
【Hadoop学习笔记】（二）——Hive的原理及使用 wanger61 大数据开发 hadoop hive 大数据
一、Hive概述Hive是一个在Hadoop中用来处理结构化数据的数据仓库基础工具。它架构在Hadoop之上，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。Hive数据仓库工具能为HDFS上的数据提供类似SQL的查询语言（HiveQL），并将SQL语句转变成MapReduce任务来执行。Hive明显降低了Hadoop的使用门槛，任何熟悉SQL的用
四、Hadoop学习笔记————各种工具用法 weixin_30528371 大数据数据库
hive基本hql语法Sqoop(发音：skup)是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如：MySQL,Oracle,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。数据传递转载于:https://www.cnblogs.com/
Hadoop学习笔记（17）Hive的数据类型和文件编码柏冉看世界 hadoop
一、Hive的常用内部命令1、有好几种方式可以与Hive进行交互。此处主要是命令行界面（CLI）。2、$HIVE_HOME/bin目录下包含了可以执行各种各样Hive服务的可执行文件，包括hive命令行界面（CLI是使用Hive的最常用方式）。[admin@master~]$cdapache-hive-1.2.2-bin/bin[admin@masterbin]$lsbeelineexthiveh
大数据高级开发工程师——Hadoop学习笔记（7）讲文明的喜羊羊拒绝pua 大数据 hadoop big data mapreduce yarn
文章目录Hadoop进阶篇YARN：Hadoop资源调度系统什么是YARNYARN架构剖析1.ResourceManager2.NodeManager3.Container4.ApplicationMaster5.JobHistoryServer6.TimelineServerYARN应用运行原理1.YARN应用提交过程2.MapReduceonYARN提交作业初始化作业Task任务分配Task任
Hadoop学习笔记（一）分布式文件存储系统 —— HDFS zhang35 大数据技术栈大数据分布式 Hadoop 入门 hdfs
概念HDFS（HadoopDistributedFileSystem），Hadoop分布式文件系统，用来存超大文件的。HDFS遵循主/从架构，由单个NameNode(NN)和多个DataNode(DN)组成：NameNode:负责执行有关文件系统命名空间的操作，例如打开，关闭、重命名文件和目录等。它同时还负责集群元数据的存储，记录着文件中各个数据块的位置信息。管理员，负责协调。DataNode：负
大数据高级开发工程师——Hadoop学习笔记（1）讲文明的喜羊羊拒绝pua 大数据大数据 hadoop hdfs 集群 zookeeper
文章目录Hadoop基础篇Hadoop集群安装环境准备服务器准备设置时钟同步三台虚拟机添加普通用户三台虚拟机定义统一目录三台虚拟机hadoop用户设置免密登录三台虚拟机安装jdkhadoop集群安装环境部署规划安装包下载查看hadoop支持的压缩方式以及本地库修改配置文件修改hadoop-env.sh修改core-site.xml修改hdfs-site.xml修改mapred-site.xml修改
Hadoop学习笔记(3)——MapReduce入门今天有没有写代码大数据 hadoop java
一、MapReduce介绍MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。”map"负责分，即把复杂的任务分解为若干简单的任务来处理。前提是这些小任务可以并行计算，彼此间几乎没有依赖关系“Redude”负责合，即对map阶段的结果进行全局汇总1.MapReduce设计构思MapRed
hadoop学习笔记(五)Hive安装部署 So.j hadoop学习笔记大数据 hive hadoop
Hive安装部署Hive安装及配置配置已经完成,在此处启动hadoop集群Hive常用命令将本地文件导入Hive案例安装MySqlHive元数据配置到MySqlHive安装及配置下载地址:https://pan.baidu.com/s/1_7g8Bw85Nw03t40H67sLfQ提取码:gj4n把apache-hive-1.2.1-bin.tar.gz上传到linux的/opt/software
Hadoop学习笔记（7）Hadoop解压安装以及配置柏冉看世界 hadoop
一、安装Hadoop之前说明安装Hadoop需要在官网把Hadoop文件下载好，并且上传到Linux中。上传步骤请参考：Hadoop学习笔记（6）如何使用Xshell从Windows向Linux上传文件二、解压安装Hadoop输入命令查看文件存放[admin@master~]$lshadoop-2.5.2.tar.gztestusr公共模板视频图片文档下载音乐桌面开始解压安装[admin@mast
hadoop学习笔记--1３.hive 属性配置、交互式命令行和文件系统交互 liuzebin9 Hadoop hadoop hive
一、hive配置文件常见属性1.在cli命令行上显示当前的数据库名以及查询的行头信息在hive-site.xml中添加以下配置hive.cli.print.headertrueWhethertoprintthenamesofthecolumnsinqueryoutput.hive.cli.print.current.dbtrueWhethertoincludethecurrentdatabasei
hadoop学习笔记——NO.4_HADOOP集群搭建与使用初步蔡茂昌 hadoop学习笔记
HADOOP集群搭建与使用初步HADOOP集群搭建集群简介HADOOP集群具体来说包含两个集群：HDFS集群和YARN集群，两者逻辑上分离，但物理上常在一起HDFS集群：负责海量数据的存储，集群中的角色主要有NameNode/DataNodeYARN集群：负责海量数据运算时的资源调度，集群中的角色主要有ResourceManager/NodeManager本集群搭建案例，以5节点为例进行搭建，角色
Hadoop学习笔记---大数据概论入门沉迷技术不能自拔大数据 hadoop 学习
第一章：大数据概念大数据是指无法在一定时间范围内，用常用的工具软件进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。大数据主要解决海量数据的采集、存储和分析计算问题。按顺序给出存储单位：bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。1Byte=8bit1KB=1024MB1MB=102
Hadoop入门+组成学习笔记 Fan_Coder Hadoop hadoop 大数据 mapreduce
Hadoop学习笔记Hadoop的优势（4高）1.高可靠性—Hadoop底层有多个数副本，保存再不同的服务器里，即使一台计算机出现故障，也不会丢失数据2.高扩展性—可以添加多个节点3.高效性—再MapReduce的思想下，Hadoop是并行工作的4.高容错性—能够自动将失败的任务重新分配Hadoop1.x和2.x组成Hadoop1.x和2.x的区别？Hadoop1.x里MapReduce负责逻辑运
Hadoop学习笔记：运行wordcount对文件字符串进行统计案例朱季谦大数据 hadoop 学习笔记
文/朱季谦我最近使用四台Centos虚拟机搭建了一套分布式hadoop环境，简单模拟了线上上的hadoop真实分布式集群，主要用于业余学习大数据相关体系。其中，一台服务器作为NameNode，一台作为SecondaryNameNode，剩下两台当做DataNodes节点服务器，类似下面这样一个架构——NameNodeSecondaryNameNodeDataNodesmaster1(192.168
Hadoop学习笔记怕被各位卷死大数据学习笔记 hadoop 学习大数据
HDFS、YARN、MapReduce概述及三者之间的关系一、Hadoop组成（面试重点）1.1Hadoop1.x、2.x、3.x区别在Hadoop1.x时代，Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度，耦合性较大。在Hadoop2.x时代，增加了Yarn。Yarn只负责资源的调度，MapReduce只负责运算Hadoop3.x在组成上没有变化。1.2HDFS架构概述HDF
Hadoop学习笔记——入门基础枫落@ hadoop 学习笔记
Hadoop优势高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失。高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点高效性：在MapReduced的思想下，Hadoop是并行工作的，以加快任务处理速度。高容错性：能够自动将失败的任务重新分配。Hadoop各版本区别在Hadoop1.x时代Hadoop中的MapReduce同时处
hadoop学习笔记1了解流程大概小美元 hadoop 学习大数据
海量数据的存储hdfs海量数据的计算：mapreducehdfs概述namenode：元数据，存储在哪个节点，存储什么信息datanode：存储数据2nn：备份namenode的信息yarn概述负责集群资源的管理ResourceManger：服务器运行的老大nodemanger：单个服务器运行的老大MapReduce架构概述mapreduce将计算分为两个阶段：map阶段把任务分下去reduce阶
hbase的学习逻辑_Hadoop学习笔记之十六——HBase框架学习（基础知识篇） weixin_39574140 hbase的学习逻辑
HBase是ApacheHadoop的数据库，能够对大型数据提供随机、实时的读写访问。HBase的目标是存储并处理大型的数据。HBase是一个开源的，分布式的，多版本的，面向列的存储模型，它存储的是松散型数据。一、HBase：BigTable的开源实现1.1HBase出现的背景(1)随着数据规模越来越大，大量业务场景开始考虑数据存储水平扩展，使得存储服务可以增加/删除，而目前的关系型数据库更专注于
Hadoop学习笔记泥地小白菜 hadoop
文章目录前言这是关于Hadoop的学习笔记，仅供个人使用-----2022.8.12当前企业数据分析方向：1.现状分析（分析当下的数据）：现阶段的整体情况，各个部分的构成占比，发展，变动2.原因分析（分析过去的数据）：某一现状为什么发生，确定原因，做出调整优化3.预测分析（结合数据预测未来）：结合已有数据预测未来发展趋势1.原因分析：离线分析（BatchProcessing）：面向过去，面向历史，
HBase/Hadoop学习笔记 (转) wbj0110 Hive MapReduce 测试 Hadoop Hbase Storm 性能 Hadoop Hbase MapReduce 性能测试
HBase/Hadoop学习笔记学习目标：至少掌握五点：1.深入理解HTable，掌握如何结合业务涉及高性能的HTable。2.掌握与HBase的交互，通过HBaseShell命令及JavaAPI进行数据的增删改查。3.掌握如何用MapReduce分析HBase里的数据4.掌握如何测试HBaseMapReduce。HBase简介：HBase在产品中还包含了Jetty，在HBase启动时采用嵌入式的
HBase/Hadoop学习笔记 codepython Hbase hadoop hadoop hbase mapreduce
学习目标：至少掌握五点：1.深入理解HTable，掌握如何结合业务涉及高性能的HTable。2.掌握与HBase的交互，通过HBaseShell命令及JavaAPI进行数据的增删改查。3.掌握如何用MapReduce分析HBase里的数据4.掌握如何测试HBaseMapReduce。HBase简介：HBase在产品中还包含了Jetty，在HBase启动时采用嵌入式的方式来启动Jetty，因此可以通
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_