蓝狐乐队

Hadoop工作原理学习笔记

应用开发

主要知识点如下：

Configuration类（支持overwrite，variable $）

测试（mock单元测试，本地测试，集群测试）

Tool, ToolRunner

集群测试（package, 启动job, Job web UI for namenode and jobtracker）

运程调试器(keep.failed.task.files = true, 使用ISolationRunner)

作业调优（HPROF）

MapReduce工作流 (oozie)

1. 在本地运行测试数据

public class MaxTemperatureDriver extends Configured implements Tool {

public int run(String[] args) throws Exception {

Job job = new Job(getConf(), “compute max temperature”);

job.setJarByClass();

job.setMapperClass();

job.setReducerClass();

FileInputFormat.addInputPath(job, new Path(args[0]));

FileOutputFormat.addOutputPath(job, new Path(args[1]));

return job.waitForCompletion(true);

}

public static void main(String[] args) {

int exitCode = ToolRunner.run(new MaxTemperatureDriver(), args);

System.exit(exitCode);

}

编译上面的代码，在根节点处运行hadoop命令(事先将hadoop进程在本地启动)：

hadoop MaxTemperature –conf conf/hadoop-local.xml input/ncdc max-temp

2. 集群上运行

使用jar命令将class文件打包，然后使用jar命令上传并启动任务(事先将hadoop在集群中启动)：

%hadoop jar job.jar MaxTempratureDriver –conf conf/hadoop-cluster.xml input output

3. Hadoop守护进程的地址和端口

RPC

namenode RPC地址和端口 hdfs://localhost:8020 (fs.default.name)

jobtracker RPC地址和端口 localhost:8021 (mapred.job.tracker)

datanode TCP/IP服务器（块传输） 50010 (dfs.datanode.address)

datanode RPC 地址和端口 localhost:50020 (dfs.datanode.ipc.address)

tasktracker RPC 地址和端口 (mapred.task.tracker.report.address)

HTTP

jobtracker 50030 (mapred.job.tracker.http.address)

tasktracker 50060 (mapred.task.tracker.http.address)

namenode 50070 (dfs.http.address)

datanode 50075 (dfs.datanode.http.address)

secondary 50090 (dfs.secondary.http.address)

4. 作业调试（计数器和状态）

在map/reduce程序中可以通过计数器和状态来记录数据中的一些状态，可以通过webUI或脚本指令来查看运行后的计数器或状态。

context.setStatus(“”);

context.incrCounter(String group, String counter, int num);

命令行查询计数器：

%hadoop job –counter job_201111160811_0003 ‘MaxTemperatureMaper$Temperature’ ENUM

远程调试器

在集群上运行作业很难调试，但是可以配置Hadoop保留作业运行期间产生的所有中间值，以便稍后在调试器上重新运行这些出错的任务。

1) 设置属性保留中间数据 keep.failed.task.files = true

2) 运行作业，在web界面上查看故障节点和task_attempt_ID;

3) 通过上面的ID来查找保存的中间数据文件。mapred.local.dir定义了本地缓存目录，在指定的一个或多个目录下寻找对应的job_id下的task_temp_id目录，下面存放着job.xml，map输入的序列化文件，map输出备份(在output目录下)，和work目录(task_attempt的工作目录)。

4) 在脚本控制台cd到上面的work目录，设置运程调试器属性并启动hadoop进入debug模式：

%export HADOOP_OPTS=”-agentlib:jdwp=transfport=dt_socket,server=y,suspend=y,address=8787”

%hadoop org.apache.hadoop.mapred.IsolationRunner ../job.xml

5) 在运程客户端启动Java IDE如Eclipse远程连接上面主机的8787端口，在map/reduce源代码中设置断点等待。

上述调试技术不只适用于失败的任务，还可以保留成功完成的任务数据来调试内部逻辑。这是，可将属性keep.task.files.pattern设置为一个正则表达式(与保留的任务ID匹配)。

其它一些调试的技巧：

在linux下dump Java thread stack trace

如果是在控制台中运行，则直接ctrl+\

如果是在后台运行，可以先找到运行java的pid，然后kill -QUIT PID，会将thread stack内容输出到该java进程的标准输出流里，例如tomcat就会写在catalina.out里。

jstack[-l]pid

如果java程序崩溃生成core文件，jstack工具可以用来获得core文件的javastack和nativestack的信息，从而可以轻松地知道java程序是如何崩溃和在程序何处发生问题。另外，jstack工具还可以附属到正在运行的java程序中，看到当时运行的java程序的javastack和nativestack的信息,如果现在运行的java程序呈现hung的状态，jstack是非常有用的。

5 作业调优

哪些因素影响作业的运行效率？

mapper的数量：尽量将输入数据切分成数据块的整数倍。如有太多小文件，则考虑CombineFileInputFormat;

reducer的数量：为了达到最高性能，集群中reducer数应该略小于reducer的任务槽数。

combiner: 充分使用合并函数减少map和reduce之间传递的数据量，combiner在map后运行；

中间值的压缩：对map输出值进行压缩减少到reduce前的传递量（conf.setCompressMapOutput(true)和setMapOutputCompressorClass(GzipCodec.class)）；

自定义序列：如果使用自定义的Writable对象或自定义的comparator，则必须确保已实现RawComparator

调整shuffle：MapReduce的shuffle过程可以对一些内存管理的参数进行调整，以弥补性能不足；

另一个有用的方法是启用JDK的HPROF分析来获取程序的CPU和堆栈使用情况。

conf.setProfileEnabled(true); // “mapred.task.profile”

conf.setProfileParams(“-agentlib:hprof=cpu=samples,heap=sites,depth=6,force=n,thread=y,verbose=n,file=%s”); // “mapred.task.profile.params”

conf.setProfileTaskRange(true, “0-2”); // 第一个参数表示map,false则分析reduce;第二个参数任务ID范围

将上述程序加入驱动程序后重新运行，分析结果将输出到作业日志的末尾。

MapReduce工作机制

知识点小结：

shuffle影响性能的因素

1 Map –>buffer –> partition, sort, spill to disk (输出缓冲区，溢出写磁盘比例，运行combiner最小溢出写文件数3, task tracker工作线程数)

2 Reduce

copy (5 threads) –> memory (buffer size) –> disk (threhold) –> merge –> reduce

1 剖析MapReduce作业运行机制

1.1 作业的提交

客户端通过JobClient.runJob()来提交一个作业到jobtracker，JobClient程序逻辑如下：

a) 向Jobtracker请求一个新的job id (JobTracker.getNewJobId())；

b) 检查作业的输出说明，如已存在抛错误给客户端；计算作业的输入分片；

c) 将运行作业所需要的资源（包括作业jar文件，配置文件和计算所得的输入分片）复制到jobtracker的文件系统中以job id命名的目录下。作业jar副本较多（mapred.submit.replication = 10）;

d) 告知jobtracker作业准备执行（submit job）。

1.2 作业的初始化

job tracker接收到对其submitJob()方法的调用后，将其放入内部队列，交由job scheduler进行调度，并对其进行初始化，包括创建一个正在运行作业的对象（封装任务和记录信息）。

为了创建任务运行列表，job scheduler首先从共享文件系统中获取JobClient已计算好的输入分片信息，然后为每个分片创建一个map任务；创建的reduce任务数量由JobConf的mapred.reduce.task属性决定，schedule创建相应数量的reduce任务。任务此时被执行ID。

1.3 任务的分配

jobtacker应该先选择哪个job来运行？这个由job scheduler来决定，下面会详细讲到。

jobtracker如何选择tasktracker来运行选中作业的任务呢？

每个tasktracker定期发送心跳给jobtracker，告知自己还活着，是否可以接受新的任务。jobtracker以此来决定将任务分配给谁（仍然使用心跳的返回值与tasktracker通信）。每个tasktracker会有固定数量的任务槽来处理map和reduce（比如2，表示tasktracker可以同时运行两个map和reduce），由机器内核的数量和内存大小来决定。job tracker会先将tasktracker的map槽填满，然后分配reduce任务到tasktracker。

jobtracker选择哪个tasktracker来运行map任务需要考虑网络位置，它会选择一个离输入分片较近的tasktracker，优先级是数据本地化(data-local)–>机架本地化(rack-local)。

对于reduce任务，没有什么标准来选择哪个tasktracker，因为无法考虑数据的本地化。map的输出始终是需要经过整理（切分排序合并）后通过网络传输到reduce的，可能多个map的输出会切分出一部分送给一个reduce，所以reduce任务没有必要选择和map相同或最近的机器上。

1.4 任务的执行

1. tasktracker分配到一个任务后，首先从HDFS中把作业的jar文件复制到tasktracker所在的本地文件系统（jar本地化用来启动JVM）。同时将应用程序所需要的全部文件从分布式缓存复制到本地磁盘。

2. 接下来tasktracker为任务新建一个本地工作目录work，并把jar文件的内容解压到这个文件夹下。

3. tasktracker新建一个taskRunner实例来运行该任务。TaskRunner启动一个新的JVM来运行每个任务，以便客户的map/reduce不会影响tasktracker守护进程。但在不同任务之间重用JVM还是可能的。子进程通过umbilical接口（？什么含义，暂时未知）与父进程进行通信。任务的子进程每隔几秒便告知父进程的进度，直到任务完成。

Streaming和Pipes是用来运行其它语言编写的map和reduce。Streaming任务特指任务使用标准输入输出steaming与进程通信，可以是任何语言编写的。pipes特指C++语言编写的任务，其通过socket来通信（persistent socket connection）。

1.5 进度和状态的更新

一个作业和每个任务都有一个状态信息，包括：作业或任务的运行状态（running, successful, failed），map和reduce的进度，计数器值，状态消息或描述。

这些信息通过一定的时间间隔由child JVM –> task tracker –> job tracker汇聚。job tracker将产生一个表明所有运行作业及其任务状态的全局试图。你可以通过Web UI查看。同时JobClient通过每秒查询jobtracker来获得最新状态。

1.6 作业的完成

1.7 作业的失败

2. 作业的调度

默认调度器 – 基于队列的FIFO调度器

公平调度器（Fair Scheduler）- 每个用户都有自己的作业池，用map和reduce的任务槽数来定制作业池的最小容量，也可以设置每个池的权重。Fair Scheduler支持抢占，如果一个池在特定的一段时间内未得到公平的资源共享，它会中止运行池得到过多资源的任务，以便把任务槽让给运行资源不足的池。启动步骤：

1）拷贝contrib/fairscheduler下的jar复制到lib下；

2） mapred.jobtracker.taskScheduler = org.apache.hadoop.mapred.FairScheduler

3）重启节点hadoop

能力调度器（Capacity Scheduler）-

3. shuffle和排序

shuffle特指map输出后到reduce运行前得到输入的整个过程，它是MapReduce的心脏，属于不断被优化和改进的代码库的一部分，下面主要针对0.20版本。

Map端

1）Map输出首先放在内存缓冲区（io.sort.mb属性定义，默认100MB）；

2）守护进程会将缓冲区的数据按照目标reducer划分成不同的分区(partition)，同时按键进行内排序；如果客户端定义了combiner，则combiner会在排序后运行，继续压缩缓存区的数据；

3）缓冲区上定义了一个阈值（io.sort.spill.percent，默认为0.8），当存储内容达到这个值时，缓冲区的值会被写到本地文件中（mapred.local.dir定义，可以是一个或多个目录）；这种文件会有多个，每个的内容都是按照reducer分区且局部排序的。这个过程简称spill to disk；

4）Map输出完毕前，这些中间的输出文件会合并成一个已分区且已排序的输出文件中，合并会分多次，每次合并的中间文件个数有io.sort.factor来定义，默认是10；这个过程也会伴随着combiner的运行，min.num.spills.for.combine定义了运行combiner之前溢出写的次数；

5）写磁盘时可以压缩文件。mapred.compress.map.output设置为true，mapred.map.output.compression.codec指定压缩实现类；

map任务完成后，会通知父tasktracker状态已更新，然后tasktracker通过心跳通知jobtracker。下面的reduce所在的tasktracker有一个线程定期询问jobtracker以便获得map输出的位置，直到它获得所有输出的位置。

Reduce端

1）每个map任务的完成时间可能不同，但只要有一个任务完成，reduce任务得知后就开始复制对应它的输出，复制线程数由mapred.reduce.parallel.copies定义，默认为5；

2）如果map输出相当小，则不用复制到文件中，而是reduce tasktracker的内存中。缓冲区大小由mapred.job.shuffle.input.buffer.percent定义用于此用途的堆空间的百分比，默认0.7；一旦内存缓冲区达到阈值大小（由mapred.iob.shuffle.merge.percent，默认值为0.66）或达到reduce输出阈值（mapred.inmem.merge.threshold，默认值为1000），则合并后溢出写到磁盘中；

3）随着磁盘上副本的增多，后台线程会将它们合并为更大的排好序的文件。为了合并，压缩的map输出必须在内存中被解压缩；

4）复制完所有的map输出后，reduce任务进入合并阶段(sort phase，合并多个文件，并按键排序)。io.sort.factor定义了每次合并数，默认为10，即每10个map输出合并一次。会有很多个合并后的中间文件。

5）最后直接把中间文件数据输入给reduce函数，对已排序输出中的每个键都要调用reduce函数，此阶段的输出直接写到HDFS中。

配置的调优

总原则：给shuffle过程尽量多提供内存空间，但也要确保map函数和reduce函数能得到足够的内存。

运行map和reduce任务的JVM内存大小有mapred.child.java.opts属性设置。

在map端，避免多次溢出写磁盘来获得最佳性能。计数器spilled.records计算在作业运行整个阶段中溢出写磁盘的记录数，大则表明写磁盘太频繁；

在reduce端，中间数据全部驻留在内存中就能得到最佳性能。如果reduce函数的内存需求不大，那么把mapred.inmem.merg.threshold设置为0，把mapred.job.reduce.input.buffer.percent设置为1会带来性能的提升。

4. 任务的执行

Hadoop发现一个任务运行比预期慢的时候，它会尽量检测，并启动另一个相同的任务作为备份，即“推测执行”(speculative execution)。

推测执行是一种优化措施，并不能使作业运行更可靠。默认启用，但可以单独为map/reduce任务设置，mapred.map.tasks.speculative.execution和mapred.reduce.tasks.speculative.execution。开启此功能会减少整个吞吐量，在集群中倾向于关闭此选项，而让用户根据个别作业需要开启该功能。

Hadoop为每个任务启动一个新JVM需要耗时1秒，对于大量超短任务如果重用JVM会提升性能。当启用JVM重用后，JVM不会同时运行多个任务，而是顺序执行。tasktracker可以一次启动多个JVM然后同时运行，接着重用这些JVM。控制任务重用JVM的属性是mapred.job.reuse.jvm.num.tasks，它指定给定作业每个JVM运行的任务的最大数，默认为1，即无重用；-1表示无限制即该作业的所有的任务都是有一个JVM。

在map/reduce程序中，可以通过某些环境属性(Configuration)得知作业和任务的信息。

mapred.job.id 作业ID，如job_201104121233_0001

mapred.tip.id 任务ID，如task_201104121233_0001_m_000003

mapred.task.id 任务尝试ID，如attempt_201104121233_0001_m_000003_0

mapred.task.partition 作业中任务的ID，如3

mapred.task.is.map 此任务是否为map任务，如true

MapReduce类型和格式

1. MapReduce的类型

map(K1, V1) –> list (K2, V2) // 对输入数据进行抽取过滤排序等操作

combine(K2, list(V2)) –> list(K2, V2) // 为了减少reduce的输入，需要在map端对输出进行预处理，类似reduce。不是所有的reduce都在部分数据集上有效，比如求平均值就不能简单用于combine

partition(K2, V2) –> integer //将中间键值对划分到一个reduce分区，返回分区索引号。分区内的键会排序，相同的键的所有值会合成一个组（list(V2)）

reduce(K2, list(V2)) –> list(K3, V3) //每个reduce会处理具有某些特性的键，每个键上都有值的序列，是通过对所有map输出的值进行统计得来的；当获得一个分区后，tasktracker会对每条记录调用reduce。

默认的map和reduce函数是IdentityMapper和IdentityReducer，均是泛型类型，简单的将所有输入写到输出中。默认的 partitioner是HashPartitioner，对每天记录的键进行哈希操作以决定该记录属于那个分区让reduce处理。

输入数据的类型有输入格式（InputFormat类）进行设置，其它的类型通过JobConf上的方法显示设置。这里显式设置中间和最终输出类型的原因是因为Java语言的泛型实现是type erasure。另外如果K2和K3是相同类型，就不需要调用setMapOutputKeyClass()，因为它将调用setOutputKeyClass()来设置。

2. 输入格式

2.1输入分片与记录

一个输入分片（split）是由单个map处理的输入块（分片个数即map所需的tasktracker个数），每个分片包含若干记录（key+value），map函数依次处理每条记录。输入分片表示为InputSplit接口，其包含一个以字节为单位的长度和一组存储位置，分片不包含数据本身，而是指向数据的引用。

InputSplit是由InputFormat创建的，一般无需应用开发人员处理。InputFormat负责产生输入分片并将它们分割成记录。

1) JobClient调用InputFormat.getSplites()方法，传入预期的map任务数（只是一个参考值）；

2）InputFormat计算好分片数后，客户端将它们发送到jobtracker，jobtracker便使用其存储位置信息来调度map任务从而在tasktracker上处理这些分片数据。

3）在tasktracker上，map任务把输入分片传给InputFormat的getRecordReader()方法来获得这个分片的RecordReader；RecordReader基本上就是记录上的迭代器，map任务用一个RecordReader来生成记录的键值对，然后在传给map函数。

2.2 FileInputFormat

输入路径可由多个函数FileInputFormat.addInputPath()指定，还可以利用FileInputFormat.setInputPathFilter()设置过滤器。输入分片的大小有上个属性控制：分片最小字节数，分片最大字节数和HDFS数据块字节数。

mapred.min.split.size, mapred.max.split.size, dfs.block.size

计算公式是：

max(minSplitSize, min(maxSplitSize, blockSize))

没有特殊需求，应该尽量让分片大小和数据块大小一致。如果HDFS中存在大批量的小文件，则需要使用CombineFileInputFormat将多个文件打包到一个分片中，以便mapper可以处理更多的数据。一个可以减少大量小文件的方法（适合于小文件在本地文件系统，在上传至HDFS之前将它们合并成大文件）是使用SequenceFile将小文件合并成一个或多个大文件，可以将文件名作为键，文件内容作为值。

有时候不希望输入文件被切分，只需覆盖InputFormat的isSplitable()方法返回false即可。

有时候map程序想知道正在处理的分片信息，可以通过Configuration中的属性得到，包括map.input.file（正在处理的输入文件的路径），map.input.start（分片开始处的字节偏移量）， map.input.length（分片的字节长度）。

有时候map想访问一个文件的所有内容，需要一个RecordReader来读取文件内容作为record的值。可行的方法是实现一个FileInputFormat的子类，将文件标记为不可切分，同时指定一个特定的RecordReader；该RecordReader只是在第一次next()时返回文件的内容。

2.3 文本输入

TextInputFormat是默认的InputFormat。每条记录是一行输入。键是LongWritable类型，存储该行在整个文件中的字节偏移量；值是这行的内容，不包括任何行终止符（换行符和回车符），Text类型。由于一行的长度不定，所以极易出现split分片会跨越HDFS的数据块。

KeyValueTextInputFormat将文件的每一行看作一个键值对，使用某个分界符进行分隔，比如制表符。Hadoop默认输出的TextOutputFormat格式即键值对为一行组成一个文件，处理这类文件就可以使用键值文本输入格式。

NLineInputFormat可以保证map收到固定行数的输入分片，键是文件中行的字节偏移量，值是行内容。默认为1，即一行为一个分片，送给每个map。

2.4 二进制输入

SequenceFileInputFormat存储二进制的键值对的序列。顺序文件SequenceFile是可分割的，也支持压缩，很符合MapReduce数据的格式。

2.5 多种输入

Hadoop也支持在一个作业中对不同的数据集进行连接(join)，即定义多个不同的数据输入源，每个源对应不同的目录、输入格式和Map函数。

MultipleInputs.addInputpath(conf, inputPath, TextInputFormat.class, MaxTemperatureMapper.class);

2.6 数据库输入和输出

DBInputFormat用于使用JDBC从关系数据库中读取数据，但只适合少量的数据集。如果需要与来自HDFS的大数据集连接，要使用MultipleInputs。

在关系数据库和HDFS之间移动数据的另一个方法是Sqoop。

HBase和HDFS之间移动数据使用TableInputFormat和TableOutputFormat。

3. 输出格式

TextOutputFormat是默认的输出格式，它把每条记录写为文本行，键和值可以是任意类型。

SequenceFileOutputFormat将输出写入一个顺序文件，是二进制格式。MapFileOutputFormat把MapFile作为输出，键必须顺序添加，所以必须确保reducer输出的键已经排好序。

FileOutputFormat及其子类产生的文件放在输出目录下，每个reducer一个文件并且文件由分区号命名，如part-00000，part-00001等。有时候需要对文件名进行控制，或让每个reduce输出多个文件，则可使用MultipleOutputFormat和MultipleOutputs类。

MultipleFileOuputFormat可以将数据写到多个文件，关键是如何控制输出文件的命名。它有两个子类：MultipleTextOutputFormat和MultipleSequenceFileOutputFormat。在使用多文件输出时，只需实现它们任何一个的子类，并覆盖generateFileNameForKeyValue()返回输出文件名。

MultipleOutputs类不同的是，可以为不同的输出产生不同的类型。

MultipleOutputs.addMultiNameOutput(conf, “name”, TextOutputFormat.class, KeyClass, valueClass);

新版本Hadoop中上述两个多输出类也合并。

FileOutputFormat的子类会产生输出文件，即使文件是空的。可以使用LazyOutputFormat来去除空文件。

MapReduce的特性

这章主要总结MapReduce的高级特性，包括计数器，数据集的排序和连接。

1. 计数器

计数器是一种收集作业统计信息的有效手段，由于质量控制或应用统计。计数器还可辅助诊断系统故障。

Hadoop为每个作业维护若干内置计数器，以描述该作业的各项指标。计数器由关联任务维护，并定期（3秒）传到tasktracker，再由tasktracker传给jobtracker（5秒，心跳）。一个任务的计数器值每次都是完整传输的，而非增量值。

MapReduce允许用户编写程序定义计数器，一般是由一个Java枚举(enum)类型定义。枚举类型的名称即计数器组名称，枚举类型的字段即计数器名称。计数器在作业实例级别是全局的，MapReduce框架会跨所有的map和reduce来统计这些计数器，并在作业结束时产生一个最终的结果。

enum Temperature {

MISSING, MAlFORMED

}

…

context.incrCounter(Temperature.MISSING, 1);

MapReduce同时支持非枚举类型的动态计数器。

context.incrContext(String group, String counter, int amount);

计数器可以通过很多方式获取，Web界面和命令行（hadoop job -counter指令）之外，用户可以用Java API获取计数器的值。

RunningJob job = jobClient.getJob(JobID.forName(id));

Counters counters = job.getCounters();

long missing = counters.getCounter(MaxTemperatue.Temperature.MISSING);

2. 排序

排序是MapReduce的核心技术，尽管应用程序本身不需要对数据排序，但可以使用MapReduce的排序功能来组织数据。默认情况下，MapReduce根据输入记录的键对数据排序。键的排列顺序是由RawComparator控制的，规则如下：

1）若属性mapred.output.key.comparator.class已设置，则使用该类的实例；

2）否则键必须是WritableComparable的子类，并使用针对该键类的已登记的comparator；

3）如果还没有已登记的comparator，则使用RawComparator将字节流反序列化为一个对象，再由WritableComparable的compareTo()方法进行操作。

全排序

如何用Hadoop产生一个键全局排序的文件？（最好的回答是使用Pig或Hive，两者均可使用一条指令进行排序）

大致方法是，想办法创建一系列排好序的文件，而且这些文件直接也是排序的，比方说第一个文件的值都不第二个文件的值小，则简单的拼装这些文件就可以得到全局排序的结果。问题是如何划分这些文件，并把原始文件的值放入这些排序的文件中？可以使用map的partition来将某一范围的键放入对于的reduce，每个reduce的输入可以保证已排序（局部排序），默认直接输出到part-000×，那所有这些输出组合成一个文件就是全局排序的。为了得到合适的范围，需要对所有输入数据进行统计，实际做法是通过抽样，Hadoop提供InputSampler和IntervalSampler。使用抽样函数事先对input数据进行抽样，得到抽样范围，然后将范围写入分布式缓存，供集群上其它任务使用。

DistributedCache.addCacheFile(cacheFile, conf);

DistributedCache.createSymlink(conf);

辅助排序

MapReduce框架在记录达到reducer之前按键对记录排序，但键所对应的值并没有排序。大多情况下不需考虑值在reduce函数中的出现顺序，但是，有时也需要通过对键进行排序和分组等以实现对值的排序。

例子：设计一个MapReduce程序以计算每年最高气温。

1）使用组合键IntPair，将年份和气温都作为键；

2）按照年份来分区和分组，但排序需要按照年份升序和气温降序。

conf.setPartitionerClass();

conf.setOutputKeyComparatorClass();

conf.setOutputValueGroupingComparator();

3 连接

MapReduce能执行大型数据集间的“连接”操作。

Map端连接指在数据到达map函数之前就执行连接操作。为达到此目的，各map的输入数据必须先分区并且以特定方式排序。各个数据集被划分成相同数量的分区，并且均按相同的键（连接键）排序。同一键的所有记录均会放在同一分区之中。

map连接操作可以连接多个作业的输出，只要这些作业的reduce数量相同，键相同，并且输出文件是不可切分的（如小于HDFS块大小，或gzip压缩）。利用org.apache.mapred.join包中的CompositeInputFormat类来运行一个map端连接，其输入源和连接类型（内连接或外连接）可以通过一个连接表达式进行配置。

Reduce连接不要求数据集符合特定结构，因此比Map连接更为常用。但是，由于数据集均经过mapReduce的shuffle过程，所以reduce端连接的效率往往更低一些。基本思路是mapper为各个记录标记源，并且使用连接键作为map输出键，使键相同的记录放在同一个reducer中。

1）可以使用MultipleInputs来解析和标注各个源；

2）先将某一个数据源传输到reduce。举天气数据为例，气象站信息（气象站id和名字）以气象站ID+“0”为组合键，名字为值，但是按照ID来分区和分组；气象站天气情况（气象站id，时间和气温）以气象站ID+“1”为组合键，气温为值，但是按照ID来分区和分组。两组数据经过不同的map之后，具有相同的ID的记录被合并作为一个记录输入reduce程序，值列表中的第一个是气象站名称，其余的记录都是温度信息。reduce程序只需要取出一个值，并将其作为后续每条输出记录的一部分写到输出文件即可。

conf.setPartitionerClass();

conf.setOutputValueGroupingComparator(Textpair.FirstComparator.class);

4 边数据分布（side data）

边数据是作业所需的额外的只读数据，已辅助处理主数据集。面临的挑战是如何让所有的map和reduce都能方便高效地使用边数据。

1）如果仅需向任务传递少量元数据，则可以通过Configuration来设置每个job的属性，则map/reduce可以覆盖configure（）方法来获取这些元数据值。如果你设置的值是复杂对象，则需要处理序列化工作。在几百个作业同在一个系统中运行的情况下，这种方法会增多内存开销，而且元数据信息在所有节点都缓存，即使在不需要它的jobtracker和tasktracker上。

2）针对小数据量边数据的常用办法是将在map/reduce数据缓存在内存中，并通过重用JVM使tasktracker上同一个作业的后续任务共享这些数据。

3）分布式缓存（-files, -archives）

a）启动作业时，使用files或archives传入元数据文件路径，

%hadoop jar job.jar MaxTempratureSample –file input/metadata/stations-fixed-width.txt input/all output

b）当tasktracker获得任务后，首先将jobtracker中的上述文件复制到本地磁盘，具体在${mapred.local.dir}/taskTracker/archive，缓存的容量是有限的，默认10GB，可以通过local.cache.size来设置。

c）在map/reduce程序中，直接读取“stations-fixed-width.txt”文件。同时可以通过JobConf.getLocalCacheFiles()和JobConf.getLocalCacheArchives()来获取本地文件路径的数组。

5 MapReduce类库

Hadoop还提供了一个MapReduce类库，方便完成常用的功能。

ChainMapper, ChainReducer 在一个MapReduce中运行多个mapper或reducer。（M+RM*）

IntSumReducer, LongSumReducer 对各键的所有整数值进行求和操作的reducer

TokenCounterMapper 输出各单词及其出现的次数

RegexMapper 检查输入值是否匹配某正则表达式，输出匹配字符串和计数器值

你可能感兴趣的:(Hadoop工作原理学习笔记)

【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
四章-32-点要素的聚合彩云飘过
本文基于腾讯课堂老胡的课《跟我学Openlayers--基础实例详解》做的学习笔记，使用的openlayers5.3.xapi。源码见1032.html，对应的官网示例https://openlayers.org/en/latest/examples/cluster.htmlhttps://openlayers.org/en/latest/examples/earthquake-clusters.
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
语文主题教学学习笔记之87 东哥杂谈
“语文主题教学”学习笔记之八十七（0125）今天继续学习小学语文主题教学的实践样态。板块三：教学中体现“书艺”味道。作为四大名著之一的《水浒传》，堪称我国文学宝库之经典。对从《水浒传》中摘选的单元，教师就要了解其原生态，即评书体特点。这也要求教师要了解一些常用的评书行话术语，然后在教学时适时地加入一些，让学生体味其文本中原有的特色。学生也要尽可能地通过朗读的方式，而不单是分析讲解的方式进行学习。细
计算机木马详细编写思路小熊同学哦 php 开发语言木马木马思路
导语：计算机木马（ComputerTrojan）是一种恶意软件，通过欺骗用户从而获取系统控制权限，给黑客打开系统后门的一种手段。虽然木马的存在给用户和系统带来严重的安全风险，但是了解它的工作原理与编写思路，对于我们提高防范意识、构建更健壮的网络安全体系具有重要意义。本篇博客将深入剖析计算机木马的详细编写思路，以及如何复杂化挑战，以期提高读者对计算机木马的认识和对抗能力。计算机木马的基本原理计算机木
在RabbitMQ中四种常见的消息路由模式 Xwzzz_ rabbitmq 分布式
1.Fanout模式Fanout模式的交换机是扇出交换机（FanoutExchange），它会将消息广播给所有绑定到它的队列，而不考虑消息的内容或路由键。工作原理：生产者发送消息到FanoutExchange。FanoutExchange会将消息广播给所有绑定到它的队列，所有绑定的队列都会收到这条消息。消费者监听绑定的队列，处理收到的消息。特点：没有路由键：消息不需要路由键，所有绑定的队列都会接收
C++八股 Petrichorzncu 八股总结 c++开发语言
这里写目录标题C++内存管理C++的构造函数，复制构造函数，和析构函数深复制与浅复制：构造函数和析构函数哪个能写成虚函数，为什么？C++数据结构内存排列结构体和类占用的内存：==虚函数和虚表的原理==虚函数虚表（Vtable）虚函数和虚表的实现细节==内存泄漏==指针的工作原理函数的传值和传址new和delete与malloc和freeC++内存区域划分C++11新特性C++常见新特性==智能指针
《转介绍方法论》学习笔记小可乐的妈妈
一、高效转介绍的流程：价值观---执行----方案一）转介绍发生的背景：1、对象：谁向谁转介绍？全员营销，人人参与。①员工的激励政策、客户的转介绍诱因制作客户画像：a信任；支付能力；意愿度；便利度（根据家长具备四个特征的个数分为四类）B性格分类C职业分类D年龄性别②执行：套路，策略，方法，流程2、诱因：为什么要转介绍？认同信任；多方共赢；传递美好；零风险承诺打动人心，超越期待。选择做教育，就是选择
JAVA学习笔记之23种设计模式学习 victorfreedom Java技术设计模式 android java 常用设计模式
博主最近买了《设计模式》这本书来学习，无奈这本书是以C++语言为基础进行说明，整个学习流程下来效率不是很高，虽然有的设计模式通俗易懂，但感觉还是没有充分的掌握了所有的设计模式。于是博主百度了一番，发现有大神写过了这方面的问题，于是博主迅速拿来学习。一、设计模式的分类总体来说设计模式分为三大类：创建型模式，共五种：工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式，共七种：适配器
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
新能源汽车 BMS 学习笔记篇—BMS 基本定义及分类 WPG大大通其他笔记汽车 BMS 经验分享新能源电池
一、BMS定义1、概念：BMS（BatteryManagementSystem）即电池管理系统，其管理对象是二次电池（充电电池或蓄电池），其主要目的是电池的利用率，防止电池出现过度充电和过度放电，可应用于电动汽车、电瓶车、机器人、无人机等图片来源：腾讯网https://new.qq.com《标准普尔警告，电动汽车电池生产面临供应链和地缘政治风险》2、四大功能①感知和测量：检测电池的电压、电流、温度
KVM虚拟机源代码分析【转】 xidianjiapei001 #虚拟化技术
1.KVM结构及工作原理1.1KVM结构KVM基本结构有两部分组成。一个是KVMDriver，已经成为Linux内核的一个模块。负责虚拟机的创建，虚拟内存的分配，虚拟CPU寄存器的读写以及虚拟CPU的运行等。另外一个是稍微修改过的Qemu，用于模拟PC硬件的用户空间组件，提供I/O设备模型以及访问外设的途径。KVM基本结构如图1所示。其中KVM加入到标准的Linux内核中，被组织成Linux中标准
吴恩达深度学习笔记(30)-正则化的解释极客Array
正则化（Regularization）深度学习可能存在过拟合问题——高方差，有两个解决方法，一个是正则化，另一个是准备更多的数据，这是非常可靠的方法，但你可能无法时时刻刻准备足够多的训练数据或者获取更多数据的成本很高，但正则化通常有助于避免过拟合或减少你的网络误差。如果你怀疑神经网络过度拟合了数据，即存在高方差问题，那么最先想到的方法可能是正则化，另一个解决高方差的方法就是准备更多数据，这也是非常
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
变频器：原理、应用及其在现代工业与生活中的节能与智能控制作用智能科技前沿人工智能科技生活单片机嵌入式硬件
创作不易，您的打赏、关注、点赞、收藏和转发是我坚持下去的动力！1.变频器的原理变频器（Inverter），是一种将固定频率的交流电（通常是50Hz或60Hz）转换为可变频率和电压的交流电的电气设备。其工作原理是基于电力电子技术和控制理论的应用，能够通过改变供给电机的电源频率来控制电动机的速度和扭矩。变频器的基本工作原理可以分为以下几个阶段：整流：首先，将输入的交流电（AC）通过整流器（通常是二极管
梧桐数据库（WuTongDB）：数据库技术中都有哪些常见的优化器鲁鲁517 梧桐数据库梧桐数据库
以下是一些常见的数据库优化器：1.CBO（Cost-BasedOptimizer）应用场景：广泛应用于关系型数据库中，如Oracle、PostgreSQL、MySQL等。工作原理：通过计算不同执行计划的代价（如CPU、I/O等资源消耗），选择最低代价的执行计划。代表数据库：Oracle、PostgreSQL、MySQL。特点：CBO使用统计信息（如表大小、索引分布）来评估查询的代价。2.RBO（R
golang学习笔记--MPG模型 xxzed golang #学习笔记学习笔记 golang
MPG模式：M（Machine）：操作系统的主线程P（Processor）：协程执行需要的资源（上下文context），可以看作一个局部的调度器，使go代码在一个线程上跑，他是实现从N：1到N：M映射的关键G（Goroutine）：协程，有自己的栈。包含指令指针（instructionpointer）和其它信息（正在等待的channel等等），用于调度。一个P下面可以有多个G1、当前程序有三个M,
碎片化学习笔记分享剑客写作
现在生活节奏很快，学习力成为了我们拥有的最大财富。碎片化学习是最好的。首先，不要太过自信，学会虚心学习，是我们面对现实的好方法，才能够常保新鲜。平时我们要拥有什么工具呢？1.思维导图2.写在印象笔记里3.听书，消燥耳机4.教学输出5.录音笔里面最好的方式就是教学输出法，记忆里最好。当输出时我们集中精力记忆里最好。有人认为缩短睡眠时间来学习，其实最好的方式是保持最好的睡眠，记忆力会更好。剥夺睡眠，会
OSPF LSA5、LSA7 中 FA 工作原理详解斐夷所非 network 网络
FA(ForwardingAddress)仅出现在LSA5或LSA7中，它是数据包访问外部网络时，在数据报文离开OSPF路由域时必须经过的设备地址。LSA5作用LSA5区别于LSA3/LSA4，LSA5仅负责通告OSPF路由域外其他协议的路由，如RIP、BGP等。当外部路由引入到OSPF后，靠LSA5将其泛洪到OSPF路由域。LSA5具有其他LSA所没有的泛洪范围，除了特殊类型区域(Stub及NS
2023-10-16呼建荣，中原焦点团队，网络中级第33期，坚持分享734天呼建荣
筑基课团体心理咨询技能第一讲。团体辅导、咨询、治疗的异同。1.相同：工作原理、技术、方法相似，都认为人的困惑与障碍是人与外部环境的关系出了问题，都认为可以通过团体中人际互动来解决。2.区别：①团体辅导，起源于学校，有主题，重在信息和知识的传递。人数一般在25至45人。②团体咨询，针对心理咨询，少则三五人，多则十几人到几十人。更关心团体之间的互动。重视团体动力和问题解决。③团体治疗起源于医院，6－1
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
Kafka 基础与架构理解 StaticKing KAFKA kafka
目录前言Kafka基础概念消息队列简介：Kafka与传统消息队列（如RabbitMQ、ActiveMQ）的对比Kafka的组件Kafka的工作原理：消息的生产、分发、消费流程Kafka系统架构Kafka的分布式架构设计Leader-Follower机制与数据复制Log-basedStorage和持久化Broker间通信协议Zookeeper在Kafka中的角色总结前言Kafka是一个分布式的消息系
git：文件存储方式 xuanyu22 工具 git github
引言我们知道git跟踪文件会经历三个阶段：工作区，暂存区和本地仓库（参考git：理解工作区，暂存区和本地仓库），在这些阶段文件如何被储存？理解git文件的存储方式能帮助我们掌握git的工作原理。git对象在上述三个阶段，文件会以对象（object）的形式存储在.git/objects目录下，对象主要有三类：commit，tree和blob。假设初始目录如下：├──.git├──file│└──c.
《随园诗话》学习笔记三百零六飞鸿雪舞
卷五凡诗之传者，都在灵性五、五斗米与诗【原文】丁丑，余觅一抄书人，或荐黄生，名之纪，号星岩者，人甚朴野。偶过其案头，得句云；“破庵僧卖临街瓦，独井人争向晚泉。”余大奇之，即饷米五斗。自此欣然大用力于诗。五言句云：“云开日脚直，雨落水纹圆。竹锐穿泥壁，蝇酣落酒尊。钓久知鱼性，樵多识树名。笔残芦并用，墨尽指同磨。＂七言云：＂小窗近水寒偏觉，古木遮天曙不知。旧生萍处泥犹绿，新落花时水亦香。旧甓恐闲都贮水
4×4矩阵键盘详解（STM32）辰哥单片机设计 STM32传感器教学矩阵计算机外设 stm32 嵌入式硬件单片机传感器
目录一、介绍二、传感器原理1.原理图2.工作原理介绍三、程序设计main.c文件button4_4.h文件button4_4.c文件四、实验效果五、资料获取项目分享一、介绍矩阵键盘，又称为行列式键盘，是用4条I/O线作为行线，4条I/O线作为列线组成的键盘。在行线和列线的每一个交叉点上设置一个按键，因此键盘中按键的个数是4×4个。这种行列式键盘结构能够有效地提高单片机系统中I/O口的利用率，节约单
STM32 如何生成随机数千千道 STM32 stm32 单片机物联网
目录一、引言二、STM32随机数发生器概述三、工作原理1.噪声源2.线性反馈移位寄存器（LFSR）3.数据寄存器（RNG_DR）4.监控和检测电路：5.控制和状态寄存器6.生成流程四、使用方法1.使能随机数发生器2.读取随机数3.错误处理五、注意事项1.随机数的质量2.安全性3.性能考虑六、总结一、引言在嵌入式系统开发中，随机数的生成常常是一个重要的需求。无论是用于加密、模拟、游戏还是其他需要不确
D15 论语学习笔记许小兔Angelina
悟：上级对下级的宽容：凡事成定局，就不你说了；已接近完结的事，也没必要匡正和挽回了；既然是过去的事，也没必要追究得失和责任了。对待孩子教育也是，不用“问责制”，这样容易让孩子因为害怕担责而说谎。应当循循善诱，避免再犯错才是最重要的。3.16：【原文】子曰：“射不主皮，为力不同科，古之道也。”【译文】孔子说：“射箭比赛不以射透为主，而主要看是否射得准确，因为人的力量不同，自古如此。”3.17：【原文
STM32 的 RTC（实时时钟）详解千千道 STM32 stm32 物联网单片机
目录一、引言二、RTC概述三、RTC的工作原理1.时钟源2.计数器3.闹钟功能4.备份寄存器四、RTC寄存器1.RTC_TR（TimeRegister，时间寄存器）2.RTC_DR（DateRegister，日期寄存器）3.RTC_SSR（SubsecondRegister，亚秒寄存器）4.RTC_PRER（PrescalerRegister，预分频器寄存器）5.RTC_CR（ControlReg
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe