wenyusuran

Hadoop实战 -- IO

第一部分：数据完整性

数据完整性及其采用的技术

保证数据在传输过程中不损坏，常见的保证数据完整性采用的技术

A.奇偶校验技术

B.ECC校验纠错技术

C.CRC-32循环冗余校验技术

HDFS以透明方式校验所有写入它的数据，并在默认设置下，会在读取数据时验证校验和。针对数据的每个io.bytes.per.checksum(默认512字节)字节，都会创建一个单独的校验和。

数据节点负责在存储数据及其校验和之前验证它们收到的数据。从客户端和其它数据节点复制过来的数据。客户端写入数据并且将它发送到一个数据节点管线中，在管线的最后一个数据节点验证校验和。

客户端读取数据节点上的数据时，会验证校验和，将其与数据节点上存储的校验和进行对比。每个数据节点维护一个连续的校验和验证日志，因此它知道每个数据块最后验证的时间。每个数据节点还会在后台线程运行一个DataBlockScanner（数据块检测程序），定期验证存储在数据节点上的所有块，为了防止物理存储介质中位衰减锁造成的数据损坏。

HDFS通过复制完整的副本来产生一个新的，无错的副本来“治愈”哪些出错的数据块。工作方式：如果客户端读取数据块时检测到错误，抛出Checksum Exception前报告该坏块以及它试图从名称节点中药读取的数据节点。名称节点将这个块标记为损坏的，不会直接复制给客户端或复制该副本到另一个数据节点。它会从其他副本复制一个新的副本。

本地文件系统

Hadoop的本地文件系统执行客户端校验。意味着，在写一个名filename的文件时，文件系统的客户端以透明的方式创建一个隐藏.filename.crc。在同一个文件夹下，包含每个文件块的校验和。

数据块大小由io.bytes.per.checksum属性控制，块的大小作为元数据存储在.crc文件中。也可能禁用校验和：底层文件系统原生支持校验和。这里通过 RawLocalFileSystem来替代LocalFileSystem完成。要在一个应用中全局使用，只需要设置fs.file.impl值为 org.apache.hadoop.fs.RawLocalFileSystem来重新map执行文件的URL。或者只想对某些读取禁用校验和校验。例子：

Configuration conf = ...

FileSystem fs = new RawLocalFileSystem();

fs.initialize(null, conf)；

ChecksumFileSystem

LocalFileSystem使用ChecksumFileSystem(校验和文件系统)为自己工作，这个类可以很容易添加校验和功能到其他文件系统中。因为ChecksumFileSystem也包含于文件系统中。

第二部分：压缩

编码/解码器：用以执行压缩解压算法。

•

•DEFLATE org.apache.hadoop.io.compress.DefaultCodec

•gzip org.apache.hadoop.io.compress.GzipCodec

•bzip2 org.apache.hadoop.io.compress.Bzip2Codec

•LZO com.hadoop.compression.lzo.LzopCodec

•CompressionCodec 对流进行进行压缩与解压缩

•CompressionCodecFactory 方法来推断CompressionCodec

Hadoop支持的压缩形式

压缩格式	工具	算法	文件扩展名	多文件	可分割性
DEFLATE	无	DEFLATE	.deflate	不	不
gzip	gzip	DEFLATE	.gz	不	不
bzip2	bzip2	bzip2	.bz2	不	是
LZO	lzop	LZO	.lzo	不	不

•属性名:

io.compression.codecs

默认值： org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.ompress.Bzip2Codec

•本地库

压缩格式	Java 实现	本地实现
DEFLATE	是	是
Gzip	是	是
Bzip2	是	否
LZO	否	是

压缩与输入分割

•前提：

在考虑如何压缩那些将由MapReduce处理的数据时，考虑压缩格式是否支持分割是很重要的。

• 案例

•假设，一个文件时一个gzip格式的压缩文件，压缩后的大小为1GB。HDFS将其分为16块。然而针对每一块在进行分块是不可以的，因为gzip合适的文件不支持分割（分块）机制，所以读取他的MapReduce不分割文件，造成了只有Map读取16块文件的情况。导致运行时间变长。

•应该选择哪种压缩形式

•总体原则，还要经过测试，才可以决定。

•经验：大文件选择支持分割的压缩形式

在 MR 中使用压缩

•前提：

如果文件是压缩过的，那么在被MapReduce读取时，它们会被解压，根据文件的扩展名来选择应该使用拿一种压缩解码器。

•使用：

•压缩MapReduce的作业输出，在作业配置中将 mapred.output.compress属性设置为true,将mapred.output.compression.codec属性设置为自己需要使用的压缩解码/编码器的类名。

•通过gunzip –c file来查看结果。

Ø代码示例

conf.setBoolean(“mapred.output.compress’,true)

Conf.setClass(“mapred.output.compression.codec”,GizpCodec.class,

CompressionCodec.class);

•Map作业输出结果的压缩

•使用原因

因为Map作业的中间结果会输出到本地，并在网络上传递。所以压缩能获得更好性能，因为传播的数据减少了。

•Map输出压缩属性

•mapred.compress.map.output

•mapred.map.output

•compression.codec

•代码示例

•conf.setCompressMapOutput

•conf.setMapOutputCompressorClass(GzipCodec.classs)

第三部分：序列化

什么是Hadoop的序列化

•序列化（serialization）

序列化指的是将结构化对象转为字节流以便于通过网络进行传输或写入持久存储的过程。反序列化指的是将字节流转为一系列结构化对象的过程。

序列化用于：进程间通信与持久存储。

RPC序列化建议的特性

1.紧凑(Compact)即方便网络传输,充分利用存储空间

2.快速（Fast)即序列化及反序列化性能要好

3.扩展性(Extensible)即协议有变化，可以支持新的需求

4.互操作性（Interoperable）即客户端及服务器端不依赖语言的实现

Hadoop使用Writables,满足紧凑、快速，不满足扩展能及互操作性

•Hadoop的序列化不是java的序列化，Hadoop自己实现了自己的序列化机制。格式Writables。

•Hadoop中定义了两个序列化相关的接口：Writable接口和Comparable接口，这两个接口可以合成一个接口WritableComparable.

Writable 接口

Writable 接口定义了两个方法：

（1）一个用于将其状态写入二进制格式的 DataOutput 流；

（2）另一个用于从二进制格式的 DataInput 流读取其状态；

我们可以使用 set() 函数来创建和设置 Writable 的值：

IntWritable wirtable = new IntWritable();

writable.set(163);

同样我们也可以使用构造函数：

IntWritable writable = new IntWritable(163);

package org.apache.hadoop.io;

import java.io.DataOutput;

import java.io.DataInput;

import java.io.IOException;

public interface Writable {

void write(DataOutput out) throws IOException;

void readFields(DataInput in) throws IOException;}

Writable 接口

Writable 接口定义了两个方法：

（1）一个用于将其状态写入二进制格式的 DataOutput 流；

（2）另一个用于从二进制格式的 DataInput 流读取其状态；

我们可以使用 set() 函数来创建和设置 Writable 的值：

IntWritable wirtable = new IntWritable();

writable.set(163);

同样我们也可以使用构造函数：

IntWritable writable = new IntWritable(163);

IntWritable 实现了 WritableComparable 接口，后者是 Writable 与 java.lang.Comprable 接口的子接口

package org.apache.hadoop.io;

public interface WritableComparable<T> extends Writable,Comparable<T> {}

Hadoop 优化比对，不需要反序列化即可比较。

package org.apache.hadoop.io;

import java.util.Comparator;

public interface RawComparator<T> extends Comparator<T> {

public int compare( byte [] b1, int s1, int l1, byte [] b2, int s2, int l2);

}

WritableComparator 是一个 RawComparator 通用的实现，为 WritableComparable classes.

它做了两件事

1.实现了 compare() 方法(返序列化）

2.它充当的是 RawComparator 的工厂类

Hadoop 自带的序列化接口

实现了 WritableComparable 接口的类：

基础： BooleanWritable | ByteWritable

仅实现了 Writable 接口的类：

数组： ArrayWritable | TwoDArrayWritable

映射： AbstractMapWritable | MapWritable | SortedMapWritable

•Text

Text是UTF-8的Writable。可以将它理解为一种与java.lang.String 相类似的Writable。Text类代替了UTF-8类。

Text是可变的，其值可以通过调用set()方法来改变。最大存储是2GB。

•NullWritable

NullWritable是一种特殊的Writable类型，因为它的序列化的长度是零。可以做占位符。

•BytesWritable
BytesWritable 是一个二进制的数据数组封装。它的序列化格式是一个int字段.

BytesWritable是可变的，其值可以通过调用set()方法来改变。

•ObjectWriable

ObjectWriable 适用于字段可以使用多种类型时。

•Writable集合

一共四种：

ArrayWritable和TwoDArrayWritable是针对数组与二维数组

MapWritable和SortededMapWritable 针对是Map与SortMap

•实现WritableComparable

•实现

/** * 将对象转换为字节流并写入到输出流out中 */

write()

/** * 从输入流in 中读取字节流并反序列化为对象 */

readFields(),

/** * 将this对像与对象O比较*/

compareTo()方法。

第四部分：基于文件的数据结构

SequeceFile是Hadoop API提供的一种二进制文件支持。这种二进制文件直接将<key, value>对序列化到文件中。一般对小文件可以使用这种文件合并，即将文件名作为key，文件内容作为value序列化到大文件中 Key是任意的Writable，Value是任意的Writable我们可以实现将许多小文件转化为SequenceFile，以方便Map/Reduce处理实际上，现在Hadoop处理时，都会将数据转为SequenceFile格式，无论是性能还是压缩上的考量。

这种文件格式有以下好处：

A.支持压缩，且可定制为基于Record或Block压缩（Block级压缩性能较优）

B.本地化任务支持：因为文件可以被切分，因此MapReduce任务时数据的本地化情况应该是非常好的。

C.难度低：因为是Hadoop框架提供的API，业务逻辑侧的修改比较简单。

写 SequenceFile

步骤：

1. 设置 Configuration

2. 获取 File System

3. 设置文件输出路径

4. SequenceFile.createWriter 创建 SequenceFile.Writer 然后写入

5. 调用 SequenceFile.Writer .append 追加写入

6. 关闭流

读 SequenceFile

步骤：

1. 设置 Configuration

2. 获取 File System

3. 设置文件输出路径

4. SequenceFile.Reader 创建读取类 SequenceFile.Reader

5. 拿到 Key 与 Value 的 class

6. 读取

通过命令行读写 SequenceFile

步骤：

1. 设置 Configuration

2. 获取 File System

3. 设置文件输出路径

4. SequenceFile.Reader 创建读取类 SequenceFile.Reader

5. 拿到 Key 与 Value 的 class

6. 读取

MapFile

MapFile 是经过排序的带索引的 SequenceFile ，可以根据键值进行查找 .

由两部分组成，分别是 data 和 index 。 index 作为文件的数据索引，主要记录了每个 Record 的 key 值，以及该 Record 在文件中的偏移位置。在 MapFile 被访问的时候 , 索引文件会被加载到内存，通过索引映射关系可迅速定位到指定 Record 所在文件位置，因此，相对 SequenceFile 而言， MapFile 的检索效率是高效的，缺点是会消耗一部分内存来存储 index 数据 .

需注意的是， MapFile 并不会把所有 Record 都记录到 index 中去，默认情况下每隔 128 条记录存储一个索引映射。当然，记录间隔可人为修改，通过 MapFIle.Writer 的 setIndexInterval() 方法，或修改 io.map.index.interval 属性；

另外，与 SequenceFile 不同的是， MapFile 的 KeyClass 一定要实现 WritableComparable 接口 , 即 Key 值是可比较的。

Hadoop自带一套原子操作用于数据I/O。其中一些技术，如数据完整性保持和压缩，对于处理多达数个TB的数据时，特别值得关注。另外一些Hadoop工具或API，所形成的构建模块可用于开发分布式系统，比如序列化操作和on-disk数据结构。

本篇的内容主要有以下几点：

（1）通过检验和保证数据完整性

（2）Hadoop压缩

（3）Hadoop序列化-Writable

（4）Hadoop顺序文件-即文件序列化

数据完整性

（1）在数据的流转过中，HDFS通过“校验和”，来检验数据完整性，如果发现损坏，则新建一个replica，删除损坏的部分，是数据块的复本保持在期望的水平。

（2）datanode节点本身也会在一个后台线程中运行一个DataBlockScanner，从而定期验证本节点的所有数据块。

（3）Hadoop的LocalFileSystem执行客户端的校验和验证，在写入数据时，会新建一个名为.filename.crc的文件，用于校验

（4）如果底层文件系统本身已经有了校验机制，则可以使用一个不需要检验的文件系统RawLocalFileSystem：

Configuration conf = ...

FileSystem fs = new RawLocalFileSystem();

fs.initialize(null,conf);

（5)LocalFileSystem通过CheckSumFileSystem完成校验操作，一般用法如下：

FileSystem rawFs = ...

FileSystem checksummedFs = new ChecksumFileSystem(rawFs);

Hadoop如何使用压缩

压缩格式总结

gzip是比较通用的压缩格式，比较通用。bzip2比gzip更高效，但压缩速度慢一点。bzip2解压比压缩快，但与其他压缩格式比，还是慢一点。LZO优化压缩速度，但效率略低。

DEFLATE是一个标准压缩算法，该算法的标准实现是zlib。没有可用于生产DEFLATE文件的常用命令行工具，因为通常都用gzip格式。gzip格式只是在DEFLATE格式增加了文件头和文件尾。

所有压缩算法都需要权衡时间和空间：一般来说-1为优化速度，-9为优化压缩空间，例如：gzip -1 file，代表最快压缩创建一个file.gz。

是否可切分，代表压缩算法是否支持切分（splitable），即是否可以搜索数据流任务位置并进一步往下读取数据。可切分压缩尤其适合MapReduce。

codec

codec实现了一种压缩-解压算法。在Hadoop中，对接口CompressionCodec的实现代表一个codec，Hadoop实现的codec列表如下：

其中LZO代码库拥有GPL许可，不在Apache的发行版中，可以在http://github.com/kevinweil/hadoop-lzo下载。

（例程1）从标准输入读取数据，然后写入标准输出：

[java] view plain copy print ?

import java.io.FileInputStream;
import java.io.InputStream;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.compress.CompressionCodec;
import org.apache.hadoop.io.compress.CompressionOutputStream;
import org.apache.hadoop.util.ReflectionUtils;
public class StreamCompressor {
public static void main(String[] args) throws Exception {
String codeClassname = "org.apache.hadoop.io.compress.GzipCodec";
Class<?> codecClass = Class.forName(codeClassname);
Configuration conf = new Configuration();
CompressionCodec codec = (CompressionCodec) ReflectionUtils
.newInstance(codecClass, conf);
CompressionOutputStream out = codec.createOutputStream(System.out);
//InputStream in = new FileInputStream("/test/input/wc/file01.txt");
InputStream in = System.in;
IOUtils.copyBytes(in, out, 4096, false);
out.finish(); //这里只是完成到这个数据流的写操作，并没有关闭，所以可以接着往下流
}
}

hadoop集群执行命令：echo "Text" | hadoop jar test.jar StreamCompressor | gunzip ，可以看到正确的输出。

（例程2）根据文件扩展名，利用工厂判断产生codec对文件进行解压缩：

[java] view plain copy print ?

import java.io.InputStream;
import java.io.OutputStream;
import java.net.URI;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.compress.CompressionCodec;
import org.apache.hadoop.io.compress.CompressionCodecFactory;
public class FileDecompressor {
public static void main(String[] args) throws Exception {
String uri = "/test/input/t/1901.gz";
Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(URI.create(uri), conf);
Path inputPath = new Path(uri);
CompressionCodecFactory factory = new CompressionCodecFactory(conf);
CompressionCodec codec = factory.getCodec(inputPath);
if (codec == null) {
System.err.println("No codec found for " + uri);
System.exit(1);
}
String outputUri = CompressionCodecFactory.removeSuffix(uri,
codec.getDefaultExtension());
InputStream in = null;
OutputStream out = null;
try {
in = codec.createInputStream(fs.open(inputPath));
out = fs.create(new Path(outputUri));
IOUtils.copyBytes(in, out, conf);
} finally {
IOUtils.closeStream(in);
IOUtils.closeStream(out);
}
}
}

hadoop集群执行命令：

hadoop jar test.jar FileDecompressor。

hadoop fs -ls /test/input/t ，可以看到 /test/input/t/file01.gz 文件已经被解压了。

hadoop fs -cat /test/input/t/file01，可以查看文件内容。

（例程3）使用压缩池对标准输入的数据进行压缩，然后写入标准输出：

如果使用的是原生代码库，并且需要在应用中执行大量压缩和解压缩操作，可以考虑使用CodecPool，它允许你反复使用压缩和解压缩，以分摊创建这些对象所涉及的开销。

关于原生类库：

为了性能，最好使用原生（native）类库进行压缩和解压缩，例如，使用原生gzip类库可以减少大约一半的解压缩时间和10%的压缩时间（和内置的Java实现相比）。

并非每种格式都有原生实现，如下表：

默认情况下，Hadoop会根据自身运行的平台搜索原生代码库，如果找到相应代码库就会自动加载。当然，特殊情况下，也可以禁用原生代码库，设置hadoop.native.lib为false（这确保使用内置的Java代码库，如果有的话）。

代码示例：

[java] view plain copy print ?

import java.io.InputStream;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.compress.CodecPool;
import org.apache.hadoop.io.compress.CompressionCodec;
import org.apache.hadoop.io.compress.CompressionOutputStream;
import org.apache.hadoop.io.compress.Compressor;
import org.apache.hadoop.util.ReflectionUtils;
public class PooledStreamCompressor {
public static void main(String[] args) throws Exception {
String codeClassname = "org.apache.hadoop.io.compress.GzipCodec";
Class<?> codecClass = Class.forName(codeClassname);
Configuration conf = new Configuration();
CompressionCodec codec = (CompressionCodec) ReflectionUtils
.newInstance(codecClass, conf);
Compressor compressor = null;
try {
compressor = CodecPool.getCompressor(codec);
CompressionOutputStream out = codec.createOutputStream(System.out,
compressor);
// InputStream in = new
// FileInputStream("/test/input/wc/file01.txt");
InputStream in = System.in;
IOUtils.copyBytes(in, out, 4096, false);
out.finish(); // 这里只是完成到这个数据流的写操作，并没有关闭，所以可以接着往下流
} finally {
CodecPool.returnCompressor(compressor);// 返回池子
}
}
}

（例程4）对查找最高气温的输出进行压缩：

[java] view plain copy print ?

import java.io.IOException;
import java.util.Iterator;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.compress.CompressionCodec;
import org.apache.hadoop.io.compress.GzipCodec;
import org.apache.hadoop.mapred.FileInputFormat;
import org.apache.hadoop.mapred.FileOutputFormat;
import org.apache.hadoop.mapred.JobClient;
import org.apache.hadoop.mapred.JobConf;
import org.apache.hadoop.mapred.MapReduceBase;
import org.apache.hadoop.mapred.Mapper;
import org.apache.hadoop.mapred.OutputCollector;
import org.apache.hadoop.mapred.Reducer;
import org.apache.hadoop.mapred.Reporter;
public class MaxTemperatureWithCompression {
public static void main(String[] args) throws Exception {
JobConf conf = new JobConf(MaxTemperatureWithCompression.class);
conf.setJobName("Max Temperature With Compression");
// FileInputFormat.addInputPaths(conf, new Path(args[0]));
// FileOutputFormat.setOutputPath(conf, new Path(args[1]));
FileInputFormat.setInputPaths(conf, new Path("/test/input/t"));
FileOutputFormat.setOutputPath(conf, new Path("/test/output/t"));
// 设置压缩(输出gz压缩文件)
conf.setBoolean("mapred.output.compress", true);
conf.setClass("mapred.output.compression.codec", GzipCodec.class,
CompressionCodec.class);
conf.setMapperClass(MaxTemperatureWithCompressionMapper.class);
conf.setCombinerClass(MaxTemperatureWithCompressionReduce.class);
conf.setReducerClass(MaxTemperatureWithCompressionReduce.class);
conf.setOutputKeyClass(Text.class);
conf.setOutputValueClass(IntWritable.class);
JobClient.runJob(conf);
}
}
class MaxTemperatureWithCompressionMapper extends MapReduceBase implements
Mapper<LongWritable, Text, Text, IntWritable> {
private static final int MISSING = 9999;
public void map(LongWritable key, Text value,
OutputCollector<Text, IntWritable> output, Reporter reporter)
throws IOException {
String line = value.toString();
String year = line.substring(15, 19);
int airTemperature;
if (line.charAt(87) == '+') {
airTemperature = Integer.parseInt(line.substring(88, 92));
} else {
airTemperature = Integer.parseInt(line.substring(87, 92));
}
String quality = line.substring(92, 93);
if (airTemperature != MISSING && quality.matches("[01459]")) {
output.collect(new Text(year), new IntWritable(airTemperature));
}
}
}
class MaxTemperatureWithCompressionReduce extends MapReduceBase implements
Reducer<Text, IntWritable, Text, IntWritable> {
public void reduce(Text key, Iterator<IntWritable> values,
OutputCollector<Text, IntWritable> output, Reporter reporter)
throws IOException {
int maxValue = Integer.MIN_VALUE;
while (values.hasNext()) {
maxValue = Math.max(maxValue, values.next().get());
}
output.collect(key, new IntWritable(maxValue));
}
}

查理结果：

hadoop fs -copyToLocal /test/output/t/part-00000.gz

gunzip -c part-00000.gz

应该使用哪种压缩格式

使用哪种压缩格式与具体应用相关。是希望运行速度最快，还是更关注降低存储开销？通常，需要为应用尝试不同的策略，并且为应用构建一套测试标准，从而找到最理想的压缩格式。

对于巨大、没有存储边界的文件，如日志文件，可以考虑如下选项：

（1）存储未经压缩的文件

（2）使用支持切分的存储格式，如bzip2

（3）在应用中切分文件成块，然后压缩。这种情况，需要合理选择数据库的大小，以确保压缩后数据近似HDFS块的大小

（4）使用顺序文件（Sequence File），它支持压缩和切分

（5）使用一个Avro数据文件，改文件支持压缩和切分，就像顺序文件一样，但增加了许多编程语言都可读写的优势

对于大文件来说，不应该使用不支持切分整个文件的压缩格式，否则将失去数据的本地特性，进而造成MapReduce应用效率低下。

序列化（serialization）

序列化，是将结构化对象转换为字节流，以便传输或存储。反序列化，是指字节流转回结构化对象的逆过程。

序列化在分布式数据处理的两大领域经常出现：进程间通信和永久存储。

Hadoop使用自己的序列化格式Writable，它格式紧凑，速度快，但很难用Java以外的语言进行扩展或使用。因为Writable是Hadoop的核心，大多数MapReduce程序的键和值都会使用它。

Writable接口

Writable接口定义了两个方法：一个将其状态写到DataOutput二进制流，另一个从DataInput二进制流读取状态，代码如下：

[java] view plain copy print ?

package org.apache.hadoop.io;
import java.io.DataOutput;
import java.io.DataInput;
import java.io.IOException;
public interface Writable {
void write(DataOutput output) throws IOException;
void readFields(DataInput in) throws IOException;
}

Writable类

Hadoop自带的org.apache.hadoop.io包中有广泛的Writable类可供选择。

Writable类的层次结构如下图：

Java基本类型的Writable类：

实现定制的Writable类型

Hadoop本身已经有如上的Writable实现可以满足大部分要求，但有些时候，我们可能还是需要根据自己的需求构造一个新的实现。由于Writable是MapReduce数据IO的核心，所以调整成二进制表示能对性能产生显著效果。

如下演示存储一对Text对象的Writable类型：

[java] view plain copy print ?

import java.io.*;
import org.apache.hadoop.io.*;
public class TextPair implements WritableComparable<TextPair> {
private Text first;
private Text second;
public TextPair() {
set(new Text(), new Text());
}
public TextPair(Text first, Text second) {
set(first, second);
}
public void set(Text first, Text second) {
this.first = first;
this.second = second;
}
public Text getFirst() {
return first;
}
public Text getSecond() {
return second;
}
// @Override
public void write(DataOutput out) throws IOException {
first.write(out);
second.write(out);
}
// @Override
public void readFields(DataInput in) throws IOException {
first.readFields(in);
second.readFields(in);
}
@Override
public int hashCode() {
return first.hashCode() * 163 + second.hashCode();
}
@Override
public boolean equals(Object o) {
if (o instanceof TextPair) {
TextPair tp = (TextPair) o;
return first.equals(tp.first) && second.equals(tp.second);
}
return false;
}
@Override
public String toString() {
return first + "\t" + second;
}
// @Override
public int compareTo(TextPair tp) {
int cmp = first.compareTo(tp.first);
if (cmp != 0) {
return cmp;
}
return second.compareTo(tp.second);
}
}

如下演示在TextPair类的基础上，为了速度，实现一个RawComparator（上面的 TextPair是在对象的基础上比较，我们下面在序列化的字节流的基础上进行比较）：

[java] view plain copy print ?

import java.io.IOException;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.WritableComparator;
import org.apache.hadoop.io.WritableUtils;
public class Comparator extends WritableComparator {
private static final Text.Comparator TEXT_COMPARATOR = new Text.Comparator();
public Comparator() {
super(TextPair.class);
}
@Override
public int compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2) {
try {
int firstL1 = WritableUtils.decodeVIntSize(b1[s1])
+ readVInt(b1, s1);
int firstL2 = WritableUtils.decodeVIntSize(b2[s2])
+ readVInt(b2, s2);
int cmp = TEXT_COMPARATOR.compare(b1, s1, firstL1, b2, s2, firstL2);
if (cmp != 0) {
return cmp;
}
return TEXT_COMPARATOR.compare(b1, s1 + firstL1, l1 - firstL1, b2,
s2 + firstL2, l2 - firstL2);
} catch (IOException e) {
throw new IllegalArgumentException(e);
}
}
static {
WritableComparator.define(TextPair.class, new Comparator());
}
}

以上可以看出，编写原生的comparator，需要处理字节级别的细节。

为什么不用Java Object Serialization

Doug Cutting这样解释：“为什么开始设计Hadoop的时候我不用Java Serialization？因为它看起来太复杂，而我认为需要有一个非常精简的机制，可以用于精确控制对象的读和写，因为这个机制是Hadoop的核心。使用Java Serialization后，虽然可以获得一些控制权，但用起来非常纠结。不用RMI也处于类似的考虑。高效、高性能的进程间通信是Hadoop的关键。我觉得我们需要精确控制连接、延迟和缓冲的处理方式，然而RMI对此无能为力。”

Doug认为Java序列化不满足序列化的标准：精简、快速、可扩展、互操作。

精简：Writable不把类名写到数据流，它假设客户端知道会收到什么类型，结果是这个格式比Java序列化更加精简，同时支持随机存取和访问，因为流中的每一条记录均独立于其他记录。

高效：Writable对象可以（并且通常）重用，对于MapRe作业（主要对只有几个类型的大量对象进行序列化和反序列化），不需要为新建对象分配空间而得到的存储节省是非常可观的。

Avro

Apache Avro是一个独立于编程语言的数据序列化框架。该项目是由Doug Cutting创建的，旨在解决Hadoop中Writable类型的不足：缺乏语言的可移植性。

本篇不介绍这个框架，可以参阅官方网址：http://avro.apache.org 。

顺序文件

顺序文件，即流式文件，二进制文件。Hadoop开发了一组对象，来处理顺序文件。

SequenceFile

（1）写入SequenceFile对象

[java] view plain copy print ?

import java.io.*;
import java.net.URI;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import org.apache.hadoop.io.*;
public class SequenceFileWriteDemo {
private static final String[] DATA = { "One,two", "Threw,four", "Five,six",
"Seven,eitht", "Nine,ten" };
public static void main(String[] args) throws IOException {
String uri = "/test/numbers.seq";
Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(URI.create(uri), conf);
Path path = new Path(uri);
IntWritable key = new IntWritable();
Text value = new Text();
SequenceFile.Writer writer = null;
try {
writer = SequenceFile.createWriter(fs, conf, path, key.getClass(),
value.getClass());
for (int i = 0; i < 100; i++) {
key.set(100 - i);
value.set(DATA[i % DATA.length]);
System.out.printf("[%s]\t%s\t%s\n", writer.getLength(), key,
value);
writer.append(key, value);
}
} finally {
IOUtils.closeStream(writer);
}
}
}

writer.getLength()实际取出的是流式文件的偏移量，是记录的边界。

（2）读取SequenceFile

[java] view plain copy print ?

import java.io.*;
import java.net.URI;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import org.apache.hadoop.io.*;
import org.apache.hadoop.util.ReflectionUtils;
public class SequenceFileReadDemo {
public static void main(String[] args) throws IOException {
String uri = "/test/numbers.seq";
Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(URI.create(uri), conf);
Path path = new Path(uri);
SequenceFile.Reader reader = null;
try {
reader = new SequenceFile.Reader(fs, path, conf);
Writable key = (Writable) ReflectionUtils.newInstance(
reader.getKeyClass(), conf);
Writable value = (Writable) ReflectionUtils.newInstance(
reader.getValueClass(), conf);
long position = reader.getPosition();
while (reader.next(key, value)) {
String syncSeen = reader.syncSeen() ? "*" : "";// 同步点
System.out.printf("[%s%s]\t%s\t%s\n", position, syncSeen, key,
value);
position = reader.getPosition();// beginning of next record
}
} finally {
IOUtils.closeStream(reader);
}
}
}

在顺序文件中可以搜索给定位置，有两种方法：第一种是reader.seek(359)，如果359不是记录的边界的话，则reader.next(key,value)时，会报IOException；第二种是reader.sync(360)，代表从360之后找第一个同步点。

同步点是指当数据读取的实例出错后，能够再一次与记录边界同步的数据流中的一个位置。同步点是SequenceFile.Writer记录的，在顺序文件写入过程中，每隔一定记录便插入一个特殊项标记同步标注。同步点始终位于记录的边界处。

（3）通过命令行接口显示及排序SequenceFile

hadoop fs -text 可以识别gzip压缩文件及顺序文件，其他格式，则认为是文本文件。

hadoop fs -text /test/numbers.seq

MapFile

（1）写入MapFile

MapFile是已经排序的SequenceFile，并且已经加入用于搜索键的索引。

写入MapFile代码如下：

[java] view plain copy print ?

import java.io.*;
import java.net.URI;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import org.apache.hadoop.io.*;
public class MapFileWriteDemo {
private static final String[] DATA = { "One,two", "Threw,four", "Five,six",
"Seven,eitht", "Nine,ten" };
public static void main(String[] args) throws IOException {
String uri = "/test/numbers.map";
Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(URI.create(uri), conf);
IntWritable key = new IntWritable();
Text value = new Text();
MapFile.Writer writer = null;
try {
writer = new MapFile.Writer(conf, fs, uri, key.getClass(), value.getClass());
for (int i = 0; i < 1024; i++) {
key.set(i+1);
value.set(DATA[i % DATA.length]);
writer.append(key, value);
}
} finally {
IOUtils.closeStream(writer);
}
}
}

可以通过hadoop命令查看，发现生成了numbers.map文件夹，里面有data和index文件：

hadoop fs -text /test/numbers.map/data | head

hadoop fs -text /test/numbers.map/index | head

关于index文件，默认情况下，是每隔128个键才有一个，可以通过MapFile.Writer实例中的setIndexInterval()方法设置io.map.index.interval属性。增加间隔数量可以有效减少用于存储索引的内存，减小间隔数量，可以提高随机访问的时间。

你可能感兴趣的:(Hadoop实战 -- IO)

FPGA仿真过程中宏定义的修改学习永无止境@ fpga开发
在仿真过程中，经常会有一些时间变量，比如1分钟，10分钟等，这种级别的仿真很费时间，因此，人们往往将时间参数修改，利用秒级别进行仿真，仿真完成后，再改回分钟级别。下面提供一种宏定义的方式，方便实际过程中和仿真过程中时间参数修改。`defineSIMULATION`ifdefSIMULATIONlocalparamTIMER_CNT_1S=30'd1_000-1'b1;//1s计数的最大值local
echarts图表在修改了数据之后，如何进行重新渲染？小智玩前端 echarts javascript 前端
letmap=echarts.init(document.getElementById('map'));letoption=map.getOption()//获取option数据option.series[0].data=[1,2,3]//找到data修改数据map.setOption(option,true)//重新渲染
Swift 迁移指南实战手册余攀友
Swift迁移指南实战手册swift-migration-guide项目地址:https://gitcode.com/gh_mirrors/sw/swift-migration-guide项目介绍Swift迁移指南，位于GitHub，是由Apple官方提供的一个关键资源，专门为了帮助开发者将他们的Swift代码库从早期版本平滑过渡到最新的Swift语言标准，如Swift5及其以上。这个项目对于任何
不论什么操作都显示，CondaValueError: Malformed version string ‘~‘: invalid character(s). 银㱠 conda
不论什么操作，基本上都是这个报错：感觉是镜像地址的问题，无法用命令修改，打开environment.yml，将清华镜像的https全部替换为http，结果可以了。并且，重新下载之前备份的环境文件也快了很多（非常快了）。使用condaupdateconda更新conda会出错的话，就试试condaupgrade-nbase-cdefaults--override-channelsconda。思路：清
知识蒸馏：让大模型“瘦身“而不失智慧的魔术一休哥助手人工智能人工智能
引言：当AI模型需要"减肥"在人工智能领域，一个有趣的悖论正在上演：大模型的参数规模每年以10倍速度增长，而移动设备的算力却始终受限。GPT-4的1750亿参数需要价值500万美元的GPU集群运行，但现实中的智能设备可能只有指甲盖大小。这种矛盾催生了一项神奇的技术——知识蒸馏（KnowledgeDistillation），它就像给AI模型进行"脑外科手术"，将庞然大物的智慧浓缩到轻量模型中。第一章
后端框架模块化 GIS程序媛—椰子后端
后端框架的模块化设计旨在简化开发流程、提高可维护性，并通过分层解耦降低复杂性。以下是常见的后端模块及其在不同语言（Node.js、Java、Python）中的实现方式：目录1.路由（Routing）2.中间件（Middleware）3.数据库与ORM（models）4.迁移（Migration）5.服务层（ServiceLayer）6.配置管理（Configuration）7.依赖注入（DI）8.
Pyhton 基础 368. python python 开发语言
初识PythonPython是一种解释型语言Python使用缩进对齐组织代码执行，所以没有缩进的代码，都会在载入时自动执行数据类型：整形int无限大浮点型float小数复数complex由实数和虚数组成Python中有6个标准的数据类型：Number(数字)String(字符串)List(列表)Tuple(元组)Sets(集合)Dictionart(字典)其中不可变得数据：Number(数字)St
通过ITIL4课程助力业务创新，提升IT服务管理 - ITIL认证 itil
在全球数字化转型的浪潮中，IT服务管理（ITSM）已成为每个企业不可或缺的核心组成部分。无论是优化现有IT流程，还是推动技术创新，ITIL4（InformationTechnologyInfrastructureLibrary4）都为企业提供了一套完整的最佳实践框架。通过ITIL4，企业能够提升服务质量，降低运营成本，并推动业务增长。对于个人而言，掌握ITIL4框架不仅能提升技术能力，还能助力其职
借Kinect 扫描软件 reconstructMe skanect ksan3d learn deep learning 三维重建
[基础技术]3D扫描教程http://bbs.kechuang.org/read/59979楼主#更多发布于：2013-08-2314:48入门级的3D扫描ReconstructMe硬件kinectXBox360不兼容kinectforwindows或者XtionProLive（XtionProLive开发版包装,有Microphone和RGBsensor）有电动转盘更好，win732位或者64位
embed 标签怎么嵌入pdf_如何在网页中嵌入PDF文件 weixin_39822443 embed 标签怎么嵌入pdf
如何在网页中嵌入PDF文件编辑：oa161办公商城您想要到包括代码嵌入到PDFfile.2Type，打开的对象标记，它看起来像这样：<object3Insert的type属性的说明1Locate的位置在您的网页的代码。您的文件类型是PDF。因此，您的代码将看起来像这样：=“application/pdf上”4指定的文件名。要做到这一点，类型：数据=“NAMEofFILE.pdf”地方那句“NA
收入突破 5 万，从大专生到大模型开发-第二篇（下）智码工坊 AI编程程序人生
第二篇下：实战案例拆解——我用AI干掉80%重复工作大家好，我是明聪，98年逆袭的大模型研发工程师，前Java转型幸存者，湖北荆州人，毕业武汉某职校。学习心得：突出“普通人破局”的真实挣扎深夜破防：我也想过放弃1：学RAG时，连续3天卡在向量数据库检索效果，甚至想“回去干Java算了”。直到发现LangChain-Chatchat开源项目，直接套用现成框架，才重拾信心。2：第一次面试被质疑“半路出
FIN41920 Sustainable Finance 后端
FIN41920SustainableFinanceGroupProject2025ThepurposeofthisprojectistoevaluatetheabilityofapplyingUStoxicemissiondataandaccountingdatatoanalysetheeffectoftoxicemissionsonfirms’financialperformance.Here
EL1242 Digital Electronics 后端
AcademicYear:2024/25AssessmentIntroduction:Course:BEng(Hons)ElectronicEngineeringModuleCode:EL1242ModuleTitle:DigitalElectronicsTitleoftheBrief:PrototypingofAPrimarySmartHomeSystemTypeofassessment:Cou
说说Spring和SpringBoot之间的区别和联系？一蓑烟雨渡平生 Java面试知识点 spring spring boot java
说说Spring和SpringBoot之间的区别和联系？联系：Spring和SpringBoot框架的核心是IOC（控制反转）和AOP（面向切面编程）；IoC和AOP都是一种设计思想，接下来先介绍对于这两种设计思想的理解；IoC（InverseofControl）是一种设计思想，就是将原本在程序中手动创建对象的控制权，交给Spring框架来管理，IoC在其他语言中也有应用，并非Spring特有。I
GitHub霸榜神器！NextChat领衔DeepSeek全栈开发范式大禹智库《向量数据库指南》《实战AI智能体》机器学习 RAG AI智能体人工智能 Manus deepseek NextChat
一、项目概况与生态定位NextChat（原ChatGPT-Next-Web）是GitHub上斩获81.2K星标的现象级开源项目，定位为"轻量级AI助手终端"，支持DeepSeek、Claude、GPT-4、Gemini等20+主流大模型。其核心价值在于以5MB超小客户端实现跨平台（Windows/Mac/Linux/iOS/Android）无缝衔接，同时提供云端一键部署方案，成为个人用户与企业私有
JavaScript HTML DOM 节点列表宇哥资料 JavaScript javascript html 开发语言
NodeList对象是一个从文档中获取的节点列表(集合)。NodeList对象类似HTMLCollection对象。一些旧版本浏览器中的方法（如：getElementsByClassName()）返回的是NodeList对象，而不是HTMLCollection对象。所有浏览器的childNodes属性返回的是NodeList对象。大部分浏览器的querySelectorAll()返回NodeLis
TensorFlow深度学习实战项目：从入门到精通点我头像干啥 Ai 深度学习 tensorflow 人工智能
引言深度学习作为人工智能领域的一个重要分支，近年来取得了显著的进展。TensorFlow作为Google开源的深度学习框架，因其强大的功能和灵活的架构，成为了众多开发者和研究者的首选工具。本文将带领大家通过一个实战项目，深入理解TensorFlow的使用方法，并掌握深度学习的基本流程。1.TensorFlow简介1.1TensorFlow是什么？TensorFlow是一个开源的机器学习框架，由Go
Java 项目 IntelliJ IDEA 多环境配置详解我真的不想做程序员 java java intellij-idea 开发语言 ide 后端
目录一、使用MavenProfiles实现多环境配置1.在`pom.xml`中配置Profiles2.创建多环境配置文件3.配置文件内容示例`application.properties``application-dev.properties``application-test.properties``application-prod.properties`4.在代码中获取配置5.激活MavenP
(LeetCode 热题 100) 74. 搜索二维矩阵(二分查找) 岁忧 java版刷题 LeetCode 热题 100 LeetCode leetcode 矩阵算法 c++java
题目：74.搜索二维矩阵方法一：数组按行拼接为一个不下降的一维数组。采用二分查找，时间复杂度0(lognm)。C++版本：classSolution{public:boolsearchMatrix(vector>&matrix,inttarget){intn=matrix.size(),m=matrix[0].size();intl=0,r=n*m-1;while(ltarget){r=mid-1
1252. 奇数值单元格的数目 / 剑指 Offer II 113. 课程顺序彼淇梁力扣刷题记录算法 leetcode java 刷题记录
1252.奇数值单元格的数目【简单题】【每日一题】思路：【模拟】定义行数组rows和列数组cols，用来记录当前行的+1次数和当前列的+1次数，遍历indices数组用来给rows和cols赋值。定义奇数值单元格数目为ans，初值为0。那么遍历矩阵每个位置，如果当前行和当前列的+1次数和是奇数，则ans+1代码：classSolution{publicintoddCells(intm,intn,i
Vue.js 中的 Memoization：提升性能的缓存技术 vvilkim vue vue.js 前端 javascript
在现代前端开发中，性能优化是一个永恒的话题。随着应用规模的增大，复杂的计算和频繁的函数调用可能会导致性能瓶颈。Vue.js作为一个流行的前端框架，提供了多种优化手段，其中memoization（记忆化）就是一种非常有效的技术。本文将详细介绍Vue.js中的memoization，以及如何利用它来提升应用性能。什么是Memoization？Memoization是一种优化技术，通过缓存函数的结果来避
Android studio之编译提示Could not find :umeng-asms-v1.2.1:. 码莎拉蒂 . Andriod studio Android Could not find 导入正确的aar文件 umeng-asms-v1 flatDir
1、问题Couldnotdeterminethedependenciesoftask':app:compileDebugJavaWithJavac'.>Couldnotresolvealltaskdependenciesforconfiguration':app:debugCompileClasspath'.>Couldnotfind:umeng-asms-v1.2.1:.Requiredby:p
id: ‘dev.flutter.flutter-plugin-loader‘, version: ‘1.0.0‘怎么解决程序猿阿杰 flutter
是因为必须要用jdk17吗？*Where:Settingsfile‘D:\AndroidTest\my_frist_app\android\settings.gradle’line:20Whatwentwrong:Plugin[id:‘dev.flutter.flutter-plugin-loader’,version:‘1.0.0’]wasnotfoundinanyofthefollowings
手机端Flutter、React Native与原生安卓、iOS交互的方案及设计原理 JafarOne 智能手机 flutter react native Android iOS Java
手机端Flutter、ReactNative与原生安卓、iOS交互的方案及设计说明一、交互方案与代码示例1.Flutter与原生交互方案核心方案：通过MethodChannel和EventChannel实现双向通信。原理：Flutter的Channel机制基于平台信道（如MethodChannel），通过Dart引擎与原生层的二进制消息传递完成调用。原生代码需监听信道，并根据方法名执行操作，结果通
【深度学习】 PyTorch一文详解 Nerous_ 深度学习深度学习 pytorch 人工智能机器学习 python
“PyTorchisadeeplearningframeworkthatprioritizessimplicityandflexibility,makingitthego-tochoiceforbothresearchersanddevelopers.”—Anonymous1.PyTorch简介1.1PyTorch的背景与发展PyTorch是由Facebook人工智能研究院（FAIR）开发的一个开
利用Python爬虫获取淘宝商品评论：实战案例分析数据小爬虫@ API python 爬虫开发语言
在数字化时代，数据的价值日益凸显，尤其是对于电商平台而言，商品评论作为用户反馈的重要载体，蕴含着丰富的信息。本文将详细介绍如何利用Python爬虫技术获取淘宝商品评论，包括代码示例和关键步骤解析。淘宝商品评论的重要性淘宝商品评论不仅对消费者购买决策有着重要影响，而且对于商家来说，也是了解市场需求、改进产品和服务的重要途径。因此，获取并分析淘宝商品评论数据，对于电商运营和市场分析具有重要意义。Pyt
flutter报错：Could not find com.meituan.android.walle:plugin xtyzmnchen flutter android
整体报错情况（解决美团渠道包源拉不下来的问题）：Aproblemoccurredconfiguringrootproject'android'.>Couldnotresolveallfilesforconfiguration':classpath'.>Couldnotfindcom.meituan.android.walle:plugin:1.1.7.Searchedinthefollowingl
C#电子相册：面向对象设计与架构实践金融先生-Frank
本文还有配套的精品资源，点击获取简介：C#电子相册是一个使用高级编程语言C#开发的Windows平台应用程序。该项目采用面向对象编程方法，将对象如照片和相册封装、继承和多态地组织起来。它可能采用了MVC、MVVM或MVP架构模式，并使用.NETFramework或.NETCore以及VisualStudio作为开发环境。数据库管理部分涉及SQL数据库，支持相册数据的存储与检索。文件列表中的"eri
VRRP协议介绍及一些常见问题 cocologin 网络技术原理智能路由器网络网络协议运维
目录1.概述2.VRRP的核心概念虚拟路由器（VirtualRouter）角色划分VRRP组（VRRPGroup）3.VRRP工作机制设备状态主路由器选举特殊情况：VRRP出现优先级0和255故障切换4.VRRP特性抢占模式（Preemption）多网关负载分担5.应用场景(冗余，高可用)6.VRRP与其他协议对比7.配置示例华为/华三设备配置思设备配置8.常见的一些问题1.为什么优先级255不能
(LeetCode 每日一题) 2680. 最大或值（前缀和、位运算）岁忧 LeetCode java版刷题 leetcode 算法职场和发展 java c++
题目：2680.最大或值思路：在多个数上乘2，不如都在一个数上乘。这样只需要枚举每一个数乘k次2，也就是位运算移位k次。通过前缀和可以预处理出左右俩边的或值，实际上只需要预处理出一边的，另外一边在遍历时可得出。时间复杂度0(n)classSolution{public:longlongmaximumOr(vector&nums,intk){intn=nums.size();vectorv(n);f
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found