Hadoop_3: Hadoop I/O

数据的完整性

  • HDFS对写入数据计算校验和,并在读取数据的时候验证校验和
  • 本地文件系统的数据完整性:在创建a文件的同时,在同一个文件下创建.a.crc校验
  • I/O校验:datanode

压缩

  • codec:实现压缩解压算法
// 使用压缩

JobConf conf=new Jobconf();
conf.setBoolean("mapred.output.compress",true)

输入切片

  • 压缩格式支持切分
  • 支持切分的压缩bzip2

序列化

  • 多节点的远程通信=RPC=远程结点将序列消息转换为二进制流后发送到远程节点

writable接口

  • 将其状态写到DataOutput二进制流;从DataInput读取状态

writable类

  • set()和get()函数读取或设置封装的值
  • 基本类型
 BooleanWritable   1(序列化字节)
 ByteWritable      1(序列化字节)
 IntWritable       4(序列化字节)
 FloatWritable     4(序列化字节)
 LongWritable      8(序列化字节)
 DoubleWritable    8(序列化字节)

Text类型-----UTF-8序列的Writable类
ObjectWritable 是对java基本类型的一个通用的封装,在Hadoop RPC中用于对方法的参数和返回类型进行封装

Writable的集合类

ArrayWritable:  数组
TwoDArrayWritable:二维数组
MapWritable:<key,value>
SortedMapWritable:排序的<key,value>

基于文件的数据结构

SequenceFile

  • 记录key/value列表,序列化后的二进制文件
  • 包装小文件

MapFile: 已经排序的 SequenceFile

你可能感兴趣的:(Hadoop_3: Hadoop I/O)