Hadoop数据类型
我们知道hadoop是由Java 编程写的。因此我们使用Java开发环境来操作HDFS,编写mapreduce也是很自然的事情。但是这里面hadoop却对Java数据类型进行了包装,那么hadoop的数据类型与Java那些数据类型对应。下面做一些对比:
一、 Hadoop数据类型介绍:
(1)在hadoop.io包,主要分为基本类型和其它类型。
(2)基本类型(hadoop:java):
数据类型 hadoop数据类型: Java数据类型
布尔型 *BooleanWritable boolean
整型 *IntWritable: int
浮点float *FloatWritable: float
浮点型double *DoubleWritable: double
整数类型byte *ByteWritable: byte
这里说明一下,hadoop数据库类型与Java数据类型之间如何转换:
有两种方式
1.通过set方式
2.通过new的方式。
(3)其它(部分):
*Text:hadoop:中对应Java数据类型string
*ArrayWritable: 中对应Java数据类型数组。
1.Hadoop的数据类型要求必须实现Writable接口。
2.java基本类型与Hadoop常见基本类型的对照
Long LongWritable
Integer IntWritable
Boolean BooleanWritable
String Text
问:java类型如何转化为hadoop基本类型?
答:调用hadoop类型的构造方法,或者调用set()方法。
newLongWritable(123L);
问:hadoop基本类型如何转化为java类型?
答:对于Text,需要调用toString()方法,其他类型调用get()方法。
Hadoop自定义数据类型
Hadoop的自定制数据类型
一般有两个办法,一种较为简单的是针对值,另外一种更为完整的是对于键和值都适应的方法:
1、实现Writable接口:
下面是一个小例子:
public class Point3D implement Writable { public float x, y, z; public Point3D(float fx, float fy, float fz) { this.x = fx; this.y = fy; this.z = fz; } public Point3D() { this(0.0f, 0.0f, 0.0f); } public void readFields(DataInput in) throws IOException { x = in.readFloat(); y = in.readFloat(); z = in.readFloat(); } public void write(DataOutput out) throws IOException { out.writeFloat(x); out.writeFloat(y); out.writeFloat(z); } public String toString() { return Float.toString(x) + ", " + Float.toString(y) + ", " + Float.toString(z); } } 2、对于键来说,需要指定排序规则(呃,这句话可能有点C++风格?),对此,Java版Hadoop的办法是实现WritableComparable这个泛型接口,WritableComparable,顾名思义了,一半是Writable,一半是Comparable,有点啰嗦,但简明,据说Java程序员们打字快写?~~ public interface WritableComparable<T> { public void readFields(DataInput in); public void write(DataOutput out); public int compareTo(T other); } 先给出下面的简单例子,再做说明和扩展。 public class Point3D inplements WritableComparable { public float x, y, z; public Point3D(float fx, float fy, float fz) { this.x = fx; this.y = fy; this.z = fz; } public Point3D() { this(0.0f, 0.0f, 0.0f); } public void readFields(DataInput in) throws IOException { x = in.readFloat(); y = in.readFloat(); z = in.readFloat(); } public void write(DataOutput out) throws IOException { out.writeFloat(x); out.writeFloat(y); out.writeFloat(z); } public String toString() { return Float.toString(x) + ", " + Float.toString(y) + ", " + Float.toString(z); } public float distanceFromOrigin() { return (float) Math.sqrt( x*x + y*y +z*z); } public int compareTo(Point3D other) { return Float.compareTo( distanceFromOrigin(), other.distanceFromOrigin()); } public boolean equals(Object o) { if( !(o instanceof Point3D)) { return false; } Point3D other = (Point3D) o; return this.x == o.x && this.y == o.y && this.z == o.z; } /* 实现 hashCode() 方法很重要 * Hadoop的Partitioners会用到这个方法,后面再说 */ public int hashCode() { return Float.floatToIntBits(x) ^ Float.floatToIntBits(y) ^ Float.floatToIntBits(z); } }
自定义Hadoop数据类型后,需要明确告诉Hadoop来使用它们。这是 JobConf 所能担当的了。使用setOutputKeyClass() /setOutputValueClass()方法即可:
通常(默认条件下),这个函数对Map和Reduce阶段的输出都起到作用,当然也有专门的setMapOutputKeyClass() / setReduceOutputKeyClass() 接口。