InputFormat的作用

InputFormat:

从文件中读取数据,转化成key-value格式。

对于常用的数据类型,hadoop已经有了这个接口的实现。

特殊文件格式的话,只有你自己知道怎么读取这种文件格式,你可以自己来定义。

 

method:

1. get InputSplit

框架调用此方法获得有几个逻辑块,

这样就知道需要多少个mapper了,

数据产生地点产生Mapper的实例。

2.create RecordReader

很明显此方法就是用来读记录的,调用此方法一条一条的读记录。

转化成key-value,送给Mapper。

 

outputFormat:

给你个key-value,怎么写出去你来决定。

 

如果目标目录里有已有目录了,他不希望把你已有的数据冲掉,会报错。

你可能感兴趣的:(InputFormat的作用)