如何避免Hadoop streaming 自动给单行数据加tab

使用hadoop streaming时,如果数据只有一列,hadoop会自动在结尾加\t。

避免这种情况有两种解决方法:


1. 使用重定向:这也有两种实现

1)一种通过hadoop dfs -put/copyFromLocal命令,把streaming的标准输出重新定向到输出路径。

如:

${HADOOP_HOME}/bin/hadoop --config ${LOCAL_HDP_CONF_PATH} dfs -copyFormLocal- ${PACK_PATH}/${mapred_task_partition}.pack

其中标红的- 表示标准输入流

${HADOOP_HOME}是hadoop系统变量,表示分布式结点上的hadoop路径。


2)另一种是把streaming的标准输出重新定向到结点的本地文件,然后把输出的本地文件传递到输出路径。

如:$HADOOP_HOME/bin/hadoop fs -conf hadoop-site.xml -put local_file ${PACK_PATH}/$mapred_task_partition.pack



2.  使用hadoop streaming的参数

mapred.textoutputformat.ignoreseparator=true

这样就不会自动加\t了

你可能感兴趣的:(如何避免Hadoop streaming 自动给单行数据加tab)