Mahout学习之命令行创建序列文件

一:命令行转换

创建新的工作目录

mkdir lastfm

mkdir ./lastfm/original

export WORK_DIR=/home/thinkgamer/document/lastfm

cd $WORK_DIR

自己准备一个数据集放在original文件夹下,例如将点击打开链接下边的数据保存在synthetic_control.data中进行转换,首先将其放在origiinal文件夹中

进入mahout的安装目录,前提是hadoop环境是启动的

cd /usr/local/hadoop/mahout

bin/mahout seqdirectory -i $WORK_DIR/original -o $WORK_DIR/sequencesfile

然后进入$WORK_DIR目录下有一个sequencesfile文件夹

cd $WORK_DIR

cd sequencesfile

ls

会显示如下:

part-m-00000  _SUCCESS

命令行查看part-m-00000的文件内容为:

bin/mahout seqdumper -i $WORK_DIR/sequencesfile/part-m-00000 | more0

二:mapreduce转换

具体请参考mahout运行canopy程序中的程序:点击打开链接

三:命令行转换为文本文件

bin/mahout seqdumper -i $WORK_DIR/sequencesfile/part-m-00000 -o $WORK_DIR/clusteranalyzer

mahout版本不同如果上边的不好使,换用下边的

bin/mahout seqdumper -s $WORK_DIR/sequencesfile/part-m-00000 -o $WORK_DIR/clusteranalyzer

你可能感兴趣的:(hadoop,Mahout,创建序列文件)