到我写这个的时候,mahout还是0.9版本,官网上发行的0.9版本不能跑在hadoop2.x上。不过最新的代码已经支持hadoop2.x了。所以自己编译一下也是ok的,因为实在不想换hadoop。这是棘轮效应吧,人总是往上爬容易,退回来比较难。
废话不多说。首先要装了hadoop2.2. svn maven。最新的代码可以从svn上拷贝下来。地址是:
http://svn.apache.org/repos/asf/mahout/trunk
我是用eclipse的svn插件直接导入的。导入到eclipse中是一个项目,里面全是文件夹,非常不好看。于是删除了eclipse project_explorer中的项目,重新import maven project,选择根目录。eclipse maven插件过时的应该导入不进来,会提示要安装两个maven connector,然后会说sl4j-1.6.2找不到。这个问题很头疼,我没办法,去网上下载了一个sl4j-1.6.4.jar,改名为sl4j-1.6.2.jar,然后放到eclipse的plugin目录下,重启eclipse之后,就可以导入了。导入之后,最后两个关于spark的子项目还是会有错。这还是因为maven插件的缘故。点开eclipse的插件安装页面,到下面这个网址"Maven for Scala" - http://alchim31.free.fr/m2e-scala/update-site
安装最后一个选项,scala组件。然后再次刷新整个项目,就可以看到mahout的全貌了。
可以看到最新的mahout里面,core项目改成了mrlegacy.据说mahout以后也不再继续发展mapreduce了,已经在开始开发spark了。
mrlegacy就是mapreduce核心算法的包,examples后来打成在hadoop上运行的jar包,我们到时候用命令行的时候 mahout脚本用来hadoop jar example-0.9-job.jar的。
当我们运行命令的时候 比如mahout seqdirectory -i docs -o seqdocs的时候,实际上执行了mahout.sh这个脚本,这个脚本会看你是单机还是hadoop模式 ,然后看有没有找到example-0.9-job.jar,如果是hadoop模式,会自动运行
hadoop example-0.9-job.jar org.apache.mahout.text.SequenceFilesFromDirectory -i docs -o seqdocs
这条命令。而类和命令的对应关系,在/mahout/src/conf/driver.classes.default.props这个文件里。 了解了这个之后,就很容易看mahout源码了。
准备中文分词工具。打开examples项目下的pom.xml看到,mahout现在用的是lucene4.6.1. 我翻了一下lucene4.6.1没有找到SmartChineseAnalyzer这个类,只找到了ChineseAnalyzer,这个只能分字,完全不能分词。然后搜索了一下,发现mmseg4j已经支持lucene4.6.1了。所以在pom.xml里添加下面这个依赖,导入mmseg4j的包。
<dependency> <groupId>com.chenlb.mmseg4j</groupId> <artifactId>mmseg4j-solr</artifactId> <version>2.0.0</version> </dependency>
加入了mmseg4j的包,没有写<scope></scope>也就是maven的默认compile范围,这个范围内的jar都会被打包,也就是说,等会我们打玩包,examples-job.jar中会有mmseg4j, 这样就不用担心hadoop上跑的时候找不到class了。
这些工作都搞好后,就可以编译打包了。
cd workspace cd mahout mvn clean install -Dhadoop2 -Dhadoop2.version=2.2.0 -DskipTest=true 或者mvn package -Dhadoop2 -Dhadoop2.version=2.2.0 -DskipTest=true 或者在eclipse里游击mahout项目下的pom.xml右键run as xxx 但是要记得加-Dhadoop2 -Dhadoop2.version=2.2.0这两个参数
maven 运行完之后就会在各个项目下的target下生成相应的jar包。我们只需要mahout-examples-1.0-SNASHOT-job.jar 和 mahout-examples-1.0-SNASHOT.jar. 我就比较偷懒,直接把这两个的名字改成0.9.jar替换掉了我以前安装的那个0.9的两个包。 如果只要某个项目,就到那个子项目的文件夹下mvn.下面是编译时间
在我的docs目录下,有mp3 camera等目录,每个目录下都是一篇篇文章。
然后我运行了
mahout seqdirectory -i docs -o seqdocs
注意,docs是在hadoop上的,不是本地的。如果你跑本地的,那输入输出都应该在本地,还要
$ export MAHOUT_LOCAL=true
上面是第一步,生成了序列化文件。序列化后的文件,可以通过hadoop的text或者mahout 的seqdumper命令查看
接下来就是一对命令,一个个来了,我是参照mahout官网上的20newsgroup敲的命令
将序列化文件分词,变成向量文件,然后分开成训练集和测试集。
mahout seq2sparse -i seqdocs -o vectors -lnorm -nv -wt tfidf
mahout split -i vectors/tfidf-vectors --trainingOutput train --testOutput test --randomSelectionPct 40 --overwrite --sequenceFiles -xm sequential
注意上面的命令有点坑爹,输入目录并不是vectors,而是这个文件夹下的另外一个文件夹,就为这个疏忽,我苦战两晚都没成功 。下面训练模型。model是指定模型存在哪里。labelindex表示把labelindex文件放到哪里。
mahout trainnb -i train -el -o model -li labelindex -ow -c
加了c表示是c贝叶斯。不要忘记了-el,表示从输入目录生成labelindex文件。
mahhout testnb -i test -m model -l labelindex -ow -o testresult -c
成功的话会在屏幕上输出结果,效果非常不错: