mahout处理路透社语料步骤,转换成需要的格式

首先下载路透社语料(百度就可以下载):



然后上传Linux 并解压到指定目录。Tips:此处我放在可 /usr/hadoop/mahout/reutersTest/reuters


tar -zxvf /usr/hadoop/mahout/reutersTest/reuters/reuters21578.tar.gz




mahout处理路透社语料步骤,转换成需要的格式_第1张图片


接下来转换语料格式,要求步骤是:


.sgm文件  ===> .txt文件  ===>  sequence文件  ===> vector 文件


结合写一个java代码,使用mahout的org.apache.lucene.benchmark.utils.ExtractReuters类按照

一个新闻一个文档的形式 把格式转换为.txt文件。


mahout处理路透社语料步骤,转换成需要的格式_第2张图片

<strong><span style="font-size:18px;">/***
 * @author YangXin
 * @info 处理路透社语料编程.txt格式
 */
package unitEight;

import java.io.File;

import org.apache.lucene.benchmark.utils.ExtractReuters;

public class TestExtractReuters {
	public static void main(String[] args) {
	    // TODO Auto-generated method stub
	    File inputFolder = new File("G:\\reuter"); 
	    File outputFolder = new File("G:\\reuters-Text");
	    ExtractReuters extractor = new ExtractReuters(inputFolder, outputFolder);
	    extractor.extract();
		}
}</span></strong>


数据比较多,我就截了一部分:

mahout处理路透社语料步骤,转换成需要的格式_第3张图片


接着输入:

mahout seqdirectory -c UTF-8 -i /usr/hadoop/mahout/reutersTest/reuters-Text -o reuters-seqfiles


然后可以查看到hdfs上出现了如下目录:




接着输入:

mahout seq2sparse -i reuters-seqfiles/ -o reuters-vectors -ow





最后可以下载下来查看。



你可能感兴趣的:(mahout处理路透社语料步骤,转换成需要的格式)