Wvtool学习(一):把html文档解码成纯文本文档

  自学文本分类好久都摸不到门路,到网上找wvtool的应用基本上没有我想要的,

只好自己去看wvtool的API结合网上零碎的资料来一步步慢慢往前走了,纠结了这么几天,总算走出了学习的第一步了。其它结合着API,一点点自己写代码,至少现在

感觉没遇到很多的麻烦,可能麻烦的事在后面吧,who cares,来了再说吧!  呵呵 …… 下面是实现的用wvtool来把html文档解码成纯文本格式文档,其实,有了下面的这个例子,像pdf,xml等结构化,或者半结构化的文档都可有类的实现来解码成纯文本的……很简单的!

  
  
  
  
  1. import java.io.BufferedReader;  
  2. import java.io.InputStream;  
  3. import java.io.Reader;  
  4.  
  5. import edu.udo.cs.wvtool.generic.inputfilter.SelectingInputFilter;  
  6. import edu.udo.cs.wvtool.generic.loader.UniversalLoader;  
  7. import edu.udo.cs.wvtool.main.WVTDocumentInfo;  
  8.  
  9. /*  
  10.  * 这个程序实现把html文档解码成纯文本的形式  
  11.  * 原html文档:text.html  
  12.  * 内容:  
  13. <html>  
  14.     <head>  
  15.         <title>雅虎新闻  
  16.         </title>  
  17.     </head>  
  18.     <body>  
  19.         这是测试文档。  
  20.     </body>  
  21. </html>  
  22.  * */ 
  23.  
  24. public class Demo01 {  
  25.     public static String pathString="D:\\工作管理\\weka学习\\wvtool-1.1\\wvtool-1.1\\examples\\data\\";  
  26.     public static void main(String[] args) throws Exception {  
  27.         /*  
  28.          * 1、实例化一个加载器  
  29.          * */ 
  30.         UniversalLoader loader=new UniversalLoader();  
  31.         /*  
  32.          * 2、实例化一个文档信息类  
  33.          * */ 
  34.         WVTDocumentInfo info=new WVTDocumentInfo(pathString+"text.html""html""utf-8""chinese");  
  35.         /*  
  36.          * 3、把文档以输入流的方式加载到内存中  
  37.          * */ 
  38.         InputStream stream=loader.loadDocument(info);  
  39.         /*  
  40.          * 4、实例化一个过滤器  
  41.          * InputFilter that automatically selects an appropriate filter   
  42.          * according to the the file ending. The following rules are used.  
  43.          * HTM, HTML, htm, html -> SimpleTagIgnoringReader  
  44.          *XML, xml -> XMLInputFilter  
  45.          *PDF, pdf -> PDFInputFilter  
  46.          *all other -> TextInputFilter  
  47.          * */ 
  48.         SelectingInputFilter filter=new SelectingInputFilter();  
  49.         /*  
  50.          * 5、把html文档进行解码成纯文本文件  
  51.          * */ 
  52.         Reader readers=filter.convertToPlainText(stream,info);  
  53.          /*  
  54.           * 6、将解码的文档输出  
  55.           * */ 
  56.         BufferedReader reader=new BufferedReader(readers);  
  57.           
  58.         String string=reader.readLine().toString();  
  59.          //由于解码出来的文档中包含了大量的空格,而且奇怪的是这些  
  60.          //空格的char值是9(十进制),所以就只能以这样的方式输出了  
  61.         System.out.println(string.replace(string.valueOf((char)9), ""));  
  62.         //最后的输出结果为:?雅虎新闻这是测试文档。   
  63.     }  
  64. }  

 

你可能感兴趣的:(职场,休闲,文本转换,wvtool)