Practice Every Day_11(用HtmlParser解析Html文件)

     今天看了看解析Html文件,对于有些概念和方法还是有些模糊,其实,HtmlParser的功能是很多的,看了一天只是了解了其中的几种方法,看了看别人的例子,才明白了点。下面是对一个网页中的纯文本内容进行提取并输出。

import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.io.FileInputStream;
import java.io.File;
import java.net.HttpURLConnection;
import java.net.URL;
import org.htmlparser.Node;
import org.htmlparser.util.NodeIterator;
import org.htmlparser.Parser;



   public class Main

 {
  private static String ENCODE = "GBK";
  private static void message( String szMsg )
{
     try

   {
      System.out.println(new String(szMsg.getBytes(ENCODE), System.getProperty("file.encoding")));
    }
    catch(Exception e ){}                                
}
public static String openFile( String szFileName )
{
 try {
       BufferedReader bis = new BufferedReader(new InputStreamReader(new FileInputStream( new File(szFileName)), ENCODE) );
       String szContent="";
       String szTemp;
       while ( ( szTemp = bis.readLine()) != null)

     {
       szContent+=szTemp+"\n";                  

     }
       bis.close();
       return szContent;
      }
   catch( Exception e )
   {
    return "";
   }
}

public static void main(String[] args)

{
  try

 {
  Parser parser = new Parser("e:Lucene实例/page3.html");
  for (NodeIterator i = parser.elements (); i.hasMoreNodes(); )
 {
   Node node = i.nextNode();
  // message("getText:"+node.getText());
   message(node.toPlainTextString());
  // message("toHtml:"+node.toHtml());
  // message("toHtml(true):"+node.toHtml(true));
  // message("toHtml(false):"+node.toHtml(false));
   //message("toString:"+node.toString());
  // message("=================================================");
   }
}
catch( Exception e )

 {
  System.out.println( "Exception:"+e );

  }
   }
}

 

 

你可能感兴趣的:(html,exception,String,Lucene,Class,import)