今天看了看解析Html文件,对于有些概念和方法还是有些模糊,其实,HtmlParser的功能是很多的,看了一天只是了解了其中的几种方法,看了看别人的例子,才明白了点。下面是对一个网页中的纯文本内容进行提取并输出。
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.io.FileInputStream;
import java.io.File;
import java.net.HttpURLConnection;
import java.net.URL;
import org.htmlparser.Node;
import org.htmlparser.util.NodeIterator;
import org.htmlparser.Parser;
public class Main
{
private static String ENCODE = "GBK";
private static void message( String szMsg )
{
try
{
System.out.println(new String(szMsg.getBytes(ENCODE), System.getProperty("file.encoding")));
}
catch(Exception e ){}
}
public static String openFile( String szFileName )
{
try {
BufferedReader bis = new BufferedReader(new InputStreamReader(new FileInputStream( new File(szFileName)), ENCODE) );
String szContent="";
String szTemp;
while ( ( szTemp = bis.readLine()) != null)
{
szContent+=szTemp+"\n";
}
bis.close();
return szContent;
}
catch( Exception e )
{
return "";
}
}
public static void main(String[] args)
{
try
{
Parser parser = new Parser("e:Lucene实例/page3.html");
for (NodeIterator i = parser.elements (); i.hasMoreNodes(); )
{
Node node = i.nextNode();
// message("getText:"+node.getText());
message(node.toPlainTextString());
// message("toHtml:"+node.toHtml());
// message("toHtml(true):"+node.toHtml(true));
// message("toHtml(false):"+node.toHtml(false));
//message("toString:"+node.toString());
// message("=================================================");
}
}
catch( Exception e )
{
System.out.println( "Exception:"+e );
}
}
}