转载 http://www.cnblogs.com/dlutxm/archive/2011/12/13/2286862.html
最近一直在学习搜索引擎的相关知识,在对于原始的HTML网页的处理是其中非常重要的一个环节,也就是所说的“去噪”,比如去掉相关的标签和不需要的JS代码等等,HTMLParser(http://htmlparser.sourceforge.net/)是一个对现有的HTML进行分析的快速实时的解析工具。它是一个开源的项目,通过它可以准确高效地对HTML文本中的格式、数据进行处理。利用它可以很容易地对网页的内容进行分析、过滤和抓取。它的主要功能分为以下几个部分:
文本信息抽取:提取网页中的文字。
链接提取:提取网页中的链接信息和锚文本。
资源提取:网页中图片、声音的处理。
链接检查:用于检查HTML中的链接是否有效。
内容检查:可以用来过滤网页上一些令人不愉快的字词。
HTMLParser最核心的模块是Parser类,这个类实际完成了对于HTML页面的分析工作,构造函数如下:
public Parser (); API链接地址:http://htmlparser.sourceforge.net/javadoc/index.html
public Parser (Lexer lexer, ParserFeedback fb);
public Parser (URLConnection connection, ParserFeedback fb) throws ParserException;
public Parser (String resource, ParserFeedback feedback) throws ParserException;
public Parser (String resource) throws ParserException;
public Parser (Lexer lexer);
public Parser (URLConnection connection) throws ParserException;
我们通常使用的是通过一个URLConnection或者一个保存有网页内容的字符串来初始化Parser,或者使用静态函数来生成一个Parser对象。
下面我们给出两个简单的初始化的例子。
1.下面是通过传递保存有网页内容的字符串来初始化Parser和通过Parser静态函数来生成Parser对象
import
java.io.BufferedReader;
import
java.io.ByteArrayInputStream;
import
java.io.File;
import
java.io.FileInputStream;
import
java.io.FileNotFoundException;
import
java.io.FileOutputStream;
import
java.io.FileReader;
import
java.io.FileWriter;
import
java.io.IOException;
import
java.io.InputStreamReader;
import
java.io.UnsupportedEncodingException;
import
java.util.HashMap;
import
java.util.Map;
import
java.util.StringTokenizer;
import
java.util.regex.Matcher;
import
java.util.regex.Pattern;
import
javax.swing.plaf.metal.MetalFileChooserUI;
import
org.htmlparser.Node;
import
org.htmlparser.NodeFilter;
import
org.htmlparser.Parser;
import
org.htmlparser.filters.NodeClassFilter;
import
org.htmlparser.filters.OrFilter;
import
org.htmlparser.nodes.TextNode;
import
org.htmlparser.tags.JspTag;
import
org.htmlparser.tags.LinkTag;
import
org.htmlparser.tags.MetaTag;
import
org.htmlparser.tags.TableTag;
import
org.htmlparser.tags.TitleTag;
import
org.htmlparser.util.NodeList;
import
org.htmlparser.util.ParserException;
public
class
t {
/**
* @param args
* @throws IOException
*/
public
final
static
String testFilePath=
"C:"
+File.separator+
"glose - 博客园.htm"
;
public
static
String readFile(String fileName)
throws
IOException{
//读本地文件内容
FileInputStream fin=
new
FileInputStream(fileName);
InputStreamReader inReader=
new
InputStreamReader(fin,
"utf-8"
);
BufferedReader bReader=
new
BufferedReader(inReader);
StringBuffer content=
new
StringBuffer();
String line=
null
;
while
((line=bReader.readLine())!=
null
){
content.append(line);
content.append(
"\n"
);
}
bReader.close();
inReader.close();
fin.close();
//System.out.println(content);
return
content.toString();
}
public
static
void
parser(String content)
throws
ParserException{
Parser parser=Parser.createParser(content,
"utf-8"
);
//Parser parser=new Parser(content);
NodeList nodeList=
null
;
// 注册特定标签的类 或者说某个特定的节点
NodeFilter titleFilter=
new
NodeClassFilter(TitleTag.
class
);
NodeFilter metaFilter=
new
NodeClassFilter(MetaTag.
class
);
NodeFilter textFilter=
new
NodeClassFilter(TextNode.
class
);
NodeFilter tableFilter=
new
NodeClassFilter(TableTag.
class
);
NodeFilter linkFilter=
new
NodeClassFilter(LinkTag.
class
);
NodeFilter jspFilter=
new
NodeClassFilter(JspTag.
class
);
//OrFilter类可以得到其参数中设置的任何节点类型,节点之间是或的关系 具体实现方法为setPredicates()
OrFilter lastFilter=
new
OrFilter();
lastFilter.setPredicates(
new
NodeFilter[]{titleFilter,metaFilter,textFilter,tableFilter,linkFilter,jspFilter});
nodeList=parser.parse(lastFilter);
Node [] nodes=nodeList.toNodeArray();
String line=
""
;
for
(
int
i=
0
;i<nodes.length;i++){
Node node=nodes[i];
if
(node
instanceof
TitleTag){
//得到网页的标题
TitleTag titlenode=(TitleTag)node;
line=titlenode.getTitle();
//System.out.println(line);
}
else
if
(node
instanceof
MetaTag) {
//得到meta中的content内容,包括网页的关键字、编码、描述信息等。
MetaTag metaTag=(MetaTag)node;
line=metaTag.getAttribute(
"content"
);
//System.out.println(line);
}
else
if
(node
instanceof
TextNode){
//得到文本内容
TextNode textNode=(TextNode)node;
line=textNode.getText();
//System.out.println(line);
}
else
if
(node
instanceof
TableTag){
TableTag tableTag=(TableTag)node;
line=tableTag.toPlainTextString();
//得到表格的内容
//System.out.println(line);
String width=tableTag.getAttribute(
"width"
);
String height=tableTag.getAttribute(
"height"
);
//System.out.println(width);
}
else
if
(node
instanceof
LinkTag){
//得到网页中的链接和链接文本
LinkTag linknode=(LinkTag)node;
String linkText=linknode.getLinkText();
String link=linknode.getLink();
System.out.println(linkText);
System.out.println(link);
}
else
if
(node
instanceof
JspTag){
//解析网页中的Javas,ASP等动态的代码
JspTag jspTag=(JspTag)node;
line=jspTag.toString();
System.out.println(line);
}
}
}
public
static
void
main(String[] args)
throws
IOException, ParserException {
// TODO Auto-generated method stub
String content=readFile(testFilePath);
parser(content);
}
}
|
2.下面是通过一个URLConnection来初始化Parser
import
java.io.IOException;
import
java.net.HttpURLConnection;
import
java.net.MalformedURLException;
import
java.net.URL;
import
org.htmlparser.Node;
import
org.htmlparser.NodeFilter;
import
org.htmlparser.Parser;
import
org.htmlparser.filters.NodeClassFilter;
import
org.htmlparser.filters.OrFilter;
import
org.htmlparser.tags.TitleTag;
import
org.htmlparser.util.NodeList;
import
org.htmlparser.util.ParserException;
public
class
urlTest {
/**
* @param args
* @throws IOException
* @throws MalformedURLException
* @throws ParserException
*/
public
static
void
parser(String url)
throws
MalformedURLException, IOException, ParserException{
HttpURLConnection urlConnection=(HttpURLConnection) (
new
URL(url)).openConnection();
Parser parser=
new
Parser(urlConnection);
NodeFilter titleFilter=
new
NodeClassFilter(TitleTag.
class
);
NodeList nodeList=
null
;
OrFilter lasFilter=
new
OrFilter();
lasFilter.setPredicates(
new
NodeFilter[]{titleFilter});
nodeList=parser.parse(lasFilter);
Node []nodes=nodeList.toNodeArray();
for
(
int
i=
0
;i<nodes.length;i++){
if
(nodes[i]
instanceof
TitleTag){
TitleTag titleTag=(TitleTag)nodes[i];
String title=titleTag.getTitle();
System.out.println(title);
}
}
}
public
static
void
main(String[] args)
throws
MalformedURLException, ParserException, IOException {
// TODO Auto-generated method stub
parser(url);
}
}
|
3.下面是对相关的Parser对象构造函数进行了很好的封装和测试。常用的构造Parser对象的方法有以下几种:
import
java.io.IOException;
import
java.net.HttpURLConnection;
import
java.net.MalformedURLException;
import
java.net.URL;
import
org.htmlparser.Node;
import
org.htmlparser.NodeFilter;
import
org.htmlparser.Parser;
import
org.htmlparser.filters.NodeClassFilter;
import
org.htmlparser.filters.OrFilter;
import
org.htmlparser.http.ConnectionManager;
import
org.htmlparser.lexer.Page;
import
org.htmlparser.tags.TitleTag;
import
org.htmlparser.util.NodeList;
import
org.htmlparser.util.ParserException;
public
class
IteratorNode {
/**
* @param args
*/
public
static
Parser getParserWithUrlStr(String urlStr,String encoding)
throws
ParserException{
Parser parser=
new
Parser();
parser.setURL(urlStr);
parser.setEncoding(encoding);
return
parser;
}
public
static
Parser getParserWithUrlConn(String urlStr,String encoding)
throws
IOException, ParserException{
URL url=
new
URL(urlStr);
HttpURLConnection urlConnection=(HttpURLConnection) url.openConnection();
Parser parser=
new
Parser(urlConnection);
parser.setEncoding(encoding);
return
parser;
}
public
static
Parser getParserWithUrlConn2(String urlStr,String encoding)
throws
ParserException{
ConnectionManager manager=Page.getConnectionManager();
Parser parser=
new
Parser(manager.openConnection(urlStr));
parser.setEncoding(encoding);
return
parser;
}
public
static
Parser createParser(String htmlContent,String encoding){
//读取本地文件
Parser parser=Parser.createParser(htmlContent, encoding);
return
parser;
}
public
static
void
main(String[] args)
throws
ParserException, IOException {
// TODO Auto-generated method stub
NodeFilter titleFilter=
new
NodeClassFilter(TitleTag.
class
);
NodeList nodeList=
null
;
OrFilter lasFilter=
new
OrFilter();
lasFilter.setPredicates(
new
NodeFilter[]{titleFilter});
nodeList=parser.parse(lasFilter);
Node []nodes=nodeList.toNodeArray();
for
(
int
i=
0
;i<nodes.length;i++){
if
(nodes[i]
instanceof
TitleTag){
TitleTag titleTag=(TitleTag)nodes[i];
String title=titleTag.getTitle();
System.out.println(title);
}
}
}
}
|