String url = http://www.xxx.com; Parser p = new Parser(url); //...如果换成本地文件,就麻烦一些,不过道理是一样的。据我的理解,以上new Parser的过程中,第一个要做的工作就是,获取url网页中的字符流,这些字符流中,既是(或者包含了)对应HTML网页的源文件中的内容。但是此时此刻,这个工作是“隐式地”完成的。
String path ="d://fileFolder//wantParser.html";// file path you want to parser StringBuffer abstr = new StringBuffer(); BufferedReader reader= new BufferedReader(new FileReader(new File(path))); String temp=""; while((temp=reader.readLine())!=null){ abstr.append(temp); abstr.append("\r\n"); } String result =abstr.toString(); // here you get all the string within your file. Parser p = Parser.createParser(result, "GB2312");// creat a parser ,which you want to parse.
黄颖,黄治平;《HtmlParser提取网页信息的设计与实现》,江西理工大学学报,28卷,6期
转载自:
【1】用htmlparser 解析本地html文件
http://blog.sina.com.cn/s/blog_53f7a75b01011zxd.html
【2】使用HtmlParser解析HTML
http://www.cnblogs.com/doll-net/archive/2007/06/29/800396.html
【3】HTMLParser使用详解
http://wenku.baidu.com/view/8576448f6529647d27285286.html