浅谈HtmlParser

　　使用Heritrix抓取到自己所需的网页后，还需要对网页中的内容进行分类等操作，这个时候就需要用到htmlparser，但是使用htmlparser并不是那么容易！因为相关的文档比较少，很多更能需要开发者自己去摸索，去发掘！

　　不过这里给大家提供一个比较好的网站（htmlparser的API）：http://tool.oschina.net/apidocs/apidoc?api=HTMLParser，这个API是英文版的，英语不好的这时就要逼迫自己看下去了。

　　HTMLParser的核心模块是org.htmlparser.Parser类，这个类实际完成了对于HTML页面的分析工作。这个类有下面几个构造函数：

public Parser ();
public Parser (Lexer lexer, ParserFeedback fb);
public Parser (URLConnection connection, ParserFeedback fb) throws ParserException;
public Parser (String resource, ParserFeedback feedback) throws ParserException;
public Parser (String resource) throws ParserException;
public Parser (Lexer lexer);
public Parser (URLConnection connection) throws ParserException;

和一个静态类

public static Parser createParser (String html, String charset);

　　对于大多数使用者来说，使用最多的是通过一个URLConnection或者一个保存有网页内容的字符串来初始化Parser，或者使用静态函数来生成一个Parser对象。ParserFeedback的代码很简单，是针对调试和跟踪分析过程的，一般不需要改变。而使用Lexer则是一个相对比较高级的话题，放到以后再讨论吧。
　　这里比较有趣的一点是，如果需要设置页面的编码方式的话，不使用Lexer就只有静态函数一个方法了。对于大多数中文页面来说，好像这是应该用得比较多的一个方法。

下面是初始化Parser的例子（通过打开一个网页的URL，中间的OpenFile方法是在打开一个本地的html文件时使用的）。

【加载的网页文件：index.html】

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html>
    <head>
        <meta http-equiv = "Content-Type" content = "text/html; charset = utf-8"/>
        <title>百度</title>
        <link href = "a_1.css" rel = "stylesheet" type = "text/css"/>
    </head>
    <body>
        <div  align = "center" class = "photo" >
            <img src = "../image/baidu.PNG" >
        </div>
        <div align = "center" class = "body">
            <table cellpadding="8">
                <td>
                    <a href = "#" target = _blank title = "欢迎来到&#10百度网站">新闻</a>
                </td>
                <td>
                    <font color = "black">网页</font>
                </td>
                <td>
                    <a href = "#" target = _blank title = "欢迎来到&#10百度网站">贴吧</a>
                </td>
                <td>
                    <a href = "#" target = _blank title = "欢迎来到&#10百度网站">知道</a>
                </td>
                <td>
                    <a href = "#" target = _blank title = "欢迎来到&#10百度网站">音乐</a>
                </td>
                <td>
                    <a href = "#" target = _blank title = "欢迎来到&#10百度网站">图片</a>
                </td>
                <td>
                    <a href = "#" target = _blank title = "欢迎来到&#10百度网站">视频</a>
                </td>
                <td>
                    <a href = "#" target = _blank title = "欢迎来到&#10百度网站">地图</a>
                </td>
            </table>
            <input class = "input" >
        </div>
    </body>

</html>

View Code

【源码：htmlparser_1.java】

 1 import java.io.BufferedReader;
 2 import java.io.File;
 3 import java.io.FileInputStream;
 4 import java.io.InputStreamReader;
 5 import java.net.HttpURLConnection;
 6 import java.net.URL;
 7 import org.htmlparser.Parser;
 8 import org.htmlparser.visitors.TextExtractingVisitor;
 9 
10 public class Main {
11     private static String ENCODE = "GBK";
12     private static void message(String msg) {
13         // TODO Auto-generated method stub
14         try {
15             System.out.println(new String(msg.getBytes(ENCODE), System
16                     .getProperty("file.encoding")));
17         } catch (Exception e) {
18             // TODO: handle exception
19             e.printStackTrace();
20         }
21     }
22     
23     /*
24      * 打开一个文件
25      */
26     public static String OpenFile(String FileName) {
27         try {
28             File mFile = new File(FileName);
29             FileInputStream mFileInputStream = new FileInputStream(mFile);
30             InputStreamReader mInputStreamReader = new InputStreamReader(
31                     mFileInputStream, ENCODE);
32             BufferedReader mBufferedReader = new BufferedReader(
33                     mInputStreamReader);
34             String mContent = "";
35             String mTemp = "";
36             while ((mTemp = mBufferedReader.readLine()) != null) {
37                 mContent += mTemp + "\n";
38             }
39             mBufferedReader.close();
40         } catch (Exception e) {
41             // TODO: handle exception
42             e.printStackTrace();
43             return "";
44         }
45         return FileName;
46     }
47 
48     /*
49      * main方法
50      */
51     public static void main(String[] args) {
52         // String mContent=OpenFile("");
53         try {
54             Parser mParser = new Parser((HttpURLConnection) (new URL(
55                     "http://127.0.0.1/HtmlParser/index.html")).openConnection());
56             TextExtractingVisitor mExtractingVisitor = new TextExtractingVisitor();
57             mParser.visitAllNodesWith(mExtractingVisitor);
58             String textInPage = mExtractingVisitor.getExtractedText();
59             message(textInPage);
60         } catch (Exception e) {
61             // TODO: handle exception
62             e.printStackTrace();
63         }
64     }
65 
66 }

测试输出结果：

 1     
 2         
 3         百度
 4         
 5     
 6     
 7         
 8             
 9         
10         
11             
12                 
13                     新闻
14                 
15                 
16                     网页
17                 
18                 
19                     贴吧
20                 
21                 
22                     知道
23                 
24                 
25                     音乐
26                 
27                 
28                     图片
29                 
30                 
31                     视频
32                 
33                 
34                     地图
35                 
36             
37             
38         
39

View Code

HTMLParser将解析过的信息保存为一个树的结构。Node是信息保存的数据类型基础。

请看Node的定义：
public interface Node extends Cloneable;

Node中包含的方法有几类：

对于树型结构进行遍历的函数，这些函数最容易理解：

Node getParent ()：取得父节点
NodeList getChildren ()：取得子节点的列表
Node getFirstChild ()：取得第一个子节点
Node getLastChild ()：取得最后一个子节点
Node getPreviousSibling ()：取得前一个兄弟（不好意思，英文是兄弟姐妹，直译太麻烦而且不符合习惯，对不起女同胞了）
Node getNextSibling ()：取得下一个兄弟节点

取得Node内容的函数：

String getText ()：取得文本
String toPlainTextString()：取得纯文本信息。
String toHtml () ：取得HTML信息（原始HTML）
String toHtml (boolean verbatim)：取得HTML信息（原始HTML）
String toString ()：取得字符串信息（原始HTML）
Page getPage ()：取得这个Node对应的Page对象
int getStartPosition ()：取得这个Node在HTML页面中的起始位置
int getEndPosition ()：取得这个Node在HTML页面中的结束位置

用于Filter过滤的函数：

void collectInto (NodeList list, NodeFilter filter)：基于filter的条件对于这个节点进行过滤，符合条件的节点放到list中。

用于Visitor遍历的函数：

void accept (NodeVisitor visitor)：对这个Node应用visitor

用于修改内容的函数，这类用得比较少：

void setPage (Page page)：设置这个Node对应的Page对象
void setText (String text)：设置文本
void setChildren (NodeList children)：设置子节点列表

其他函数：

void doSemanticAction ()： 执行这个Node对应的操作（只有少数Tag有对应的操作）
Object clone ()：　接口Clone的抽象函数。

实际我们用HTMLParser最多的是处理HTML页面，Filter或Visitor相关的函数是必须的，然后第一类和第二类函数是用得最多的。第一类函数比较容易理解，下面用例子说明一下第二类函数。

【源码：htmlparser_2.java】

 1 import java.io.BufferedReader;
 2 import java.io.File;
 3 import java.io.FileInputStream;
 4 import java.io.InputStreamReader;
 5 import java.net.HttpURLConnection;
 6 import java.net.URL;
 7 import org.htmlparser.Node;
 8 import org.htmlparser.Parser;
 9 import org.htmlparser.util.NodeIterator;
10 import org.htmlparser.visitors.TextExtractingVisitor;
11 import org.omg.CosNaming.NamingContextPackage.NotEmpty;
12 
13 public class Main {
14     private static String ENCODE = "utf-8";
15     private static void message(String msg) {
16         // TODO Auto-generated method stub
17         try {
18             System.out.println(new String(msg.getBytes(ENCODE), System
19                     .getProperty("file.encoding")));
20         } catch (Exception e) {
21             // TODO: handle exception
22             e.printStackTrace();
23         }
24     }
25     
26     /*
27      * 打开一个文件
28      */
29     public static String OpenFile(String FileName) {
30         try {
31             File mFile = new File(FileName);
32             FileInputStream mFileInputStream = new FileInputStream(mFile);
33             InputStreamReader mInputStreamReader = new InputStreamReader(
34                     mFileInputStream, ENCODE);
35             BufferedReader mBufferedReader = new BufferedReader(
36                     mInputStreamReader);
37             String mContent = "";
38             String mTemp = "";
39             while ((mTemp = mBufferedReader.readLine()) != null) {
40                 mContent += mTemp + "\n";
41             }
42             mBufferedReader.close();
43         } catch (Exception e) {
44             // TODO: handle exception
45             e.printStackTrace();
46             return "";
47         }
48         return FileName;
49     }
50 
51     /*
52      * main方法
53      */
54     public static void main(String[] args) {
55         // String mContent=OpenFile("");
56         try {
57             Parser mParser = new Parser((HttpURLConnection) (new URL(
58                     "http://127.0.0.1/HtmlParser/index.html")).openConnection());
59 //            TextExtractingVisitor mExtractingVisitor = new TextExtractingVisitor();
60 //            mParser.visitAllNodesWith(mExtractingVisitor);
61 //            String textInPage = mExtractingVisitor.getExtractedText();
62 //            message(textInPage);
63             
64             for (NodeIterator i = mParser.elements(); i.hasMoreNodes();) {
65                 Node node = i.nextNode();
66                 message("getText:"+node.getText());
67                 message("getPlainText:"+node.toPlainTextString());
68                 message("toHtml:"+node.toHtml());
69                 message("toHtml(true):"+node.toHtml(true));
70                 message("tohtml(false):"+node.toHtml(false));
71                 message("toString:"+node.toString());
72                 message("==============================");
73             }
74         } catch (Exception e) {
75             // TODO: handle exception
76             e.printStackTrace();
77         }
78     }
79 }

测试输出结果：

  1 getText:!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"
  2 getPlainText:
  3 toHtml:<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
  4 toHtml(true):<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
  5 tohtml(false):<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
  6 toString:Doctype Tag : !DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd; begins at : 0; ends at : 121
  7 ==============================
  8 getText:
  9 
 10 getPlainText:
 11 
 12 toHtml:
 13 
 14 toHtml(true):
 15 
 16 tohtml(false):
 17 
 18 toString:Txt (121[0,121],123[1,0]): \n
 19 ==============================
 20 getText:html
 21 getPlainText:
 22     
 23         
 24         百度
 25         
 26     
 27     
 28         
 29             
 30         
 31         
 32             
 33                 
 34                     新闻
 35                 
 36                 
 37                     网页
 38                 
 39                 
 40                     贴吧
 41                 
 42                 
 43                     知道
 44                 
 45                 
 46                     音乐
 47                 
 48                 
 49                     图片
 50                 
 51                 
 52                     视频
 53                 
 54                 
 55                     地图
 56                 
 57             
 58             
 59         
 60     
 61 
 62 
 63 toHtml:<html>
 64     <head>
 65         <meta http-equiv = "Content-Type" content = "text/html; charset = utf-8"/>
 66         <title>百度</title>
 67         <link href = "a_1.css" rel = "stylesheet" type = "text/css"/>
 68     </head>
 69     <body>
 70         <div  align = "center" class = "photo" >
 71             <img src = "../image/baidu.PNG" >
 72         </div>
 73         <div align = "center" class = "body">
 74             <table cellpadding="8">
 75                 <td>
 76                     <a href = "#" target = _blank title = "欢迎来到&#10百度网站">新闻</a>
 77                 </td>
 78                 <td>
 79                     <font color = "black">网页</font>
 80                 </td>
 81                 <td>
 82                     <a href = "#" target = _blank title = "欢迎来到&#10百度网站">贴吧</a>
 83                 </td>
 84                 <td>
 85                     <a href = "#" target = _blank title = "欢迎来到&#10百度网站">知道</a>
 86                 </td>
 87                 <td>
 88                     <a href = "#" target = _blank title = "欢迎来到&#10百度网站">音乐</a>
 89                 </td>
 90                 <td>
 91                     <a href = "#" target = _blank title = "欢迎来到&#10百度网站">图片</a>
 92                 </td>
 93                 <td>
 94                     <a href = "#" target = _blank title = "欢迎来到&#10百度网站">视频</a>
 95                 </td>
 96                 <td>
 97                     <a href = "#" target = _blank title = "欢迎来到&#10百度网站">地图</a>
 98                 </td>
 99             </table>
100             <input class = "input" >
101         </div>
102     </body>
103 
104 </html>
105 toHtml(true):<html>
106     <head>
107         <meta http-equiv = "Content-Type" content = "text/html; charset = utf-8"/>
108         <title>百度</title>
109         <link href = "a_1.css" rel = "stylesheet" type = "text/css"/>
110     </head>
111     <body>
112         <div  align = "center" class = "photo" >
113             <img src = "../image/baidu.PNG" >
114         </div>
115         <div align = "center" class = "body">
116             <table cellpadding="8">
117                 <td>
118                     <a href = "#" target = _blank title = "欢迎来到&#10百度网站">新闻</a>
119                 </td>
120                 <td>
121                     <font color = "black">网页</font>
122                 </td>
123                 <td>
124                     <a href = "#" target = _blank title = "欢迎来到&#10百度网站">贴吧</a>
125                 </td>
126                 <td>
127                     <a href = "#" target = _blank title = "欢迎来到&#10百度网站">知道</a>
128                 </td>
129                 <td>
130                     <a href = "#" target = _blank title = "欢迎来到&#10百度网站">音乐</a>
131                 </td>
132                 <td>
133                     <a href = "#" target = _blank title = "欢迎来到&#10百度网站">图片</a>
134                 </td>
135                 <td>
136                     <a href = "#" target = _blank title = "欢迎来到&#10百度网站">视频</a>
137                 </td>
138                 <td>
139                     <a href = "#" target = _blank title = "欢迎来到&#10百度网站">地图</a>
140                 </td>
141             </table>
142             <input class = "input" >
143         </div>
144     </body>
145 
146 </html>
147 tohtml(false):<html>
148     <head>
149         <meta http-equiv = "Content-Type" content = "text/html; charset = utf-8"/>
150         <title>百度</title>
151         <link href = "a_1.css" rel = "stylesheet" type = "text/css"/>
152     </head>
153     <body>
154         <div  align = "center" class = "photo" >
155             <img src = "../image/baidu.PNG" >
156         </div>
157         <div align = "center" class = "body">
158             <table cellpadding="8">
159                 <td>
160                     <a href = "#" target = _blank title = "欢迎来到&#10百度网站">新闻</a>
161                 </td>
162                 <td>
163                     <font color = "black">网页</font>
164                 </td>
165                 <td>
166                     <a href = "#" target = _blank title = "欢迎来到&#10百度网站">贴吧</a>
167                 </td>
168                 <td>
169                     <a href = "#" target = _blank title = "欢迎来到&#10百度网站">知道</a>
170                 </td>
171                 <td>
172                     <a href = "#" target = _blank title = "欢迎来到&#10百度网站">音乐</a>
173                 </td>
174                 <td>
175                     <a href = "#" target = _blank title = "欢迎来到&#10百度网站">图片</a>
176                 </td>
177                 <td>
178                     <a href = "#" target = _blank title = "欢迎来到&#10百度网站">视频</a>
179                 </td>
180                 <td>
181                     <a href = "#" target = _blank title = "欢迎来到&#10百度网站">地图</a>
182                 </td>
183             </table>
184             <input class = "input" >
185         </div>
186     </body>
187 
188 </html>
189 toString:Tag (123[1,0],129[1,6]): html
190   Txt (129[1,6],132[2,1]): \n\t
191   Tag (132[2,1],138[2,7]): head
192     Txt (138[2,7],142[3,2]): \n\t\t
193     Tag (142[3,2],216[3,76]): meta http-equiv = "Content-Type" content = "text/ht...
194     Txt (216[3,76],220[4,2]): \n\t\t
195     Tag (220[4,2],227[4,9]): title
196       Txt (227[4,9],229[4,11]): 百度
197       End (229[4,11],237[4,19]): /title
198     Txt (237[4,19],241[5,2]): \n\t\t
199     Tag (241[5,2],302[5,63]): link href = "a_1.css" rel = "stylesheet" type = "te...
200     Txt (302[5,63],305[6,1]): \n\t
201     End (305[6,1],312[6,8]): /head
202   Txt (312[6,8],315[7,1]): \n\t
203   Tag (315[7,1],321[7,7]): body
204     Txt (321[7,7],325[8,2]): \n\t\t
205     Tag (325[8,2],365[8,42]): div  align = "center" class = "photo" 
206       Txt (365[8,42],370[9,3]): \n\t\t\t
207       Tag (370[9,3],403[9,36]): img src = "../image/baidu.PNG" 
208       Txt (403[9,36],407[10,2]): \n\t\t
209       End (407[10,2],413[10,8]): /div
210     Txt (413[10,8],417[11,2]): \n\t\t
211     Tag (417[11,2],454[11,39]): div align = "center" class = "body"
212       Txt (454[11,39],459[12,3]): \n\t\t\t
213       Tag (459[12,3],482[12,26]): table cellpadding="8"
214         Txt (482[12,26],488[13,4]): \n\t\t\t\t
215         Tag (488[13,4],492[13,8]): td
216           Txt (492[13,8],499[14,5]): \n\t\t\t\t\t
217           Tag (499[14,5],552[14,58]): a href = "#" target = _blank title = "欢迎来到&#10百度网站"
218             Txt (552[14,58],554[14,60]): 新闻
219             End (554[14,60],558[14,64]): /a
220           Txt (558[14,64],564[15,4]): \n\t\t\t\t
221           End (564[15,4],569[15,9]): /td
222         Txt (569[15,9],575[16,4]): \n\t\t\t\t
223         Tag (575[16,4],579[16,8]): td
224           Txt (579[16,8],586[17,5]): \n\t\t\t\t\t
225           Tag (586[17,5],608[17,27]): font color = "black"
226           Txt (608[17,27],610[17,29]): 网页
227           End (610[17,29],617[17,36]): /font
228           Txt (617[17,36],623[18,4]): \n\t\t\t\t
229           End (623[18,4],628[18,9]): /td
230         Txt (628[18,9],634[19,4]): \n\t\t\t\t
231         Tag (634[19,4],638[19,8]): td
232           Txt (638[19,8],645[20,5]): \n\t\t\t\t\t
233           Tag (645[20,5],698[20,58]): a href = "#" target = _blank title = "欢迎来到&#10百度网站"
234             Txt (698[20,58],700[20,60]): 贴吧
235             End (700[20,60],704[20,64]): /a
236           Txt (704[20,64],710[21,4]): \n\t\t\t\t
237           End (710[21,4],715[21,9]): /td
238         Txt (715[21,9],721[22,4]): \n\t\t\t\t
239         Tag (721[22,4],725[22,8]): td
240           Txt (725[22,8],732[23,5]): \n\t\t\t\t\t
241           Tag (732[23,5],785[23,58]): a href = "#" target = _blank title = "欢迎来到&#10百度网站"
242             Txt (785[23,58],787[23,60]): 知道
243             End (787[23,60],791[23,64]): /a
244           Txt (791[23,64],797[24,4]): \n\t\t\t\t
245           End (797[24,4],802[24,9]): /td
246         Txt (802[24,9],808[25,4]): \n\t\t\t\t
247         Tag (808[25,4],812[25,8]): td
248           Txt (812[25,8],819[26,5]): \n\t\t\t\t\t
249           Tag (819[26,5],872[26,58]): a href = "#" target = _blank title = "欢迎来到&#10百度网站"
250             Txt (872[26,58],874[26,60]): 音乐
251             End (874[26,60],878[26,64]): /a
252           Txt (878[26,64],884[27,4]): \n\t\t\t\t
253           End (884[27,4],889[27,9]): /td
254         Txt (889[27,9],895[28,4]): \n\t\t\t\t
255         Tag (895[28,4],899[28,8]): td
256           Txt (899[28,8],906[29,5]): \n\t\t\t\t\t
257           Tag (906[29,5],959[29,58]): a href = "#" target = _blank title = "欢迎来到&#10百度网站"
258             Txt (959[29,58],961[29,60]): 图片
259             End (961[29,60],965[29,64]): /a
260           Txt (965[29,64],971[30,4]): \n\t\t\t\t
261           End (971[30,4],976[30,9]): /td
262         Txt (976[30,9],982[31,4]): \n\t\t\t\t
263         Tag (982[31,4],986[31,8]): td
264           Txt (986[31,8],993[32,5]): \n\t\t\t\t\t
265           Tag (993[32,5],1046[32,58]): a href = "#" target = _blank title = "欢迎来到&#10百度网站"
266             Txt (1046[32,58],1048[32,60]): 视频
267             End (1048[32,60],1052[32,64]): /a
268           Txt (1052[32,64],1058[33,4]): \n\t\t\t\t
269           End (1058[33,4],1063[33,9]): /td
270         Txt (1063[33,9],1069[34,4]): \n\t\t\t\t
271         Tag (1069[34,4],1073[34,8]): td
272           Txt (1073[34,8],1080[35,5]): \n\t\t\t\t\t
273           Tag (1080[35,5],1133[35,58]): a href = "#" target = _blank title = "欢迎来到&#10百...
274             Txt (1133[35,58],1135[35,60]): 地图
275             End (1135[35,60],1139[35,64]): /a
276           Txt (1139[35,64],1145[36,4]): \n\t\t\t\t
277           End (1145[36,4],1150[36,9]): /td
278         Txt (1150[36,9],1155[37,3]): \n\t\t\t
279         End (1155[37,3],1163[37,11]): /table
280       Txt (1163[37,11],1168[38,3]): \n\t\t\t
281       Tag (1168[38,3],1192[38,27]): input class = "input" 
282       Txt (1192[38,27],1196[39,2]): \n\t\t
283       End (1196[39,2],1202[39,8]): /div
284     Txt (1202[39,8],1205[40,1]): \n\t
285     End (1205[40,1],1212[40,8]): /body
286   Txt (1212[40,8],1216[42,0]): \n\n
287   End (1216[42,0],1223[42,7]): /html
288 
289 ==============================

View Code

　　对于第一个Node的内容，对应的就是第一行<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">，从这个输出结果中，也可以看出内容的树状结构。或者说是树林结构。在Page内容的第一层Tag，如DOCTYPE，head和html，分别形成了一个最高层的Node节点（很多人可能对第二个和第四个Node的内容有点奇怪。实际上这两个Node就是两个换行符号。HTMLParser把HTML页面内容中的所有换行，空格，Tab等都转换成了相应的Tag，所以就出现了这样的Node。虽然内容少但是级别高，呵呵）

　　getPlainTextString是把用户可以看到的内容都包含了。有趣的有两点，一是<head>标签中的Title内容是在plainText中的，可能在标题中可见的也算可见吧。另外就是象前面说的，HTML内容中的换行符什么的，也都成了plainText，这个逻辑上好像有点问题。

　　另外可能大家发现toHtml，toHtml(true)和toHtml(false)的结果没什么区别。实际也是这样的，如果跟踪HTMLParser的代码就可以发现，Node的子类是AbstractNode，其中实现了toHtml()的代码，直接调用toHtml(false)，而AbstractNode的三个子类RemarkNode，TagNode和TextNode中，toHtml(boolean verbatim)的实现中，都没有处理verbatim参数，所以三个函数的结果是一模一样的。如果你不需要实现你自己的什么特殊处理，简单使用toHtml就可以了。

HTML的Node类继承关系如下图（这个是从别的文章Copy的）

他被组织成三棵树的森林，其中以<html>标签为根节点的树高度最大，网页的树状结构图如下：

　　html树中要特别注意的是每一个回车换行，HTMLParser会将他们看做一个节点处理。

　　AbstractNodes是Node的直接子类，也是一个抽象类。它的三个直接子类实现是RemarkNode，用于保存注释。在输出结果的toString部分中可以看到有一个"Rem (345[6,2],356[6,13]): 这是注释"，就是一个RemarkNode。TextNode也很简单，就是用户可见的文字信息。TagNode是最复杂的，包含了HTML语言中的所有标签，而且可以扩展（扩展 HTMLParser 对自定义标签的处理能力）。TagNode包含两类，一类是简单的Tag，实际就是不能包含其他Tag的标签，只能做叶子节点。另一类是CompositeTag，就是可以包含其他Tag，是分支节点

　　HTMLParser遍历了网页的内容以后，以树（森林）结构保存了结果。HTMLParser访问结果内容的方法有两种。使用Filter和使用Visitor。

（一）Filter类
　　顾名思义，Filter就是对于结果进行过滤，取得需要的内容。HTMLParser在org.htmlparser.filters包之内一共定义了16个不同的Filter，也可以分为几类。
　　判断类Filter：

TagNameFilter
HasAttributeFilter
HasChildFilter
HasParentFilter
HasSiblingFilter
IsEqualFilter

　　逻辑运算Filter：

AndFilter
NotFilter
OrFilter
XorFilter

　　其他Filter：

NodeClassFilter
StringFilter
LinkStringFilter
LinkRegexFilter
RegexFilter
CssSelectorNodeFilter

所有的Filter类都实现了org.htmlparser.NodeFilter接口。这个接口只有一个主要函数：boolean accept (Node node);

各个子类分别实现这个函数，用于判断输入的Node是否符合这个Filter的过滤条件，如果符合，返回true，否则返回false。

（二）判断类Filter
　　2.1 TagNameFilter

　　TabNameFilter是最容易理解的一个Filter，根据Tag的名字进行过滤。

　【源码：htmlparser_3.java】（此处只给出main方法的代码，其余代码同上）

 1     /*
 2      * main方法
 3      */
 4     public static void main(String[] args) {
 5         // String mContent=OpenFile("");
 6         try {
 7             Parser mParser = new Parser((HttpURLConnection) (new URL(
 8                     "http://127.0.0.1/HtmlParser/index.html")).openConnection());
 9             
10 //            TextExtractingVisitor mExtractingVisitor = new TextExtractingVisitor();
11 //            mParser.visitAllNodesWith(mExtractingVisitor);
12 //            String textInPage = mExtractingVisitor.getExtractedText();
13 //            message(textInPage);
14             
15 //            for (NodeIterator i = mParser.elements(); i.hasMoreNodes();) {
16 //                Node node = i.nextNode();
17 //                message("getText:"+node.getText());
18 //                message("getPlainText:"+node.toPlainTextString());
19 //                message("toHtml:"+node.toHtml());
20 //                message("toHtml(true):"+node.toHtml(true));
21 //                message("tohtml(false):"+node.toHtml(false));
22 //                message("toString:"+node.toString());
23 //                message("==============================");
24 //            }
25             
26             NodeFilter mNodeFilter = new TagNameFilter("DIV");
27             NodeList mNodeList = mParser.extractAllNodesThatMatch(mNodeFilter);
28             if (mNodeFilter!=null) {
29                 for (int i = 0; i < mNodeList.size(); i++) {
30                     Node textNode = (Node)mNodeList.elementAt(i);
31                     message("getText:"+textNode.getText());
32                     message("===================================");
33                 }
34             }
35             
36         } catch (Exception e) {
37             // TODO: handle exception
38             e.printStackTrace();
39         }
40     }

测试输出结果：

1 getText:div  align = "center" class = "photo" 
2 ===================================
3 getText:div align = "center" class = "body"
4 ===================================

View Code

可以看出文件中两个Div节点都被取出了。下面可以针对这两个DIV节点进行操作。

　　2.2 HasChildFilter

　　下面让我们看看HasChildFilter。刚刚看到这个Filter的时候，我想当然地认为这个Filter返回的是有Child的Tag。直接初始化了一个
　　NodeFilter filter = new HasChildFilter();
　　结果调用NodeList nodes = parser.extractAllNodesThatMatch(filter);的时候HasChildFilter内部直接发生NullPointerException。读了一下HasChildFilter的代码，才发现，实际HasChildFilter是返回有符合条件的子节点的节点，需要另外一个Filter作为过滤子节点的参数。缺省的构造函数虽然可以初始化，但是由于子节点的Filter是null，所以使用的时候发生了Exception。从这点来看，HTMLParser的代码还有很多可以优化的的地方。呵呵。

修改代码：

 1     /*
 2      * main方法
 3      */
 4     public static void main(String[] args) {
 5         // String mContent=OpenFile("");
 6         try {
 7             Parser mParser = new Parser((HttpURLConnection) (new URL(
 8                     "http://127.0.0.1/HtmlParser/index.html")).openConnection());            
 9             NodeFilter mInnerFilter = new TagNameFilter("DIV");
10             NodeFilter mNodeFilter = new HasChildFilter(mInnerFilter);
11             NodeList mNodeList = mParser.extractAllNodesThatMatch(mNodeFilter);
12             if (mNodeFilter!=null) {
13             for (int i = 0; i < mNodeList.size(); i++) {
14                 Node textNode = (Node)mNodeList.elementAt(i);
15                 message("getText:"+textNode.getText());
16                 message("===================================");
17             }
18         }
19             
20         } catch (Exception e) {
21             // TODO: handle exception
22             e.printStackTrace();
23         }
24     }

测试输出结果：

1 getText:body
2 ===================================

View Code

在此处可以看到，输出的是含有DIV子Tag的Tag节点。（body有子节点DIV“<div align = "center" class = "photo" >”）

注意HasChildFilter还有一个构造函数：public HasChildFilter (NodeFilter filter, boolean recursive)

如果recursive是false，则只对第一级子节点进行过滤。比如前面的例子，body在第一级的子节点里就有DIV节点，所以匹配上了。如果我们用下面的方法调用：

NodeFilter filter = new HasChildFilter( innerFilter, true );

测试输出结果：

1 getText:html
2 ===================================
3 getText:body
4 ===================================

View Code

可以看到输出结果中多了一个html ，这个是整个HTML页面的节点（根节点），虽然这个节点下直接没有DIV节点，但是它的子节点body下面有DIV节点，所以它也被匹配上了。

　　2.3 HasAttributeFilter

　　HasAttributeFilter有3个构造函数：
　　public HasAttributeFilter ();
　　public HasAttributeFilter (String attribute);
　　public HasAttributeFilter (String attribute, String value);
　　这个Filter可以匹配出包含制定名字的属性，或者制定属性为指定值的节点。还是用例子说明比较容易。

调用方法1：

1             NodeFilter mNodeFilter = new HasAttributeFilter();
2             NodeList mNodeList = mParser.extractAllNodesThatMatch(mNodeFilter);

输出结果：

什么也没有输出

调用方法2：

1             NodeFilter mNodeFilter = new HasAttributeFilter("class");
2             NodeList mNodeList = mParser.extractAllNodesThatMatch(mNodeFilter);

输出结果：

1 getText:div  align = "center" class = "photo" 
2 ===================================
3 getText:div align = "center" class = "body"
4 ===================================
5 getText:input class = "input" 
6 ===================================

View Code

调用方法3：

1             NodeFilter mNodeFilter = new HasAttributeFilter("class","photo");
2             NodeList mNodeList = mParser.extractAllNodesThatMatch(mNodeFilter);

输出结果：

1 getText:div  align = "center" class = "photo" 
2 ===================================

View Code

　　2.4 其他判断列Filter
　　HasParentFilter和HasSiblingFilter的功能与HasChildFilter类似，大家自己试一下就应该了解了。

　　IsEqualFilter的构造函数参数是一个Node：
　　public IsEqualFilter (Node node) {
　　　　mNode = node;
　　}
　　accept函数也很简单：
　　public boolean accept (Node node) {
　　　　return (mNode == node);
　　}
　　不需要过多说明了。

（三）逻辑运算Filter

　　前面介绍的都是简单的Filter，只能针对某种单一类型的条件进行过滤。HTMLParser支持对于简单类型的Filter进行组合，从而实现复杂的条件。原理和一般编程语言的逻辑运算是一样的。

　　3.1 AndFilter

　　AndFilter可以把两种Filter进行组合，只有同时满足条件的Node才会被过滤。
　　测试代码：

1 NodeFilter mNodeFilterLeft = new HasAttributeFilter("class");
2 NodeFilter mNodeFilterRight = new HasAttributeFilter("align");
3 NodeFilter mNodeFilter = new AndFilter(mNodeFilterLeft, mNodeFilterRight);
4 NodeList mNodeList = mParser.extractAllNodesThatMatch(mNodeFilter);

测试输出结果：

1 getText:div  align = "center" class = "photo" 
2 ===================================
3 getText:div align = "center" class = "body"
4 ===================================

View Code

　　3.2 OrFilter
　　把前面的AndFilter换成OrFilter

　　测试代码：

1 NodeFilter mNodeFilterLeft = new HasAttributeFilter("class");
2 NodeFilter mNodeFilterRight = new HasAttributeFilter("align");
3 NodeFilter mNodeFilter = new OrFilter(mNodeFilterLeft, mNodeFilterRight);
4 NodeList mNodeList = mParser.extractAllNodesThatMatch(mNodeFilter);

　　测试输出结果：

1 getText:div  align = "center" class = "photo" 
2 ===================================
3 getText:div align = "center" class = "body"
4 ===================================
5 getText:input class = "input" 
6 ===================================

View Code

　　3.3 NotFilter
　　把前面的AndFilter换成NotFilter

　　测试代码：

1 NodeFilter mNodeFilterLeft = new HasAttributeFilter("class");
2 NodeFilter mNodeFilterRight = new HasAttributeFilter("align");
3 NodeFilter mNodeFilter = new NotFilter(new OrFilter(mNodeFilterLeft,mNodeFilterRight));
4 NodeList mNodeList = mParser.extractAllNodesThatMatch(mNodeFilter);

　　测试输出结果：

  1 getText:!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"
  2 ===================================
  3 getText:
  4 
  5 ===================================
  6 getText:html
  7 ===================================
  8 getText:
  9     
 10 ===================================
 11 getText:head
 12 ===================================
 13 getText:
 14         
 15 ===================================
 16 getText:meta http-equiv = "Content-Type" content = "text/html; charset = utf-8"/
 17 ===================================
 18 getText:
 19         
 20 ===================================
 21 getText:title
 22 ===================================
 23 getText:百度
 24 ===================================
 25 getText:/title
 26 ===================================
 27 getText:
 28         
 29 ===================================
 30 getText:link href = "a_1.css" rel = "stylesheet" type = "text/css"/
 31 ===================================
 32 getText:
 33     
 34 ===================================
 35 getText:/head
 36 ===================================
 37 getText:
 38     
 39 ===================================
 40 getText:body
 41 ===================================
 42 getText:
 43         
 44 ===================================
 45 getText:
 46             
 47 ===================================
 48 getText:img src = "../image/baidu.PNG" 
 49 ===================================
 50 getText:
 51         
 52 ===================================
 53 getText:/div
 54 ===================================
 55 getText:
 56         
 57 ===================================
 58 getText:
 59             
 60 ===================================
 61 getText:table cellpadding="8"
 62 ===================================
 63 getText:
 64                 
 65 ===================================
 66 getText:td
 67 ===================================
 68 getText:
 69                     
 70 ===================================
 71 getText:a href = "#" target = _blank title = "欢迎来到&#10百度网站"
 72 ===================================
 73 getText:新闻
 74 ===================================
 75 getText:/a
 76 ===================================
 77 getText:
 78                 
 79 ===================================
 80 getText:/td
 81 ===================================
 82 getText:
 83                 
 84 ===================================
 85 getText:td
 86 ===================================
 87 getText:
 88                     
 89 ===================================
 90 getText:font color = "black"
 91 ===================================
 92 getText:网页
 93 ===================================
 94 getText:/font
 95 ===================================
 96 getText:
 97                 
 98 ===================================
 99 getText:/td
100 ===================================
101 getText:
102                 
103 ===================================
104 getText:td
105 ===================================
106 getText:
107                     
108 ===================================
109 getText:a href = "#" target = _blank title = "欢迎来到&#10百度网站"
110 ===================================
111 getText:贴吧
112 ===================================
113 getText:/a
114 ===================================
115 getText:
116                 
117 ===================================
118 getText:/td
119 ===================================
120 getText:
121                 
122 ===================================
123 getText:td
124 ===================================
125 getText:
126                     
127 ===================================
128 getText:a href = "#" target = _blank title = "欢迎来到&#10百度网站"
129 ===================================
130 getText:知道
131 ===================================
132 getText:/a
133 ===================================
134 getText:
135                 
136 ===================================
137 getText:/td
138 ===================================
139 getText:
140                 
141 ===================================
142 getText:td
143 ===================================
144 getText:
145                     
146 ===================================
147 getText:a href = "#" target = _blank title = "欢迎来到&#10百度网站"
148 ===================================
149 getText:音乐
150 ===================================
151 getText:/a
152 ===================================
153 getText:
154                 
155 ===================================
156 getText:/td
157 ===================================
158 getText:
159                 
160 ===================================
161 getText:td
162 ===================================
163 getText:
164                     
165 ===================================
166 getText:a href = "#" target = _blank title = "欢迎来到&#10百度网站"
167 ===================================
168 getText:图片
169 ===================================
170 getText:/a
171 ===================================
172 getText:
173                 
174 ===================================
175 getText:/td
176 ===================================
177 getText:
178                 
179 ===================================
180 getText:td
181 ===================================
182 getText:
183                     
184 ===================================
185 getText:a href = "#" target = _blank title = "欢迎来到&#10百度网站"
186 ===================================
187 getText:视频
188 ===================================
189 getText:/a
190 ===================================
191 getText:
192                 
193 ===================================
194 getText:/td
195 ===================================
196 getText:
197                 
198 ===================================
199 getText:td
200 ===================================
201 getText:
202                     
203 ===================================
204 getText:a href = "#" target = _blank title = "欢迎来到&#10百度网站"
205 ===================================
206 getText:地图
207 ===================================
208 getText:/a
209 ===================================
210 getText:
211                 
212 ===================================
213 getText:/td
214 ===================================
215 getText:
216             
217 ===================================
218 getText:/table
219 ===================================
220 getText:
221             
222 ===================================
223 getText:
224         
225 ===================================
226 getText:/div
227 ===================================
228 getText:
229     
230 ===================================
231 getText:/body
232 ===================================
233 getText:
234 
235 
236 ===================================
237 getText:/html
238 ===================================

View Code

　　3.4 XorFilter（暂未实现）
　　把前面的AndFilter换成NotFilter

　　测试代码：……

　　测试输出结果：……

（四）其他Filter：
　　4.1 NodeClassFilter

　　这个Filter用于判断节点类型是否是某个特定的Node类型。在上面中我们已经了解了Node的不同类型，这个Filter就可以针对类型进行过滤。

　　测试代码：

　　测试输出结果：

　　4.2 StringFilter

　　这个Filter用于过滤显示字符串中包含制定内容的Tag。注意是可显示的字符串，不可显示的字符串中的内容（例如注释，链接等等）不会被显示。

　　测试代码：

1 NodeFilter mNodeFilter = new StringFilter("贴吧");
2 NodeList mNodeList = mParser.extractAllNodesThatMatch(mNodeFilter);

　　测试输出结果：

1 getText:贴吧
2 ===================================

View Code

　　4.3 LinkStringFilter

　　这个Filter用于判断链接中是否包含某个特定的字符串，可以用来过滤出指向某个特定网站的链接。

　　测试代码：

1 NodeFilter mNodeFilter = new LinkStringFilter("http://tieba.baidu.com/");
2 NodeList mNodeList = mParser.extractAllNodesThatMatch(mNodeFilter);

　　测试输出结果：（此处需要修改html例子的代码，修改后为：【<a href = "http://tieba.baidu.com/" target = _blank title = "欢迎来到&#10百度网站">贴吧</a>】）

1 getText:a href = "http://tieba.baidu.com/" target = _blank title = "欢迎来到&#10百度网站"
2 ===================================

View Code

　　4.4 其他几个Filter

　　其他几个Filter也是根据字符串对不同的域进行判断，与前面这些的区别主要就是支持正则表达式。这个不在本文的讨论范围以内，大家可以自己实验一下。

　　HTMLParser遍历了网页的内容以后，以树（森林）结构保存了结果。HTMLParser访问结果内容的方法有两种。使用Filter和使用Visitor。
　　下面介绍使用Visitor访问内容的方法。

　　5.1 NodeVisitor

　　从简单方面的理解，Filter是根据某种条件过滤取出需要的Node再进行处理。Visitor则是遍历内容树的每一个节点，对于符合条件的节点进行处理。实际的结果异曲同工，两种不同的方法可以达到相同的结果。
　　下面是一个最常见的NodeVisitro的例子。

　　测试代码：

 1     public static void main(String[] args) {
 2         // TODO Auto-generated method stub
 3         try {
 4             
 5             Parser mParser = new Parser(
 6                     (HttpURLConnection) (new URL(
 7                             "http://127.0.0.1/HtmlParser/index.html"))
 8                             .openConnection());
 9             NodeVisitor mNodeVisitor = new NodeVisitor(false, false) {
10                 @Override
11                 public void visitTag(Tag tag) {
12                     // TODO Auto-generated method stub
13                     message("This is Tag:" + tag.getText());
14                 }
15 
16                 @Override
17                 public void visitStringNode(Text string) {
18                     // TODO Auto-generated method stub
19                     message("This is Text:" + string);
20                 }
21 
22                 @Override
23                 public void visitRemarkNode(Remark remark) {
24                     // TODO Auto-generated method stub
25                     message("This is Remark:" + remark.getText());
26                 }
27 
28                 @Override
29                 public void beginParsing() {
30                     // TODO Auto-generated method stub
31                     message("begin Parsing");
32                 }
33 
34                 @Override
35                 public void visitEndTag(Tag tag) {
36                     // TODO Auto-generated method stub
37                     message("visitEndTag:" + tag.getText());
38                 }
39 
40                 @Override
41                 public void finishedParsing() {
42                     // TODO Auto-generated method stub
43                     message("finishedParsing!");
44                 }
45             };
46             mParser.visitAllNodesWith(mNodeVisitor);
47         } catch (Exception e) {
48             // TODO: handle exception
49         }
50     }

　　测试输出结果：

1 begin Parsing
2 This is Tag:!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"
3 This is Text:Txt (121[0,121],123[1,0]): \n
4 finishedParsing!

View Code

　　可以看到，开始遍历所以的节点以前，beginParsing先被调用，然后处理的是中间的Node，最后在结束遍历以前，finishParsing被调用。因为我设置的 recurseChildren和recurseSelf都是false，所以Visitor没有访问子节点也没有访问根节点的内容。中间输出的两个\n就是我们在前面初始化Parser 中讨论过的最高层的那两个换行。

我们先把recurseSelf设置成true，看看会发生什么。

1 NodeVisitor visitor = new NodeVisitor( false, true)

　　输出结果：

1 begin Parsing
2 This is Tag:!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"
3 This is Text:Txt (121[0,121],123[1,0]): \n
4 This is Tag:html
5 finishedParsing!

View Code

　　可以看到，HTML页面的第一层节点都被调用了。

　　我们再用下面的方法调用看看：

1 NodeVisitor mNodeVisitor = new NodeVisitor(true, false)

　　输出结果：

 1 begin Parsing
 2 This is Tag:!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"
 3 This is Text:Txt (121[0,121],123[1,0]): \n
 4 This is Text:Txt (129[1,6],132[2,1]): \n\t
 5 This is Text:Txt (138[2,7],142[3,2]): \n\t\t
 6 This is Tag:meta http-equiv = "Content-Type" content = "text/html; charset = utf-8"/
 7 This is Text:Txt (216[3,76],220[4,2]): \n\t\t
 8 This is Remark:<title>百度</title>
 9 This is Text:Txt (244[4,26],248[5,2]): \n\t\t
10 This is Tag:link href = "a_1.css" rel = "stylesheet" type = "text/css"/
11 This is Text:Txt (309[5,63],312[6,1]): \n\t
12 visitEndTag:/head
13 This is Text:Txt (319[6,8],322[7,1]): \n\t
14 This is Text:Txt (328[7,7],332[8,2]): \n\t\t
15 This is Text:Txt (372[8,42],377[9,3]): \n\t\t\t
16 This is Tag:img src = "../image/baidu.PNG" 
17 This is Text:Txt (410[9,36],414[10,2]): \n\t\t
18 visitEndTag:/div
19 This is Text:Txt (420[10,8],424[11,2]): \n\t\t
20 This is Text:Txt (461[11,39],466[12,3]): \n\t\t\t
21 This is Text:Txt (489[12,26],495[13,4]): \n\t\t\t\t
22 This is Text:Txt (499[13,8],506[14,5]): \n\t\t\t\t\t
23 This is Text:Txt (559[14,58],561[14,60]): 新闻
24 visitEndTag:/a
25 This is Text:Txt (565[14,64],571[15,4]): \n\t\t\t\t
26 visitEndTag:/td
27 This is Text:Txt (576[15,9],582[16,4]): \n\t\t\t\t
28 This is Text:Txt (586[16,8],593[17,5]): \n\t\t\t\t\t
29 This is Tag:font color = "black"
30 This is Text:Txt (615[17,27],617[17,29]): 网页
31 visitEndTag:/font
32 This is Text:Txt (624[17,36],630[18,4]): \n\t\t\t\t
33 visitEndTag:/td
34 This is Text:Txt (635[18,9],641[19,4]): \n\t\t\t\t
35 This is Text:Txt (645[19,8],652[20,5]): \n\t\t\t\t\t
36 This is Text:Txt (727[20,80],729[20,82]): 贴吧
37 visitEndTag:/a
38 This is Text:Txt (733[20,86],739[21,4]): \n\t\t\t\t
39 visitEndTag:/td
40 This is Text:Txt (744[21,9],750[22,4]): \n\t\t\t\t
41 This is Text:Txt (754[22,8],761[23,5]): \n\t\t\t\t\t
42 This is Text:Txt (814[23,58],816[23,60]): 知道
43 visitEndTag:/a
44 This is Text:Txt (820[23,64],826[24,4]): \n\t\t\t\t
45 visitEndTag:/td
46 This is Text:Txt (831[24,9],837[25,4]): \n\t\t\t\t
47 This is Text:Txt (841[25,8],848[26,5]): \n\t\t\t\t\t
48 This is Text:Txt (901[26,58],903[26,60]): 音乐
49 visitEndTag:/a
50 This is Text:Txt (907[26,64],913[27,4]): \n\t\t\t\t
51 visitEndTag:/td
52 This is Text:Txt (918[27,9],924[28,4]): \n\t\t\t\t
53 This is Text:Txt (928[28,8],935[29,5]): \n\t\t\t\t\t
54 This is Text:Txt (988[29,58],990[29,60]): 图片
55 visitEndTag:/a
56 This is Text:Txt (994[29,64],1000[30,4]): \n\t\t\t\t
57 visitEndTag:/td
58 This is Text:Txt (1005[30,9],1011[31,4]): \n\t\t\t\t
59 This is Text:Txt (1015[31,8],1022[32,5]): \n\t\t\t\t\t
60 This is Text:Txt (1075[32,58],1077[32,60]): 视频
61 visitEndTag:/a
62 This is Text:Txt (1081[32,64],1087[33,4]): \n\t\t\t\t
63 visitEndTag:/td
64 This is Text:Txt (1092[33,9],1098[34,4]): \n\t\t\t\t
65 This is Text:Txt (1102[34,8],1109[35,5]): \n\t\t\t\t\t
66 This is Text:Txt (1162[35,58],1164[35,60]): 地图
67 visitEndTag:/a
68 This is Text:Txt (1168[35,64],1174[36,4]): \n\t\t\t\t
69 visitEndTag:/td
70 This is Text:Txt (1179[36,9],1184[37,3]): \n\t\t\t
71 visitEndTag:/table
72 This is Text:Txt (1192[37,11],1197[38,3]): \n\t\t\t
73 This is Tag:input class = "input" 
74 This is Text:Txt (1221[38,27],1225[39,2]): \n\t\t
75 visitEndTag:/div
76 This is Text:Txt (1231[39,8],1234[40,1]): \n\t
77 visitEndTag:/body
78 This is Text:Txt (1241[40,8],1245[42,0]): \n\n
79 visitEndTag:/html
80 finishedParsing!

View Code

　　可以看到，所有的子节点都出现了，除了刚刚例子里面的两个最上层节点This is Tag:head和This is Tag:html xmlns="http://www.w3.org/1999/xhtml"。

　　想让它们都出来，只需要

1 NodeVisitor mNodeVisitor = new NodeVisitor(true, true)

　　输出结果：

  1 begin Parsing
  2 This is Tag:!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"
  3 This is Text:Txt (121[0,121],123[1,0]): \n
  4 This is Tag:html
  5 This is Text:Txt (129[1,6],132[2,1]): \n\t
  6 This is Tag:head
  7 This is Text:Txt (138[2,7],142[3,2]): \n\t\t
  8 This is Tag:meta http-equiv = "Content-Type" content = "text/html; charset = utf-8"/
  9 This is Text:Txt (216[3,76],220[4,2]): \n\t\t
 10 This is Remark:<title>百度</title>
 11 This is Text:Txt (244[4,26],248[5,2]): \n\t\t
 12 This is Tag:link href = "a_1.css" rel = "stylesheet" type = "text/css"/
 13 This is Text:Txt (309[5,63],312[6,1]): \n\t
 14 visitEndTag:/head
 15 This is Text:Txt (319[6,8],322[7,1]): \n\t
 16 This is Tag:body
 17 This is Text:Txt (328[7,7],332[8,2]): \n\t\t
 18 This is Tag:div  align = "center" class = "photo" 
 19 This is Text:Txt (372[8,42],377[9,3]): \n\t\t\t
 20 This is Tag:img src = "../image/baidu.PNG" 
 21 This is Text:Txt (410[9,36],414[10,2]): \n\t\t
 22 visitEndTag:/div
 23 This is Text:Txt (420[10,8],424[11,2]): \n\t\t
 24 This is Tag:div align = "center" class = "body"
 25 This is Text:Txt (461[11,39],466[12,3]): \n\t\t\t
 26 This is Tag:table cellpadding="8"
 27 This is Text:Txt (489[12,26],495[13,4]): \n\t\t\t\t
 28 This is Tag:td
 29 This is Text:Txt (499[13,8],506[14,5]): \n\t\t\t\t\t
 30 This is Tag:a href = "#" target = _blank title = "欢迎来到&#10百度网站"
 31 This is Text:Txt (559[14,58],561[14,60]): 新闻
 32 visitEndTag:/a
 33 This is Text:Txt (565[14,64],571[15,4]): \n\t\t\t\t
 34 visitEndTag:/td
 35 This is Text:Txt (576[15,9],582[16,4]): \n\t\t\t\t
 36 This is Tag:td
 37 This is Text:Txt (586[16,8],593[17,5]): \n\t\t\t\t\t
 38 This is Tag:font color = "black"
 39 This is Text:Txt (615[17,27],617[17,29]): 网页
 40 visitEndTag:/font
 41 This is Text:Txt (624[17,36],630[18,4]): \n\t\t\t\t
 42 visitEndTag:/td
 43 This is Text:Txt (635[18,9],641[19,4]): \n\t\t\t\t
 44 This is Tag:td
 45 This is Text:Txt (645[19,8],652[20,5]): \n\t\t\t\t\t
 46 This is Tag:a href = "http://tieba.baidu.com/" target = _blank title = "欢迎来到&#10百度网站"
 47 This is Text:Txt (727[20,80],729[20,82]): 贴吧
 48 visitEndTag:/a
 49 This is Text:Txt (733[20,86],739[21,4]): \n\t\t\t\t
 50 visitEndTag:/td
 51 This is Text:Txt (744[21,9],750[22,4]): \n\t\t\t\t
 52 This is Tag:td
 53 This is Text:Txt (754[22,8],761[23,5]): \n\t\t\t\t\t
 54 This is Tag:a href = "#" target = _blank title = "欢迎来到&#10百度网站"
 55 This is Text:Txt (814[23,58],816[23,60]): 知道
 56 visitEndTag:/a
 57 This is Text:Txt (820[23,64],826[24,4]): \n\t\t\t\t
 58 visitEndTag:/td
 59 This is Text:Txt (831[24,9],837[25,4]): \n\t\t\t\t
 60 This is Tag:td
 61 This is Text:Txt (841[25,8],848[26,5]): \n\t\t\t\t\t
 62 This is Tag:a href = "#" target = _blank title = "欢迎来到&#10百度网站"
 63 This is Text:Txt (901[26,58],903[26,60]): 音乐
 64 visitEndTag:/a
 65 This is Text:Txt (907[26,64],913[27,4]): \n\t\t\t\t
 66 visitEndTag:/td
 67 This is Text:Txt (918[27,9],924[28,4]): \n\t\t\t\t
 68 This is Tag:td
 69 This is Text:Txt (928[28,8],935[29,5]): \n\t\t\t\t\t
 70 This is Tag:a href = "#" target = _blank title = "欢迎来到&#10百度网站"
 71 This is Text:Txt (988[29,58],990[29,60]): 图片
 72 visitEndTag:/a
 73 This is Text:Txt (994[29,64],1000[30,4]): \n\t\t\t\t
 74 visitEndTag:/td
 75 This is Text:Txt (1005[30,9],1011[31,4]): \n\t\t\t\t
 76 This is Tag:td
 77 This is Text:Txt (1015[31,8],1022[32,5]): \n\t\t\t\t\t
 78 This is Tag:a href = "#" target = _blank title = "欢迎来到&#10百度网站"
 79 This is Text:Txt (1075[32,58],1077[32,60]): 视频
 80 visitEndTag:/a
 81 This is Text:Txt (1081[32,64],1087[33,4]): \n\t\t\t\t
 82 visitEndTag:/td
 83 This is Text:Txt (1092[33,9],1098[34,4]): \n\t\t\t\t
 84 This is Tag:td
 85 This is Text:Txt (1102[34,8],1109[35,5]): \n\t\t\t\t\t
 86 This is Tag:a href = "#" target = _blank title = "欢迎来到&#10百度网站"
 87 This is Text:Txt (1162[35,58],1164[35,60]): 地图
 88 visitEndTag:/a
 89 This is Text:Txt (1168[35,64],1174[36,4]): \n\t\t\t\t
 90 visitEndTag:/td
 91 This is Text:Txt (1179[36,9],1184[37,3]): \n\t\t\t
 92 visitEndTag:/table
 93 This is Text:Txt (1192[37,11],1197[38,3]): \n\t\t\t
 94 This is Tag:input class = "input" 
 95 This is Text:Txt (1221[38,27],1225[39,2]): \n\t\t
 96 visitEndTag:/div
 97 This is Text:Txt (1231[39,8],1234[40,1]): \n\t
 98 visitEndTag:/body
 99 This is Text:Txt (1241[40,8],1245[42,0]): \n\n
100 visitEndTag:/html
101 finishedParsing!

View Code

　　哈哈，这下调用清楚了，大家在需要处理的地方增加自己的代码好了。

　　5.2 其他Visitor

……

到此，个人感觉与htmlparser的缘分已尽！下一步，进军JSoup！！！

===========================参考网址===========================

http://www.blogjava.net/amigoxie/archive/2008/01/18/176200.html

http://www.cnblogs.com/loveyakamoz/archive/2011/07/27/2118937.html

http://blog.csdn.net/witsmakemen/article/details/8778979

===========================参考网址===========================

你可能感兴趣的:(HtmlParser)

lxml.etree.XMLSyntaxError解决方法 sjyOvO python
lxml.etree.XMLSyntaxError解决方法在练习lxml数据解析的时候，用parse方法加载本地的html文件时出现如下错误：lxml.etree.XMLSyntaxError:EntityRef:expecting‘;’,line2,column286原因：html代码书写不规范（不怪你）解决方法：parser=etree.HTMLParser(encoding='utf-8')
java parser乱码_HtmlParser 2.0 中文乱码问题福建低调 java parser乱码
对于HTMLParser2.0工具包我们需要修改其中的Page.java文件使其适用中文的html文件分析。主要是把protectedstaticfinalStringDEFAULT_CHARSET="ISO-8859-1"；修改成protectedstaticfinalStringDEFAULT_CHARSET="gb2312"；主要是兼容charset='GBK'声明的页面。--因为采用默认的
vue项目能正常启动但是打包报错小全upup vue.js 前端 javascript
项目执行npmrunserve/dev的图一点影响没有跑起来之后页面也非常的正常然后就来到了打包环境执行打包命令报这种错误-htmlparser.js:255HTMLParser.parse[mydemo]/[html-minifier-terser]/src/htmlparser.js:255:15-runMicrotasks-task_queues.js:95processTicksAndRe
itchat报错'HTMLParser' object has no attribute 'unescape'在python3.9 g9efwi8b
itchat里面有个地方经常报错,C:\Users\-username-\AppData\Local\Programs\Python\Python39\Lib\site-packages\itchat\utils.py的第70行d[k]=htmlParser.unescape(d[k])改为importhtmld[k]=html.unescape(d[k])这样就不容易报错了.
微信小程序中显示html富文本的方法大胡子的机器人
image.png使用方法：git地址：https://github.com/icindy/wxParse一、下载wxParse文件image.pngwxParse/-wxParse.js(必须存在)-html2json.js(必须存在)-htmlparser.js(必须存在)-showdown.js(必须存在)-wxDiscode.js(必须存在)-wxParse.wxml(必须存在)-wxPa
使用Jsoup解析html网页程序猿老王开发工具 html Jsoup
一、JSOUP简介在以往用java来处理解析HTML文档或者片段时，我们通常会采用htmlparser（http://htmlparser.sourceforge.net/）这个开源类库。现在我们有了JSOUP，以后的处理HTML的内容只需要使用JSOUP就已经足够了，JSOUP有更快的更新，更方便的API等。jsoup是一款Java的HTML解析器，可直接解析某个URL地址、HTML文本内容。它
Python的HTMLParser库的用法 weixin_30777913 Python Python HTMLParse
HTMLParser库的用法如果我们要编写一个搜索引擎，第一步是用爬虫把目标网站的页面抓下来，第二步就是解析该HTML页面，看看里面的内容到底是新闻、图片还是视频。假设第一步已经完成了，第二步应该如何解析HTML呢？HTML本质上是XML的子集，但是HTML的语法没有XML那么严格，所以不能用标准的DOM或SAX来解析HTML。好在Python提供了HTMLParser来非常方便地解析HTML，只
Vue3.4的新变化大鲤余 vue.js javascript 前端
解析器3.4版本解析器速度提升2倍，提高了SFC构建性能。之前版本Vue使用递归下降解析器，该解析器依赖于许多正则表达式和前瞻搜索。新的解析器使用基于htmlparser2中的标记生成器的状态机标记生成器，它仅迭代整个模板字符串一次。响应式上3.4还对响应式系统进行了重大重构，目标是提高计算属性的重新计算效率。constcount=ref(0)constisEven=computed(()=>co
Python的HTMLParser模块：HTML解析的得力工具小雨淋林 Python基础入门教程 python xml
在Python中，HTMLParser模块提供了一个简单而强大的HTML解析器，用于解析HTML文档并提取其中的信息。本篇博客将深入讨论HTMLParser模块，包括基本使用、自定义解析器的创建以及实际应用中的示例。1.HTMLParser模块概述HTMLParser模块是Python标准库中的一部分，提供了一个基于事件的HTML解析器。它继承自Python的SGMLParser类，用于将HTML
html.parser --- 简单的 HTML 和 XHTML 解析器知识的宝藏 python
源代码：Lib/html/parser.py这个模块定义了一个HTMLParser类，为HTML（超文本标记语言）和XHTML文本文件解析提供基础。classhtml.parser.HTMLParser(*,convert_charrefs=True)创建一个能解析无效标记的解析器实例。如果convert_charrefs为True(默认值)，则所有字符引用(script/style元素中的除外)
python 爬取本地的HTML中的数据并将其存储进Excel表格中是兔子不是tu子 python excel 开发语言
我有一个HTML文件保存在本地，我需要爬取里面的某些数据并将爬取到的部分数据存储进Excel表中我的解决思路如下：先爬取数据按照步长将数据分割成二维列表循环遍历将需要的数据存入Excel表中实现代码如下：#coding:utf-8fromlxmlimportetreeimportxlsxwriter#：载入模块#解析本地文件使用etree.parseparser=etree.HTMLParser(
2.爬虫之xpath选择器&selenium模块开局签到Python基础 9.爬虫爬虫 selenium python
1.xpath选择器1.1xpath介绍xpath:是一门在xml/html文档中查找信息的语句.安装:pipinstalllxml导入:fromlxmlimportetree生成对象:html=etree.HTML('html文档字符串')html=etree.parse('.html文件路径',etree.HTMLParser())1.2选取节点表达式查询节点:/:从根节点选取(值是一个对象)
02 数据解析 Ag刘晓婷
xpath//input[@id='search_input']//div/ul[@class='lg_tnav_wrap']/li[1]/a//div/ul[@class='lg_tnav_wrap']/li[1]/a[@*]lxmletreeparserfromlxmlimportetreehtml=etree.HTML(text)parser=etree.HTMLParser(encodin
python爬虫 NoNamePlus 普通学习笔记 python 爬虫开发语言
1.爬虫的基本流程用urllib或是requests库把网页的HTML代码拉到本地用HTMLParser，Xpath，BeautifulSoup等库解析HTML代码，找到想要的东西2.HTMLParser廖雪峰的网站看资料3.urllib廖雪峰的网站看资料4.requests菜鸟教程看资料#GET方法importrequestsHTML=requests.get("网址",headers={"Us
pycharm 切换 python3.9 报错 'HTMLParser' object has no attribute 'unescape' 解决程序员的一天
有的bug，莫名其妙就好了...python3.9报错"AttributeError:'HTMLParser'objecthasnoattribute'unescape'"异常分析解决。一、问题描述安装python3.9版本后，pycharm中切换python3.9版本，创建虚拟环境报错："AttributeError:'HTMLParser'objecthasnoattribute'unesca
怎么在html中使用less语言,Less.Html 示例五：使用方法详解潘儒锋
Less.Html示例五：使用方法详解0.从解析开始引入Less.Html的命名空间：usingLess.Html;调用静态类型HtmlParser的Parse方法：Documentdocument=HtmlParser.Parse(testHtml);返回的是HTMLDOM标准的文档对象，我只实现了常见的DOM方法，其实DOM方法的设计本身就有繁复的地方，这个以后再说。要方便地查找文档元素，还需
easyUi重新渲染 Night_zzz
狂野的小怪兽jqueryEasyui重新渲染转载:jQueryEasyUIparser的使用场景|WebUI框架使用参考+http://www.easyui.info/archives/216.htmlparser，故名意思，就是解析器的意思，别看他只有那么几行代码，jQueryEasyui能够根据class就能正常渲染页面全靠它了。一般情况下，我们并用不到解析器，本文主要讨论一下，什么情况下会用
输入 URL 到页面渲染的整个流程晓丽_c080
DNS解析TCP三次握手发送请求，分析url，设置请求报文(头，主体)服务器返回请求的文件(html)浏览器渲染HTMLparser-->DOMTree标记化算法，进行元素状态的标记dom树构建CSSparser-->StyleTree解析css代码，生成样式树attachment-->RenderTree结合dom树与style树，生成渲染树layout:布局GPUpainting:像素绘制页面
「三」浏览器中CSS 语法解析过程废柴码农
CSS语法解析过程1.在浏览器系列文章中，今天终点讲下CSS解析这块内容.我们已知浏览器的渲染流程中HTMLParser会生成DOM树，而CSSParser会将解析结果附加到DOM树上，如下图：image.png解析分为词法分析和语法分析。image.png词法分析，也是编译原理中的术语，从左到右一个字符一个字符的读入源程序，对字符流进行扫描，根据构词规则识别单词。这一过程可以使用lex等工具自动
(水印)html转图片 Peak_Gao java java
gui.avahtml2image2.0.1xml-apisxml-apis1.4.01"+"IP地址：127.0.0.1国家：AAA\n"+"省份：AAAA位置：XXXXXXX";HtmlParserhtmlParser=newHtmlParserImpl();htmlParser.loadHtml(htmlTemplate);ImageRendererimageRenderer=newImag
ios 常见问题解决 weixin_30706691 xcode 移动开发 c/c++
一，libxml/HTMLparser.hfilenotfind第一种方法：点击左边项目的根目录，再点击右边的BuildSettings，手工输入文字：“Headersearchpaths”，然后单击（或双击，点击弹出面板下面的“+”号进行添加）“Headersearchpaths”右边的空白处，输入：/usr/include/libxml2第二种方法：点击左边项目的根目录，再点击右边的Build
java爬虫爬取百度图片_Java实现爬取百度图片的方法分析 weixin_39552768 java爬虫爬取百度图片
本文实例讲述了Java实现爬取百度图片的方法。分享给大家供大家参考，具体如下：在以往用java来处理解析HTML文档或者片段时，我们通常会采用htmlparser(http://htmlparser.sourceforge.net/)这个开源类库。现在我们有了JSOUP，以后的处理HTML的内容只需要使用JSOUP就已经足够了，JSOUP有更快的更新，更方便的API等。jsoup是一款Java的H
浏览器渲染页面的大致过程路人丁0417
[图片上传失败...(image-735179-1630336184679)]渲染引擎启动html解释器(htmlParser)解析html源码，根据DOMAPI创建domtree，Browser进程并行下载网络资源(css/image/js...)。在dom树中，每个html标签都有一个对应的节点，每个文本也有对应的文本节点，根节点就是documentElement,对应的是html节点。当遇到
python调用html数据_Python读取HTML页面柒八酒 python调用html数据
有一个类库叫作beautifulsoup。使用这个库，可以搜索html标签的值，并获取页面标题和页面标题列表等特定数据。安装Beautifulsoup使用Anaconda软件包管理器安装所需的软件包及其相关软件包。condainstallBeaustifulsoap读取HTML文件在下面的例子中，我们请求一个url被加载到python环境中。然后使用htmlparser参数来读取整个html文件。
Python调用Halcon踩坑记录唐浅浅 Python python
原配置为：PyCharm2019.1+Python3.71.使用python3.7.2安装mvtec-halcon提示找不到合适版本查看HalconPyhton接口使用文档，Python需要3.8版本以上2.安装最新的Python版本安装Python3.9，使用PyCharm切换python3.9报错‘HTMLParser‘objecthasnoattribute‘unescape‘查看官网pyt
数据处理之XPATH提取数据--------常用方法西红市杰出青年 python 大数据开发语言
**etree数据处理之XPATH提取数据--------常用方法**parser=etree.HTMLParser(encoding=‘utf-8’)html=etree.parse(‘A000000_table.html’,parser=parser)/AAA绝对路径表示必须以AAA开头print(html.xpath(‘/html’)[0])/AAA/BBB选择AAA下面的所有BBB元素但是
Python爬虫：HTML网页解析方法小结 Python程序员小泉 python 编程 python入门 python 爬虫 python入门 python开发
要理解python是如何解析网页的，首先要理解什么是网页解析器。简单的说就是用来解析html网页的工具，准确的说：它是一个HTML网页信息提取工具，就是从html网页中解析提取出“我们需要的有价值的数据”或者“新的URL链接”的工具。解析HTML：层次化的数据有多个解析HTML的第三方库，例如：LXML，BeautifulSoup，HTMLParser等等。解析HTML面临的问题：没有统一的标准、
基于python的简介以及应用知识，快做好，要发车啦（文末有个投票）阿玥的小东东 python 开发语言爬虫阿玥的小东东程序人生
目录简介：流程：实现：环境：UrlManager类HtmlDownloader类HtmlParser类BuildIndex
天天都在使用CSS，那么CSS的原理是什么呢？周小肆
作为前端，我们每天都在与CSS打交道，那么CSS的原理是什么呢？一、浏览器渲染开篇，我们还是不厌其烦的回顾一下浏览器的渲染过程，先上图：webkitrender正如上图所展示的，我们浏览器渲染过程分为了两条主线：其一，HTMLParser生成的DOM树；其二，CSSParser生成的StyleRules；在这之后，DOM树与StyleRules会生成一个新的对象，也就是我们常说的RenderTre
python cgi SkTj
cookie操作:限制4kb,300个，每个域名20个image.pngcgi.escapeimage.pngurllib.parse.quote_plusunquote_plusimage.pngopen().read()HTMLParser().unescape()image.pngcgi.FieldStorage()xx.keys()image.pngos.path.abspath(path
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C