【java】【HtmlParser】HtmlParser使用

HTMLParser的核心模块是org.htmlparser.Parser类，这个类实际完成了对于HTML页面的分析工作。这个类有下面几个构造函数：

public Parser ();

public Parser (Lexer lexer, ParserFeedback fb);

public Parser (URLConnection connection, ParserFeedback fb) throws ParserException;

public Parser (String resource, ParserFeedback feedback) throws ParserException;

public Parser (String resource) throws ParserException;

public Parser (Lexer lexer);

public Parser (URLConnection connection) throws ParserException;

public static Parser createParser (String html, String charset);//静态类

Node中包含的方法有几类：
对于树型结构进行遍历的函数，这些函数最容易理解：
Node getParent ()：取得父节点
NodeList getChildren ()：取得子节点的列表
Node getFirstChild ()：取得第一个子节点
Node getLastChild ()：取得最后一个子节点
Node getPreviousSibling ()：取得前一个兄弟（不好意思，英文是兄弟姐妹，直译太麻烦而且不符合习惯，对不起女同胞了）
Node getNextSibling ()：取得下一个兄弟节点
取得Node内容的函数：
String getText ()：取得文本
String toPlainTextString()：取得纯文本信息。
String toHtml () ：取得HTML信息（原始HTML）
String toHtml (boolean verbatim)：取得HTML信息（原始HTML）
String toString ()：取得字符串信息（原始HTML）
Page getPage ()：取得这个Node对应的Page对象
int getStartPosition ()：取得这个Node在HTML页面中的起始位置
int getEndPosition ()：取得这个Node在HTML页面中的结束位置
用于Filter过滤的函数：
void collectInto (NodeList list, NodeFilter filter)：基于filter的条件对于这个节点进行过滤，符合条件的节点放到list中。
用于Visitor遍历的函数：
void accept (NodeVisitor visitor)：对这个Node应用visitor
用于修改内容的函数，这类用得比较少：
void setPage (Page page)：设置这个Node对应的Page对象
void setText (String text)：设置文本
void setChildren (NodeList children)：设置子节点列表
其他函数：
void doSemanticAction ()：执行这个Node对应的操作（只有少数Tag有对应的操作）
Object clone ()：接口Clone的抽象函数。

类框架图：

AbstractNodes是Node的直接子类，也是一个抽象类。它的三个直接子类实现是RemarkNode，用于保存注释。在输出结果的toString部分中可以看到有一个"Rem (345[6,2],356[6,13]): 这是注释"，就是一个RemarkNode。TextNode也很简单，就是用户可见的文字信息。TagNode是最复杂的，包含了HTML语言中的所有标签，而且可以扩展（扩展 HTMLParser 对自定义标签的处理能力）。TagNode包含两类，一类是简单的Tag，实际就是不能包含其他Tag的标签，只能做叶子节点。另一类是CompositeTag，就是可以包含其他Tag，是分支节点

HTMLParser遍历了网页的内容以后，以树（森林）结构保存了结果。HTMLParser访问结果内容的方法有两种。使用Filter和使用Visitor。

实际我们用HTMLParser最多的是处理HTML页面，Filter或Visitor相关的函数是必须的，然后第一类和第二类函数是用得最多的。第一类函数比较容易理解，下面用例子说明一下第二类函数。

下面是用于测试的HTML文件：

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<head><meta http-equiv="Content-Type" content="text/html; charset=gb2312"><title>白泽居-www.baizeju.com</title></head>

<html xmlns="http://www.w3.org/1999/xhtml">

<body >

<div id="top_main">

    <div id="logoindex">

        <!--这是注释-->

        白泽居-www.baizeju.com

<a href="http://www.baizeju.com">白泽居-www.baizeju.com</a>

    </div>

    白泽居-www.baizeju.com

</div>

</body>

</html>

测试代码：

/**

* @author www.baizeju.com

*/



package com.baizeju.htmlparsertester;

import java.io.BufferedReader;

import java.io.InputStreamReader;

import java.io.FileInputStream;

import java.io.File;

import java.net.HttpURLConnection;

import java.net.URL;



import org.htmlparser.Node;

import org.htmlparser.util.NodeIterator;

import org.htmlparser.Parser;



/**

* @author www.baizeju.com

*/

public class Main {

    private static String ENCODE = "GBK";

    private static void message( String szMsg ) {

        try{ System.out.println(new String(szMsg.getBytes(ENCODE), System.getProperty("file.encoding"))); }     catch(Exception e ){}

    }

    public static String openFile( String szFileName ) {

        try {

            BufferedReader bis = new BufferedReader(new InputStreamReader(new FileInputStream( new File(szFileName)),    ENCODE) );

            String szContent="";

            String szTemp;

            

            while ( (szTemp = bis.readLine()) != null) {

                szContent+=szTemp+"\n";

            }

            bis.close();

            return szContent;

        }

        catch( Exception e ) {

            return "";

        }

    }

    

   public static void main(String[] args) {

        

        try{

            Parser parser = new Parser( (HttpURLConnection) (new URL("http://127.0.0.1:8080/HTMLParserTester.html")).openConnection() );

        

            for (NodeIterator i = parser.elements (); i.hasMoreNodes(); ) {

                Node node = i.nextNode();

                message("getText:"+node.getText());

                message("getPlainText:"+node.toPlainTextString());

                message("toHtml:"+node.toHtml());

                message("toHtml(true):"+node.toHtml(true));

                message("toHtml(false):"+node.toHtml(false));

                message("toString:"+node.toString());

                message("=================================================");

            }            

        }

        catch( Exception e ) {     

            System.out.println( "Exception:"+e );

        }

    }

}

输出结果：

getText:!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"

getPlainText:

toHtml:<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

toHtml(true):<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

toHtml(false):<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

toString:Doctype Tag : !DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd; begins at : 0; ends at : 121

=================================================

getText:



getPlainText:



toHtml:



toHtml(true):



toHtml(false):



toString:Txt (121[0,121],123[1,0]): \n

=================================================

getText:head

getPlainText:白泽居-www.baizeju.com

toHtml:<head><meta http-equiv="Content-Type" content="text/html; charset=gb2312"><title>白泽居-www.baizeju.com</title></head>

toHtml(true):<head><meta http-equiv="Content-Type" content="text/html; charset=gb2312"><title>白泽居-www.baizeju.com</title></head>

toHtml(false):<head><meta http-equiv="Content-Type" content="text/html; charset=gb2312"><title>白泽居-www.baizeju.com</title></head>

toString:HEAD: Tag (123[1,0],129[1,6]): head

Tag (129[1,6],197[1,74]): meta http-equiv="Content-Type" content="text/html; ...

Tag (197[1,74],204[1,81]): title

    Txt (204[1,81],223[1,100]): 白泽居-www.baizeju.com

    End (223[1,100],231[1,108]): /title

End (231[1,108],238[1,115]): /head



=================================================

getText:



getPlainText:



toHtml:



toHtml(true):



toHtml(false):



toString:Txt (238[1,115],240[2,0]): \n

=================================================

getText:html xmlns="http://www.w3.org/1999/xhtml"

getPlainText:





        

                

                白泽居-www.baizeju.com

白泽居-www.baizeju.com

        

        白泽居-www.baizeju.com







toHtml:<html xmlns="http://www.w3.org/1999/xhtml">

<body >

<div id="top_main">

        <div id="logoindex">

                <!--这是注释-->

                白泽居-www.baizeju.com

<a href="http://www.baizeju.com">白泽居-www.baizeju.com</a>

        </div>

        白泽居-www.baizeju.com

</div>

</body>

</html>

toHtml(true):<html xmlns="http://www.w3.org/1999/xhtml">

<body >

<div id="top_main">

        <div id="logoindex">

                <!--这是注释-->

                白泽居-www.baizeju.com

<a href="http://www.baizeju.com">白泽居-www.baizeju.com</a>

        </div>

        白泽居-www.baizeju.com

</div>

</body>

</html>

toHtml(false):<html xmlns="http://www.w3.org/1999/xhtml">

<body >

<div id="top_main">

        <div id="logoindex">

                <!--这是注释-->

                白泽居-www.baizeju.com

<a href="http://www.baizeju.com">白泽居-www.baizeju.com</a>

        </div>

        白泽居-www.baizeju.com

</div>

</body>

</html>

toString:Tag (240[2,0],283[2,43]): html xmlns="http://www.w3.org/1999/xhtml"

Txt (283[2,43],285[3,0]): \n

Tag (285[3,0],292[3,7]): body 

    Txt (292[3,7],294[4,0]): \n

    Tag (294[4,0],313[4,19]): div id="top_main"

      Txt (313[4,19],316[5,1]): \n\t

      Tag (316[5,1],336[5,21]): div id="logoindex"

        Txt (336[5,21],340[6,2]): \n\t\t

        Rem (340[6,2],351[6,13]): 这是注释

        Txt (351[6,13],376[8,0]): \n\t\t白泽居-www.baizeju.com\n

        Tag (376[8,0],409[8,33]): a href="http://www.baizeju.com"

          Txt (409[8,33],428[8,52]): 白泽居-www.baizeju.com

          End (428[8,52],432[8,56]): /a

        Txt (432[8,56],435[9,1]): \n\t

        End (435[9,1],441[9,7]): /div

      Txt (441[9,7],465[11,0]): \n\t白泽居-www.baizeju.com\n

      End (465[11,0],471[11,6]): /div

    Txt (471[11,6],473[12,0]): \n

    End (473[12,0],480[12,7]): /body

Txt (480[12,7],482[13,0]): \n

End (482[13,0],489[13,7]): /html



=================================================

对于第一个Node的内容，对应的就是第一行<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">，这个比较好理解。
从这个输出结果中，也可以看出内容的树状结构。或者说是树林结构。在Page内容的第一层Tag，如DOCTYPE，head和html，分别形成了一个最高层的Node节点（很多人可能对第二个和第四个Node的内容有点奇怪。实际上这两个Node就是两个换行符号。HTMLParser把HTML页面内容中的所有换行，空格，Tab等都转换成了相应的Tag，所以就出现了这样的Node。虽然内容少但是级别高，呵呵）
getPlainTextString是把用户可以看到的内容都包含了。有趣的有两点，一是<head>标签中的Title内容是在plainText中的，可能在标题中可见的也算可见吧。另外就是象前面说的，HTML内容中的换行符什么的，也都成了plainText，这个逻辑上好像有点问题。

另外可能大家发现toHtml，toHtml(true)和toHtml(false)的结果没什么区别。实际也是这样的，如果跟踪HTMLParser的代码就可以发现，Node的子类是AbstractNode，其中实现了toHtml()的代码，直接调用toHtml(false)，而AbstractNode的三个子类RemarkNode，TagNode和TextNode中，toHtml(boolean verbatim)的实现中，都没有处理verbatim参数，所以三个函数的结果是一模一样的。如果你不需要实现你自己的什么特殊处理，简单使用toHtml就可以了。

（一）Filter类
顾名思义，Filter就是对于结果进行过滤，取得需要的内容。HTMLParser在org.htmlparser.filters包之内一共定义了16个不同的Filter，也可以分为几类。
判断类Filter：
TagNameFilter
HasAttributeFilter
HasChildFilter
HasParentFilter
HasSiblingFilter
IsEqualFilter
逻辑运算Filter：
AndFilter
NotFilter
OrFilter
XorFilter
其他Filter：
NodeClassFilter
StringFilter
LinkStringFilter
LinkRegexFilter
RegexFilter
CssSelectorNodeFilter

所有的Filter类都实现了org.htmlparser.NodeFilter接口。这个接口只有一个主要函数：
boolean accept (Node node);
各个子类分别实现这个函数，用于判断输入的Node是否符合这个Filter的过滤条件，如果符合，返回true，否则返回false。

（二）判断类Filter
2.1 TagNameFilter
TabNameFilter是最容易理解的一个Filter，根据Tag的名字进行过滤。

下面是用于测试的HTML文件：
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<head><meta http-equiv="Content-Type" content="text/html; charset=gb2312"><title>白泽居-www.baizeju.com</title>< /head>
<html xmlns="http://www.w3.org/1999/xhtml">
<body >
<div id="top_main">
    <div id="logoindex">
        
        白泽居-www.baizeju.com
<a href="http://www.baizeju.com">白泽居-www.baizeju.com</a>
    </div>
    白泽居-www.baizeju.com
</div>
</body>
</html>
测试代码：（这里只列出了Main函数，全部代码请参考 HTMLParser使用入门（2）- Node内容，自己添加import部分）
public static void main(String[] args) {

        try{
            Parser parser = new Parser( (HttpURLConnection) (new URL("http://127.0.0.1:8080/HTMLParserTester.html")).openConnection() );

            // 这里是控制测试的部分，后面的例子修改的就是这个地方。
            NodeFilter filter = new TagNameFilter ("DIV");
            NodeList nodes = parser.extractAllNodesThatMatch(filter);

            if(nodes!=null) {
                for (int i = 0; i < nodes.size(); i++) {
                    Node textnode = (Node) nodes.elementAt(i);

                    message("getText:"+textnode.getText());
                    message("=================================================");
                }
            }
        }
        catch( Exception e ) {
            e.printStackTrace();
        }
    }
输出结果：
getText:div id="top_main"
=================================================
getText:div id="logoindex"
=================================================
可以看出文件中两个Div节点都被取出了。下面可以针对这两个DIV节点进行操作

2.2 HasChildFilter
下面让我们看看HasChildFilter。刚刚看到这个Filter的时候，我想当然地认为这个Filter返回的是有Child的Tag。直接初始化了一个
NodeFilter filter = new HasChildFilter();
结果调用NodeList nodes = parser.extractAllNodesThatMatch(filter);的时候HasChildFilter内部直接发生NullPointerException。读了一下HasChildFilter的代码，才发现，实际HasChildFilter是返回有符合条件的子节点的节点，需要另外一个Filter作为过滤子节点的参数。缺省的构造函数虽然可以初始化，但是由于子节点的Filter是null，所以使用的时候发生了Exception。从这点来看，HTMLParser的代码还有很多可以优化的的地方。呵呵。

修改代码：
NodeFilter innerFilter = new TagNameFilter ("DIV");
NodeFilter filter = new HasChildFilter(innerFilter);
NodeList nodes = parser.extractAllNodesThatMatch(filter);
输出结果：
getText:body
=================================================
getText:div id="top_main"
=================================================
可以看到，输出的是两个有DIV子Tag的Tag节点。（body有子节点DIV "top_main"，"top_main"有子节点"logoindex"。

注意HasChildFilter还有一个构造函数：
public HasChildFilter (NodeFilter filter, boolean recursive)
如果recursive是false，则只对第一级子节点进行过滤。比如前面的例子，body和top_main都是在第一级的子节点里就有DIV节点，所以匹配上了。如果我们用下面的方法调用：
NodeFilter filter = new HasChildFilter( innerFilter, true );
输出结果：
getText:html xmlns="http://www.w3.org/1999/xhtml"
=================================================
getText:body
=================================================
getText:div id="top_main"
=================================================
可以看到输出结果中多了一个html xmlns="http://www.w3.org/1999/xhtml"，这个是整个HTML页面的节点（根节点），虽然这个节点下直接没有DIV节点，但是它的子节点body下面有DIV节点，所以它也被匹配上了。

2.3 HasAttributeFilter
HasAttributeFilter有3个构造函数：
public HasAttributeFilter ();
public HasAttributeFilter (String attribute);
public HasAttributeFilter (String attribute, String value);
这个Filter可以匹配出包含制定名字的属性，或者制定属性为指定值的节点。还是用例子说明比较容易。

调用方法1:
NodeFilter filter = new HasAttributeFilter();
NodeList nodes = parser.extractAllNodesThatMatch(filter);
输出结果：

什么也没有输出。

调用方法2:
NodeFilter filter = new HasAttributeFilter( "id" );
NodeList nodes = parser.extractAllNodesThatMatch(filter);
输出结果：
getText:div id="top_main"
=================================================
getText:div id="logoindex"
=================================================

调用方法3:
NodeFilter filter = new HasAttributeFilter( "id", "logoindex" );
NodeList nodes = parser.extractAllNodesThatMatch(filter);
输出结果：
getText:div id="logoindex"
=================================================

很简单吧。呵呵

2.4 其他判断列Filter
HasParentFilter和HasSiblingFilter的功能与HasChildFilter类似，大家自己试一下就应该了解了。

IsEqualFilter的构造函数参数是一个Node：
public IsEqualFilter (Node node) {
    mNode = node;
}
accept函数也很简单：
public boolean accept (Node node)    {
    return (mNode == node);
}
不需要过多说明了。

（三）逻辑运算Filter
前面介绍的都是简单的Filter，只能针对某种单一类型的条件进行过滤。HTMLParser支持对于简单类型的Filter进行组合，从而实现复杂的条件。原理和一般编程语言的逻辑运算是一样的。
3.1 AndFilter
AndFilter可以把两种Filter进行组合，只有同时满足条件的Node才会被过滤。
测试代码：
NodeFilter filterID = new HasAttributeFilter( "id" );
NodeFilter filterChild = new HasChildFilter(filterA);
NodeFilter filter = new AndFilter(filterID, filterChild);
输出结果：
getText:div id="logoindex"
=================================================

3.2 OrFilter
把前面的AndFilter换成OrFilter
测试代码：
NodeFilter filterID = new HasAttributeFilter( "id" );
NodeFilter filterChild = new HasChildFilter(filterA);
NodeFilter filter = new OrFilter(filterID, filterChild);
输出结果：
getText:div id="top_main"
=================================================
getText:div id="logoindex"
=================================================

3.3 NotFilter
把前面的AndFilter换成NotFilter
测试代码：
NodeFilter filterID = new HasAttributeFilter( "id" );
NodeFilter filterChild = new HasChildFilter(filterA);
NodeFilter filter = new NotFilter(new OrFilter(filterID, filterChild));
输出结果：
getText:!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"
=================================================
getText:

=================================================
getText:head
=================================================
getText:meta http-equiv="Content-Type" content="text/html; charset=gb2312"
=================================================
getText:title
=================================================
getText:白泽居-www.baizeju.com
=================================================
getText:/title
=================================================
getText:/head
=================================================
getText:

=================================================
getText:html xmlns="http://www.w3.org/1999/xhtml"
=================================================
getText:

=================================================
getText:body
=================================================
getText:

=================================================
getText:

=================================================
getText:

=================================================
getText:这是注释
=================================================
getText:
                白泽居-www.baizeju.com

=================================================
getText:a href="http://www.baizeju.com"
=================================================
getText:白泽居-www.baizeju.com
=================================================
getText:/a
=================================================
getText:

=================================================
getText:/div
=================================================
getText:
        白泽居-www.baizeju.com

=================================================
getText:/div
=================================================
getText:

=================================================
getText:/body
=================================================
getText:

=================================================
getText:/html
=================================================
getText:

=================================================

除了前面3.2中输出的几个Tag，其余的Tag都在这里了。

3.4 XorFilter
把前面的AndFilter换成NotFilter
测试代码：
NodeFilter filterID = new HasAttributeFilter( "id" );
NodeFilter filterChild = new HasChildFilter(filterA);
NodeFilter filter = new XorFilter(filterID, filterChild);
输出结果：
getText:div id="top_main"
=================================================

（四）其他Filter：
4.1 NodeClassFilter
这个Filter用于判断节点类型是否是某个特定的Node类型。在HTMLParser使用入门（2）- Node内容中我们已经了解了Node的不同类型，这个Filter就可以针对类型进行过滤。
测试代码：
           NodeFilter filter = new NodeClassFilter(RemarkNode.class);
            NodeList nodes = parser.extractAllNodesThatMatch(filter);
输出结果：
getText:这是注释
=================================================
可以看到只有RemarkNode（注释）被输出了。

4.2 StringFilter
这个Filter用于过滤显示字符串中包含制定内容的Tag。注意是可显示的字符串，不可显示的字符串中的内容（例如注释，链接等等）不会被显示。
修改一下例子代码：
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<head><meta http-equiv="Content-Type" content="text/html; charset=gb2312"><title>白泽居-title-www.baizeju.com</title></head>
<html xmlns="http://www.w3.org/1999/xhtml">
<body >
<div id="top_main">
    <div id="logoindex">
        
        白泽居-字符串1-www.baizeju.com
<a href="http://www.baizeju.com">白泽居-链接文本-www.baizeju.com</a>
    </div>
    白泽居-字符串2-www.baizeju.com
</div>
</body>
</html>

测试代码：
           NodeFilter filter = new StringFilter("www.baizeju.com");
            NodeList nodes = parser.extractAllNodesThatMatch(filter);
输出结果：
getText:白泽居-title-www.baizeju.com
=================================================
getText:
                白泽居-字符串1-www.baizeju.com

=================================================
getText:白泽居-链接文本-www.baizeju.com
=================================================
getText:
        白泽居-字符串2-www.baizeju.com

=================================================
可以看到包含title，两个内容字符串和链接的文本字符串的Tag都被输出了，但是注释和链接Tag本身没有输出。

4.3 LinkStringFilter
这个Filter用于判断链接中是否包含某个特定的字符串，可以用来过滤出指向某个特定网站的链接。
测试代码：
           NodeFilter filter = new LinkStringFilter("www.baizeju.com");
            NodeList nodes = parser.extractAllNodesThatMatch(filter);
输出结果：
getText:a href="http://www.baizeju.com"
=================================================

4.4 其他几个Filter
其他几个Filter也是根据字符串对不同的域进行判断，与前面这些的区别主要就是支持正则表达式。这个不在本文的讨论范围以内，大家可以自己实验一下。

（五）visitor

HTMLParser遍历了网页的内容以后，以树（森林）结构保存了结果。HTMLParser访问结果内容的方法有两种。使用Filter和使用Visitor。
下面介绍使用Visitor访问内容的方法。

5.1 NodeVisitor
从简单方面的理解，Filter是根据某种条件过滤取出需要的Node再进行处理。Visitor则是遍历内容树的每一个节点，对于符合条件的节点进行处理。实际的结果异曲同工，两种不同的方法可以达到相同的结果。
下面是一个最常见的NodeVisitro的例子。
测试代码：
    public static void main(String[] args) {
        try{
            Parser parser = new Parser( (HttpURLConnection) (new URL("http://127.0.0.1:8080/HTMLParserTester.html")).openConnection() );

            NodeVisitor visitor = new NodeVisitor( false, false ) {
                public void visitTag(Tag tag) {
                   message("This is Tag:"+tag.getText());
                }
                public void visitStringNode (Text string)    {
                     message("This is Text:"+string);
                }
                public void visitRemarkNode (Remark remark) {
                     message("This is Remark:"+remark.getText());
                }
                public void beginParsing () {
                    message("beginParsing");
                }
                public void visitEndTag (Tag tag){
                    message("visitEndTag:"+tag.getText());
                }
                public void finishedParsing () {
                    message("finishedParsing");
                }
            };

            parser.visitAllNodesWith(visitor);
        }
        catch( Exception e ) {
            e.printStackTrace();
        }
    }
输出结果：
beginParsing
This is Tag:!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"
This is Text:Txt (121[0,121],123[1,0]): \n
This is Text:Txt (244[1,121],246[2,0]): \n
finishedParsing

可以看到，开始遍历所以的节点以前，beginParsing先被调用，然后处理的是中间的Node，最后在结束遍历以前，finishParsing被调用。因为我设置的 recurseChildren和recurseSelf都是false，所以Visitor没有访问子节点也没有访问根节点的内容。中间输出的两个\n就是我们在HTMLParser使用详解（1）- 初始化Parser 中讨论过的最高层的那两个换行。

我们先把recurseSelf设置成true，看看会发生什么。
NodeVisitor visitor = new NodeVisitor( false, true) {
输出结果：
beginParsing
This is Tag:!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"
This is Text:Txt (121[0,121],123[1,0]): \n
This is Tag:head
This is Text:Txt (244[1,121],246[2,0]): \n
This is Tag:html xmlns="http://www.w3.org/1999/xhtml"
finishedParsing
可以看到，HTML页面的第一层节点都被调用了。

我们再用下面的方法调用看看：
NodeVisitor visitor = new NodeVisitor( true, false) {
输出结果：
beginParsing
This is Tag:!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"
This is Text:Txt (121[0,121],123[1,0]): \n
This is Tag:meta http-equiv="Content-Type" content="text/html; charset=gb2312"
This is Text:Txt (204[1,81],229[1,106]): 白泽居-title-www.baizeju.com
visitEndTag:/title
visitEndTag:/head
This is Text:Txt (244[1,121],246[2,0]): \n
This is Text:Txt (289[2,43],291[3,0]): \n
This is Text:Txt (298[3,7],300[4,0]): \n
This is Text:Txt (319[4,19],322[5,1]): \n\t
This is Text:Txt (342[5,21],346[6,2]): \n\t\t
This is Remark:这是注释白泽居-www.baizeju.com
This is Text:Txt (378[6,34],408[8,0]): \n\t\t白泽居-字符串1-www.baizeju.com\n
This is Text:Txt (441[8,33],465[8,57]): 白泽居-链接文本-www.baizeju.com
visitEndTag:/a
This is Text:Txt (469[8,61],472[9,1]): \n\t
visitEndTag:/div
This is Text:Txt (478[9,7],507[11,0]): \n\t白泽居-字符串2-www.baizeju.com\n
visitEndTag:/div
This is Text:Txt (513[11,6],515[12,0]): \n
visitEndTag:/body
This is Text:Txt (522[12,7],524[13,0]): \n
visitEndTag:/html
finishedParsing
可以看到，所有的子节点都出现了，除了刚刚例子里面的两个最上层节点This is Tag:head和This is Tag:html xmlns="http://www.w3.org/1999/xhtml"。

想让它们都出来，只需要
NodeVisitor visitor = new NodeVisitor( true, true) {
输出结果：
beginParsing
This is Tag:!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"
This is Text:Txt (121[0,121],123[1,0]): \n
This is Tag:head
This is Tag:meta http-equiv="Content-Type" content="text/html; charset=gb2312"
This is Tag:title
This is Text:Txt (204[1,81],229[1,106]): 白泽居-title-www.baizeju.com
visitEndTag:/title
visitEndTag:/head
This is Text:Txt (244[1,121],246[2,0]): \n
This is Tag:html xmlns="http://www.w3.org/1999/xhtml"
This is Text:Txt (289[2,43],291[3,0]): \n
This is Tag:body
This is Text:Txt (298[3,7],300[4,0]): \n
This is Tag:div id="top_main"
This is Text:Txt (319[4,19],322[5,1]): \n\t
This is Tag:div id="logoindex"
This is Text:Txt (342[5,21],346[6,2]): \n\t\t
This is Remark:这是注释白泽居-www.baizeju.com
This is Text:Txt (378[6,34],408[8,0]): \n\t\t白泽居-字符串1-www.baizeju.com\n
This is Tag:a href="http://www.baizeju.com"
This is Text:Txt (441[8,33],465[8,57]): 白泽居-链接文本-www.baizeju.com
visitEndTag:/a
This is Text:Txt (469[8,61],472[9,1]): \n\t
visitEndTag:/div
This is Text:Txt (478[9,7],507[11,0]): \n\t白泽居-字符串2-www.baizeju.com\n
visitEndTag:/div
This is Text:Txt (513[11,6],515[12,0]): \n
visitEndTag:/body
This is Text:Txt (522[12,7],524[13,0]): \n
visitEndTag:/html
finishedParsing
哈哈，这下调用清楚了，大家在需要处理的地方增加自己的代码好了。

5.2 其他Visitor
HTMLParser还定义了几个其他的Visitor。HtmlPage，NodeVisitor，ObjectFindingVisitor，StringFindingVisitor，TagFindingVisitor，TextExtractingVisitor，UrlModifyingVisitor，它们都是NodeVisitor的子类，实现了一些特定的功能。笔者个人的感觉是没什么用处，如果你需要什么特定的功能，还不如自己写一个，想在这些里面找到适合你需要的，化的时间可能更多。反正大家看看代码就发现，它们每个都没几行真正有效的代码。

实例：

目标页面代码

<ul class="list_ul">

    <li class="title_li">1

    <a href="http://f.wanfangdata.com.cn/download/Periodical_zhfsbx98200105004.aspx" style="" title="全文" target="_blank" class="pdf_img"></a>

    <a href="http://d.wanfangdata.com.cn/Periodical_zhfsbx98200105004.aspx" style="display:none" title="文摘" target="_blank" class="abs_img"></a>

    [url=http://d.wanfangdata.com.cn/Periodical_zhfsbx98200105004.aspx]抗环瓜氨酸肽抗体检测在<font color="red">类风湿</font>关节炎中的意义[/url]        

    <span>(<t>被引用</t> 182 <t>次</t>)</span></li>

    <li class="greencolor">[<t>期刊论文</t>] [url=http://c.wanfangdata.com.cn/Periodical-zhfsbx98.aspx]《中华风湿病学杂志》[/url]

        <span>

            <span title="被中信所《中国科技期刊引证报告》收录">ISTIC</span>

            

            

            <span title="被北京大学《中文核心期刊要目总览》收录">PKU</span>

            

        </span>-[url=http://c.wanfangdata.com.cn/periodical/zhfsbx98/2001-5.aspx]2001年5期[/url]<a target="_blank" href="http://social.wanfangdata.com.cn/Locate.ashx?ArticleId=zhfsbx98200105004&amp;Name=%e6%9b%be%e5%b0%8f%e5%b3%b0">曾小峰</a><a target="_blank" href="http://social.wanfangdata.com.cn/Locate.ashx?ArticleId=zhfsbx98200105004&amp;Name=%e8%89%be%e8%84%89%e5%85%b4">艾脉兴</a><a target="_blank" href="http://social.wanfangdata.com.cn/Locate.ashx?ArticleId=zhfsbx98200105004&amp;Name=%e7%94%98%e6%99%93%e4%b8%b9">甘晓丹</a><a target="_blank" href="http://social.wanfangdata.com.cn/Locate.ashx?ArticleId=zhfsbx98200105004&amp;Name=%e5%8f%b2%e8%89%b3%e8%90%8d">史艳萍</a><a target="_blank" href="http://social.wanfangdata.com.cn/Locate.ashx?ArticleId=zhfsbx98200105004&amp;Name=%e5%ae%8b%e7%90%b4%e8%8a%b3">宋琴芳</a><a target="_blank" href="http://social.wanfangdata.com.cn/Locate.ashx?ArticleId=zhfsbx98200105004&amp;Name=%e5%94%90%e7%a6%8f%e6%9e%97">唐福林</a></li>

</ul>

目标解析上述页面代码，获取标签

 [url=http://d.wanfangdata.com.cn/Periodical_zhfsbx98200105004.aspx]抗环瓜氨酸肽抗体检测在<font color="red">类风湿</font>关节炎中的意义[/url]

中的内容，通过htmlparser实现如下：

package com.nit.htmlparser.test;



import java.io.File;



import org.htmlparser.Node;

import org.htmlparser.NodeFilter;

import org.htmlparser.Parser;

import org.htmlparser.filters.AndFilter;

import org.htmlparser.filters.HasAttributeFilter;

import org.htmlparser.filters.TagNameFilter;

import org.htmlparser.util.NodeList;



public class Htmlparser {



    public static void main(String[] args) {

        File file = new File("E:\\JavaEE Work\\HtmlparserTest\\source.txt");//获取上述html代码

        try {

            Parser parser = new Parser(file.getAbsolutePath());

            parser.setEncoding("GBK");

                        //设置编码格式

            NodeFilter filter1 = new TagNameFilter("li");

            NodeFilter filter2 = new HasAttributeFilter("class","title_li");

            NodeFilter filter = new AndFilter(filter1,filter2);

            //设置页面过滤条件

            NodeList nodeList = parser.extractAllNodesThatMatch(filter);

                        //根据过滤条件解析页面

            Node node = nodeList.elementAt(0);

            String html = node.getChildren().toHtml();

                        //将抽取出来的信息转化为html再次解析

            filter1 = new HasAttributeFilter("target", "_blank");

            parser = Parser.createParser(html, "GBK");

            nodeList = parser.extractAllNodesThatMatch(filter1);

            System.out.println(nodeList.elementAt(2).getChildren().asString());

            filter2 = new TagNameFilter("span");

            parser = Parser.createParser(html, "GBK");

            nodeList = parser.extractAllNodesThatMatch(filter2);

            System.out.println(nodeList.elementAt(0).getChildren().asString());

        } catch (Throwable e) {

            e.printStackTrace();

        }

        

    }

}

你可能感兴趣的:(HtmlParser)

java parser乱码_HtmlParser 2.0 中文乱码问题福建低调 java parser乱码
对于HTMLParser2.0工具包我们需要修改其中的Page.java文件使其适用中文的html文件分析。主要是把protectedstaticfinalStringDEFAULT_CHARSET="ISO-8859-1"；修改成protectedstaticfinalStringDEFAULT_CHARSET="gb2312"；主要是兼容charset='GBK'声明的页面。--因为采用默认的
vue项目能正常启动但是打包报错小全upup vue.js 前端 javascript
项目执行npmrunserve/dev的图一点影响没有跑起来之后页面也非常的正常然后就来到了打包环境执行打包命令报这种错误-htmlparser.js:255HTMLParser.parse[mydemo]/[html-minifier-terser]/src/htmlparser.js:255:15-runMicrotasks-task_queues.js:95processTicksAndRe
itchat报错'HTMLParser' object has no attribute 'unescape'在python3.9 g9efwi8b
itchat里面有个地方经常报错,C:\Users\-username-\AppData\Local\Programs\Python\Python39\Lib\site-packages\itchat\utils.py的第70行d[k]=htmlParser.unescape(d[k])改为importhtmld[k]=html.unescape(d[k])这样就不容易报错了.
微信小程序中显示html富文本的方法大胡子的机器人
image.png使用方法：git地址：https://github.com/icindy/wxParse一、下载wxParse文件image.pngwxParse/-wxParse.js(必须存在)-html2json.js(必须存在)-htmlparser.js(必须存在)-showdown.js(必须存在)-wxDiscode.js(必须存在)-wxParse.wxml(必须存在)-wxPa
使用Jsoup解析html网页程序猿老王开发工具 html Jsoup
一、JSOUP简介在以往用java来处理解析HTML文档或者片段时，我们通常会采用htmlparser（http://htmlparser.sourceforge.net/）这个开源类库。现在我们有了JSOUP，以后的处理HTML的内容只需要使用JSOUP就已经足够了，JSOUP有更快的更新，更方便的API等。jsoup是一款Java的HTML解析器，可直接解析某个URL地址、HTML文本内容。它
Python的HTMLParser库的用法 weixin_30777913 Python Python HTMLParse
HTMLParser库的用法如果我们要编写一个搜索引擎，第一步是用爬虫把目标网站的页面抓下来，第二步就是解析该HTML页面，看看里面的内容到底是新闻、图片还是视频。假设第一步已经完成了，第二步应该如何解析HTML呢？HTML本质上是XML的子集，但是HTML的语法没有XML那么严格，所以不能用标准的DOM或SAX来解析HTML。好在Python提供了HTMLParser来非常方便地解析HTML，只
Vue3.4的新变化大鲤余 vue.js javascript 前端
解析器3.4版本解析器速度提升2倍，提高了SFC构建性能。之前版本Vue使用递归下降解析器，该解析器依赖于许多正则表达式和前瞻搜索。新的解析器使用基于htmlparser2中的标记生成器的状态机标记生成器，它仅迭代整个模板字符串一次。响应式上3.4还对响应式系统进行了重大重构，目标是提高计算属性的重新计算效率。constcount=ref(0)constisEven=computed(()=>co
Python的HTMLParser模块：HTML解析的得力工具小雨淋林 Python基础入门教程 python xml
在Python中，HTMLParser模块提供了一个简单而强大的HTML解析器，用于解析HTML文档并提取其中的信息。本篇博客将深入讨论HTMLParser模块，包括基本使用、自定义解析器的创建以及实际应用中的示例。1.HTMLParser模块概述HTMLParser模块是Python标准库中的一部分，提供了一个基于事件的HTML解析器。它继承自Python的SGMLParser类，用于将HTML
html.parser --- 简单的 HTML 和 XHTML 解析器知识的宝藏 python
源代码：Lib/html/parser.py这个模块定义了一个HTMLParser类，为HTML（超文本标记语言）和XHTML文本文件解析提供基础。classhtml.parser.HTMLParser(*,convert_charrefs=True)创建一个能解析无效标记的解析器实例。如果convert_charrefs为True(默认值)，则所有字符引用(script/style元素中的除外)
python 爬取本地的HTML中的数据并将其存储进Excel表格中是兔子不是tu子 python excel 开发语言
我有一个HTML文件保存在本地，我需要爬取里面的某些数据并将爬取到的部分数据存储进Excel表中我的解决思路如下：先爬取数据按照步长将数据分割成二维列表循环遍历将需要的数据存入Excel表中实现代码如下：#coding:utf-8fromlxmlimportetreeimportxlsxwriter#：载入模块#解析本地文件使用etree.parseparser=etree.HTMLParser(
2.爬虫之xpath选择器&selenium模块开局签到Python基础 9.爬虫爬虫 selenium python
1.xpath选择器1.1xpath介绍xpath:是一门在xml/html文档中查找信息的语句.安装:pipinstalllxml导入:fromlxmlimportetree生成对象:html=etree.HTML('html文档字符串')html=etree.parse('.html文件路径',etree.HTMLParser())1.2选取节点表达式查询节点:/:从根节点选取(值是一个对象)
02 数据解析 Ag刘晓婷
xpath//input[@id='search_input']//div/ul[@class='lg_tnav_wrap']/li[1]/a//div/ul[@class='lg_tnav_wrap']/li[1]/a[@*]lxmletreeparserfromlxmlimportetreehtml=etree.HTML(text)parser=etree.HTMLParser(encodin
python爬虫 NoNamePlus 普通学习笔记 python 爬虫开发语言
1.爬虫的基本流程用urllib或是requests库把网页的HTML代码拉到本地用HTMLParser，Xpath，BeautifulSoup等库解析HTML代码，找到想要的东西2.HTMLParser廖雪峰的网站看资料3.urllib廖雪峰的网站看资料4.requests菜鸟教程看资料#GET方法importrequestsHTML=requests.get("网址",headers={"Us
pycharm 切换 python3.9 报错 'HTMLParser' object has no attribute 'unescape' 解决程序员的一天
有的bug，莫名其妙就好了...python3.9报错"AttributeError:'HTMLParser'objecthasnoattribute'unescape'"异常分析解决。一、问题描述安装python3.9版本后，pycharm中切换python3.9版本，创建虚拟环境报错："AttributeError:'HTMLParser'objecthasnoattribute'unesca
怎么在html中使用less语言,Less.Html 示例五：使用方法详解潘儒锋
Less.Html示例五：使用方法详解0.从解析开始引入Less.Html的命名空间：usingLess.Html;调用静态类型HtmlParser的Parse方法：Documentdocument=HtmlParser.Parse(testHtml);返回的是HTMLDOM标准的文档对象，我只实现了常见的DOM方法，其实DOM方法的设计本身就有繁复的地方，这个以后再说。要方便地查找文档元素，还需
easyUi重新渲染 Night_zzz
狂野的小怪兽jqueryEasyui重新渲染转载:jQueryEasyUIparser的使用场景|WebUI框架使用参考+http://www.easyui.info/archives/216.htmlparser，故名意思，就是解析器的意思，别看他只有那么几行代码，jQueryEasyui能够根据class就能正常渲染页面全靠它了。一般情况下，我们并用不到解析器，本文主要讨论一下，什么情况下会用
输入 URL 到页面渲染的整个流程晓丽_c080
DNS解析TCP三次握手发送请求，分析url，设置请求报文(头，主体)服务器返回请求的文件(html)浏览器渲染HTMLparser-->DOMTree标记化算法，进行元素状态的标记dom树构建CSSparser-->StyleTree解析css代码，生成样式树attachment-->RenderTree结合dom树与style树，生成渲染树layout:布局GPUpainting:像素绘制页面
「三」浏览器中CSS 语法解析过程废柴码农
CSS语法解析过程1.在浏览器系列文章中，今天终点讲下CSS解析这块内容.我们已知浏览器的渲染流程中HTMLParser会生成DOM树，而CSSParser会将解析结果附加到DOM树上，如下图：image.png解析分为词法分析和语法分析。image.png词法分析，也是编译原理中的术语，从左到右一个字符一个字符的读入源程序，对字符流进行扫描，根据构词规则识别单词。这一过程可以使用lex等工具自动
(水印)html转图片 Peak_Gao java java
gui.avahtml2image2.0.1xml-apisxml-apis1.4.01"+"IP地址：127.0.0.1国家：AAA\n"+"省份：AAAA位置：XXXXXXX";HtmlParserhtmlParser=newHtmlParserImpl();htmlParser.loadHtml(htmlTemplate);ImageRendererimageRenderer=newImag
ios 常见问题解决 weixin_30706691 xcode 移动开发 c/c++
一，libxml/HTMLparser.hfilenotfind第一种方法：点击左边项目的根目录，再点击右边的BuildSettings，手工输入文字：“Headersearchpaths”，然后单击（或双击，点击弹出面板下面的“+”号进行添加）“Headersearchpaths”右边的空白处，输入：/usr/include/libxml2第二种方法：点击左边项目的根目录，再点击右边的Build
java爬虫爬取百度图片_Java实现爬取百度图片的方法分析 weixin_39552768 java爬虫爬取百度图片
本文实例讲述了Java实现爬取百度图片的方法。分享给大家供大家参考，具体如下：在以往用java来处理解析HTML文档或者片段时，我们通常会采用htmlparser(http://htmlparser.sourceforge.net/)这个开源类库。现在我们有了JSOUP，以后的处理HTML的内容只需要使用JSOUP就已经足够了，JSOUP有更快的更新，更方便的API等。jsoup是一款Java的H
浏览器渲染页面的大致过程路人丁0417
[图片上传失败...(image-735179-1630336184679)]渲染引擎启动html解释器(htmlParser)解析html源码，根据DOMAPI创建domtree，Browser进程并行下载网络资源(css/image/js...)。在dom树中，每个html标签都有一个对应的节点，每个文本也有对应的文本节点，根节点就是documentElement,对应的是html节点。当遇到
python调用html数据_Python读取HTML页面柒八酒 python调用html数据
有一个类库叫作beautifulsoup。使用这个库，可以搜索html标签的值，并获取页面标题和页面标题列表等特定数据。安装Beautifulsoup使用Anaconda软件包管理器安装所需的软件包及其相关软件包。condainstallBeaustifulsoap读取HTML文件在下面的例子中，我们请求一个url被加载到python环境中。然后使用htmlparser参数来读取整个html文件。
Python调用Halcon踩坑记录唐浅浅 Python python
原配置为：PyCharm2019.1+Python3.71.使用python3.7.2安装mvtec-halcon提示找不到合适版本查看HalconPyhton接口使用文档，Python需要3.8版本以上2.安装最新的Python版本安装Python3.9，使用PyCharm切换python3.9报错‘HTMLParser‘objecthasnoattribute‘unescape‘查看官网pyt
数据处理之XPATH提取数据--------常用方法西红市杰出青年 python 大数据开发语言
**etree数据处理之XPATH提取数据--------常用方法**parser=etree.HTMLParser(encoding=‘utf-8’)html=etree.parse(‘A000000_table.html’,parser=parser)/AAA绝对路径表示必须以AAA开头print(html.xpath(‘/html’)[0])/AAA/BBB选择AAA下面的所有BBB元素但是
Python爬虫：HTML网页解析方法小结 Python程序员小泉 python 编程 python入门 python 爬虫 python入门 python开发
要理解python是如何解析网页的，首先要理解什么是网页解析器。简单的说就是用来解析html网页的工具，准确的说：它是一个HTML网页信息提取工具，就是从html网页中解析提取出“我们需要的有价值的数据”或者“新的URL链接”的工具。解析HTML：层次化的数据有多个解析HTML的第三方库，例如：LXML，BeautifulSoup，HTMLParser等等。解析HTML面临的问题：没有统一的标准、
基于python的简介以及应用知识，快做好，要发车啦（文末有个投票）阿玥的小东东 python 开发语言爬虫阿玥的小东东程序人生
目录简介：流程：实现：环境：UrlManager类HtmlDownloader类HtmlParser类BuildIndex
天天都在使用CSS，那么CSS的原理是什么呢？周小肆
作为前端，我们每天都在与CSS打交道，那么CSS的原理是什么呢？一、浏览器渲染开篇，我们还是不厌其烦的回顾一下浏览器的渲染过程，先上图：webkitrender正如上图所展示的，我们浏览器渲染过程分为了两条主线：其一，HTMLParser生成的DOM树；其二，CSSParser生成的StyleRules；在这之后，DOM树与StyleRules会生成一个新的对象，也就是我们常说的RenderTre
python cgi SkTj
cookie操作:限制4kb,300个，每个域名20个image.pngcgi.escapeimage.pngurllib.parse.quote_plusunquote_plusimage.pngopen().read()HTMLParser().unescape()image.pngcgi.FieldStorage()xx.keys()image.pngos.path.abspath(path
python qqbot luoboshu 笔记 python
在pythonv3.9中用qqbot会出现一个错误AttributeError:‘HTMLParser’objecthasnoattribute‘unescape’：解决方案：Startinginpython3.9usingHTMLParser()unescape()willresultintheerrorAttributeError:‘HTMLParser’objecthasnoattribut
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，