HTMLParser1.6 源代码阅读

看到博客园的大牛们都喜欢发系列的文章，我也发一篇。不过我不打算写什么spring hibernate配置什么的，我只想写写自己阅读别人代码的一些笔记。欢迎大家拍砖。

从开始进行阅读，第一个包是：org.htmlparser.里面的类包括

Attribute.java

Node.java

NodeFactory.java

NodeFilter.java

Parser.java

PrototypicalNodeFactory.java

Remark.java

Tag.java

Text.java

可以看出都是针对基本数据结构的类。

一个一个进行分析，Attribute.java是记录网页元素的属性的，

                                <a href="EditPosts.aspx" id="TabPosts">随笔</a>

这个是博客园的，那Attribute应当可以记录 href=“MySubscibe.aspx"这样的元素。看他的构造方法：

public Attribute (String name, String assignment, String value, char quote)
    {
        setName (name);
        setAssignment (assignment);
        if (0 == quote)
            setRawValue (value);
        else
        {
            setValue (value);
            setQuote (quote);
        }
    }

看见分为是否含有引号的情况。setName，和setValue没有什么可以看的，如果不含引号的情况，value怎么设置

/**
     * Set the value of the attribute and the quote character.
     * If the value is pure whitespace, assign it 'as is' and reset the
     * quote character. If not, check for leading and trailing double or
     * single quotes, and if found use this as the quote character and
     * the inner contents of <code>value</code> as the real value.
     * Otherwise, examine the string to determine if quotes are needed
     * and an appropriate quote character if so. This may involve changing
     * double quotes within the string to character references.
     * @param value The new value.
     * @see #getRawValue
     * @see #getRawValue(StringBuffer)
     */
    public void setRawValue (String value)
    {
        char ch;
        boolean needed;
        boolean singleq;
        boolean doubleq;
        String ref;
        StringBuffer buffer;
        char quote;

        quote = 0;
        if ((null != value) && (0 != value.trim ().length ()))
        {
            if (value.startsWith ("'") && value.endsWith ("'")
                && (2 <= value.length ()))
            {
                quote = '\'';
                value = value.substring (1, value.length () - 1);
            }
            else if (value.startsWith ("\"") && value.endsWith ("\"")
                && (2 <= value.length ()))
            {
                quote = '"';
                value = value.substring (1, value.length () - 1);
            }
            else
            {
                // first determine if there's whitespace in the value
                // and while we're at it find a suitable quote character
                needed = false;
                singleq = true;
                doubleq = true;
                for (int i = 0; i < value.length (); i++)
                {
                    ch = value.charAt (i);
                    if ('\'' == ch)
                    {
                        singleq  = false;
                        needed = true;
                    }
                    else if ('"' == ch)
                    {
                        doubleq = false;
                        needed = true;
                    }
                    else if (!('-' == ch) && !('.' == ch) && !('_' == ch)
                       && !(':' == ch) && !Character.isLetterOrDigit (ch))
                    {
                        needed = true;
                    }
                }

                // now apply quoting
                if (needed)
                {
                    if (doubleq)
                        quote = '"';
                    else if (singleq)
                        quote = '\'';
                    else
                    {
                        // uh-oh, we need to convert some quotes into character
                        // references, so convert all double quotes into &#34;
                        quote = '"';
                        ref = "&quot;"; // Translate.encode (quote);
                        // JDK 1.4: value = value.replaceAll ("\"", ref);
                        buffer = new StringBuffer (
                                value.length() * (ref.length () - 1));
                        for (int i = 0; i < value.length (); i++)
                        {
                            ch = value.charAt (i);
                            if (quote == ch)
                                buffer.append (ref);
                            else
                                buffer.append (ch);
                        }
                        value = buffer.toString ();
                    }
                }
            }
        }
        setValue (value);
        setQuote (quote);
    }

如果没有设置分割字符的话，需要进行判断，首先判断value的字符是哪种？单引号，双引号，还是其他。如果是单引号开头，单引号结尾，那么分割是单引号。如果是双引号，就是双引号。如果不是这样，可能需要修复，如果里面有单引号，那么我们用双引号进行包装，里面含有双引号，我们用单引号进行包装。或者其中含有一些特别的字符（不是数字，字符，-，_,:），我们需要用引号引用起来。这样属性就可以保存下来。

属性暂时分析到这里，有兴趣的可以自己阅读剩下的部分。

Node.java

其实htmlParser就是一个词法语法分析器，学过自动机的同学应当对此很熟悉，（ps，本人自动机挂掉了。。）而HTML的元素有三种类型，text，Tag，Remark（remark是不是这种,这个不确定）。我们进行语法解析的时候肯定要返回相应的node，那这个node应当设计成抽象类或者接口，的确，也是这样设计的。看代码

package org.htmlparser;

import org.htmlparser.lexer.Page;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
import org.htmlparser.visitors.NodeVisitor;

public interface Node
    extends
        Cloneable
{
    
    String toPlainTextString ();  
    String toHtml ();
    String toHtml (boolean verbatim);
    String toString ();    
    void collectInto (NodeList list, NodeFilter filter);   
    int getStartPosition ();    
    void setStartPosition (int position)；   
    int getEndPosition ();   
    void setEndPosition (int position);   
    Page getPage ();
    void setPage (Page page); 
    void accept (NodeVisitor visitor);   
    Node getParent ();
    void setParent (Node node);
    NodeList getChildren ();  
    void setChildren (NodeList children);
    Node getFirstChild ();
    Node getLastChild (); 
    Node getPreviousSibling ();      
    Node getNextSibling ();     
    String getText ();  
    void setText (String text); 
    void doSemanticAction ()
        throws
            ParserException;  
    Object clone ()
        throws
            CloneNotSupportedException;
}

这里光看这个也没办法领略精髓，大致就是一个开始克隆，可以转换成html元素，转换成string的类型，并且可以迭代的一系列方法。不过下一步我们应当从lexer中寻找相关答案，保持我们的阅读顺序，我们继续进行下一个java分析

NodeFactory

先看代码

package org.htmlparser;

import java.util.Vector;

import org.htmlparser.lexer.Page;
import org.htmlparser.util.ParserException;

public interface NodeFactory
{
   
    Text createStringNode (Page page, int start, int end)
        throws
            ParserException;
 
    Remark createRemarkNode (Page page, int start, int end)
        throws
            ParserException;
   
    Tag createTagNode (Page page, int start, int end, Vector attributes)
        throws
            ParserException;
}

就是创建上面三种HTML页面的基本元素。

NodeFilter

package org.htmlparser;

import java.io.Serializable;

/**
 * Implement this interface to select particular nodes.
 */
public interface NodeFilter
    extends
        Serializable,
        Cloneable
{

    boolean accept (Node node);
}

进行一个Node的合理性验证

Parser

终于看到重点了

package org.htmlparser;

import java.io.Serializable;
import java.net.HttpURLConnection;
import java.net.URLConnection;

import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.http.ConnectionManager;
import org.htmlparser.http.ConnectionMonitor;
import org.htmlparser.http.HttpHeader;
import org.htmlparser.lexer.Lexer;
import org.htmlparser.lexer.Page;
import org.htmlparser.util.DefaultParserFeedback;
import org.htmlparser.util.IteratorImpl;
import org.htmlparser.util.NodeIterator;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
import org.htmlparser.util.ParserFeedback;
import org.htmlparser.visitors.NodeVisitor;


public class Parser
    implements
        Serializable,
        ConnectionMonitor
{
   
    public static final double
    VERSION_NUMBER = 1.6
    ;

   
    public static final String
    VERSION_TYPE = "Release Build"
    ;

   
    public static final String
    VERSION_DATE = "Jun 10, 2006"
    ;

   
    public static final String VERSION_STRING =
            "" + VERSION_NUMBER
            + " (" + VERSION_TYPE + " " + VERSION_DATE + ")";

  
    protected ParserFeedback mFeedback;

    protected Lexer mLexer;

    public static final ParserFeedback DEVNULL =
        new DefaultParserFeedback (DefaultParserFeedback.QUIET);

    public static final ParserFeedback STDOUT = new DefaultParserFeedback ();

    static
    {
        getConnectionManager ().getDefaultRequestProperties ().put (
            "User-Agent", "HTMLParser/" + getVersionNumber ());
    
    }


    public static String getVersion ()
    {
        return (VERSION_STRING);
    }

    public static double getVersionNumber ()
    {
        return (VERSION_NUMBER);
    }

    public static ConnectionManager getConnectionManager ()
    {
        return (Page.getConnectionManager ());
    }

    public static void setConnectionManager (ConnectionManager manager)
    {
        Page.setConnectionManager (manager);
    }

    public static Parser createParser (String html, String charset)
    {
        Parser ret;

        if (null == html)
            throw new IllegalArgumentException ("html cannot be null");
        ret = new Parser (new Lexer (new Page (html, charset)));

        return (ret);
    }


    public Parser ()
    {
        this (new Lexer (new Page ("")), DEVNULL);
    }

    public Parser (Lexer lexer, ParserFeedback fb)
    {
        setFeedback (fb);
        setLexer (lexer);
        setNodeFactory (new PrototypicalNodeFactory ());
    }

    public Parser (URLConnection connection, ParserFeedback fb)
        throws
            ParserException
    {
        this (new Lexer (connection), fb);
    }

    public Parser (String resource, ParserFeedback feedback)
        throws
            ParserException
    {
        setFeedback (feedback);
        setResource (resource);
        setNodeFactory (new PrototypicalNodeFactory ());
    }

    public Parser (String resource) throws ParserException
    {
        this (resource, STDOUT);
    }

    public Parser (Lexer lexer)
    {
        this (lexer, STDOUT);
    }

    public Parser (URLConnection connection) throws ParserException
    {
        this (connection, STDOUT);
    }

    public void setResource (String resource)
        throws
            ParserException
    {
        int length;
        boolean html;
        char ch;

        if (null == resource)
            throw new IllegalArgumentException ("resource cannot be null");
        length = resource.length ();
        html = false;
        for (int i = 0; i < length; i++)
        {
            ch = resource.charAt (i);
            if (!Character.isWhitespace (ch))
            {
                if ('<' == ch)
                    html = true;
                break;
            }
        }
        if (html)
            setLexer (new Lexer (new Page (resource)));
        else
            setLexer (new Lexer (getConnectionManager ().openConnection (resource)));
    }

    public void setConnection (URLConnection connection)
        throws
            ParserException
    {
        if (null == connection)
            throw new IllegalArgumentException ("connection cannot be null");
        setLexer (new Lexer (connection));
    }

    public URLConnection getConnection ()
    {
        return (getLexer ().getPage ().getConnection ());
    }


    public void setURL (String url)
        throws
            ParserException
    {
        if ((null != url) && !"".equals (url))
            setConnection (getConnectionManager ().openConnection (url));
    }

    public String getURL ()
    {
        return (getLexer ().getPage ().getUrl ());
    }

    public void setEncoding (String encoding)
        throws
            ParserException
    {
        getLexer ().getPage ().setEncoding (encoding);
    }

    public String getEncoding ()
    {
        return (getLexer ().getPage ().getEncoding ());
    }


    public void setLexer (Lexer lexer)
    {
        NodeFactory factory;
        String type;

        if (null == lexer)
            throw new IllegalArgumentException ("lexer cannot be null");
        // move a node factory that's been set to the new lexer
        factory = null;
        if (null != getLexer ())
            factory = getLexer ().getNodeFactory ();
        if (null != factory)
            lexer.setNodeFactory (factory);
        mLexer = lexer;
        // warn about content that's not likely text
        type = mLexer.getPage ().getContentType ();
        if (type != null && !type.startsWith ("text"))
            getFeedback ().warning (
                "URL "
                + mLexer.getPage ().getUrl ()
                + " does not contain text");
    }

    public Lexer getLexer ()
    {
        return (mLexer);
    }

    public NodeFactory getNodeFactory ()
    {
        return (getLexer ().getNodeFactory ());
    }

    public void setNodeFactory (NodeFactory factory)
    {
        if (null == factory)
            throw new IllegalArgumentException ("node factory cannot be null");
        getLexer ().setNodeFactory (factory);
    }

 
    public void setFeedback (ParserFeedback fb)
    {
        if (null == fb)
            mFeedback = DEVNULL;
        else
            mFeedback = fb;
    }

    public ParserFeedback getFeedback()
    {
        return (mFeedback);
    }

    public void reset ()
    {
        getLexer ().reset ();
    }

 
    public NodeIterator elements () throws ParserException
    {
        return (new IteratorImpl (getLexer (), getFeedback ()));
    }
   
    public NodeList parse (NodeFilter filter) throws ParserException
    {
        NodeIterator e;
        Node node;
        NodeList ret;

        ret = new NodeList ();
        for (e = elements (); e.hasMoreNodes (); )
        {
            node = e.nextNode ();
            if (null != filter)
                node.collectInto (ret, filter);
            else
                ret.add (node);
        }

        return (ret);
    }

    public void visitAllNodesWith (NodeVisitor visitor) throws ParserException
    {
        Node node;
        visitor.beginParsing();
        for (NodeIterator e = elements(); e.hasMoreNodes(); )
        {
            node = e.nextNode();
            node.accept(visitor);
        }
        visitor.finishedParsing();
    }

    public void setInputHTML (String inputHTML)
        throws
            ParserException
    {
        if (null == inputHTML)
            throw new IllegalArgumentException ("html cannot be null");
        if (!"".equals (inputHTML))
            setLexer (new Lexer (new Page (inputHTML)));
    }

    public NodeList extractAllNodesThatMatch (NodeFilter filter)
        throws
            ParserException
    {
        NodeIterator e;
        NodeList ret;

        ret = new NodeList ();
        for (e = elements (); e.hasMoreNodes (); )
            e.nextNode ().collectInto (ret, filter);

        return (ret);
    }


    public void preConnect (HttpURLConnection connection)
        throws
            ParserException
    {
        getFeedback ().info (HttpHeader.getRequestHeader (connection));
    }


    public void postConnect (HttpURLConnection connection)
        throws
            ParserException
    {
        getFeedback ().info (HttpHeader.getResponseHeader (connection));
    }

    public static void main (String [] args)
    {
        Parser parser;
        NodeFilter filter;

        if (args.length < 1 || args[0].equals ("-help"))
        {
            System.out.println ("HTML Parser v" + getVersion () + "\n");
            System.out.println ();
            System.out.println ("Syntax : java -jar htmlparser.jar"
                    + " <file/page> [type]");
            System.out.println ("   <file/page> the URL or file to be parsed");
            System.out.println ("   type the node type, for example:");
            System.out.println ("     A - Show only the link tags");
            System.out.println ("     IMG - Show only the image tags");
            System.out.println ("     TITLE - Show only the title tag");
            System.out.println ();
            System.out.println ("Example : java -jar htmlparser.jar"
                    + " http://www.yahoo.com");
            System.out.println ();
        }
        else
            try
            {
                parser = new Parser ();
                if (1 < args.length)
                    filter = new TagNameFilter (args[1]);
                else
                {
                    filter = null;
                    // for a simple dump, use more verbose settings
                    parser.setFeedback (Parser.STDOUT);
                    getConnectionManager ().setMonitor (parser);
                }
                getConnectionManager ().setRedirectionProcessingEnabled (true);
                getConnectionManager ().setCookieProcessingEnabled (true);
                parser.setResource (args[0]);
                System.out.println (parser.parse (filter));
            }
            catch (ParserException e)
            {
                e.printStackTrace ();
            }
    }
}

首先我们要看看构造方法：通常，我们使用HTMLParser的时候是这样new的 Parser a = Parser.createParser(content,"UTF-8");而这个方法就是通过new Parser(New Lexer(new Page(html,charset)));方法创建一个Parser，也就是核心是Page对象，Lexer对象和Parser对象。

看其他的构造方法，空构造方法，我们略去。

public Parser(Lexer lexer,ParserFeedback fb)，里面无非就是设置词法解析器，设置异常信息接收器，和设置一个nodeFactory。

public Parser (URLConnection connection, ParserFeedback fb)网页
public Parser (String resource, ParserFeedback feedback) 对内容进行解析

public Parser (String resource)

public Parser (Lexer lexer)

public Parser (URLConnection connection)

无非就是用默认的fd，之后会对FeedBack类进行相关说明。

到这里，parser完成的无非就是对给定的url，或者content，或者urlconnection对象，创建相应的词法分析器，feedback，和根据条件创建相应的Page对象。同时，我们看到Nodefactory实际上的设置是在Lexer中进行的。这里先不管。

这里有几个我们经常用的方法

public NodeList parse (NodeFilter filter) throws ParserException 根据过滤条件返回相应的nodelist

public void visitAllNodesWith (NodeVisitor visitor) throws ParserException 运用迭代器的方式进行遍历，这里涉及了NodeVisitor，IteratorImpl 这里还没有看。暂时不知道为什么这样设计。

public void setInputHTML (String inputHTML) 可以对html元素进行解析

public NodeList extractAllNodesThatMatch (NodeFilter filter) 根据过滤条件返回满足条件的NodeList

最后是测试方法。parser类读完了，其实parser类就是一个大的入口，将与页面相关的信息传递给parser类，parser调用其他类对其进行解析，返回nodelist。nodelist里面有若干node，而实例化的node里面存有我们相用的各种信息，到这里没有看到词法分析器的影子。。

PrototypicalNodeFactory

对Text，Remark，Tag进行标准化的约束。这个类暂时不做过多介绍，等用到的时候进行相关解释。

Remark

Text

Tag 这三个接口类，实现node，为具体的Node提供接口。

至此，org.htmlParser 阅读完毕，看见还是比较简单的。为什么我要阅读这个代码，一时项目中用到了这个HTMLParser，因为不放心，想知道内部是如何实现的。二是，我自动机以前挂掉过，我想自己实现一个Parser。三是，我的时间和充裕。

下一章节，我们将介绍另一个核心包：org.htmlparser.lexer 。同时，我们要对html页面标准进行学习，不然如何自己实现一个Parser呢？

欢迎批评指正。

吸取上次代码过多的教训，这次主要讲设计。

org.htmlparser.lexer 包，是主要的进行html解析的包。Page类可以根绝传入的urlConnection，text，stream等类型，构造相应的Page对象，Page对象中比较关键的是Source，url，PageIndex对象，他们的用途是：Source相当于一个Reader，但是与Reader不同的地方是，Source应当是线程同步的，字符可以改变，而且有可能多次请求。这边主要是要对解析的内容进行记录，记录位置等信息。Source是抽象类，具体的实现是StringSource和InputStreamSource。而inputStreamSource 的同步操作是依赖Stream类实现的同步方法。对于string类型的的source，直接构造相应buffered data即可。pageIndex对象是是对每行的第一个字符的位置进行记录。最后lexer是对page对象进行词法解析，我们看到有如下的几个方法，parseCDATA，scanJIS，parseString，parseTag，parseRemark，parseJsp，parsePI。这个可能要根据不同的页面进行不同的解析方法的编写。剩下的比较重要的包无非就是filter包。那这样我们对HTMLParser的构造就大致了解了，用图呈现如下：

HTMLParser各个包之间的关系图（只将比较重要的几个类，用流程的方式串联起来）

以上是我对htmlparser 包和类之间的分析，具体的htmlparser的包的组织结构如下图：

大部分的包都在关系图中显示了，剩下的是一些测试包，一些数据的组织包，并不是htmlparser的核心。按照这个思路，下一步可以自己做一个小型的parser解析器了。

总感觉少了点什么，缺又不清楚少了什么。

博客园精华文章收录

http://www.cnblogs.com/pick/ 架构篇

java parser乱码_HtmlParser 2.0 中文乱码问题福建低调 java parser乱码
对于HTMLParser2.0工具包我们需要修改其中的Page.java文件使其适用中文的html文件分析。主要是把protectedstaticfinalStringDEFAULT_CHARSET="ISO-8859-1"；修改成protectedstaticfinalStringDEFAULT_CHARSET="gb2312"；主要是兼容charset='GBK'声明的页面。--因为采用默认的
vue项目能正常启动但是打包报错小全upup vue.js 前端 javascript
项目执行npmrunserve/dev的图一点影响没有跑起来之后页面也非常的正常然后就来到了打包环境执行打包命令报这种错误-htmlparser.js:255HTMLParser.parse[mydemo]/[html-minifier-terser]/src/htmlparser.js:255:15-runMicrotasks-task_queues.js:95processTicksAndRe
itchat报错'HTMLParser' object has no attribute 'unescape'在python3.9 g9efwi8b
itchat里面有个地方经常报错,C:\Users\-username-\AppData\Local\Programs\Python\Python39\Lib\site-packages\itchat\utils.py的第70行d[k]=htmlParser.unescape(d[k])改为importhtmld[k]=html.unescape(d[k])这样就不容易报错了.
微信小程序中显示html富文本的方法大胡子的机器人
image.png使用方法：git地址：https://github.com/icindy/wxParse一、下载wxParse文件image.pngwxParse/-wxParse.js(必须存在)-html2json.js(必须存在)-htmlparser.js(必须存在)-showdown.js(必须存在)-wxDiscode.js(必须存在)-wxParse.wxml(必须存在)-wxPa
使用Jsoup解析html网页程序猿老王开发工具 html Jsoup
一、JSOUP简介在以往用java来处理解析HTML文档或者片段时，我们通常会采用htmlparser（http://htmlparser.sourceforge.net/）这个开源类库。现在我们有了JSOUP，以后的处理HTML的内容只需要使用JSOUP就已经足够了，JSOUP有更快的更新，更方便的API等。jsoup是一款Java的HTML解析器，可直接解析某个URL地址、HTML文本内容。它
Python的HTMLParser库的用法 weixin_30777913 Python Python HTMLParse
HTMLParser库的用法如果我们要编写一个搜索引擎，第一步是用爬虫把目标网站的页面抓下来，第二步就是解析该HTML页面，看看里面的内容到底是新闻、图片还是视频。假设第一步已经完成了，第二步应该如何解析HTML呢？HTML本质上是XML的子集，但是HTML的语法没有XML那么严格，所以不能用标准的DOM或SAX来解析HTML。好在Python提供了HTMLParser来非常方便地解析HTML，只
Vue3.4的新变化大鲤余 vue.js javascript 前端
解析器3.4版本解析器速度提升2倍，提高了SFC构建性能。之前版本Vue使用递归下降解析器，该解析器依赖于许多正则表达式和前瞻搜索。新的解析器使用基于htmlparser2中的标记生成器的状态机标记生成器，它仅迭代整个模板字符串一次。响应式上3.4还对响应式系统进行了重大重构，目标是提高计算属性的重新计算效率。constcount=ref(0)constisEven=computed(()=>co
Python的HTMLParser模块：HTML解析的得力工具小雨淋林 Python基础入门教程 python xml
在Python中，HTMLParser模块提供了一个简单而强大的HTML解析器，用于解析HTML文档并提取其中的信息。本篇博客将深入讨论HTMLParser模块，包括基本使用、自定义解析器的创建以及实际应用中的示例。1.HTMLParser模块概述HTMLParser模块是Python标准库中的一部分，提供了一个基于事件的HTML解析器。它继承自Python的SGMLParser类，用于将HTML
html.parser --- 简单的 HTML 和 XHTML 解析器知识的宝藏 python
源代码：Lib/html/parser.py这个模块定义了一个HTMLParser类，为HTML（超文本标记语言）和XHTML文本文件解析提供基础。classhtml.parser.HTMLParser(*,convert_charrefs=True)创建一个能解析无效标记的解析器实例。如果convert_charrefs为True(默认值)，则所有字符引用(script/style元素中的除外)
python 爬取本地的HTML中的数据并将其存储进Excel表格中是兔子不是tu子 python excel 开发语言
我有一个HTML文件保存在本地，我需要爬取里面的某些数据并将爬取到的部分数据存储进Excel表中我的解决思路如下：先爬取数据按照步长将数据分割成二维列表循环遍历将需要的数据存入Excel表中实现代码如下：#coding:utf-8fromlxmlimportetreeimportxlsxwriter#：载入模块#解析本地文件使用etree.parseparser=etree.HTMLParser(
2.爬虫之xpath选择器&selenium模块开局签到Python基础 9.爬虫爬虫 selenium python
1.xpath选择器1.1xpath介绍xpath:是一门在xml/html文档中查找信息的语句.安装:pipinstalllxml导入:fromlxmlimportetree生成对象:html=etree.HTML('html文档字符串')html=etree.parse('.html文件路径',etree.HTMLParser())1.2选取节点表达式查询节点:/:从根节点选取(值是一个对象)
02 数据解析 Ag刘晓婷
xpath//input[@id='search_input']//div/ul[@class='lg_tnav_wrap']/li[1]/a//div/ul[@class='lg_tnav_wrap']/li[1]/a[@*]lxmletreeparserfromlxmlimportetreehtml=etree.HTML(text)parser=etree.HTMLParser(encodin
python爬虫 NoNamePlus 普通学习笔记 python 爬虫开发语言
1.爬虫的基本流程用urllib或是requests库把网页的HTML代码拉到本地用HTMLParser，Xpath，BeautifulSoup等库解析HTML代码，找到想要的东西2.HTMLParser廖雪峰的网站看资料3.urllib廖雪峰的网站看资料4.requests菜鸟教程看资料#GET方法importrequestsHTML=requests.get("网址",headers={"Us
pycharm 切换 python3.9 报错 'HTMLParser' object has no attribute 'unescape' 解决程序员的一天
有的bug，莫名其妙就好了...python3.9报错"AttributeError:'HTMLParser'objecthasnoattribute'unescape'"异常分析解决。一、问题描述安装python3.9版本后，pycharm中切换python3.9版本，创建虚拟环境报错："AttributeError:'HTMLParser'objecthasnoattribute'unesca
怎么在html中使用less语言,Less.Html 示例五：使用方法详解潘儒锋
Less.Html示例五：使用方法详解0.从解析开始引入Less.Html的命名空间：usingLess.Html;调用静态类型HtmlParser的Parse方法：Documentdocument=HtmlParser.Parse(testHtml);返回的是HTMLDOM标准的文档对象，我只实现了常见的DOM方法，其实DOM方法的设计本身就有繁复的地方，这个以后再说。要方便地查找文档元素，还需
easyUi重新渲染 Night_zzz
狂野的小怪兽jqueryEasyui重新渲染转载:jQueryEasyUIparser的使用场景|WebUI框架使用参考+http://www.easyui.info/archives/216.htmlparser，故名意思，就是解析器的意思，别看他只有那么几行代码，jQueryEasyui能够根据class就能正常渲染页面全靠它了。一般情况下，我们并用不到解析器，本文主要讨论一下，什么情况下会用
输入 URL 到页面渲染的整个流程晓丽_c080
DNS解析TCP三次握手发送请求，分析url，设置请求报文(头，主体)服务器返回请求的文件(html)浏览器渲染HTMLparser-->DOMTree标记化算法，进行元素状态的标记dom树构建CSSparser-->StyleTree解析css代码，生成样式树attachment-->RenderTree结合dom树与style树，生成渲染树layout:布局GPUpainting:像素绘制页面
「三」浏览器中CSS 语法解析过程废柴码农
CSS语法解析过程1.在浏览器系列文章中，今天终点讲下CSS解析这块内容.我们已知浏览器的渲染流程中HTMLParser会生成DOM树，而CSSParser会将解析结果附加到DOM树上，如下图：image.png解析分为词法分析和语法分析。image.png词法分析，也是编译原理中的术语，从左到右一个字符一个字符的读入源程序，对字符流进行扫描，根据构词规则识别单词。这一过程可以使用lex等工具自动
(水印)html转图片 Peak_Gao java java
gui.avahtml2image2.0.1xml-apisxml-apis1.4.01"+"IP地址：127.0.0.1国家：AAA\n"+"省份：AAAA位置：XXXXXXX";HtmlParserhtmlParser=newHtmlParserImpl();htmlParser.loadHtml(htmlTemplate);ImageRendererimageRenderer=newImag
ios 常见问题解决 weixin_30706691 xcode 移动开发 c/c++
一，libxml/HTMLparser.hfilenotfind第一种方法：点击左边项目的根目录，再点击右边的BuildSettings，手工输入文字：“Headersearchpaths”，然后单击（或双击，点击弹出面板下面的“+”号进行添加）“Headersearchpaths”右边的空白处，输入：/usr/include/libxml2第二种方法：点击左边项目的根目录，再点击右边的Build
java爬虫爬取百度图片_Java实现爬取百度图片的方法分析 weixin_39552768 java爬虫爬取百度图片
本文实例讲述了Java实现爬取百度图片的方法。分享给大家供大家参考，具体如下：在以往用java来处理解析HTML文档或者片段时，我们通常会采用htmlparser(http://htmlparser.sourceforge.net/)这个开源类库。现在我们有了JSOUP，以后的处理HTML的内容只需要使用JSOUP就已经足够了，JSOUP有更快的更新，更方便的API等。jsoup是一款Java的H
浏览器渲染页面的大致过程路人丁0417
[图片上传失败...(image-735179-1630336184679)]渲染引擎启动html解释器(htmlParser)解析html源码，根据DOMAPI创建domtree，Browser进程并行下载网络资源(css/image/js...)。在dom树中，每个html标签都有一个对应的节点，每个文本也有对应的文本节点，根节点就是documentElement,对应的是html节点。当遇到
python调用html数据_Python读取HTML页面柒八酒 python调用html数据
有一个类库叫作beautifulsoup。使用这个库，可以搜索html标签的值，并获取页面标题和页面标题列表等特定数据。安装Beautifulsoup使用Anaconda软件包管理器安装所需的软件包及其相关软件包。condainstallBeaustifulsoap读取HTML文件在下面的例子中，我们请求一个url被加载到python环境中。然后使用htmlparser参数来读取整个html文件。
Python调用Halcon踩坑记录唐浅浅 Python python
原配置为：PyCharm2019.1+Python3.71.使用python3.7.2安装mvtec-halcon提示找不到合适版本查看HalconPyhton接口使用文档，Python需要3.8版本以上2.安装最新的Python版本安装Python3.9，使用PyCharm切换python3.9报错‘HTMLParser‘objecthasnoattribute‘unescape‘查看官网pyt
数据处理之XPATH提取数据--------常用方法西红市杰出青年 python 大数据开发语言
**etree数据处理之XPATH提取数据--------常用方法**parser=etree.HTMLParser(encoding=‘utf-8’)html=etree.parse(‘A000000_table.html’,parser=parser)/AAA绝对路径表示必须以AAA开头print(html.xpath(‘/html’)[0])/AAA/BBB选择AAA下面的所有BBB元素但是
Python爬虫：HTML网页解析方法小结 Python程序员小泉 python 编程 python入门 python 爬虫 python入门 python开发
要理解python是如何解析网页的，首先要理解什么是网页解析器。简单的说就是用来解析html网页的工具，准确的说：它是一个HTML网页信息提取工具，就是从html网页中解析提取出“我们需要的有价值的数据”或者“新的URL链接”的工具。解析HTML：层次化的数据有多个解析HTML的第三方库，例如：LXML，BeautifulSoup，HTMLParser等等。解析HTML面临的问题：没有统一的标准、
基于python的简介以及应用知识，快做好，要发车啦（文末有个投票）阿玥的小东东 python 开发语言爬虫阿玥的小东东程序人生
目录简介：流程：实现：环境：UrlManager类HtmlDownloader类HtmlParser类BuildIndex
天天都在使用CSS，那么CSS的原理是什么呢？周小肆
作为前端，我们每天都在与CSS打交道，那么CSS的原理是什么呢？一、浏览器渲染开篇，我们还是不厌其烦的回顾一下浏览器的渲染过程，先上图：webkitrender正如上图所展示的，我们浏览器渲染过程分为了两条主线：其一，HTMLParser生成的DOM树；其二，CSSParser生成的StyleRules；在这之后，DOM树与StyleRules会生成一个新的对象，也就是我们常说的RenderTre
python cgi SkTj
cookie操作:限制4kb,300个，每个域名20个image.pngcgi.escapeimage.pngurllib.parse.quote_plusunquote_plusimage.pngopen().read()HTMLParser().unescape()image.pngcgi.FieldStorage()xx.keys()image.pngos.path.abspath(path
python qqbot luoboshu 笔记 python
在pythonv3.9中用qqbot会出现一个错误AttributeError:‘HTMLParser’objecthasnoattribute‘unescape’：解决方案：Startinginpython3.9usingHTMLParser()unescape()willresultintheerrorAttributeError:‘HTMLParser’objecthasnoattribut
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p

HTMLParser1.6 源代码阅读

HTMLParser1.6 源代码阅读

博客园精华文章收录

你可能感兴趣的:(HtmlParser)