jilong-liang

三、htmlparser使用指南

需要做一个垂直搜索引擎，比较了nekohtml和htmlparser 的功能，尽管nekohtml在容错性、性能等方面的口碑好像比htmlparser好（htmlunit也用的是nekohtml），但感觉 nekohtml的测试用例和文档都比htmlparser都少，而且htmlparser基本上能够满足垂直搜索引擎页面处理分析的需求，因此先研究一下htmlparser的使用，有空再研究nekohtml和mozilla html parser的使用。

html的功能还是官方说得最为清楚，

HTML Parser is a Java library used to parse HTML in either a linear or nested fashion. Primarily used for transformation or extraction, it features filters, visitors, custom tags and easy to use JavaBeans. It is a fast, robust and well tested package.

The two fundamental use-cases that are handled by the parser are extraction and transformation (the syntheses use-case, where HTML pages are created from scratch, is better handled by other tools closer to the source of data). While prior versions concentrated on data extraction from web pages, Version 1.4 of the HTMLParser has substantial improvements in the area of transforming web pages, with simplified tag creation and editing, and verbatim toHtml() method output.

研究的重点还是extraction的使用，有空再研究transformation的使用。

1、htmlparser对html页面处理的数据结构

如图所示，HtmlParser采用了经典的Composite模式，通过RemarkNode、TextNode、TagNode、AbstractNode和Tag来描述HTML页面各元素。

org.htmlparser.Node：

Node接口定义了进行树形结构节点操作的各种典型操作方法，包括：

节点到html文本、text文本的方法：toPlainTextString、toHtml

典型树形结构遍历的方法：getParent、getChildren、getFirstChild、getLastChild、getPreviousSibling、getNextSibling、getText

获取节点对应的树形结构结构的顶级节点Page对象方法：getPage

获取节点起始位置的方法：getStartPosition、getEndPosition

Visitor方法遍历节点时候方法：accept (NodeVisitor visitor)

Filter方法：collectInto (NodeList list, NodeFilter filter)

Object方法：toString、clone

org.htmlparser.nodes.AbstractNode：

AbstractNode是形成HTML树形结构抽象基类，实现了Node接口。

在htmlparser中，Node分成三类：

RemarkNode：代表Html中的注释

TagNode：标签节点。

TextNode：文本节点

这三类节点都继承AbstractNode。

org.htmlparser.nodes.TagNode：

TagNode包含了对HTML处理的核心的各个类，是所有TAG的基类，其中有分为包含其他TAG的复合节点ComositeTag和不包含其他TAG的叶子节点Tag。

复合节点CompositeTag：

AppletTag,BodyTag,Bullet,BulletList,DefinitionList,DefinitionListBullet,Div,FormTag,FrameSetTag,HeadingTag,

HeadTag,Html,LabelTag,LinkTag,ObjectTag,ParagraphTag,ScriptTag,SelectTag,Span,StyleTag,TableColumn,

TableHeader,TableRow,TableTag,TextareaTag,TitleTag

叶子节点TAG：

BaseHrefTag,DoctypeTag,FrameTag,ImageTag,InputTag,JspTag,MetaTag,ProcessingInstructionTag,

2、htmlparser对html页面处理的算法

主要是如下几种方式

采用Visitor方式访问Html

try {
    Parser parser = new Parser();
    parser.setURL(”http://www.google.com")/;
    parser.setEncoding(parser.getEncoding());
    NodeVisitor visitor = new NodeVisitor() {
        public void visitTag(Tag tag) {
            logger.fatal(”testVisitorAll()  Tag name is :”
                    + tag.getTagName() + ” \n Class is :”
                    + tag.getClass());
        }
    };
    parser.visitAllNodesWith(visitor);
} catch (ParserException e) {
    e.printStackTrace();
}

采用Filter方式访问html

try {
    NodeFilter filter = new NodeClassFilter(LinkTag.class);
    Parser parser = new Parser();
    parser.setURL(”http://www.google.com")/;
    parser.setEncoding(parser.getEncoding());
    NodeList list = parser.extractAllNodesThatMatch(filter);
    for (int i = 0; i < list.size(); i++) {
        LinkTag node = (LinkTag) list.elementAt(i);
        logger.fatal(”testLinkTag() Link is :” + node.extractLink());
    }
} catch (Exception e) {
    e.printStackTrace();
}

//采用org.htmlparser.beans方式
//另外htmlparser 还在org.htmlparser.beans中对一些常用的方法进行了封装，以简化操作，例如：
Parser parser = new Parser();
LinkBean linkBean = new LinkBean();
linkBean.setURL(”http://www.google.com")/;
URL[] urls = linkBean.getLinks();
for (int i = 0; i < urls.length; i++) {
    URL url = urls[i];
    logger.fatal(”testLinkBean() -url  is :” + url);
}

3、htmlparser关键包结构说明

htmlparser其实核心代码并不多，好好研究一下其代码，弥补文档不足的问题。同时htmlparser的代码注释和单元测试用例还是很齐全的，也有助于了解htmlparser的用法。

3.1、org.htmlparser

定义了htmlparser的一些基础类。其中最为重要的是Parser类。

Parser是htmlparser的最核心的类，其构造函数提供了如下：Parser.createParser (String html, String charset)、 Parser ()、Parser (Lexer lexer, ParserFeedback fb)、Parser (URLConnection connection, ParserFeedback fb)、Parser (String resource, ParserFeedback feedback)、 Parser (String resource)

各构造函数的具体用法及含义可以查看其代码，很容易理解。

Parser常用的几个方法：

elements获取元素
```
  Parser parser = new Parser (”http://www.google.com")/;
    for (NodeIterator i = parser.elements (); i.hasMoreElements (); )
      processMyNodes (i.nextNode ());
parse (NodeFilter filter)：通过NodeFilter方式获取
visitAllNodesWith (NodeVisitor visitor)：通过Nodevisitor方式
extractAllNodesThatMatch (NodeFilter filter)：通过NodeFilter方式
```
3.2、org.htmlparser.beans

    对Visitor和Filter的方法进行了封装，定义了针对一些常用html元素操作的bean，简化对常用元素的提取操作。

    包括：FilterBean、HTMLLinkBean、HTMLTextBean、LinkBean、StringBean、BeanyBaby等。

3.3、org.htmlparser.nodes

    定义了基础的node，包括：AbstractNode、RemarkNode、TagNode、TextNode等。

3.4、org.htmlparser.tags

    定义了htmlparser的各种tag。

3.5、org.htmlparser.filters

    定义了htmlparser所提供的各种filter，主要通过extractAllNodesThatMatch (NodeFilter filter)来对html页面指定类型的元素进行过滤，包括：AndFilter、CssSelectorNodeFilter、 HasAttributeFilter、HasChildFilter、HasParentFilter、HasSiblingFilter、 IsEqualFilter、LinkRegexFilter、LinkStringFilter、NodeClassFilter、 NotFilter、OrFilter、RegexFilter、StringFilter、TagNameFilter、XorFilter

3.6、org.htmlparser.visitors

   定义了htmlparser所提供的各种visitor，主要通过visitAllNodesWith (NodeVisitor visitor)来对html页面元素进行遍历，包括：HtmlPage、LinkFindingVisitor、NodeVisitor、 ObjectFindingVisitor、StringFindingVisitor、TagFindingVisitor、 TextExtractingVisitor、UrlModifyingVisitor

3.7、org.htmlparser.parserapplications

   定义了一些实用的工具，包括LinkExtractor、SiteCapturer、StringExtractor、WikiCapturer，这几个类也可以作为htmlparser使用样例。

3.8、org.htmlparser.tests

   对各种功能的单元测试用例，也可以作为htmlparser使用的样例。
4、htmlparser的使用样例

 
import java.net.URL;
import junit.framework.TestCase;
import org.apache.log4j.Logger;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.Tag;
import org.htmlparser.beans.LinkBean;
import org.htmlparser.filters.NodeClassFilter;
import org.htmlparser.filters.OrFilter;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.tags.HeadTag;
import org.htmlparser.tags.ImageTag;
import org.htmlparser.tags.InputTag;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.tags.OptionTag;
import org.htmlparser.tags.SelectTag;
import org.htmlparser.tags.TableColumn;
import org.htmlparser.tags.TableRow;
import org.htmlparser.tags.TableTag;
import org.htmlparser.tags.TitleTag;
import org.htmlparser.util.NodeIterator;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
import org.htmlparser.visitors.HtmlPage;
import org.htmlparser.visitors.NodeVisitor;
import org.htmlparser.visitors.ObjectFindingVisitor;
public class ParserTestCase extends TestCase {
    private static final Logger logger = Logger.getLogger(ParserTestCase.class);
    public ParserTestCase(String name) {
        super(name);
    }
    /*
     * 测试ObjectFindVisitor的用法
     */
    public void testImageVisitor() {
        try {
            ImageTag imgLink;
            ObjectFindingVisitor visitor = new ObjectFindingVisitor(
                    ImageTag.class);
            Parser parser = new Parser();
            parser.setURL(”http://www.google.com")/;
            parser.setEncoding(parser.getEncoding());
            parser.visitAllNodesWith(visitor);
            Node[] nodes = visitor.getTags();
            for (int i = 0; i < nodes.length; i++) {
                imgLink = (ImageTag) nodes[i];
                logger.fatal(”testImageVisitor() ImageURL = “
                        + imgLink.getImageURL());
                logger.fatal(”testImageVisitor() ImageLocation = “
                        + imgLink.extractImageLocn());
                logger.fatal(”testImageVisitor() SRC = “
                        + imgLink.getAttribute(”SRC”));
            }
        }
        catch (Exception e) {
            e.printStackTrace();
        }
    }
    /*
     * 测试TagNameFilter用法
     */
    public void testNodeFilter() {
        try {
            NodeFilter filter = new TagNameFilter(”IMG”);
            Parser parser = new Parser();
            parser.setURL(”http://www.google.com")/;
            parser.setEncoding(parser.getEncoding());
            NodeList list = parser.extractAllNodesThatMatch(filter);
            for (int i = 0; i < list.size(); i++) {
                logger.fatal(”testNodeFilter() ” + list.elementAt(i).toHtml());
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
    /*
     * 测试NodeClassFilter用法
     */
    public void testLinkTag() {
        try {
            NodeFilter filter = new NodeClassFilter(LinkTag.class);
            Parser parser = new Parser();
            parser.setURL(”http://www.google.com")/;
            parser.setEncoding(parser.getEncoding());
            NodeList list = parser.extractAllNodesThatMatch(filter);
            for (int i = 0; i < list.size(); i++) {
                LinkTag node = (LinkTag) list.elementAt(i);
                logger.fatal(”testLinkTag() Link is :” + node.extractLink());
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
    /*
     * 测试<link href=” text=’text/css’ rel=’stylesheet’ />用法
     */
    public void testLinkCSS() {
        try {
            Parser parser = new Parser();
            parser
                    .setInputHTML(”<head><title>Link Test</title>”
                            + “<link href=’/test01/css.css’ text=’text/css’ rel=’stylesheet’ />”
                            + “<link href=’/test02/css.css’ text=’text/css’ rel=’stylesheet’ />”
                            + “</head>” + “<body>”);
            parser.setEncoding(parser.getEncoding());
            NodeList nodeList = null;
            for (NodeIterator e = parser.elements(); e.hasMoreNodes();) {
                Node node = e.nextNode();
                logger
                        .fatal(”testLinkCSS()” + node.getText()
                                + node.getClass());
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
    /*
     * 测试OrFilter的用法
     */
    public void testOrFilter() {
        NodeFilter inputFilter = new NodeClassFilter(InputTag.class);
        NodeFilter selectFilter = new NodeClassFilter(SelectTag.class);
        Parser myParser;
        NodeList nodeList = null;
        try {
            Parser parser = new Parser();
            parser
                    .setInputHTML(”<head><title>OrFilter Test</title>”
                            + “<link href=’/test01/css.css’ text=’text/css’ rel=’stylesheet’ />”
                            + “<link href=’/test02/css.css’ text=’text/css’ rel=’stylesheet’ />”
                            + “</head>”
                            + “<body>”
                            + “<input type=’text’ value=’text1′ name=’text1′/>”
                            + “<input type=’text’ value=’text2′ name=’text2′/>”
                            + “<select><option id=’1′>1</option><option id=’2′>2</option><option id=’3′></option></select>”
                            + “<a href=’http://www.yeeach.com'/>yeeach.com</a>”
                            + “</body>”);
            parser.setEncoding(parser.getEncoding());
            OrFilter lastFilter = new OrFilter();
            lastFilter.setPredicates(new NodeFilter[] { selectFilter,
                    inputFilter });
            nodeList = parser.parse(lastFilter);
            for (int i = 0; i <= nodeList.size(); i++) {
                if (nodeList.elementAt(i) instanceof InputTag) {
                    InputTag tag = (InputTag) nodeList.elementAt(i);
                    logger.fatal(”OrFilter tag name is :” + tag.getTagName()
                            + ” ,tag value is:” + tag.getAttribute(”value”));
                }
                if (nodeList.elementAt(i) instanceof SelectTag) {
                    SelectTag tag = (SelectTag) nodeList.elementAt(i);
                    NodeList list = tag.getChildren();
                    for (int j = 0; j < list.size(); j++) {
                        OptionTag option = (OptionTag) list.elementAt(j);
                        logger
                                .fatal(”OrFilter Option”
                                        + option.getOptionText());
                    }
                }
            }
        } catch (ParserException e) {
            e.printStackTrace();
        }
    }
    /*
     * 测试对<table><tr><td></td></tr></table>的解析
     */
    public void testTable() {
        Parser myParser;
        NodeList nodeList = null;
        myParser = Parser.createParser(”<body> ” + “<table id=’table1′ >”
                + “<tr><td>1-11</td><td>1-12</td><td>1-13</td>”
                + “<tr><td>1-21</td><td>1-22</td><td>1-23</td>”
                + “<tr><td>1-31</td><td>1-32</td><td>1-33</td></table>”
                + “<table id=’table2′ >”
                + “<tr><td>2-11</td><td>2-12</td><td>2-13</td>”
                + “<tr><td>2-21</td><td>2-22</td><td>2-23</td>”
                + “<tr><td>2-31</td><td>2-32</td><td>2-33</td></table>”
                + “</body>”, “GBK”);
        NodeFilter tableFilter = new NodeClassFilter(TableTag.class);
        OrFilter lastFilter = new OrFilter();
        lastFilter.setPredicates(new NodeFilter[] { tableFilter });
        try {
            nodeList = myParser.parse(lastFilter);
            for (int i = 0; i <= nodeList.size(); i++) {
                if (nodeList.elementAt(i) instanceof TableTag) {
                    TableTag tag = (TableTag) nodeList.elementAt(i);
                    TableRow[] rows = tag.getRows();
                    for (int j = 0; j < rows.length; j++) {
                        TableRow tr = (TableRow) rows[j];
                        TableColumn[] td = tr.getColumns();
                        for (int k = 0; k < td.length; k++) {
                            logger.fatal(”<td>” + td[k].toPlainTextString());
                        }
                    }
                }
            }
        } catch (ParserException e) {
            e.printStackTrace();
        }
    }
    /*
     * 测试NodeVisitor的用法，遍历所有节点
     */
    public void testVisitorAll() {
        try {
            Parser parser = new Parser();
            parser.setURL(”http://www.google.com")/;
            parser.setEncoding(parser.getEncoding());
            NodeVisitor visitor = new NodeVisitor() {
                public void visitTag(Tag tag) {
                    logger.fatal(”testVisitorAll()  Tag name is :”
                            + tag.getTagName() + ” \n Class is :”
                            + tag.getClass());
                }
            };
            parser.visitAllNodesWith(visitor);
        } catch (ParserException e) {
            e.printStackTrace();
        }
    }
    /*
     * 测试对指定Tag的NodeVisitor的用法
     */
    public void testTagVisitor() {
        try {
            Parser parser = new Parser(
                    “<head><title>dddd</title>”
                            + “<link href=’/test01/css.css’ text=’text/css’ rel=’stylesheet’ />”
                            + “<link href=’/test02/css.css’ text=’text/css’ rel=’stylesheet’ />”
                            + “</head>” + “<body>”
                            + “<a href=’http://www.yeeach.com'/>yeeach.com</a>”
                            + “</body>”);
            NodeVisitor visitor = new NodeVisitor() {
                public void visitTag(Tag tag) {
                    if (tag instanceof HeadTag) {
                        logger.fatal(”visitTag() HeadTag : Tag name is :”
                                + tag.getTagName() + ” \n Class is :”
                                + tag.getClass() + “\n Text is :”
                                + tag.getText());
                    } else if (tag instanceof TitleTag) {
                        logger.fatal(”visitTag() TitleTag : Tag name is :”
                                + tag.getTagName() + ” \n Class is :”
                                + tag.getClass() + “\n Text is :”
                                + tag.getText());
                    } else if (tag instanceof LinkTag) {
                        logger.fatal(”visitTag() LinkTag : Tag name is :”
                                + tag.getTagName() + ” \n Class is :”
                                + tag.getClass() + “\n Text is :”
                                + tag.getText() + ” \n getAttribute is :”
                                + tag.getAttribute(”href”));
                    } else {
                        logger.fatal(”visitTag() : Tag name is :”
                                + tag.getTagName() + ” \n Class is :”
                                + tag.getClass() + “\n Text is :”
                                + tag.getText());
                    }
                }
            };
            parser.visitAllNodesWith(visitor);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
    /*
     * 测试HtmlPage的用法
     */
    public void testHtmlPage() {
        String inputHTML = “<html>” + “<head>”
                + “<title>Welcome to the HTMLParser website</title>”
                + “</head>” + “<body>” + “Welcome to HTMLParser”
                + “<table id=’table1′ >”
                + “<tr><td>1-11</td><td>1-12</td><td>1-13</td>”
                + “<tr><td>1-21</td><td>1-22</td><td>1-23</td>”
                + “<tr><td>1-31</td><td>1-32</td><td>1-33</td></table>”
                + “<table id=’table2′ >”
                + “<tr><td>2-11</td><td>2-12</td><td>2-13</td>”
                + “<tr><td>2-21</td><td>2-22</td><td>2-23</td>”
                + “<tr><td>2-31</td><td>2-32</td><td>2-33</td></table>”
                + “</body>” + “</html>”;
        Parser parser = new Parser();
        try {
            parser.setInputHTML(inputHTML);
            parser.setEncoding(parser.getURL());
            HtmlPage page = new HtmlPage(parser);
            parser.visitAllNodesWith(page);
            logger.fatal(”testHtmlPage -title is :” + page.getTitle());
            NodeList list = page.getBody();
            for (NodeIterator iterator = list.elements(); iterator
                    .hasMoreNodes();) {
                Node node = iterator.nextNode();
                logger.fatal(”testHtmlPage -node  is :” + node.toHtml());
            }
        } catch (ParserException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }
    /*
     * 测试LinkBean的用法
     */
    public void testLinkBean() {
        Parser parser = new Parser();
        LinkBean linkBean = new LinkBean();
        linkBean.setURL(”http://www.google.com")/;
        URL[] urls = linkBean.getLinks();
        for (int i = 0; i < urls.length; i++) {
            URL url = urls[i];
            logger.fatal(”testLinkBean() -url  is :” + url);
        }
    }
}

5、相关的项目

nekohtml ：评价比htmlparser好，把html正规化标准的xml文档，用xerces处理，但文档较少。

mozilla htmlparser：http://www.dapper.net/网站采用的html解析器，开源了，基于mozilla的解析器，值得研究一下。

http://jerichohtml.sourceforge.net/

http://htmlcleaner.sourceforge.net/

http://html.xamjwg.org/cobra.jsp

http://jrex.mozdev.org/

https://xhtmlrenderer.dev.java.net/

其他一些html parser可以参考相关的汇总文章：

http://www.manageability.org/blog/stuff/screen-scraping-tools-written-in-java/view

http://java-source.net/open-source/html-parsers

http://www.open-open.com/30.htm

6、参考文档

http://www.blogjava.net/lostfire/archive/2006/07/02/56212.html

http://blog.csdn.net/scud/archive/2005/08/11/451397.aspx

http://chasethedevil.blogspot.com/2006/05/java-html-parsing-example-with.html

http://javaboutique.internet.com/tutorials/HTMLParser/

来自;http://allenj2ee.iteye.com/blog/222458

html5游戏引擎-Pharse.js学习笔记（一） 18520195858 游戏 javascript c/c++ViewUI
1.前言前几天随着flappybird这样的小游戏的火爆，使我这种也曾了解过html5技术的js业余爱好者也开始关注游戏开发。研究过两个个比较成熟的html5游戏引擎，感觉用引擎还是要方便一些。所以决定从今天正式开始研究html5游戏引擎，并且将从看官网demo的学习整理成博客和大家一起分享。我了解过cocos-2dforhtml5和phaser.js这两个引擎，其中前者比较复杂，对于有过coco
在linux环境下启动es,linux上Elasticsearch 安装配置、网页访问 guo桀在linux环境下启动es
一、ElasticSearch简述ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTfulweb接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。我们建立一个网站或应用程序，并要添加搜索功能
使用 HTML CSS 和 JAVASCRIPT 的黑洞动画谏君之 javascript css html javascript
使用HTMLCSS和JAVASCRIPT的黑洞动画BlackHoleAnimationbody{margin:0;overflow:hidden;background:radial-gradient(ellipseatcenter,black,#1a1a1a);height:100vh;display:flex;justify-content:center;align-items:center;}
对于简单的HTML、CSS、JavaScript前端，我们可以通过几种方式连接后端昨今前端 html css
1.使用FetchAPI发送HTTP请求（最简单的方式）：//home.html//示例：提交表单数据到后端constsubmitForm=async(formData)=>{try{constresponse=awaitfetch('http://your-backend-url/api/submit',{method:'POST',headers:{'Content-Type':'applic
高级前端工程师Vue面试题盼盼盼面试题前端前端
HTML/CSS1.解释HTML5中的元素及其用途。元素用于通过JavaScript绘制图形，比如图表、图像处理等。它提供了一个图形上下文，可以进行2D图形绘制。2.CSS中display:none和visibility:hidden有什么区别？display:none会将元素从文档流中完全移除，不占据空间。而visibility:hidden则元素依然占据空间，只是变得不可见。3.描述CSSFl
mac+CLion+redis6.2本地源码调试王冬的csdn redis redis
1.下载安装CLion下载地址：https://www.jetbrains.com.cn/clion/download/other.html安装过程自行百度2.下载redis源码gitclonehttp://github.com/redis/redis.git3.添加CMakeLists.txt文件1、\redis-6.2\cmake_minimum_required(VERSION3.0FATA
html5 判断长按操作,移动端h5模拟长按事件 weixin_39933414 html5 判断长按操作
1、标志位vartimer='';varisLongTouch=false;//加个标志位，防止settimeout因为事件循环和实际时间有偏差vartarget=document.getElementById('target');target.addEventListener('touchstart',function(){timer=setTimeout(function(){isLongTo
electron-vue 安装环境、构建+打包（mac和windows）这一篇就够了阿毛sky electron vue 前端
由于公司需要，下一个项目需要做CS开发，技术选型分析后，选择了electron（Electron是一个使用JavaScript,HTML和CSS等Web技术创建原生程序的框架）研究发现，electron与vue-cli3.0脚手架做了很好的融合，对于我们这种用惯了vue，以及elementUI这些UI框架的Web前端开发工程师来说，实在太友好了，不过，这是一门国外框架技术，不仅是环境搭建、安装、文
【Spring：Caused by java.lang.ClassNotFoundException 】 m0_74823490 面试学习路线阿里巴巴 java spring tomcat
Spring：Causedby:java.lang.ClassNotFoundException:org.springframework.dao.support.DaoSupportSpring中使用Mybatis连接数据库时可能会出现以上错误，但是当出现以上错误时说明你在applicationContext.xml文件中所做的相关操作：spring整合myBATis后控制的创建连接用的对象加载M
nodejs：express + js-mdict 网页查询英汉词典，能播放声音 belldeep nodejs web服务 nodejs express js-mdict
向DeepSeekR1提问：我想写一个Web前端网页，后台用nodejs+js-mdict,实现在线查询英语单词1.项目结构首先，创建一个项目目录，结构如下：mydict-app/├──public/│├──index.html│├──styles.css│└──script.js├──server/│└──server.js├──package.json└──README.md英汉词典文件（*.
nodejs：express + js-mdict 网页查询英汉词典，能显示图片 belldeep nodejs javascript nodejs javascript js-mdict express
向DeepSeekR1提问：我想写一个Web前端网页，后台用nodejs+js-mdict,实现在线查询英语单词，并能显示图片1.项目结构首先，创建一个项目目录，结构如下：mydict-app/├──public/│├──index.html│├──styles.css│└──script.js├──server/│└──server.js├──package.json└──README.md英汉
使用JavaScript设计一款简单的数字时钟布啦啦李 javascript 时钟
本文目录使用JavaScript设计一款带日期显示的数字时钟效果预览1.项目概述2.HTML结构代码说明3.CSS样式代码说明4.JavaScript逻辑代码说明5.运行效果使用JavaScript设计一款带日期显示的数字时钟本文将详细介绍如何使用HTML、CSS和JavaScript设计一款带日期显示的数字时钟。我们将逐步讲解每一行代码的作用，帮助你理解如何实现一个实时更新的时钟，并扩展功能以显
【Python实用技巧】爬取数据保存到Excel中「已注销」 python python 爬虫开发语言
嗨嗨，大家好~今天来给你们分享一个小技巧如何用python爬取数据保存到Excel中话不多说，马上开始需要源码、教程，或者是自己有关python不懂的问题，都可以来这里哦https://jq.qq.com/?_wv=1027&k=s5bZE0K3这里还有学习资料与免费课程领取开发工具Python版本：3.6相关模块：importrequestsfromlxmlimportetreeimportti
Python爬取小说保存为Excel 不知所云975 python
本代码以实际案例介绍，爬取‘笔趣阁最新小说‘列表保存为表格文件。类封装以及网络爬虫以及openpyxl模块可以参考学习。#更新小说目录importrequestsfromlxmlimportetreeimportopenpyxlfromopenpyxl.stylesimportFont,Alignment,Side,Border,PatternFill#定义下载表格的类classDown_exce
Java API文档使用指南与详解 Kay Lam
本文还有配套的精品资源，点击获取简介：JavaAPI文档是Java开发者的权威参考资料，详细描述了Java标准库中的所有公开组件，涵盖了I/O、网络编程、多线程、集合框架、数据库连接（JDBC）、XML处理、图形用户界面（GUI）等多个领域。文档提供清晰的指南帮助理解并使用Java的功能，包含每个类或接口的详细注释、使用示例和常见用途。此外，还介绍了JDK6版本的中文离线文档CHM文件及其下载方式
python爬取天眼查存入excel表格_python爬取企查查江苏企业信息生成excel表格吴寿鹤
1.前期准备具体请查看上一篇2.准备库requests,BeautifulSoup,xlwt,lxml1.BeautifulSoup：是专业的网页爬取库，方便抓取网页信息2.xlwt：生成excel表格3.lxml：xml解析库3.具体思路企查查网站具有一定的反爬机制，直接爬取会受到网站阻拦，所以我们需要模拟浏览器请求，绕过反爬机制，打开企查查网站，获取cookie及一系列请求头文件，然后使用Be
19.4 集成Spring MVC-《SSM深入解析与项目实战》谙忆 SSM项目实战
19.4集成SpringMVC-《SSM深入解析与项目实战》项目中所有的源码都可以在此链接的仓库中找到：https://github.com/chenhaoxiang/uifuture-ssm文章目录19.4集成SpringMVC27：Freemarker依赖application-mvc.xml文件web.xml文件内容web.xml做了什么index.ftl配置方法跳转页面19.4集成Spri
android listpreference 自定义,android – 自定义布局ListPreference 呼呼啦啦就瘸了 android listpreference 自定义
在您的preference.xml文件中,您可以通过类的全名来引用自定义ListPreference,即com.example.MyPreferenceandroid:key="pref_wifi_key"android:title="@string/settings">android:key="pref_wifi_remove"android:title="@string/remove_wifi
Android Preference隐藏,删除方式码点 android framwork Android底层知识 android java apache
在Android系统开发中，经常需要去掉或者隐藏原生设置的一些条目。一、隐藏Preference方法@VisibleForTestingstaticfinalStringENABLE="enable";Preferenceenable=findPreference(ENABLE);enable.setVisible(false);R.xml.main&l
shrio反序列化分析红队蓝军 java 开发语言安全
shiro550环境搭建https://codeload.github.com/apache/shiro/zip/shiro-root-1.2.4配置pom.xmljavax.servletjstlruntimejavax.servletservlet-apiprovidedorg.slf4jslf4j-log4j12runtimelog4jlog4jruntimenet.sourceforge.
DPlayer + vue3 使用是晓周哦 javascript vue.js 前端视频 typescript
帮助文档https://dplayer.diygod.dev/zh/guide.html#special-thanks安装pnpminstalldplayer--savepnpminstall@types/dplayer--save-dev使用方法import{ref,onMounted,onBeforeUnmount}from'vue';importDPlayerfrom'dplayer';im
前端为什么要使用new Promise包裹一个函数没资格抱怨 JS核心前端 javascript
在前端开发中，使用newPromise包裹一个函数主要是为了将原本不支持Promise规范的操作转化为支持Promise规范的操作，从而可以更好地处理异步操作，提升代码的可读性和可维护性。下面详细介绍这么做的常见原因和应用场景：1.封装回调风格的异步操作在JavaScript中，早期的异步操作（如setTimeout、XMLHttpRequest等）通常使用回调函数来处理结果。这种方式容易导致回调
Bootstrap4 信息提示框 lsx202406 开发语言
Bootstrap4信息提示框Bootstrap是一个流行的前端框架，它提供了一系列的工具和组件来帮助开发者快速搭建响应式网站。在Bootstrap4中，信息提示框（Tooltip）是一个非常有用的组件，它可以帮助用户更好地理解页面上的元素。本文将详细介绍Bootstrap4的信息提示框组件，包括其基本用法、配置选项以及与实际应用的结合。一、基本用法1.1HTML结构要使用Bootstrap4的信
i510300h和i78750h参数对比哪个好妙龙笔记本
i510300H是笔记本平台的标准电压处理器，为四核心八线程，主频2.5GHz，睿频4.5GHz，45WTDP，8M三级缓存，passmark跑分为9026分。我的笔记本就是活动时8折抢购的https://list.jd.com/list.html?i7-8750H的规格是6核心12线程，coffcelake架构，主频2.2GHz，单核最大睿频4.1GHz，六核最大睿频3.9GHz，L3缓存9MB
腾讯云通过API怎样调用deepseek ZhangJiQun&MXP 2024大模型以及算力教学智能合约语言模型人工智能自然语言处理深度学习
腾讯云通过API怎样调用deepseek目录腾讯云通过API怎样调用deepseekhtml方式curl方式重点说明：不需要SK，仅仅使用ip和端口号html方式<metacharset=
Pinia入门 qincjun 前端学习指南 pinia
一、铺垫pinia官网：https://pinia.vuejs.org/zh/getting-started.html以下的内容全部来自官网；只不过有时候访问官网上不去；只能自己扒下来；pinia的前端使用非常简单；只需要掌握几个步骤就可以二、套路1.用你喜欢的包管理器安装pinia：yarnaddpinia#或者使用npmnpminstallpinia2.创建一个pinia实例(根store)并
前端框架Vue内容回顾 GISer_Jinger Javascript Vue 前端框架 vue.js 前端
前端面试Vue必备内容详解如果你正在准备Vue相关的前端面试，这份详细指南将帮助你掌握Vue核心知识，助你高效备战面试。1.Vue基础知识1.1Vue的核心概念声明式渲染：Vue采用数据驱动视图的方式，通过{{}}语法或v-bind绑定数据，无需手动操作DOM。组件化开发：Vue提供了单文件组件（SFC），支持HTML、CSS、JS组合在.vue文件中，提高代码复用性和可维护性。数据驱动：Vue采
【工具使用】小白入门idea插件开发问道飞鱼开发工具知识 intellij-idea java ide
文章目录开发流程**一、开发环境准备****二、创建插件项目****三、插件核心配置（plugin.xml）****四、编写插件功能****1.实现Action（动作）****2.使用扩展点（Extensions）****3.界面开发****五、调试与运行****六、打包与发布****1.生成JAR包****2.发布到JetBrains插件市场****3.本地安装****七、核心概念与API***
python自动化框架pytest_全功能Python测试框架：pytest weixin_39637646
python通用测试框架大多数人用的是unittest+HTMLTestRunner，这段时间看到了pytest文档，发现这个框架和丰富的plugins很好用，所以来学习下pytest.image.pngpytest是一个非常成熟的全功能的Python测试框架，主要有以下几个特点：简单灵活，容易上手支持参数化能够支持简单的单元测试和复杂的功能测试，还可以用来做selenium/appnium等自动
print不起作用 pytest_全功能Python测试框架：pytest 吕欲知 print不起作用 pytest
python通用测试框架大多数人用的是unittest+HTMLTestRunner，这段时间看到了pytest文档，发现这个框架和丰富的plugins很好用，所以来学习下pytest.pytest是一个非常成熟的全功能的Python测试框架，主要有以下几个特点：简单灵活，容易上手支持参数化能够支持简单的单元测试和复杂的功能测试，还可以用来做selenium/appnium等自动化测试、接口自动化
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr

三、htmlparser使用指南

1、htmlparser对html页面处理的数据结构

2、htmlparser对html页面处理的算法

3、htmlparser关键包结构说明

3.1、org.htmlparser

3.2、org.htmlparser.beans

3.3、org.htmlparser.nodes

3.4、org.htmlparser.tags

3.5、org.htmlparser.filters

3.6、org.htmlparser.visitors

3.7、org.htmlparser.parserapplications

3.8、org.htmlparser.tests

4、htmlparser的使用样例

5、相关的项目

6、参考文档

你可能感兴趣的:(html,xml,搜索引擎,HtmlParser)