基于htmlparser实现网页内容解析

网页解析，即程序自动分析网页内容、获取信息，从而进一步处理信息。

网页解析是实现网络爬虫中不可缺少而且十分重要的一环，由于本人经验也很有限，我仅就我们团队开发基于关键词匹配和模板匹配的主题爬虫的经验谈谈如何实现网页解析。

首先，必须说在最前的是我们使用的工具——htmlparser

简要地说，htmlparser包提供方便、简洁的处理html文件的方法，它将html页面中的标签按树形结构解析成一个一个结点，一种类型的结点对应一个类，通过调用其方法可以轻松地访问标签中的内容。

我所使用的是htmlparser2.0，也就是最新版本。强烈推荐。

好，进入正题。

对于主题爬虫，它的功能就是将与主题相关的网页下载到本地，将网页的相关信息存入数据库。

网页解析模块要实现两大功能：1.从页面中提取出子链接，加入到爬取url队列中；2.解析网页内容，与主题进行相关度计算。

由于网页内容解析需要频繁地访问网页文件，如果通过url访问网络获取文件的时间开销比较大，所以我们的做法是将爬取队列中的网页统统下载到本地，对本地的网页文件进行页面内容解析，最后删除不匹配的网页。而子链接的提取比较简单，通过网络获取页面文件即可。对于给定url通过网络访问网页，和给定文件路径访问本地网页文件，htmlparser都是支持的！

1.子链接的提取：

做页面子链接提取的基本思路是：

1.用被提取的网页的url实例化一个Parser

2.实例化Filter，设置页面过滤条件——只获取<a>标签与<frame>标签的内容

3.用Parser提取页面中所有通过Filter的结点，得到NodeList

4.遍历NodeList，调用Node的相应方法得到其中的链接，加入子链接的集合

5.返回子链接集合

OK，上代码：

 1 package Crawler;

 2 

 3 

 4 import java.util.HashSet;

 5 import java.util.Set;

 6 

 7 import org.htmlparser.Node;

 8 import org.htmlparser.NodeFilter;

 9 import org.htmlparser.Parser;

10 import org.htmlparser.filters.NodeClassFilter;

11 import org.htmlparser.filters.OrFilter;

12 import org.htmlparser.tags.LinkTag;

13 import org.htmlparser.util.NodeList;

14 import org.htmlparser.util.ParserException;

15 

16 public class HtmlLinkParser {

17     //获取子链接，url为网页url，filter是链接过滤器，返回该页面子链接的HashSet

18     public static Set<String> extracLinks(String url, LinkFilter filter) {

19 

20         Set<String> links = new HashSet<String>();

21         try {

22             Parser parser = new Parser(url);

23             parser.setEncoding("utf-8");

24             // 过滤 <frame >标签的 filter，用来提取 frame 标签里的 src 属性所表示的链接

25             NodeFilter frameFilter = new NodeFilter() {

26                 public boolean accept(Node node) {

27                     if (node.getText().startsWith("frame src=")) {

28                         return true;

29                     } else {

30                         return false;

31                     }

32                 }

33             };

34             // OrFilter 接受<a>标签或<frame>标签，注意NodeClassFilter()可用来过滤一类标签，linkTag对应<标签>

35             OrFilter linkFilter = new OrFilter(new NodeClassFilter(

36                     LinkTag.class), frameFilter);

37             // 得到所有经过过滤的标签，结果为NodeList

38             NodeList list = parser.extractAllNodesThatMatch(linkFilter);

39             for (int i = 0; i < list.size(); i++) {

40                 Node tag = list.elementAt(i);

41                 if (tag instanceof LinkTag)// <a> 标签

42                 {

43                     LinkTag link = (LinkTag) tag;

44                     String linkUrl = link.getLink();// 调用getLink()方法得到<a>标签中的链接

45                     if (filter.accept(linkUrl))//将符合filter过滤条件的链接加入链接表

46                         links.add(linkUrl);

47                 } else{// <frame> 标签

48                     // 提取 frame 里 src 属性的链接如 <frame src="test.html"/>

49                     String frame = tag.getText();

50                     int start = frame.indexOf("src=");

51                     frame = frame.substring(start);

52                     int end = frame.indexOf(" ");

53                     if (end == -1)

54                         end = frame.indexOf(">");

55                     String frameUrl = frame.substring(5, end - 1);

56                     if (filter.accept(frameUrl))

57                         links.add(frameUrl);

58                 }

59             }

60         } catch (ParserException e) {//捕捉parser的异常

61             e.printStackTrace();

62         }

63         return links;

64     }

65 }

此时可能有读者在想：呵~呵~博主忽略了相对url链接的问题了(-.-)

其实我想到了，一开始我写了一个private方法专门把任何url转换成绝对url链接。后来调试的时候我发现我的方法根本没用，因为htmlparser很人性化地自动完成了这个转换！

另外，Parser是需要设置编码的，在这段程序中我直接设置为utf-8。实际上网页的编码方式是多种多样的，在<meta>标签中有关于编码方式的信息，如果编码不正确，页面的文本内容可能是乱码。不过，在子链接提取的部分，我们仅对标签内部的内容进行处理，这些内容是根据html语法编写的，不涉及编码的问题。

2.解析网页内容：

基本思路：

1.读取html文件，获得页面编码，获得String格式的文件内容

2.用页面编码实例化html文件的Parser

3.对需要提取的结点设置相应的Filter

4.根据给定的Filter，用Parser解析html文件

5.提取结点中的文本内容，进行处理（本例中是关键字匹配，计算主题相关度）

  1 import java.io.BufferedReader;

  2 import java.io.FileInputStream;

  3 import java.io.FileNotFoundException;

  4 import java.io.FileReader;

  5 import java.io.IOException;

  6 import java.io.InputStreamReader;

  7 import java.util.regex.Matcher;

  8 import java.util.regex.Pattern;

  9 

 10 import org.htmlparser.Parser;

 11 import org.htmlparser.filters.NodeClassFilter;

 12 import org.htmlparser.tags.HeadingTag;

 13 import org.htmlparser.tags.LinkTag;

 14 import org.htmlparser.tags.MetaTag;

 15 import org.htmlparser.tags.ParagraphTag;

 16 import org.htmlparser.tags.TitleTag;

 17 import org.htmlparser.util.NodeList;

 18 import org.htmlparser.util.ParserException;

 19 

 20 import java.util.Set;

 21 import multi.patt.match.ac.*;

 22 

 23 public class HtmlFileParser {

 24     String filepath=new String();//html文件路径

 25     private static String[] keyWords;//关键词列表

 26     /*static{

 27         keyWords=read("filePath");//从指定文件中读取关键词列表

 28     }*/

 29     public HtmlFileParser(String filepath){

 30         this.filepath=filepath;

 31     }

 32     public String getTitle(){//得到页面标题

 33         FileAndEnc fae=readHtmlFile();

 34         int i=0;

 35         try{

 36             //实例化一个本地html文件的Parser

 37             Parser titleParser = Parser.createParser(fae.getFile(),fae.getEnc());

 38             NodeClassFilter titleFilter =new NodeClassFilter(TitleTag.class);

 39             NodeList titleList = titleParser.extractAllNodesThatMatch(titleFilter);

 40             //实际上一个网页应该只有一个<title>标签，但extractAllNodesThatMatch方法返回的只能是一个NodeList

 41             for (i = 0; i < titleList.size(); i++) {

 42                 TitleTag title_tag = (TitleTag) titleList.elementAt(i);

 43                 return title_tag.getTitle();

 44             }

 45         }catch(ParserException e) {

 46             return null;

 47         }

 48         return null;

 49     }

 50     public String getEncoding(){//获得页面编码

 51         FileAndEnc fae=readHtmlFile();

 52         return fae.getEnc();

 53     }

 54     public float getRelatGrade(){//计算网页的主题相关度

 55         FileAndEnc fae=readHtmlFile();

 56         String file=fae.getFile();

 57         String enC=fae.getEnc();

 58         String curString;

 59         int curWordWei = 1;//当前关键词权重

 60         float curTagWei = 0;//当前标签权重

 61         float totalGra = 0;//总相关度分

 62         int i;

 63         AcApply obj = new AcApply();//实例化ac自动机

 64         Pattern p = null;

 65         Matcher m = null;

 66         try{//根据不同标签依次进行相关度计算

 67             //title tag    <title>

 68             curTagWei=5;

 69             Parser titleParser = Parser.createParser(file,enC);

 70             NodeClassFilter titleFilter =new NodeClassFilter(TitleTag.class);

 71             NodeList titleList = titleParser.extractAllNodesThatMatch(titleFilter);

 72             for (i = 0; i < titleList.size(); i++) {

 73                 TitleTag titleTag=(TitleTag)titleList.elementAt(i);

 74                 curString=titleTag.getTitle();

 75                 Set result = obj.findWordsInArray(keyWords, curString);//ac自动机的方法返回匹配的词的表

 76                 totalGra=totalGra+result.size()*curTagWei;//计算相关度

 77             }

 78             //meta tag of description and keyword <meta>

 79             curTagWei=4;

 80             Parser metaParser = Parser.createParser(file,enC);

 81             NodeClassFilter metaFilter =new NodeClassFilter(MetaTag.class);

 82             NodeList metaList = metaParser.extractAllNodesThatMatch(metaFilter);

 83             p = Pattern.compile("\\b(description|keywords)\\b",Pattern.CASE_INSENSITIVE);

 84             for (i = 0; i < metaList.size(); i++) {

 85                 MetaTag metaTag=(MetaTag)metaList.elementAt(i);

 86                 curString=metaTag.getMetaTagName();

 87                 if(curString==null){

 88                     continue;

 89                 }

 90                 m = p.matcher(curString); //正则匹配name是description或keyword的<meta>标签

 91                 if(m.find()){

 92                     curString=metaTag.getMetaContent();//提取其content

 93                     Set result = obj.findWordsInArray(keyWords, curString);

 94                     totalGra=totalGra+result.size()*curTagWei;

 95                 }

 96                 else{

 97                     curString=metaTag.getMetaContent();

 98                     Set result = obj.findWordsInArray(keyWords, curString);

 99                     totalGra=totalGra+result.size()*2;

100                 }

101             }

102             //heading tag <h*>

103             curTagWei=3;

104             Parser headingParser = Parser.createParser(file,enC);

105             NodeClassFilter headingFilter =new NodeClassFilter(HeadingTag.class);

106             NodeList headingList = headingParser.extractAllNodesThatMatch(headingFilter);

107             for (i = 0; i < headingList.size(); i++) {

108                 HeadingTag headingTag=(HeadingTag)headingList.elementAt(i);

109                 curString=headingTag.toPlainTextString();//得到<h*>标签中的纯文本

110                 if(curString==null){

111                     continue;

112                 }

113                 Set result = obj.findWordsInArray(keyWords, curString);

114                 totalGra=totalGra+result.size()*curTagWei;

115             }

116             //paragraph tag <p>

117             curTagWei=(float)2.5;

118             Parser paraParser = Parser.createParser(file,enC);

119             NodeClassFilter paraFilter =new NodeClassFilter(ParagraphTag.class);

120             NodeList paraList = paraParser.extractAllNodesThatMatch(paraFilter);

121             for (i = 0; i < paraList.size(); i++) {

122                 ParagraphTag paraTag=(ParagraphTag)paraList.elementAt(i);

123                 curString=paraTag.toPlainTextString();

124                 if(curString==null){

125                     continue;

126                 }

127                 Set result = obj.findWordsInArray(keyWords, curString);

128                 totalGra=totalGra+result.size()*curTagWei;

129             }

130             //link tag <a>

131             curTagWei=(float)0.25;

132             Parser linkParser = Parser.createParser(file,enC);

133             NodeClassFilter linkFilter =new NodeClassFilter(LinkTag.class);

134             NodeList linkList = linkParser.extractAllNodesThatMatch(linkFilter);

135             for (i = 0; i < linkList.size(); i++) {

136                 LinkTag linkTag=(LinkTag)linkList.elementAt(i);

137                 curString=linkTag.toPlainTextString();

138                 if(curString==null){

139                     continue;

140                 }

141                 Set result = obj.findWordsInArray(keyWords, curString);

142                 totalGra=totalGra+result.size()*curTagWei;

143             }        

144         }catch(ParserException e) {

145             return 0;

146         }

147         return totalGra;

148     }

149     private FileAndEnc readHtmlFile(){//读取html文件，返回字符串格式的文件与其编码

150         StringBuffer abstr = new StringBuffer();

151         FileAndEnc fae=new FileAndEnc();

152         try{

153             //实例化默认编码方式的BufferefReader

154             BufferedReader enCReader= new BufferedReader(new InputStreamReader(new FileInputStream(filepath),"UTF-8"));

155             String temp=null;

156             while((temp=enCReader.readLine())!=null){//得到字符串格式的文件

157                 abstr.append(temp);

158                 abstr.append("\r\n");

159             }

160             String result=abstr.toString();

161             fae.setFile(result);

162             String encoding=getEnc(result);

163             fae.setEnc(encoding);//得到页面编码

164             //根据得到的编码方式实例化BufferedReader

165             BufferedReader reader= new BufferedReader(new InputStreamReader(new FileInputStream(filepath),encoding));

166             StringBuffer abstrT = new StringBuffer();

167             while((temp=reader.readLine())!=null){

168                 abstrT.append(temp);

169                 abstrT.append("\r\n");

170             }

171             result=abstrT.toString();

172             fae.setFile(result);//得到真正的页面内容

173         } catch (FileNotFoundException e) {

174             System.out.println("file not found");

175             fae=null;

176         } catch (IOException e) {

177             // TODO Auto-generated catch block

178             e.printStackTrace();

179             fae=null;

180         } finally {

181             return fae;

182         }

183     }

184     private String getEnc(String file){//根据正则匹配得到页面编码

185         String enC="utf-8";

186         Pattern p = Pattern.compile("(charset|Charset|CHARSET)\\s*=\\s*\"?\\s*([-\\w]*?)[^-\\w]"); 

187         Matcher m = p.matcher(file);

188         if(m.find()){ 

189             enC=m.group(2);

190         }

191         return enC;

192     }

193 }

读者需要注意两点：

1.用BufferedReader读取文件是需要编码方式的，但是第一次读取我们必然不知道网页的编码。好在网页对于编码的描述在html语言框架中，我们用默认的编码方式读取文件就可以获取编码。但这个读取的文件的文本内容可能因为编码不正确而产生乱码，所以得到编码后，我们应使用得到的编码再实例化一个BufferedReader读取文件，这样得到的文件就是正确的了（除非网页本身给的编码就不对）。

获得正确的编码对于解析网页内容是非常重要的，而网络上什么样的网页都有，我推荐使用比较基础、可靠的方法获得编码，我使用的是正则匹配。

举个例子：

这是http://kb.cnblogs.com/page/143965/的对编码的描述：

<meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>

这是http://www.ucsd.edu/的对编码的描述：

<meta charset="utf-8"/>

2.不熟悉html的读者可能有所不知<meta>的作用，来看看博客园首页的源码：

<meta name="keywords" content="博客园,开发者,程序员,软件开发,编程,代码,极客,Developer,Programmer,Coder,Code,Coding,Greek,IT学习"/><meta name="description" content="博客园是面向程序员的高品质IT技术学习社区，是程序员学习成长的地方。博客园致力于为程序员打造一个优秀的互联网平台，帮助程序员学好IT技术，更好地用技术改变世界。" />

这两类<meta>标签的很好的描述了网页的内容

@编辑博客园首页这个keyword的内容里这“Greek”……极客是“Geek”，“Greek”是希腊人

3.由于网页的正文通常是一段最长的纯文本内容，所以当我们得到一个<p>,<li>,<ul>标签的纯文本后，我们可以通过判断字符串的长度来得到网页的正文。

对页面大量的信息进行处理是很费时的，页面的<title>标签和<meta>标签中往往有对网页内容最精炼的描述，开发者应该考虑性能与代价

好，我的经验就介绍完了。我还很菜，如有说的不对、讲得不好的地方望读者指正、提出建议！

简单的网页链接爬虫笑颜218 爬虫 python 简单
fromurllib.requestimporturlopenfromurllib.parseimporturljoinfromhtml.parserimportHTMLParser#自定义HTML解析器classLinkParser(HTMLParser):def__init__(self,base_url):super().__init__()self.base_url=base_url#基础
Kotlin/Java 实现 Html 转图片 zimoyin java kotlin html
1.Html2Imagegui.avahtml2image2.0.1StringHtmlTemplateStr="....";//HTMLHtmlParserhtmlParser=newHtmlParserImpl();htmlParser.loadHtml(HtmlTemplateStr);ImageRendererimageRenderer=newImageRendererImpl(htmlP
Python中的html.parser wangyangkobe Python
classWebPageParser(html.parser.HTMLParser):def__init__(self,strict=False):super().__init__(strict)self.urls=[]self.data=[]self.is_href=False;defhandle_starttag(self,tag,attrs):iftag=='a':self.urls.ext
lxml.etree.XMLSyntaxError解决方法 sjyOvO python
lxml.etree.XMLSyntaxError解决方法在练习lxml数据解析的时候，用parse方法加载本地的html文件时出现如下错误：lxml.etree.XMLSyntaxError:EntityRef:expecting‘;’,line2,column286原因：html代码书写不规范（不怪你）解决方法：parser=etree.HTMLParser(encoding='utf-8')
java parser乱码_HtmlParser 2.0 中文乱码问题福建低调 java parser乱码
对于HTMLParser2.0工具包我们需要修改其中的Page.java文件使其适用中文的html文件分析。主要是把protectedstaticfinalStringDEFAULT_CHARSET="ISO-8859-1"；修改成protectedstaticfinalStringDEFAULT_CHARSET="gb2312"；主要是兼容charset='GBK'声明的页面。--因为采用默认的
vue项目能正常启动但是打包报错小全upup vue.js 前端 javascript
项目执行npmrunserve/dev的图一点影响没有跑起来之后页面也非常的正常然后就来到了打包环境执行打包命令报这种错误-htmlparser.js:255HTMLParser.parse[mydemo]/[html-minifier-terser]/src/htmlparser.js:255:15-runMicrotasks-task_queues.js:95processTicksAndRe
itchat报错'HTMLParser' object has no attribute 'unescape'在python3.9 g9efwi8b
itchat里面有个地方经常报错,C:\Users\-username-\AppData\Local\Programs\Python\Python39\Lib\site-packages\itchat\utils.py的第70行d[k]=htmlParser.unescape(d[k])改为importhtmld[k]=html.unescape(d[k])这样就不容易报错了.
微信小程序中显示html富文本的方法大胡子的机器人
image.png使用方法：git地址：https://github.com/icindy/wxParse一、下载wxParse文件image.pngwxParse/-wxParse.js(必须存在)-html2json.js(必须存在)-htmlparser.js(必须存在)-showdown.js(必须存在)-wxDiscode.js(必须存在)-wxParse.wxml(必须存在)-wxPa
使用Jsoup解析html网页程序猿老王开发工具 html Jsoup
一、JSOUP简介在以往用java来处理解析HTML文档或者片段时，我们通常会采用htmlparser（http://htmlparser.sourceforge.net/）这个开源类库。现在我们有了JSOUP，以后的处理HTML的内容只需要使用JSOUP就已经足够了，JSOUP有更快的更新，更方便的API等。jsoup是一款Java的HTML解析器，可直接解析某个URL地址、HTML文本内容。它
Python的HTMLParser库的用法 weixin_30777913 Python Python HTMLParse
HTMLParser库的用法如果我们要编写一个搜索引擎，第一步是用爬虫把目标网站的页面抓下来，第二步就是解析该HTML页面，看看里面的内容到底是新闻、图片还是视频。假设第一步已经完成了，第二步应该如何解析HTML呢？HTML本质上是XML的子集，但是HTML的语法没有XML那么严格，所以不能用标准的DOM或SAX来解析HTML。好在Python提供了HTMLParser来非常方便地解析HTML，只
Vue3.4的新变化大鲤余 vue.js javascript 前端
解析器3.4版本解析器速度提升2倍，提高了SFC构建性能。之前版本Vue使用递归下降解析器，该解析器依赖于许多正则表达式和前瞻搜索。新的解析器使用基于htmlparser2中的标记生成器的状态机标记生成器，它仅迭代整个模板字符串一次。响应式上3.4还对响应式系统进行了重大重构，目标是提高计算属性的重新计算效率。constcount=ref(0)constisEven=computed(()=>co
Python的HTMLParser模块：HTML解析的得力工具小雨淋林 Python基础入门教程 python xml
在Python中，HTMLParser模块提供了一个简单而强大的HTML解析器，用于解析HTML文档并提取其中的信息。本篇博客将深入讨论HTMLParser模块，包括基本使用、自定义解析器的创建以及实际应用中的示例。1.HTMLParser模块概述HTMLParser模块是Python标准库中的一部分，提供了一个基于事件的HTML解析器。它继承自Python的SGMLParser类，用于将HTML
html.parser --- 简单的 HTML 和 XHTML 解析器知识的宝藏 python
源代码：Lib/html/parser.py这个模块定义了一个HTMLParser类，为HTML（超文本标记语言）和XHTML文本文件解析提供基础。classhtml.parser.HTMLParser(*,convert_charrefs=True)创建一个能解析无效标记的解析器实例。如果convert_charrefs为True(默认值)，则所有字符引用(script/style元素中的除外)
python 爬取本地的HTML中的数据并将其存储进Excel表格中是兔子不是tu子 python excel 开发语言
我有一个HTML文件保存在本地，我需要爬取里面的某些数据并将爬取到的部分数据存储进Excel表中我的解决思路如下：先爬取数据按照步长将数据分割成二维列表循环遍历将需要的数据存入Excel表中实现代码如下：#coding:utf-8fromlxmlimportetreeimportxlsxwriter#：载入模块#解析本地文件使用etree.parseparser=etree.HTMLParser(
2.爬虫之xpath选择器&selenium模块开局签到Python基础 9.爬虫爬虫 selenium python
1.xpath选择器1.1xpath介绍xpath:是一门在xml/html文档中查找信息的语句.安装:pipinstalllxml导入:fromlxmlimportetree生成对象:html=etree.HTML('html文档字符串')html=etree.parse('.html文件路径',etree.HTMLParser())1.2选取节点表达式查询节点:/:从根节点选取(值是一个对象)
02 数据解析 Ag刘晓婷
xpath//input[@id='search_input']//div/ul[@class='lg_tnav_wrap']/li[1]/a//div/ul[@class='lg_tnav_wrap']/li[1]/a[@*]lxmletreeparserfromlxmlimportetreehtml=etree.HTML(text)parser=etree.HTMLParser(encodin
python爬虫 NoNamePlus 普通学习笔记 python 爬虫开发语言
1.爬虫的基本流程用urllib或是requests库把网页的HTML代码拉到本地用HTMLParser，Xpath，BeautifulSoup等库解析HTML代码，找到想要的东西2.HTMLParser廖雪峰的网站看资料3.urllib廖雪峰的网站看资料4.requests菜鸟教程看资料#GET方法importrequestsHTML=requests.get("网址",headers={"Us
pycharm 切换 python3.9 报错 'HTMLParser' object has no attribute 'unescape' 解决程序员的一天
有的bug，莫名其妙就好了...python3.9报错"AttributeError:'HTMLParser'objecthasnoattribute'unescape'"异常分析解决。一、问题描述安装python3.9版本后，pycharm中切换python3.9版本，创建虚拟环境报错："AttributeError:'HTMLParser'objecthasnoattribute'unesca
怎么在html中使用less语言,Less.Html 示例五：使用方法详解潘儒锋
Less.Html示例五：使用方法详解0.从解析开始引入Less.Html的命名空间：usingLess.Html;调用静态类型HtmlParser的Parse方法：Documentdocument=HtmlParser.Parse(testHtml);返回的是HTMLDOM标准的文档对象，我只实现了常见的DOM方法，其实DOM方法的设计本身就有繁复的地方，这个以后再说。要方便地查找文档元素，还需
easyUi重新渲染 Night_zzz
狂野的小怪兽jqueryEasyui重新渲染转载:jQueryEasyUIparser的使用场景|WebUI框架使用参考+http://www.easyui.info/archives/216.htmlparser，故名意思，就是解析器的意思，别看他只有那么几行代码，jQueryEasyui能够根据class就能正常渲染页面全靠它了。一般情况下，我们并用不到解析器，本文主要讨论一下，什么情况下会用
输入 URL 到页面渲染的整个流程晓丽_c080
DNS解析TCP三次握手发送请求，分析url，设置请求报文(头，主体)服务器返回请求的文件(html)浏览器渲染HTMLparser-->DOMTree标记化算法，进行元素状态的标记dom树构建CSSparser-->StyleTree解析css代码，生成样式树attachment-->RenderTree结合dom树与style树，生成渲染树layout:布局GPUpainting:像素绘制页面
「三」浏览器中CSS 语法解析过程废柴码农
CSS语法解析过程1.在浏览器系列文章中，今天终点讲下CSS解析这块内容.我们已知浏览器的渲染流程中HTMLParser会生成DOM树，而CSSParser会将解析结果附加到DOM树上，如下图：image.png解析分为词法分析和语法分析。image.png词法分析，也是编译原理中的术语，从左到右一个字符一个字符的读入源程序，对字符流进行扫描，根据构词规则识别单词。这一过程可以使用lex等工具自动
(水印)html转图片 Peak_Gao java java
gui.avahtml2image2.0.1xml-apisxml-apis1.4.01"+"IP地址：127.0.0.1国家：AAA\n"+"省份：AAAA位置：XXXXXXX";HtmlParserhtmlParser=newHtmlParserImpl();htmlParser.loadHtml(htmlTemplate);ImageRendererimageRenderer=newImag
ios 常见问题解决 weixin_30706691 xcode 移动开发 c/c++
一，libxml/HTMLparser.hfilenotfind第一种方法：点击左边项目的根目录，再点击右边的BuildSettings，手工输入文字：“Headersearchpaths”，然后单击（或双击，点击弹出面板下面的“+”号进行添加）“Headersearchpaths”右边的空白处，输入：/usr/include/libxml2第二种方法：点击左边项目的根目录，再点击右边的Build
java爬虫爬取百度图片_Java实现爬取百度图片的方法分析 weixin_39552768 java爬虫爬取百度图片
本文实例讲述了Java实现爬取百度图片的方法。分享给大家供大家参考，具体如下：在以往用java来处理解析HTML文档或者片段时，我们通常会采用htmlparser(http://htmlparser.sourceforge.net/)这个开源类库。现在我们有了JSOUP，以后的处理HTML的内容只需要使用JSOUP就已经足够了，JSOUP有更快的更新，更方便的API等。jsoup是一款Java的H
浏览器渲染页面的大致过程路人丁0417
[图片上传失败...(image-735179-1630336184679)]渲染引擎启动html解释器(htmlParser)解析html源码，根据DOMAPI创建domtree，Browser进程并行下载网络资源(css/image/js...)。在dom树中，每个html标签都有一个对应的节点，每个文本也有对应的文本节点，根节点就是documentElement,对应的是html节点。当遇到
python调用html数据_Python读取HTML页面柒八酒 python调用html数据
有一个类库叫作beautifulsoup。使用这个库，可以搜索html标签的值，并获取页面标题和页面标题列表等特定数据。安装Beautifulsoup使用Anaconda软件包管理器安装所需的软件包及其相关软件包。condainstallBeaustifulsoap读取HTML文件在下面的例子中，我们请求一个url被加载到python环境中。然后使用htmlparser参数来读取整个html文件。
Python调用Halcon踩坑记录唐浅浅 Python python
原配置为：PyCharm2019.1+Python3.71.使用python3.7.2安装mvtec-halcon提示找不到合适版本查看HalconPyhton接口使用文档，Python需要3.8版本以上2.安装最新的Python版本安装Python3.9，使用PyCharm切换python3.9报错‘HTMLParser‘objecthasnoattribute‘unescape‘查看官网pyt
数据处理之XPATH提取数据--------常用方法西红市杰出青年 python 大数据开发语言
**etree数据处理之XPATH提取数据--------常用方法**parser=etree.HTMLParser(encoding=‘utf-8’)html=etree.parse(‘A000000_table.html’,parser=parser)/AAA绝对路径表示必须以AAA开头print(html.xpath(‘/html’)[0])/AAA/BBB选择AAA下面的所有BBB元素但是
Python爬虫：HTML网页解析方法小结 Python程序员小泉 python 编程 python入门 python 爬虫 python入门 python开发
要理解python是如何解析网页的，首先要理解什么是网页解析器。简单的说就是用来解析html网页的工具，准确的说：它是一个HTML网页信息提取工具，就是从html网页中解析提取出“我们需要的有价值的数据”或者“新的URL链接”的工具。解析HTML：层次化的数据有多个解析HTML的第三方库，例如：LXML，BeautifulSoup，HTMLParser等等。解析HTML面临的问题：没有统一的标准、
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后

基于htmlparser实现网页内容解析

你可能感兴趣的:(HtmlParser)