原文:【.NET】使用HtmlAgilityPack抓取网页数据
刚刚学习了XPath路径表达式,主要是对XML文档中的节点进行搜索,通过XPath表达式可以对XML文档中的节点位置进行快速定位和访问,html也是也是一种类似于xml的标记语言,但是语法没有那么严谨,在codeplex里有一个开源项目HtmlAgilityPack,提供了用XPath解析HTML文件,下面掩饰如何使用该类库的使用
首先说下XPath路径表达式
XPath路径表达式
用来选取XML文档中的节点或节点集的
1、术语:节点(Node):7种类型:元素,属性,文本,命名空间,处理命令,注释,文档(根)节点
2、节点关系:父(Parent),子(Children),同胞(Sibling),先辈(Ancestor),后代(Descendant)
3、路径表达式
nodename 节点名,选取此节点的所有子节点 例: childnode 当前节点中的childnode子节点,不包含孙子及以下的节点
/ 从根节点选取 例:/root/childnode/grandsonnode
// 表示所有后代节点 例://childnode 所有名为childnode的后代节点
. 表示当前节点 例: ./childnode 表示当前节点的childnode节点
.. 表示父节点 例: ../nearnode 表示父亲节点的nearnode子节点
@ 选取属性 /root/childnode/@id 表示childnode的所有含有id属性的节点集
4、谓语(Predicates)
谓语可以对节点集进行一些限制,使选择更精确
/root/book[1] 节点集中的第一个节点
/root/book[last()] 节点集中最后一个节点
/root/book[position() - 1] 节点集中倒数第二个节点集
/root/book[position() < 5] 节点集中前五个节点集
/root/book[@id] 节点集中含有属性id的节点集
/root/book[@id='chinese'] 节点集中id属性值为chinese的节点集
/root/book[price > 35]/title 节点集中book的price元素值大于35的title节点集
5、通配符:XPath路径中同样支持通配符(*,@*,node(), text())
例: /bookstore/*
//title[@*]
6、XPath轴
定义相对于当前节点的节点集
ancestor 所有祖先节点
attribute 所有属性节点
child 所有子元素
descendant 所有后代节点(子,孙。。。)
following 结束标记后的所有节点 preceding 开始标记前的所有节点
following-sibling 结束标记后的所有同胞节点
preceding-sibling 开始标记前的所有同胞节点
namespace 当前命名空间的所有节点
parent 父节点
self 当前节点
用法:轴名称::节点测试[谓语]
例: ancestor::book
child::text()
7、运算符
| 两个节点集的合并 例:/root/book[1] | /root/book[3]
+,-,*,dev,mod
=,!=,<,>,<=,>=
or,and 或和与
htmlDoc.DocumentNode.SelectNodes("//div[@ispublished='false' or @ispublished='False']");
//Xpath node selection - how to select 2 different elements - htmlagilitypack //选择两种不同标签的节点 string srxPathOfCategory = "//div[@class='breadcrumbs']//li[@class='product'] | //div[@class='breadcrumbs']//a";
//So for " or " just need to use " | "
//删除注释,script,style node.Descendants() .Where(n => n.Name == "script" || n.Name == "style" || n.Name=="#comment") .ToList().ForEach(n => n.Remove()); //遍历node节点的所有后代节点 foreach(var HtmlNode in node.Descendants()) { }
HtmlAgilityPack类库用法
1、首先需要获取到html页面数据,可以通过WebRequest类来获取
public static string GetHtmlStr(string url) { try { WebRequest rGet = WebRequest.Create(url); WebResponse rSet = rGet.GetResponse(); Stream s = rSet.GetResponseStream(); StreamReader reader = new StreamReader(s, Encoding.UTF8); return reader.ReadToEnd(); } catch (WebException) { //连接失败 return null; } }
2、通过HtmlDocument类加载html数据
string htmlstr = GetHtmlStr("http://www.hao123.com"); HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument(); doc.LoadHtml(htmlstr); HtmlNode rootnode = doc.DocumentNode; //XPath路径表达式,这里表示选取所有span节点中的font最后一个子节点,其中span节点的class属性值为num //根据网页的内容设置XPath路径表达式 string xpathstring = "//span[@class='num']/font[last()]"; HtmlNodeCollection aa = rootnode.SelectNodes(xpathstring); //所有找到的节点都是一个集合 if(aa != null) { string innertext = aa[0].InnerText; string color = aa[0].GetAttributeValue("color", ""); //获取color属性,第二个参数为默认值 //其他属性大家自己尝试 }
也可以通过HtmlWeb类来获得HtmlDocument
HtmlWeb web = new HtmlWeb(); HtmlAgilityPack.HtmlDocument doc = web.Load(url); HtmlNode rootnode = doc.DocumentNode;
补充:
多个属性条件查询 //div[@align='center' and @height='24']
不存在class属性 //div[not(@class)]
提取的时候需要判断是这个标签的class属性是否包含某个指定的属性值,google了一下(百度搜索没有相应的结果),利用Xpath的contains可以解决,代码如下:
1
2
3
4
5
6
7
8
|
//选择不包含class属性的节点
var result = node.SelectNodes(".//span[not(@class)]");
//选择不包含class和id属性的节点
var result = node.SelectNodes(".//span[not(@class) and not(@id)]");
//选择不包含class="expire"的span
var result = node.SelectNodes(".//span[not(contains(@class,'expire'))]");
//选择包含class="expire"的span
var result = node.SelectNodes(".//span[contains(@class,'expire')]");
|
另一种解析方式,假如我们需要根据div的class属性是否包含post值来提取div中的InnerText:
可以用以下方法来提取符合条件的所有HtmlNode节点
提取得到节点数据之后,根据实际处理即可。