有用的XPath表达式

$x('//p')
$x('//a')
$x('//div//a')
$x('//a/@href')
$x('//a/text()')

第一个 选择所有元素

第二个 选择所有链接

第三个 访问链接中的href

第五个 文本

$x('//div/*')

访问所有元素

$x('//a[contains(@href,"iana")]')
$x('//a[starts-with(@href,"http://wwww.")]')
$x('//a[not(contains(@href,"abc"))]')

高级应用

//*[contains(@class,"ltr") and contains(@class,"skin-vector")]//h1//text()

class属性包含ltr 和 skinector的元素

//div[@id="toc"]/ul//a/@href

获取id为 toc的div标签内的无需列表(ul)中的所有链接的url

//table[@class="infobox"]//img[1]/@src

选择table属性之为“infobox”的表格中第一章图片的url 

//div[starts-with(@class,"reflist")]//a/@href
//*[text()="References"]/../following-sibling::div//a

选择子元素包含文本 refer 的元素之后的div元素中所有链接的url

//img/@src

获取页面中每张图片的URL

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(爬虫)