一:回顾正则

find、rfind、replace

字符串处理函数只能处理固定的字符串 baby hello

不能处理一类字符串，通过正则表达式来进行处理

正则规则：

单字符：. [abc] \d \D \w \W \s \S

数量修饰： * + ? {m} {m,} {m,n}

边界修饰 ^ $ \b(词边界) \B（非词边界）

子模式 (.*)

贪婪模式

懒惰匹配 .*? .+?

修饰模式

re.S 单行模式 re.M 多行模式 re.I 忽略大小写

二:xpath(参考w3c)

语法：

【注】返回的是一个列表，列表中都是对象，你要记得通过下标进行筛选

什么是xml http://www.w3school.com.cn/xml/

什么是xpath

XPath 使用路径表达式在 XML 文档中进行导航

// 从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置

. 选取当前节点

@ 选取属性

打开谷歌浏览器，安装xpath插件，然后使用xpath插件按 ctrl + shift + x

属性定位：根据属性查找标签

层级定位：一级一级查找

索引定位：【注】下标从1开始--网上html

查找id是maincontent的div下面的h1节点

//div[@id="maincontent"]/h1

//div[@class="head_wrapper"]/div[@id="u"]/a[1]

逻辑运算 //div[@id="head" and @class="s_down"]

模糊匹配

查找所有的div，id中有he的div

//div[contains(@id, "he")]

查找所有的div，id中以he开头的div

//div[starts-with(@id, "he")]

查找所有的div，id中以he结尾的div

//div[ends-with(@id, "he")]

取文本

//div[@class="head_wrapper"]/div[@id="u"]/a[1]/text()

//div[@class="head_wrapper"]/div[@id="u"]/a[1]

obj.text 将内容获取到

取属性

//div[@class="head_wrapper"]/div[@id="u"]/a[1]/@href

安装模块 lxml库

这个库是解析html的库，主要就是解析和提取数据

pip切换为国内源

http://www.jb51.net/article/98401.htm

pip3 install lxml 安装好

【注】pip安装包的时候，要记得将fiddler关闭

*********************************************************************

三:程序中使用xpath

from lxml import etree

d_etree = etree.parse('本地html')

d_etree = etree.HTML('网上html字符串(也可以是字节类型)')

d_etree.xpath('xpath路径') 返回的是一个列表

获取到节点对象之后obj obj.xpath('xpath路径')

示例1:抓取站长素材部分高清图片

站长素材 http://sc.chinaz.com/

http://sc.chinaz.com/tag_tupian/OuMeiMeiNv.html

http://sc.chinaz.com/tag_tupian/OuMeiMeiNv_2.html

注意懒加载问题

示例2: 抓取糗事百科-文字【写入**.json】

https://www.qiushibaike.com/text/

注意url的拼接和etree对象的另外用法和除去换行

爬虫 xpath

一:回顾正则

二:xpath(参考w3c)

你可能感兴趣的:(爬虫 xpath)