xPath

url.parse :定义了url的标准接口，实现url的各种抽取parse模块的使用：url的解析，合并，编码，解码

使用时需导入

fromurllibimportparse

urlparse()实现URL的识别和分段

url ='https://book.qidian.com/info/1004608738?wd=123&page=20#Catalog'"""

url：待解析的url

scheme=''：假如解析的url没有协议,可以设置默认的协议,如果url有协议，设置此参数无效

allow_fragments=True：是否忽略锚点,默认为True表示不忽略,为False表示忽略

"""result = parse.urlparse(url=url,scheme='http',allow_fragments=True)print(result)print(result.scheme)"""

(scheme='https', netloc='book.qidian.com', path='/info/1004608738', params='', query='wd=123&page=20', fragment='Catalog')

scheme:表示协议

netloc:域名

path:路径

params:参数

query:查询条件，一般都是get请求的url

fragment:锚点，用于直接定位页

面的下拉位置，跳转到网页的指定位置

"""

urlunparse()可以实现URL的构造

url_parmas = ('https','book.qidian.com','/info/1004608738','','wd=123&page=20','Catalog')components:是一个可迭代对象，长度必须为6result = parse.urlunparse(url_parmas)print(result)"""

https://book.qidian.com/info/1004608738wd=123&page=20#Catalog

"""

urljoin()传递一个基础链接,根据基础链接可以将某一个不完整的链接拼接为一个完整链接

base_url ='https://book.qidian.com/info/1004608738?wd=123&page=20#Catalog'sub_url ='/info/100861102'full_url = parse.urljoin(base_url,sub_url)print(full_url)

urlencode()将字典构形式的参数序列化为url编码后的字符串（常用来构造get请求和post请求的参数）k1=v1&k2=v2

parmas = {'wd':'123','page':20}parmas_str = parse.urlencode(parmas)print(parmas_str)"""

page=20&wd=123

"""

parse_qs()将url编码格式的参数反序列化为字典类型

parmas_str ='page=20&wd=123'parmas = parse.parse_qs(parmas_str)print(parmas)"""

{'page': ['20'], 'wd': ['123']}

"""

quote()可以将中文转换为URL编码格式

word ='中国梦'url ='http://www.baidu.com/s?wd='+parse.quote(word)print(parse.quote(word))print(url)"""

%E4%B8%AD%E5%9B%BD%E6%A2%A6

http://www.baidu.com/s?wd=%E4%B8%AD%E5%9B%BD%E6%A2%A6

"""

unquote:可以将URL编码进行解码

url ='http://www.baidu.com/s?wd=%E4%B8%AD%E5%9B%BD%E6%A2%A6'print(parse.unquote(url))"""

http://www.baidu.com/s?wd=中国梦

"""

什么是XPath？

XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言，可用来在 XML 文档中对元素和属性进行遍历。

什么是XML?

XML 指可扩展标记语言（EXtensible Markup Language）

XML 是一种标记语言，很类似 HTML

XML 的设计宗旨是传输数据，而非显示数据

XML 的标签需要我们自行定义。

XML 被设计为具有自我描述性。

XML 是 W3C 的推荐标准

XML的节点关系 1. 父（Parent）每个元素以及属性都有一个父。

下面是一个简单的XML例子中，book 元素是 title、author、year 以及 price 元素的父：

Harry PotterJ K. Rowling200529.99

子（Children）元素节点可有零个、一个或多个子

在下面的例子中，title、author、year 以及 price 元素都是 book 元素的子：

Harry PotterJ K. Rowling200529.99

同胞（Sibling）拥有相同的父的节点

在下面的例子中，title、author、year 以及 price 元素都是同胞：

Harry PotterJ K. Rowling200529.99

先辈（Ancestor）某节点的父、父的父，等等。

在下面的例子中，title 元素的先辈是 book 元素和 bookstore 元素：

Harry PotterJ K. Rowling200529.99

后代（Descendant）某个节点的子，子的子，等等。

在下面的例子中，bookstore 的后代是 book、title、author、year 以及 price 元素：

Harry PotterJ K. Rowling2005

xPath

你可能感兴趣的:(xPath)