requests、xpath解析总结

什么是XPath?

XPath即为XML路径语言(XML Path Language),它是一种用来在XML文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行搜索,同样也适用于HTML。

什么是XML?

  • XML 是一种标记语言,很类似 HTML
  • XML 的设计宗旨是传输数据,而非显示数据
  • XML 的标签需要我们自行定义。

基本用法
简单实例
使用requests中的get方法得到一个Response对象,然后分别输出Response的类型,状态码,响应体的类型,内容以及Cookies

import requests

r = requests.get("https://www.baidu.com")   #使用get方法模拟浏览器请求发起过程
print(type(r))
print(r.status_code)
print(type(t.text)
print(r.text)
print(r.cookies)

它的返回类型是:requests.models.Response
响应体的类型是:str
Cookies的类型是:RequestsCookieJar

requests的其他请求类型(一句话实现)

r = requests.post(“http://httpbin.org/post”)
r = requests.put(“http://httpbin.org/put”)
r = requests.delete(“http://httpbin.org/delete”)
r = requests.head(“http://httpbin.org/head”)
r = requests.options(“http://httpbin.org/options”)

获取Cookies

import requests
r = requests.get(“https://www.baidu.com”)
print(r.cookies)
for key,value in r.cookies.items():
print(key + “=” + value)

xpath语法

nodename 选取此节点的所有子节点。
/ 从当前节点选取直接子节点
// 从当前节点选择文档中的节点,而不考虑它们的位置。
. 选取当前节点。
… 选取当前节点的父节点。
@ 选取属性。
//title | //price 选取文档中的所有 title 和 price 元素。

代理设置

  • proxies参数

import requests
proxies = {
“http” : “http://10.10.1.10:3128”,
“https” : “http://10.10.1.10:1080”,
}
requests.get(“https://www.taobao.com”,proxies = proxies)

若要使用HTTP Basice Auth,使用类似

http://user:password@host:port

这样的语法来设置代理

import requests
proxies = {
“http”:“http://user:[email protected]:3318/”,
}
requests.get(“https://www.taobao.com”,proxies = proxies)

你可能感兴趣的:(requests、xpath解析总结)