代码
import urllib.request
url = 'https://www.baidu.com/'
headers = {'User-Agent':
'此内容仅截取部分作为演示Mozilla/5.0 (Windows NT 10.0; Win64; x64)'
}
# 请求对象的定制
request = urllib.request.Request(url=url, headers=headers)
# 模拟浏览器访问服务器
response = urllib.request.urlopen(request)
# 获取网页源码
content = response.read().decode('utf-8')
# 解析网页源码,获取想要的数据
from lxml import etree
# 解析服务器相应的文件
tree = etree.HTML(content)
# 获取想要的数据 xpath的返回值是一个列表类型的数据
result = tree.xpath('//input[@id="su"]/@value')[0]
# 打印
print(result) # 百度一下
代码中数据如下图
(1)百度一下空白处右键检查,点击网络刷新,Name点击www.baidu.com,下拉UA
(2)xpath路径建议使用谷歌浏览器拓展程序XPath Helper
(3)如图query(查询): //input[@id="su"]/@value