python 爬虫 获取百度一下四个大字(解析数据)

代码

import urllib.request

url = 'https://www.baidu.com/'
headers = {'User-Agent':
               '此内容仅截取部分作为演示Mozilla/5.0 (Windows NT 10.0; Win64; x64)'
           }

# 请求对象的定制
request = urllib.request.Request(url=url, headers=headers)
# 模拟浏览器访问服务器
response = urllib.request.urlopen(request)
# 获取网页源码
content = response.read().decode('utf-8')


# 解析网页源码,获取想要的数据
from lxml import etree

# 解析服务器相应的文件
tree = etree.HTML(content)
# 获取想要的数据 xpath的返回值是一个列表类型的数据
result = tree.xpath('//input[@id="su"]/@value')[0]
# 打印
print(result)  # 百度一下

代码中数据如下图

(1)百度一下空白处右键检查,点击网络刷新,Name点击www.baidu.com,下拉UA

python 爬虫 获取百度一下四个大字(解析数据)_第1张图片 

(2)xpath路径建议使用谷歌浏览器拓展程序XPath Helper 

python 爬虫 获取百度一下四个大字(解析数据)_第2张图片 

(3)如图query(查询):        //input[@id="su"]/@value

python 爬虫 获取百度一下四个大字(解析数据)_第3张图片

你可能感兴趣的:(python,爬虫,开发语言,网络爬虫)