使用Xpath语法
看前端一组HTML内容:
页面信息
htm = """
"""
我们试一下 lxml 中etree
import requests
from lxml import etree
# 使用HTML()方法 初始化etree
selector = etree.HTML(htm)
print(selector)
先看一下是什么
<Element html at 0x11f0b48>
没关系,看着像是被折叠了,我们打开看一下
for i in selector:
for j in i:
for k in j:
for l in k:
print(l)
<Element li at 0x3ba3a80>
<Element li at 0x3ba3aa8>
<Element li at 0x3ba3878>
<Element li at 0x3ba3a80>
<Element li at 0x3ba3aa8>
<Element li at 0x3ba3878>
看着可以一步步打开折叠的内容
我们同样可以是用xpath来解析它。
li = selector.xpath('//div/ul/li')
print(li)
[<Element li at 0x39f3f30>, <Element li at 0x39f3f08>, <Element li at 0x39f3ee0>, <Element li at 0x39f3eb8>, <Element li at 0x39f3e90>, <Element li at 0x39f3be8>]
下边只要读取文本格式,就可以获取文字信息了。
for i in li:
print(i.text)
第一
第二
第三
第四
第五
第六
这样,我们python爬虫爬取图片信息就完了。
能跑得动的,记得点个赞呗。
后期会有其他方法更新,关注一波呗