python 爬虫入门——xpath获取文本信息

使用Xpath语法

看前端一组HTML内容:

页面信息
htm = """

"""

我们试一下 lxml 中etree

import requests
from lxml import etree

# 使用HTML()方法  初始化etree
selector = etree.HTML(htm)
print(selector)

先看一下是什么

<Element html at 0x11f0b48>

没关系,看着像是被折叠了,我们打开看一下

for i in selector:
    for j in i:
        for k in j:
            for l in k:
                print(l)
<Element li at 0x3ba3a80>
<Element li at 0x3ba3aa8>
<Element li at 0x3ba3878>
<Element li at 0x3ba3a80>
<Element li at 0x3ba3aa8>
<Element li at 0x3ba3878>

看着可以一步步打开折叠的内容
我们同样可以是用xpath来解析它。

li = selector.xpath('//div/ul/li')
print(li)
[<Element li at 0x39f3f30>, <Element li at 0x39f3f08>, <Element li at 0x39f3ee0>, <Element li at 0x39f3eb8>, <Element li at 0x39f3e90>, <Element li at 0x39f3be8>]

下边只要读取文本格式,就可以获取文字信息了。

for i in li:
    print(i.text)
    
第一
第二
第三
第四
第五
第六

这样,我们python爬虫爬取图片信息就完了。

能跑得动的,记得点个赞呗。

后期会有其他方法更新,关注一波呗

你可能感兴趣的:(网络爬虫,大数据,python,python,xpath,大数据)