python爬虫:使用xpath和find两种方式分别实现使用requests_html库爬取网页中的内容

在此先感谢https://blog.csdn.net/weixin_43790560/article/details/86617630这位博主,详细的过程,收益匪浅

这几天一直在研究requests_html,这是一个超级好用的工具,同是实现爬取一样的内容,却比requests少很多代码,实现起来更简单。

今天我也爬取网站:https://cpppatterns.com/patterns/copy-range-of-elements.html部分代码,与前面那位博主过程有点不同,不分方法,用到不同的模块,不同的思路,没有好坏,只是为了学习。

(代码部分指的是如下图黑框中的代码)

python爬虫:使用xpath和find两种方式分别实现使用requests_html库爬取网页中的内容_第1张图片

详细的分析过程请参数上面提到的那个页面:

https://blog.csdn.net/weixin_43790560/article/details/86617630

在此我只帖上完整代码:

from requests_html import HTMLSession

session = HTMLSession()
url = 'https://cpppatterns.com/patterns/copy-range-of-elements.html'
r = session.get(url)
data=r.html.find('tr > td:nth-child(2) > code>span')#这种是find通过css选择器方式获取元素
# data = r.html.xpath('//tr/td[2]/code/span')  # 此种通过xpath方法获取元素

for c in data:  # 通过循环方法猎取
    cc = c.text
    print(cc)

 

你可能感兴趣的:(python,爬虫)