用XPath爬取Crossin教室的文章列表页信息示例

一、背景:

2023.12.12,经过本人的多日权衡比较,我决定购买了crossin老师的Python服务。主要实现了能够通过其编程教室提供的答疑群平台答疑解惑。基于其答疑服务感觉还是不错的。同时能够逐步扎实Python基础与爬虫等相关的技术。今日用xpath完成了一个爬虫小练习,写此博文记录之。

二、Xpath爬取示例代码:

import requests
from lxml import etree

test_url = 'http://111.230.211.102:8080/tasks/article/list/'
headers = {
    'User-Agent': 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:109.0) Gecko/20100101 Firefox/117.0'
}
res = requests.get(url=test_url, headers=headers)
html = res.text
selector = etree.HTML(html)
content1 = selector.xpath('//*[@class="lab-img"]/following-sibling::h3/text()')
content2 = selector.xpath('//*[@class="lab-img"]/following-sibling::p/text()')
print(content1, content2)
with open('/home/lijiang/Excel人员数据/crossin_spider1.txt', 'w') as file:
    for content in content2:
        file.write(content+'\n')

三、总结:

2023年通过CSDN爬虫学习群,我中奖过Crossin的一本著作《码上行动》。目前既然选购了Crossin老师的Python答疑群服务。那就尽量多练习,自己才能多提出疑问。如此才能较多得到Crossin老师给出的答疑解惑。

你可能感兴趣的:(python)