python3.7.2爬虫LXML的最简洁代码

以采集流浪地球评论为例:
单个采集评论很简单,有时需要用户名+评论,如果直接使用+叠加,那么会提示是list,无法叠加,这里需要进行一个变通,把结果作为一个列表,使用循环函数FOR,然后逐个提取,长度如何设计了,可以采用对结果,下面的result进行len化,进行长度选取,再使用range,把个数限制了。

import requests
from lxml import html
url='https://movie.douban.com/review/9936402/?start=0' #需要爬的网址
page=requests.Session().get(url)
tree=html.fromstring(page.content)#不是utf-8,如何转码,把(page.text)改为(page.content.decode('gbk'))
result=tree.xpath('//div[@class="content report-comment"]//div[@class="header"]/a/text()') #需要获取的数据
result2=tree.xpath('//div[@class="content report-comment"]//p[@class="comment-text"]/text()')
n = 0
i=result[n]#i\h可以不要,如果为了代码简洁可以加上去
h=result2[n]
for n in range(len(result)):
    print("用户@"+result[n]+"@发表:"+result2[n])

你可能感兴趣的:(python3.7.2爬虫LXML的最简洁代码)