爬取初试----猫眼电影,猫眼评分

之前看了很多关于爬虫的文章或教学视频,私以为这个教程最清晰,也是最有条理的
分享url :
作者:python爬虫
https://www.bilibili.com/read/cv998287
出处: bilibili

爬虫的主要思想是:请求网页->获取html源码->匹配内容
多页爬取:获取页码->构建所有页码的循环,逐页爬取
举个例子:猫眼电影的评分网页
https://maoyan.com/films?showType=3&offset=30 <—这个是第二页的url,
https://maoyan.com/films?showType=3&offset=60<—这个是第三页的url
不难发现,他们的网页是有规律的,offset是递增的,公差为30
这将有利于我们构建页码的循环,实现多页爬取

import requests
url = "https://maoyan.com/films?showType=3&offset="
for i in range(10):
    pn_url= url+str(i*30)#由于猫眼电影每一个网页的offset的公差为30
    pn_html =requests.get(pn_url).text
    print(pn_url)#打印网站地址

爬取初试----猫眼电影,猫眼评分_第1张图片
关于获取电影名字以及电影评分:
按下图操作,然后右键选择“copy xpath”
爬取初试----猫眼电影,猫眼评分_第2张图片

pn=data.xpath('//*[@id="app"]/div/div[2]/div[3]/ul/li[7]/a/text()')
#从html中获取页码所对应的标签+/text()来取出文本

爬取初试----猫眼电影,猫眼评分_第3张图片
在dd文件夹下有三个div,分别是:电影信息,电影名字,电影评分
这是原作者的建议:分别获取class属性为"channel-detail movie-item-title"的div标签下的title值和div下的a标签的href值(这里没有用复制xpath路径,当然如果可以的话,也建议大家用这种方式,因为用路径的话,万一网页修改一下结构,那我们的代码就要重新写了)
pycharm解析html

names=pn_data.xpath('//div[@class="channel-detail movie-item-title"]/@title')
scores=pn_data.xpath('//div[@class="channel-detail channel-detail-orange"]')
 

由于评分不在一个标签下,而是2个标签下的文本内容合并的,所以用这种方式获取!

 scores=pn_data.xpath('//div[@class="channel-detail channel-detail-orange"]')
 scores=[x.xpath('string(.)')for x in scores]

完整代码如下:

import requests
from lxml import etree

url = "https://maoyan.com/films?showType=3&offset="
html = requests.get(url).text #.text是获取html文本,如果不加,则返回是否获取成功的提示
data=etree.HTML(html)#用lxml中的etree方法解析html,
print(html)#解析html的结果
pn=data.xpath('//*[@id="app"]/div/div[2]/div[3]/ul/li[7]/a/text()')
#从html中获取页码所对应的标签+/text()来取出文本
for i in range(10): #先获取10页做个实验
    pn_url= url+str(i*30)#由于猫眼电影每一个网页的offset的公差为30
    pn_html =requests.get(pn_url).text
    print(pn_url)
    pn_data=etree.HTML(pn_html)
    names=pn_data.xpath('//div[@class="channel-detail movie-item-title"]/@title')
    #与获取页码的方式相似,打开F12,我们所要的内容在dd这个标签下,它有三个div,分别放着电影名,电影评分,电影简介
    scores=pn_data.xpath('//div[@class="channel-detail channel-detail-orange"]')
    scores=[x.xpath('string(.)')for x in scores]
    for x,y in zip(names,scores):
        with open('movie.txt','a+',encoding='utf-8')as f:
            f.write('[电影名]'+x+' ')
            f.write('[电影评分]'+y+' '+'\n')
    print(f'the {i+1} page downloaded!')

你可能感兴趣的:(python爬虫)