python爬虫爬取豆瓣电影

#-*- coding:utf-8 -*-
import requests
from lxml import etree
import time


url = 'https://movie.douban.com/subject/26942674/'
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}
data = requests.get(url,headers=headers).text
#data = requests.get(url).text
s=etree.HTML(data)
 
film_name=s.xpath('//*[@id="content"]/h1/span[1]/text()')#电影名
director=s.xpath('//*[@id="info"]/span[1]/span[2]/a/text()')#编剧

actor=s.xpath('//*[@id="info"]/span[3]/span[2]/a/text()')#主演
movie_time=s.xpath('//*[@id="info"]/span[13]/text()')#片长

#由于导演有时候不止一个人,所以我这里以列表的形式输出
ds = []
for d in director:
    ds.append(d)
    
#由于演员不止一个人,所以我这里以列表的形式输出
acs = []
for a in actor:
    acs.append(a)

print ('电影名:',film_name)
print ('导演:',ds)
print ('主演:',acs)
print ('片长:',movie_time)

"""
python中用于爬虫的包很多,如bs4,urllib,requests等等。
这里我们用requests+xpath的方式,因为简单易学,像BeautifulSoup还是有点难的。

下面我们就使用requests和xpath来爬取豆瓣电影中的“电影名”、“导演”、“演员”、“评分”等信息。

上一篇文章已经讲了安装requests和lxml库:
原文链接:https://blog.csdn.net/MTbaby/article/details/79165890 """

你可能感兴趣的:(网络编程)