day02 爬取豆瓣电影信息代码

# 请求url:
#        https://movie.douban.com/top250
# 请求方式:
#        GET
# 请求头:
#      User-Agent
#      cookies
'''
爬取豆瓣电影信息:
    电影名称
    电影url
    电影导演
    电影主演
    电影年份
    电影类型
    电影评分
    电影简介
    电影评论

1.分析所有主页的URL
第一页:https://movie.douban.com/top250?start=0&filter=
第二页:https://movie.douban.com/top250?start=25&filter=
第三页:https://movie.douban.com/top250?start=50&filter=
'''
import  requests
import  re
#爬虫三部曲
#1.发送请求
def get_page(url):
    reponse=requests.get(url)
    return reponse
#2.解析数据
def parse_index(html):
    '''
    
class="item">.*?class="">(.*?).*?"(.*?)"> .*?class="title">(.*?).*?导演: (.*?)主演: (.*?)
(.*?)

.*?class="rating_num" .*?>(.*?).*?(.*?)人评价 .*?class="inq">(.*?) ''' movie_list=re.findall('

 

转载于:https://www.cnblogs.com/zzf0601/p/11121906.html

你可能感兴趣的:(day02 爬取豆瓣电影信息代码)