Scrapy采集“人民的名义”豆瓣评价实验报告

转载请注明出处！！！
实验对象：豆瓣电影--人民的名义
实验目的：通过使用scrapy框架采集“人民的名义”评价内容，进一步体会信息检索的过程。
实验过程：分析采集实体->确定采集方法->制定爬取规则->编写代码并调试->得到数据

人民的名义

ps:由于最近豆瓣发布的 Api V2测试版需要授权走oauth2，但是现在不开放key申请，所以直接爬了网页。
---------------------------------欢迎纠错和提问！24小时在线不打烊！！---------------------

1. 分析采集实体

当前页面中，评价相关的内容有很多，我们通过分析选取更具代表性的数据进行采集。

1.1 IMDb （备用）

豆瓣提供了IMDB的链接。

imdb链接

IMDb只提供了5条英文评价

IMDb reviews

记录网址备用： http://www.imdb.com/user/ur70913446/comments?ref_=tt_urv

1.2 全部评价（不采集）

这里指向了全部评价，没有分类，不考虑

total reviews

1.3 分集短评（不采集）

这里提供了分集短评，不具代表性，不考虑

1.4 全部短评（采集部分）

这里提供了人民的名义的全部短评，考虑采集看过/热门的前50条

短评

1.5 全部剧评（采集部分）

人民的名义的剧评考虑采集最受欢迎的前50条

1.6 确定采集实体

豆瓣提供了部分xml格式的影评

douban feed:rss

douban xml

采集的内容很全面，参考该官方示例确定采集实体

title(剧评)
description
star
creator
pubDate

2. 确定采集方法

2.1短评采集

start_urls：https://movie.douban.com/subject/26727273/comments?status=P
内容：当前页内采集

分页：【后页】跳转下一页

2.2剧评采集

start_urls:https://movie.douban.com/subject/26727273/reviews
内容：完整评价在当前页面可以爬取

显示部分

显示全部

隐藏状态

显示状态

可以看出，页面通过js控制改变class来控制内容的显示隐藏和ajax动态赋值。

3. 制定爬取规则

3.1 短评规则

3.1.1 description

description

div#comments div.comment-item div.comment p::text

3.1.2 star

stars

div#comments div.comment-item div.comment h3 span.comment-info span.rating::attr(title)

3.1.3 creator

creator

 div#comments div.comment-item div.comment h3 span.comment-info a::attr(href)

3.1.4 pubDate

pubDate

div#comments div.comment-item div.comment h3 span.comment-info span.comment-time::text

3.1.5 next_page

div#paginator a.next::attr(href)

3.2 剧评规则

3.2.1 title

3.2.2 description

3.2.3 star

3.2.4 creator

3.2.5 pubDate

3.2.6 next_page

4. 编写代码并调试

4.1 爬取短评

新建工程douban

编写items.py

import scrapy


class DoubanItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = scrapy.Field()
    description = scrapy.Field()
    star = scrapy.Field()
    creator = scrapy.Field()
    pubDate = scrapy.Field()

编写my_short.py

import scrapy

from douban.items import DoubanItem

class MyShortSpider(scrapy.Spider):
    name = "my_short"
    allowed_domains = ["douban.com"]
    start_urls = [
        'https://movie.douban.com/subject/26727273/comments?status=P',
    ]

    def parse(self, response):
        for comment in response.css('div#comments div.comment-item div.comment'):
            item = DoubanItem()
            item['description'] = comment.css('p::text').extract_first(),
            item['star'] = comment.css('h3 span.comment-info span.rating::attr(title)').extract_first(),
            item['creator'] = comment.css('h3 span.comment-info a::attr(href)').extract_first(),
            item['pubDate'] = comment.css('h3 span.comment-info span.comment-time::text').extract_first(),
            yield item

            next_page = response.css('div#paginator a.next::attr(href)')
            if next_page is not None:
                next_urls = response.urljoin(next_page.extract_first())
                yield scrapy.Request(next_urls,callback = self.parse)

403爬取失败