Scrapy框架抓取豆瓣电影的小爬虫学习日记(一)

        安装完Scrapy框架,就很想试一下,平时对电影感兴趣,于是想着去豆瓣电影爬取一些电影资料,和我若干T的电影资源对接一下,哈哈!

        Scrapy项目创建好之后,会默认生成项目文件夹和对应的文件,具体的大家可以查些资料。

         1、首先创建爬虫模块,保存在spiders目录下,取名doubanspider.py。

        其中,start_urls就是你第一个进入的URL地址。

        当然,为了不被网站屏蔽掉,伪装一个模拟器也是比较重要的,user_agent就是做这个的。

        parse是Spider的一个方法,被调用时,每个初始URL响应后返回的Response对象,将会作为唯一的参数传递给该方法。该方法负责解析返回的数据(responsedata)、提取数据(生成item)以及生成需要进一步处理的URL的Requ对象。

class DoubanSpider(scrapy.spiders.Spider):
    name = 'douban'
    allowed_doumains = ["douban.com"]
    start_urls = ["https://movie.douban.com"]

    user_agent = 'Mozilla/5.0 (Windows NT 6.2; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0'  # 模拟浏览器
    headers = {'User-Agent': user_agent}


    def parse(self,response):
        pass

        

        2、在命令行中切换到项目根目录下,如D:\douban\doubanSpider,在此目录下执行启动命令:scrapy crawl douban。

        我用的是pycharm开发环境,可以在主目录下新增一个main.py文件,代码如下。

from scrapy import cmdline

cmdline.execute("scrapy crawl douban".split())

        然后就可以在pycharm里面运行了。
 
  
 
 

你可能感兴趣的:(Scrapy框架抓取豆瓣电影的小爬虫学习日记(一))