初玩scrapy:爬取淘票票(1)

爬取淘票票上正在热映和即将上映的电影

创建淘票票项目

scrapy startproject taopiaopiao

会在当前目录下创建一个taopiaopiao的目录

taopiaopiao

 |--scrapy.cfg             项目部署文件

 |--taopiaopiao          对应的python模块

        |--  __init__.py    

        |--  items.py             

        |-- middlewares.py    

        |-- pipelines.py

        |-- settings.py

        |-- spiders

                |-- __init__.py

创建爬虫模块

在taopiaopiao/spiders目录下添加一个taopiaopiao_spider.py文件

代码

#coding:utf-8
import scrapy
class taoPiaoPiaoSpider(scrapy.Spider):
    #爬虫名称
    name = "taopiaopiao"
    start_urls = [
        "https://www.taopiaopiao.com/showList.htm?n_s=new"
    ]

    def parse(self, response):
        #实现网页的解析
        movics = response.xpath("//div[@class='movie-card-wrap']")
        for movic in movics:
            url = movic.xpath("a/@href").extract()[0]
            name = movic.xpath("a/div[@class='movie-card-name']/span[@class='bt-l']/text()").extract()[0]
            print(url,name)

在命令行输入scrapy crawl taopiaopiao启动爬虫

结果为

初玩scrapy:爬取淘票票(1)_第1张图片

你可能感兴趣的:(初玩scrapy:爬取淘票票(1))