爬取西瓜视频影视分类

许久没有更新过博客了,今天帮朋友爬了西瓜视频,希望对喜欢python爬虫的朋友有所指引,希望大神批评指正。

每一个网站都或多或少有一点反爬虫机制,并持续添加新的爬虫机制,所以说针对每一个网站,爬虫规则并不是一成不变的。

我也会持续更新中!!!!

本次爬虫采用:python3+scrapy+selenum,闲话少说,贴代码。

核心逻辑代码xigua.py:

# -*- coding: utf-8 -*-
import scrapy
import json
import xlwt
import datetime

from ..items import XiguaspiderItem

# https://www.ixigua.com/api/pc/feed/?min_behot_time=0&category=subv_xg_movie&utm_source=toutiao&widen=1&tadrequire=true&as=A1356CB8354CB7B&cp=5C85ECBB27BB0E1&_signature=ojnZNhAa.ssIFpm2yASWDqI52S
# https://www.ixigua.com/api/pc/feed/?max_behot_time=1552274468&category=subv_xg_movie&utm_source=toutiao&widen=1&tadrequire=true&as=A1157C68A5DD8CE&cp=5C85EDA82C2E5E1&_signature=ojnZNhAa.ssIFpm2yAQSOKI52S

"""
西瓜视频:xigua
"""

class XiguaSpider(scrapy.Spider):
    name = 'xigua'
    allowed_domains = ['ixigua.com']
    start_urls = ['https://www.ixigua.com/api/pc/feed/?min_behot_time=0&category=subv_xg_movie&utm_source=toutiao&widen=1&tadrequire=true&as=A1153CD8459DA0F&cp=5C85ED8AE0BF1E1&_signature=ojnZNhAa.ssIFpm2yASWDqI52S']
    doc_url = 'https://www.ixigua.com/api/pc/feed/?max_behot_time={}&category=subv_xg_movie&utm_source=toutiao&widen=1&tadrequire=true&as=A185AC288847AA0&cp=5C88172A3A40AE1&_signature=YaQQuxAbPTDLi1A75tbnUmGkEK'
    base_url = 'https://www.ixigua.com'

    custom_settings &#

你可能感兴趣的:(爬虫,自动化工具,scrapy,python)