我的第一个爬虫程序 - Cars

我的第一个爬虫程序 - Cars_第1张图片

Origin

  • 儿子很喜欢赛车总动员,经常边看书边抓着我问某个图片是谁?搞得我压力很大。
  • 最近读写程序的热情空前高涨,工作之余丰富一下技能
  • 有了一些业余时间学习与创作

Requirements

  • 皮克斯网站上自动爬虫所有图片,并批量保存为车辆的角色名称

OS

  • Oracle Linux

Program Language and Knowledge

  1. python3
  2. shell
  3. 正则表达式

Python Program

#!/usr/bin/env python
# coding=utf-8
#pull the cars2 characters' image, download image and name it as character's name

import urllib.request
import re
import time
import io
import os
from socket import timeout
import logging
from urllib.error import HTTPError
from urllib.error import URLError
import csv
import string

class Spider: 
    #define class variables
    base_dir = os.getcwd()
    image_folder = ''
    file_name = ''
    file_path = ''
    file_csv = ''
    url = ''
    prefix_url = 'http://pixar.wikia.com/wiki/'
    search_url = ''
    re_homepage = '

Shell Program

#!/bin/bash

while read c1 c2; do
    wget "$c1" -O $c2
done < cars_final_data.txt
  • Python程序生成了中间文件,是每张图片的下载URL和角色名称
  • shell调用wget批量下载并批量保存为对应的名字
我的第一个爬虫程序 - Cars_第2张图片
程序运行结果

你可能感兴趣的:(我的第一个爬虫程序 - Cars)