简单爬虫源码,下载指定网页所有图片

以下是源码,参考的是虫师写的简单爬虫的实现,虫师教程太老,导致范例跑不起来。 原因是里面的网址404了。必须要正则能够搜索到图片。

本文范例所用网址里面的图片命名是    http://tb.himg.baidu.com/sys/portrait/item/33a5786c3936343937303734355a33

#-*- coding:utf-8 -*-
import re
import urllib


def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getImg(html):
    reg = r'src="(http://.*?)"'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    x = 0
    for imgurl in imglist:
        print x
        urllib.urlretrieve(imgurl,'%s.jpg' % x)
        x+=1
        print x
    return imglist

html = getHtml("http://tieba.baidu.com/p/4817501655")
getImg(html)

运行以上代码  就会把网址里的所有jpg图片下载到本地目录也就是和程序文件同目录下





你可能感兴趣的:(爬虫)