python学习笔记: 爬虫

#coding:cp936
import re
import urllib

def gethtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

def getimg(html):
    reg = r'class="BDE_Image" src="(http.*?\.jpg)"'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    x = 0 
    for imgurl in imglist:
        urllib.urlretrieve(imgurl,'%s.jpg' % x)
        x+=1
        print "正在下载第%s张图片!" % x
    print "共下载%s张图片!" % x
    
html = gethtml('http://tieba.baidu.com/p/2891686825')
getimg(html)
raw_input("回车结束")

看中谷教育写的爬虫!

re 正则匹配式






你可能感兴趣的:(python,爬虫,taoqun)