web抓取数据

import urllib
import HTMLParser
from urllib import urlopen

saveDir="E://liyzh//test"
URL = "  "
webdata = urlopen(URL).read()

class MyParser(HTMLParser.HTMLParser):
    def __init__(self):
        HTMLParser.HTMLParser.__init__(self)       

    def download(self,url,filename):
        data=urllib.urlopen(url).read()
        f=open(filename,"wb")#读二进制文件
        f.write(data)
        f.close()
       
    def handle_starttag(self, tag, attrs):
        # 这里重新定义了处理开始标签的函数
        if tag == 'a':
            # 判断标签<a>的属性
            for name,value in attrs:
                if name == 'href':
                    if value[-3:]=='txt':   
                        self.download(URL+value,saveDir+"//"+value)
                        print value
                    elif value[-3:]=='jpg':
                        self.download(URL+value,saveDir+"//"+value)
                        print value
if __name__ == '__main__':
    my = MyParser()
    # 传入要分析的数据,是html的。
    my.feed(webdata)

 

你可能感兴趣的:(web抓取数据)