图片蜘蛛,写来爬去凡客上的T的图片的

[python]  view plain copy
  1. import os  
  2. import sys  
  3. import re  
  4. import urllib  
  5.   
  6. VANCAL_ITEM = re.compile(r'http://vt.vancl.com/item/(\d+).*', re.I)  
  7. ITEM_PIC = re.compile(r'(http://images.vancl.com/product/.*?/small/.*?\.jpg)', re.I)  
  8.   
  9. def download(dir, url):  
  10.   
  11.     global VANCAL_ITEM, ITEM_PIC  
  12.       
  13.     if not os.path.isdir(dir):  
  14.         os.mkdir(dir)  
  15.       
  16.     html = urllib.urlopen(url).read()  
  17.     items = [item for item in VANCAL_ITEM.findall(html)]  
  18.     for idx, item in enumerate(items):  
  19.         item_url = 'http://vt.vancl.com/item/' + item + '.html'  
  20.         print idx, ": ", item_url  
  21.   
  22.         dl_dir = dir + item + '\\'  
  23.         try:  
  24.             os.makedirs(dl_dir)  
  25.         except:  
  26.             pass  
  27.         item_html = urllib.urlopen(item_url).read()  
  28.         item_pics = [item for item in ITEM_PIC.findall(item_html)]  
  29.         for sidx, sitem in enumerate(item_pics):  
  30.             tmp = sitem.replace("small""mid")  
  31.             name = tmp.split('/')[-1]  
  32.             dl_name = os.path.join(dl_dir, name)  
  33.             urllib.urlretrieve(tmp, dl_name)  
  34.     return  
  35.       
  36. def main():  
  37.     dir = 'd:\\img\\'  
  38.     ss = 'http://vt.vancl.com/list/women/'  
  39.     ed = '/view=1'  
  40.     for idx in range(10):  
  41.         download(dir, ss + str(idx + 1) + ed)  
  42.           
  43. if __name__ == '__main__':  
  44.     main()  

你可能感兴趣的:(图片蜘蛛,写来爬去凡客上的T的图片的)