Python爬虫学习100练002

爬取80s网站2018年电视剧作品主图片

-- coding:utf-8 --

2018年3月25日

下载图片request.urlretrieve(jpg_link, path)

from urllib import request
import re

Python 2.7.9 之后引入了一个新特性当你urllib.urlopen一个 https 的时候会验证一次 SSL 证书

导入证书库

import ssl

禁掉这个证书的要求

context = ssl._create_unverified_context()
picture=[["网址","标题"]]

获取图片地址

def gettupian():
response=request.urlopen(url,context=context)
html=response.read().decode("utf-8")
re_tupian=re.compile(r'

  • ? title="(.?)">.??src="(.*?)" src',re.S)
    list=re_tupian.findall(html)
    for title,url_tp in list:
    url_tp="http:"+url_tp
    picture.append([url_tp,title])

    下载图片到本地

    def xz():
    for i in range(1,len(picture)):
    request.urlretrieve(picture[i][0],str(i)+".jpg")
    for j in range(1,5):
    url="https://www.80s.tw/ju/list/---2018-0-g-p%s"%j
    gettupian()
    print("正在下载第%s页"%j)
    xz()
    print("下载完毕")

  • 你可能感兴趣的:(Python爬虫学习100练002)