scrapy如何获取图片的完整路径--urllib的parse模块

python3.6版本的urlparse模块需要先引包,这个地方区别于python2.7

from urllib import parse

我发现需要获取的图片的链接形式是:

  • /shtml/sxwb/20180608/images/b_page_01.jpg
    这个路径不是完整的,就没办法直接通过这个路径访问到图片,这个时候就可以用parse模块的urljoin函数
  • 定义: def urljoin(base,url,allow_fragments=Ture)
    前提是我已经抓取这个图片对应文章的链接即base = http://epaper.sxrb.com/shtml/sxwb/20180608/749257.shtml
    url = /shtml/sxwb/20180608/images/b_page_01.jpg
img_url= parse.urljoin(base,url)

就可以得到图片路径的完整形式

输出:
url=/shtml/sxwb/20180608/images/b_page_09.jpg
img_url =http://epaper.sxrb.com/shtml/sxwb/20180608/images/b_page_09.jpg

你可能感兴趣的:(scrapy如何获取图片的完整路径--urllib的parse模块)