爬取斗图啦表情包笔记1

 爬取斗图啦表情包笔记1 

 

爬取斗图啦表情包笔记1

重点知识:
1、使用xpath通过循环遍历获取get属性值  e.xpath.get( " " )
2、使用os.path.splittext(url)[ ] 下标获取url的后缀名
3、使用re.sub()替换字符
4、使用request 中的 request.urlretrieve( ) 下载保存文件到本地
5、使用format格式化字符串

import requests
from lxml import etree
from urllib import request
import os
import re

headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36'
}

def parse_index(url):
    resp=requests.get(url,headers=headers)
    html=resp.text
    e=etree.HTML(html)
    imgs=e.xpath('//div[@class="page-content text-center"]//img')
    for img in imgs:
        #获取图片路径
        img_url = img.get('data-original')
        #获取图片名字
        alt=img.get('alt')
        # 替换不规则符号
        # alt=re.sub(r'[\??\.。!!]', '', img)
        #获取图片后缀 img_url路径下的下标1
        suffix=os.path.splitext(img_url)[1]
        filename=alt+suffix
        #保存图片到本地
        request.urlretrieve(img_url,'image/'+filename)

def main():
    for i in range(1,100):
        url='https://www.doutula.com/photo/list/?page=%d'%i
        parse_index(url)

if __name__ == '__main__':
    main()

 

你可能感兴趣的:(爬虫系列)