爬取美女图片信息并保存(无图系列)

Python爬取美女图片信息并保存(无图系列)
爬取目标地址:
美女图片:https://www.27270.com/ent/meinvtupian
本案例使用的是python的pyquery解析库,该库相对于Xpath、BeautifulSoup在使用上更简单方便。案例中保存的文件存放在python运行目录下面,本人QQ是3574360458,大家可以一起交流学习,我是零基础学python,期待与大家一起进步。

from pyquery import PyQuery as pq
import requests
import time

pic_num = 1

def get_page(url):
    header = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
        #'Referer':'http://www.27270.com'
    }
    html = requests.get(url, headers=header)
    return html.content

def get_analysis(html):
    doc = pq(html)
    # 我们需要的信息在class="MeinvTuPianBox"这个class所在的块里面
    lis = doc('.MeinvTuPianBox li').items()

    return lis

def write_file(lis):
    i = 1
    num = 1
    global pic_num
    for li in lis:
        # pyquery.pyquery.PyQuery类型的数据,可以使用pyquery的所有方法
        # 提取图片信息
        Tu = {
            'title': li('a').attr.title,
            'url': li('a').attr.href,
            'pic_url': li('img').attr.src
        }
        pic_str = '第' + str(pic_num) + '个图片信息:\n' + Tu['title'] + ':' + Tu['url'] + '\n' + '图片地址:' + Tu['pic_url'] + '\n\n'
        print(pic_str)
        i += 1
        num += 1
        pic_num += 1
        # print(type(Tu))
        file = open('TUTu.txt', 'a')
        file.write(str(pic_str))
        file.close()
        time.sleep(1)
    file = open('TUTu.txt', 'a')
    file.write('-----------------------------\n\n')
    file.close()

def main(offset):
    print('运行了%d次' % offset)
    url = 'https://www.27270.com/ent/meinvtupian/list_11_' + str(offset) + '.html'
    print(url)
    html = get_page(url)
    lis = get_analysis(html)
    write_file(lis)

if __name__ == '__main__':
    for i in range(11):
        main(i)
        time.sleep(2)

你可能感兴趣的:(python爬虫,爬取图片)