python爬虫:爬取某牙直播小姐姐图片,我的双手已经按捺不住了

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理

( 想要学习Python?Python学习交流群:1039649593,满足你的需求,资料都已经上传群文件流,可以自行下载!还有海量最新2020python学习资料。 )
在这里插入图片描述

一、前言

某牙平台,直播界的先驱,有很多主播会把一些自己的直播精彩图片上传作为壁纸,今天我们就把这些小姐姐图片全部爬取下来。

python爬虫:爬取某牙直播小姐姐图片,我的双手已经按捺不住了_第1张图片

二、爬虫案例一般步骤(思路):

1.使用python创建一个文件夹
2.模拟浏览器
3.使用requests去进行http请求,并且拿到网页原始数据
4.对原始数据进行筛选
5.下载

三、所用到得库

eimport os#下载包
import urllib.request#爬虫库
import requests#网页选择器
from bs4 import BeautifulSoup

1.使用python创建一个文件夹

# 1.
if not os.path.exists('./虎牙主播图片/'):
os.mkdir('./虎牙主播图片/)

创建一个文件夹方便保存爬取下来的图片。

2.模拟浏览器
搜索某牙网页按F12找到network,再下面随便找一个链接,再找到User-Agent,全部复制下来,如下图所示

注意:复制下来之后在pycharm创建一个请求头,当爬虫程序向网站发送请求时网站需要检测当前请求是否为浏览器发出的。

headers={
     
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36}

3.使用requests去进行http请求,并且拿到网页原始数据

url = 'https://www.huya.com/g/2168'
response = requests.get(url).text
soup = BeautifulSoup(response, 'lxml')

还去到原视数据在进一步筛选

4.对原始数据进行筛选和下载

girls = soup.find_all('img', class_='pic')
for girl in girls:
    girl_url = girl['data-original'].split('?')[0]
    girl_title = girl['title']
    print(girl_url, girl_title)

爬取结果
python爬虫:爬取某牙直播小姐姐图片,我的双手已经按捺不住了_第2张图片

你可能感兴趣的:(爬虫,python,python)