python3爬虫虎牙星秀

准备工具 python3.5.x 和 pycharm

安装 BeautifulSoup4 这个包

这个soup工具真的很棒,还有这个request的下载功能很棒,一下是代码


import requests
from bs4 import  BeautifulSoup
import re
from urllib import request
import time
url="https://www.huya.com/g/xingxiu"    #要爬取的链接
r=requests.get(url)     #获得整个源代码
text=r.text
soup=BeautifulSoup(text,'html.parser')
list=soup.findAll('img',{"class":"pic"})   #得到img里class为pic的图片
v=1
for found in list :
    v+=1
    jpg_link=(found.attrs).get('data-original')    #得到下载链接 https:开头为女  大部分是
    if jpg_link.startswith("http"):
        path="D:/img/"+str(v)+".jpg"                #保存的路径加文件名
        time.sleep(1)                            #每次等待一秒 怕被封ip
        print("第"+str(v)+"图片下载完成")
        request.urlretrieve(jpg_link,path)        #requets下载

    else:
        path = "D:/img/" + str(v) + ".jpg"
        qianzhui="https:"
        time.sleep(1)
        ur=qianzhui+jpg_link   #没有前面的https 需要加一个
        print(ur)
        print("第" + str(v) + "图片下载完成")
        request.urlretrieve(ur, path)  # requets下载

那个sleep我不知道有没有必要。   但是我不敢不加

你可能感兴趣的:(python)