准备工具 python3.5.x 和 pycharm
安装 BeautifulSoup4 这个包
这个soup工具真的很棒,还有这个request的下载功能很棒,一下是代码
import requests
from bs4 import BeautifulSoup
import re
from urllib import request
import time
url="https://www.huya.com/g/xingxiu" #要爬取的链接
r=requests.get(url) #获得整个源代码
text=r.text
soup=BeautifulSoup(text,'html.parser')
list=soup.findAll('img',{"class":"pic"}) #得到img里class为pic的图片
v=1
for found in list :
v+=1
jpg_link=(found.attrs).get('data-original') #得到下载链接 https:开头为女 大部分是
if jpg_link.startswith("http"):
path="D:/img/"+str(v)+".jpg" #保存的路径加文件名
time.sleep(1) #每次等待一秒 怕被封ip
print("第"+str(v)+"图片下载完成")
request.urlretrieve(jpg_link,path) #requets下载
else:
path = "D:/img/" + str(v) + ".jpg"
qianzhui="https:"
time.sleep(1)
ur=qianzhui+jpg_link #没有前面的https 需要加一个
print(ur)
print("第" + str(v) + "图片下载完成")
request.urlretrieve(ur, path) # requets下载