准备工作
- 先进入虎牙直播分类颜秀把网页源码保存在meinv.html的文件中,放在pycharm 项目当前路径下。
- 然后把爬取后的文件保存在pycharm项目当前目录下的picture文件夹下(文件夹提前生成)
import urllib.request
import gevent
import re
from gevent import monkey
monkey.patch_all()
#图片下载操作
def download(img_name,img_url):
req=urllib.request.urlopen(img_url)
img_content=req.read()
with open("pictures/%s"%img_name,"wb") as f:
f.write(img_content)
def main():
#读取网页中的源码内容
with open("meinv.html","r",encoding='utf-8') as f:
url_content=f.read()
#使用正则过滤出图片的网址
img_li=re.findall(r"https://huya.*?\.jpg",url_content)
print(len(img_li))
i=0
while i