近日博主刚刚入门爬虫并且在不断学习基础知识,昨日下午室友问我能否爬出学校教务网的考试时间等信息做一个整合,博主进入教务网的主页后发现教务网全都是用js写的还有双层嵌套的网页,顿时感到无从下手,实在是学艺不精。于是弹起吉他开始摆烂,网上找谱的时候偶尔浏览到了一些页面结构比较简单的曲谱网站,于是尝试着写了一个能够自动保存吉他谱的爬虫。
简单的实现思路就是我们进入易唱网获取一首歌曲的信息
我们可以在源代码中找出标题和未经加密的曲谱图片的地址,然后爬取下载。
在右边琴友正在浏览的吉他谱一栏中我们每次点击进入都会发现,每首歌下会有不同的超链接出现。
那么我们就可以通过一首歌跳转到另一首歌的界面实现无限爬取,这里可以做一个递归,不过我没有去实现(爬取的数据量太大会被封ip,另外一个兴趣网站也请大家使用爬虫时不要一次几千条的爬把别人网站搞崩了)
功能如下:
在url里输入某一首歌的url链接
就可以实现爬取侧面栏目十几首歌的曲谱的效果
import requests
from pyquery import PyQuery as py
import os
import time
headers={
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36 Edg/94.0.992.50"
}
url = 'http://www.echangwang.com/pic/01/618.html'
def geturl(url):
response = requests.get(url, headers=headers).content.decode('gbk')
return response
def makeurl(response):
urldata = []
content=py(response)
moreurl=content('#m-djph li ')
for item in moreurl.items():
urldata.append(item('a').attr('href'))
return urldata
def get_pic(urldata):
picdata=[]
for url in urldata:
data={}
content=py(geturl(url))
title = content('.hd h1').text().replace(' ', '_').replace('/','')
imgurl=content('#main-article .content img')
imglink=[]
for item in imgurl.items():
link=item.attr('src')
if link[0:6]=="http:":
pass
else:link='http://www.echangwang.com'+link
imglink.append(link)
data['imglink']=imglink
data['name']=title
picdata.append(data)
return picdata
def save_pic(picdata):
for item in picdata:
path="D:\\pythonProject1"+'\\'+f"{item['name']}"
mkdir(path)
i=0
for link in item['imglink']:
i+=1
with open(f'./{item["name"]}/{item["name"]+str(i)}{link[-4:]}','wb') as f:
img=requests.get(link,headers=headers).content
f.write(img)
print("正在保存"+item['name'])
time.sleep(1)
print("保存成功")
pass
def mkdir(path):
folder = os.path.exists(path)
if not folder: # 判断是否存在文件夹如果不存在则创建为文件夹
os.makedirs(path) # makedirs 创建文件时如果路径不存在会创建这个路径
print
"--- new folder... ---"
print
"--- OK ---"
else:
print
"--- There is this folder! ---"
if __name__ == '__main__':
urldata=makeurl(geturl(url))
save_pic(get_pic(urldata))
注意修改当前py文件所在路径为path