20183411 李丞灏 2019-2020 《python程序设计》 实验四 爬取QQ音乐中周杰伦歌单 实验报告
课程:《Python程序设计》
班级: 1834
姓名: 李丞灏
学号:20183411
实验教师:王志强老师
实验日期:2020年6月9日
必修/选修: 公选课
1、实验内容:
爬取QQ音乐中周杰伦的歌单,并输出歌名、时长、网址等信息。
2、实验过程及结果:
代码如下:
'''
学号:20183411
姓名:李丞灏
'''
import requests
# 引用requests库
res_music = requests.get(
'https://c.y.qq.com/soso/fcgi-bin/client_search_cp?ct=24&qqmusic_ver=1298&new_json=1&remoteplace=txt.yqq.song&searchid=60997426243444153&t=0&aggr=1&cr=1&catZhida=1&lossless=0&flag_qc=0&p=1&n=20&w=%E5%91%A8%E6%9D%B0%E4%BC%A6&g_tk=5381&loginUin=0&hostUin=0&format=json&inCharset=utf8&outCharset=utf-8¬ice=0&platform=yqq.json&needNewCode=0')
# 调用get方法,下载这个字典
json_music = res_music.json()
# 使用json()方法,将response对象,转为列表/字典
list_music = json_music['data']['song']['list']
# 一层一层地取字典,获取歌单列表
for music in list_music:
# list_music是一个列表,music是它里面的元素
print(music['name'])
# 打印歌曲名
print('专辑名:' + music['album']['name'])
# 所属专辑名
print('播放时长:' + str(music['interval']) + '秒')
# 播放时长
print('播放地址:' + 'https://y.qq.com/n/yqq/song/' + music['mid'] + '.html\n')
# 爬取所有歌曲页面
import requests
# 引用requests模块
url = 'https://c.y.qq.com/soso/fcgi-bin/client_search_cp'
for x in range(200):
params = {
'ct': '24',
'qqmusic_ver': '1298',
'new_json': '1',
'remoteplace': 'sizer.yqq.song_next',
'searchid': '64405487069162918',
't': '0',
'aggr': '1',
'cr': '1',
'catZhida': '1',
'lossless': '0',
'flag_qc': '0',
'p': str(x + 1),
'n': '20',
'w': '周杰伦',
'g_tk': '5381',
'loginUin': '0',
'hostUin': '0',
'format': 'json',
'inCharset': 'utf8',
'outCharset': 'utf-8',
'notice': '0',
'platform': 'yqq.json',
'needNewCode': '0'
}
# 将参数封装为字典
res_music = requests.get(url, params=params)
# 调用get方法,下载这个字典
json_music = res_music.json()
# 使用json()方法,将response对象,转为列表/字典
list_music = json_music['data']['song']['list']
# 一层一层地取字典,获取歌单列表
for music in list_music:
# list_music是一个列表,music是它里面的元素
print(music['name'])
# 以name为键,查找歌曲名
print('所属专辑:' + music['album']['name'])
# 查找专辑名
print('播放时长:' + str(music['interval']) + '秒')
# 查找播放时长
print('播放链接:https://y.qq.com/n/yqq/song/' + music['mid'] + '.html\n\n')
# 查找播放链接
3、实验中遇到的问题:
这次实验对于我来说是一次深度的学习,由于之前对于爬取网页的认知还停留在看过一些教程视频的程度,所以在实际的操作中难免会有问题,
首先是解决URL的问题,先进入了开发者模式,然后对其中的网络进行分析,发现有很多URL,于是只能一个个的找,最终在一个以json命名的
文件中找到了一个很长的URL,看网上的解说,这个一长串中有很多是对我们无用的信息,但由于我不会分析只能全盘接收,之后就是写分析的
代码了,先用Beautifulsoup进行处理,发现效果并不理想,返回的值大多是空值,在提取a title时也只能返回歌曲MV的网址,因此在借鉴网
络中其他人的方法时发现得通过别的方式爬取,找到网页中各个元素的位置,再进行分析,通过一层层的爬取得到了结果。
其他(感悟、思考等)
这次的实验不仅让我丰富了对于爬虫技术的经验,也同时加深了我对于网络网页构成的理解,获益良多。
参考资料:
网络上有关知识
蓝墨云资料