python笔记 爬虫精进·第6课 【爬虫数据存储,歌单爬虫存储】

存储数据方式

csv格式文件以及Excel文件

csv文件的写入与读取

csv格式代码示意

file=open('test.csv','a+')
#创建test.csv文件,以追加的读写模式
file.write('美国队长,钢铁侠,蜘蛛侠')
#写入test.csv文件
file.close()
#关闭文件

1.创建csv文件代码示意

import csv       #引用csv模块。
csv_file = open('demo.csv','w',newline='',encoding='utf-8')
#创建csv文件,我们要先调用open()函数,传入参数:文件名“demo.csv”、写入模式“w”、newline=''、encoding='utf-8'。
#加newline=' '参数的原因是,可以避免csv文件出现两倍的行距(就是能避免表格的行与行之间出现空白行)。加encoding='utf-8',可以避免编码问题导致的报错或乱码。

2.在csv文件中写入内容(调用writer对象的writerow()方法)

writer.writerow(['电影','豆瓣评分'])
#借助writerow()函数可以在csv文件里写入一行文字 "电影"和“豆瓣评分”。

代码示意

import csv      #引用csv模块。
csv_file = open('demo.csv','w',newline='',encoding='utf-8')       #调用open()函数打开csv文件,传入参数:文件名“demo.csv”、写入模式“w”、newline=''、encoding='utf-8'。
writer = csv.writer(csv_file)      #用csv.writer()函数创建一个writer对象。
writer.writerow(['电影','豆瓣评分'])        #调用writer对象的writerow()方法,可以在csv文件里写入一行文字 “电影”和“豆瓣评分”。
writer.writerow(['银河护卫队','8.0'])      #在csv文件里写入一行文字 “银河护卫队”和“8.0”。
writer.writerow(['复仇者联盟','8.1'])     #在csv文件里写入一行文字 “复仇者联盟”和“8.1”。
csv_file.close()        #写入完成后,关闭文件。
excel文件的写入与读取

我们得先提前安装好openpyxl模块

写入流程

1.创建工作簿代码示意

import openpyxl        #引用openpyxl 。
wb = openpyxl.Workbook()       #利用openpyxl.Workbook()函数创建新的workbook(工作薄)对象。

2.创建工作表代码示意

sheet = wb.active         #wb.active就是获取这个工作薄的活动表,通常就是第一个工作表。
sheet.title = 'new title'    #可以用.title给工作表重命名。现在第一个工作表的名称就会由原来默认的“sheet1”改为"new title"。

3.单元格添加内容示意

row = ['美国队长','钢铁侠','蜘蛛侠']    #把我们想写入的一行内容写成列表,赋值给row。
sheet.append(row)      #用sheet.append()就能往表格里添加这一行文字。

4.如果书写内容不止一行,可用for循环

rows = [['美国队长','钢铁侠','蜘蛛侠'],['是','漫威','宇宙', '经典','人物']]     #先把要写入的多行内容写成列表,再放进大列表里,赋值给rows。
for i in rows:
    sheet.append(i)     #遍历rows,同时把遍历的内容添加到表格里,这样就实现了多行写入。
print(rows)     #打印rows

5.保存文件

wb.save('Marvel.xlsx')
#保存新建的Excel文件,并命名为“Marvel.xlsx”

写入代码汇总示意

import openpyxl 
#写入代码
wb=openpyxl.Workbook() 
sheet=wb.active
sheet.title='new title'
sheet['A1'] = '漫威宇宙'
rows= [['美国队长','钢铁侠','蜘蛛侠'],['是','漫威','宇宙', '经典','人物']]
for i in rows:
    sheet.append(i)
print(rows)
wb.save('Marvel.xlsx')
#读取代码
wb = openpyxl.load_workbook('Marvel.xlsx')
sheet = wb['new title']
sheetname = wb.sheetnames
print(sheetname)
A1_cell = sheet['A1']
A1_value = A1_cell.value
print(A1_value)

音乐歌单爬虫存储

综合代码示意

import requests,openpyxl
wb=openpyxl.Workbook()  
#创建工作薄
sheet=wb.active 
#获取工作薄的活动表
sheet.title='restaurants' 
#工作表重命名

sheet['A1'] ='歌曲名'     #加表头,给A1单元格赋值
sheet['B1'] ='所属专辑'   #加表头,给B1单元格赋值
sheet['C1'] ='播放时长'   #加表头,给C1单元格赋值
sheet['D1'] ='播放链接'   #加表头,给D1单元格赋值

url = 'https://c.y.qq.com/soso/fcgi-bin/client_search_cp'
for x in range(5):
    params = {
        'ct': '24',
        'qqmusic_ver': '1298',
        'new_json': '1',
        'remoteplace': 'sizer.yqq.song_next',
        'searchid': '64405487069162918',
        't': '0',
        'aggr': '1',
        'cr': '1',
        'catZhida': '1',
        'lossless': '0',
        'flag_qc': '0',
        'p': str(x + 1),
        'n': '20',
        'w': '周杰伦',
        'g_tk': '5381',
        'loginUin': '0',
        'hostUin': '0',
        'format': 'json',
        'inCharset': 'utf8',
        'outCharset': 'utf-8',
        'notice': '0',
        'platform': 'yqq.json',
        'needNewCode': '0'
    }

    res_music = requests.get(url, params=params)
    json_music = res_music.json()
    list_music = json_music['data']['song']['list']
    for music in list_music:
        name = music['name']
        # 以name为键,查找歌曲名,把歌曲名赋值给name
        album = music['album']['name']
        # 查找专辑名,把专辑名赋给album
        time = music['interval']
        # 查找播放时长,把时长赋值给time
        link = 'https://y.qq.com/n/yqq/song/' + str(music['file']['media_mid']) + '.html\n\n'
        # 查找播放链接,把链接赋值给link
        sheet.append([name, album, time,url])
        # 把name、album、time和link写成列表,用append函数多行写入Excel
        print('歌曲名:' + name + '\n' + '所属专辑:' + album +'\n' + '播放时长:' + str(time) + '\n' + '播放链接:'+ url)
        
wb.save('Jay.xlsx')            
#最后保存并命名这个Excel文件

你可能感兴趣的:(python学习笔记)