本文章的所有代码和相关文章, 仅用于经验技术交流分享,禁止将相关技术应用到不正当途径,滥用技术产生的风险与本人无关。
本文章是自己学习的一些记录。
在上一篇博客的基础上,将爬取的信息写进csv文件
上源码:
#coding=utf-8
import re
import requests
import csv
from lxml import etree
import time
with open('豆豆瓣.csv', 'a',encoding='utf-8-sig',newline='') as f:
writer = csv.writer(f, dialect='excel')
writer.writerow(['电影名称', '电影评分', '电影排名', '导演', '主演', '电影海报地址', '上映日期', '电影国家', '电影类型'])
# 定义get请求函数
def get_page(url):
#定义请求头headers
try:
headers={
'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}
#发送get请求
res=requests.get(url=url,headers=headers)
#判断请求是否成功
if res.status_code==200:
response=res.content.decode("utf-8")
return response
else:
return False
except:
return False
#定义数据解析函数
def parse_data(html,url):
#数据解析一些内容有的需要xpath 有的需要正则
html = etree.HTML(html)
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
}
# 发送get请求
res = requests.get(url=url, headers=headers)
response = res.content.decode("utf-8")
#电影名称
movie_title=html.xpath("//div[@class='hd']//a//span[1]//text()")
#电影评分
movie_score=html.xpath('//div[@class="star"]//span[2]//text()')
#电影排名
movie_degree=html.xpath('//div[@class="item"]//div//em//text()')
#电影海报地址
movie_poster=html.xpath('//div[@class="pic"]//a//img/@src')
#导演,使用正则
movie_director = re.findall(r"导演:(.*?);", response)
a = "".join(movie_director).split(" ")#因为使用的正则抓取下来的字符串含有 ,使用split()函数进行切分
movie_director = a[:25]
if movie_director=="":
movie_director=""
else:
movie_director=movie_director
#主演,使用正则
movie_main_act = re.findall("主演: (.*)
", response)
movie_main_act = "".join(movie_main_act).split("...")
if movie_main_act=="":
movie_main_act=""
else:
movie_main_act=movie_main_act
#上映日期
movie_datatime= re.findall(r"(\d*) ", response)
b = "".join(movie_datatime)#转化为字符串
movie_datatime = [b[i:i + 4] for i in range(0, len(b), 4)]#转换的字符串是一对数字如199419931994....,所以进行切分 4个一切就是年份
if movie_datatime=="":
movie_datatime=""
else:
movie_datatime=movie_datatime
#电影国家
movie_country= re.findall(" / (.*?) ", response)
#电影类型,这个原网页写的有点不好爬 我看了网上其他的也都看不明白 所以就
#自己用这样的方法写出来 然后就匹配出来了,可定还有简便的方法 ,以后学习继续改进
movie_type= html.xpath("//div[@class='bd']/p/text()[2]")
n = ''.join([' '.join([i.strip() for i in price.strip().split('\n')]) for price in movie_type][::2]).split("\xa0/\xa0")#转换为字符串进行切分
#n 返回['1994', '美国', '犯罪 剧情1993', '中国大陆 中国香港', '剧情 爱情 同性1994', '美国', '剧情 爱情1994', '法国 美国', '剧情 动作 犯罪1997', '意大利', '剧情 喜剧 爱情 战争1997', '美国', '剧情 爱情 灾难2001', '日本', '剧情 动画 奇幻1993', '美国', '剧情 历史 战争2010', '美国 英国', '剧情 科幻 悬疑 冒险2009', '美国 英国', '剧情1998', '意大利', '剧情 音乐1998', '美国', '剧情 科幻2009', '印度', '剧情 喜剧 爱情 歌舞2008', '美国', '科幻 动画 冒险2004', '法国 瑞士 德国', '剧情 音乐2014', '美国 英国 加拿大 冰岛', '剧情 科幻 冒险1995', '中国香港 中国大陆', '喜剧 爱情 奇幻 古装2011', '韩国', '剧情2016', '美国', '喜剧 动画 冒险2002', '中国香港', '剧情 犯罪 悬疑1988', '日本', '动画 奇幻 冒险1972', '美国', '剧情 犯罪2006', '美国', '剧情 传记 家庭2010', '美国', '剧情 喜剧 爱情2011', '法国', '剧情 喜剧']
l = n[2::2]#因为上面的n列表我们包含的电影类型,所以n[2::2]操作把包含类型都取出来
o = ''.join(l)#转换为字符串
h = re.sub("\d{4}", ";", o)#使用正则将数字全都用;符号代替
#h 返回为 犯罪 剧情;剧情 爱情 同性;剧情 爱情;剧情 动作 犯罪;剧情 喜剧 爱情 战争;剧情 爱情 灾难;剧情 动画 奇幻;剧情 历史 战争;剧情 科幻 悬疑 冒险;剧情;剧情 音乐;剧情 科幻;剧情 喜剧 爱情 歌舞;科幻 动画 冒险;剧情 音乐;剧情 科幻 冒险;喜剧 爱情 奇幻 古装;剧情;喜剧 动画 冒险;剧情 犯罪 悬疑;动画 奇幻 冒险;剧情 犯罪;剧情 传记 家庭;剧情 喜剧 爱情;剧情 喜剧
movie_type = h.lstrip("\n")#这个之前打印的最左边有一个\n符号 所以使用lstrip()函数去掉
movie_type = movie_type.split(";")#然后用字符串split()函数以;符号进行切分
if movie_type=="":
movie_type=""
else:
movie_type=movie_type
#movie_type 最终的返回 ['犯罪 剧情', '剧情 爱情 同性', '剧情 爱情', '剧情 动作 犯罪', '剧情 喜剧 爱情 战争', '剧情 爱情 灾难', '剧情 动画 奇幻', '剧情 历史 战争', '剧情 科幻 悬疑 冒险', '剧情', '剧情 音乐', '剧情 科幻', '剧情 喜剧 爱情 歌舞', '科幻 动画 冒险', '剧情 音乐', '剧情 科幻 冒险', '喜剧 爱情 奇幻 古装', '剧情', '喜剧 动画 冒险', '剧情 犯罪 悬疑', '动画 奇幻 冒险', '剧情 犯罪', '剧情 传记 家庭', '剧情 喜剧 爱情', '剧情 喜剧']
for a,b,c,d,e,f,g,h,i in list(zip(movie_title,movie_score,movie_degree,movie_director,
movie_main_act, movie_poster,movie_datatime,movie_country,movie_type)):
print(a,b,c,d,e,f,g,h,i)
#写入
with open('豆豆瓣.csv', 'a',encoding='utf-8-sig',newline='') as f:
writer = csv.writer(f, dialect='excel')
writer.writerow([a,b,c,d,e,f,g,h,i])
def main(num):
#定义url
url=f'https://movie.douban.com/top250?start={num}'
# 调用发送get请求函数
html=get_page(url)
# 如果发送请求成功,执行解析数据函数
if html:
parse_data(html,url)
if __name__=="__main__":
for i in range(10):
print(f"正在爬取第{i}页数据")
main(i*25)
time.sleep(2)
这里面使用with open()的方法 然后就不用写.close()
encoding=‘utf-8-sig’参数加上是为了正常的显示内容否则写入的内容会显示出乱码,同时要加上参数newline=’'因为在写入的时候会隔一行空格 所以加上这个参数将空格去除
with open('豆豆瓣.csv', 'a',encoding='utf-8-sig',newline='') as f:
writer = csv.writer(f, dialect='excel')
writer.writerow([a,b,c,d,e,f,g,h,i])
在代码和开头我们加上了下面的代码:
以为在写入头名称的时候[‘电影名称’, ‘电影评分’, ‘电影排名’, ‘导演’, ‘主演’, ‘电影海报地址’, ‘上映日期’, ‘电影国家’, ‘电影类型’],如果和writer.writerow([a,b,c,d,e,f,g,h,i])
写在一起的话 就会爬取一页将[‘电影名称’, ‘电影评分’, ‘电影排名’, ‘导演’, ‘主演’, ‘电影海报地址’, ‘上映日期’, ‘电影国家’, ‘电影类型’]写一遍 所以就不能达到让头信息只显示在最上面的效果,所以就在代码上面先写头信息
with open('豆豆瓣.csv', 'a',encoding='utf-8-sig',newline='') as f:
writer = csv.writer(f, dialect='excel')
writer.writerow(['电影名称', '电影评分', '电影排名', '导演', '主演', '电影海报地址', '上映日期', '电影国家', '电影类型'])
爬取后写入的效果:
在这里我遇到了一个问题就是我爬取的海报地址无法正常的显示,变成了这样:
不知道是什么原因 爬取下来的是正常的地址:
这个问题有待解决 其他的正常写入到文件当中了,本来打算写进xlsx文件 写的过程中就是出现了一点问题 然后就先写进csv文件。这个问题欢迎大佬指点。
继续学习