python爬虫实战:分析豆瓣中最新电影的影评

本文参考来源:https://segmentfault.com/a/1190000010473819【有部分修改,和运行问题优化】

 

简介

刚接触python不久,做一个小项目来练练手。前几天看了《战狼2》,发现它在最新上映的电影里面是排行第一的,如下图所示。准备把豆瓣上对它的影评做一个分析。
python爬虫实战:分析豆瓣中最新电影的影评_第1张图片

 

 

 

目标总览

主要做了三件事:

  • 抓取网页数据
  • 清理数据
  • 用词云进行展示
    使用的python版本是3.6

一、抓取网页数据

第一步要对网页进行访问,python中使用的是urllib库。代码如下:

 
  1. from urllib import request
  2. resp = request.urlopen('https://movie.douban.com/nowplaying/hangzhou/')
  3. html_data = resp.read().decode('utf-8')

 

 

其中https://movie.douban.com/nowp...是豆瓣最新上映的电影页面,可以在浏览器中输入该网址进行查看。
html_data是字符串类型的变量,里面存放了网页的html代码。
输入print(html_data)可以查看,如下图所示:

python爬虫实战:分析豆瓣中最新电影的影评_第2张图片

第二步,需要对得到的html代码进行解析,得到里面提取我们需要的数据。
在python中使用BeautifulSoup库进行html代码的解析。
(注:如果没有安装此库,则使用pip install BeautifulSoup进行安装即可!)
BeautifulSoup使用的格式如下:

 
  1. BeautifulSoup(html,"html.parser")

 

 

第一个参数为需要提取数据的html,第二个参数是指定解析器,然后使用find_all()读取html标签中的内容。

但是html中有这么多的标签,该读取哪些标签呢?其实,最简单的办法是我们可以打开我们爬取网页的html代码,然后查看我们需要的数据在哪个html标签里面,再进行读取就可以了。如下图所示:

python爬虫实战:分析豆瓣中最新电影的影评_第3张图片

从上图中可以看出在div id="nowplaying"标签开始是我们想要的数据,里面有电影的名称、评分、主演等信息。所以相应的代码编写

nowplaying_movie_list 是一个列表,可以用print(nowplaying_movie_list[0])查看里面的内容,如下图所示:

python爬虫实战:分析豆瓣中最新电影的影评_第4张图片

 python爬虫实战:分析豆瓣中最新电影的影评_第5张图片

 

在上图中可以看到data-subject属性[或id属性]里面放了电影的id号码,而在img标签的alt属性[或data-title属性]里面放了电影的名字,因此我们就通过这两个属性来得到电影的id和名称。(注:打开电影短评的网页时需要用到电影的id,所以需要对它进行解析),编写代码如下:

 
  1. nowplaying_list = []
  2. for item in nowplaying_movie_list:
  3. nowplaying_dict = {}
  4. nowplaying_dict['id'] = item['data-subject']
  5. nowplaying_dict['name'] = item['data-title']
  6. # nowplaying_list.append(nowplaying_dict)
  7. # for tag_img_item in item.find_all('img'):
  8. # nowplaying_dict['name'] = tag_img_item['alt']
  9. nowplaying_list.append(nowplaying_dict)

 

 

其中列表nowplaying_list中就存放了最新电影的id和名称,可以使用print(nowplaying_list)进行查看,如下图所示:

python爬虫实战:分析豆瓣中最新电影的影评_第6张图片

可以看到和豆瓣网址上面是匹配的。这样就得到了最新电影的信息了。接下来就要进行对最新电影短评进行分析了。例如《战狼2》的短评网址为:https://movie.douban.com/subject/26363254/comments?start=0&limit=20
其中26363254就是电影的id,start=0表示评论的第0条评论。

接下来接对该网址进行解析了。打开上图中的短评页面的html代码,我们发现关于评论的数据是在div标签的comment属性下面,如下图所示:

python爬虫实战:分析豆瓣中最新电影的影评_第7张图片

 

 python爬虫实战:分析豆瓣中最新电影的影评_第8张图片

 

因此对此标签进行解析,代码如下:

requrl = 'https://movie.douban.com/subject/' + nowplaying_list[0]['id'] + '/comments' +'?' +'start=0' + '&limit=20' 
resp = request.urlopen(requrl) 
html_data = resp.read().decode('utf-8') 
soup = bs(html_data, 'html.parser') 
comment_div_lits = soup.find_all('div', class_='comment') 

此时在comment_div_lits 列表中存放的就是div标签和comment属性下面的html代码了。在上图中还可以发现在p标签下面存放了网友对电影的评论

因此对comment_div_lits 代码中的html代码继续进行解析,代码如下:

eachCommentList = []; 
for item in comment_div_lits: 
        if item.find_all('p')[0].string is not None:     
            eachCommentList.append(item.find_all('p')[0].string)

使用print(eachCommentList)查看eachCommentList列表中的内容,可以看到里面存里我们想要的影评。如下图所示:

好的,至此我们已经爬取了豆瓣最近播放电影的评论数据,接下来就要对数据进行清洗词云显示了。

二、数据清洗

为了方便进行数据进行清洗,我们将列表中的数据放在一个字符串数组中,代码如下:

comments = ''
for k in range(len(eachCommentList)):
    comments = comments + (str(eachCommentList[k])).strip()

使用print(comments)进行查看,如下图所示:

可以看到所有的评论已经变成一个字符串了,但是我们发现评论中还有不少的标点符号等。这些符号对我们进行词频统计时根本没有用,因此要将它们清除。所用的方法是正则表达式。python中正则表达式是通过re模块来实现的。代码如下:


import re

pattern = re.compile(r'[\u4e00-\u9fa5]+')
filterdata = re.findall(pattern, comments)
cleaned_comments = ''.join(filterdata)

继续使用print(cleaned_comments)语句进行查看,如下图所示:


 

我们可以看到此时评论数据中已经没有那些标点符号了数据变得“干净”了很多

因此要进行词频统计,所以先要进行中文分词操作。在这里我使用的是结巴分词。如果没有安装结巴分词,可以在控制台使用pip install jieba进行安装。(注:可以使用pip list查看是否安装了这些库)。代码如下所示:

import jieba    #分词包
import pandas as pd  

segment = jieba.lcut(cleaned_comments)
words_df=pd.DataFrame({'segment':segment})

因为结巴分词要用到pandas,所以我们这里加载了pandas包。可以使用words_df.head()查看分词之后的结果,如下图所示:
python爬虫实战:分析豆瓣中最新电影的影评_第9张图片

从上图可以看到我们的数据中有“看”、“太”、“的”等虚词(停用词,而这些词在任何场景中都是高频时,并且没有实际的含义,所以我们要他们进行清除

我把停用词放在一个stopwords.txt文件中,将我们的数据与停用词进行比对即可(注:只要在百度中输入stopwords.txt,就可以下载到该文件)。去停用词代码如下代码如下:

 
  1. stopwords=pd.read_csv("stopwords.txt",index_col=False,quoting=3,sep="\t",names=['stopword'], encoding='utf-8')#quoting=3全不引用
  2. words_df=words_df[~words_df.segment.isin(stopwords.stopword)]

 

 

继续使用words_df.head()语句来查看结果,如下图所示,停用词已经被出去了。

python爬虫实战:分析豆瓣中最新电影的影评_第10张图片

接下来就要进行词频统计了,代码如下:

words_stat.head()进行查看,结果如下:

python爬虫实战:分析豆瓣中最新电影的影评_第11张图片

由于我们前面只是爬取了第一页的评论,所以数据有点少,在最后给出的完整代码中,我爬取了10页的评论,所数据还是有参考价值。

三、用词云进行显示

代码如下:

 
  1. # 用词云进行显示
  2. backgroud_Image = plt.imread('man.jpg')
  3. wordcloud = WordCloud(
  4. background_color='white',
  5. mask=backgroud_Image,
  6. font_path='C:\Windows\Fonts\STZHONGS.TTF', # 若是有中文的话,这句代码必须添加,不然会出现方框,不出现汉字
  7. max_words=2000,
  8. stopwords=STOPWORDS,
  9. max_font_size=150,
  10. random_state=30
  11. )
  12. word_frequence = {x[0]:x[1] for x in words_stat.head(1000).values}
  13. print("[用词云进行显示--字典类型]:\r\n", word_frequence)
  14. word_frequence_list = []
  15. for key in word_frequence:
  16. temp = (key,word_frequence[key])
  17. word_frequence_list.append(temp)
  18. print("[用词云进行显示--LIST]:\r\n", word_frequence_list)
  19. # fit_words(frequencies) //根据词频生成词云
  20. # generate(text) //根据文本生成词云
  21. # generate_from_frequencies(frequencies[, ...]) //根据词频生成词云
  22. # generate_from_text(text) //根据文本生成词云
  23. # word_frequence 为字典类型,可以直接传入wordcloud.fit_words()
  24. # word_frequence = {x[0]:x[1] for x in words_stat.head(1000).values}
  25. # wordcloud = wordcloud.fit_words(word_frequence)
  26. # def fit_words(self, frequencies):
  27. # """Create a word_cloud from words and frequencies.
  28. #
  29. # Alias to generate_from_frequencies.
  30. #
  31. # Parameters
  32. # ----------
  33. # frequencies : dict from string to float
  34. # A contains words and associated frequency.
  35. #
  36. # Returns
  37. # -------
  38. # self
  39. # """
  40. # return self.generate_from_frequencies(frequencies)
  41. wordcloud=wordcloud.fit_words(word_frequence)
  42. plt.imshow(wordcloud)
  43. plt.show()

使用的图片:

python爬虫实战:分析豆瓣中最新电影的影评_第12张图片

 

完整代码如下:

 

 

 
  1. from urllib import request
  2. from bs4 import BeautifulSoup as bs
  3. import re
  4. import jieba #分词包
  5. import pandas as pd
  6. import numpy #numpy计算包
  7. from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
  8. import matplotlib.pyplot as plt
  9. # %matplotlib inline是jupyer notebook 的命令
  10. # %matplotlib inline
  11. import matplotlib
  12. matplotlib.rcParams['figure.figsize'] = (10.0, 5.0)
  13.  
  14. resp = request.urlopen('https://movie.douban.com/nowplaying/hangzhou/')
  15. html_data_comment = resp.read().decode('utf-8')
  16. # 获取HTML页面内容
  17. # print("豆瓣最新上映的电影页面内容:",html_data)
  18.  
  19.  
  20. soup = bs(html_data_comment, 'html.parser')
  21. # find_all 返回值是数组
  22. nowplaying_movie = soup.find_all('div', id='nowplaying')
  23. # 获取电影列表
  24. nowplaying_movie_list = nowplaying_movie[0].find_all('li', class_='list-item')
  25. # print("电影列表:\r\n",nowplaying_movie_list)
  26.  
  27. # 获取电影的id和名称。
  28. nowplaying_list = []
  29. for item in nowplaying_movie_list:
  30. nowplaying_dict = {}
  31. nowplaying_dict['id'] = item['data-subject']
  32. nowplaying_dict['name'] = item['data-title']
  33. # nowplaying_list.append(nowplaying_dict)
  34. # for tag_img_item in item.find_all('img'):
  35. # nowplaying_dict['name'] = tag_img_item['alt']
  36. nowplaying_list.append(nowplaying_dict)
  37.  
  38. # print("电影的id和名称:\r\n",nowplaying_list)
  39.  
  40. # 网友对电影的评论
  41. requrl = 'https://movie.douban.com/subject/' + nowplaying_list[5]['id'] + '/comments' +'?' +'start=0' + '&limit=20'
  42. resp = request.urlopen(requrl)
  43. html_data_comment = resp.read().decode('utf-8')
  44. soup = bs(html_data_comment, 'html.parser')
  45. comment_div_lits = soup.find_all('div', class_='comment')
  46. # print("网友对电影-战狼的评论HTML内容:\r\n",comment_div_lits)
  47.  
  48. eachCommentList = [];
  49. for item in comment_div_lits:
  50. if item.find_all('p')[0].string is not None:
  51. eachCommentList.append(item.find_all('p')[0].string)
  52. # print("网友对电影-战狼的评论:",comment_div_lits)
  53. # 为了方便进行数据进行清洗,我们将列表中的数据放在一个字符串数组中
  54. comments = ''
  55. for k in range(len(eachCommentList)):
  56. comments = comments + (str(eachCommentList[k])).strip()
  57. # print("网友对电影-战狼的评论[数据清洗后]:\r\n",comments)
  58.  
  59. # /^(\w|-|[\u4E00-\u9FA5])*$/
  60. # ^ 以后面的为开头
  61. # $ 以前面的为结尾
  62. # \w 数字,字母,下划线,.
  63. # \u4E00-\u9FA5 中文
  64. # * 代表前面出现0次或多次
  65. # | 或者
  66. # 所以整个的意思是匹配一个 数字,字母,下划线,-,.,中文组成的一个字串
  67.  
  68. # 使用Pattern匹配文本,获得匹配结果,无法匹配时将返回None
  69.  
  70. pattern = re.compile(r'[\u4e00-\u9fa5]+')
  71. filterdata = re.findall(pattern, comments)
  72. cleaned_comments = ''.join(filterdata)
  73. # print("网友对电影-战狼的评论[数据清洗后]:\r\n",cleaned_comments)
  74.  
  75. # 进行词频统计,先要进行中文分词操作。这里使用的是结巴分词
  76. segment = jieba.lcut(cleaned_comments)
  77. words_df=pd.DataFrame({'segment':segment})
  78. # print("[分词之后的结果]:\r\n",words_df)
  79.  
  80. # 清除停用词
  81. # 停用词放在一个stopwords.txt文件中,将我们的数据与停用词进行比对即可
  82. #quoting=3全不引用
  83. stopwords=pd.read_csv("stopwords.txt",index_col=False,quoting=3,sep="\t",names=['stopword'], encoding='utf-8')
  84. words_df=words_df[~words_df.segment.isin(stopwords.stopword)]
  85. # print("[清除停用词后]:\r\n",words_df.head())
  86.  
  87. # 词频统计
  88. words_stat=words_df.groupby(by=['segment'])['segment'].agg({"计数":numpy.size})
  89. words_stat=words_stat.reset_index().sort_values(by=["计数"],ascending=False)
  90. # print("[词频统计后]:\r\n",words_stat.head())
  91.  
  92. # 用词云进行显示
  93. backgroud_Image = plt.imread('man.jpg')
  94. wordcloud = WordCloud(
  95. background_color='white',
  96. mask=backgroud_Image,
  97. font_path='C:\Windows\Fonts\STZHONGS.TTF', # 若是有中文的话,这句代码必须添加,不然会出现方框,不出现汉字
  98. max_words=2000,
  99. stopwords=STOPWORDS,
  100. max_font_size=150,
  101. random_state=30
  102. )
  103.  
  104. word_frequence = {x[0]:x[1] for x in words_stat.head(1000).values}
  105. print("[用词云进行显示--字典类型]:\r\n", word_frequence)
  106. word_frequence_list = []
  107. for key in word_frequence:
  108. temp = (key,word_frequence[key])
  109. word_frequence_list.append(temp)
  110.  
  111. print("[用词云进行显示--LIST]:\r\n", word_frequence_list)
  112. # fit_words(frequencies) //根据词频生成词云
  113. # generate(text) //根据文本生成词云
  114. # generate_from_frequencies(frequencies[, ...]) //根据词频生成词云
  115. # generate_from_text(text) //根据文本生成词云
  116.  
  117. # word_frequence 为字典类型,可以直接传入wordcloud.fit_words()
  118. # word_frequence = {x[0]:x[1] for x in words_stat.head(1000).values}
  119. # wordcloud = wordcloud.fit_words(word_frequence)
  120.  
  121. # def fit_words(self, frequencies):
  122. # """Create a word_cloud from words and frequencies.
  123. #
  124. # Alias to generate_from_frequencies.
  125. #
  126. # Parameters
  127. # ----------
  128. # frequencies : dict from string to float
  129. # A contains words and associated frequency.
  130. #
  131. # Returns
  132. # -------
  133. # self
  134. # """
  135. # return self.generate_from_frequencies(frequencies)
  136.  
  137. wordcloud=wordcloud.fit_words(word_frequence)
  138. plt.imshow(wordcloud)
  139. plt.show()

python爬虫实战:分析豆瓣中最新电影的影评_第13张图片

 

 

完整代码[分页]

 

 
  1. #coding:utf-8
  2. __author__ = 'hang'
  3.  
  4. import warnings
  5. warnings.filterwarnings("ignore")
  6. import jieba #分词包
  7. import numpy #numpy计算包
  8. import codecs #codecs提供的open方法来指定打开的文件的语言编码,它会在读取的时候自动转换为内部unicode
  9. import re
  10. import pandas as pd
  11. import matplotlib.pyplot as plt
  12. from urllib import request
  13. from bs4 import BeautifulSoup as bs
  14. # %matplotlib inline
  15. import matplotlib
  16. matplotlib.rcParams['figure.figsize'] = (10.0, 5.0)
  17. from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator#词云包
  18.  
  19. #分析网页函数
  20. def getNowPlayingMovie_list():
  21. resp = request.urlopen('https://movie.douban.com/nowplaying/hangzhou/')
  22. html_data = resp.read().decode('utf-8')
  23. soup = bs(html_data, 'html.parser')
  24. nowplaying_movie = soup.find_all('div', id='nowplaying')
  25. nowplaying_movie_list = nowplaying_movie[0].find_all('li', class_='list-item')
  26. nowplaying_list = []
  27. for item in nowplaying_movie_list:
  28. nowplaying_dict = {}
  29. nowplaying_dict['id'] = item['data-subject']
  30. for tag_img_item in item.find_all('img'):
  31. nowplaying_dict['name'] = tag_img_item['alt']
  32. nowplaying_list.append(nowplaying_dict)
  33. return nowplaying_list
  34.  
  35. #爬取评论函数
  36. def getCommentsById(movieId, pageNum):
  37. eachCommentList = [];
  38. if pageNum>0:
  39. start = (pageNum-1) * 20
  40. else:
  41. return False
  42. requrl = 'https://movie.douban.com/subject/' + movieId + '/comments' +'?' +'start=' + str(start) + '&limit=20'
  43. print(requrl)
  44. resp = request.urlopen(requrl)
  45. html_data = resp.read().decode('utf-8')
  46. soup = bs(html_data, 'html.parser')
  47. comment_div_lits = soup.find_all('div', class_='comment')
  48. for item in comment_div_lits:
  49. if item.find_all('p')[0].string is not None:
  50. eachCommentList.append(item.find_all('p')[0].string)
  51. return eachCommentList
  52.  
  53. def main():
  54. #循环获取第一个电影的前10页评论
  55. commentList = []
  56. NowPlayingMovie_list = getNowPlayingMovie_list()
  57. for i in range(10):
  58. num = i + 1
  59. commentList_temp = getCommentsById(NowPlayingMovie_list[0]['id'], num)
  60. commentList.append(commentList_temp)
  61.  
  62. #将列表中的数据转换为字符串
  63. comments = ''
  64. for k in range(len(commentList)):
  65. comments = comments + (str(commentList[k])).strip()
  66.  
  67. #使用正则表达式去除标点符号
  68. pattern = re.compile(r'[\u4e00-\u9fa5]+')
  69. filterdata = re.findall(pattern, comments)
  70. cleaned_comments = ''.join(filterdata)
  71.  
  72. #使用结巴分词进行中文分词
  73. segment = jieba.lcut(cleaned_comments)
  74. words_df=pd.DataFrame({'segment':segment})
  75.  
  76. #去掉停用词
  77. stopwords=pd.read_csv("stopwords.txt",index_col=False,quoting=3,sep="\t",names=['stopword'], encoding='utf-8')#quoting=3全不引用
  78. words_df=words_df[~words_df.segment.isin(stopwords.stopword)]
  79.  
  80. #统计词频
  81. words_stat=words_df.groupby(by=['segment'])['segment'].agg({"计数":numpy.size})
  82. words_stat=words_stat.reset_index().sort_values(by=["计数"],ascending=False)
  83.  
  84. # 用词云进行显示
  85. backgroud_Image = plt.imread('man.jpg')
  86. wordcloud = WordCloud(
  87. background_color='white',
  88. mask=backgroud_Image,
  89. font_path='C:\Windows\Fonts\STZHONGS.TTF', # 若是有中文的话,这句代码必须添加,不然会出现方框,不出现汉字
  90. max_words=2000,
  91. stopwords=STOPWORDS,
  92. max_font_size=150,
  93. random_state=30
  94. )
  95.  
  96. word_frequence = {x[0]: x[1] for x in words_stat.head(1000).values}
  97. print("[用词云进行显示--字典类型]:\r\n", word_frequence)
  98. word_frequence_list = []
  99. for key in word_frequence:
  100. temp = (key, word_frequence[key])
  101. word_frequence_list.append(temp)
  102.  
  103. print("[用词云进行显示--LIST]:\r\n", word_frequence_list)
  104. # fit_words(frequencies) //根据词频生成词云
  105. # generate(text) //根据文本生成词云
  106. # generate_from_frequencies(frequencies[, ...]) //根据词频生成词云
  107. # generate_from_text(text) //根据文本生成词云
  108.  
  109. # word_frequence 为字典类型,可以直接传入wordcloud.fit_words()
  110.  
  111. # def fit_words(self, frequencies):
  112. # """Create a word_cloud from words and frequencies.
  113. #
  114. # Alias to generate_from_frequencies.
  115. #
  116. # Parameters
  117. # ----------
  118. # frequencies : dict from string to float
  119. # A contains words and associated frequency.
  120. #
  121. # Returns
  122. # -------
  123. # self
  124. # """
  125. # return self.generate_from_frequencies(frequencies)
  126.  
  127. wordcloud = wordcloud.fit_words(word_frequence)
  128. img_colors = ImageColorGenerator(backgroud_Image)
  129. wordcloud.recolor(color_func=img_colors)
  130. plt.imshow(wordcloud)
  131. plt.axis('off')
  132. plt.show()
  133. print('display success!')
  134.  
  135. #主函数
  136. main()

 

python爬虫实战:分析豆瓣中最新电影的影评_第14张图片

 

上图基本反映了《敦刻尔克》这部电影的情况。

参考来源: https://segmentfault.com/a/1190000010473819

你可能感兴趣的:(Python爬虫)