数据分析:豆瓣高分电影的短评里都在说些什么?

      你好,我是老黄,一名经验尚浅但是热爱数据的数据分析师。

       老黄平时爱好不多,喜欢看看电影,碰到好看的电影是一件欣喜和兴奋的事情,拍案叫绝之后当然是盘算着好的电影必须推荐给身边的朋友都看看,于是给身边的狗蛋和翠花一顿安利,毕竟狗蛋、翠花都是村里的高级知识分子,哪能随便安利一部就欣然接受,必然得问问这个电影好在何处啊,然而老黄的一腔兴奋和激动却只能化作两个字“牛逼”,实在是也憋不出别的名词和形容词。

      嘴拙是件可怕的事情,自己不会那就看看别人是怎么做的吧。于是用R 爬取了豆瓣高分电影中的499部电影共109440条短评,通过R 文本分析相关的包来看看在豆瓣电影上的大家是如何在评价一部好的电影,又或者说这些好的电影给大家的感受是什么,一部好的电影大家关注的是什么?

       这499部电影中评分均在8分以上,是不可多得的优质电影。在对短评进行分析之前,我们来看看这499部电影的基本情况。

     1、按国家或地区的电影数量分布

        499部电影中美国电影211部,占比为42%,不得不说作为电影工业最为发达的国家,其电影的质量是有目共睹的;其次是日本76部、英国34部;中国大陆、香港、台湾分别为32、30、29部,华语电影共91部,占比18%,虽然华语电影饱受诟病的烂片层出不穷,但依旧有不少优质电影值得大家观看。

数据分析:豆瓣高分电影的短评里都在说些什么?_第1张图片

    2、按制片年份电影数量分布

       499部电影集中在1990年以后,相信1990年之前也是有相当多的优质电影,受限于年代及信息获取的便捷程度的影响,有很多大家都接触不到。

数据分析:豆瓣高分电影的短评里都在说些什么?_第2张图片

      3、按电影类型电影数量分布

       剧情、爱情、喜剧是数量排名前三的电影类型。在这些电影类型中有一个特别的类型:黑色电影,仅有一部电影。黑色电影是一种含有“黑色或黑暗”情绪与心理色调的影片,其调子阴郁、情绪悲观,主要表现的是愤世嫉俗和人性危机。然而一部这样类型的电影却有一个美丽的名字:日落大道,有兴趣的朋友可以去下载来看看。(一部电影如有多个类型,则该电影在相应的类型上各记一次数)

数据分析:豆瓣高分电影的短评里都在说些什么?_第3张图片

     以上是豆瓣高分电影的基本情况,接下来我们对这些电影的短评进行分词,针对短评中出现的名词及形容词以词云的形式展示,同时以制片国家和电影类型两个维度进行拆分对比分析。

    1、电影短评整体情况

       这些短评名词中“剧情”出现的频次最高的,剧情是一部电影的灵魂,不管是什么类型的电影,必须要有一个完美的剧情作为基础;“好看”、“经典”、“不错”,简单的词汇是最高的评价。

     2、按国家分类电影短评情况

       选取高分电影数量排名前三的国家进行分析,分别是中国(大陆、香港、台湾共91部)、美国(211部)、日本(76部)。在名词中剔除了各分类中均出现频次最高的“剧情”,形容词中同样剔除了“好看”、“不错”这些词汇。

        华语电影中网友讨论最多的是“导演”,可能是因为华语导演大家会相对熟悉,而华语高分电影中形容词“小时候”出现频次最高,一些贴近生活的剧情或许让大家有所回忆,有更多不一样的感受;美国电影与华语电影不同讨论最多的是电影的“结局”,“精彩”、“感人”、“温情”是在大家的评论中出现最多的词汇;日本电影以“画面”见长,这也是大家一贯的认知,尤其动画方便,独树一帜,多是“美好”、“感人”、“可爱”的故事和人物。

        这三组词云的形状是各国家具有代表性的动物,中国的当然是熊猫,美国和日本的大家可以猜一猜是什么,期待大家答案。

3、按电影类型分类电影短评情况

       选取高分电影数量排名前三的类型进行分析,分别是剧情类、爱情类、喜剧类。在名词中同样剔除了“剧情”,同时还有各类型对应的“剧情”、“情”、“喜剧”这些词汇;形容词中剔除了“好看”、“不错”这两个均出现频次较高的词汇。

       剧情类电影大家提到频次最高的是“结局”、“导演”、“镜头”,好的剧情能够完美的表达离不开导演的思想和镜头的完美运用,对比按国家分类的词云来看,美国电影在剧情这一方面表现是较为突出的;爱情类型电影大家的评价集中在“音乐”、“结局”、“画面”,这些元素给人带来“美好”、“浪漫”的爱情氛围;喜剧类电影的核心当然“幽默”,愉悦之外,大家还能感受到人物的“可爱”、故事的“温情”。

         同样的,这三组词云的形状均是经典的电影人物形象,欢迎大家在评论中留下大家的心中答案。

数据分析:豆瓣高分电影的短评里都在说些什么?_第4张图片

        到此为止,就是关于豆瓣高分电影短评文本分析的全部内容,以后会不定期的更新数据分析的话题文章,如果大家有感兴趣或有意思的话题,可以在评论中留言,我们共同探讨。另位写得不好或不对的地方还请大家不吝赐教,谢谢! 

你可能感兴趣的:(数据分析:豆瓣高分电影的短评里都在说些什么?)