豆瓣电影TOP250数据分析

豆瓣电影TOP250数据分析

一、前言

  基于第一次学习了爬虫,对爬虫有了初步的认识,希望写下这篇文章,记录一下自己的学习情况。因为自己之前并没有接触过编程语言,学习过程有很多困难,这里很感谢某站的教学视频,真的很详细,对于没有学习过编程的我帮助真的很大。目前对于爬取数据自己也是一知半解,所以这篇文章,着重的部分是分析的部分。

  在很多地方都看到过对豆瓣电影TOP250的数据分析,但是还是希望从这250条数据中分析出自己想要的分析内容。

二、数据概况

  这个数据抓取了豆瓣电影TOP250的电影,总计250部电影。包含电影详情链接、图片链接、影片原名、电影评分、电影的评价人数、电影概况、电影相关信息。数据爬取主要借鉴的李巍老师的课程,自己的理解也很浅,简单把数据截图如下:

1、数据源码



2、经过处理之后的数据


三、数据分析

把这250条数据处理完之后,希望能在这个250条数据中得出一些内容。

1、哪个年份上榜的电影比较多

  经过数据透视之后可以看出,三个年份电影上榜的数目最多,1994年、2004年、2010年。也可以看出1986年之前的数据评分都比较低,这里面2020年的数据可以忽略,爬取数据的时间2020年电影的数据比较少。排除1986年之前的数据,1996、2005、2007、2012年的数据都很少。


  电影的发展历史可以大致划分为三个重要时期,分别是形成期,发展期,成熟期。十九世纪三十年代,电影开始了它的发展之路,1960年至今,世界电影从突破创新中走向多样化发展。图片虽然是数据很少,但是也能看出从1990年之后,上榜的电影数目也在不断增多,也可以说明电影越来越成为人们生活中不可获取的娱乐方式。

2、哪个国家上榜的电影比较多

  同一部电影不同的国家参与拍摄制作,这部电影归属于这两个国家。希望可以看出不同国家上榜的数量,虽然数据很少,不能说明这个国家的电影一定很好,但是也证明了,这个国家的电影发展情况相对不错。


  从图中可以看出,美国电影上榜的数量占近一半,美国电影行业一直遥遥领先与其他国家。其次上榜较多的是日本,而其中占比较多的类型是动画。然后分别是印度、中国大陆、中国香港。印度的电影行业近些年来也是在不断的发展,形成了宝莱坞等的一些电影基地。

3、根据评论制作出词云图

  某一部电影能过成为经典,一定有其道理,《肖申克的救赎》这部电影豆瓣评分9.7,这部电影拍摄于1994年,到现在看我们来看这部电影,它依旧能带给我们深思,这也是它能够在众多电影中脱颖而出的原因吧!因此,我找到这部电影的一些评论,虽然只选取了50条评论,不能说明什么问题,但是,也能看出影迷对这部电影的一些评价。


  根据词云图可以看出,正中简单额电影2字是人们最多提及的,当时做词云图的时候想过把这个去掉,但是觉得这个也不该去掉,电影能被称为电影应该也是一种评价,如果电影很不好,可能我们也不说这部电影怎么样了。其次比较明显的就是自由、人、希望,我也觉得这个是电影传达的一个主旨。生而为人,我们都不易,我们有自由的权利,无论任何时刻都要有对恶势力说“no”的勇气,何为救赎?就是当一个人的心中重新燃起希望之火的时候,可怕的不是这个时代,是被时代同化的我们,生而平凡,但是依旧要获得精彩。

四、总结

  文章的最后,我想写下,在写这篇文章的时候,遇到过哪些问题、不足、以及自己学到了什么。能写下这篇文章,很感谢在某站上发现李巍老师python爬虫有关的课程,也是因为看到老师的课程,才有勇气写下文章,俗话说的没有巧妇难为无米之炊,没有数据是没办法写出文章的。Python如今我的掌握可能连入门都是算不上,但是要比之前好很多,学无止境。学习python过程中我遇到很大的问题就是,还有很多东西不理解,目前自己能过做的也是死记硬背来的,需要爬虫别的东西依旧还是不会。之后发现数据分析产出的内容,其实没有什么深刻含义,也只能表达我在学习了一些课程的一些成果吧,数据太少了表达的观点有限。我记得有位老师和我说过,写一份数据分析,一定要有目的,你想通过数据分析得到什么,回想起老师的话很重要,一个框架的梳理真的很重要,希望我在日后的学习和工作中能多补足这一点。

  最后的最后我想写下我自己在从学习数据分析以来的收获,我接触数据分析最早可能也到大三吧,上课时候就很有兴趣,但是学校学习的内容都是偏理论方面,后来就自己上网搜索了一些内容,了解之后,觉得自己很感兴趣,在这个信息的时代,我们收获到信息的方式种类都很多,但是那都是别人都能看到,只有自己挖掘出来的是别人看不到,大数据时代,利用数据是无可避免,在数据中也将收获到更多。之后我就开始学习一些软件Excel这个就不用说了,对于处理基础数据十分重要,还有一个重要愿意,它的操作很容易,刚开始学它的时候,也是最有信心的时候。后来相继学习了SQL、tableau、了解了python数据分析相关方面,现实教会了我很多做人的道理,因为之前是一点都没接触过SQL,刚开始学习的时候真很难,难在自学的时候,你不知道从哪里学起,走了很多弯路,后来也是偶然发现一位老师的课程,很好很基础主要他会告诉你,你学了基础之后,你要去哪里继续练习,这里就给一些想要学习数据分析的人一点点建议吧,市面上课程很多,当然我没报过特别贵的课程,当时也是想报来着,奈何没钱!那种很贵的课程3个月左右,课程内容很多,以后工作能用上的自行考虑吧。我来说说我报的一些其他班,关于数据分析的课程我可能报了能有四个班,每个班其实都有学习一点东西,但是这些东西,其实你只报一个班,或者不报去各个网站学习依旧能得到,报了很多课程之后,也让我深刻认识到,其实数据分析,除了软件操作,更重要的是思维,分析的能力,这个我也在追寻得路上,没办法给出意见。文章内容很浅薄,但是也是我一段时间的收获,有很多问题,但是我们都是在问题中成长的,希望自己能成为数据分析打工人的人上人!

你可能感兴趣的:(豆瓣电影TOP250数据分析)