Python数据分析入门(一)

写在前面

前段时间小编写了一篇关于《我不是药神》的票房分析,读者们的反映都还不错。于是在后台留言。希望我能多写写关于数据分析的基础案例。毕竟关注本公众号的大都是数据分析的小白。本着一起学习进步的想法,小编这两天思索再三。于是就想着先做个卫视收视率的对比分析来帮助广大爱好者入门。并且接下来的一系列文章,我都会从基础到进阶,来让你们对数据分析产生更浓厚的兴趣并且更加轻松的掌握这门技能。

本次案例相关包


数据爬取

收视率实时实时数据可在欢娱网(http://www.csm-huan.com)中获取,由于此网站页面是经过JavaScript渲染后所得。所以在此我们使用了Selenium来自动化抓取页面数据。网站的界面如下。

我们要抓抓取的信息为频道、节目以及实施收视率。即后面的分析也会围绕此而展开。


数据分析

从网站爬取数据之后,我们需要通过特定的方法将每个频道与各省市相结合,即需要将地图与实时收视率数据结合起来,投放到地图上。在完成了这些阶段后,我们就可以进入到可视化阶段。在此我们选择了pyecharts库来作为我们的可视化库,有关pyecharts库的讲解可见数据分析之pyecharts库。


数据可视化-全国地图对应卫视数据展示

小编在此采集的卫视实时收视率数据为8.18日当天的上午,中午,和晚上三个时间段的实时卫视收视率数据。全国地图对应卫视收视率数据展示如下。


我们再来将各省市的实时收视率数据做一个对比


数据可视化-各省市卫视收视率数据对比展示




首先,从全国卫视实时收视率地图中我们可以看出8.18日当天上午期间收视率较高的地区是山东,浙江,湖南,江苏等省。下午时段收视率前三的地区则是浙江,安徽,江苏三省。而到了晚上时段收视率地区最高的为湖南,其次是山东,江苏和江西等地区。我们再来看看各省市卫视收视率数据对比图。从图上可以看出每个时间段的前五名地区的收视率之间波动都比较大,呈陡峭状,后面各个省市的收视率相差不大,所以折线图较为平滑。

其次,我们来分析三个时段中收视率较高的省市卫视的各自节目情况,我们收视率较高的省市对应到其各自节目中去,然后进行分析。最后我们发现,上午收视率较高的几个省市卫视节目大都为股市和民生类节目,而下午期间收视率较高的省市卫视节目大都播放一些经典电视剧和经典综艺类节目。到了晚上期间毫无疑问则是综艺节目和电视剧类节目的天下。尤其是湖南地区,我们都知道湖南卫视,并且我们从对比图中可以看到它的收视率达到了1.5324%。这个数据是很惊人的。比第三的江苏卫视的收视率2倍还要多。当然这也由于播出的节目是快乐大本营,这也体现出了全国人民对快乐大本营的喜爱,也与我们生活中所了解的基本相同。在小编印象当中,湖南卫视和江苏卫视一直都是比较受身边朋友喜欢的卫视,这次分析也印证了这个观点,我们也可以推测三个时间段的受众人群为中老年群体,青少年群体,以及青少年和青年群体,后续我们可以进行验证。

最后,我们可以通过全国卫视收视率一图和各省市收视率对比可以看出收视率后几名的城市在一天中各个时段都没有什么变化,其中主要是西北部城市,这可能也与当地的经济有一定的关系再加上大众可能对其节目内容不是很感冒,所以导致其收视率不是很高。所以如果当地卫视节目组想要提高其收视率,可以在节目内容和创作上下下功夫,在这方面,娱乐节目的老大芒果台可是颇有心得。而且还可以细微看出中东部地区的卫视收视率也一直是压制着其它地区的。当然,这只是小编采集的一天不同时段的数据,其中部分结论也有猜测为主,如果想进一步的分析的话,我们就需要采集一段时间的实时数据了。并且如果想更清楚的知道各个城市的实时收视率对比,我们也可以将各省市卫视收视率数据融合到各省的轮廓当中,然后再综合来进行对比分析。这样就应该可以得出一份比较准确的分析结果了。


需要代码的读者可以关注公众号后获取


对爬虫,数据分析,算法感兴趣的朋友们,可以加微信公众号 TWcoding,我们一起玩转Python。

If it works for you.Please,star.

自助者,天助之





转载于:https://juejin.im/post/5b78cb1151882543057d8749

你可能感兴趣的:(Python数据分析入门(一))