考研大数据爬取与分析工具二次开发进行中。。。

考研大数据爬取与分析工具二次开发进行中

开源代码仓:https://github.com/COCO5666/Graduate_admissions_data_analysis_tool

有兴趣的可以一起来

目前,第一阶段的数据采集工作已完毕,共采集13.4万多个网页
下面将进入第二阶段的数据分析工作

考研大数据爬取与分析工具二次开发进行中。。。_第1张图片

以下是历史版本:

考研大数据爬取与分析工具V0.0.0 (发行日期2018.09.02)

产品下载:

考研大数据爬取与分析工具V0.0.0(本版本爬取与分析研招网18年的13.82万个招生详情网页无问题,后续19、20等的招生数据爬取工作我会跟进)下载地址:

https://www.lanzous.com/i1sfxah(不建议使用,因为爬取与分析太浪费时间,可以直接下载下面我已经分析好的生成的表格)

考研大数据分析报表V0.0.0(基于研招网18年的13.82万个招生详情网页,18年的180个学科类别(或专业领域)的数据都进行了分析,并且每个学科类别都生成了一个Excel工作簿文件)

https://www.lanzous.com/i1sfx9g(建议用电脑查看,手机查看需要会解压缩,具体可百度,Excel工作簿文件可以用WPS查看)

有问题请邮件[email protected],转载数据和软件请注明出处。

产品介绍:

第一阶段:爬取信息。

程序全自动从研招网上爬取当年每一个招生详情网页的信息。

我爬取的时候研招网上是18年的招生数据,程序内收录了180个学科类别(或专业领域)的代码及代码对应的名称,180个学科类别的所有与之相关的网页共13.82万个,启动程序的话会先爬取数据(不过不建议爬,因为爬取后分析成的报表我已经发布了,因此除非尝试的兴趣,否则没必要启动程序的,直接拿现成的分析好后的数据就行了)。

考研大数据爬取与分析工具二次开发进行中。。。_第2张图片

考研大数据爬取与分析工具二次开发进行中。。。_第3张图片

 

所有已收录门类的爬取招生详情网页的信息,并将这些网页保存在本地。

本程序可以实现全自动爬取从研招网上爬取招生详情网页的信息,并将这些网页保存在本地。

 

第二阶段:数据分析。

分析过程我就不赘述了,下面只介绍一下分析后的每一个Excel工作簿中的每一个工作表的含义。

先介绍几个比较实用的工作表。

Sheet 2_2 中按照学校的统招总人数从多到少排列的信息的,因此你可以通过Sheet2-2这个表格看出本学科类别(或专业领域)哪个学校统招人数最多。

Sheet 3-3(概要工作表):
计算出考试政治时某科目的招生机构总数,并以这些招生机构加起来的总统招人数数量从多到少排序信息。
外语、业务课一、业务课二也按照这样处理,通过这个表格可以看出备考哪个科目将来的选择面比较宽。

另外你也可以手动再Sheet 3这个表格中搜索一下(Ctrl + F)看考某一科的都有哪些学校。

Sheet 3(爬取每一个学校的每一个方向的招生页面的原始数据):
学校名、院系所名、专业名、研究方向名、政治、外语、数学、专业课、政治详情、外语详情、数学详情、专业课详情、指导老师、备注、详情链接、学校链接

下面是所有工作表的介绍:

考研大数据爬取与分析工具二次开发进行中。。。_第4张图片

考研大数据爬取与分析工具二次开发进行中。。。_第5张图片

每一个学科类别的Excel工作簿中保存的工作表为:
Sheet 1(每一个学校招生页面的原始数据):
学校名、院系所、专业、研究方向、学习方式、拟招生人数(原始信息)、拟招收总人数、推免人数、统招人数、统招人数类型、详情查看链接、学校链接为一条信息

Sheet 2(根据Sheet 1处理后的数据,可以查看某校的院系所总数、专业总数、研究方向总数、拟招收总人数、推免总人数、统招总人数):
学校名、院系所数、专业数、研究方向数、拟招收总人数、推免人数、统招人数、学校链接、所在页码、位置序号为一条信息

Sheet 2_2 (数据与Sheet2一样,不过排序方式是按照学校的统招总人数从多到少排列的):
学校名、院系所数、专业数、研究方向数、拟招收总人数、推免人数、统招人数、学校链接、所在页码、位置序号

Sheet 2_3(概要工作表):
本学科类别的招生机构总数、招生院系总数、专业总数、研究方向总数、拟招收人数总数、推免人数总数、统招人数总数,统招比重(统招生人数/拟招收总人数)

Sheet 3(爬取每一个学校的每一个方向的招生页面的原始数据):
学校名、院系所名、专业名、研究方向名、政治、外语、数学、专业课、政治详情、外语详情、数学详情、专业课详情、指导老师、备注、详情链接、学校链接

Sheet 3-2(概要工作表):
计算出政治有多少科目。
外语、业务课一、业务课二也按照这样处理。

将要完成开发的数据处理任务:

Sheet 3-3(概要工作表):
计算出考试政治时某科目的招生机构总数及对应的机构名列表,并以这些招生机构加起来的总统招人数数量从多到少排序信息。
外语、业务课一、业务课二也按照这样处理。

大数据汇总工作簿:

考研大数据爬取与分析工具二次开发进行中。。。_第6张图片
Sheet 1(以拟招收总人数排序):
每一个学科类别招生拟招收总数各是多少。

Sheet 2(以统招生总人数排序):
每一个学科类别招生拟招收总数各是多少。

Sheet 2(以统招生比重排序):
每一个学科类别招生拟招收总数各是多少。

你可能感兴趣的:(Python,考研大数据分析,考研大数据爬取与分析)