【无标题】

文章目录

  • 针对大学名称 大学排名, 综合指数,学校情况等数据进行爬取
  • 找对应得数据包
  • 请求发现数据有加密
  • 发现加密参数
  • 搜索加密参数,好进行分析
  • 分析过程
  • 数据可视化


【无标题】_第1张图片

针对大学名称 大学排名, 综合指数,学校情况等数据进行爬取

首先进行鼠标右键,进行数据抓包

【无标题】_第2张图片

找对应得数据包

【无标题】_第3张图片

请求发现数据有加密

【无标题】_第4张图片

发现加密参数

【无标题】_第5张图片

搜索加密参数,好进行分析

【无标题】_第6张图片

分析过程

【无标题】_第7张图片
【无标题】_第8张图片
【无标题】_第9张图片
【无标题】_第10张图片
【无标题】_第11张图片
In [2]:

!pip install jsonpath

Collecting jsonpath
  Downloading jsonpath-0.82.2.tar.gz (10 kB)
  Preparing metadata (setup.py) ... done
Building wheels for collected packages: jsonpath
  Building wheel for jsonpath (setup.py) ... done
  Created wheel for jsonpath: filename=jsonpath-0.82.2-py3-none-any.whl size=6724 sha256=3db960d7ff6f0bb132346f0e72e00349a7f6156100fc98c35ffda5cee786b2bf
  Stored in directory: /home/mw/.cache/pip/wheels/2c/2a/fa/87e26ec807b9a21dd0464eb1319cc3ad51b0c9e505fe6b7396
Successfully built jsonpath
Installing collected packages: jsonpath
Successfully installed jsonpath-0.82.2
import requests
import json
import hashlib
import jsonpath
import pandas as pd
for i in range(1, 2):
    data = '{"keyword":"","provincenames":[],"naturetypes":[],"edulevel":"","categories":[],"features":[],"pageindex":%s,"pagesize":20,"sort":11}&9sasji5owng41irkisvtjhlxhmrysrp1' % i
    md5 = hashlib.md5(data.encode())
    # md5.update(content.encode('utf-8'))
    sign = md5.hexdigest()
    print(sign)
    headers = {
        "Accept": "*/*",
        "Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8",
        "Connection": "keep-alive",
        "Content-Type": "application/json",
        "Origin": "https://pv4y-pc.youzy.cn",
        "Referer": "https://pv4y-pc.youzy.cn/",
        "Sec-Fetch-Dest": "empty",
        "Sec-Fetch-Mode": "cors",
        "Sec-Fetch-Site": "same-site",
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36",
        "sec-ch-ua": "\"Not_A Brand\";v=\"8\", \"Chromium\";v=\"120\", \"Google Chrome\";v=\"120\"",
        "sec-ch-ua-mobile": "?0",
        "sec-ch-ua-platform": "\"Windows\"",
        "u-sign": sign,
        "u-token": ""
    }
    url = "https://uwf7de983aad7a717eb.youzy.cn/youzy.dms.basiclib.api.college.query"
    data = {"keyword":"","provinceNames":[],"natureTypes":[],"eduLevel":"","categories":[],"features":[],"pageIndex":i,"pageSize":20,"sort":11}
    data = json.dumps(data, separators=(',', ':'))
    response = requests.post(url, headers=headers, data=data).json()
    # print(resps)
    # 学校名称
    data_name = jsonpath.jsonpath(response, '$..cnName')
    print(data_name)
    # 学校类型
    data_shape = jsonpath.jsonpath(response, '$..categories')
    # 综合指数
    data_comScore = jsonpath.jsonpath(response, '$..comScore')
    # 是不是本科
    data_eduLevel = jsonpath.jsonpath(response, '$..eduLevel')
    # 学校情况
    data_features = jsonpath.jsonpath(response, '$..features')
    # 排名
    data_ranking = jsonpath.jsonpath(response, '$..ranking')
    # 热度
    data_hits = jsonpath.jsonpath(response, '$..hits')
    # 部门
    data_belong = jsonpath.jsonpath(response, '$..belong')
    data = {'学校名称': data_name, '学校类型': data_shape, '综合指数': data_comScore, '学历': data_eduLevel,
            '学校情况':  data_features, '排名': data_ranking, '热度': data_hits,
            '部门': data_belong}
    df = pd.DataFrame(pd.DataFrame.from_dict(data, orient='index').values.T, columns=list(data.keys()))
    print(df)
    # df.to_csv("中国院校统计.csv",index=False)
643ff9499febb3ee34c95ffe0bb29cb0
['清华大学', '北京大学', '北京大学医学部', '中国科学院大学', '复旦大学', '复旦大学上海医学院', '上海交通大学', '上海交通大学医学院', '中国科学技术大学', '中国人民大学', '中国人民大学(苏州校区)', '浙江大学', '浙江大学医学院', '南京大学', '北京航空航天大学', '北京航空航天大学中法航空学院', '武汉大学', '同济大学', '南开大学', '中国人民解放军国防科技大学']
              学校名称  学校类型   综合指数   学历                      学校情况  排名       热度  \
0             清华大学  [综合]  93.59  ben  [985, 211, 国重点, 保研, 双一流]   1  1378946   
1             北京大学  [综合]  92.13  ben  [985, 211, 国重点, 保研, 双一流]   2  2155577   
2          北京大学医学部  [医药]  92.13  ben  [985, 211, 国重点, 保研, 双一流]   2   439830   
3          中国科学院大学  [综合]  79.95  ben            [国重点, 保研, 双一流]   3   474549   
4             复旦大学  [综合]  83.73  ben  [985, 211, 国重点, 保研, 双一流]   4  1091717   
5        复旦大学上海医学院  [医药]  83.73  ben  [985, 211, 国重点, 保研, 双一流]   4   321950   
6           上海交通大学  [综合]  84.72  ben  [985, 211, 国重点, 保研, 双一流]   5   934308   
7        上海交通大学医学院  [医药]  84.72  ben  [985, 211, 国重点, 保研, 双一流]   5   306197   
8         中国科学技术大学  [综合]  79.59  ben  [985, 211, 国重点, 保研, 双一流]   6   540224   
9           中国人民大学  [综合]  79.92  ben  [985, 211, 保研, 国重点, 双一流]   7   895950   
10    中国人民大学(苏州校区)  [综合]  79.92  ben       [985, 211, 保研, 双一流]   7   448989   
11            浙江大学  [综合]  86.16  ben  [985, 211, 国重点, 保研, 双一流]   8  1102871   
12         浙江大学医学院  [医药]  86.16  ben      [985, 211, 国重点, 双一流]   8   298237   
13            南京大学  [综合]  80.51  ben  [985, 211, 国重点, 保研, 双一流]   9  1068208   
14        北京航空航天大学  [理工]  77.19  ben       [985, 211, 保研, 双一流]  10   668746   
15  北京航空航天大学中法航空学院    []  77.19  ben                        []  10    11630   
16            武汉大学  [综合]  79.82  ben  [985, 211, 国重点, 保研, 双一流]  11  1167221   
17            同济大学  [综合]  77.02  ben  [985, 211, 国重点, 保研, 双一流]  12   694969   
18            南开大学  [综合]  76.11  ben  [985, 211, 国重点, 保研, 双一流]  13   725994   
19   中国人民解放军国防科技大学  [军事]  73.59  ben      [985, 211, 国重点, 双一流]  14   717849   

              部门  
0            教育部  
1            教育部  
2            教育部  
3            中科院  
4            教育部  
5            教育部  
6            教育部  
7            教育部  
8            中科院  
9            教育部  
10           教育部  
11           教育部  
12          浙江大学  
13           教育部  
14           工信部  
15                
16           教育部  
17           教育部  
18           教育部  
19  中国共产党中央军事委员会  

数据可视化

In [29]:

import pandas as pd
data=pd.read_csv("/home/mw/input/yuanxiao7383/中国院校统计.csv")
data

Out[29]:

学校名称 学校类型 综合指数 学历 学校情况 排名 热度 部门
0 清华大学 ['综合'] 93.59 ben ['985', '211', '国重点', '保研', '双一流'] 1 1377703 教育部
1 北京大学 ['综合'] 92.13 ben ['985', '211', '国重点', '保研', '双一流'] 2 2155049 教育部
2 北京大学医学部 ['医药'] 92.13 ben ['985', '211', '国重点', '保研', '双一流'] 2 439644 教育部
3 中国科学院大学 ['综合'] 79.95 ben ['国重点', '保研', '双一流'] 3 474239 中科院
4 复旦大学 ['综合'] 83.73 ben ['985', '211', '国重点', '保研', '双一流'] 4 1091254 教育部
5 复旦大学上海医学院 ['医药'] 83.73 ben ['985', '211', '国重点', '保研', '双一流'] 4 321828 教育部
6 上海交通大学 ['综合'] 84.72 ben ['985', '211', '国重点', '保研', '双一流'] 5 933901 教育部
7 上海交通大学医学院 ['医药'] 84.72 ben ['985', '211', '国重点', '保研', '双一流'] 5 306102 教育部
8 中国科学技术大学 ['综合'] 79.59 ben ['985', '211', '国重点', '保研', '双一流'] 6 539918 中科院
9 中国人民大学 ['综合'] 79.92 ben ['985', '211', '保研', '国重点', '双一流'] 7 895604 教育部
10 中国人民大学(苏州校区) ['综合'] 79.92 ben ['985', '211', '保研', '双一流'] 7 448698 教育部
11 浙江大学 ['综合'] 86.16 ben ['985', '211', '国重点', '保研', '双一流'] 8 1102369 教育部
12 浙江大学医学院 ['医药'] 86.16 ben ['985', '211', '国重点', '双一流'] 8 298159 浙江大学
13 南京大学 ['综合'] 80.51 ben ['985', '211', '国重点', '保研', '双一流'] 9 1067571 教育部
14 北京航空航天大学 ['理工'] 77.19 ben ['985', '211', '保研', '双一流'] 10 668359 工信部
15 北京航空航天大学中法航空学院 [] 77.19 ben [] 10 11509 NaN
16 武汉大学 ['综合'] 79.82 ben ['985', '211', '国重点', '保研', '双一流'] 11 1166705 教育部
17 同济大学 ['综合'] 77.02 ben ['985', '211', '国重点', '保研', '双一流'] 12 694605 教育部
18 南开大学 ['综合'] 76.11 ben ['985', '211', '国重点', '保研', '双一流'] 13 725646 教育部
19 中国人民解放军国防科技大学 ['军事'] 73.59 ben ['985', '211', '国重点', '双一流'] 14 717346 中国共产党中央军事委员会
20 北京理工大学 ['理工'] 74.96 ben ['985', '211', '保研', '双一流'] 15 669865 工信部
21 北京师范大学 ['师范'] 76.59 ben ['985', '211', '保研', '国重点', '双一流'] 16 698563 教育部
22 北京师范大学(珠海校区) ['综合'] 76.59 ben ['985', '211', '国重点', '保研', '双一流'] 16 282745 教育部
23 哈尔滨工业大学 ['理工'] 76.45 ben ['985', '211', '国重点', '保研', '双一流'] 17 724788 工信部
24 哈尔滨工业大学(威海) ['理工'] 76.45 ben ['985', '211', '国重点', '保研', '双一流'] 17 506924 工信部
25 哈尔滨工业大学(深圳) ['理工'] 76.45 ben ['985', '211', '国重点', '保研', '双一流'] 17 253199 工信部
26 西安交通大学 ['综合'] 77.40 ben ['985', '211', '国重点', '保研', '双一流'] 18 879613 教育部
27 东南大学 ['综合'] 76.03 ben ['985', '211', '国重点', '保研', '双一流'] 19 776147 教育部
28 东南大学医学院 ['医药'] 76.03 ben ['985', '211', '国重点', '保研', '双一流'] 19 161457 教育部
29 华中科技大学 ['综合'] 77.98 ben ['985', '211', '国重点', '保研', '双一流'] 20 1055994 教育部
... ... ... ... ... ... ... ... ...
1570 阜阳职业技术学院 ['理工'] 0.00 zhuan [] 0 27130 省政府
1571 湖南信息职业技术学院 ['理工'] 0.00 zhuan ['省重点'] 0 32456 省政府
1572 秦皇岛职业技术学院 ['理工'] 0.00 zhuan [] 0 90203 省政府
1573 浙江纺织服装职业技术学院 ['理工'] 0.00 zhuan ['省属'] 0 24877 省政府
1574 广东农工商职业技术学院 ['综合'] 0.00 zhuan ['省属'] 0 30821 省政府
1575 江西旅游商贸职业学院 ['财经'] 0.00 zhuan ['省重点'] 0 26661 省政府
1576 唐山职业技术学院 ['综合'] 0.00 zhuan ['省属'] 0 41608 省政府
1577 沈阳航空职业技术学院 ['理工'] 0.00 zhuan ['省重点'] 0 27589 省政府
1578 七台河职业学院 ['综合'] 0.00 zhuan ['省属'] 0 19431 省政府
1579 甘肃有色冶金职业技术学院 ['理工'] 0.00 zhuan ['省属'] 0 19093 省政府
1580 宁夏职业技术学院 ['综合'] 0.00 zhuan ['省属'] 0 27452 自治区政府
1581 内蒙古警察职业学院 ['政法'] 0.00 zhuan ['省属'] 0 26005 自治区政府
1582 天津海运职业学院 ['综合'] 0.00 zhuan ['省重点'] 0 47443 市政府
1583 广东工贸职业技术学院 ['理工'] 0.00 zhuan ['省属'] 0 33165 省政府
1584 湘潭医卫职业技术学院 ['医药'] 0.00 zhuan ['省属'] 0 33889 省政府
1585 黑龙江建筑职业技术学院 ['理工'] 0.00 zhuan ['省属'] 0 32713 省政府
1586 温州职业技术学院 ['综合'] 0.00 zhuan [] 0 37202 省政府
1587 浙江东方职业技术学院 ['综合'] 0.00 zhuan [] 0 25348 省教育厅
1588 辽宁建筑职业学院 ['理工'] 0.00 zhuan ['省属'] 0 34613 省政府
1589 邢台医学高等专科学校 ['医药'] 0.00 zhuan [] 0 56330 省政府
1590 铁岭师范高等专科学校 ['师范'] 0.00 zhuan ['省属'] 0 32921 省政府
1591 广西水利电力职业技术学院 ['理工'] 0.00 zhuan [] 0 25498 自治区政府
1592 武汉外语外事职业学院 ['综合'] 0.00 zhuan [] 0 24622 省教育厅
1593 福建信息职业技术学院 ['理工'] 0.00 zhuan ['省属'] 0 24146 省政府
1594 平顶山工业职业技术学院 ['理工'] 0.00 zhuan ['省属'] 0 27876 省政府
1595 广东省外语艺术职业学院 ['艺术'] 0.00 zhuan ['省属'] 0 39208 省政府
1596 长沙航空职业技术学院 ['理工'] 0.00 zhuan ['省重点'] 0 112407 空军装备部
1597 桂林师范高等专科学校 ['师范'] 0.00 zhuan [] 0 26748 自治区政府
1598 山东商务职业学院 ['综合'] 0.00 zhuan ['省属'] 0 43707 省政府
1599 延边职业技术学院 ['理工'] 0.00 zhuan [] 0 23005 省政府

In [30]:

data.info()

RangeIndex: 1600 entries, 0 to 1599
Data columns (total 8 columns):
学校名称    1600 non-null object
学校类型    1600 non-null object
综合指数    1600 non-null float64
学历      1600 non-null object
学校情况    1600 non-null object
排名      1600 non-null int64
热度      1600 non-null int64
部门      1588 non-null object
dtypes: float64(1), int64(2), object(5)
memory usage: 100.1+ KB

In [31]:

import jieba
# jieba.load_userdict('addwords.txt')
title_cut = []
for i in data.学校情况:
    j = jieba.lcut(i)
    title_cut.append(j)
Building prefix dict from the default dictionary ...
Dumping model to file cache /tmp/jieba.cache
Loading model cost 0.971 seconds.
Prefix dict has been built succesfully.

In [32]:

cut_words = jieba.lcut(str(data['学校情况'].values), cut_all = False)

In [33]:

file_path = open(r'/home/mw/input/data8378/stopwords.txt',encoding='utf-8')
stop_words = file_path.read()

In [34]:

# 新建一个空列表,用于存储删除停用词后的数据
new_data = []
for word in cut_words:
    if word not in stop_words:
        new_data.append(word)
print(new_data)
['[', '"', '[', "'", '985', "'", "'", '211', "'", "'", '国', '重点', "'", "'", '保研', "'", "'", '双', '一流', "'", ']', '"', '"', '[', "'", '985', "'", "'", '211', "'", "'", '国', '重点', "'", "'", '保研', "'", "'", '双', '一流', "'", ']', '"', '"', '[', "'", '985', "'", "'", '211', "'", "'", '国', '重点', "'", "'", '保研', "'", "'", '双', '一流', "'", ']', '"', '...', "'", '[', ']', "'", '"', '[', "'", '省属', "'", ']', '"', "'", '[', ']', "'", ']']

In [35]:

from nltk import FreqDist
freq_list = FreqDist(new_data)
# 返回词语列表
most_common_words = freq_list.most_common()
print(most_common_words)
[("'", 36), ('"', 8), ('[', 7), (']', 7), ('985', 3), ('211', 3), ('国', 3), ('重点', 3), ('保研', 3), ('双', 3), ('一流', 3), ('...', 1), ('省属', 1)]

In [36]:

from pyecharts import options as opts
from pyecharts.charts import Page, WordCloud
from pyecharts.globals import SymbolType
def wordcloud_base() -> WordCloud:
    c = (
        WordCloud()
        .add("", most_common_words, word_size_range=[20, 100])
        .set_global_opts(title_opts=opts.TitleOpts(title="美团标题标签可视化"))
    )
    return c

wd = wordcloud_base()
wd.render_notebook()

Out[36]:

【无标题】_第12张图片

In [25]:

import numpy as np 
data["综合指数"] = data["综合指数"].astype(np.int64)
data.info()

RangeIndex: 1600 entries, 0 to 1599
Data columns (total 8 columns):
学校名称    1600 non-null object
学校类型    1600 non-null object
综合指数    1600 non-null int64
学历      1600 non-null object
学校情况    1600 non-null object
排名      1600 non-null int64
热度      1600 non-null int64
部门      1588 non-null object
dtypes: int64(3), object(5)
memory usage: 100.1+ KB

In [26]:

data['学校类型']=data['学校类型'].apply(lambda x: x.replace('[', '').replace(']', ''))
data['学校类型']

Out[26]:

0       '综合'
1       '综合'
2       '医药'
3       '综合'
4       '综合'
5       '医药'
6       '综合'
7       '医药'
8       '综合'
9       '综合'
10      '综合'
11      '综合'
12      '医药'
13      '综合'
14      '理工'
15          
16      '综合'
17      '综合'
18      '综合'
19      '军事'
20      '理工'
21      '师范'
22      '综合'
23      '理工'
24      '理工'
25      '理工'
26      '综合'
27      '综合'
28      '医药'
29      '综合'
        ... 
1570    '理工'
1571    '理工'
1572    '理工'
1573    '理工'
1574    '综合'
1575    '财经'
1576    '综合'
1577    '理工'
1578    '综合'
1579    '理工'
1580    '综合'
1581    '政法'
1582    '综合'
1583    '理工'
1584    '医药'
1585    '理工'
1586    '综合'
1587    '综合'
1588    '理工'
1589    '医药'
1590    '师范'
1591    '理工'
1592    '综合'
1593    '理工'
1594    '理工'
1595    '艺术'
1596    '理工'
1597    '师范'
1598    '综合'
1599    '理工'
Name: 学校类型, Length: 1600, dtype: object

In [27]:

# 查看缺失值
data.isnull().any()

Out[27]:

学校名称    False
学校类型    False
综合指数    False
学历      False
学校情况    False
排名      False
热度      False
部门       True
dtype: bool

In [28]:

# 查看数据结构
data.describe()

Out[28]:

综合指数 排名 热度
count 1600.000000 1600.000000 1.600000e+03
mean 47.107500 477.676875 1.650321e+05
std 25.032106 406.079676 1.851948e+05
min 0.000000 0.000000 2.730000e+03
25% 55.000000 43.750000 5.205350e+04
50% 57.000000 435.500000 9.286500e+04
75% 60.000000 835.250000 2.108105e+05
max 93.000000 1235.000000 2.155049e+06

In [10]:

data2 = data.groupby('学校名称')['综合指数'].agg(['mean', 'median'])
data2

Out[10]:

mean median
学校名称
七台河职业学院 0 0
三亚中瑞酒店管理职业学院 0 0
三亚学院 55 55
三峡大学 62 62
三峡大学科技学院 57 57
三明学院 58 58
三江学院 56 56
三门峡社会管理职业学院 0 0
三门峡职业技术学院 0 0
上海中侨职业技术大学 55 55
上海中医药大学 65 65
上海交通大学 84 84
上海交通大学医学院 84 84
上海体育大学 64 64
上海健康医学院 59 59
上海公安学院 0 0
上海兴伟学院 56 56
上海商学院 60 60
上海外国语大学 68 68
上海外国语大学贤达经济人文学院 55 55
上海大学 71 71
上海对外经贸大学 65 65
上海工程技术大学 61 61
上海师范大学 65 65
上海师范大学天华学院 56 56
上海应用技术大学 61 61
上海建桥学院 55 55
上海思博职业技术学院 0 0
上海戏剧学院 65 65
上海政法学院 64 64
... ... ...
黄冈师范学院 59 59
黄冈职业技术学院 0 0
黄山学院 59 59
黄河交通学院 57 57
黄河科技学院 56 56
黄淮学院 57 57
黎明职业大学 0 0
黑河学院 56 56
黑龙江东方学院 55 55
黑龙江中医药大学 60 60
黑龙江八一农垦大学 58 58
黑龙江外国语学院 55 55
黑龙江大学 62 62
黑龙江工业学院 57 57
黑龙江工商学院 55 55
黑龙江工程学院 58 58
黑龙江工程学院昆仑旅游学院 55 55
黑龙江建筑职业技术学院 0 0
黑龙江科技大学 59 59
黑龙江财经学院 55 55
黔南民族师范学院 57 57
齐鲁医药学院 57 57
齐鲁工业大学 60 60
齐鲁师范学院 59 59
齐鲁理工学院 55 55
齐齐哈尔医学院 58 58
齐齐哈尔大学 58 58
齐齐哈尔工程学院 54 54
齐齐哈尔高等师范专科学校 0 0
龙岩学院 58 58

1600 rows × 2 columns

In [11]:

data_brand=data2.sort_values(by='median', ascending=True).tail(10)
data_brand

Out[11]:

mean median
学校名称
南京大学 80 80
复旦大学上海医学院 83 83
复旦大学 83 83
上海交通大学 84 84
上海交通大学医学院 84 84
浙江大学 86 86
浙江大学医学院 86 86
北京大学医学部 92 92
北京大学 92 92
清华大学 93 93

In [12]:

from pyecharts.charts import Bar
from pyecharts import options as opts
bar = (Bar()
       .add_xaxis(list(data_brand.index))
       .add_yaxis('',[int(i) for i in(round(data_brand['median']))])
        .set_global_opts(title_opts=opts.TitleOpts(title="中国大学综合指数概况", subtitle="中位数"),xaxis_opts=opts.AxisOpts(name_rotate=0,name="综合指数",axislabel_opts={"rotate":60}))

        )
bar.render_notebook()

Out[12]:

【无标题】_第13张图片

In [13]:

data3 = data.groupby('学校名称')['热度'].agg(['mean', 'median'])
data3

Out[13]:

mean median
学校名称
七台河职业学院 19431 19431
三亚中瑞酒店管理职业学院 21755 21755
三亚学院 104658 104658
三峡大学 501787 501787
三峡大学科技学院 89985 89985
三明学院 98712 98712
三江学院 101231 101231
三门峡社会管理职业学院 20692 20692
三门峡职业技术学院 37561 37561
上海中侨职业技术大学 57802 57802
上海中医药大学 214334 214334
上海交通大学 933901 933901
上海交通大学医学院 306102 306102
上海体育大学 76233 76233
上海健康医学院 115812 115812
上海公安学院 106291 106291
上海兴伟学院 33532 33532
上海商学院 155186 155186
上海外国语大学 302454 302454
上海外国语大学贤达经济人文学院 92331 92331
上海大学 607608 607608
上海对外经贸大学 243112 243112
上海工程技术大学 224267 224267
上海师范大学 407476 407476
上海师范大学天华学院 76674 76674
上海应用技术大学 291811 291811
上海建桥学院 188996 188996
上海思博职业技术学院 33447 33447
上海戏剧学院 116150 116150
上海政法学院 219194 219194
... ... ...
黄冈师范学院 104892 104892
黄冈职业技术学院 42997 42997
黄山学院 60550 60550
黄河交通学院 60367 60367
黄河科技学院 96146 96146
黄淮学院 152150 152150
黎明职业大学 32186 32186
黑河学院 69555 69555
黑龙江东方学院 50417 50417
黑龙江中医药大学 169616 169616
黑龙江八一农垦大学 125798 125798
黑龙江外国语学院 49229 49229
黑龙江大学 344645 344645
黑龙江工业学院 121327 121327
黑龙江工商学院 42071 42071
黑龙江工程学院 117734 117734
黑龙江工程学院昆仑旅游学院 34104 34104
黑龙江建筑职业技术学院 32713 32713
黑龙江科技大学 238421 238421
黑龙江财经学院 55881 55881
黔南民族师范学院 55214 55214
齐鲁医药学院 121623 121623
齐鲁工业大学 329048 329048
齐鲁师范学院 134712 134712
齐鲁理工学院 99493 99493
齐齐哈尔医学院 120487 120487
齐齐哈尔大学 164782 164782
齐齐哈尔工程学院 47971 47971
齐齐哈尔高等师范专科学校 28897 28897
龙岩学院 80677 80677

In [14]:

data_line=data3.sort_values(by='median', ascending=True).tail(10)
data_line

Out[14]:

mean median
学校名称
四川大学 1018881 1018881
苏州大学 1054040 1054040
华中科技大学 1055994 1055994
南京大学 1067571 1067571
复旦大学 1091254 1091254
浙江大学 1102369 1102369
吉林大学 1113904 1113904
武汉大学 1166705 1166705
清华大学 1377703 1377703
北京大学 2155049 2155049

In [15]:

from pyecharts.charts import Line
line = (Line()
       .add_xaxis(list(data_line.index))
       .add_yaxis('',[int(i) for i in(round(data_line['mean']))])
        .set_global_opts(title_opts=opts.TitleOpts(title="中国大学热度概况top10", subtitle="平均"),xaxis_opts=opts.AxisOpts(name_rotate=0,name="热度",axislabel_opts={"rotate":60}))

        )
line.render_notebook()

Out[15]:

【无标题】_第14张图片

In [16]:

data["部门"].unique()

Out[16]:

array(['教育部', '中科院', '浙江大学', '工信部', nan, '中国共产党中央军事委员会', '公安部', '社科院',
       '中国人民解放军海军', '市政府', '省政府', '国民委', '中国人民解放军陆军', '国卫委', '统战部',
       '中国人民解放军空军', '交通运输部', '国体局', '省教育厅', '自治区政府', '海关总署',
       '交通运输部(中国民用航空局)', '新疆生产建设兵团', '中华妇女联合会', '中华全国总工会', '市教委',
       '河南省体育局', '应管部', '地震局', '自治区教育厅', '香港特别行政区教育局', '澳门特别行政区政府',
       '中华人民共和国澳门特别行政区高等教育局', '中国人民解放军火箭军', '香港特别行政区政府教育局', '香港特别行政区政府',
       '上海市 中国科学院', '中国人民武装警察部队总部', '国家军委', '外交部', '解放军战略支援部队航天系统部',
       '中国人民解放军战略支援部队', '共青团', '中国澳门特区政府', '中央办公厅', '司法部', '中国人民武装警察部队',
       '中国人民武装警察部队政治部', '解放军成都军区', '中央军委联合参谋部', '中国人民解放军空军总部',
       '中国共产党中央军事委员会政治工作部', '解放军兰州军区', '香港特别行政区政府高等教育署', '中国人民解放军',
       '解放军总参谋部', '澳门特别行政区社会文化司', '空军装备部'], dtype=object)

In [17]:

from collections import Counter
# 使用 Counter 统计元素出现次数
counts = Counter(data["部门"])

# 使用 sorted() 函数对出现次数进行降序排序
sorted_counts = sorted(counts.items(), key=lambda x: x[1], reverse=True)

# 打印结果
for element, count in sorted_counts:
    print(element, count)
省政府 780
省教育厅 386
教育部 95
市政府 89
自治区政府 80
市教委 38
自治区教育厅 21
nan 12
工信部 9
中国人民解放军陆军 8
香港特别行政区教育局 7
国民委 6
公安部 5
中国人民解放军空军 5
中国人民解放军海军 4
新疆生产建设兵团 3
中国人民武装警察部队 3
解放军总参谋部 3
中科院 2
统战部 2
交通运输部(中国民用航空局) 2
应管部 2
香港特别行政区政府 2
中国人民武装警察部队总部 2
浙江大学 1
中国共产党中央军事委员会 1
社科院 1
国卫委 1
交通运输部 1
国体局 1
海关总署 1
中华妇女联合会 1
中华全国总工会 1
河南省体育局 1
地震局 1
澳门特别行政区政府 1
中华人民共和国澳门特别行政区高等教育局 1
中国人民解放军火箭军 1
香港特别行政区政府教育局 1
上海市 中国科学院 1
国家军委 1
外交部 1
解放军战略支援部队航天系统部 1
中国人民解放军战略支援部队 1
共青团 1
中国澳门特区政府 1
中央办公厅 1
司法部 1
中国人民武装警察部队政治部 1
解放军成都军区 1
中央军委联合参谋部 1
中国人民解放军空军总部 1
中国共产党中央军事委员会政治工作部 1
解放军兰州军区 1
香港特别行政区政府高等教育署 1
中国人民解放军 1
澳门特别行政区社会文化司 1
空军装备部 1

In [19]:

from pyecharts import options as opts
from pyecharts.charts import Radar
# 数据
data = [
    {"value": [780, 386, 95, 89, 80, 38], "name": "实际值"},
    {"value": [1000, 1000, 1000, 1000, 1000, 1000], "name": "目标值"}
]

# 指示器名称
indicator = [
    {"name": "省政府", "max": 1000},
    {"name": "省教育厅", "max": 1000},
    {"name": "教育部", "max": 1000},
    {"name": "自治区政府", "max": 1000},
    {"name": "市教委", "max": 1000},
    {"name": "自治区教育厅", "max": 1000},
]

# 绘图
radar = (
    Radar()
    .set_global_opts(title_opts=opts.TitleOpts(title="中国院校部门雷达图"))
    .add_schema(schema=indicator)
    .add("数据", data, label_opts=opts.LabelOpts(is_show=False))
)

# 展示
radar.render_notebook()

Out[19]:

【无标题】_第15张图片

你可能感兴趣的:(python,爬虫,js)