python爬取中国大学排名最简单方法

爬取方法和上篇爬取豆瓣top250方法类似

文章目录

  • 找到网站url
  • 导入requests库
  • 通过lxml导入etree
  • 获取网站信息并解析
  • 获取网页表格信息
  • 打印信息
  • 效果展示

找到网站url

http://www.zuihaodaxue.com/shengyuanzhiliangpaiming2017.html

导入requests库

import requests

通过lxml导入etree

from lxml import etree

获取网站信息并解析

url='http://www.zuihaodaxue.com/shengyuanzhiliangpaiming2017.html'
data=requests.get(url).content
s=etree.HTML(data)

获取网页表格信息

pm=s.xpath('/html/body/div[3]/div/div[2]/div/div[2]/div/table/tbody/tr/td[1]/text()')
name=s.xpath('/html/body/div[3]/div/div[2]/div/div[2]/div/table/tbody/tr/td[2]/div/text()')
shengshi=s.xpath('/html/body/div[3]/div/div[2]/div/div[2]/div/table/tbody/tr/td[3]/text()')
bg=s.xpath('/html/body/div[3]/div/div[2]/div/div[2]/div/table/thead/tr/th/text()')

打印信息

print("{}\t{}\t{}".format(bg[0],bg[2],bg[1]))
for i in range(1002):
    print("{}\t{}\t{}".format(pm[i],shengshi[i],name[i]))

效果展示

有点多…很多…我就展示一部分吧

排名	省市	学校名称
1	北京	清华大学
2	北京	北京大学
3	北京	中国科学院大学
4	安徽	中国科学技术大学
5	上海	复旦大学
6	北京	中国人民大学
7	上海	上海交通大学
8	浙江	浙江大学
9	江苏	南京大学
10	天津	南开大学
11	上海	同济大学
12	北京	北京航空航天大学
13	北京	对外经济贸易大学
13	上海	上海财经大学
15	北京	中央财经大学
16	北京	外交学院
17	天津	天津大学
18	湖北	武汉大学
18	北京	北京师范大学
20	北京	北京外国语大学
21	陕西	西安交通大学
22	福建	厦门大学
23	广东	中山大学
24	湖北	华中科技大学
25	江苏	东南大学
26	北京	北京理工大学
27	北京	中国政法大学
28	北京	北京邮电大学
29	广东	香港中文大学(深圳)
30	四川	西南财经大学
31	黑龙江	哈尔滨工业大学
32	上海	华东师范大学
33	上海	上海外国语大学
34	广东	华南理工大学
35	陕西	西北工业大学
36	湖北	中南财经政法大学
37	四川	四川大学
38	北京	中国传媒大学
39	湖南	中南大学
40	辽宁	大连理工大学
41	上海	上海纽约大学
42	北京	北京交通大学
43	湖南	湖南大学
43	四川	电子科技大学
45	北京	北京科技大学
46	北京	北京协和医学院
47	吉林	吉林大学
48	北京	华北电力大学(北京)
49	重庆	重庆大学
50	山东	山东大学
51	北京	北京语言大学
52	天津	天津医科大学
53	北京	首都医科大学
54	广东	暨南大学
55	江苏	南京航空航天大学
56	上海	华东理工大学
56	江苏	南京理工大学
58	陕西	西安电子科技大学
58	辽宁	东北财经大学
60	广东	南方科技大学
61	北京	中国农业大学

你可能感兴趣的:(爬虫学习)