python:爬虫之爬取中国大学排名

import requests
from bs4 import BeautifulSoup
import bs4

def getHTMLText(url):
    try:
        r = requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""


def fillUnivList(ulist,html):
    #提取关键数据写进列表
    soup = BeautifulSoup(html,"html.parser")
    t=soup.find('tbody')

    for tr in t.children:
        #其中每个tr标签对应一个学校的信息
        if isinstance(tr, bs4.element.Tag):# 检测tr标签,如果不是bs4库定义的tag,过滤掉
            tds=tr("td")#获取所有的td存到列表中
            ulist.append([tds[0].string, tds[1].string, tds[2].string,tds[3].string])#添加名次,校名,城市分数到列表中

def printUnivList(ulist,num):
    #打印表头
    tplt = "{0:^10}\t{1:{4}^10}\t{2:^10}\t{3:^10}" #冒号后的参数,指定了填充的空格使用的字符类型
    print(tplt.format("排名","校名","城市","总分",chr(12288)))
    for i in range(num):
        u = ulist[i]
        print(tplt.format(u[0],u[1],u[2],u[3],chr(12288)))


def main():
    uinfo=[]
    url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'
    html = getHTMLText(url)
    fillUnivList(uinfo,html)
    printUnivList(uinfo,20)

main()

你可能感兴趣的:(网络爬虫)