实战--用BeautifulSoup提取数据--中国大学排名

import requests
from bs4  import BeautifulSoup  #将html文档变成更具有结构性的dom树,便于解析,提取数据


#获取html界面
def GetHtmlText(url):   
  try:
      r=requests.get(url)
      r.encoding=r.apparent_encoding
      return r.text
  except:
      return "网页获取失败"

def FillUnivList(ulist,html):
  soup=BeautifulSoup(html,'html.parser')
  for tr in soup.find('tbody').children: #遍历tbody内的所有tr标签
    if isinstance(tr,bs4.element.Tag):  #将非tr标签部分过滤掉,而将tr标签作进一步处理
      tds=tr('td')         #将所有tr标签内的td标签做查询并放入ulist列表
      ulist.append([tds[0].string,tds[1].string,tds[2].string,tds[3].string])
  #将tds的前四个td标签 (我们需要的数据),放入ulist列表


def PrintUnivList(ulist,num):
  tplt="{0:^10}\t{1:{4}^10}\t{2:<10}\t{3:<15}"
  print(tplt.format('排名','学校名称','省市','分数',chr(12288))+'\n'+'\n') #参考format用法
  for i in range(num):    #遍历num个大学信息 并将num个大学信息输出
      u=ulist[i]   
      print(tplt.format(str(u[0]),str(u[1]),str(u[2]),str(u[3]),chr(12288))) 
  return u
"""
def SaveUnivList(u):
  r=print("{:^10}\t{:<10}\t{:<20}\{:<30}".format(u[0],u[1],u[2],u[3])) 
  with open(''大学排名.txt,'wb') as f:
    if f.write(r.text):
       f.close()
       print('保存成功')
    else:
       print('保存失败')
"""
    
  
def main():
  uinfo=[]  #每一个大学的信息放到一个列表中
  url="http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html"
  #爬前200名
  num=200
  
  html=GetHtmlText(url)
  FillUnivList(uinfo,html)
  PrintUnivList(uinfo,num)
  #SaveUnivList(l)

if __name__=="__main__":
  main()

值得注意的是:
#format 中英文格式混合输出 对不齐的问题 解决方法:
‘’’
问题一:{4}为什么是4
tplt="{0:10}\t{1:{4}10}\t{2:<10}\t{3:<30}" 其中{4}代表的是chr(12288)中文空格,在第5个位置,索引是0开始,所以是4

问题二:为什么{4}放在第二个位置?
因为学校名称那里会对不齐 需要处理 就放在这里第二个位置
详情参考format用法菜鸟教程:http://www.runoob.com/python/att-string-format.html

你可能感兴趣的:(爬虫,爬虫学习过程)