Python爬取新版湖经官网首页导航栏内容并生成CSV文件

 

一、题目

运用所学网络爬虫技术,爬取新版湖北经济学院学校主页(http://www.hbue.edu.cn)导航栏内包括学校概况、教学单位、组织机构...招生就业、信息公开等所有栏目下的全部文字内容,设计成表格形式并保存为CSV文件。

以教学单位为例(如下图所示),需将教学单位下的所有学院名称爬取下来,其他栏目同样要求。

 

二、报告要求

报告具体应满足如下要求:

1.报告采用统一封面,每个人填写报告题目、学院、班级、姓名、学号、时间等信息;

2.报告应包括摘要、实验环境、实验内容、实验目的、实验步骤、实验代码、实验结果(最终爬取、存储的表格附后)

3.报告最后要撰写课程学习小结

4.参考文献(如果有)

import requests
from bs4 import BeautifulSoup
import pandas as pd

url = 'http://www.hbue.edu.cn/'
html = requests.get(url).content
soup = BeautifulSoup(html, 'html.parser')
Hbue = pd.DataFrame({})
#循环读取导航栏中的每一项
for i in range(1,8):
    hbue = soup.find_all('li', {'class': 'menu-item i'+ str(i) +''})[0]
    spans = hbue.find_all('a')
    a = [i.string for i in spans[0:]]
    data = pd.DataFrame({
        str(a[0]): a[1:]
    })
    Hbue = pd.concat([Hbue, data],axis=1)
    Hbue.append(data)
#生成csv
Hbue.to_csv('hbue.csv')

记得要加载类库

 

Python爬取新版湖经官网首页导航栏内容并生成CSV文件_第1张图片

 

你可能感兴趣的:(爬虫练习)