更新日期: 2021.03.28
本节学习内容 :
练习使用 bs4 和 xlwings - 爬取慕课网免费课程清单并存为 Excel 文件。
2020.03.28日 慕课网免费课程清单有20个网页, 每页有40个课程, 点击课程的链接可进一步获取课程的难度和时长等信息。
学习了几种爬虫工具,然后做小练习,已经预计到会遇到问题,没想到…那么多…
大部分是因为自己的粗心,小部分是真的不知道…
import requests
from requests.exceptions import RequestException
from bs4 import BeautifulSoup
import re
import time
import random
import xlwings as xw
headers={
'User Agent': 'replace with your header'}
course_names, course_links =[], []
# 获取一个网页的代码
def get_one_page(url):
try:
response = requests.get(url, headers=headers)
if response.status_code == 200: # 检查状态是否正常,只有"200"代码表示正常状态
html = response.text
return html
else:
print("Failed to get website codes due to status_code nok")
except RequestException:
print("Exception found when get website codes, maybe no more link to be worked on~")
def fetch_info()