Python应用(三)爬虫基础(二)普通网页爬虫

 可通用在不被拒绝访问的网站。

 Python应用(三)爬虫基础(二)普通网页爬虫_第1张图片

'''
@ 1.访问网页,获取网页页面
'''
import requests

def getHTMLText(url):
    try:
        response = requests.get(url)
        response.close()
        response.raise_for_status()  # 如果状态码不是200,产生异常
        response.encoding = 'utf-8'  # 字符编码格式改成 utf-8
        return response.text
    except:
        #异常处理
        return " error "
    pass

url = "https://www.baidu.com"
text = getHTMLText(url)

'''
@ 2.解析网页,过滤需要元素
'''
from bs4 import BeautifulSoup # 解析网页
import re # 筛选网页

def findHTMLText(text):
    soup = BeautifulSoup(text, "html.parser")         # 返回 BeautifulSoup 对象
    return soup.find_all(string=re.compile('视频')) # 结合正则表达式,实现字符串片段匹配

findHTMLText(text)

你可能感兴趣的:(工具学习专栏,#,爬虫工具专栏,python,爬虫,开发语言)