使用BS4解析网页内容 并获取指定内容

# -*- coding: utf-8 -*-
import sys
import requests

reload(sys)
sys.setdefaultencoding("utf-8")
# 使用BS4解析网页 并获取相关数据
# BeautifulSoup4 只用来解析网页

from bs4 import  BeautifulSoup
###################################
# 1 通过requests 获取风景图片网的内容 使用BS4解析
# url = 'http://www.ivsky.com/tupian/ziranfengguang/'
# headers = {
#     "User-Agent": 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0'
# }
# response = requests.get(url, headers=headers)
# content = response.content
# 以上是联网读取 为了提升运行速度  将代码存到本地
content = open("1.html", 'r').read()
# 初始化BS对象 并设置一下参数
# 通过 lxml 来解析content
bs = BeautifulSoup(content, "lxml")
# print bs
# 获取网页标题
# BS通过节点解析
# 第二个title指的网页中的标签
title = bs.title.text
print title
# BS4找到所有图片
img_list = bs.find_all("img")
for img in img_list:
    # print img
    # 取出img alt 的内容
    print img['alt']


你可能感兴趣的:(使用BS4解析网页内容 并获取指定内容)