[Python3爬虫]Beautiful Soup解析库

解析库与Beautiful Soup

通过request库,我们已经能够抓取网页信息了,但要怎么提取包含在Html代码里面的有效信息呢?谈到匹配有效信息你肯定会想到正则表达式,这里就不讨论了,实际上关于正则表达式已经可以写一本书了,并且由于网页特殊的层级结构,也没必要使用正则表达式。python提供了更好的html和xml的解析库Beautiful Soup 和XPath等。

什么是Beautiful Soup

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间

———Beautiful Soup中文文档

安装

pip3 install beautifulsoup4

学习准备

为了学习和测试Beautiful Soup,我写了一个简单的程序框架,包含3个函数获取页面,解析页面,和主函数,测试的时候只要修改解析函数的部分代码就可以了

import requests
from bs4 import BeautifulSoup

def getHtml(url):   #获取网页内容
    try:           
        r = requests.get(url,timeout = 30)
        r.encoding = r.apparent_encoding; #设置编码格式为原网页的编码格式,避免乱码
        return r.text
    except:
        return ""

def soupHtml(html):  #解析网页内容
    print(html)
    soup = BeautifulSoup(html,'lxml')
    # 解析代码
    

if __name__ == '__main__':
    url = "http://www.baidu.com"
    html = getHtml(url)
    soupHtml(html)

可以看到爬取的是百度的首页,之后的代码,添加进去就能运行了

基本用法

BeautifulSoup(content,"html.parser"/"lxml")

两个参数cnetent表示待解析的网页内容,后面的参数可以理解为待解析的格式。lxml解析器有解析HTML和XML的功能,而且速度快,容错能力强,所以推荐使用它。

选择元素

根据标签名来选择元素

soup = BeautifulSoup(html,'lxml')
print(soup.title)
print(soup.head)
print(soup.div)

>>> 百度一下,你就知道

连带标签一起输出,当有多个标签匹配时,只返回第一个

获取内容

标签的string方法

soup = BeautifulSoup(html,'lxml')
print(soup.title.string)
print(soup.head.string)
print(soup.div.string)
>>> 百度一下,你就知道

获取标签的属性

html中的标签有很多属性,例如,id,name,class,href等等,可以通过attrs获取标签的属性

soup = BeautifulSoup(html,'lxml')
print(soup.link.attrs)

>>> {'rel': ['stylesheet'], 'type': 'text/css', 'href': 'http://s1.bdstatic.com/r/www/cache/bdorz/baidu.min.css'}
获取属性的值

通过返回的值,可以知道它是字典类型的结构,这样就可以通过键获取他的值

soup = BeautifulSoup(html,'lxml')
print(soup.p)

>>> 

把百度设为主页关于百度About Baidu

print(soup.p.attrs) >>> {'id': 'lh'} print(soup.p.attrs['id']) >>>lh

关联选择

在做选择的时候,有时候不能做到一步就选到想要的节点元素,需要先选中某一个节点元素,然后以它为基准再选择它的子节点、父节点、兄弟节点等

1.子节点和子孙节点
  • 获取子节点 contents,children
for i,content in enumerate(soup.head.contents):
    print(i,content)
for i,child in enumerate(soup.head.children):
    print(i,child)

>>>0 
1 
2 
3 百度一下,你就知道
4