Learn Beautiful Soup(7) —— BeautifulSoup的输出

BeautifulSoup不仅仅只是可以查找,定位和修改文档内容,同样也可以用一个好的 格式进行输出显示。BeautifulSoup可以处理不同类型的输出:

  • 格式化的输出
  • 非格式化的输出

格式化输出


BeautifulSoup中有内置的方法prettfy()来实现格式化输出。比如:
from bs4 import BeautifulSoup

html_markup = """

  • plants
    100000
  • algae
    Output in Beautiful Soup
    100000
""" soup = BeautifulSoup(html_markup,"lxml") print(soup.prettify())

输出:

Learn Beautiful Soup(7) —— BeautifulSoup的输出_第1张图片

prettify()可以用于BeautifulSoup对象也可以用于任何标签对象。比如:
producer_entry = soup.ul
print(producer_entry.prettify())


非格式化输出


可以使用str()和unicode()来进行非格式化输出。
如果我们对BeautifulSoup对象和标签对象使用str()方法,那么得到的就是一般的字符串输出样式。
我们也可以使用前篇讲到的encode()方法来指定编码格式的输出。
对BeautifulSoup对象或标签对象使用decode()方法来得到Unicode字符串。

BeautifulSoup中的输出格式化


HTML实体编码可以放进HTML文档中用来表示特别的字符和标识。这些标识不存在于键盘上,这些HTML实体编码只是当浏览器打开后才回看到效果。
在输出方法中,只有这几个HTML编码有点例外。>和<和&三个符号。除此之外其他的特别标识都是被转换成Unicode编码当创建BeautifulSoup对象时,且当使用Prettify()方法或者其他方法输出时,我们只能得到UTF-8格式的字符串。

html_markup = """
& & ampersand
¢ ¢ cent
© © copyright
÷ ÷ divide
> > greater than



输出:

Learn Beautiful Soup(7) —— BeautifulSoup的输出_第2张图片

可以看到两个没有被转换。BeautifulSoup自带的输出格式器来控制输出。输出格式器有以下几种类型。
  • miimal
  • html
  • None
  • function
我们可以在输出方法中传递上述输出格式器参数,如prettify(),ncode(),decode()

miimal格式化


在这种格式化模式下,字符串被处理成一个有效的HTML代码。这是默认的格式化输出,此时输出结果就和前面的一样。不能转换&, >和<

Html格式化


这种格式化模式下,BeautifulSoup将会将Unicode字符转换成HTML编码形式。
print(soup.prettify(formatter="html"))


输出:
Learn Beautiful Soup(7) —— BeautifulSoup的输出_第3张图片


None格式化


这种情况下,BeautifulSoup不会改变字符串。这会导致产生一个非法的HTML代码。
print(soup.prettify(formatter=None))

输出:

Learn Beautiful Soup(7) —— BeautifulSoup的输出_第4张图片

函数格式化


我们可以定义一个函数来处理字符串。比如去掉a字符。

def remove_chara(markup):
    return markup.replace("a","")
                 
soup = BeautifulSoup(html_markup,"lxml")
print(soup.prettify(formatter=remove_chara))

输出:
Learn Beautiful Soup(7) —— BeautifulSoup的输出_第5张图片

注意,其中字符a被替换掉了,但是注意的是&, >,和<也被转换了。

使用get_text()


从网页中得到文本是常见的工作,BeautifulSoup提供了get_text()方法来达到目的。

如果我们只想得到BeautifulSoup对象的文本或标签对象的文本内容,我们可以使用get_text()方法。比如:
html_markup = """

  • plants
    100000
  • algae
    100000
""" soup = BeautifulSoup(html_markup,"lxml") print(soup.get_text())

输出:
plants
100000

algae
100000


get_text()方法返回BeautifulSoup对象或标签对象中的文本内容,其为一个Unicode字符串。但是get_text()有个问题是它同样也会返回javascript代码。

去掉javascript代码的方法如下:
[x.extract() for x in soup_packtpage.find_all('script')]

这样就会用处掉所有脚本元素。

你可能感兴趣的:(Python,python学习——Learn,Beautiful,Soup)