02_BeautifulSoup的使用1

参考资料地址：https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#id28

练习数据准备

获取个人首页的html页面，并写入一个html文件中：

import codecs

from bs4 import BeautifulSoup
from selenium import webdriver


base_url = 'https://www.jianshu.com'
user = '/u/39cef8a56bf9'

driver = webdriver.PhantomJS()
driver.get(base_url + user)
html = driver.page_source

bsobj = BeautifulSoup(html)
bsobj.encode('utf-8')
with codecs.open('index.html', 'w+', encoding='utf-8') as f:
    f.write(bsobj.prettify())

说明：本来想用requests获取页面的html的，但是的反爬机制应该比较厉害，在headers中添加浏览器信息搞不定，所以选择了用selenium+phantomJS获取页面html。
如果想用requests可以试试如下方式：

import codecs

import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent

base_url = 'https://www.jianshu.com'
user = '/u/39cef8a56bf9'
ua = UserAgent()
headers = {
    'User_Agent': ua.random
}

r = requests.get(base_url + user, headers=headers, verify=False)
r.encoding = 'utf-8'
with codecs.open('index.html', 'w+', encoding='utf-8') as f:
    f.write(r.text)

BeautifulSoup学习

前面已经将一个html页面以beautifulsoup对象的格式保存在了index.html中，接下来将用这个html文件用作示例练习（PS：这个时候就不要去访问网站了，直接读取保存好的文件）。

1、对象的种类

要掌握BeautifulSoup中对象操作，需要了解html的结构：http://www.runoob.com/html/html-elements.html。

image.png

1.标签 tag

import codecs

from bs4 import BeautifulSoup

bsobj = BeautifulSoup(codecs.open('index.html', 'r', 'utf-8'))
get_tag = bsobj.link
print(get_tag)

获得link标签的结果：

2.标签Tag有很多属性，比如：name和attributes。
3.Name：每个Tag都有名字，通过.name获取，比如：a、p、title等都是名字

get_title = bsobj.title
print(get_title)
print(get_title.name)

结果：


   乐大爷L - 
  
title

4.属性Attributes：一个标签会包含多个属性，属性在开始标签中，tag中属性的操作方法与字典的操作方法一样,并且支持增删改查

get_tag = bsobj.link
print(get_tag)
# 查
print(get_tag['href'])
print(get_tag.attrs)
# 增、删、改
get_tag['new'] = 1
del get_tag['rel']
get_tag['href'] = 'be changed'
print(get_tag)

结果：

# 修改前

# href属性的值
//cdn2.jianshu.io/assets/web-454c23dafcf6c3369b7c.css
# 标签中所有属性的值，以字典格式输出
{'href': '//cdn2.jianshu.io/assets/web-454c23dafcf6c3369b7c.css', 'media': 'all', 'rel': ['stylesheet']}
# 修改后的标签

5.多值属性：tag中的属性支持多值属性，常见的多值属性是class，多值属性的返回结果是列表

get_tag = bsobj.link
get_tag['class'] =['duo', 'zhi', 'shu', 'xing']
print(get_tag)
print(get_tag['class'])
print(type(get_tag['class']))

结果：


['duo', 'zhi', 'shu', 'xing']

6.可遍历的字符串：字符串包含在tag内，通过.string获取，字符串的内容不能被编辑，只能通过replace_with()进行替换。

get_title = bsobj.title
# 改变前的title标签
print(get_title)
# 获取标签中的内容
print(get_title.string)
print(type(get_title.string))
# 采用replace_with改变标签内容
get_title.string.replace_with("wo gai bian le, 乐大爷的")
print(get_title)

结果：


   乐大爷L - 
  

   乐大爷L - 
  

  
wo gai bian le, 乐大爷的

2、遍历文档树

遍历文档树可以获得文档中的子节点、父节点、兄弟节点等标签。

子节点：tag.name、tag.contents、tag.string、tag.strings、tag.stripped_strings等
父节点：tag.parent、tag.parents
兄弟节点：next_sibling、previous_sibling、next_siblings、previous_siblings
回退和前进：.next_elements、.previous_elements、next_element 和 .previous_element

1、子节点

要获取子节点，首先要分析子节点中的内容，一个tag标签中，通常会包含多个字符串或者多个其他的tag标签。由于字符串没有子节点，是不具备遍历属性的。

1）、获取所有的link标签：前面提到bsobj.link可以获取link标签信息，但是这种方式只能获取到第一条link信息，要获取文档中全部的link标签信息，可以用bsobj.find_all('link')，返回的结果是一个列表。

links = bsobj.find_all('link')
for link in links:
    print(link)

# 结果信息


...

2）、获取.contents和.children属性：
.contents:获取一个标签中的所有内容，以列表的格式输出。当然，由于contents中可能包含子节点信息，则所有的子节点信息都会在列表中输出。

get_title = bsobj.body.div.a
print(get_title)
print(get_title.contents)

print(len(get_title.contents))
print(get_title.contents[1])

结果：




['\n', , '\n']

3

.children:这是一个迭代器，可以对tag标签的子节点进行循环获取。比如，contents是获取到一个标签之间的所有内容，同一层级的多个子节点在contents中算作列表中的一个元素。此时，可以通过.children将子节点中的同一层级的标签进行分割。

get_title = bsobj.body.div.li
li_tag = get_title.contents[1]
print(li_tag)
print(type(li_tag.children))
child_list = []
for child in li_tag.children:
    child_list.append(child)
print(child_list)

结果：



          首页
         




['\n', 
          首页
         , '\n', 
, '\n']

3）、.descendants:获取子节点和子孙节点
.children和.contents只会包含tag的直接子节点，对直接子节点中的子孙节点不会分离出来。.descendants返回的结果是一个生成器。

get_title = bsobj.body.div.li
li_tag = get_title.contents[1]
print(len(list(li_tag.children)))
print(list(li_tag.children))
print(len(list(li_tag.descendants)))
print(list(li_tag.descendants))

结果：首页这个内容，相当于是span的子节点，.descendants会把它当成子孙节点处理，其他子孙节点标签同理。

5
['\n', 
          首页
         , '\n', 
, '\n']
7
['\n', 
          首页
         , '\n          首页\n         ', '\n', 
, '\n', '\n']

4）、.string：获取NavigableString 类型子节点
当一个tag只有一个NavigableString 类型子节点时，可以采用.string获取，但是当有多个子节点时，.string无法得知获取哪一个，会直接返回None。
5）、.strings 和 stripped_strings：获取一组NavigableString 类型子节点
.strings获取的信息中，包含空行，stripped_strings可以去除前后所有的空行以及为空的内容

get_title = bsobj.body.div
for sting in get_title.stripped_strings:
    print(sting)

结果：

写文章
注册
登录
夜间模式
开
关
...

2、父节点

每个tag都会包含父节点，比如前面采用bsobj.body.div获取节点信息，body就是div的一个父节点。

1）、parent

get_title = bsobj.body.div.ul
print(get_title.parent)
print(get_title.parent.name)

结果：





....



div

2）、parents：通过元素的 .parents 属性可以递归得到元素的所有父辈节点

get_title = bsobj.body.div.ul
for parent in get_title.parents:
    if parent is None:
        print(parent)
    else:
        print(parent.name)

结果：

div
div
div
nav
body
html
[document]

3、兄弟节点

标签处于同一层的节点，他们的父节点是同一个，这样的节点称为兄弟节点。

1）、.next_sibling 和 .previous_sibling 属性来查询兄弟节点，实际文档中的tag的 .next_sibling 和 .previous_sibling 属性通常是字符串或空白。

get_title = bsobj.head.meta
print(get_title)
print(get_title.previous_sibling)
print(get_title.next_sibling)

2）、.next_siblings 和 .previous_siblings：通过 .next_siblings 和 .previous_siblings 属性可以对当前节点的兄弟节点迭代输出。

image.png

get_title = bsobj.head.meta
for sibling in get_title.next_siblings:
    print(repr(sibling))

结果：

'\n'

'\n'

...

4、回退和前进

让解析的属性指向上一个被解析对象或下一个被解析对象。

1）、.next_element 和 .previous_element：.next_element 属性指向解析过程中下一个被解析的对象(字符串或tag),结果可能与 .next_sibling 相同,但通常是不一样的。

get_title = bsobj.body.div.ul.li.span
print(get_title)
print(get_title.nex_sibling)
print(get_title.next_element)

结果：

2）、.next_elements 和 .previous_elements：通过 .next_elements 和 .previous_elements 的迭代器就可以向前或向后访问文档的解析内容,就好像文档正在被解析一样

get_title = bsobj.body.div.ul.li.span
for element in get_title.next_elements:
    print(repr(element))

总结

本节学习了beautifulsoup的tag对象、遍历文档树的使用
通过查找子节点、父节点等信息，可以获取到想要的标签信息
通过获取标签信息的.name、.attrs等，可以获取精确的信息
后续继续学习搜索文档树