BeautifulSoup随笔

Learn BeautifulSoup

BeautifulSoup用法

引用崔庆才 静觅

基本语法及用法

初始化

soup = BeautifulSoup(html, 'lxml') (or BeautifelSoup(open(filename), 'lxml') )

四大对象种类

* Tag
    * 即标签 如soup.[title| head| a| p| 等等]
    * name: soup.name, soup.head.name
    * attrs 
* NavigableString
    * soup.p.string返回标签内容
* BeatifulSoup
* Commit

遍历

* 直接子节点 .contents .children
* 所有子孙节点 .descendants
* 父节点 .parent .parents
* 兄弟节点 .next_sibling .privious_sibling
* 节点内容 .string
* 多个内容 .string .stripped_strings

搜索文档树

* find_all(name, attrs, recursive, text, **kwargs)
    * name: 标签名为name 
        * 字符串
        * 正则表达式
        * 列表
        * True
        * 方法
    * kwargs: 。。。
    * text: 即查找文本内容
    * limit参数: 限制返回结果数量
    * recursive: 限制搜索节点是否需要子孙节点
* 另外方法有 find find_parent, find_all_next等等

CSS选择器

> select方法是很常用的
  • 通过标签 soup.select('title')
  • 通过类名 soup.select('.content')
  • 通过id soup.select('#link1')
  • 属性查找 soup.select('div [class="content"]')

你可能感兴趣的:(BeautifulSoup随笔)