Shelleylu

【5】基础知识类---BeautifulSoup4

BeautifulSoup4

一、入门

1.基本介绍

用处：和 lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。

比较：

抓取工具	速度	使用难度	安装难度
正则re	最快	困难	无（内置）
Beautiful Soup	慢	最简单	简单
lxml(xpath)	快	简单	简单

2.入门使用

【基础】

bs4的入门：
0. 安装: pip install beautifulsoup4
1. 导入模块：from bs4 import BeautifulSoup
2. 创建BeautifulSoup对象
    参数一：解析的文本内容
    参数二：使用的解析器，一般为lxml（必须添加，否则会发出警告）
3. 格式化输出 soup 对象的内容

【示例】

"""
bs4的入门：
0. 安装: pip install beautifulsoup4
1. 导入模块：from bs4 import BeautifulSoup
2. 创建BeautifulSoup对象
    参数一：解析的文本内容
    参数二：使用的解析器，一般为lxml（必须添加，否则会发出警告）
3. 格式化输出 soup 对象的内容
"""
# 1. 导入模块
from bs4 import BeautifulSoup

html = """
The Dormouse's story

The Dormouse's story
Once upon a time there were three little sisters; and their names were
,
Lacie and
Tillie;
and they lived at the bottom of a well.
...
"""

# 2. 创建BeautifulSoup对象
# 注意点：
# 1.填写解析库 lxml（否则会报错）
# 2.标签自动补全
soup = BeautifulSoup(html, 'lxml')

# 3. 格式化输出 soup 对象的内容
print(soup.prettify())

二、基本使用

1.最重要的方法 & 获取子元素列表

格式	说明
（1）节点的选择	soup对象.标签名
（2）文本内容获取	soup对象.标签名.string
	soup.标签名.get_text()
（3）属性获取	soup.标签名.get()
	soup.标签名.attrs
（4）获取子元素列表	soup.标签名.contents
	soup.标签名.children

【示例】

# 1. 导入模块
from bs4 import BeautifulSoup

html = """
The Dormouse's story

The Dormouse's story
Once upon a time there were three little sisters; and their names were
,
Lacie and
Tillie;
and they lived at the bottom of a well.
...
"""

# 2. 创建BeautifulSoup对象
# 注意点：
# 1.填写解析库 lxml（否则会报错）
# 2.标签自动补全
soup = BeautifulSoup(html, 'lxml')

# (1)节点选择
# 格式：soup对象.标签名（默认获取一条对象）
print(soup.title)
print(soup.p)

# (2)文本内容获取 --> get_text()
# 格式：soup对象.标签名.string （获取到一个bs4中NavigableString对象）
print(soup.title.string)
print(type(soup.title.string))  #

# 格式：soup.标签名.get_text() (获取到字符串 str)
print(soup.title.get_text())
print(type(soup.title.get_text()))  #

# (3)属性获取  --> get()
# A. 获取属性内容
# 格式：soup.标签名.get()
# 注意：如果是class属性，返回的是 list ；如果是name，返回的是 str.
p = soup.p
print(p.get('name'))
print(type(p.get('name')))  # 

print(p.get('class'))
print(type(p.get('class')))  # 

# B. 获取所有属性名（字典）
# 格式：soup.标签名.attrs
print(p.attrs)  # {'class': ['title'], 'name': 'dromouse'}

# 3. 格式化输出 soup 对象的内容
print(soup.prettify())

# （4）获取子元素
# 获取所有子标签
# A. 格式：soup.标签名.contents  (获取一个列表)
print(soup.body.contents)
print(type(soup.body.contents))  # 

# B. 格式：soup.标签名.children （获取一个迭代器，说明可以使用for循环）
print(soup.body.children)
print(type(soup.body.children))  # 

children= soup.body.children
for child in children:
    print(child)

2.查询find & find_all函数

【基本点】

【find函数】
1. 标签查询： soup.find("标签名") 
2. 属性查询： soup.find(attrs={"属性名"："属性值"}) 或 soup.find（"属性名"="属性值"）
3. 文本内容查询：soup.find(text='文本内容')
4. 混合使用，一起查询

【find_all函数】
1. 标签查询： soup.find_all(["标签名1","标签名2"]) 
2. 属性查询： soup.find_all(attrs={"属性名"："属性值"}) 或 soup.find_all（"属性名"="属性值"）
3. 文本内容查询：soup.find_all(text='文本内容')
4. 混合使用，一起查询

【find & find_all函数的区别】

【findall函数】
# 1.返回值是一个列表
# 2.可以多标签查询
# 3.可以多条件查询

【示例】

（1）find函数

"""
【find函数】
1. 标签查询： soup.find("标签名")
2. 属性查询： soup.find(attrs={"属性名"："属性值"}) 或 soup.find（"属性名"="属性值"）
3. 文本内容查询：soup.find(text='文本内容')
"""
# 1. 导入模块
from bs4 import BeautifulSoup

html = """
The Dormouse's story

The Dormouse's story
Once upon a time there were three little sisters; and their names were
,
Lacie and
Tillie;
and they lived at the bottom of a well.
...
"""

# 2. 创建BeautifulSoup对象
soup = BeautifulSoup(html, 'lxml')

# (1). 标签查询
# 格式: soup.find("标签名")==>soup.标签名  (返回一条标签对象)
# result = soup.find('title')
result = soup.find('p')
print(result)
print(type(result))  #

# (2). 属性查询
# 格式： soup.find(attrs={"属性名"："属性值"})  # 返回bs4.element.Tag标签对象
result = soup.find(
    attrs={
        'class': "story"
    }
)
print(result)
print(type(result))  # 

# 属性查询可以变成关键词查询
result = soup.find(id='link1')
print(result)

# (3). 文本内容查询
# 格式： soup.find(text='文本内容') (返回具体的文本内容bs4.element.NavigableString)
result = soup.find(text='...')
print(result)
print(type(result))  #

# (4). 混合使用，一起查询
result = soup.find(
    'a',
    attrs={
        "id": 'link1'
    },
)
print(result)

（2）find_all函数

"""
【findall函数】
返回值是一个列表
# 可以多标签查询
# 可以多条件查询
"""
# 1.返回值是一个列表
result = soup.find_all(
    attrs={
        'class':'sister'
    }
)
print(result)
print(type(result))  #
for item in result:
    print(item)

# 2.可以多标签查询
# 3.可以多条件查询
# 注意： soup.find(['b','p'])只能查询出最先匹配的标签
result = soup.find_all(
    ['b', 'a'],
    attrs={
        "class": 'sister',
        "id": "link1"
    }
)
print(result)

3.查询select函数

【基本点】

"""
【select函数】
支持 css 选择器：
（1）标签选择器(标签名)
（2）类选择器（点.）
（3）id选择器(#号)
（4）层级选择器
    a. 后代选择器（空格\s）
    b. 子代选择器（大于号>）
    c. 平级选择器（或）（逗号，）
(5)属性选择器（标签名[属性名="属性值"]）
# 与xpath区别是@

样式选择器（并）：(无)
# 注意点：返回列表
"""

【示例】

# 1. 导入模块
from bs4 import BeautifulSoup

html = """
The Dormouse's story

The Dormouse's story
Once upon a time there were three little sisters; and their names were
,
Lacie and
Tillie;
and they lived at the bottom of a well.
...
"""

# 2. 创建BeautifulSoup对象
soup = BeautifulSoup(html, 'lxml')

# select 支持css 选择器

# 支持 css 样式选择器：
# （1）标签选择器
# 格式：soup.select("标签名")
result = soup.select('p')

# （2）类选择器（.号）
# 格式：soup.select(".class类名")
result = soup.select(".title")

# （3）id选择器（#号）
# 格式： soup.select("#id名")
result = soup.select("#link1")

# （4）层级选择器
#     a. 后代选择器(空格)
#     包括子孙级
result = soup.select('body a')
#     b. 子代选择器(>号)
result = soup.select('head > title')
#     c. 平级选择器(,号)  （或）
result = soup.select('b,a')
#     d. 样式选择器(无)   （并）
result = soup.select('.title.title2')

# (5)属性选择器
# 格式： soup.select('标签名[属性名="属性值"]')
# 注意：区别是 @
# xpath: //p[@name="dromouse"]'
# css: p[name="dromouse"]

result = soup.select('p[name="dromouse"]')
print(result)

4.四大对象

对象名	说明
BeautifulSoup	文档对象
Tag	标签对象（属性、文本内容）
NavigableString	内容字符串对象
Comment	注释对象

# 导入模块
from bs4 import BeautifulSoup

html = """
The Dormouse's story

The Dormouse's story
Once upon a time there were three little sisters; and their names were
,
Lacie and
Tillie;
and they lived at the bottom of a well.
...
"""

# 创建BeautifulSoup对象
soup = BeautifulSoup(html, 'lxml')

# （1）BeautifulSoup 文档对象：bs4.BeautifulSoup
print(type(soup))  # 

# （2）Tag 标签对象（属性、文本内容）:  bs4.element.Tag
print(type(soup.title))  # 

# （3）NavigableString 内容字符串对象： bs4.element.NavigableString
print(type(soup.title.string))  # 

# （4）Comment 注释对象： bs4.element.Comment
print(type(soup.a.string))  #

你可能感兴趣的:(BaseKonwledge)

开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring