Bruce_Liuxiaowei

解析数据的Beautiful Soup 模块

使用Beautiful Soup解析数据

Beautiful Soup是一个用于从HTML和XML文件中提取数据的Python模块。Beautiful Soup提供一些简单的函数用来处理导航、搜索、修改分析树等功能。Beautiful Soup 模块中的查找提取功能非常强大，而且非常便捷。Beautiful Soup自动输入文档转换为Unicode编码，输出文档转换为UTF-8编码。开发者不需要考虑编码方式，除非文档没有指定一个编码方式，这时，Beautiful Soup就不能自动识别编码方式了。

Beautiful Soup 的安装

目前推荐使用的是Beautiful Soup 4, 已经被移植到bs4当中，需要from bs4 然后导入Beautiful Soup 。

pip install bs4

解析器

Beautiful Soup支持Python标准库中包含的HTML解析器，但它也支持许多第三方Python解析器，其中包含lxml解析器。根据不同的操作系统，您可以使用以下命令之一安装lxml:

§ apt-get install python-lxml

§ easy_install lxml

§ pip install lxml

另一个解析器是html5lib,它是一个用于解析HTML的Python库，按照Web浏览器的方式解析HTML。您可以使用以下命令之一安装html5lib：

§ apt-get install python-html5lib

§ easy_install html5lib

§ pip install html5lib

关于每个解析器的优缺点如下表：

解析器	用法	优点	缺点
Python标准库	BeautifulSoup(markup, ‘html.parser’)	Python 标准库执行速度适中	（在Python2.7.3或3.2.2之前的版本中）文档容错能力差
lxml的HTML解析器	BeautifulSoup(markup, ‘lxml’)	速度快文档容错能力强	需要安装C语言库
lxml的XML解析器	BeautifulSoup(markup, ‘lxml-xml’) BeautifulSoup(markup,‘xml’)	速度快唯一支持XML的解析器	需要安装C语言库
html5lib	BeautifulSoup(markup, ‘html5lib’)	最好的容错性，以浏览器的方式解析文档生成HTML5格式文档	速度慢，不依赖外部扩展

Beautiful Soup的简单应用

Beautiful Soup安装完成以后，下面将将介绍如何通过Beautiful Soup 库进行HTML的解析工作，具体示例步骤如下：

（1）导入bs4库，然后创建一个模拟HTML代码的字符串，代码如下：

# 作者      ：liuxiaowei
# 创建时间   ：2/5/22 9:25 PM
# 文件      ：使用BeautifulSoup解析HTML代码.py
# IDE      ：PyCharm

from bs4 import BeautifulSoup  # 导入BeautifulSoup库

# 创建模拟HTML代码的字符串
html_doc = """


第一个 HTML 页面


body 元素的内容会显示在浏览器中。
title 元素的内容会显示在浏览器的标题栏中。


"""

(2)创建BeautifulSoup对象，并指定解析器为lxml，最后通过打印的方式将解析的HTML代码显示在控制台当中，代码如下：

# 创建一个BeautifulSoup对象，获取页面正文
soup = BeautifulSoup(html_doc, features="lxml")
print(soup)                  # 打印解析的HTML代码
print(type(soup))            # 打印数据类型

程序运行结果如下：

<html>
<head>
<title>第一个 HTML 页面</title>
</head>
<body>
<p>body 元素的内容会显示在浏览器中。</p>
<p>title 元素的内容会显示在浏览器的标题栏中。</p>
</body>
</html>

<class 'bs4.BeautifulSoup'>

说明

如果将html_doc字符串中的代码，保存在index.html文件中，可以通过打开HTML文件的方式进行代码解析，并且可以通过prettify()方法进行代码的格式化处理，代码如下：

with open('index.html', 'w') as f:
  f.write('html_doc')
soup = BeautifulSoup(open("index.html"), "lxml")
print(soup.prettify())

获取节点内容

使用Beautiful Soup 可以直接调用节点的名称，然后再调用对应的string属性便可以获取到节点内的文本信息。在单个节点结构层次非常清晰的情况下，使用这种方式提取节点信息的速度是非常快的。

获取节点对应的代码

示例代码如下：

#_*_coding:utf-8_*_
# 作者      ：liuxiaowei
# 创建时间   ：2/5/22 9:25 PM
# 文件      ：使用BeautifulSoup解析HTML代码.py
# IDE      ：PyCharm

from bs4 import BeautifulSoup  # 导入BeautifulSoup库

# 创建模拟HTML代码的字符串
html_doc = """


第一个 HTML 页面


body 元素的内容会显示在浏览器中。
title 元素的内容会显示在浏览器的标题栏中。


"""
# 创建一个BeautifulSoup对象，获取页面正文

with open('index.html', 'w') as f:
    f.write(html_doc)
soup = BeautifulSoup(open('index.html'), "lxml")
print(soup.prettify())

程序运行结果如下：

head节点内容为：
 <head>
<title>第一个 HTML 页面</title>
</head>
body节点内容为：
 <body>
<p>body 元素的内容会显示在浏览器中。</p>
<p>title 元素的内容会显示在浏览器的标题栏中。</p>
</body>
title节点内容为：
 <title>第一个 HTML 页面</title>
p节点内容为：
 <p>body 元素的内容会显示在浏览器中。</p>

注意

在打印p节点对应的代码时，会发现只打印了第一个P节点内容，这说明当多个节点时，该选择方式只会获取第一个节点中的内容，其他后面的节点将被忽略。

说明

除了通过制订节点名称的方式获取节点内容以外，还可以使用name属性获取节点的名称，示例代码如下：
```
# 获取节点名称
print(soup.head.name)
print(soup.body.name)
print(soup.title.name)
print(soup.p.name)
```
程序运行结果如下：
```
head
body
title
p
```

获取节点属性

每个节点可能都会含有多个属性，例如， class或者id等。如果已经选择了一个指定的节点名称，那么只需要调用attrs即可获取这个节点下的所有属性。代码如下：

#_*_coding:utf-8_*_
# 作者      ：liuxiaowei
# 创建时间   ：2/6/22 10:17 AM
# 文件      ：获取节点属性.py
# IDE      ：PyCharm

from bs4 import BeautifulSoup  # 导入BeautifulSoup库

# 创建模拟HTML代码的字符串
html_doc = """


    横排响应式登录
    
    
    
    


登录




"""
# 创建一个BeautifulSoup对象，获取页面正文
soup = BeautifulSoup(html_doc, features="lxml")
print('meta节点中属性如下：\n',soup.meta.attrs)
print('link节点中属性如下：\n',soup.link.attrs)
print('div节点中属性如下：\n',soup.div.attrs)
print('div节点中input属性如下：\n', soup.div.input.attrs)

程序运行结果如下：

meta节点中属性如下：
 {'http-equiv': 'Content-Type', 'content': 'text/html', 'charset': 'utf-8'}
link节点中属性如下：
 {'href': 'font/css/bootstrap.min.css', 'type': 'text/css', 'rel': ['stylesheet']}
div节点中属性如下：
 {'class': ['glyphicon', 'glyphicon-envelope']}
div节点中input属性如下：
 {'type': 'text', 'placeholder': '请输入邮箱'}

在以上的运行结果中可以发现，attrs的返回结果为字典类型，字典中的元素分别是对应属性名称与对应的值。所以

在attrs后面添加[]括号并在括号内添加属性名称即可获取指定属性对应的值。代码如下：

print('meta节点中http-equiv属性对应的值为：', soup.meta.attrs['http-equiv'])
print('link节点中href属性对应的值为：', soup.link.attrs['href'])
print('div节点中class属性对应的值为：', soup.div.attrs['class'])

程序运行结果如下：

meta节点中http-equiv属性对应的值为： Content-Type
link节点中href属性对应的值为： font/css/bootstrap.min.css
div节点中class属性对应的值为： ['glyphicon', 'glyphicon-envelope']

在获取节点中指定属性所对应的值时，除了使用上面的方式外，还可以不写attrs，直接在节点后面以中括号的形式直接添加属性名称，来获取对应的值。代码如下：

print('meta节点中http-equiv属性对应的值为：', soup.meta['http-equiv'])
print('link节点中href属性对应的值为：', soup.link['href'])
print('div节点中class属性对应的值为：', soup.div['class'])

获取节点包含的文本内容

实现获取节点包含的文本内容是非常简单的，只需要在节点名称后面添加string属性即可。代码如下：

print('title节点内包含的文本内容为：', soup.title.string)
print('h3节点所包含的文本内容为：', soup.h3.string)

程序运行结果如下：

title节点内包含的文本内容为： 横排响应式登录
h3节点所包含的文本内容为： 登录

嵌套获取节点内容

HTML代码中的每个节点都会出现嵌套的可能，而使用Beautiful Soup获取每个节点的内容时，以通过“."直接获取下一个节点中的内容（当前节点的子节点）。代码如下：

#_*_coding:utf-8_*_
# 作者      ：liuxiaowei
# 创建时间   ：2/6/22 11:49 AM
# 文件      ：获取嵌套节点内容.py
# IDE      ：PyCharm

from bs4 import BeautifulSoup  # 导入BeautifulSoup库

# 创建模拟HTML代码的字符串
html_doc = """


    横排响应式登录
    
    
    
    


"""
# 创建一个BeautifulSoup对象，获取页面正文
soup = BeautifulSoup(html_doc, features="lxml")
print('head节点内容如下：\n',soup.head)
print('head节点数据类型为：',type(soup.head))
print('head节点中title节点内容如下：\n',soup.head.title)
print('head节点中title节点数据类型为：',type(soup.head.title))
print('head节点中title节点中的文本内容为：',soup.head.title.string)
print('head节点中title节点中文本内容的数据类型为：',type(soup.head.title.string))

程序运行结果如下：

head节点内容如下：
 <head>
<title>横排响应式登录</title>
<meta charset="utf-8" content="text/html" http-equiv="Content-Type"/>
<meta content="width=device-width" name="viewport"/>
<link href="font/css/bootstrap.min.css" rel="stylesheet" type="text/css"/>
<link href="css/style.css" rel="stylesheet" type="text/css"/>
</head>
head节点数据类型为： <class 'bs4.element.Tag'>
head节点中title节点内容如下：
 <title>横排响应式登录</title>
head节点中title节点数据类型为： <class 'bs4.element.Tag'>
head节点中title节点中的文本内容为： 横排响应式登录
head节点中title节点中文本内容的数据类型为： <class 'bs4.element.NavigableString'>

说明

在上面的运行结果中可以看出，在获取head与其内部的title节点内容时数据类型均为““，也就说明在Tag类型的基础上可以获取当前节点的子节点内容，这样的获取方式叫做嵌套获取节点内容。

关联获取

在获取节点内容时，不一定都能做到一步获取指定节点中的内容，有时还需要先确认某一个节点，然后以该节点为中心获取对应的子节点、孙节点、父节点以及兄弟节点。

• 1、获取子节点

在获取某节点下面的所有子节点时，可以使用contents或者是children属性来实现，其中contents返回的是一个列表，在这列表中的每个元素都是一个子节点内容，而children返回的则是一个"list_iterator"类型的可迭代对象。获取所有子节点的代码如下：

#_*_coding:utf-8_*_
# 作者      ：liuxiaowei
# 创建时间   ：2/6/22 1:18 PM
# 文件      ：实现获取某节点下所有子节点内容.py
# IDE      ：PyCharm

from bs4 import BeautifulSoup  # 导入BeautifulSoup库

# 创建模拟HTML代码的字符串
html_doc = """


    关联获取演示
    


"""
# 创建一个BeautifulSoup对象，获取页面正文
soup = BeautifulSoup(html_doc, features="lxml")
print(soup.head.contents)           # 列表形式打印head下所有子节点
print(soup.head.children)           # 可迭代对象形式打印head下所有子节点

程序运行结果如下：

['\n', <title>关联获取演示</title>, '\n', <meta charset="utf-8"/>, '\n']
<list_iterator object at 0x7f7cf94fcfa0>

从上面结果可以看出，通过head.contents所获取的所有子节点中有三个换行符\n以及两个子标题(title与meta)对应的所有内容。head.children所获取的则是一个’list_iterator’可迭代对象，如果需要的获取该对象中的所有内容可以直接将其转换为list类型或者通过for循环遍历的方式进行获取。代码如下：

print(list(soup.head.children))			# 打印将可迭代对象转换为列表形式的所有子节点
for i in soup.head.children:				# 循环遍历可迭代对象中的所有子节点
  print(i)													# 打印子节点内容

程序运行结果如下：

['\n', <title>关联获取演示</title>, '\n', <meta charset="utf-8"/>, '\n']


<title>关联获取演示</title>


<meta charset="utf-8"/>

• 2、获取孙节点

在获取某节点下面所有的子孙节点时，可以使用descendants属性来实现，该属性会返回一个generator对象，获取该对象中的所有内容时，同样可以直接将其转换为list 类型或者通过for循环遍历的方式进行获取。这里以for循环遍历方式为例，代码如下：

#_*_coding:utf-8_*_
# 作者      ：liuxiaowei
# 创建时间   ：2/6/22 2:06 PM
# 文件      ：使用descendants属性获取子孙节点内容.py
# IDE      ：PyCharm

from bs4 import BeautifulSoup  # 导入BeautifulSoup库

# 创建模拟HTML代码的字符串
html_doc = """

…此处省略…


    
        
            
                此处为演示信息
            
        
    



"""
# 创建一个BeautifulSoup对象，获取页面正文
soup = BeautifulSoup(html_doc, features="lxml")
print(soup.body.descendants)          # 打印body节点下所有子孙节点内容的generator对象
for i in soup.body.descendants:       # 循环遍历generator对象中的所有子孙节点
    print(i)                            # 打印子孙节点内容

程序运行如下：

所有子孙节点内容的generator对象

<generator object Tag.descendants at 0x7ff1b24f3580>

body节点下所有子节点内容

<div id="test1">
<div id="test2">
<ul>
<li class="test3" value="user1234">
                此处为演示信息
            </li>
</ul>
</div>
</div>

body节点下所有孙节点及以下内容

<div id="test2">
<ul>
<li class="test3" value="user1234">
                此处为演示信息
            </li>
</ul>
</div>


<ul>
<li class="test3" value="user1234">
                此处为演示信息
            </li>
</ul>


<li class="test3" value="user1234">
                此处为演示信息
            </li>

                此处为演示信息

• 3.获取父节点

获取父节点有两种方式：一种是通过parent属性直接获取指定节点的父节点内容，还可以通过parents属性获取指定节点的父节点及以上（祖先节点）内容，只是parents属性会返回一个generator对象，获取该对象中的所有内容时，同样可以直接将其转换为list类型或者通过for 循环遍历的方式进行获取。这里以for循环遍历方式为例，代码如下：

#_*_coding:utf-8_*_
# 作者      ：liuxiaowei
# 创建时间   ：2/6/22 2:34 PM
# 文件      ：获取父节点及祖先节点内容.py
# IDE      ：PyCharm

from bs4 import BeautifulSoup  # 导入BeautifulSoup库

# 创建模拟HTML代码的字符串
html_doc = """


    关联获取演示
    


"""
# 创建一个BeautifulSoup对象，获取页面正文
soup = BeautifulSoup(html_doc, features="lxml")
print(soup.title.parent)                # 打印title节点的父节点内容
print(soup.title.parents)               # 打印title节点的父节点及以上内容的generator对象
for i in soup.title.parents:           # 循环遍历generator对象中的所有父节点及以上内容
    print(i.name)                       # 打印父节点及祖先节点名称

直接获取title节点的父节点内容

<head>
<title>关联获取演示</title>
<meta charset="utf-8"/>
</head>

父节点及以上内容的generator对象

<generator object PageElement.parents at 0x7fb0b8df36d0>

循环遍历父节点及祖先节点的名称

head
html
[document]

说明

在上面的运行结果可以看出，parents属性所获取父节点的顺序为head,html，最后的[document]表示文档对象，既是整个HTML文档，也是BeautifulSoup对象。

• 4、获取兄弟节点

兄弟节点也就是同级节点，表示在同一级节点内的所有子节点间的关系。如，在一段HTML代码中获取第一个p节点的下一个div兄弟节点时可以使用next_sibling属性，如果想获取当前div节点的上一个兄弟节点p时可以使用previous_sibling属性。通过这两个属性获取兄弟节点时，如果两个节点之间含有换行符（\n)、空字符或者是其他文本内容时，将返回这些文本节点。代码如下：

#_*_coding:utf-8_*_
# 作者      ：liuxiaowei
# 创建时间   ：2/6/22 8:16 PM
# 文件      ：获取兄弟节点.py
# IDE      ：PyCharm

from bs4 import BeautifulSoup  # 导入BeautifulSoup库

# 创建模拟HTML代码的字符串
html_doc = """


    关联获取演示
    


零基础学Python
第一个p节点下文本
Python从入门到项目实践
Python项目开发案例集锦
Python编程锦囊


"""
# 创建一个BeautifulSoup对象，获取页面正文
soup = BeautifulSoup(html_doc, features="lxml")
print(soup.p.next_sibling)               # 打印第一个p节点下一个兄弟节点（文本节点内容）
print(list(soup.p.next_sibling))         # 以列表形式打印文本节点中的所有元素
div = soup.p.next_sibling.next_sibling  # 获取p节点同级的第一个div节点
print(div)                               # 打印第一个div节点内容
print(div.previous_sibling)              # 打印第一个div节点上一个兄弟节点（文本节点内容）

程序运行结果，第一个p节点的下一个兄弟节点：

第一个p节点下文本

文本节点中的所有元素

['\n', '第', '一', '个', 'p', '节', '点', '下', '文', '本', '\n']

第一个div节点内容

<div class="div-1" value="2"><a href="https://item.jd.com/12451724.html">Python从入门到项目实践</a></div>

第一个div节点上一个兄弟节点

第一个p节点下文本

如果想获取当前节点后面的所有兄弟节点时，可以使用next_siblings属性。如果想获取当前节点前面的所有兄弟节点时可以使用previsou_siblings属性。通过这两个属性所获取的节点都将以generator(可迭代对象)的形式返回。在获取节点的内容时，同样可以直接将其转换为list类型或者通过for循环遍历的方式进行获取。这里以转换list类型为例，代码如下：

print('获取p节点后面的所有兄弟节点如下：\n', list(soup.p.next_siblings))
print('获取p节点前面的所有兄弟节点如下：\n', list(soup.p.previous_siblings))

程序运行结果如下：

获取p节点后面的所有兄弟节点如下：
 ['\n第一个p节点下文本\n', <div class="div-1" value="2"><a href="https://item.jd.com/12451724.html">Python从入门到项目实践</a></div>, '\n', <p class="p-3" value="3"><a href="https://item.jd.com/12512461.html">Python项目开发案例集锦</a></p>, '\n', <div class="div-2" value="4"><a href="https://item.jd.com/12550531.html">Python编程锦囊</a></div>, '\n']
获取p节点前面的所有兄弟节点如下：
 ['\n']

使用find()方法获取内容

在HTML代码中获取比较复杂的内容时，可以使用find_all()方法与find()方法。调用这些方法，然后传入指定的参数即可灵活的获取节点中的内容。

find_all()——获取所有符合条件的内容

Beautiful Soup提供了一个find_all()方法，该方法可以获取所有符合条件的内容。语法格式如下：

find_all(name = None, attrs = {}, recursive = True, text = None, limit = None, **kwargs)

• 1. name参数

name参数用来指定节点名称，指定该参数以后将返回一个可迭代对象，所有符合条件的内容均为对象中的一个元素。代码如下：

#_*_coding:utf-8_*_
# 作者      ：liuxiaowei
# 创建时间   ：2/6/22 10:06 PM
# 文件      ：find_all(name)通过节点名称获取内容.py
# IDE      ：PyCharm

from bs4 import BeautifulSoup  # 导入BeautifulSoup库

# 创建模拟HTML代码的字符串
html_doc = """


    关联获取演示
    



零基础学Python
Python从入门到项目实践
Python项目开发案例集锦
Python编程锦囊


"""
# 创建一个BeautifulSoup对象，获取页面正文
soup = BeautifulSoup(html_doc, features="lxml")
print(soup.find_all(name='p'))           # 打印名称为p的所有节点内容
print(type(soup.find_all(name='p')))     # 打印数据类型

程序运行结果如下：

[<p class="p-1" value="1"><a href="https://item.jd.com/12353915.html">零基础学Python</a></p>, <p class="p-2" value="2"><a href="https://item.jd.com/12451724.html">Python从入门到项目实践</a></p>, <p class="p-3" value="3"><a href="https://item.jd.com/12512461.html">Python项目开发案例集锦</a></p>]
<class 'bs4.element.ResultSet'>

说明

bs4.element.ResultSet类型的数据与Python中的列表类似，如果想获取可迭代对象中的某条件数据可以使用切片的方式进行，如获取所有P节点中的第一个可以参考如下代码：

print(soup.find_all(name='p')[0])   # 打印所有p节点中的第一个元素

因为bs4.element.ResultSet数据中的每一个元素都是bs4.element.Tag类型，所以可以直接对某一个元素进行嵌套获取。代码如下：

print(type(soup.find_all(name='p')[0]))			# 打印数据类型
print(soup.find_all(name = 'p')[0].find_all(name = 'a'))		# 打印第一个p节点内的子节点a

程序运行结果如下：

<class 'bs4.element.Tag'>
[<a href="https://item.jd.com/12353915.html">零基础学Python</a>]

• 2. attrs参数

attrs参数表示通过指定属性进行数据的获取工作，在填写attrs参数时，默认情况下需要填写字典类型的参数值，但也可以通过赋值的方式填写参数。代码如下：

#_*_coding:utf-8_*_
# 作者      ：liuxiaowei
# 创建时间   ：2/6/22 10:48 PM
# 文件      ：find_all(attrs)通过指定属性获取内容.py
# IDE      ：PyCharm

from bs4 import BeautifulSoup  # 导入BeautifulSoup库
import re                      # 导入正则表达式模块
# 创建模拟HTML代码的字符串
html_doc = """


    关联获取演示
    


零基础学Python
Python从入门到项目实践
Python项目开发案例集锦
Python编程锦囊


"""
# 创建一个BeautifulSoup对象，获取页面正文
soup = BeautifulSoup(html_doc, features="lxml")
print('指定字符串所获取的内容如下：')
print(soup.find_all(text='零基础学Python'))         # 打印指定字符串所获取的内容
print('指定正则表达式对象所获取的内容如下：')
print(soup.find_all(text=re.compile('Python')))    # 打印指定正则表达式对象所获取的内容

程序运行结果如下：

字典参数结果如下：
[<p class="p-1" value="1"><a href="https://item.jd.com/12353915.html">零基础学Python</a></p>]
赋值参数结果如下：
[<p class="p-1" value="1"><a href="https://item.jd.com/12353915.html">零基础学Python</a></p>, <p class="p-1" value="2"><a href="https://item.jd.com/12451724.html">Python从入门到项目实践</a></p>]
[<p class="p-3" value="3"><a href="https://item.jd.com/12512461.html">Python项目开发案例集锦</a></p>]

• 3. text参数

指定text参数可以获取节点中的文本，该参数可以指定字符串或者正则表达式对象。代码如下：

#_*_coding:utf-8_*_
# 作者      ：liuxiaowei
# 创建时间   ：2/6/22 10:48 PM
# 文件      ：find_all(attrs)通过指定属性获取内容.py
# IDE      ：PyCharm

from bs4 import BeautifulSoup  # 导入BeautifulSoup库
import re                      # 导入正则表达式模块
# 创建模拟HTML代码的字符串
html_doc = """


    关联获取演示
    


零基础学Python
Python从入门到项目实践
Python项目开发案例集锦
Python编程锦囊


"""
# 创建一个BeautifulSoup对象，获取页面正文
soup = BeautifulSoup(html_doc, features="lxml")
print('指定字符串所获取的内容如下：')
print(soup.find_all(text='零基础学Python'))         # 打印指定字符串所获取的内容
print('指定正则表达式对象所获取的内容如下：')
print(soup.find_all(text=re.compile('Python')))    # 打印指定正则表达式对象所获取的内容

程序运行结果如下：

指定字符串所获取的内容如下：
['零基础学Python']
指定正则表达式对象所获取的内容如下：
['零基础学Python', 'Python从入门到项目实践', 'Python项目开发案例集锦', 'Python编程锦囊']

find()——获取第一个匹配的节点内容

find_all()方法可以获取所有符合条件的节点内容，而find()方法只能获取第一个匹配的节点内容。

代码如下：

#_*_coding:utf-8_*_
# 作者      ：liuxiaowei
# 创建时间   ：2/6/22 11:14 PM
# 文件      ：find()方法获取第一个匹配的节点内容.py
# IDE      ：PyCharm

from bs4 import BeautifulSoup  # 导入BeautifulSoup库
import re                      # 导入正则表达式模块
# 创建模拟HTML代码的字符串
html_doc = """


    关联获取演示
    


零基础学Python
Python从入门到项目实践
Python项目开发案例集锦
Python编程锦囊


"""
# 创建一个BeautifulSoup对象，获取页面正文
soup = BeautifulSoup(html_doc, features="lxml")
print(soup.find(name='p'))                  # 打印第一个name为p的节点内容
print(soup.find(class_='p-3'))              # 打印第一个class为p-3的节点内容
print(soup.find(attrs={'value':'4'}))       # 打印第一个value为4的节点内容
print(soup.find(text=re.compile('Python'))) # 打印第一个文本中包含Python的文本信息

程序运行结果如下：

<p class="p-1" value="1"><a href="https://item.jd.com/12353915.html">零基础学Python</a></p>
<p class="p-3" value="3"><a href="https://item.jd.com/12512461.html">Python项目开发案例集锦</a></p>
<div class="div-2" value="4"><a href="https://item.jd.com/12550531.html">Python编程锦囊</a></div>
零基础学Python

• 其他方法

除了find_all()和find()方法可以实现按照指定条件获取节点内容以外，Beautiful Soup模块还提供了多个其他方法，这些方法的使用方式与find_all()和find()方法相同，只是查询的范围不同，各个方法的具体说明如下：

根据条件获取节点内容的其他方法及描述

方法名称	描述
find_parent()	获取父节点内容
find_parents()	获取所有祖先节点内容
find_next_sibling()	获取后面第一个兄弟节点内容
find_previous_siblings()	获取前面第一个兄弟节点内容
find_next_siblings()	获取后面所有兄弟节点内容
find_previous_siblings()	获取前面所有兄弟节点内容
find_next()	获取当前节点的下一个符合条件的节点内容
find_all_next()	获取当前节点的下一个所有符合条件的节点内容
find_previous()	获取第一个符合条件的节点内容
find_all_previous()	获取所有符合条件的节点内容

CSS选择器

Beautiful Soup模块还提供了CSS选择器来获取节点内容，如果是Tag或者是Beautiful Soup对象都可以直接调用select()方法，然后填写指定参数即可通过CSS选择器获取到节点中的内容。

说明

CSS选择器参考手册

https://www.w3school.com.cn/cssref/css_selectors.asp

在使用CSS选择器获取节点内容时，首先需要调用select()方法，然后为其指定字符串类型的CSS选择器。常见的CSS选择器如下：

§ 直接填写字符串类型的节点名称

§ .class：表示指定class属性值

§ #id：表示指定id属性的值

使用CSS选择器调用select()方法获取节点内容

示例代码如下：

#_*_coding:utf-8_*_
# 作者      ：liuxiaowei
# 创建时间   ：2/7/22 6:12 AM
# 文件      ：使用CSS选择器获取节点内容.py
# IDE      ：PyCharm

from bs4 import BeautifulSoup  # 导入BeautifulSoup库
# 创建模拟HTML代码的字符串
html_doc = """


    关联获取演示
    


     
        零基础学Python
        Python从入门到项目实践
        Python项目开发案例集锦
        Python编程锦囊
    
    
        零基础学Java（全彩版）
        零基础学Android（全彩版）
        零基础学C语言（全彩版）
        


"""
# 创建一个BeautifulSoup对象，获取页面正文
soup = BeautifulSoup(html_doc, features="lxml")
print('所有p节点内容如下：')
print(soup.select('p'))                # 打印所有p节点内容
print('所有p节点中的第二个p节点内容如下：')
print(soup.select('p')[1])             # 打印所有p节点中的第二个p节点
print('逐层获取的title节点如下：')
print(soup.select('html head title'))  # 打印逐层获取的title节点
print('类名为test_2所对应的节点如下：')
print(soup.select('.test_2'))          # 打印类名为test_2所对应的节点
print('id值为class_1所对应的节点如下：')
print(soup.select('#class_1'))         # 打印id值为class_1所对应的节点

程序运行结果如下：

所有p节点内容如下：
[<p class="p-1" value="1"><a href="https://item.jd.com/12353915.html">零基础学Python</a></p>, <p class="p-2" value="2"><a href="https://item.jd.com/12451724.html">Python从入门到项目实践</a></p>, <p class="p-3" value="3"><a href="https://item.jd.com/12512461.html">Python项目开发案例集锦</a></p>, <p class="p-4" value="4"><a href="https://item.jd.com/12550531.html">Python编程锦囊</a></p>, <p class="p-5"><a href="https://item.jd.com/12185501.html">零基础学Java（全彩版）</a></p>, <p class="p-6"><a href="https://item.jd.com/12199033.html">零基础学Android（全彩版）</a></p>, <p class="p-7"><a href="https://item.jd.com/12250414.html">零基础学C语言（全彩版）</a></p>]
所有p节点中的第二个p节点内容如下：
<p class="p-2" value="2"><a href="https://item.jd.com/12451724.html">Python从入门到项目实践</a></p>
逐层获取的title节点如下：
[<title>关联获取演示</title>]
类名为test_2所对应的节点如下：
[<div class="test_2" id="class_2">
<p class="p-5"><a href="https://item.jd.com/12185501.html">零基础学Java（全彩版）</a></p>
<p class="p-6"><a href="https://item.jd.com/12199033.html">零基础学Android（全彩版）</a></p>
<p class="p-7"><a href="https://item.jd.com/12250414.html">零基础学C语言（全彩版）</a></p>
</div>]
id值为class_1所对应的节点如下：
[<div class="test_1" id="class_1">
<p class="p-1" value="1"><a href="https://item.jd.com/12353915.html">零基础学Python</a></p>
<p class="p-2" value="2"><a href="https://item.jd.com/12451724.html">Python从入门到项目实践</a></p>
<p class="p-3" value="3"><a href="https://item.jd.com/12512461.html">Python项目开发案例集锦</a></p>
<p class="p-4" value="4"><a href="https://item.jd.com/12550531.html">Python编程锦囊</a></p>
</div>]

select()方法除了以上的基本使用方法以外，还可以实现嵌套获取、获取属性值以及获取文本等。

根据条件获取节点内容的其他方法及描述

获取节点内容的方式	描述
soup.select(‘div[class=“test_1”]’)[0]. select(‘p’)[0]	嵌套获取class名为test_1对应的div中所有p节点中的第一个
soup.select(‘p’)[0][‘value’] soup.select(‘p’)[0].attrs[‘value’]	获取所有p节点中第一个节点内value属性对应的值（两种方式）
soup.select(‘p’)[0].get_text() soup.select(‘p’)[0].string	获取所有p节点中第一个节点内的文本（两种方式）
soup.select（‘p’([1:])	获取所有p节点中第二个以后的p节点
soup.select(’.p-1, .p-5’)	获取class名为p-1与p-5对应的节点
soup.select(‘a[href]’)	获取存在href属性的所有a节点
soup.select(‘p[value = “1”]’)	获取所有属性值为value = "1"的p节点

说明

Beautiful Soup 模块还提供了一个select_one()方法，用于获取所有符合条件节点的第一个节点，例如soup.select_one(‘a’)将获取所有a节点中的第一个a节点内容。

总结

你可能感兴趣的:(总结经验,笔记,python,开发语言,爬虫,前端)

JSON全面解析：轻量级数据交换的核心技术新人码农11111 json python
目录JSON的本质特征⚙️序列化：数据到字符串的转换反序列化：字符串到数据的还原实际应用场景⚠️常见陷阱与解决方案最佳实践建议在当今数据驱动的时代，JSON（JavaScriptObjectNotation）已成为最流行的轻量级数据交换格式。本文将深入剖析JSON的核心特性及其在Python中的应用，帮助开发者高效处理数据序列化与反序列化。JSON的本质特征JSON采用纯文本格式，具有跨平台、易读
React 开发（一）：入门 - 从 0 到 1 的学习之旅全栈探索者chen react react.js 学习前端前端框架程序人生开发语言 javascript
React开发（一）：入门-从0到1的学习之旅1.前言在前端开发领域，React是一个备受推崇的JavaScript库，广泛应用于构建用户界面。它的组件化架构、虚拟DOM和高效的更新机制使得开发复杂的应用变得更加简洁和高效。在这篇文章中，我们将从零开始学习React，了解它的基本概念和如何搭建第一个项目。2.什么是React？React是一个用于构建用户界面的JavaScript库，由Facebo
高端密码学院笔记228 柚子_b4b4
高端幸福密码学院（高级班）幸福使者：李华第（541）期《幸福》之启动深层心理轻松意识基础篇——“扛得住”成长的喜悦心理案例分析主讲：刘莉一，知识扩充:高尚、伟大的代价就是责任。自由的第一个意义就是担负自己的责任2020.8.20星期三一笔记:1.从接的住到扛得住，心里境界的提升2.看到优秀的家人向别人学习如何去做，什么心里阶段性呈现什么状态。3.学习力越强，承载力越强4.精准，准确，的点评就是对笔
前端15 徒做嫁衣
jquery用法思想一选择某个网页元素，然后对它进行某种操作。jquery选择器jquery选择器可以快速地选择元素，选择规则和css样式相同，使用length属性判断是否选择成功。$(document)//选择整个文档对象$('li')//选择所有的li元素$('#myId')//选择id为myId的网页元素$('.myClass')//选择class为myClass的元素$('input[na
React-Python项目安装与使用指南
React-Python项目安装与使用指南一、项目目录结构及介绍通常情况下，在克隆了https://github.com/facebookarchive/react-python.git仓库之后，你会看到以下的目录结构：├──README.md#项目的说明文档├──src#源码目录│├──components#React组件存放位置│├──App.py#应用主入口文件│└──index.js#引入
AI+Python赋能！长时序植被遥感动态分析全攻略：从物候提取到生态评估梦想的初衷~ 土壤植被遥感人工智能遥感植被土壤
在遥感技术与人工智能深度融合的2025年，AI大模型正重塑长时序植被遥感数据分析范式。从Landsat/Sentinel卫星数据的智能化去云处理，到MODIS植被产品的AI辅助质量控制，以ChatGPT、DeepSeeK为代表的大模型技术已成为提升遥感数据处理效率与精度的核心工具——尤其在长时序植被动态监测、物候期精准提取、时空变异归因分析及生态环境质量评估等领域，展现出传统方法难以企及的技术优势
OpenHarmony解读之设备认证：解密流程全揭秘陈乔布斯 HarmonyOS 鸿蒙开发 OpenHarmony harmonyos openHarmony 嵌入式硬件鸿蒙开发 respons
往期推文全新看点（文中附带最新·鸿蒙全栈学习笔记）①鸿蒙应用开发与鸿蒙系统开发哪个更有前景？②嵌入式开发适不适合做鸿蒙南向开发？看完这篇你就了解了~③对于大前端开发来说，转鸿蒙开发究竟是福还是祸？④鸿蒙岗位需求突增！移动端、PC端、IoT到底该怎么选？⑤记录一场鸿蒙开发岗位面试经历~⑥持续更新中……一、概述本文重点介绍客户端收到end响应消息之后的处理过程。二、源码分析这一模块的源码位于：/bas
前端学习笔记：React.js中state和props的区别和联系
文章目录1.`props`（属性）定义用途示例2.`state`（状态）定义用途示例3.核心区别4.常见使用场景props的场景state的场景5.交互模式父组件修改子组件状态子组件通知父组件6.最佳实践总结在React.js中，state和props是两个核心概念，用于管理组件的数据和数据流。它们的设计目的不同，但共同构成了React组件的状态管理系统。1.props（属性）定义外部传入的数据：
Python你不知道的二三事（Python基础知识）日暮凡尘 python 开发语言
在上一篇中，我们介绍了Python解释器与编辑器的安装与使用，本次我们这是在进行Python程序的编译。我会根据我个人的学习进度进行更新，如有遗漏或错误，欢迎指正。变量与常量变量创建一个新的py文件，我们就可以开始编程了。关于变量，就是一些我们自定义的值，如a=10num=100其中a，num就是我所定义的变量，变量的命名较为自由，但也有一些规则需要遵守：1.变量由数字、字母、下划线（_）组成。n
全栈Todo应用实战：从零到一的本地部署与深度解析
全栈Todo应用实战：从零到一的本地部署与深度解析前言在现代Web开发中，全栈应用已成为主流。本文将以一个经典的Todo（待办事项）应用为例，详细记录从项目下载、环境配置、后端启动、数据库交互到前端运行的完整流程。我们将深入探讨在此过程中遇到的一个典型问题——CORS与API请求失败，并提供从“快速修复”到“最佳实践”的解决方案。这不仅是一份操作指南，更是一次宝贵的实战经验总结。你将从本博客中学到
pytest-bdd 行为驱动自动化测试东汉末年出bug pytest python pytest-bdd
引言pytest-bdd是一个专为Python设计的行为驱动开发（BDD）测试框架，它允许开发人员使用自然语言（如Gherkin）来编写测试用例，从而使测试用例更易于理解和维护。安装通过pip安装pipinstallpytest-bdd介绍特性文件（FeatureFile）：定义了要测试的系统功能。通常以.feature为扩展名，并使用Gherkin语言编写。特性文件包含特性名称、描述以及一个或多
2024 前端技术指南：从趋势到实战，构建你的知识地图王旭晨前端
一、2024前端领域的“破局者”与“新势力”2024年的前端圈依然热闹非凡，技术迭代与行业焦虑并存。React19带来的useActionState与服务端渲染升级，Vite6的多线程编译挑战Webpack的地位，Bun和Deno对Node.js发起的性能冲击，都在重塑开发者的选择。而尤雨溪创立VoidZero融资460万美金，更是为开源商业化注入了一剂强心针。尽管“前端已死”的论调此起彼伏，但技
使用Spire.Doc.Free在Python中为Word文档添加批注 Ven% python python word 批注
文章目录技术背景环境准备完整实现代码功能说明：注意事项：总结在文档协作和审阅过程中，批注是极其重要的功能。本文将详细介绍如何使用Python的Spire.Doc.Free库为Word文档添加批注，并提供一个完整的解决方案。技术背景Spire.Doc.Free是一个功能强大且免费的Python库，用于处理Word文档。虽然免费版本有一些限制（如文档处理页数限制等），但它提供了丰富的API用于文档操作
深入TA-Lib：量化技术指标详解
深入TA-Lib：量化技术指标详解本文系统讲解TA-Lib技术指标分析，涵盖基础、数据处理、趋势与动量指标、均量线、布林线等，并结合Python代码与大数据、机器学习实战案例，助力读者掌握量化交易实战技巧。本文系统梳理了TA-Lib技术指标分析的核心内容，包括TA-Lib基础、数据处理、趋势与动量指标、均量线、布林线等关键技术指标分析方法，并结合Python代码示例与大数据、机器学习的融合实战案例
【python做接口测试的学习记录day6——pytest+yaml+allure自动化测试框架之URL拼接】小丫么小二郎~ 学习 pytest python 功能测试测试工具
在之前的测试框架中，可以发现的是，我们的yaml数据中所有的url中的除了路径不同外，其余都是相同的，我们想办法将这一部分自动化，这样的yaml中写用例url的时候就不用再每次都写上域名，只需要输入路径即可首先我们需要更改下之前的用例yaml文件中的url，将域名删除只留下路径即可，例如：接下来我们在根目录创建一个config.yam文件，用于存储我们的URL中的公共部分，这里由于公司相关，我隐藏
【python做接口测试的学习记录day9——pytest自动化测试框架之yaml数据驱动封装】小丫么小二郎~ pytest python pycharm 接口测试用例
之前我们的框架中，如果有多个测试用例，则需要在yaml文件中写入多个用例，而每个用例可能不同的仅仅只是个别参数值，这就导致很多重复代码，现在我们使用数据驱动就可以解决这个问题了。我依旧采用之前的登录接口为例，简单记录一下数据驱动封装的全过程一、DDT数据驱动yaml文件在根目录下创建包datas，用来存放我们的数据驱动yaml文件，在datas下新建一个get_token_data.yaml文件，
AI 人工智能与 Copilot 碰撞出的火花 AI天才研究院 AI大模型企业级应用开发实战人工智能 copilot ai
AI人工智能与Copilot碰撞出的火花关键词：AI人工智能、Copilot、代码辅助、智能编程、人机协作、软件开发、技术创新摘要：本文深入探讨了AI人工智能与Copilot碰撞所产生的一系列效应。首先介绍了相关背景，包括目的、预期读者、文档结构和术语表。接着阐述了核心概念与联系，展示了其原理和架构的示意图及流程图。详细讲解了核心算法原理和具体操作步骤，并通过Python代码进行说明。同时给出了数
ThreadLocal 在 Spring 与数据库交互中的应用笔记笑衬人心。 JAVA学习笔记数据库 spring 笔记
一、基本概念1.1什么是ThreadLocal？ThreadLocal是Java提供的一个线程本地存储工具类。每个线程访问ThreadLocal时，都只能看到自己线程范围内的变量副本，线程之间互不影响。常用于保存线程上下文信息，如用户登录信息、事务状态、数据库连接等。ThreadLocalthreadLocal=newThreadLocal>resources=newNamedThreadLoca
毕业设计基于python + flask +mysql + Layui新闻系统项目源码 love0everything flask python 课程设计
毕业设计基于python+flask+mysql+Layui新闻系统项目源码介绍该项目采用Flask框架开发，数据库采用mysql。这是一个作业项目。该项目采用Flask框架开发的一个新闻、论坛、博客系统。。前端采用的是layui框架，后端模板是X-admin下载地址：毕业设计基于python+flask+mysql+Layui新闻系统项目源码模块版本PyMysql1.0.2Flask1.1.2M
近期书法学习心得德凝
1、看完钱老师视频+做笔记2、微博上看到的书法博主好的内容做笔记3、看黄简老师的视频+做笔记4、不着急写、交作业、完成任务5、掌握方法，重在质量，前面写的慢一点的话技术上来了，后面自然应该会快一点吧
测试学习之——Pytest Day3 别在内卷了测试学习 pytest python
引言Pytest作为Python中最受欢迎的测试框架之一，以其简洁的语法、强大的功能和丰富的插件生态系统，极大地提升了自动化测试的效率和可维护性。在本文中，我们将深入探讨Pytest的两大核心特性：Fixture和插件管理，帮助您更高效地编写和管理您的测试用例。一、夹具fixtureFixture是Pytest中一个非常强大的特性，它允许您定义在测试用例执行之前或之后自动运行的代码。这对于设置测试
久远的操作系统笔记3 锦绣拾年
信号变量，条件变量，互斥锁解析来自：http://blog.chinaunix.net/space.php?uid=23061624&do=blog&cuid=2127853http://blog.163.com/huangguoqiang_123@126/blog/static/141043114201349112849554/信号量用在多线程多任务同步的，一个线程完成了某一个动作就通过信号量告
平板可以用来办公吗？从文档处理到创意创作的全面测评华一精品Adreamer 平板
在快节奏的现代职场，一个核心疑问始终萦绕在追求效率的职场人心中：平板电脑，这个轻薄便携的设备，真的能替代笔记本电脑，成为值得信赖的办公伙伴吗？答案并非简单的“是”或“否”，而是一个充满潜力与现实的探索过程。今天，小编就一一剖析平板电脑在办公领域的真实表现，并盘点其广受欢迎的日常应用场景，为您提供清晰的认知。一、平板电脑能办公吗平板电脑自诞生以来，一直被贴上“内容消费”的标签。然而，随着硬件性能的飞
Gcn符号笔记 happydog007 笔记 python
KeyPoints邻接矩阵A通常表示无向图中结点之间的连接，尺寸为[N,N]，其中N是结点的数量。度矩阵D是对角矩阵，尺寸为[N,N]，对角元素表示每个结点的度。结点特征向量矩阵XXX的尺寸为[N,C]，其中C是每个结点的特征数量，包含结点的额外属性，如年龄或文本特征。邻接矩阵A邻接矩阵A是一个方阵，用于表示图中结点之间的连接关系。对于无向图，A[i,j]=1A[i,j]=1A[i,j]=1表示结
『大模型笔记』Geoffrey Hinton对Al研究人才选拔的直觉，未来影响及技术展望的深入见解！ AI大模型前沿研究大模型笔记大模型人工智能 Hinton llya 大语言模型多模态大脑工作方式
GeoffreyHinton对Al研究人才选拔的直觉，未来影响及技术展望的深入见解！文章目录一.整个访谈内容1.1.起点：理解大脑的工作方式以及隐藏层命名的由来1.2.谈Ilya：他有很好的直觉1.3.预测下一个词也需要推理1.4.模型能从语言中学到很多，但从多模态中学习会更容易1.5.关于认知的三种观点1.6.黄仁勋送了我一块GPU1.7.数字系统有人类无法比拟的优势1.8.需要得到重视的快速权
前端领域状态管理的事件驱动机制解析前端视界前端大数据与AI人工智能前端艺匠馆前端状态模式 ai
前端领域状态管理的事件驱动机制解析关键词：前端状态管理、事件驱动、订阅发布模式、状态变更、组件通信摘要：本文从前端开发的实际痛点出发，用“快递站管理”的生活案例类比，深入浅出解析事件驱动机制在状态管理中的核心作用。通过拆解状态管理、事件驱动、订阅发布模式等核心概念，结合代码示例和实战场景，帮助开发者理解如何用事件驱动实现更可控、可维护的状态管理系统。背景介绍目的和范围随着前端应用从“网页”进化为“
linux安装Node.js 环境，Docker 环境，Ruby 环境，MongoDB 环境，PostgreSQL 数据库，Go 开发环境，Python 虚拟环境 2401_87017622 数据库 linux node.js
在Linux上安装其他常见的开发环境可以根据具体需求而定，以下是一些常见的安装步骤：1.Node.js环境Node.js是一个基于ChromeV8引擎的JavaScript运行环境，适用于服务器端开发。安装Node.js：通过包管理器安装：sudoyuminstall-ygcc-c++makecurl-sLhttps://rpm.nodesource.com/setup_14.x|sudo-Eba
Mac 下 python 安装 virtualenv 出错 stay_f_h
如果是安装了anaconda的机器，直接用pipinstallvirtualenv可能会由于版本的问题出错，建议使用sudocondainstallvirtualenv安装。
scrapy 一定要自定义USER_AGENT 魔童转世
原因是因为有的网站设置的是不允许爬虫请求，而srapy默认请求是带着一个标识告诉网站我就是爬虫，网站当然不允许爬去了偶然间在一个网站上看到的内容并且也跳过坑USER_AGENT='Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/65.0.3325.181Safari/537.36'
Python 数据分析与可视化：从基础到进阶的技术实现与优化策略女码农的重启 python 数据分析开发语言
数据分析与可视化是数据科学领域的核心技能，Python凭借其丰富的库生态和灵活的编程范式，成为该领域的首选工具。本文将系统讲解Python数据分析与可视化的技术栈实现，从基础操作到性能优化，结合实战场景提供可复用的解决方案。数据分析核心库技术解析Pandas数据处理引擎原理Pandas作为数据分析的基石，其核心优势在于基于NumPy的矢量运算和高效的内存管理。与Excel的单元格级操作不同，Pan
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在