Lynn Wen

从0到1爬虫学习笔记：02非结构化数据与结构化数据提取

文章目录

- 1 综述
- - 1.1 页面解析和数据提取
  - 1.2 非结构化的数据处理
  - 1.3 结构化的数据处理
- 2 正则表达式re模块
- - 2.1 为什么要学正则表达式
  - 2.2 什么是正则表达式
  - 2.3 正则表达式匹配规则
  - 2.4 python中的re模块
  - 2.5 匹配中文
  - 2.6 贪婪模式与非贪婪模式
- 3 XPath与lxml类库
- - 3.1 什么是XML
  - 3.2 XML 和 HTML 的区别
  - 3.2 XML的节点关系
  - 3.3 XPath相关基础概念
  - 3.4 XPath的运算符
  - 3.5 lxml库
  - 3.6 XPath实例测试
  - 3.7 使用XPath的爬虫
- 4 JSON与JsonPATH
- - 4.1 JSON
  - 4.2 JSON库
  - 4.3 JsonPath
  - 4.4 实例：解析json文件获取数据
- 5 BeautifulSoup4

1 综述

1.1 页面解析和数据提取

一般来讲对我们而言，需要抓取的是某个网站或者某个应用的内容，提取有用的价值。内容一般分为两部分，非结构化的数据和结构化的数据。

非结构化数据：先有数据，再有结构，（http://www.baidu.com）
结构化数据：先有结构、再有数据（http://wangyi.butterfly.mopaasapp.com/news/api?type=war&page=1&limit=10）
不同类型的数据，我们需要采用不同的方式来处理。

1.2 非结构化的数据处理

（1）文本、电话号码、邮箱地址

正则表达式

（2）HTML 文件

正则表达式
XPath
CSS选择器

1.3 结构化的数据处理

（1）JSON 文件

JSON Path
转化成Python类型进行操作（json类）

（2）XML 文件

转化成Python类型（xmltodict）
XPath
CSS选择器
正则表达式

2 正则表达式re模块

2.1 为什么要学正则表达式

实际上爬虫一共就四个主要步骤：

明确目标 (要知道你准备在哪个范围或者网站去搜索)
爬 (将所有的网站的内容全部爬下来)
取 (去掉对我们没用处的数据)
处理数据（按照我们想要的方式存储和使用）

在之前的案例里实际上省略了第3步，也就是"取"的步骤。因为我们down下了的数据是全部的网页，这些数据很庞大并且很混乱，大部分的东西使我们不关心的，因此我们需要将之按我们的需要过滤和匹配出来。

那么对于文本的过滤或者规则的匹配，最强大的就是正则表达式，是Python爬虫世界里必不可少的神兵利器。

2.2 什么是正则表达式

正则表达式，又称规则表达式，通常被用来检索、替换那些符合某个模式(规则)的文本。

正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个"规则字符串"，这个"规则字符串"用来表达对字符串的一种过滤逻辑。

给定一个正则表达式和另一个字符串，我们可以达到如下的目的：

匹配：给定的字符串是否符合正则表达式的过滤逻辑；
过滤：通过正则表达式，从文本字符串中获取我们想要的特定部分。

2.3 正则表达式匹配规则

2.4 python中的re模块

在 Python 中，我们可以使用内置的 re 模块来使用正则表达式。

有一点需要特别注意的是，正则表达式使用\对特殊字符进行转义，所以如果我们要使用原始字符串，只需加一个 r 前缀，示例：

r'chuanzhiboke\t\.\tpython'

re 模块的一般使用步骤如下：

使用 compile() 函数将正则表达式的字符串形式编译为一个 Pattern 对象
通过 Pattern 对象提供的一系列方法对文本进行匹配查找，获得匹配结果，一个 Match 对象。
最后使用 Match 对象提供的属性和方法获得信息，根据需要进行其他的操作

（1）compile函数
compile 函数用于编译正则表达式，生成一个 Pattern 对象，它的一般使用形式如下：

import re

# 将正则表达式编译成 Pattern 对象
pattern = re.compile(r'\d+')

在上面，我们已将一个正则表达式编译成 Pattern 对象，接下来，我们就可以利用 pattern 的一系列方法对文本进行匹配查找了。

Pattern 对象的一些常用方法主要有：

match 方法：从起始位置开始查找，一次匹配

search 方法：从任何位置开始查找，一次匹配

findall 方法：全部匹配，返回列表

finditer 方法：全部匹配，返回迭代器

split 方法：分割字符串，返回列表

sub 方法：替换

（2）match方法
match 方法用于查找字符串的头部（也可以指定起始位置），它是一次匹配，只要找到了一个匹配的结果就返回，而不是查找所有匹配的结果。它的一般使用形式如下：

match(string[, pos[, endpos]])

其中，string 是待匹配的字符串，pos 和 endpos 是可选参数，指定字符串的起始和终点位置，默认值分别是 0 和 len (字符串长度)。因此，当你不指定 pos 和 endpos 时，match 方法默认匹配字符串的头部。

当匹配成功时，返回一个 Match 对象，如果没有匹配上，则返回 None。

>>> import re
>>> pattern = re.compile(r'\d+')  # 用于匹配至少一个数字

>>> m = pattern.match('one12twothree34four')  # 查找头部，没有匹配
>>> print (m)
None

>>> m = pattern.match('one12twothree34four', 2, 10) # 从'e'的位置开始匹配，没有匹配
>>> print (m)
None

>>> m = pattern.match('one12twothree34four', 3, 10) # 从'1'的位置开始匹配，正好匹配
>>> print (m)                                         # 返回一个 Match 对象
<_sre.SRE_Match object at 0x10a42aac0>

>>> m.group(0)   # 可省略 0
'12'
>>> m.start(0)   # 可省略 0
3
>>> m.end(0)     # 可省略 0
5
>>> m.span(0)    # 可省略 0
(3, 5)

在上面，当匹配成功时返回一个 Match 对象，其中：

group([group1, …]) 方法用于获得一个或多个分组匹配的字符串，当要获得整个匹配的子串时，可直接使用 group() 或 group(0)；
start([group]) 方法用于获取分组匹配的子串在整个字符串中的起始位置（子串第一个字符的索引），参数默认值为 0；
end([group]) 方法用于获取分组匹配的子串在整个字符串中的结束位置（子串最后一个字符的索引+1），参数默认值为 0；
span([group]) 方法返回 (start(group), end(group))。

>>> import re
>>> pattern = re.compile(r'([a-z]+) ([a-z]+)', re.I)  # re.I 表示忽略大小写
>>> m = pattern.match('Hello World Wide Web')

>>> print (m)     # 匹配成功，返回一个 Match 对象
<_sre.SRE_Match object at 0x10bea83e8>

>>> m.group(0)  # 返回匹配成功的整个子串
'Hello World'

>>> m.span(0)   # 返回匹配成功的整个子串的索引
(0, 11)

>>> m.group(1)  # 返回第一个分组匹配成功的子串
'Hello'

>>> m.span(1)   # 返回第一个分组匹配成功的子串的索引
(0, 5)

>>> m.group(2)  # 返回第二个分组匹配成功的子串
'World'

>>> m.span(2)   # 返回第二个分组匹配成功的子串
(6, 11)

>>> m.groups()  # 等价于 (m.group(1), m.group(2), ...)
('Hello', 'World')

>>> m.group(3)   # 不存在第三个分组
Traceback (most recent call last):
  File "", line 1, in <module>
IndexError: no such group

（3）search方法
search 方法用于查找字符串的任何位置，它也是一次匹配，只要找到了一个匹配的结果就返回，而不是查找所有匹配的结果，它的一般使用形式如下：

search(string[, pos[, endpos]])

其中，string 是待匹配的字符串，pos 和 endpos 是可选参数，指定字符串的起始和终点位置，默认值分别是 0 和 len (字符串长度)。

当匹配成功时，返回一个 Match 对象，如果没有匹配上，则返回 None。

让我们看看例子：

>>> import re
>>> pattern = re.compile('\d+')
>>> m = pattern.search('one12twothree34four')  # 这里如果使用 match 方法则不匹配
>>> m
<_sre.SRE_Match object at 0x10cc03ac0>
>>> m.group()
'12'
>>> m = pattern.search('one12twothree34four', 10, 30)  # 指定字符串区间
>>> m
<_sre.SRE_Match object at 0x10cc03b28>
>>> m.group()
'34'
>>> m.span()
(13, 15)

（4）findall 方法
上面的 match 和 search 方法都是一次匹配，只要找到了一个匹配的结果就返回。然而，在大多数时候，我们需要搜索整个字符串，获得所有匹配的结果。

findall 方法的使用形式如下：

findall(string[, pos[, endpos]])

其中，string 是待匹配的字符串，pos 和 endpos 是可选参数，指定字符串的起始和终点位置，默认值分别是 0 和 len (字符串长度)。

findall 以列表形式返回全部能匹配的子串，如果没有匹配，则返回一个空列表。

看看例子：

import re
pattern = re.compile(r'\d+')   # 查找数字

result1 = pattern.findall('hello 123456 789')
result2 = pattern.findall('one1two2three3four4', 0, 10)

print (result1)
print (result2)

执行结果：

['123456', '789']
['1', '2']

（5）finditer 方法
finditer 方法的行为跟 findall 的行为类似，也是搜索整个字符串，获得所有匹配的结果。但它返回一个顺序访问每一个匹配结果（Match 对象）的迭代器。

看看例子：

# -*- coding: utf-8 -*-

import re
pattern = re.compile(r'\d+')

result_iter1 = pattern.finditer('hello 123456 789')
result_iter2 = pattern.finditer('one1two2three3four4', 0, 10)

print (type(result_iter1))
print (type(result_iter2))

print 'result1...'
for m1 in result_iter1:   # m1 是 Match 对象
    print ('matching string: {}, position: {}'.format(m1.group(), m1.span()))

print 'result2...'
for m2 in result_iter2:
    print ('matching string: {}, position: {}'.format(m2.group(), m2.span()))

执行结果：

<type 'callable-iterator'>
<type 'callable-iterator'>
result1...
matching string: 123456, position: (6, 12)
matching string: 789, position: (13, 16)
result2...
matching string: 1, position: (3, 4)
matching string: 2, position: (7, 8)

（6）split 方法
split 方法按照能够匹配的子串将字符串分割后返回列表，它的使用形式如下：

split(string[, maxsplit])

其中，maxsplit 用于指定最大分割次数，不指定将全部分割。

看看例子：

import re
p = re.compile(r'[\s\,\;]+')
print (p.split('a,b;; c   d'))

执行结果：

['a', 'b', 'c', 'd']

（7）sub 方法
sub 方法用于替换。它的使用形式如下：

sub(repl, string[, count])

其中，repl 可以是字符串也可以是一个函数：

如果 repl 是字符串，则会使用 repl 去替换字符串每一个匹配的子串，并返回替换后的字符串，另外，repl 还可以使用 id 的形式来引用分组，但不能使用编号 0；
如果 repl 是函数，这个方法应当只接受一个参数（Match 对象），并返回一个字符串用于替换（返回的字符串中不能再引用分组）。
count 用于指定最多替换次数，不指定时全部替换。

看看例子：

import re
p = re.compile(r'(\w+) (\w+)') # \w = [A-Za-z0-9]
s = 'hello 123, hello 456'

print (p.sub(r'hello world', s))  # 使用 'hello world' 替换 'hello 123' 和 'hello 456'
print (p.sub(r'\2 \1', s))        # 引用分组

def func(m):
    print(m)
    return 'hi' + ' ' + m.group(2) #group(0) 表示本身，group(1)表示hello，group(2) 表示后面的数字

print (p.sub(func, s))  #多次sub，每次sub的结果传递给func
print (p.sub(func, s, 1))         # 最多替换一次

执行结果，其中r’\2 \1’的具体解释可参考该链接：

hello world, hello world
123 hello, 456 hello
hi 123, hi 456
hi 123, hello 456

2.5 匹配中文

在某些情况下，我们想匹配文本中的汉字，有一点需要注意的是，中文的 unicode 编码范围主要在 [u4e00-u9fa5]，这里说主要是因为这个范围并不完整，比如没有包括全角（中文）标点，不过，在大部分情况下，应该是够用的。

假设现在想把字符串 title = u’你好，hello，世界’ 中的中文提取出来，可以这么做：

import re

title = '你好，hello，世界'
pattern = re.compile(r'[\u4e00-\u9fa5]+')
result = pattern.findall(title)

print (result)

2.6 贪婪模式与非贪婪模式

贪婪模式：在整个表达式匹配成功的前提下，尽可能多的匹配 ( * )；
非贪婪模式：在整个表达式匹配成功的前提下，尽可能少的匹配 ( ? )；
Python里数量词默认是贪婪的。

附：正则表达式测试网址

3 XPath与lxml类库

有同学说，我正则用的不好，处理HTML文档很累，有没有其他的方法？

有！那就是XPath，我们可以先将 HTML文件转换成 XML文档，然后用 XPath 查找 HTML 节点或元素。

3.1 什么是XML

XML 指可扩展标记语言（EXtensible Markup Language）

XML 是一种标记语言，很类似 HTML
XML 的设计宗旨是传输数据，而非显示数据
XML 的标签需要我们自行定义。
XML 被设计为具有自我描述性。
XML 是 W3C 的推荐标准
W3School官方文档：http://www.w3school.com.cn/xml/index.asp

3.2 XML 和 HTML 的区别

XML文档示例



<bookstore>

  <book category="cooking">
    <title lang="en">Everyday Italiantitle>  
    <author>Giada De Laurentiisauthor>  
    <year>2005year>  
    <price>30.00price>
  book>  

  <book category="children">
    <title lang="en">Harry Pottertitle>  
    <author>J K. Rowlingauthor>  
    <year>2005year>  
    <price>29.99price>
  book>  

  <book category="web">
    <title lang="en">XQuery Kick Starttitle>  
    <author>James McGovernauthor>  
    <author>Per Bothnerauthor>  
    <author>Kurt Cagleauthor>  
    <author>James Linnauthor>  
    <author>Vaidyanathan Nagarajanauthor>  
    <year>2003year>  
    <price>49.99price>
  book>

  <book category="web" cover="paperback">
    <title lang="en">Learning XMLtitle>  
    <author>Erik T. Rayauthor>  
    <year>2003year>  
    <price>39.95price>
  book>

bookstore>

HTML DOM 模型示例
HTML DOM 定义了访问和操作 HTML 文档的标准方法，以树结构方式表达 HTML 文档。

3.2 XML的节点关系

（1）父（Parent）：每个元素以及属性都有一个父。
（2）子（Children）：元素节点可有零个、一个或多个子。
（3）同胞（Sibling）：拥有相同的父的节点。
（4）先辈（Ancestor）：某节点的父、父的父，等等。
（5）后代（Descendant）：某个节点的子，子的子，等等。

下面是一个简单的XML例子，其中：

book 元素是 title、author、year 以及 price 元素的父；
title、author、year 以及 price 元素都是 book 元素的子；
title、author、year 以及 price 元素都是同胞；
title 元素的先辈是 book 元素和 bookstore 元素；
bookstore 的后代是 book、title、author、year 以及 price 元素



<bookstore>

<book>
  <title>Harry Pottertitle>
  <author>J K. Rowlingauthor>
  <year>2005year>
  <price>29.99price>
book>

bookstore>

3.3 XPath相关基础概念

XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言，可用来在 XML 文档中对元素和属性进行遍历。

W3School官方文档：http://www.w3school.com.cn/xpath/index.asp

XPath 开发工具

开源的XPath表达式编辑工具:XMLQuire(XML格式文件可用)
Chrome插件 XPath Helper
Firefox插件 XPath Checker

（1）选取节点
XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。

下面列出了最常用的路径表达式：

在下面的表格中列出了一些路径表达式以及表达式的结果：

（2）谓语（Predicates）
谓语用来查找某个特定的节点或者包含某个指定的值的节点，被嵌在方括号中。

在下面的表格中列出了带有谓语的一些路径表达式，以及表达式的结果：

（3）选取未知节点
XPath 通配符可用来选取未知的 XML 元素。

（4）选取若干路径
通过在路径表达式中使用“|”运算符，您可以选取若干个路径。

实例：在下面的表格中列出了一些路径表达式，以及这些表达式的结果：

3.4 XPath的运算符

3.5 lxml库

lxml 是一个HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 数据。

lxml和正则一样，也是用 C 实现的，是一款高性能的 Python HTML/XML 解析器，我们可以利用之前学习的XPath语法，来快速的定位特定元素以及节点信息。

lxml python 官方文档：http://lxml.de/index.html

需要安装C语言库，可使用 pip 安装：pip install lxml （或通过wheel方式安装）

（1）初步使用
我们利用它来解析 HTML 代码，简单示例：

# lxml_test.py

# 使用 lxml 的 etree 库
from lxml import etree

text = '''

    
         first item
         second item
         third item
         fourth item
         fifth item # 注意，此处缺少一个  闭合标签
     
 
'''

#利用etree.HTML，将字符串解析为HTML文档
html = etree.HTML(text)

# 按字符串序列化HTML文档
result = etree.tostring(html)

print(result)

执行结果：

<html><body>
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
 </div>
</body></html>

lxml 可以自动修正 html 代码，例子里不仅补全了 li 标签，还添加了 body，html 标签。

（2）文件读取
除了直接读取字符串，lxml还支持从文件里读取内容。我们新建一个hello.html文件：



<div>
    <ul>
         <li class="item-0"><a href="link1.html">first itema>li>
         <li class="item-1"><a href="link2.html">second itema>li>
         <li class="item-inactive"><a href="link3.html"><span class="bold">third itemspan>a>li>
         <li class="item-1"><a href="link4.html">fourth itema>li>
         <li class="item-0"><a href="link5.html">fifth itema>li>
     ul>
 div>

再利用 etree.parse() 方法来读取文件。

# lxml_parse.py

from lxml import etree

# 读取外部文件 hello.html
html = etree.parse('./hello.html')
result = etree.tostring(html, pretty_print=True)

print(result)

执行结果与之前相同：

<html><body>
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
 </div>
</body></html>

3.6 XPath实例测试

（1）获取所有的

标签

# xpath_li.py

from lxml import etree

html = etree.parse('hello.html')
print type(html)  # 显示etree.parse() 返回类型

result = html.xpath('//li')

print result  # 打印标签的元素集合
print len(result)
print type(result)
print type(result[0])

执行结果：

<type 'lxml.etree._ElementTree'>
[<Element li at 0x1014e0e18>, <Element li at 0x1014e0ef0>, <Element li at 0x1014e0f38>, <Element li at 0x1014e0f80>, <Element li at 0x1014e0fc8>]
5
<type 'list'>
<type 'lxml.etree._Element'>

（2）继续获取

标签的所有 class属性

# xpath_li.py

from lxml import etree

html = etree.parse('hello.html')
result = html.xpath('//li/@class')

print result

执行结果：

['item-0', 'item-1', 'item-inactive', 'item-1', 'item-0']

（3）继续获取

标签下hre 为 link1.html 的标签

# xpath_li.py

from lxml import etree

html = etree.parse('hello.html')
result = html.xpath('//li/a[@href="link1.html"]')

print result

执行结果：

[<Element a at 0x10ffaae18>]

（4）获取最后一个

的 的 href

# xpath_li.py

from lxml import etree

html = etree.parse('hello.html')

result = html.xpath('//li[last()]/a/@href')
# 谓语 [last()] 可以找到最后一个元素

print result

执行结果：

['link5.html']

（5）获取倒数第二个元素的内容

# xpath_li.py

from lxml import etree

html = etree.parse('hello.html')
result = html.xpath('//li[last()-1]/a')

# text 方法可以获取元素内容
print result[0].text

执行结果：

fourth item

（6）获取 class 值为 bold 的标签名

# xpath_li.py

from lxml import etree

html = etree.parse('hello.html')

result = html.xpath('//*[@class="bold"]')

# tag方法可以获取标签名
print result[0].tag

执行结果：

span

3.7 使用XPath的爬虫

用XPath来做一个简单的爬虫，我们尝试爬取某个贴吧里的所有帖子，并且将该这个帖子里每个楼层发布的图片下载到本地。

#coding=utf-8
import requests
from lxml import etree
import json

class Tieba:

    def __init__(self,tieba_name):
        self.tieba_name = tieba_name #接收贴吧名
        #设置为手机端的UA
        self.headers = {"User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1"}

    def get_total_url_list(self):
        '''获取所有的urllist'''
        url = "https://tieba.baidu.com/f?kw="+self.tieba_name+"&ie=utf-8&pn={}&"
        url_list = []
        for i in range(100): #通过循环拼接100个url
            url_list.append(url.format(i*50))
        return url_list #返回100个url的urllist

    def parse_url(self,url):
        '''一个发送请求，获取响应，同时etree处理html'''
        print("parsing url:",url)
        response = requests.get(url,headers=self.headers,timeout=10) #发送请求
        html = response.content.decode() #获取html字符串
        html = etree.HTML(html) #获取element 类型的html
        return html

    def get_title_href(self,url):
        '''获取一个页面的title和href'''
        html = self.parse_url(url)
        li_temp_list = html.xpath("//li[@class='tl_shadow']") #分组，按照li标签分组
        total_items = []
        for i in li_temp_list: #遍历分组
            href = "https:"+i.xpath("./a/@href")[0] if len(i.xpath("./a/@href"))>0 else None
            text = i.xpath("./a/div[1]/span[1]/text()")
            text = text[0] if len(text)>0 else None
            item = dict(  #放入字典
                href = href,
                text = text
            )
            total_items.append(item)
        return total_items #返回一个页面所有的item

    def get_img(self,url):
        '''获取一个帖子里面的所有图片'''
        html = self.parse_url(url) #返回elemet累心的html，具有xpath方法
        img_list = html.xpath('//div[@data-class="BDE_Image"]/@data-url')
        img_list = [i.split("src=")[-1] for i in img_list] #提取图片的url
        img_list = [requests.utils.unquote(i) for i in img_list]
        return img_list

    def save_item(self,item):
        '''保存一个item'''
        with open("teibatupian.txt","a") as f:
            f.write(json.dumps(item,ensure_ascii=False,indent=2))
            f.write("\n")

    def run(self):
        #1、找到了url规律，url list
        url_list = self.get_total_url_list()
        for url in url_list:
        #2、遍历urllist 发送请求，获得响应，etree处理html
        # 3、提取title，href
            total_item = self.get_title_href(url)
            for item in total_item:
                href = item["href"]
                img_list = self.get_img(href) #获取到了帖子的图片列表
                item["img"] = img_list
                # 4、保存到本地
                print(item)
                self.save_item(item)

if __name__ == "__main__":
    tieba = Tieba("猫")
    tieba.run()

4 JSON与JsonPATH

4.1 JSON

JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前台与后台之间的数据交互。

JSON和XML的比较可谓不相上下。

Python 2.7中自带了JSON模块，直接import json就可以使用了。

官方文档、Json在线解析网站

json简单说就是javascript中的对象和数组，所以这两种结构就是对象和数组两种结构，通过这两种结构可以表示各种复杂的结构：

对象：对象在js中表示为{ }括起来的内容，数据结构为 { key：value, key：value, … }的键值对的结构，在面向对象的语言中，key为对象的属性，value为对应的属性值，所以很容易理解，取值方法为对象.key 获取属性值，这个属性值的类型可以是数字、字符串、数组、对象这几种。
数组：数组在js中是中括号[ ]括起来的内容，数据结构为 [“Python”, “javascript”, “C++”, …]，取值方式和所有语言中一样，使用索引获取，字段值的类型可以是数字、字符串、数组、对象几种。

4.2 JSON库

json模块提供了四个功能：dumps、dump、loads、load，用于字符串和 python数据类型间进行转换。

（1）json.loads()
把Json格式字符串解码转换成Python对象从json到python的类型转化对照如下：

# json_loads.py

import json

strList = '[1, 2, 3, 4]'

strDict = '{"city": "北京", "name": "大猫"}'

json.loads(strList)
# [1, 2, 3, 4]

json.loads(strDict) # json数据自动按Unicode存储
# {u'city': u'\u5317\u4eac', u'name': u'\u5927\u732b'}

（2）json.load()
读取文件中json形式的字符串元素转化成python类型。

# json_load.py

import json

strList = json.load(open("listStr.json"))
print strList

# [{u'city': u'\u5317\u4eac'}, {u'name': u'\u5927\u5218'}]

strDict = json.load(open("dictStr.json"))
print strDict
# {u'city': u'\u5317\u4eac', u'name': u'\u5927\u5218'}

（3）json.dumps()
实现python类型转化为json字符串，返回一个str对象把一个Python对象编码转换成Json字符串。

从python原始类型向json类型的转化对照如下：

# json_dumps.py

import json
import chardet

listStr = [1, 2, 3, 4]
tupleStr = (1, 2, 3, 4)
dictStr = {"city": "北京", "name": "大猫"}

json.dumps(listStr)
# '[1, 2, 3, 4]'
json.dumps(tupleStr)
# '[1, 2, 3, 4]'

# 注意：json.dumps() 序列化时默认使用的ascii编码
# 添加参数 ensure_ascii=False 禁用ascii编码，按utf-8编码
# chardet.detect()返回字典, 其中confidence是检测精确度

json.dumps(dictStr)
# '{"city": "\\u5317\\u4eac", "name": "\\u5927\\u5218"}'

chardet.detect(json.dumps(dictStr))
# {'confidence': 1.0, 'encoding': 'ascii'}

print json.dumps(dictStr, ensure_ascii=False)
# {"city": "北京", "name": "大刘"}

chardet.detect(json.dumps(dictStr, ensure_ascii=False))
# {'confidence': 0.99, 'encoding': 'utf-8'}

（4）json.dump()
将Python内置类型序列化为json对象后写入文件。

# json_dump.py

import json

listStr = [{"city": "北京"}, {"name": "大刘"}]
json.dump(listStr, open("listStr.json","w"), ensure_ascii=False)

dictStr = {"city": "北京", "name": "大刘"}
json.dump(dictStr, open("dictStr.json","w"), ensure_ascii=False)

4.3 JsonPath

JsonPath 是一种信息抽取类库，是从JSON文档中抽取指定信息的工具，提供多种语言实现版本，包括：Javascript, Python， PHP 和 Java。

JsonPath 对于 JSON 来说，相当于 XPATH 对于 XML。

下载地址

安装方法：点击Download URL链接下载jsonpath，解压之后执行python setup.py install

官方文档

JsonPath与XPath语法对比:Json结构清晰，可读性高，复杂度低，非常容易匹配，下表中对应了XPath的用法。

4.4 实例：解析json文件获取数据

我们以拉勾网城市JSON文件为例，获取所有城市。

# jsonpath_lagou.py

import requests
import jsonpath
import json
import chardet

url = 'http://www.lagou.com/lbs/getAllCitySearchLabels.json'
response = requests.get(url)
html = response.text

# 把json格式字符串转换成python对象
jsonobj = json.loads(html)

# 从根节点开始，匹配name节点
citylist = jsonpath.jsonpath(jsonobj,'$..name')

print citylist
print type(citylist)
fp = open('city.json','w')

content = json.dumps(citylist, ensure_ascii=False)
print content

fp.write(content.encode('utf-8'))
fp.close()

5 BeautifulSoup4

和 lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。

lxml 只会局部遍历，而Beautiful Soup 是基于HTML DOM的，会载入整个文档，解析整个DOM树，因此时间和内存开销都会大很多，所以性能要低于lxml。

BeautifulSoup 用来解析 HTML 比较简单，API非常人性化，支持CSS选择器、Python标准库中的HTML解析器，也支持lxml 的 XML解析器。

Beautiful Soup 3 目前已经停止开发，推荐现在的项目使用Beautiful Soup 4。使用 pip 安装即可：pip
install beautifulsoup4

官方文档

数据抓取方式比较：

你可能感兴趣的:(爬虫学习笔记,python,xpath,正则表达式,爬虫,json)

【os】os.path.join 资源存储库 python 笔记 python
目录【os】os.path.join函数签名参数返回值特点示例1.拼接文件路径2.自动处理路径分隔符3.忽略多余的分隔符4.绝对路径的优先级5.拼接路径到当前工作目录小结【os】os.path.joinos.path.join是Python标准库os.path模块中的一个函数，用于智能地连接一个或多个路径组件（如文件夹路径或文件名）为一个完整的路径。它根据不同的操作系统（如Windows或类Uni
python 图像特征提取_python实现LBP方法提取图像纹理特征实现分类的步骤 weixin_39969060 python 图像特征提取
题目描述这篇博文是数字图像处理的大作业.题目描述:给定40张不同风格的纹理图片,大小为512*512,要求将每张图片分为大小相同的9块,利用其中的5块作为训练集,剩余的4块作为测试集,构建适当的模型实现图片的分类.图片如下图所示:分析:由于数据集太小,所以神经网络模型并不适合此类的图像处理.就需要寻找方法提取图像的纹理信息.本文采用LBP的方法提取图像的纹理信息,然后转化成直方图作为图像的特征,然
纯Python环境(CPython)的安装与使用薯仔的土小豆 Python python 人工智能数据分析
WhylearnPython?WebandInternetDevelopmentScientificandNumericPythoniswidelyusedinscientificandnumericcomputing:SciPyisacollectionofpackagesformathematics,science,andengineering.Pandasisadataanalysisand
python中什么意思_#python3type(1)为什么和python核心编程里的不一样？... weixin_39906245 'int'>什么意思
补充一点，type是个对象，type(1)也是个对象在交互环境下输出type(1)或者print(type(1))相当于type.__repr__(int)和type.__str__(int)下面说的“统一”，我想说的是python2里type的输出会有和两种情况，这应该是由于历史原因吧(旧式类和新式类，下面的引用和链接里也有相关的内容)，然后python3里没有了旧式类，就达成了统一classF
c与python-Python与Cpython weixin_37988176
甚至我在理解CPython，JPython，IronPython，PyPy之间的区别时也遇到了相同的问题。因此，在开始解释之前，我愿意清除三件事：Python：这是一门语言，它仅说明/描述如何向解释器（接受您的python代码的程序）传达/表达自己。实施：这完全与解释器的编写方式有关，特别是有关哪种语言以及最终使用的语言。字节码：它是由程序（通常称为虚拟机）而不是"真实”计算机（即硬件处理器）处理
【Python 笔记2】os.path.join() 挪威的深林 Python笔记 python
0.前言os.path.join()函数是Python中处理文件和目录路径的非常重要和常用的方法。它可以自动处理不同操作系统之间在路径分隔符方面的差异，从而使代码更加可移植和易于维护。下面我将详细解释每个用法，并提供示例代码。1.合并路径组件基本用法是将多个路径组件合并成一个完整的路径。这个方法会根据你的操作系统选择正确的路径分隔符。importospath=os.path.join("path"
理解 Python 解释器：CPython 与 IPython 的比较及选择指南 YRr YRr python python ipython 开发语言
理解Python解释器：CPython与IPython的比较及选择指南在选择适合自己需求的Python解释器时，理解CPython和IPython之间的主要差异至关重要。本文将详细解释CPython和IPython的特性、优势和适用场景，以帮助用户做出明智的选择。1.CPython:Python的默认解释器特点官方标准：CPython是Python语言的官方参考实现，由Python软件基金会维护。
Python 03-变量和数据类型 hitzsf Python
文章目录1、Python变量2、数据类型2.1、基本类型：2.2、数据容器或者数据结构2.3、其他类型3、整数类型---classint3.1、进制转换的函数3.2、字面值表示4、小数类型---classfloat4.1、字面值表示4.2、相关的函数5、bool类型---classboolPython03-变量和数据类型1、Python变量变量就是数据的名称，变量可以指定不同的数据类型，这些变量可
Python、CPython、Pythonnet、IronPython QQ_370566617 python 语言 .net shell 脚本扩展
最近抽空看点python的东西，原本是打算用来无界面的在部署机器上调试程序。因为部署机器上装VS不现实，装个小巧的Python到是可以。后来发现Python也Shell一样，如此的强大，真的是“人不可以貌相”。现在批处理一些东西，再也不用打开VS编译调试半天了，可以做到边调试边修改，方便！Python是一种脚本语言。通常说的Python是CPython，采用C++实现的运行环境。Pythonnet
【基础教程】Python整数类型（int）详解 SAPmatinal Python
整数就是没有小数部分的数字，Python中的整数包括正整数、0和负整数。有些强类型的编程语言会提供多种整数类型，每种类型的长度都不同，能容纳的整数的大小也不同，开发者要根据实际数字的大小选用不同的类型。例如C语言提供了short、int、long、longlong四种类型的整数，它们的长度依次递增，初学者在选择整数类型时往往比较迷惑，有时候还会导致数值溢出。而Python则不同，它的整数不分类型，
Python中os.path模块的使用详解幻想世界中的绚丽色彩 python 开发语言 Python
os.path模块是Python标准库中的一个模块，提供了用于处理文件路径和名称的函数。它是处理操作系统相关的路径的理想选择，无论是在Windows、Linux还是其他操作系统上。本文将详细介绍os.path模块的常用函数及其用法，并提供相应的源代码示例。获取文件名和目录名os.path模块提供了一些函数来获取文件路径的各个部分，如目录名、文件名和扩展名等。importospath='/path/
深度学习目标检测中的_单目测距原理与实现关键点及改进建议 QQ_767172261 单目测距深度学习目标检测人工智能
深度学习目标检测中的_单目测距原理与实现关键点及改进建议文章目录单目测距的进一步解释1.焦距的确定2.物体宽度$W$的获取3.图像处理技巧4.提高性能的建议5.实现代码中的注释添加一、前言单目视觉测距：网上有很多关于单目测距的文章，主要借鉴的是OpenCV学习笔记（二十一）——简单的单目视觉测距尝试和单目摄像机测距（python+opencv）两篇文章，在这里特别作出说明。工作环境：Ubunt
Python 图像处理进阶：特征提取与图像分类极客代码玩转Python 玩转AI 开发语言 python 图像处理人工智能
特征提取特征提取是计算机视觉中的一个重要环节，它可以从图像中提取出有助于后续处理的特征，比如用于识别和分类的关键点、纹理等。常见的特征提取方法包括SIFT、SURF和ORB等。SIFT（尺度不变特征变换）SIFT是一种用于检测图像中的关键点及其描述符的方法。SIFT特征具有尺度不变性和旋转不变性，适用于图像匹配和识别。原理：SIFT通过在不同尺度的空间内寻找极值点来检测关键点，并利用梯度方向的直方
Python中os.path.join函数的用法示例详解阿鈞ajunwiwx 谜之操作 python 人工智能目标检测 opencv 机器学习
前言仅供个人学习用，如果对各位朋友有参考价值，给个赞或者收藏吧^_^一、os.path.join函数os.path.join函数用于拼接多个路径字符串，生成一个新的路径字符串。用法：os.path.join(path,*paths)二、函数用法个人总结1.处理不同操作系统的路径分隔符。2.从右往左看参数，如果一个参数无‘/’或者‘\’,则按照操作系统用分隔符，如果遇到，则左边参数均会被舍弃。3.从
10.8 LangChain Output Parsers终极指南：从JSON解析到流式处理的规范化输出实践少林码僧 AI大模型应用实战专栏 langchain chatgpt gpt 人工智能
LangChainOutputParsers终极指南：从JSON解析到流式处理的规范化输出实践关键词：LangChainOutputParsers、结构化输出、JSON解析、数据校验、流式处理一、为什么需要规范化输出？大模型输出的“荒野西部”问题原始输出的三大痛点：格式不可控：模型可能返回纯文本、Markdown、JSON混合体结构不统一：相同语义的内容以不同形式呈现（如日期格式混乱）数据不可靠：
ROS发行版虎啸~嘤嘤嘤机器人自动驾驶人工智能
ROS是一个用于机器人软件开发的灵活框架，它支持多种编程语言，并且其不同的版本（称为“发行版”）提供了不同的特性和兼容性。foxy是ROS2的一个发行版名称。ROS2是ROS的一个新版本，它引入了新的通信机制（如DDS，DataDistributionService）、更好的系统架构和更多的现代编程语言支持（如C++11、Python3等）。foxy是在特定时间点上发布的ROS2的一个版本，它包含
券商接口api有哪些类型？不同类型的特点及适用场景如何？财云量化 python炒股自动化量化交易程序化交易券商接口api 类型特点适用场景股票量化接口股票API接口
炒股自动化：申请官方API接口，散户也可以python炒股自动化（0），申请券商API接口python炒股自动化（1），量化交易接口区别Python炒股自动化（2）：获取股票实时数据和历史数据Python炒股自动化（3）：分析取回的实时数据和历史数据Python炒股自动化（4）：通过接口向交易所发送订单Python炒股自动化（5）：通过接口查询订单，查询账户资产股票量化，Python炒股，CSDN
MySQL与Python交互-08 ningmengjing_ Mysql数据库 mysql python 数据库
一、数据准备1.创建数据表--创建"京东"数据库createdatabasejing_dongcharset=utf8;--使用"京东"数据库usejing_dong;--创建一个商品goods数据表createtablegoods(idintunsignedprimarykeyauto_incrementnotnull,namevarchar(150)notnull,cate_namevarch
PAT 乙级 1008 金秋飞雪 pat考试算法 python
用python超级快诶n,m=map(int,input().split())l=input().split()m%=nl=l[-m:]+l[:-m]print("".join(l))
正则表达式匹配特定字符后的所有字符 zzyh123456 正则表达式数据库 mysql
在处理文本数据时，正则表达式（RegularExpressions，简称Regex）是一种非常强大的工具，它可以用来搜索、匹配和替换文本中符合特定模式的字符串。首先，明确我们的目标是匹配完整的URL，并获取它之后的所有字符。由于正则表达式默认是贪婪的（即尽可能多地匹配字符），我们可以直接编写一个模式来匹配这个URL后跟任意数量的任意字符。以下是一个可能的正则表达式示例：regexhttps:\/\
Linux安装Python3 培根芝士 Python Linux python linux
1.下载python3编译的依赖包yuminstall-ygccpatchlibffi-develpython-develzlib-develbzip2-developenssl-develncurses-develsqlite-develreadline-develtk-develgdbm-develdb4-devellibpcap-develxz-devel2.安装openssl1.1.xyu
Python机器学习实战：主成分分析(PCA)的原理和实战操作 AI天才研究院大数据AI人工智能 AI大模型企业级应用开发实战计算计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python机器学习实战：主成分分析(PCA)的原理和实战操作1.背景介绍1.1什么是主成分分析(PCA)？主成分分析（PrincipalComponentAnalysis，PCA）是一种常用的无监督学习算法，用于数据降维和特征提取。它通过线性变换将原始高维数据映射到低维空间，同时保留数据的主要特征和信息。PCA的目标是找到数据中最主要的方向（主成分），沿着这些方向对数据进行投影，从而实现降维。1
linux下编译安装python3.10亲测可行！致命扼腕环境安装服务器使用 linux python 运维
方法简单两部步就可以啦apt-getupdate&&apt-getupgrade-yapt-getinstall-y--no-install-recommendsgccg++makepython3python3-devpython3-pippython3-venvpython3-wheelespeak-nglibsndfile1-dev测试命令行输入python3即可看到安装成功安装python包
十五、CentOS 7 下安装python3.10 使用最新openssl 默金…… centos linux 运维
要在CentOS7上安装Python3.10并使用最新的OpenSSL，可以按照以下步骤进行操作：更新系统软件包：使用yum命令更新系统软件包到最新版本：sudoyumupdate安装编译工具和依赖项：安装构建Python和OpenSSL所需的编译工具和依赖项：sudoyumgroupinstall"DevelopmentTools"sudoyuminstallzlib-develbzip2-de
linux 安装python3.7.10 多财多亿,凭亿近人 python随手笔记 Python 安装编译依赖 Linux
apt-getupdateapt-getupgradeaptinstallbuild-essential-yaptinstalllibncurses5-devlibgdbm-devlibnss3-devlibssl-devlibreadline-devlibffi-dev-yaptinstallzlib1g-devaptinstallwgetaptinstallopensslaptinstallc
继续分享实用工具的Python源码，欢迎二开 mosquito_lover1 信息可视化 python 开源
Excel数据处理工具一个功能强大的Excel数据处理工具，支持数据清洗、转换和分析等功能资源-CSDN文库邮件自动化工具一个功能强大的邮件自动化工具，支持批量发送邮件和自定义模板资源-CSDN文库网页爬虫工具一个功能强大的网页爬虫工具，支持自定义规则和批量数据提取资源-CSDN文库日志分析工具一个功能强大的日志分析工具，支持多种格式的日志文件分析和可视化资源-CSDN文库文件重命名工具一个功能强
Linux下安装python3.10.12环境爱思考的李MAX linux 运维服务器 python
安装python3编程环境检查是否安装python3python3-V安装python3依赖sudoyum-yinstallzlib-develbzip2-developenssl-develncurses-develsqlite-develreadline-develtk-develgdbm-develdb4-devellibpcap-develxz-devellibffi-devel下载pyt
编译安装 Python 3.10.15：你必须掌握的 CentOS 实战指南20241031 Narutolxy Python笔记技术干货分享 python centos 开发语言
编译安装Python3.10.15：你必须掌握的CentOS实战指南**在CentOS系统上编译安装Python是一项技术活。**轻微的疏忽可能就让你陷入依赖困境，或甚至让Python与系统组件发生冲突。今天，让我们从实践角度出发，掌握一套高效、安全的安装流程！一、为什么要手动编译安装Python？包管理器的Python版本可能无法满足你的开发需求，尤其是在追求新特性或想要启用特定优化时。从源码编
linux 安装python 3.10 处女座_三月 python linux 运维服务器
1下载对应的安装包下载地址：https://download.csdn.net/download/weixin_43401380/885196692上传服务器1步骤1:解压文件tar-xzfPython-3.10.13.tgz2步骤2:创建安装目录mkdirlocal3开始安装1安装gcc：你需要安装gcc，这是GNU编译器集合的一部分，用于编译C程序。执行以下命令来安装gcc：sudoaptup
用python绘制kde模型若木胡 python 开发语言
以下是使用Python绘制核密度估计（KernelDensityEstimation,KDE）模型的完整示例代码和说明：方法1:使用Seaborn快速绘制importnumpyasnpimportmatplotlib.pyplotaspltimportseabornassns#生成示例数据（混合高斯分布）data=np.concatenate([np.random.normal(0,1,500),
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr