从0到1爬虫学习笔记:02非结构化数据与结构化数据提取

文章目录

    • 1 综述
      • 1.1 页面解析和数据提取
      • 1.2 非结构化的数据处理
      • 1.3 结构化的数据处理
    • 2 正则表达式re模块
      • 2.1 为什么要学正则表达式
      • 2.2 什么是正则表达式
      • 2.3 正则表达式匹配规则
      • 2.4 python中的re模块
      • 2.5 匹配中文
      • 2.6 贪婪模式与非贪婪模式
    • 3 XPath与lxml类库
      • 3.1 什么是XML
      • 3.2 XML 和 HTML 的区别
      • 3.2 XML的节点关系
      • 3.3 XPath相关基础概念
      • 3.4 XPath的运算符
      • 3.5 lxml库
      • 3.6 XPath实例测试
      • 3.7 使用XPath的爬虫
    • 4 JSON与JsonPATH
      • 4.1 JSON
      • 4.2 JSON库
      • 4.3 JsonPath
      • 4.4 实例:解析json文件获取数据
    • 5 BeautifulSoup4

1 综述

1.1 页面解析和数据提取

一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值。内容一般分为两部分,非结构化的数据 和 结构化的数据。

  • 非结构化数据:先有数据,再有结构,(http://www.baidu.com)
  • 结构化数据:先有结构、再有数据(http://wangyi.butterfly.mopaasapp.com/news/api?type=war&page=1&limit=10)
  • 不同类型的数据,我们需要采用不同的方式来处理。

1.2 非结构化的数据处理

(1)文本、电话号码、邮箱地址

  • 正则表达式

(2)HTML 文件

  • 正则表达式
  • XPath
  • CSS选择器

1.3 结构化的数据处理

(1)JSON 文件

  • JSON Path
  • 转化成Python类型进行操作(json类)

(2)XML 文件

  • 转化成Python类型(xmltodict)
  • XPath
  • CSS选择器
  • 正则表达式

2 正则表达式re模块

2.1 为什么要学正则表达式

实际上爬虫一共就四个主要步骤:

  • 明确目标 (要知道你准备在哪个范围或者网站去搜索)
  • 爬 (将所有的网站的内容全部爬下来)
  • 取 (去掉对我们没用处的数据)
  • 处理数据(按照我们想要的方式存储和使用)

在之前的案例里实际上省略了第3步,也就是"取"的步骤。因为我们down下了的数据是全部的网页,这些数据很庞大并且很混乱,大部分的东西使我们不关心的,因此我们需要将之按我们的需要过滤和匹配出来。

那么对于文本的过滤或者规则的匹配,最强大的就是正则表达式,是Python爬虫世界里必不可少的神兵利器。

2.2 什么是正则表达式

正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。

正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个"规则字符串",这个"规则字符串"用来表达对字符串的一种过滤逻辑。

给定一个正则表达式和另一个字符串,我们可以达到如下的目的:

  • 匹配:给定的字符串是否符合正则表达式的过滤逻辑;
  • 过滤:通过正则表达式,从文本字符串中获取我们想要的特定部分。
    从0到1爬虫学习笔记:02非结构化数据与结构化数据提取_第1张图片

2.3 正则表达式匹配规则

从0到1爬虫学习笔记:02非结构化数据与结构化数据提取_第2张图片

2.4 python中的re模块

在 Python 中,我们可以使用内置的 re 模块来使用正则表达式。

有一点需要特别注意的是,正则表达式使用\对特殊字符进行转义,所以如果我们要使用原始字符串,只需加一个 r 前缀,示例:

r'chuanzhiboke\t\.\tpython'

re 模块的一般使用步骤如下:

  • 使用 compile() 函数将正则表达式的字符串形式编译为一个 Pattern 对象
  • 通过 Pattern 对象提供的一系列方法对文本进行匹配查找,获得匹配结果,一个 Match 对象。
  • 最后使用 Match 对象提供的属性和方法获得信息,根据需要进行其他的操作

(1)compile函数
compile 函数用于编译正则表达式,生成一个 Pattern 对象,它的一般使用形式如下:

import re

# 将正则表达式编译成 Pattern 对象
pattern = re.compile(r'\d+')

在上面,我们已将一个正则表达式编译成 Pattern 对象,接下来,我们就可以利用 pattern 的一系列方法对文本进行匹配查找了。

Pattern 对象的一些常用方法主要有:

  • match 方法:从起始位置开始查找,一次匹配
  • search 方法:从任何位置开始查找,一次匹配
  • findall 方法:全部匹配,返回列表
  • finditer 方法:全部匹配,返回迭代器
  • split 方法:分割字符串,返回列表
  • sub 方法:替换

(2)match方法
match 方法用于查找字符串的头部(也可以指定起始位置),它是一次匹配,只要找到了一个匹配的结果就返回,而不是查找所有匹配的结果。它的一般使用形式如下:

match(string[, pos[, endpos]])

其中,string 是待匹配的字符串,pos 和 endpos 是可选参数,指定字符串的起始和终点位置,默认值分别是 0 和 len (字符串长度)。因此,当你不指定 pos 和 endpos 时,match 方法默认匹配字符串的头部。

当匹配成功时,返回一个 Match 对象,如果没有匹配上,则返回 None。

>>> import re
>>> pattern = re.compile(r'\d+')  # 用于匹配至少一个数字

>>> m = pattern.match('one12twothree34four')  # 查找头部,没有匹配
>>> print (m)
None

>>> m = pattern.match('one12twothree34four', 2, 10) # 从'e'的位置开始匹配,没有匹配
>>> print (m)
None

>>> m = pattern.match('one12twothree34four', 3, 10) # 从'1'的位置开始匹配,正好匹配
>>> print (m)                                         # 返回一个 Match 对象
<_sre.SRE_Match object at 0x10a42aac0>

>>> m.group(0)   # 可省略 0
'12'
>>> m.start(0)   # 可省略 0
3
>>> m.end(0)     # 可省略 0
5
>>> m.span(0)    # 可省略 0
(3, 5)

在上面,当匹配成功时返回一个 Match 对象,其中:

  • group([group1, …]) 方法用于获得一个或多个分组匹配的字符串,当要获得整个匹配的子串时,可直接使用 group() 或 group(0)

  • start([group]) 方法用于获取分组匹配的子串在整个字符串中的起始位置(子串第一个字符的索引),参数默认值为 0;

  • end([group]) 方法用于获取分组匹配的子串在整个字符串中的结束位置(子串最后一个字符的索引+1),参数默认值为 0;

  • span([group]) 方法返回 (start(group), end(group))。

>>> import re
>>> pattern = re.compile(r'([a-z]+) ([a-z]+)', re.I)  # re.I 表示忽略大小写
>>> m = pattern.match('Hello World Wide Web')

>>> print (m)     # 匹配成功,返回一个 Match 对象
<_sre.SRE_Match object at 0x10bea83e8>

>>> m.group(0)  # 返回匹配成功的整个子串
'Hello World'

>>> m.span(0)   # 返回匹配成功的整个子串的索引
(0, 11)

>>> m.group(1)  # 返回第一个分组匹配成功的子串
'Hello'

>>> m.span(1)   # 返回第一个分组匹配成功的子串的索引
(0, 5)

>>> m.group(2)  # 返回第二个分组匹配成功的子串
'World'

>>> m.span(2)   # 返回第二个分组匹配成功的子串
(6, 11)

>>> m.groups()  # 等价于 (m.group(1), m.group(2), ...)
('Hello', 'World')

>>> m.group(3)   # 不存在第三个分组
Traceback (most recent call last):
  File "", line 1, in <module>
IndexError: no such group

(3)search方法
search 方法用于查找字符串的任何位置,它也是一次匹配,只要找到了一个匹配的结果就返回,而不是查找所有匹配的结果,它的一般使用形式如下:

search(string[, pos[, endpos]])

其中,string 是待匹配的字符串,pos 和 endpos 是可选参数,指定字符串的起始和终点位置,默认值分别是 0 和 len (字符串长度)。

当匹配成功时,返回一个 Match 对象,如果没有匹配上,则返回 None。

让我们看看例子:

>>> import re
>>> pattern = re.compile('\d+')
>>> m = pattern.search('one12twothree34four')  # 这里如果使用 match 方法则不匹配
>>> m
<_sre.SRE_Match object at 0x10cc03ac0>
>>> m.group()
'12'
>>> m = pattern.search('one12twothree34four', 10, 30)  # 指定字符串区间
>>> m
<_sre.SRE_Match object at 0x10cc03b28>
>>> m.group()
'34'
>>> m.span()
(13, 15)

(4)findall 方法
上面的 match 和 search 方法都是一次匹配,只要找到了一个匹配的结果就返回。然而,在大多数时候,我们需要搜索整个字符串,获得所有匹配的结果

findall 方法的使用形式如下:

findall(string[, pos[, endpos]])

其中,string 是待匹配的字符串,pos 和 endpos 是可选参数,指定字符串的起始和终点位置,默认值分别是 0 和 len (字符串长度)。

findall 以列表形式返回全部能匹配的子串,如果没有匹配,则返回一个空列表。

看看例子:

import re
pattern = re.compile(r'\d+')   # 查找数字

result1 = pattern.findall('hello 123456 789')
result2 = pattern.findall('one1two2three3four4', 0, 10)

print (result1)
print (result2)

执行结果:

['123456', '789']
['1', '2']

(5)finditer 方法
finditer 方法的行为跟 findall 的行为类似,也是搜索整个字符串,获得所有匹配的结果。但它返回一个顺序访问每一个匹配结果(Match 对象)的迭代器。

看看例子:

# -*- coding: utf-8 -*-

import re
pattern = re.compile(r'\d+')

result_iter1 = pattern.finditer('hello 123456 789')
result_iter2 = pattern.finditer('one1two2three3four4', 0, 10)

print (type(result_iter1))
print (type(result_iter2))

print 'result1...'
for m1 in result_iter1:   # m1 是 Match 对象
    print ('matching string: {}, position: {}'.format(m1.group(), m1.span()))

print 'result2...'
for m2 in result_iter2:
    print ('matching string: {}, position: {}'.format(m2.group(), m2.span()))

执行结果:

<type 'callable-iterator'>
<type 'callable-iterator'>
result1...
matching string: 123456, position: (6, 12)
matching string: 789, position: (13, 16)
result2...
matching string: 1, position: (3, 4)
matching string: 2, position: (7, 8)

(6)split 方法
split 方法按照能够匹配的子串将字符串分割后返回列表,它的使用形式如下:

split(string[, maxsplit])

其中,maxsplit 用于指定最大分割次数,不指定将全部分割。

看看例子:

import re
p = re.compile(r'[\s\,\;]+')
print (p.split('a,b;; c   d'))

执行结果:

['a', 'b', 'c', 'd']

(7)sub 方法
sub 方法用于替换。它的使用形式如下:

sub(repl, string[, count])

其中,repl 可以是字符串也可以是一个函数:

  • 如果 repl 是字符串,则会使用 repl 去替换字符串每一个匹配的子串,并返回替换后的字符串,另外,repl 还可以使用 id 的形式来引用分组,但不能使用编号 0;

  • 如果 repl 是函数,这个方法应当只接受一个参数(Match 对象),并返回一个字符串用于替换(返回的字符串中不能再引用分组)。

  • count 用于指定最多替换次数,不指定时全部替换。

看看例子:

import re
p = re.compile(r'(\w+) (\w+)') # \w = [A-Za-z0-9]
s = 'hello 123, hello 456'

print (p.sub(r'hello world', s))  # 使用 'hello world' 替换 'hello 123' 和 'hello 456'
print (p.sub(r'\2 \1', s))        # 引用分组

def func(m):
    print(m)
    return 'hi' + ' ' + m.group(2) #group(0) 表示本身,group(1)表示hello,group(2) 表示后面的数字

print (p.sub(func, s))  #多次sub,每次sub的结果传递给func
print (p.sub(func, s, 1))         # 最多替换一次

执行结果,其中r’\2 \1’的具体解释可参考该链接:

hello world, hello world
123 hello, 456 hello
hi 123, hi 456
hi 123, hello 456

2.5 匹配中文

在某些情况下,我们想匹配文本中的汉字,有一点需要注意的是,中文的 unicode 编码范围 主要在 [u4e00-u9fa5],这里说主要是因为这个范围并不完整,比如没有包括全角(中文)标点,不过,在大部分情况下,应该是够用的。

假设现在想把字符串 title = u’你好,hello,世界’ 中的中文提取出来,可以这么做:

import re

title = '你好,hello,世界'
pattern = re.compile(r'[\u4e00-\u9fa5]+')
result = pattern.findall(title)

print (result)

2.6 贪婪模式与非贪婪模式

  • 贪婪模式:在整个表达式匹配成功的前提下,尽可能多的匹配 ( * );
  • 非贪婪模式:在整个表达式匹配成功的前提下,尽可能少的匹配 ( ? );
  • Python里数量词默认是贪婪的。

从0到1爬虫学习笔记:02非结构化数据与结构化数据提取_第3张图片

从0到1爬虫学习笔记:02非结构化数据与结构化数据提取_第4张图片
附:正则表达式测试网址

3 XPath与lxml类库

有同学说,我正则用的不好,处理HTML文档很累,有没有其他的方法?

有!那就是XPath,我们可以先将 HTML文件 转换成 XML文档,然后用 XPath 查找 HTML 节点或元素。

3.1 什么是XML

XML 指可扩展标记语言(EXtensible Markup Language)

  • XML 是一种标记语言,很类似 HTML
  • XML 的设计宗旨是传输数据,而非显示数据
  • XML 的标签需要我们自行定义。
  • XML 被设计为具有自我描述性。
  • XML 是 W3C 的推荐标准
    W3School官方文档:http://www.w3school.com.cn/xml/index.asp

3.2 XML 和 HTML 的区别

从0到1爬虫学习笔记:02非结构化数据与结构化数据提取_第5张图片
XML文档示例



<bookstore>

  <book category="cooking">
    <title lang="en">Everyday Italiantitle>  
    <author>Giada De Laurentiisauthor>  
    <year>2005year>  
    <price>30.00price>
  book>  

  <book category="children">
    <title lang="en">Harry Pottertitle>  
    <author>J K. Rowlingauthor>  
    <year>2005year>  
    <price>29.99price>
  book>  

  <book category="web">
    <title lang="en">XQuery Kick Starttitle>  
    <author>James McGovernauthor>  
    <author>Per Bothnerauthor>  
    <author>Kurt Cagleauthor>  
    <author>James Linnauthor>  
    <author>Vaidyanathan Nagarajanauthor>  
    <year>2003year>  
    <price>49.99price>
  book>

  <book category="web" cover="paperback">
    <title lang="en">Learning XMLtitle>  
    <author>Erik T. Rayauthor>  
    <year>2003year>  
    <price>39.95price>
  book>

bookstore>

HTML DOM 模型示例
HTML DOM 定义了访问和操作 HTML 文档的标准方法,以树结构方式表达 HTML 文档。
从0到1爬虫学习笔记:02非结构化数据与结构化数据提取_第6张图片

3.2 XML的节点关系

(1)父(Parent):每个元素以及属性都有一个父。
(2)子(Children):元素节点可有零个、一个或多个子。
(3)同胞(Sibling):拥有相同的父的节点。
(4)先辈(Ancestor):某节点的父、父的父,等等。
(5)后代(Descendant):某个节点的子,子的子,等等。

下面是一个简单的XML例子,其中:

  • book 元素是 title、author、year 以及 price 元素的
  • title、author、year 以及 price 元素都是 book 元素的
  • title、author、year 以及 price 元素都是同胞
  • title 元素的先辈是 book 元素和 bookstore 元素;
  • bookstore 的后代是 book、title、author、year 以及 price 元素


<bookstore>

<book>
  <title>Harry Pottertitle>
  <author>J K. Rowlingauthor>
  <year>2005year>
  <price>29.99price>
book>

bookstore>

3.3 XPath相关基础概念

XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。

W3School官方文档:http://www.w3school.com.cn/xpath/index.asp

XPath 开发工具

  • 开源的XPath表达式编辑工具:XMLQuire(XML格式文件可用)
  • Chrome插件 XPath Helper
  • Firefox插件 XPath Checker

(1)选取节点
XPath 使用路径表达式来选取 XML 文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。

下面列出了最常用的路径表达式:
从0到1爬虫学习笔记:02非结构化数据与结构化数据提取_第7张图片
在下面的表格中列出了一些路径表达式以及表达式的结果:
从0到1爬虫学习笔记:02非结构化数据与结构化数据提取_第8张图片
(2)谓语(Predicates)
谓语用来查找某个特定的节点或者包含某个指定的值的节点,被嵌在方括号中。

在下面的表格中列出了带有谓语的一些路径表达式,以及表达式的结果:
从0到1爬虫学习笔记:02非结构化数据与结构化数据提取_第9张图片
(3)选取未知节点
XPath 通配符可用来选取未知的 XML 元素。
从0到1爬虫学习笔记:02非结构化数据与结构化数据提取_第10张图片
(4)选取若干路径
通过在路径表达式中使用“|”运算符,您可以选取若干个路径。

实例:在下面的表格中列出了一些路径表达式,以及这些表达式的结果:
从0到1爬虫学习笔记:02非结构化数据与结构化数据提取_第11张图片

3.4 XPath的运算符

从0到1爬虫学习笔记:02非结构化数据与结构化数据提取_第12张图片

3.5 lxml库

lxml 是 一个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 数据。

lxml和正则一样,也是用 C 实现的,是一款高性能的 Python HTML/XML 解析器,我们可以利用之前学习的XPath语法,来快速的定位特定元素以及节点信息。

lxml python 官方文档:http://lxml.de/index.html

需要安装C语言库,可使用 pip 安装:pip install lxml (或通过wheel方式安装)

(1) 初步使用
我们利用它来解析 HTML 代码,简单示例:

# lxml_test.py

# 使用 lxml 的 etree 库
from lxml import etree

text = '''
'''
#利用etree.HTML,将字符串解析为HTML文档 html = etree.HTML(text) # 按字符串序列化HTML文档 result = etree.tostring(html) print(result)

执行结果:

<html><body>
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
 </div>
</body></html>

lxml 可以自动修正 html 代码,例子里不仅补全了 li 标签,还添加了 body,html 标签。

(2)文件读取
除了直接读取字符串,lxml还支持从文件里读取内容。我们新建一个hello.html文件:



<div>
    <ul>
         <li class="item-0"><a href="link1.html">first itema>li>
         <li class="item-1"><a href="link2.html">second itema>li>
         <li class="item-inactive"><a href="link3.html"><span class="bold">third itemspan>a>li>
         <li class="item-1"><a href="link4.html">fourth itema>li>
         <li class="item-0"><a href="link5.html">fifth itema>li>
     ul>
 div>

再利用 etree.parse() 方法来读取文件。

# lxml_parse.py

from lxml import etree

# 读取外部文件 hello.html
html = etree.parse('./hello.html')
result = etree.tostring(html, pretty_print=True)

print(result)

执行结果与之前相同:

<html><body>
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first item</a></li>
         <li class="item-1"><a href="link2.html">second item</a></li>
         <li class="item-inactive"><a href="link3.html">third item</a></li>
         <li class="item-1"><a href="link4.html">fourth item</a></li>
         <li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
 </div>
</body></html>

3.6 XPath实例测试

(1)获取所有的

  • 标签

    # xpath_li.py
    
    from lxml import etree
    
    html = etree.parse('hello.html')
    print type(html)  # 显示etree.parse() 返回类型
    
    result = html.xpath('//li')
    
    print result  # 打印
  • 标签的元素集合 print len(result) print type(result) print type(result[0])
  • 执行结果:

    <type 'lxml.etree._ElementTree'>
    [<Element li at 0x1014e0e18>, <Element li at 0x1014e0ef0>, <Element li at 0x1014e0f38>, <Element li at 0x1014e0f80>, <Element li at 0x1014e0fc8>]
    5
    <type 'list'>
    <type 'lxml.etree._Element'>
    

    (2)继续获取

  • 标签的所有 class属性

    # xpath_li.py
    
    from lxml import etree
    
    html = etree.parse('hello.html')
    result = html.xpath('//li/@class')
    
    print result
    

    执行结果:

    ['item-0', 'item-1', 'item-inactive', 'item-1', 'item-0']
    

    (3)继续获取

  • 标签下hre 为 link1.html 的 标签

    # xpath_li.py
    
    from lxml import etree
    
    html = etree.parse('hello.html')
    result = html.xpath('//li/a[@href="link1.html"]')
    
    print result
    

    执行结果:

    [<Element a at 0x10ffaae18>]
    

    (4)获取最后一个

  • 的 href

    # xpath_li.py
    
    from lxml import etree
    
    html = etree.parse('hello.html')
    
    result = html.xpath('//li[last()]/a/@href')
    # 谓语 [last()] 可以找到最后一个元素
    
    print result
    

    执行结果:

    ['link5.html']
    

    (5)获取倒数第二个元素的内容

    # xpath_li.py
    
    from lxml import etree
    
    html = etree.parse('hello.html')
    result = html.xpath('//li[last()-1]/a')
    
    # text 方法可以获取元素内容
    print result[0].text
    

    执行结果:

    fourth item
    

    (6)获取 class 值为 bold 的标签名

    # xpath_li.py
    
    from lxml import etree
    
    html = etree.parse('hello.html')
    
    result = html.xpath('//*[@class="bold"]')
    
    # tag方法可以获取标签名
    print result[0].tag
    

    执行结果:

    span
    

    3.7 使用XPath的爬虫

    用XPath来做一个简单的爬虫,我们尝试爬取某个贴吧里的所有帖子,并且将该这个帖子里每个楼层发布的图片下载到本地。

    #coding=utf-8
    import requests
    from lxml import etree
    import json
    
    class Tieba:
    
        def __init__(self,tieba_name):
            self.tieba_name = tieba_name #接收贴吧名
            #设置为手机端的UA
            self.headers = {"User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1"}
    
        def get_total_url_list(self):
            '''获取所有的urllist'''
            url = "https://tieba.baidu.com/f?kw="+self.tieba_name+"&ie=utf-8&pn={}&"
            url_list = []
            for i in range(100): #通过循环拼接100个url
                url_list.append(url.format(i*50))
            return url_list #返回100个url的urllist
    
        def parse_url(self,url):
            '''一个发送请求,获取响应,同时etree处理html'''
            print("parsing url:",url)
            response = requests.get(url,headers=self.headers,timeout=10) #发送请求
            html = response.content.decode() #获取html字符串
            html = etree.HTML(html) #获取element 类型的html
            return html
    
        def get_title_href(self,url):
            '''获取一个页面的title和href'''
            html = self.parse_url(url)
            li_temp_list = html.xpath("//li[@class='tl_shadow']") #分组,按照li标签分组
            total_items = []
            for i in li_temp_list: #遍历分组
                href = "https:"+i.xpath("./a/@href")[0] if len(i.xpath("./a/@href"))>0 else None
                text = i.xpath("./a/div[1]/span[1]/text()")
                text = text[0] if len(text)>0 else None
                item = dict(  #放入字典
                    href = href,
                    text = text
                )
                total_items.append(item)
            return total_items #返回一个页面所有的item
    
        def get_img(self,url):
            '''获取一个帖子里面的所有图片'''
            html = self.parse_url(url) #返回elemet累心的html,具有xpath方法
            img_list = html.xpath('//div[@data-class="BDE_Image"]/@data-url')
            img_list = [i.split("src=")[-1] for i in img_list] #提取图片的url
            img_list = [requests.utils.unquote(i) for i in img_list]
            return img_list
    
        def save_item(self,item):
            '''保存一个item'''
            with open("teibatupian.txt","a") as f:
                f.write(json.dumps(item,ensure_ascii=False,indent=2))
                f.write("\n")
    
        def run(self):
            #1、找到了url规律,url list
            url_list = self.get_total_url_list()
            for url in url_list:
            #2、遍历urllist 发送请求,获得响应,etree处理html
            # 3、提取title,href
                total_item = self.get_title_href(url)
                for item in total_item:
                    href = item["href"]
                    img_list = self.get_img(href) #获取到了帖子的图片列表
                    item["img"] = img_list
                    # 4、保存到本地
                    print(item)
                    self.save_item(item)
    
    if __name__ == "__main__":
        tieba = Tieba("猫")
        tieba.run()
    

    4 JSON与JsonPATH

    4.1 JSON

    JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。

    JSON和XML的比较可谓不相上下。

    Python 2.7中自带了JSON模块,直接import json就可以使用了。

    官方文档、Json在线解析网站

    json简单说就是javascript中的对象和数组,所以这两种结构就是对象和数组两种结构,通过这两种结构可以表示各种复杂的结构:

    • 对象:对象在js中表示为{ }括起来的内容,数据结构为 { key:value, key:value, … }的键值对的结构,在面向对象的语言中,key为对象的属性,value为对应的属性值,所以很容易理解,取值方法为 对象.key 获取属性值,这个属性值的类型可以是数字、字符串、数组、对象这几种。

    • 数组:数组在js中是中括号[ ]括起来的内容,数据结构为 [“Python”, “javascript”, “C++”, …],取值方式和所有语言中一样,使用索引获取,字段值的类型可以是 数字、字符串、数组、对象几种。

    4.2 JSON库

    json模块提供了四个功能:dumps、dump、loads、load,用于字符串 和 python数据类型间进行转换。

    (1)json.loads()
    把Json格式字符串解码转换成Python对象 从json到python的类型转化对照如下:
    从0到1爬虫学习笔记:02非结构化数据与结构化数据提取_第13张图片

    # json_loads.py
    
    import json
    
    strList = '[1, 2, 3, 4]'
    
    strDict = '{"city": "北京", "name": "大猫"}'
    
    json.loads(strList)
    # [1, 2, 3, 4]
    
    json.loads(strDict) # json数据自动按Unicode存储
    # {u'city': u'\u5317\u4eac', u'name': u'\u5927\u732b'}
    

    (2)json.load()
    读取文件中json形式的字符串元素 转化成python类型。

    # json_load.py
    
    import json
    
    strList = json.load(open("listStr.json"))
    print strList
    
    # [{u'city': u'\u5317\u4eac'}, {u'name': u'\u5927\u5218'}]
    
    strDict = json.load(open("dictStr.json"))
    print strDict
    # {u'city': u'\u5317\u4eac', u'name': u'\u5927\u5218'}
    

    (3)json.dumps()
    实现python类型转化为json字符串,返回一个str对象 把一个Python对象编码转换成Json字符串。

    从python原始类型向json类型的转化对照如下:
    从0到1爬虫学习笔记:02非结构化数据与结构化数据提取_第14张图片

    # json_dumps.py
    
    import json
    import chardet
    
    listStr = [1, 2, 3, 4]
    tupleStr = (1, 2, 3, 4)
    dictStr = {"city": "北京", "name": "大猫"}
    
    json.dumps(listStr)
    # '[1, 2, 3, 4]'
    json.dumps(tupleStr)
    # '[1, 2, 3, 4]'
    
    # 注意:json.dumps() 序列化时默认使用的ascii编码
    # 添加参数 ensure_ascii=False 禁用ascii编码,按utf-8编码
    # chardet.detect()返回字典, 其中confidence是检测精确度
    
    json.dumps(dictStr)
    # '{"city": "\\u5317\\u4eac", "name": "\\u5927\\u5218"}'
    
    chardet.detect(json.dumps(dictStr))
    # {'confidence': 1.0, 'encoding': 'ascii'}
    
    print json.dumps(dictStr, ensure_ascii=False)
    # {"city": "北京", "name": "大刘"}
    
    chardet.detect(json.dumps(dictStr, ensure_ascii=False))
    # {'confidence': 0.99, 'encoding': 'utf-8'}
    

    (4)json.dump()
    将Python内置类型序列化为json对象后写入文件。

    # json_dump.py
    
    import json
    
    listStr = [{"city": "北京"}, {"name": "大刘"}]
    json.dump(listStr, open("listStr.json","w"), ensure_ascii=False)
    
    dictStr = {"city": "北京", "name": "大刘"}
    json.dump(dictStr, open("dictStr.json","w"), ensure_ascii=False)
    

    4.3 JsonPath

    JsonPath 是一种信息抽取类库,是从JSON文档中抽取指定信息的工具,提供多种语言实现版本,包括:Javascript, Python, PHP 和 Java。

    JsonPath 对于 JSON 来说,相当于 XPATH 对于 XML。

    • 下载地址

    • 安装方法:点击Download URL链接下载jsonpath,解压之后执行python setup.py install

    • 官方文档

    JsonPath与XPath语法对比:Json结构清晰,可读性高,复杂度低,非常容易匹配,下表中对应了XPath的用法。
    从0到1爬虫学习笔记:02非结构化数据与结构化数据提取_第15张图片

    4.4 实例:解析json文件获取数据

    我们以拉勾网城市JSON文件为例,获取所有城市。

    # jsonpath_lagou.py
    
    import requests
    import jsonpath
    import json
    import chardet
    
    url = 'http://www.lagou.com/lbs/getAllCitySearchLabels.json'
    response = requests.get(url)
    html = response.text
    
    # 把json格式字符串转换成python对象
    jsonobj = json.loads(html)
    
    # 从根节点开始,匹配name节点
    citylist = jsonpath.jsonpath(jsonobj,'$..name')
    
    print citylist
    print type(citylist)
    fp = open('city.json','w')
    
    content = json.dumps(citylist, ensure_ascii=False)
    print content
    
    fp.write(content.encode('utf-8'))
    fp.close()
    

    5 BeautifulSoup4

    和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。

    • lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。

    • BeautifulSoup 用来解析 HTML 比较简单,API非常人性化,支持CSS选择器、Python标准库中的HTML解析器,也支持lxml 的 XML解析器。

    • Beautiful Soup 3 目前已经停止开发,推荐现在的项目使用Beautiful Soup 4。使用 pip 安装即可:pip
      install beautifulsoup4

    官方文档

    数据抓取方式比较:
    从0到1爬虫学习笔记:02非结构化数据与结构化数据提取_第16张图片

  • 你可能感兴趣的:(爬虫学习笔记,python,xpath,正则表达式,爬虫,json)