Python学习数据抓取

在上一章中，我们构建了一个爬虫，可以通过跟踪链接的方式下载我们所需的网页。虽然这个例子很有意思，却不够实用，因为爬虫在下载网页之后又将结果丢弃了。现在，我们需要让这个爬虫从每个网页中抽取一些数据，然后实现某些事情，这种做法也被称为抓取（scraping）。
首先，我们会介绍了一个叫做Firebug Lite的浏览器扩展，用于检查网页内容，如果你有一些网络开发背景的话，可能已经对该扩展十分熟悉了。然后，我们会介绍了三种抽取网页数据的方法，分别是正则表达式/Beautiful Soup和lxml。最后，我们将对比这三种数据抓取方法。

分析网页

想要了解一个网页的结果如何，可以使用查看源代码的方法。在大多数浏览器中，都可以在页面上右键单击选择View page source选项，获取网页的源代码。
我们可以在HTML的代码中找到我们感兴趣的数据。

三种网页抓取方法

现在我们已经了解了该网页的结果，下面将要介绍三种抓取其中数据的方法。首先是正则表达式，然后时流行的BeautifulSoup模块，最后是强大的lxml模块。

正则表达式

如果你对正则表达式还不熟悉，或是需要一些提示时，可以查阅https://docs.python.org/2/howto/regex.html获得完整介绍。
下例为正则抓取国土面积

import urllib.request
import re
def scrape(html):
    html = html.decode('utf-8')
    area = re.findall('.*?(.*?)', html)[0]
    return areahtml.decode('utf-8')

if __name__ == '__main__':
    html = urllib.request.urlopen('http://example.webscraping.com/view/United-Kingdom-239').read()
    print(scrape(html))

获得结果244,820 square kilometres。
正则表达式为我们提供了抓取数据的快捷方式，但是该方法过去脆弱，容易在网页更新后出现问题。

Beautiful Soup

Beautiful Soup是非常流行的Python模块。该模块可以解析网页，并提供定位内容的便捷接口。如果你还没有安装模块，可以使用下面的命令安装其最新版本：pip install beautifulsoup4
使用Beautiful Soup的第一步是将已下载的HTML内容解析为soup文档。由于大多数网页都不具备良好的HTML格式，因此Beautiful Soup需要对其实际格式进行确定。例如，在下面这个简单网页的列表中，存在属性值两侧引号缺失和标签未闭合的问题。


        Area
        
Population

如果Population列表项被解析为Area列表项的子元素，而不是并列的两个列表项的话，我们在抓取时就会得到错误的结果。下面让我们看一下Beautiful Soup 是如何处理的。

>>> from bs4 import BeautifulSoup
>>> broken html = ’  Area
Population ’
>>> # parse the HTML
>>> soup = BeautifulSoup(broken_html , ’ html.parser’)
>>> fixed html = soup.prettify( )
>>> print(fixed_html)

  
    
      Area
      Population

从上面的执行结果中可以看出，Beautiful Soup能够正确解析缺失的引导关闭合标签，此外还添加了和标签使其成为完整的HTML文档。现在可以使用find()和find_all()方法来定位我们需要的元素了。

>>> ul = soup.find('ul', sttrs=('class', 'country'))
>>> ul.find('li') # returns just the first match
Area
>>> ul.find_all('li') # returns all matches
[Area
, Population]

下面是使用该方法抽取示例国家面积数据的完整代码

import urllib.request
from bs4 import BeautifulSoup

def scrape(html):
    soup = BeautifulSoup(html, "lxml")
    tr = soup.find(attrs={'id': 'places_area__row'}) # 找到区域行
    # 'class'是一个特殊的Python属性，所以使用‘class_’替换
    td = tr.find(attrs={'class':'w2p_fw'}) # 找到区域标签
    area = td.text # 从该标签提取区域内容
    return area

if __name__ == '__main__':
    html = urllib.request.urlopen('http://example.webscraping.com/view/United-Kingdom-239').read()
    print(scrape(html))

输出为244,820 square kilometres

Lxml

Lxml是基于libxml2这一XML解析库的Python封装。该模块使用C语言编写，解析速度比Beautiful Soup更快，不过安装过程也更复杂。最新的安装说明可以参考http://Lxml.de/installation.html。
和Beautiful Soup一样，使用lxml模块的第一步也是将有可能不合法的HTML解析为统一格式。下面是使用该模块解析同一个不完整的HTML的例子。

>>> import lxml.html
>>> broken html = ’Area
Population’
>>> tree = lxml.html.fromstring(broken_ html) #parse the HTML
>>> fixed html = lxml.html.tostring( tree , pretty_print=True )
>>> print(fixed_html)

  Area
  Population

同样地，lxml也可以正确解析属性两侧缺失的引号，并闭合标签，不过该模块没有额外添加和标签。
解析完输入内容之后，进入选择元素的步骤，此时lxml有几种不同的方法，比如XPath选择器和类似Beautiful Soup的find()方法。不过，在本例和后续示例中，我们将会使用CSS选择器，因为它更加简洁，并且能够在解析动态内容时得以复用。此外，一些拥有jQuery选择器相关经验的读者也会对其更加熟悉。
下面是使用lxml的CSS选择器抽取面积数据的示例代码。

import urllib.request
import lxml.html

def scrape(html):
    html = html.decode('utf-8')
    tree = lxml.html.fromstring(html)
    td = tree.cssselect('tr#places_area__row > td.w2p_fw')[0]
    area = td.text_content()
    return area

if __name__ == '__main__':
    html = urllib.request.urlopen('http://example.webscraping.com/view/United-Kingdom-239').read()
    print(scrape(html))

CSS选择器首选会找到ID为places_area__row的表格行元素，然后选择class为w2p_fw的表格数据子标签。
需要注意的是，lxml在内部实现中，实际上是将CSS选择器转换为等价的XPath选择器。

如果你的爬虫瓶颈时下载网页，而不是抽取数据的话，那么使用较慢的方法（如Beautiful Soup）也不成问题。如果只需抓取少量数据，并且想要避免依赖的话，那么正则表达式可能更加适合。不过，通常情况下，lxml是抓取数据的最好选择，这是因为该方法即快速又健壮，而正则表达式和Beautiful Soup只在默写特定场景下有用。

为链接爬虫添加抓取回调

我们将抓取的国家数据集成到链接爬虫当中，要想复用这段爬虫代码抓取其他网站，我们需要添加一个callback参数处理抓取行为。callback是一个函数，在发生某个特定事件之后调用该函数（在本例中，会在网页下载完成后调用）。该抓取callback函数包含url和html两个参数，并且可以返回一个待爬取的URL列表。下面是添加回调之后的链接爬虫。

def link_crawler(seed_url, link_regex=None, delay=5, max_depth=-1, 
        max_urls=-1, headers=None, user_agent='wswp', proxy=None, 
        num_retries=1, scrape_callback=None):
    """从指定的种子网址按照link_regex匹配的链接进行抓取"""
    crawal_queue = queue.deque([seed_url]) # 仍然需要抓取的网址队列
    seen = {seed_url: 0} # 已经看到的网址以及深度
    num_urls = 0 # 跟踪已下载了多少个URL
    rp = get_robots(seed_url)
    throttle = Throttle(delay)
    headers = headers or {}
    if user_agent:
        headers['User-agent'] = user_agent

    while crawal_queue:
        url = crawal_queue.pop()
        depth = seen[url]
        # 检查网址传递的robots.txt限制
        if rp.can_fetch(user_agent, url):
            throttle.wait(url)
            html = download(url, headers, proxy=proxy, num_retries=num_retries)
            links = []
            if scrape_callback:
                links.extend(scrape_callback(url, html) or [])

            if depth != max_depth:
                # 仍然可以进一步爬行
                if link_regex:
                    # 过滤符合我们的正则表达式的链接
                    links.extend(link for link in get_links(html) if re.match(link_regex, link))

                for link in links:
                    link = normalize(seed_url, link)
                    # 检查是否已经抓取这个链接
                    if link not in seen:
                        seen[link] = depth + 1
                        # 检查链接在同一域内
                        if same_domain(seed_url, link):
                            # 成功！ 添加这个新链接到队列里
                            crawal_queue.append(link)

            # 检查是否已达到下载的最大值
            num_urls += 1
            if num_urls == max_urls:
                break
        else:
            print("Blocked by robots.txt:", url) # 链接已被robots.txt封锁

在上面的代码片段中，我们增加了抓取callback函数代码。
现在，我们只需要传入的scrap_callback函数定制化处理，就能使用该爬虫抓取其他网站了。下面对lxml抓取示例的代码进行了修改，使其能够在callback函数中使用，并且我们将得到的结果保存到CSV表格中。

import csv
import re
import urllib.parse
import lxml.html
from link_crawler import link_crawler

class ScrapeCallback:
    def __init__(self):
        self.writer = csv.writer(open('countries.csv', 'w'))
        self.fields = ('area', 'population', 'iso', 'country', 
                'capital', 'continent', 'tld', 'currency_code', 
                'currency_name', 'phone', 'postal_code_format', 
                'postal_code_regex', 'languages', 'neighbours')
        self.writer.writerow(self.fields)

    def __call__(self, url, html):
        if re.search('/view/', url):
            tree = lxml.html.fromstring(html)
            row = []
            for field in self.fields:
                row.append(tree.cssselect('table > tr#places_{}__row > td.w2p_fw'.format(field))[0].text_content())
            self.writer.writerow(row)

if __name__ == '__main__':
    link_crawler('http://example.webscraping.com/', '/(index|view)', scrape_callback=ScrapeCallback())

为了实现该callback，我们使用了会掉泪，而不在是回调函数，以便保持csv中writer属性的状态。csv的writer属性在构造方法中进行了实例化处理，然后在__call__方法中执行了多次写操作。请注意：__call__是一个特殊方法，在对象作为函数被调用时会调用该方法，这也是链接爬虫中的cache_callback的调用方法。也即是说，scrape_callback(url, html)和调用scrape_callback.__call__(url html)是等价的。
现在，当我们运行这个使用了callback的爬虫时，程序就会将结果写入一个CSV文件中，我们可以使用类似Excel或者LibreOffice的应用查看该文件。