擒贼先擒王

Python 中 xpath 语法与 lxml 库解析 HTML/XML 和 CSS Selector

From：http://cuiqingcai.com/2621.html

The lxml.etree Tutorial ：https://lxml.de/tutorial.htmlpython3 解析 xml：https://www.cnblogs.com/deadwood-2016/p/8116863.html
微软文档： XPath 语法和 XPath 函数
W3school Xpath 教程：http://www.w3school.com.cn/xpath/
Xpath 菜鸟教程：http://www.runoob.com/xpath/xpath-tutorial.html
简书：Xpath高级用法：https://www.jianshu.com/p/1575db75670f
30个示例手把手教你学会Xpath高级用法：https://www.sohu.com/a/211716225_236714
了解XPath常用术语和表达式解析十分钟轻松入门：http://www.bazhuayu.com/blog/2014091

前言

XPath 即为 XML 路径语言，它是一种用来确定 XML（标准通用标记语言的子集）文档中某部分位置的语言。
XPath 基于 XML 的树状结构，提供在数据结构树中找寻节点的能力。 XPath 同样也支持HTML。
XPath 是一门小型的查询语言。
python 中 lxml库使用的是 Xpath 语法，是效率比较高的解析方法。

lxml 用法源自 lxml python 官方文档：http://lxml.de/index.html
XPath 语法参考 w3school：http://www.w3school.com.cn/xpath/index.asp

安装

pip3 install lxml

Python 中如何安装使用 XPath

step1: 安装 lxml 库
step2: from lxml import etree # etree全称：ElementTree 元素树
step3: selector = etree.HTML(网页源代码)
step4: selector.xpath(一段神奇的符号)

lxml 使用 Xpath 使用示例：

#!/usr/bin/python3
# -*- coding: utf-8 -*-
# @Author      : 
# @File        : test.py
# @Software    : PyCharm
# @description : XXX


from lxml import etree


html = '''
   
   
      有效信息1
      有效信息2
      有效信息3
   
   
      无效信息1
      无效信息2
      无效信息3
   


   陈浩的博客
   点我打开

'''


def test():
    selector = etree.HTML(html)

    # 提取 li 中的有效信息123
    content = selector.xpath('//ul[@id="useful"]/li/text()')
    for each in content:
        print(each)

    # 提取 a 中的属性
    link = selector.xpath('//a/@href')
    for each in link:
        print(each)

    title = selector.xpath('//a/@title')
    for each in title:
        print(each)


if __name__ == '__main__':
    test()

lxml 使用 CSS 选择器使用示例 1：

#!/usr/bin/python3
# -*- coding: utf-8 -*-
# @Author      : 
# @File        : test_2.py
# @Software    : PyCharm
# @description : XXX


import lxml.html
from urllib.request import urlopen


def scrape(html):
    tree = lxml.html.fromstring(html)
    td = tree.cssselect('tr#places_neighbours__row > td.w2p_fw')[0]
    area = td.text_content()
    return area


if __name__ == '__main__':
    r_html = urlopen('http://example.webscraping.com/view/United-Kingdom-239').read()
    print(scrape(r_html))

lxml 使用 CSS 选择器使用示例2 ：

# -*- coding: utf-8 -*-

import csv
import re
import urlparse
import lxml.html
from link_crawler import link_crawler

FIELDS = ('area', 'population', 'iso', 'country', 'capital', 'continent', 
          'tld', 'currency_code', 'currency_name', 'phone', 'postal_code_format', 
          'postal_code_regex', 'languages', 'neighbours')


def scrape_callback(url, html):
    if re.search('/view/', url):
        tree = lxml.html.fromstring(html)
        row = [tree.cssselect('table > tr#places_{}__row > td.w2p_fw'.format(field))[0].text_content() for field in FIELDS]
        print url, row


if __name__ == '__main__':
    link_crawler('http://example.webscraping.com/', '/(index|view)', scrape_callback=scrape_callback)

link_crawler.py

import re
import urlparse
import urllib2
import time
from datetime import datetime
import robotparser
import Queue


def link_crawler(seed_url, link_regex=None, delay=5, max_depth=-1, max_urls=-1, headers=None, user_agent='wswp', proxy=None, num_retries=1, scrape_callback=None):
    """Crawl from the given seed URL following links matched by link_regex
    """
    # the queue of URL's that still need to be crawled
    crawl_queue = [seed_url]
    # the URL's that have been seen and at what depth
    seen = {seed_url: 0}
    # track how many URL's have been downloaded
    num_urls = 0
    rp = get_robots(seed_url)
    throttle = Throttle(delay)
    headers = headers or {}
    if user_agent:
        headers['User-agent'] = user_agent

    while crawl_queue:
        url = crawl_queue.pop()
        depth = seen[url]
        # check url passes robots.txt restrictions
        if rp.can_fetch(user_agent, url):
            throttle.wait(url)
            html = download(url, headers, proxy=proxy, num_retries=num_retries)
            links = []
            if scrape_callback:
                links.extend(scrape_callback(url, html) or [])

            if depth != max_depth:
                # can still crawl further
                if link_regex:
                    # filter for links matching our regular expression
                    links.extend(link for link in get_links(html) if re.match(link_regex, link))

                for link in links:
                    link = normalize(seed_url, link)
                    # check whether already crawled this link
                    if link not in seen:
                        seen[link] = depth + 1
                        # check link is within same domain
                        if same_domain(seed_url, link):
                            # success! add this new link to queue
                            crawl_queue.append(link)

            # check whether have reached downloaded maximum
            num_urls += 1
            if num_urls == max_urls:
                break
        else:
            print 'Blocked by robots.txt:', url


class Throttle:
    """Throttle downloading by sleeping between requests to same domain
    """
    def __init__(self, delay):
        # amount of delay between downloads for each domain
        self.delay = delay
        # timestamp of when a domain was last accessed
        self.domains = {}
        
    def wait(self, url):
        """Delay if have accessed this domain recently
        """
        domain = urlparse.urlsplit(url).netloc
        last_accessed = self.domains.get(domain)
        if self.delay > 0 and last_accessed is not None:
            sleep_secs = self.delay - (datetime.now() - last_accessed).seconds
            if sleep_secs > 0:
                time.sleep(sleep_secs)
        self.domains[domain] = datetime.now()



def download(url, headers, proxy, num_retries, data=None):
    print 'Downloading:', url
    request = urllib2.Request(url, data, headers)
    opener = urllib2.build_opener()
    if proxy:
        proxy_params = {urlparse.urlparse(url).scheme: proxy}
        opener.add_handler(urllib2.ProxyHandler(proxy_params))
    try:
        response = opener.open(request)
        html = response.read()
        code = response.code
    except urllib2.URLError as e:
        print 'Download error:', e.reason
        html = ''
        if hasattr(e, 'code'):
            code = e.code
            if num_retries > 0 and 500 <= code < 600:
                # retry 5XX HTTP errors
                html = download(url, headers, proxy, num_retries-1, data)
        else:
            code = None
    return html


def normalize(seed_url, link):
    """Normalize this URL by removing hash and adding domain
    """
    link, _ = urlparse.urldefrag(link) # remove hash to avoid duplicates
    return urlparse.urljoin(seed_url, link)


def same_domain(url1, url2):
    """Return True if both URL's belong to same domain
    """
    return urlparse.urlparse(url1).netloc == urlparse.urlparse(url2).netloc


def get_robots(url):
    """Initialize robots parser for this domain
    """
    rp = robotparser.RobotFileParser()
    rp.set_url(urlparse.urljoin(url, '/robots.txt'))
    rp.read()
    return rp
        

def get_links(html):
    """Return a list of links from html 
    """
    # a regular expression to extract all links from the webpage
    webpage_regex = re.compile(']+href=["\'](.*?)["\']', re.IGNORECASE)
    # list of all links from the webpage
    return webpage_regex.findall(html)


if __name__ == '__main__':
    link_crawler('http://example.webscraping.com', '/(index|view)', delay=0, num_retries=1, user_agent='BadCrawler')
    link_crawler('http://example.webscraping.com', '/(index|view)', delay=0, num_retries=1, max_depth=1, user_agent='GoodCrawler')

Python3 解析 XML

来源：https://www.cnblogs.com/deadwood-2016/p/8116863.html

Python 使用 XPath 解析 XML文档：http://www.jingfengshuo.com/archives/1414.html

在 XML 解析方面，Python 贯彻了自己“开箱即用”（batteries included）的原则。在自带的标准库中，Python提供了大量可以用于处理XML语言的包和工具，数量之多，甚至让Python编程新手无从选择。

本文将介绍深入解读利用Python语言解析XML文件的几种方式，并以笔者推荐使用的ElementTree模块为例，演示具体使用方法和场景。

一、什么是 XML?

XML是可扩展标记语言（Extensible Markup Language）的缩写，其中的标记（markup）是关键部分。您可以创建内容，然后使用限定标记标记它，从而使每个单词、短语或块成为可识别、可分类的信息。

标记语言从早期的私有公司和政府制定形式逐渐演变成标准通用标记语言（Standard Generalized Markup Language，SGML）、超文本标记语言（Hypertext Markup Language，HTML），并且最终演变成 XML。XML有以下几个特点。

XML的设计宗旨是传输数据，而非显示数据。
XML标签没有被预定义。您需要自行定义标签。
XML被设计为具有自我描述性。
XML是W3C的推荐标准。

目前，XML在Web中起到的作用不会亚于一直作为Web基石的HTML。 XML无所不在。XML是各种应用程序之间进行数据传输的最常用的工具，并且在信息存储和描述领域变得越来越流行。因此，学会如何解析XML文件，对于Web开发来说是十分重要的。

二、有哪些可以解析 XML 的 Python 包？

Python的标准库中，提供了6种可以用于处理XML的包。

xml.dom

xml.dom实现的是W3C制定的DOM API。如果你习惯于使用DOM API或者有人要求这这样做，可以使用这个包。不过要注意，在这个包中，还提供了几个不同的模块，各自的性能有所区别。

DOM解析器在任何处理开始之前，必须把基于XML文件生成的树状数据放在内存，所以DOM解析器的内存使用量完全根据输入资料的大小。

xml.dom.minidom

xml.dom.minidom是DOM API的极简化实现，比完整版的DOM要简单的多，而且这个包也小的多。那些不熟悉DOM的朋友，应该考虑使用xml.etree.ElementTree模块。据lxml的作者评价，这个模块使用起来并不方便，效率也不高，而且还容易出现问题。

xml.dom.pulldom

与其他模块不同，xml.dom.pulldom模块提供的是一个“pull解析器”，其背后的基本概念指的是从XML流中pull事件，然后进行处理。虽然与SAX一样采用事件驱动模型（event-driven processing model），但是不同的是，使用pull解析器时，使用者需要明确地从XML流中pull事件，并对这些事件遍历处理，直到处理完成或者出现错误。

pull解析（pull parsing）是近来兴起的一种XML处理趋势。此前诸如SAX和DOM这些流行的XML解析框架，都是push-based，也就是说对解析工作的控制权，掌握在解析器的手中。

xml.sax

xml.sax模块实现的是SAX API，这个模块牺牲了便捷性来换取速度和内存占用。SAX是Simple API for XML的缩写，它并不是由W3C官方所提出的标准。它是事件驱动的，并不需要一次性读入整个文档，而文档的读入过程也就是SAX的解析过程。所谓事件驱动，是指一种基于回调（callback）机制的程序运行方法。

xml.parser.expat

xml.parser.expat提供了对C语言编写的expat解析器的一个直接的、底层API接口。expat接口与SAX类似，也是基于事件回调机制，但是这个接口并不是标准化的，只适用于expat库。

expat是一个面向流的解析器。您注册的解析器回调（或handler）功能，然后开始搜索它的文档。当解析器识别该文件的指定的位置，它会调用该部分相应的处理程序（如果您已经注册的一个）。该文件被输送到解析器，会被分割成多个片断，并分段装到内存中。因此expat可以解析那些巨大的文件。

xml.etree.ElementTree（以下简称ET）

xml.etree.ElementTree模块提供了一个轻量级、Pythonic的API，同时还有一个高效的C语言实现，即xml.etree.cElementTree。与DOM相比，ET的速度更快，API使用更直接、方便。与SAX相比，ET.iterparse函数同样提供了按需解析的功能，不会一次性在内存中读入整个文档。ET的性能与SAX模块大致相仿，但是它的API更加高层次，用户使用起来更加便捷。

笔者建议，在使用Python进行XML解析时，首选使用ET模块，除非你有其他特别的需求，可能需要另外的模块来满足。

解析XML的这几种API并不是Python独创的，Python也是通过借鉴其他语言或者直接从其他语言引入进来的。例如expat就是一个用C语言开发的、用来解析XML文档的开发库。而SAX最初是由DavidMegginson采用java语言开发的，DOM可以以一种独立于平台和语言的方式访问和修改一个文档的内容和结构，可以应用于任何编程语言。

下面，我们以ElementTree模块为例，介绍在Python中如何解析lxml。

三、利用 ElementTree 解析 XML

Python标准库中，提供了ET的两种实现。一个是纯Python实现的xml.etree.ElementTree，另一个是速度更快的C语言实现xml.etree.cElementTree。请记住始终使用C语言实现，因为它的速度要快很多，而且内存消耗也要少很多。如果你所使用的Python版本中没有cElementTree所需的加速模块，你可以这样导入模块：

try:
    import xml.etree.cElementTree as ET
except ImportError:
    import xml.etree.ElementTree as ET

如果某个API存在不同的实现，上面是常见的导入方式。当然，很可能你直接导入第一个模块时，并不会出现问题。请注意，自Python 3.3之后，就不用采用上面的导入方法，因为ElemenTree模块会自动优先使用C加速器，如果不存在C实现，则会使用Python实现。因此，使用Python 3.3+的朋友，只需要import xml.etree.ElementTree即可。

1、将XML文档解析为树（tree）

我们先从基础讲起。XML是一种结构化、层级化的数据格式，最适合体现XML的数据结构就是树。ET提供了两个对象：ElementTree将整个XML文档转化为树，Element则代表着树上的单个节点。对整个XML文档的交互（读取，写入，查找需要的元素），一般是在ElementTree层面进行的。对单个XML元素及其子元素，则是在Element层面进行的。下面我们举例介绍主要使用方法。

我们使用下面的XML文档，作为演示数据：



  
    text,source
  
  
    
      xml,sgml

接下来，我们加载这个文档，并进行解析：

>>> import xml.etree.ElementTree as ET
>>> tree = ET.ElementTree(file='doc1.xml')

然后，我们获取根元素（root element）：

>>> tree.getroot()

正如之前所讲的，根元素（root）是一个Element对象。我们看看根元素都有哪些属性：

>>> root = tree.getroot()
>>> root.tag, root.attrib
('doc', {})

没错，根元素并没有属性。与其他Element对象一样，根元素也具备遍历其直接子元素的接口：

>>> for child_of_root in root:
...  print child_of_root.tag, child_of_root.attrib
...
branch {'hash': '1cdf045c', 'name': 'codingpy.com'}
branch {'hash': 'f200013e', 'name': 'release01'}
branch {'name': 'invalid'}

我们还可以通过索引值来访问特定的子元素：

>>> root[0].tag, root[0].text
('branch', '\n    text,source\n  ')

2、查找需要的元素

从上面的示例中，可以明显发现我们能够通过简单的递归方法（对每一个元素，递归式访问其所有子元素）获取树中的所有元素。但是，由于这是十分常见的工作，ET提供了一些简便的实现方法。

Element对象有一个iter方法，可以对某个元素对象之下所有的子元素进行深度优先遍历（DFS）。ElementTree对象同样也有这个方法。下面是查找XML文档中所有元素的最简单方法：

>>> for elem in tree.iter():
...  print elem.tag, elem.attrib
...
doc {}
branch {'hash': '1cdf045c', 'name': 'codingpy.com'}
branch {'hash': 'f200013e', 'name': 'release01'}
sub-branch {'name': 'subrelease01'}
branch {'name': 'invalid'}

在此基础上，我们可以对树进行任意遍历——遍历所有元素，查找出自己感兴趣的属性。但是ET可以让这个工作更加简便、快捷。iter方法可以接受tag名称，然后遍历所有具备所提供tag的元素：

>>> for elem in tree.iter(tag='branch'):
...  print elem.tag, elem.attrib
...
branch {'hash': '1cdf045c', 'name': 'codingpy.com'}
branch {'hash': 'f200013e', 'name': 'release01'}
branch {'name': 'invalid'}

3、支持通过 XPath 查找元素

使用XPath查找感兴趣的元素，更加方便。Element对象中有一些find方法可以接受Xpath路径作为参数，find方法会返回第一个匹配的子元素，findall以列表的形式返回所有匹配的子元素, iterfind则返回一个所有匹配元素的迭代器（iterator）。ElementTree对象也具备这些方法，相应地它的查找是从根节点开始的。

下面是一个使用XPath查找元素的示例：

>>> for elem in tree.iterfind('branch/sub-branch'):
...  print elem.tag, elem.attrib
...
sub-branch {'name': 'subrelease01'}

上面的代码返回了branch元素之下所有tag为sub-branch的元素。接下来查找所有具备某个name属性的branch元素：

>>> for elem in tree.iterfind('branch[@name="release01"]'):
...  print elem.tag, elem.attrib
...
branch {'hash': 'f200013e', 'name': 'release01'}

4、构建 XML 文档

利用ET，很容易就可以完成XML文档构建，并写入保存为文件。ElementTree对象的write方法就可以实现这个需求。

一般来说，有两种主要使用场景。一是你先读取一个XML文档，进行修改，然后再将修改写入文档，二是从头创建一个新XML文档。

修改文档的话，可以通过调整Element对象来实现。请看下面的例子：

>>> root = tree.getroot()
>>> del root[2]
>>> root[0].set('foo', 'bar')
>>> for subelem in root:
...  print subelem.tag, subelem.attrib
...
branch {'foo': 'bar', 'hash': '1cdf045c', 'name': 'codingpy.com'}
branch {'hash': 'f200013e', 'name': 'release01'}

在上面的代码中，我们删除了root元素的第三个子元素，为第一个子元素增加了新属性。这个树可以重新写入至文件中。最终的XML文档应该是下面这样的：

>>> import sys
>>> tree.write(sys.stdout)

  
    text,source
  
  
    
      xml,sgml

请注意，文档中元素的属性顺序与原文档不同。这是因为ET是以字典的形式保存属性的，而字典是一个无序的数据结构。当然，XML也不关注属性的顺序。

从头构建一个完整的文档也很容易。ET模块提供了一个SubElement工厂函数，让创建元素的过程变得很简单：

>>> a = ET.Element('elem')
>>> c = ET.SubElement(a, 'child1')
>>> c.text = "some text"
>>> d = ET.SubElement(a, 'child2')
>>> b = ET.Element('elem_b')
>>> root = ET.Element('root')
>>> root.extend((a, b))
>>> tree = ET.ElementTree(root)
>>> tree.write(sys.stdout)
some text

5、利用iterparse解析XML流

XML文档通常都会比较大，如何直接将文档读入内存的话，那么进行解析时就会出现问题。这也就是为什么不建议使用DOM，而是SAX API的理由之一。

我们上面谈到，ET可以将XML文档加载为保存在内存里的树（in-memory tree），然后再进行处理。但是在解析大文件时，这应该也会出现和DOM一样的内存消耗大的问题吧？没错，的确有这个问题。为了解决这个问题，ET提供了一个类似SAX的特殊工具——iterparse，可以循序地解析XML。

接下来，笔者为大家展示如何使用iterparse，并与标准的树解析方式进行对比。我们使用一个自动生成的XML文档，下面是该文档的开头部分：



 
  
   
    United States  
    1
    duteous nine eighteen 
    Creditcard
    
     
[...]

我们来统计一下文档中出现了多少个文本值为Zimbabwe的location元素。下面是使用ET.parse的标准方法：

tree = ET.parse(sys.argv[2])
 
count = 0
for elem in tree.iter(tag='location'):
  if elem.text == 'Zimbabwe':
    count += 1
 
print count

上面的代码会将全部元素载入内存，逐一解析。当解析一个约100MB的XML文档时，运行上面脚本的Python进程的内存使用峰值为约560MB，总运行时间问2.9秒。

请注意，我们其实不需要讲整个树加载到内存里。只要检测出文本为相应值得location元素即可。其他数据都可以废弃。这时，我们就可以用上iterparse方法了：

count = 0
for event, elem in ET.iterparse(sys.argv[2]):
  if event == 'end':
    if elem.tag == 'location' and elem.text == 'Zimbabwe':
      count += 1
  elem.clear() # 将元素废弃
 
print count

上面的for循环会遍历iterparse事件，首先检查事件是否为end，然后判断元素的tag是否为location，以及其文本值是否符合目标值。另外，调用elem.clear()非常关键：因为iterparse仍然会生成一个树，只是循序生成的而已。废弃掉不需要的元素，就相当于废弃了整个树，释放出系统分配的内存。

当利用上面这个脚本解析同一个文件时，内存使用峰值只有7MB，运行时间为2.5秒。速度提升的原因，是我们这里只在树被构建时，遍历一次。而使用parse的标准方法是先完成整个树的构建后，才再次遍历查找所需要的元素。

iterparse的性能与SAX相当，但是其API却更加有用：iterparse会循序地构建树；而利用SAX时，你还得自己完成树的构建工作。

四、使用示例：

#!/usr/bin/python3
# -*- coding: utf-8 -*-
# @Author      : 
# @File        : test_1.py
# @Software    : PyCharm
# @description : XXX


"""
Element是 XML处理的核心类，
Element对象可以直观的理解为 XML的节点，大部分 XML节点的处理都是围绕该类进行的。
这部分包括三个内容：节点的操作、节点属性的操作、节点内文本的操作。
"""

from lxml import etree
import lxml.html as HTML

# 1.创建element
root = etree.Element('root')
print(root, root.tag)

# 2.添加子节点
child1 = etree.SubElement(root, 'child1')
child2 = etree.SubElement(root, 'child2')

# 3.删除子节点
# root.remove(child2)

# 4.删除所有子节点
# root.clear()

# 5.以列表的方式操作子节点
print(len(root))
print(root.index(child1))  # 索引号
root.insert(0, etree.Element('child3'))  # 按位置插入
root.append(etree.Element('child4'))  # 尾部添加

# 6.获取父节点
print(child1.getparent().tag)
# print root[0].getparent().tag   #用列表获取子节点,再获取父节点
'''以上都是节点操作'''

# 7.创建属性
# root.set('hello', 'dahu')   #set(属性名,属性值)
# root.set('hi', 'qing')

# 8.获取属性
# print(root.get('hello'))    #get方法
# print root.keys(),root.values(),root.items()    #参考字典的操作
# print root.attrib           #直接拿到属性存放的字典,节点的attrib,就是该节点的属性
'''以上是属性的操作'''

# 9.text和tail属性
# root.text = 'Hello, World!'
# print root.text

# 10.test,tail 和 text 的结合
html = etree.Element('html')
html.text = 'html.text'
body = etree.SubElement(html, 'body')
body.text = 'wo ai ni'
child = etree.SubElement(body, 'child')
child.text = 'child.text'  # 一般情况下,如果一个节点的text没有内容,就只有符号,如果有内容,才会<>,都有
child.tail = 'tails'       # tail是在标签后面追加文本
print(etree.tostring(html))
# print(etree.tostring(html, method='text'))  # 只输出text和tail这种文本文档,输出的内容连在一起,不实用

# 11.Xpath方式
# print(html.xpath('string()'))   #这个和上面的方法一样,只返回文本的text和tail
print(html.xpath('//text()'))  # 这个比较好,按各个文本值存放在列表里面
tt = html.xpath('//text()')
print(tt[0].getparent().tag)  # 这个可以,首先我可以找到存放每个节点的text的列表,然后我再根据text找相应的节点
# for i in tt:
#     print i,i.getparent().tag,'\t',

# 12.判断文本类型
print(tt[0].is_text, tt[-1].is_tail)  # 判断是普通text文本,还是tail文本
'''以上都是文本的操作'''

# 13.字符串解析,fromstring方式
xml_data = 'html.textwo ai nichild.texttails'
root1 = etree.fromstring(xml_data)  # fromstring,字面意思,直接来源字符串
# print root1.tag
# print etree.tostring(root1)

# 14.xml方式
root2 = etree.XML(xml_data)  # 和fromstring基本一样,
print(etree.tostring(root2))

# 15.文件类型解析
'''
- a file name/path
- a file object
- a file-like object
- a URL using the HTTP or FTP protocol
'''
tree = etree.parse('text.html')  # 文件解析成元素树
root3 = tree.getroot()  # 获取元素树的根节点
print(etree.tostring(root3, pretty_print=True))

parser = etree.XMLParser(remove_blank_text=True)  # 去除xml文件里的空行
root = etree.XML("            ", parser)
print(etree.tostring(root))

# 16.html方式
xml_data1 = 'data'
root4 = etree.HTML(xml_data1)
print(etree.tostring(root4))  # HTML方法，如果没有和标签，会自动补上
# 注意,如果是需要补全的html格式:这样处理哦
with open("quotes-1.html", 'r') as f:
    a = HTML.document_fromstring(f.read().decode("utf-8"))

for i in a.xpath('//div[@class="quote"]/span[@class="text"]/text()'):
    print(i)

# 17.输出内容,输出xml格式
print(etree.tostring(root))
print(etree.tostring(root, xml_declaration=True, pretty_print=True, encoding='utf-8'))  # 指定xml声明和编码
'''以上是文件IO操作'''

# 18.findall方法
root = etree.XML("aText")
print(root.findall('a')[0].text)  # findall操作返回列表
print(root.find('.//a').text)  # find操作就相当与找到了这个元素节点,返回匹配到的第一个元素
print(root.find('a').text)
print([b.text for b in root.findall('.//a')])  # 配合列表解析,相当帅气!
print(root.findall('.//a[@x]')[0].tag)  # 根据属性查询
'''以上是搜索和定位操作'''
print(etree.iselement(root))
print(root[0] is root[1].getprevious())  # 子节点之间的顺序
print(root[1] is root[0].getnext())
'''其他技能'''
# 遍历元素数
root = etree.Element("root")
etree.SubElement(root, "child").text = "Child 1"
etree.SubElement(root, "child").text = "Child 2"
etree.SubElement(root, "another").text = "Child 3"
etree.SubElement(root[0], "childson").text = "son 1"
# for i in root.iter():   #深度遍历
# for i in root.iter('child'):    #只迭代目标值
#     print i.tag,i.text
# print etree.tostring(root,pretty_print=True)

简单的创建和遍历

from lxml import etree # 创建 root = etree.Element('root') # 添加子元素，并为子节点添加属性 root.append(etree.Element('child',interesting='sss')) # 另一种添加子元素的方法 body = etree.SubElement(root,'body') body.text = 'TEXT' # 设置值 body.set('class','dd') # 设置属性 // # 输出整个节点 print(etree.tostring(root, encoding='UTF-8', pretty_print=True)) // // # 创建，添加子节点、文本、注释 root = etree.Element('root') etree.SubElement(root, 'child').text = 'Child 1' etree.SubElement(root, 'child').text = 'Child 2' etree.SubElement(root, 'child').text = 'Child 3' root.append(etree.Entity('#234')) root.append(etree.Comment('some comment')) # 添加注释 # 为第三个节点添加一个br br = etree.SubElement(root.getchildren()[2],'br') br.tail = 'TAIL' for element in root.iter(): # 也可以指定只遍历是Element的，root.iter(tag=etree.Element) if isinstance(element.tag, str): print('%s - %s' % (element.tag, element.text)) else: print('SPECIAL: %s - %s' % (element, element.text))

对HTML/XML的解析

# 先导入相关模块 from lxml import etree from io import StringIO, BytesIO # 对html具有修复标签补全的功能 broken_html = 'test<body><h1 class="hh">page title</h3>' parser = etree.HTMLParser() tree = etree.parse(StringIO(broken_html), parser) # 或者直接使用 html = etree.HTML(broken_html) print(etree.tostring(tree, pretty_print=True, method="html")) # # #用xpath获取h1 h1 = tree.xpath('//h1') # 返回的是一个数组 # 获取第一个的tag print(h1[0].tag) # 获取第一个的class属性 print(h1[0].get('class')) # 获取第一个的文本内容 print(h1[0].text) # 获取所有的属性的key，value的列表 print(h1[0].keys(),h1[0].values())</code></pre> 杂项 python3.5 lxml用法 问题1：有一个XML文件，如何解析 问题2：解析后，如果查找、定位某个标签 问题3：定位后如何操作标签，比如访问属性、文本内容等 开始之前，首先是导入模块，该库常用的XML处理功能都在lxml.etree中 导入模块：from lxml import etree Element类 Element是XML处理的核心类，Element对象可以直观的理解为XML的节点，大部分XML节点的处理都是围绕该类进行的。 这部分包括三个内容：节点的操作、节点属性的操作、节点内文本的操作。 节点操作 1、创建Element对象 直接使用Element方法，参数即节点名称。 root = etree.Element(‘root’) print(root) 2、获取节点名称 使用tag属性，获取节点的名称。 print(root.tag) root 3、输出XML内容 使用tostring方法输出XML内容（后文还会有补充介绍），参数为Element对象。 print(etree.tostring(root)) b’’ 4、添加子节点 使用SubElement方法创建子节点，第一个参数为父节点（Element对象），第二个参数为子节点名称。 child1 = etree.SubElement(root, ‘child1’) child2 = etree.SubElement(root, ‘child2’) child3 = etree.SubElement(root, ‘child3’) 5、删除子节点 使用remove方法删除指定节点，参数为Element对象。clear方法清空所有节点。 root.remove(child1) # 删除指定子节点 print(etree.tostring(root)) b’’ root.clear() # 清除所有子节点 print(etree.tostring(root)) b’’ 6、以列表的方式操作子节点 可以将Element对象的子节点视为列表进行各种操作： child = root[0] # 下标访问 print(child.tag) child1 print(len(root)) # 子节点数量 3 root.index(child2) # 获取索引号 1 for child in root: # 遍历 … print(child.tag) child1 child2 child3 root.insert(0, etree.Element(‘child0’)) # 插入 start = root[:1] # 切片 end = root[-1:] print(start[0].tag) child0 print(end[0].tag) child3 root.append( etree.Element(‘child4’) ) # 尾部添加 print(etree.tostring(root)) b’’ 其实前面讲到的删除子节点的两个方法remove和clear也和列表相似。 7、获取父节点 使用getparent方法可以获取父节点。 print(child1.getparent().tag) root 属性操作 属性是以key-value的方式存储的，就像字典一样。 1、创建属性 可以在创建Element对象时同步创建属性，第二个参数即为属性名和属性值： root = etree.Element(‘root’, interesting=’totally’) print(etree.tostring(root)) b’’ 也可以使用set方法给已有的Element对象添加属性，两个参数分别为属性名和属性值： root.set(‘hello’, ‘Huhu’) print(etree.tostring(root)) b’’ 2、获取属性 属性是以key-value的方式存储的，就像字典一样。直接看例子 get方法获得某一个属性值 print(root.get(‘interesting’)) totally keys方法获取所有的属性名 sorted(root.keys()) [‘hello’, ‘interesting’] items方法获取所有的键值对 for name, value in sorted(root.items()): … print(‘%s = %r’ % (name, value)) hello = ‘Huhu’ interesting = ‘totally’ 也可以用attrib属性一次拿到所有的属性及属性值存于字典中： attributes = root.attrib print(attributes) {‘interesting’: ‘totally’, ‘hello’: ‘Huhu’} attributes[‘good’] = ‘Bye’ # 字典的修改影响节点 print(root.get(‘good’)) Bye 文本操作 标签及标签的属性操作介绍完了，最后就剩下标签内的文本了。 可以使用text和tail属性、或XPath的方式来访问文本内容。 1、text 和 tail 属性 一般情况，可以用Element的text属性访问标签的文本。 root = etree.Element(‘root’) root.text = ‘Hello, World!’ print(root.text) Hello, World! print(etree.tostring(root)) b’Hello, World!’ Element类提供了tail属性支持单一标签的文本获取。 html = etree.Element(‘html’) body = etree.SubElement(html, ‘body’) body.text = ‘Text’ print(etree.tostring(html)) b’Text’ br = etree.SubElement(body, ‘br’) print(etree.tostring(html)) b’Text’ tail仅在该标签后面追加文本 br.tail = ‘Tail’ print(etree.tostring(br)) b’ Tail’ print(etree.tostring(html)) b’Text Tail’ tostring方法增加method参数，过滤单一标签，输出全部文本 print(etree.tostring(html, method=’text’)) b’TextTail’ 2、XPath方式 方式一：过滤单一标签，返回文本 print(html.xpath(‘string()’)) TextTail 方式二：返回列表，以单一标签为分隔 print(html.xpath(‘//text()’)) [‘Text’, ‘Tail’] 方法二获得的列表，每个元素都会带上它所属节点及文本类型信息，如下： texts = html.xpath(‘//text()’)) print(texts[0]) Text 所属节点 parent = texts[0].getparent() print(parent.tag) body print(texts[1], texts[1].getparent().tag) Tail br 文本类型：是普通文本还是tail文本 print(texts[0].is_text) True print(texts[1].is_text) False print(texts[1].is_tail) True 文件解析与输出 回答问题1。 这部分讲述如何将XML文件解析为Element对象，以及如何将Element对象输出为XML文件。 1、文件解析 文件解析常用的有fromstring、XML 和 HTML 三个方法。接受的参数都是字符串。 xml_data = ‘data’ fromstring方法 root1 = etree.fromstring(xml_data) print(root1.tag) root print(etree.tostring(root1)) b’data’ XML方法，与fromstring方法基本一样 root2 = etree.XML(xml_data) print(root2.tag) root print(etree.tostring(root2)) b’data’ HTML方法，如果没有和标签，会自动补上 root3 = etree.HTML(xml_data) print(root3.tag) html print(etree.tostring(root3)) b’data’ 2、输出 输出其实就是前面一直在用的tostring方法了，这里补充xml_declaration和encoding两个参数，前者是XML声明，后者是指定编码。 root = etree.XML(‘‘) print(etree.tostring(root)) b’’ XML声明 print(etree.tostring(root, xml_declaration=True)) b” 指定编码 print(etree.tostring(root, encoding=’iso-8859-1’)) b” 查找第一个b标签 print(root.find(‘b’)) None print(root.find(‘a’).tag) a 查找所有b标签，返回Element对象组成的列表 [ b.tag for b in root.findall(‘.//b’) ] [‘b’, ‘b’] 根据属性查询 print(root.findall(‘.//a[@x]’)[0].tag) a print(root.findall(‘.//a[@y]’)) [] <h1>XPath语法</h1> XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素，并且 XQuery 和 XPointer 都构建于 XPath 表达之上。 XPath 常用规则 <table align="center" border="2"> <tbody> <tr> <td>表达式</td> <td>描述</td> </tr> <tr> <td>nodename</td> <td>选取此节点的所有子节点</td> </tr> <tr> <td>/</td> <td>从当前节点选取直接子节点</td> </tr> <tr> <td>//</td> <td>从当前节点选取子孙节点</td> </tr> <tr> <td>.</td> <td>选取当前节点</td> </tr> <tr> <td>..</td> <td>选取当前节点的父节点</td> </tr> <tr> <td>@</td> <td>选取属性</td> </tr> <tr> <td>*</td> <td>通配符，选择所有元素节点与元素名</td> </tr> <tr> <td>@*</td> <td>选取所有属性</td> </tr> <tr> <td>[@attrib]</td> <td>选取具有给定属性的所有元素</td> </tr> <tr> <td>[@attrib='value']</td> <td>选取给定属性具有给定值的所有元素</td> </tr> <tr> <td>[tag]</td> <td>选取所有具有指定元素的直接子节点</td> </tr> <tr> <td>[tag='text']</td> <td>选取所有具有指定元素并且文本内容是text节点</td> </tr> </tbody> </table> 读取文本解析节点 （ etree 会修复 HTML 文本节点 ） <pre class="has"><code class="language-python">#!/usr/bin/python3 # -*- coding: utf-8 -*- # @Author : # @File : test.py # @Software : PyCharm # @description : XXX from lxml import etree text = ''' <div> <ul> <li class="item-0"><a href="link1.html">第一个</a></li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-0"><a href="link5.html">a属性</a> </ul> </div> ''' html = etree.HTML(text) # 初始化生成一个XPath解析对象 result = etree.tostring(html, encoding='utf-8') # 解析对象输出代码 print(type(html)) print(type(result)) print(result.decode('utf-8')) ''' 执行结果： <class 'lxml.etree._Element'> <class 'bytes'> <html><body><div> <ul> <li class="item-0"><a href="link1.html">第一个</a></li> <li class="item-1"><a href="link2.html">second item</a></li> <li class="item-0"><a href="link5.html">a属性</a> </li></ul> </div> </body></html> '''</code></pre> 读取 HTML文件进行解析 <pre class="has"><code class="language-python">from lxml import etree html = etree.parse('test.html', etree.HTMLParser()) # 指定解析器HTMLParser会根据文件修复HTML文件中缺失的如声明信息 result = etree.tostring(html) # 解析成字节 # result=etree.tostringlist(html) #解析成列表 print(type(html)) print(type(result)) print(result)</code></pre> <h2>节点关系</h2> <h3>（1）父（Parent）</h3> 每个元素以及属性都有一个父。在下面的例子中，book 元素是 title、author、year 以及 price 元素的父： <pre class="has"><code class="language-html"><book> <title>Harry Potter J K. Rowling 2005 29.99

（2）子（Children）

元素节点可有零个、一个或多个子。在下面的例子中，title、author、year 以及 price 元素都是 book 元素的子：

Harry Potter J K. Rowling 2005 29.99

（3）同胞（Sibling）

拥有相同的父的节点。在下面的例子中，title、author、year 以及 price 元素都是同胞：

Harry Potter J K. Rowling 2005 29.99

（4）先辈（Ancestor）

某节点的父、父的父，等等。在下面的例子中，title 元素的先辈是 book 元素和 bookstore 元素：

Harry Potter J K. Rowling 2005 29.99

（5）后代（Descendant）

某个节点的子，子的子，等等。在下面的例子中，bookstore 的后代是 book、title、author、year 以及 price 元素：

Harry Potter J K. Rowling 2005 29.99

选取节点

XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。

下面列出了最有用的路径表达式：

表达式描述

nodename 选取此节点的所有子节点

/ 从当前节点选取直接子节点

// 从当前节点选取子孙节点

. 选取当前节点

.. 选取当前节点的父节点

@ 选取属性

* 通配符，选择所有元素节点与元素名

@* 选取所有属性

[@attrib] 选取具有给定属性的所有元素

[@attrib='value'] 选取给定属性具有给定值的所有元素

[tag] 选取所有具有指定元素的直接子节点

[tag='text'] 选取所有具有指定元素并且文本内容是text节点

实例

在下面的表格中，我们已列出了一些路径表达式以及表达式的结果：

路径表达式结果

bookstore 选取 bookstore 元素的所有子节点。

/bookstore 选取根元素 bookstore。注释：假如路径起始于正斜杠( / )，则此路径始终代表到某元素的绝对路径！

bookstore/book 选取属于 bookstore 的子元素的所有 book 元素。

//book 选取所有 book 子元素，而不管它们在文档中的位置。

bookstore//book 选择属于 bookstore 元素的后代的所有 book 元素，而不管它们位于 bookstore 之下的什么位置。

//@lang 选取名为 lang 的所有属性。

谓语（Predicates）

谓语用来查找某个特定的节点或者包含某个指定的值的节点。谓语被嵌在方括号中。

实例

在下面的表格中，我们列出了带有谓语的一些路径表达式，以及表达式的结果：

路径表达式结果

/bookstore/book[1] 选取属于 bookstore 子元素的第一个 book 元素。

/bookstore/book[last()] 选取属于 bookstore 子元素的最后一个 book 元素。

/bookstore/book[last()-1] 选取属于 bookstore 子元素的倒数第二个 book 元素。

/bookstore/book[position()<3] 选取最前面的两个属于 bookstore 元素的子元素的 book 元素。

//title[@lang] 选取所有拥有名为 lang 的属性的 title 元素。

//title[@lang=’eng’] 选取所有 title 元素，且这些元素拥有值为 eng 的 lang 属性。

/bookstore/book[price>35.00] 选取 bookstore 元素的所有 book 元素，且其中的 price 元素的值须大于 35.00。

/bookstore/book[price>35.00]/title 选取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值须大于 35.00。

选取未知节点

XPath 通配符可用来选取未知的 XML 元素。

通配符描述

* 匹配任何元素节点。

@* 匹配任何属性节点。

node() 匹配任何类型的节点。

实例

在下面的表格中，我们列出了一些路径表达式，以及这些表达式的结果：

路径表达式结果

/bookstore/* 选取 bookstore 元素的所有子元素。

//* 选取文档中的所有元素。

//title[@*] 选取所有带有属性的 title 元素。

选取若干路径

通过在路径表达式中使用“|”运算符，您可以选取若干个路径。

实例

在下面的表格中，我们列出了一些路径表达式，以及这些表达式的结果：

路径表达式结果

//book/title | //book/price 选取 book 元素的所有 title 和 price 元素。

//title | //price 选取文档中的所有 title 和 price 元素。

/bookstore/book/title | //price 选取属于 bookstore 元素的 book 元素的所有 title 元素，以及文档中所有的 price 元素。

XPath 运算符

下面列出了可用在 XPath 表达式中的运算符：（此表参考来源:http://www.w3school.com.cn/xpath/xpath_operators.asp）

运算符描述实例返回值

| 计算两个节点集 //book | //cd 返回所有拥有 book 和 cd 元素的节点集

+ 加法 6 + 4 10

– 减法 6 – 4 2

* 乘法 6 * 4 24

div 除法 8 div 4 2

= 等于 price=9.80 如果 price 是 9.80，则返回 true。如果 price 是 9.90，则返回 false。

!= 不等于 price!=9.80 如果 price 是 9.90，则返回 true。如果 price 是 9.80，则返回 false。

< 小于 price<9.80 如果 price 是 9.00，则返回 true。如果 price 是 9.90，则返回 false。

<= 小于或等于 price<=9.80 如果 price 是 9.00，则返回 true。如果 price 是 9.90，则返回 false。

> 大于 price>9.80 如果 price 是 9.90，则返回 true。如果 price 是 9.80，则返回 false。

>= 大于或等于 price>=9.80 如果 price 是 9.90，则返回 true。如果 price 是 9.70，则返回 false。

or 或 price=9.80 or price=9.70 如果 price 是 9.80，则返回 true。如果 price 是 9.50，则返回 false。

and 与 price>9.00 and price<9.90 如果 price 是 9.80，则返回 true。如果 price 是 8.50，则返回 false。

mod 计算除法的余数 5 mod 2 1

XPath 函数的高级使用示例：
1.使用 contains() 和 and
//div[starts-with(@id,'res')]//table[1]//tr//td[2]//a//span[contains(.,'_Test') and contains(.,'KPI')]
//div[contains(@id,'in')] ,表示选择id中包含有’in’的div节点
2.text()：
由于一个节点的文本值不属于属性，比如“baidu”,
所以，用text()函数来匹配节点：//a[text()='baidu']
//span[@id='idHeaderTitleCell' and contains(text(),'QuickStart')]
3.last()：
前面已介绍
4. 使用starts-with()
//div[starts-with(@id,'in')] ，表示选择以’in’开头的id属性的div节点
 //div[starts-with(@id,'res')]//table//tr//td[2]//table//tr//td//a//span[contains(.,'Developer Tutorial')]
5.not()函数，表示否定。not()函数通常与返回值为true or false的函数组合起来用，
比如contains(),starts-with()等，但有一种特别情况请注意一下：
 我们要匹配出input节点含有id属性的，写法为：//input[@id]，
如果我们要匹配出input节点不含用id属性的，则为：//input[not(@id)]
//input[@name=‘identity’ and not(contains(@class,‘a’))] ，表示匹配出name为identity并且class的值中不包含a的input节点。
6.使用descendant
//div[starts-with(@id,'res')]//table[1]//tr//td[2]//a//span[contains(.,'QuickStart')]/../../../descendant::img
7.使用ancestor
//div[starts-with(@id,'res')]//table[1]//tr//td[2]//a//span[contains(.,'QuickStart')]/ancestor::div[starts-with(@id,'res')]//table[2]//descendant::a[2]

Xpath 高级用法

scrapy实战2，使用内置的xpath，re 和 css 提取值：https://www.cnblogs.com/regit/p/9629263.html

span 标签 class 属性包含 selectable 字符串：//span[contains(@class, 'selectable')]

匹配猫眼座位数
 //div[@class='seats-wrapper']/div/span[contains(@class,'seat') and not(contains(@class,'empty'))]
 等价于
 //div[@class='seats-wrapper']/div//span[not(contains(//span[contains(@class, 'seat')]/@class, 'empty'))]

./@data-val
//div[contains(@class, "show-list") and @data-index="{0}"]
.//div[@class="show-date"]//span[contains(@class, "date-item")]/text()
.//div[contains(@class, "plist-container")][1]//tbody//tr xpath 中下标是从 1 开始的
substring-before(substring-after(//script[contains(text(), '/apps/feedlist')]/text(), 'html":"'), '"})')
//div[text()="hello"]/p/text()
//a[@class="movie-name"][1]/text()
string(//a[@class="movie-name"][1])

1. 获取父节点属性
首先选中 href 属性为 link4.html的a节点，然后再获取其父节点，然后再获取其class属性
result1 = response.xpath('//a[@href="link4.html"]/../@class')
我们也可以通过parent::来获取父节点
result2 = response.xpath('//a[@href="link4.html"]/parent::*/@class')
注意： //a表示html中的所有a节点，他们的href属性有多个，这里[]的作用是属性匹配，找到a的href属性为link4.html的节点
2. 获取节点内部文本
获取class为item-1的li节点文本，
result3 = response.xpath('//li[@class="item-0"]/a/text()')
返回结果为：['first item', 'fifth item']
3. 属性获取
获取所有li节点下的所有a节点的href属性
result4 = response.xpath('//li/a/@href')
返回结果为：['link1.html', 'link2.html', 'link3.html', 'link4.html', 'link5.html']
4. 按序选择
result = response.xpath('//li[1]/a/text()') #选取第一个li节点
result = response.xpath('//li[last()]/a/text()') #选取最后一个li节点
result = response.xpath('//li[position()<3]/a/text()') #选取位置小于3的li节点，也就是1和2的节点
result = response.xpath('//li[last()-2]/a/text()') #选取倒数第三个节点
5. 节点轴选择
1）返回第一个li节点的所有祖先节点，包括html,body,div和ul
result = response.xpath('//li[1]/ancestor::*')
2）返回第一个li节点的
祖先节点
result = response.xpath('//li[1]/ancestor::div')
3）返回第一个li节点的所有属性值
result = response.xpath('//li[1]/attribute::*')
4）首先返回第一个li节点的所有子节点，然后加上限定条件，选组href属性为link1.html的a节点
result = response.xpath('//li[1]/child::a[@href="link1.html"]')
5）返回第一个li节点的所有子孙节点，然后加上只要span节点的条件
result = response.xpath('//li[1]/descendant::span')
6）following轴可获得当前节点之后的所有节点，虽然使用了*匹配，但是又加了索引选择，所以只获取第2个后续节点，也就是第2个
节点中的节点
result = response.xpath('//li[1]/following::*[2]')
7）following-sibling可获取当前节点之后的所有同级节点，也就是后面所有的
节点
result = response.xpath('//li[1]/following-sibling::*')
6. 属性多值匹配

first item

result5 = response.xpath('//li[@class="li"]/a/text()')
返回值为空，因为这里HTML文本中li节点为class属性有2个值li和li-first，如果还用之前的属性匹配就不行了，需要用contain()函数
正确方法如下
result5 = response.xpath('//li[contains(@class, "li")]/a/text()')
contains()方法中，第一个参数为属性名，第二个参数传入属性值，只要此属性名包含所传入的属性值就可完成匹配
7. 多属性匹配，这里说一下不用框架的时候，xpath的常规用法
有时候我们需要多个属性来确定一个节点，那么就需要同时匹配多个属性，可用and来连接
from lxml import etree
text = '''

first item

'''
html = etree.HTML(text)
result6 = html.xpath('//li[contains(@class, "li") and @name="item"]/a/text()')
print(result)
这里的li节点有class和name两个属性，需要用and操作符相连，然后置于中括号内进行条件筛选

lxml 用法

首先我们利用它来解析 HTML 代码，先来一个小例子来感受一下它的基本用法。

from lxml import etree text = ''' first item second item third item fourth item fifth item ''' html = etree.HTML(text) result = etree.tostring(html) print(result)

首先我们使用 lxml 的 etree 库，然后利用 etree.HTML 初始化，然后我们将其打印出来。

其中，这里体现了 lxml 的一个非常实用的功能就是自动修正 html 代码，大家应该注意到了，最后一个 li 标签，其实我把尾标签删掉了，是不闭合的。不过，lxml 因为继承了 libxml2 的特性，具有自动修正 HTML 代码的功能。

所以输出结果是这样的

first item second item third item fourth item fifth item

不仅补全了 li 标签，还添加了 body，html 标签。

文件读取

除了直接读取字符串，还支持从文件读取内容。比如我们新建一个文件叫做 hello.html，内容为

first item second item third item fourth item fifth item

利用 parse 方法来读取文件。

from lxml import etree html = etree.parse('hello.html') result = etree.tostring(html, pretty_print=True) print(result)

同样可以得到相同的结果。

XPath 实例测试

python3解析库 lxml ：http://www.cnblogs.com/zhangxinqi/p/9210211.html

依然以上一段程序为例

（1）获取所有的
标签

from lxml import etree html = etree.parse('hello.html') print type(html) result = html.xpath('//li') print result print len(result) print type(result) print type(result[0])

运行结果

[, , , , ] 5

可见，etree.parse 的类型是 ElementTree，
通过调用 xpath 以后，得到了一个列表，包含了 5 个
元素，每个元素都是 Element 类型。
获取所有节点。返回一个列表每个元素都是Element类型，所有节点都包含在其中

from lxml import etree html = etree.parse('hello.html', etree.HTMLParser()) result = html.xpath('//*') # //代表获取子孙节点，*代表获取所有 print(type(html)) print(type(result)) print(result) # 如要获取li节点，可以使用//后面加上节点名称，然后调用xpath()方法 html.xpath('//li') # 获取所有子孙节点的li节点

（2）获取子节点

通过 / 或者 // 即可查找元素的子节点或者子孙节点，如果想选择li节点的所有直接a节点，可以这样使用

# 通过追加/a选择所有li节点的所有直接a节点，因为//li用于选中所有li节点，/a用于选中li节点的所有直接子节点a result=html.xpath('//li/a')

（3）获取父节点

通过 / 或者 // 可以查找子节点或子孙节点，那么要查找父节点可以使用 .. 来实现也可以使用 parent:: 来获取父节点

from lxml import etree from lxml.etree import HTMLParser text=''' 第一个 second item ''' html=etree.HTML(text,etree.HTMLParser()) result=html.xpath('//a[@href="link2.html"]/../@class') result1=html.xpath('//a[@href="link2.html"]/parent::*/@class') print(result) print(result1) ''' ['item-1'] ['item-1'] '''

（4）属性匹配

在选取的时候，我们还可以用 @符号进行属性过滤。比如，这里如果要选取 class 为 link1.html 的 li 节点，可以这样实现:

from lxml import etree from lxml.etree import HTMLParser text=''' 第一个 second item ''' html=etree.HTML(text, etree.HTMLParser()) result=html.xpath('//li[@class="link1.html"]') print(result) # 获取
标签的所有 class result = html.xpath('//li/@class') print(result)

（5）文本获取

我们用XPath中的 text() 方法获取节点中的文本

from lxml import etree text=''' 第一个 second item ''' html=etree.HTML(text,etree.HTMLParser()) result=html.xpath('//li[@class="item-1"]/a/text()') #获取a节点下的内容 result1=html.xpath('//li[@class="item-1"]//text()') #获取li下所有子孙节点的内容 print(result) print(result1)

（6）属性获取

使用 @符号即可获取节点的属性，如下：获取所有li节点下所有a节点的href属性

result=html.xpath('//li/a/@href') #获取a的href属性 result=html.xpath('//li//@href') #获取所有li子孙节点的href属性

（7）属性多值匹配

如果某个属性的值有多个时，我们可以使用 contains() 函数来获取

from lxml import etree text1=''' 第一个 second item ''' html=etree.HTML(text1,etree.HTMLParser()) result=html.xpath('//li[@class="aaa"]/a/text()') result1=html.xpath('//li[contains(@class,"aaa")]/a/text()') print(result) print(result1) #通过第一种方法没有取到值，通过contains（）就能精确匹配到节点了 [] ['第一个']

（8）多属性匹配

另外我们还可能遇到一种情况，那就是根据多个属性确定一个节点，这时就需要同时匹配多个属性，此时可用运用and运算符来连接使用：

from lxml import etree text1=''' 第一个 second item ''' html=etree.HTML(text1,etree.HTMLParser()) result=html.xpath('//li[@class="aaa" and @name="fore"]/a/text()') result1=html.xpath('//li[contains(@class,"aaa") and @name="fore"]/a/text()') print(result) print(result1) # ['second item'] ['second item']

（9）按序选择

有时候，我们在选择的时候某些属性可能同时匹配多个节点，但我们只想要其中的某个节点，如第二个节点或者最后一个节点，这时可以利用中括号引入索引的方法获取特定次序的节点：

from lxml import etree text1=''' 第一个第二个第三个第四个 ''' html=etree.HTML(text1,etree.HTMLParser()) result=html.xpath('//li[contains(@class,"aaa")]/a/text()') #获取所有li节点下a节点的内容 result1=html.xpath('//li[1][contains(@class,"aaa")]/a/text()') #获取第一个 result2=html.xpath('//li[last()][contains(@class,"aaa")]/a/text()') #获取最后一个 result3=html.xpath('//li[position()>2 and position()<4][contains(@class,"aaa")]/a/text()') #获取第一个 result4=html.xpath('//li[last()-2][contains(@class,"aaa")]/a/text()') #获取倒数第三个 print(result) print(result1) print(result2) print(result3) print(result4) # ['第一个', '第二个', '第三个', '第四个'] ['第一个'] ['第四个'] ['第三个'] ['第二个']

这里使用了last()、position()函数，在XPath中，提供了100多个函数，包括存取、数值、字符串、逻辑、节点、序列等处理功能，它们的具体作用可参考：http://www.w3school.com.cn/xpath/xpath_functions.asp

（10）节点轴选择

XPath提供了很多节点选择方法，包括获取子元素、兄弟元素、父元素、祖先元素等，示例如下：

from lxml import etree text1=''' 第一个第二个第三个第四个 ''' html=etree.HTML(text1,etree.HTMLParser()) result=html.xpath('//li[1]/ancestor::*') #获取所有祖先节点 result1=html.xpath('//li[1]/ancestor::div') #获取div祖先节点 result2=html.xpath('//li[1]/attribute::*') #获取所有属性值 result3=html.xpath('//li[1]/child::*') #获取所有直接子节点 result4=html.xpath('//li[1]/descendant::a') #获取所有子孙节点的a节点 result5=html.xpath('//li[1]/following::*') #获取当前子节之后的所有节点 result6=html.xpath('//li[1]/following-sibling::*') #获取当前节点的所有同级节点 # [, , , ] [] ['aaa', 'item'] [] [] [, , , , , ] [, , ]

# 获取
标签下 href 为 link1.html 的标签
result = html.xpath('//li/a[@href="link1.html"]')
print result

# 获取
标签下的所有标签 (应为是所有，所以使用 // )
result = html.xpath('//li//span')

# 获取
标签下的所有 class，不包括

result = html.xpath('//li/a//@class')
print result

# 获取最后一个
的的 href
result = html.xpath('//li[last()]/a/@href')
print result

# 获取倒数第二个元素的内容
result = html.xpath('//li[last()-1]/a')
print result[0].text

# 获取 class 为 bold 的标签名
result = html.xpath('//*[@class="bold"]')
print result[0].tag

以上使用的是XPath轴的用法，更多轴的用法可参考：http://www.w3school.com.cn/xpath/xpath_axes.asp

案例应用：抓取TIOBE指数前20名排行开发语言

#!/usr/bin/python3 # -*- coding: utf-8 -*- # @Author : # @File : test_1.py # @Software : PyCharm # @description : XXX import requests from requests.exceptions import RequestException from lxml import etree from lxml.etree import ParseError import json def one_to_page(html): headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 ' '(KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36' } try: response = requests.get(html, headers=headers) body = response.text # 获取网页内容 try: html = etree.HTML(body, etree.HTMLParser()) # 解析HTML文本内容 result = html.xpath('//table[contains(@class,"table-top20")]/tbody/tr//text()') # 获取列表数据 pos = 0 for i in range(20): if i == 0: yield result[i:5] else: yield result[pos:pos + 5] # 返回排名生成器数据 pos += 5 except ParseError as e: print(e.position) except RequestException as e: print('request is error!', e) def write_file(data): # 将数据重新组合成字典写入文件并输出 for i in data: sul = { '2018年6月排行': i[0], '2017年6排行': i[1], '开发语言': i[2], '评级': i[3], '变化率': i[4] } with open('test.txt', 'a', encoding='utf-8') as f: f.write(json.dumps(sul, ensure_ascii=False) + '\n') # 必须格式化数据 f.close() print(sul) def main(): url = 'https://www.tiobe.com/tiobe-index/' data = one_to_page(url) write_file(data) if __name__ == '__main__': main() ''' {'2018年6月排行': '1', '2017年6排行': '1', '开发语言': 'Java', '评级': '15.932%', '变化率': '+2.66%'} {'2018年6月排行': '2', '2017年6排行': '2', '开发语言': 'C', '评级': '14.282%', '变化率': '+4.12%'} {'2018年6月排行': '3', '2017年6排行': '4', '开发语言': 'Python', '评级': '8.376%', '变化率': '+4.60%'} {'2018年6月排行': '4', '2017年6排行': '3', '开发语言': 'C++', '评级': '7.562%', '变化率': '+2.84%'} {'2018年6月排行': '5', '2017年6排行': '7', '开发语言': 'Visual Basic .NET', '评级': '7.127%', '变化率': '+4.66%'} {'2018年6月排行': '6', '2017年6排行': '5', '开发语言': 'C#', '评级': '3.455%', '变化率': '+0.63%'} {'2018年6月排行': '7', '2017年6排行': '6', '开发语言': 'JavaScript', '评级': '3.063%', '变化率': '+0.59%'} {'2018年6月排行': '8', '2017年6排行': '9', '开发语言': 'PHP', '评级': '2.442%', '变化率': '+0.85%'} {'2018年6月排行': '9', '2017年6排行': '-', '开发语言': 'SQL', '评级': '2.184%', '变化率': '+2.18%'} {'2018年6月排行': '10', '2017年6排行': '12', '开发语言': 'Objective-C', '评级': '1.477%', '变化率': '-0.02%'} {'2018年6月排行': '11', '2017年6排行': '16', '开发语言': 'Delphi/Object Pascal', '评级': '1.396%', '变化率': '+0.00%'} {'2018年6月排行': '12', '2017年6排行': '13', '开发语言': 'Assembly language', '评级': '1.371%', '变化率': '-0.10%'} {'2018年6月排行': '13', '2017年6排行': '10', '开发语言': 'MATLAB', '评级': '1.283%', '变化率': '-0.29%'} {'2018年6月排行': '14', '2017年6排行': '11', '开发语言': 'Swift', '评级': '1.220%', '变化率': '-0.35%'} {'2018年6月排行': '15', '2017年6排行': '17', '开发语言': 'Go', '评级': '1.189%', '变化率': '-0.20%'} {'2018年6月排行': '16', '2017年6排行': '8', '开发语言': 'R', '评级': '1.111%', '变化率': '-0.80%'} {'2018年6月排行': '17', '2017年6排行': '15', '开发语言': 'Ruby', '评级': '1.109%', '变化率': '-0.32%'} {'2018年6月排行': '18', '2017年6排行': '14', '开发语言': 'Perl', '评级': '1.013%', '变化率': '-0.42%'} {'2018年6月排行': '19', '2017年6排行': '20', '开发语言': 'Visual Basic', '评级': '0.979%', '变化率': '-0.37%'} {'2018年6月排行': '20', '2017年6排行': '19', '开发语言': 'PL/SQL', '评级': '0.844%', '变化率': '-0.52%'} '''

案例应用：解析古文网并打印诗经所对应的 URL

#!/usr/bin/python3 # -*- coding: utf-8 -*- # @Author : # @File : shijing.py # @Software : PyCharm # @description : XXX import json import traceback import requests from lxml import etree """ step1: 安装 lxml 库。 step2: from lxml import etree step3: selector = etree.HTML(网页源代码) step4: selector.xpath(一段神奇的符号) """ def parse(): url = 'https://www.gushiwen.org/guwen/shijing.aspx' r = requests.get(url) if r.status_code == 200: selector = etree.HTML(r.text) s_all_type_content = selector.xpath('//div[@class="sons"]/div[@class="typecont"]') print(len(s_all_type_content)) article_list = list() for s_type_content in s_all_type_content: book_m1 = s_type_content.xpath('.//strong/text()')[0].encode('utf-8').decode('utf-8') s_all_links = s_type_content.xpath('.//span/a') article_dict = dict() for s_link in s_all_links: link_name = s_link.xpath('./text()')[0].encode('utf-8').decode('utf-8') try: link_href = s_link.xpath('./@href')[0].encode('utf-8').decode('utf-8') except BaseException as e: link_href = None article_dict[link_name] = link_href temp = dict() temp[book_m1] = article_dict article_list.append(temp) print(json.dumps(article_list, ensure_ascii=False, indent=4)) else: print(r.status_code) if __name__ == '__main__': parse() pass

CSS 选择器——cssSelector 定位方式详解

CSS 选择器参考手册：http://www.w3school.com.cn/cssref/css_selectors.asp
CSS 选择器：http://www.runoob.com/cssref/css-selectors.html

Selenium之CSS Selector定位详解：https://www.bbsmax.com/A/MyJxLGE1Jn/

css selector

CSS选择器用于选择你想要的元素的样式的模式。

"CSS"列表示在CSS版本的属性定义（CSS1，CSS2，或对CSS3）。

选择器示例示例说明 CSS

.class .intro 选择所有class="intro"的元素 1

#id #firstname 选择所有id="firstname"的元素 1

* * 选择所有元素 2

element p 选择所有
元素
1

element,element div,p 选择所有
元素和
元素
1

element element div p 选择
元素内的所有
元素
1

element>element div>p 选择所有父级是
元素的
元素
2

element+element div+p 选择所有紧接着
元素之后的
元素
2

[attribute] [target] 选择所有带有target属性元素 2

[attribute=value] [target=-blank] 选择所有使用target="-blank"的元素 2

[attribute~=value] [title~=flower] 选择标题属性包含单词"flower"的所有元素 2

[attribute|=language] [lang|=en] 选择 lang 属性以 en 为开头的所有元素 2

:link a:link 选择所有未访问链接 1

:visited a:visited 选择所有访问过的链接 1

:active a:active 选择活动链接 1

:hover a:hover 选择鼠标在链接上面时 1

:focus input:focus 选择具有焦点的输入元素 2

:first-letter p:first-letter 选择每一个
元素的第一个字母
1

:first-line p:first-line 选择每一个
元素的第一行
1

:first-child p:first-child 指定只有当
元素是其父级的第一个子级的样式。
2

:before p:before 在每个
元素之前插入内容
2

:after p:after 在每个
元素之后插入内容
2

:lang(language) p:lang(it) 选择一个lang属性的起始值="it"的所有
元素
2

element1~element2 p~ul 选择p元素之后的每一个ul元素 3

[attribute^=value] a[src^="https"] 选择每一个src属性的值以"https"开头的元素 3

[attribute$=value] a[src$=".pdf"] 选择每一个src属性的值以".pdf"结尾的元素 3

[attribute*=value] a[src*="runoob"] 选择每一个src属性的值包含子字符串"runoob"的元素 3

:first-of-type p:first-of-type 选择每个p元素是其父级的第一个p元素 3

:last-of-type p:last-of-type 选择每个p元素是其父级的最后一个p元素 3

:only-of-type p:only-of-type 选择每个p元素是其父级的唯一p元素 3

:only-child p:only-child 选择每个p元素是其父级的唯一子元素 3

:nth-child(n) p:nth-child(2) 选择每个p元素是其父级的第二个子元素 3

:nth-last-child(n) p:nth-last-child(2) 选择每个p元素的是其父级的第二个子元素，从最后一个子项计数 3

:nth-of-type(n) p:nth-of-type(2) 选择每个p元素是其父级的第二个p元素 3

:nth-last-of-type(n) p:nth-last-of-type(2) 选择每个p元素的是其父级的第二个p元素，从最后一个子项计数 3

:last-child p:last-child 选择每个p元素是其父级的最后一个子级。 3

:root :root 选择文档的根元素 3

:empty p:empty 选择每个没有任何子级的p元素（包括文本节点） 3

:target #news:target 选择当前活动的#news元素（包含该锚名称的点击的URL） 3

:enabled input:enabled 选择每一个已启用的输入元素 3

:disabled input:disabled 选择每一个禁用的输入元素 3

:checked input:checked 选择每个选中的输入元素 3

:not(selector) :not(p) 选择每个并非p元素的元素 3

::selection ::selection 匹配元素中被用户选中或处于高亮状态的部分 3

:out-of-range :out-of-range 匹配值在指定区间之外的input元素 3

:in-range :in-range 匹配值在指定区间之内的input元素 3

:read-write :read-write 用于匹配可读及可写的元素 3

:read-only :read-only 用于匹配设置 "readonly"（只读）属性的元素 3

:optional :optional 用于匹配可选的输入元素 3

:required :required 用于匹配设置了 "required" 属性的元素 3

:valid :valid 用于匹配输入值为合法的元素 3

:invalid :invalid 用于匹配输入值为非法的元素 3

CSS选择器的常见语法：

1. 根据标签定位 tagName (定位的是一组，多个元素）
find_element_by_css_selector("div")

2. 根据 id属性定位 (注意 id 使用 # 表示）
find_element_by_css_selector("#eleid")
find_element_by_css_selector("div#eleid")

3. 根据 className 属性定位（注意 class 属性使用.)

两种方式：前面加上 tag 名称。也可以不加。如果不加 tag 名称时，点不能省略。
find_element_by_css_selector('.class_value')
 find_element_by_css_selector("div.eleclass")
find_element_by_css_selector('tag_name.class_value')

有的 class_value 比较长，而且中间有空格时，不能把空格原样写进去，那样不能识别。
 这时，空格用点代替，前面要加上 tag_name。
driver.find_element_by_css_selector('div.panel.panel-email').click()
#
This paragraph is a very important warning.

driver.find_element_by_css_selector('.important')
driver.find_element_by_css_selector('.important.warning')

4. 根据元素属性定位
两种方式，可以在前面加上tag名称，也可以不加。
find_element_by_css_selector("[attri_name='attri_value']")
find_element_by_css_selector("input[type='password']").send_keys('密码')
find_element_by_css_selector("[type='password']").send_keys('密码')
 4.1 精确匹配：
find_element_by_css_selector("div[name=elename]") #属性名=属性值，精确值匹配
 find_element_by_css_selector("a[href]") #是否存在该属性，判断a元素是否存在href属性

注意：如果 class属性值里带空格，用.来代替空格
 4.2 模糊匹配
 find_element_by_css_selector("div[name^=elename]") #从起始位置开始匹配
 find_element_by_css_selector("div[name$=name2]") #从结尾匹配
 find_element_by_css_selector("div[name*=name1]") #从中间匹配，包含
4.3 多属性匹配
 find_element_by_css_selector("div[type='eletype][value='elevalue']") #同时有多属性
 find_element_by_css_selector("div.eleclsss[name='namevalue'] #选择class属性为eleclass并且name为namevalue的div节点
 find_element_by_css_selector("div[name='elename'][type='eletype']:nth-of-type(1) #选择name为elename并且type为eletype的第1个div节点

5. 定位子元素 (A>B)
 find_element_by_css_selector("div#eleid>input") #选择id为eleid的div下的所有input节点
 find_element_by_css_selector("div#eleid>input:nth-of-type(4) #选择id为eleid的div下的第4个input节点
 find_element_by_css_selector("div#eleid>nth-child(1)") #选择id为eleid的div下的第一个子节点

6. 定位后代元素 (A空格B)
 find_element_by_css_selector("div#eleid input") #选择id为eleid的div下的所有的子孙后代的 input 节点
 find_element_by_css_selector("div#eleid>input:nth-of-type(4)+label #选择id为eleid的div下的第4个input节点的相邻的label节点
 find_element_by_css_selector("div#eleid>input:nth-of-type(4)~label #选择id为eleid的div下的第4个input节点之后中的所有label节点

7. 不是（否）
 find_element_by_css_selector("div#eleid>*.not(input)") #选择id为eleid的div下的子节点中不为input 的所有子节点
 find_element_by_css_selector("div:not([type='eletype'])") #选择div节点中type不为eletype的所有节点

8. 包含Bycontent
 find_element_by_css_selector("li:contains('Goa')") #
Goat

 find_element_by_css_selector("li:not(contains('Goa'))) #
Cat

9. by index
 find_element_by_css_selector("li:nth(5)")

10. 路径法
两种方式，可以在前面加上 tag 名称，也可以不加。注意它的层级关系使用大于号">"。
find_element_by_css_selector("form#loginForm>ul>input[type='password']").send_keys('密码')

高阶：

基本css选择器

CSS 选择器中，最常用的选择器 如下：

选择器 描述举例

* 通配选择器，选择所有的元素 *

选择特定类型的元素，支持基本HTML标签 h1

. 选择具有特定class的元素。 .class1

. 特定类型和特定class的交集。（直接将多个选择器连着一起表示交集） h1.class1

# 选择具有特定id属性值的元素 #id1

属性选择器

除了最基本的核心选择器外，还有可以 基于属性的属性选择器：

选择器 描述举例

[attr] 选取定义attr属性的元素，即使该属性没有值 [placeholder]

[attr="val"] 选取attr属性等于val的元素 [placeholder="请输入关键词"]

[attr^="val"] 选取attr属性开头为val的元素 [placeholder^="请输入"]

[attr$="val"] 选取attr属性结尾为val的元素 [placeholder$="关键词"]

[attr*="val"] 选取attr属性包含val的元素 [placeholder*="入关"]

[attr~="val"] 选取attr属性包含多个空格分隔的属性，其中一个等于val的元素 [placeholder~="关键词"]

[attr|="val"] 选取attr属性等于val的元素或第一个属性值等于val的元素 [placeholder|="关键词"]

This paragraph is a very important warning.

selenium举例： (By.CSS_SELECTOR,'p[class="import warning"]')
属性与属性的值需要完全匹配，如上面用p[class='impprtant']就定位不到；
部分属性匹配：(By.CSS_SELECTOR,'p[class~="import warning"]')；
子串匹配&特定属性匹配：
[class^="def"]：选择 class 属性值以 "def" 开头的所有元素
[class$="def"]：选择 class 属性值以 "def" 结尾的所有元素
[class*="def"]：选择class 属性值中包含子串 "def" 的所有元素
[class|="def"]：选择class 属性值等于"def"或以"def-"开头的元素（这个是特定属性匹配）

关系选择器

有一些选择器是基于层级之间的关系，这类选择器称之为关系选择器。

选择器 描述举例

第二个选择器为第一个选择器的后代元素，选取第二个选择器匹配结果 .class1 h1

> 第二个选择器为第一个选择器的直接子元素，选取第二个选择器匹配结果 .class1 > *

+ 第二个选择器为第一个选择器的兄弟元素，选取第二个选择器的下一兄弟元素 .class1 + [lang]

~ 第二个选择器为第一个选择器的兄弟元素，选取第二个选择器的全部兄弟元素 .class1 ~ [lang]

选择某个元素的后代的元素：
selenium举例：(By.CSS_SELECTOR,‘div button’)
div元素的所有的后代元素中标签为button元素，不管嵌套有多深

选择某个元素的子代元素：
selenium举例：(By.CSS_SELECTOR,‘div > button’)
div元素的所有的子代元素中标签为button元素（>符号前后的空格可有可无）

一个元素不好定位时，它的兄长元素很起眼，可以借助兄长来扬名，因此不妨称之为 "弟弟选择器".
即选择某个元素的弟弟元素（先为兄，后为弟）：
selenium举例： (By.CSS_SELECTOR,'button + li')
button与li属于同一父元素，且button与li相邻，选择button下标签为li的元素

联合选择器与反选择器

利用 联合选择器与反选择器，可以实现 与和或 的关系。

选择器描述举例

, 属于第一个选择器的元素或者是属于第二个选择器的元素 h1, h2

:not() 不属于选择器选中的元素 :not(html)

伪元素和伪类选择器

CSS选择器支持了 伪元素和伪类选择器。

:active 鼠标点击的元素

:checked 处于选中状态的元素

:default 选取默认值的元素

:disabled 选取处于禁用状态的元素

:empty 选取没有任何内容的元素

:enabled 选取处于可用状态的元素

:first-child 选取元素的第一个子元素

:first-letter 选取文本的第一个字母

:first-line 选取文本的第一行

:focus 选取得到焦点的元素

:hover 选取鼠标悬停的元素

:in-range 选取范围之内的元素

:out-of-range 选取范围之外的元素

:lang() 选取lang属性为language的元素

:last-child 选取元素的最后一个子元素

路径表达式	结果
bookstore	选取 bookstore 元素的所有子节点。
/bookstore	选取根元素 bookstore。注释：假如路径起始于正斜杠( / )，则此路径始终代表到某元素的绝对路径！
bookstore/book	选取属于 bookstore 的子元素的所有 book 元素。
//book	选取所有 book 子元素，而不管它们在文档中的位置。
bookstore//book	选择属于 bookstore 元素的后代的所有 book 元素，而不管它们位于 bookstore 之下的什么位置。
//@lang	选取名为 lang 的所有属性。

路径表达式	结果
/bookstore/book[1]	选取属于 bookstore 子元素的第一个 book 元素。
/bookstore/book[last()]	选取属于 bookstore 子元素的最后一个 book 元素。
/bookstore/book[last()-1]	选取属于 bookstore 子元素的倒数第二个 book 元素。
/bookstore/book[position()<3]	选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
//title[@lang]	选取所有拥有名为 lang 的属性的 title 元素。
//title[@lang=’eng’]	选取所有 title 元素，且这些元素拥有值为 eng 的 lang 属性。
/bookstore/book[price>35.00]	选取 bookstore 元素的所有 book 元素，且其中的 price 元素的值须大于 35.00。
/bookstore/book[price>35.00]/title	选取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值须大于 35.00。

通配符	描述
*	匹配任何元素节点。
@*	匹配任何属性节点。
node()	匹配任何类型的节点。

路径表达式	结果
/bookstore/*	选取 bookstore 元素的所有子元素。
//*	选取文档中的所有元素。
//title[@*]	选取所有带有属性的 title 元素。

路径表达式	结果
//book/title \| //book/price	选取 book 元素的所有 title 和 price 元素。
//title \| //price	选取文档中的所有 title 和 price 元素。
/bookstore/book/title \| //price	选取属于 bookstore 元素的 book 元素的所有 title 元素，以及文档中所有的 price 元素。

运算符	描述	实例	返回值
\|	计算两个节点集	//book \| //cd	返回所有拥有 book 和 cd 元素的节点集
+	加法	6 + 4	10
–	减法	6 – 4	2
*	乘法	6 * 4	24
div	除法	8 div 4	2
=	等于	price=9.80	如果 price 是 9.80，则返回 true。如果 price 是 9.90，则返回 false。
!=	不等于	price!=9.80	如果 price 是 9.90，则返回 true。如果 price 是 9.80，则返回 false。
<	小于	price<9.80	如果 price 是 9.00，则返回 true。如果 price 是 9.90，则返回 false。
<=	小于或等于	price<=9.80	如果 price 是 9.00，则返回 true。如果 price 是 9.90，则返回 false。
>	大于	price>9.80	如果 price 是 9.90，则返回 true。如果 price 是 9.80，则返回 false。
>=	大于或等于	price>=9.80	如果 price 是 9.90，则返回 true。如果 price 是 9.70，则返回 false。
or	或	price=9.80 or price=9.70	如果 price 是 9.80，则返回 true。如果 price 是 9.50，则返回 false。
and	与	price>9.00 and price<9.90	如果 price 是 9.80，则返回 true。如果 price 是 8.50，则返回 false。
mod	计算除法的余数	5 mod 2	1

选择器	示例	示例说明	CSS
.class	.intro	选择所有class="intro"的元素	1
#id	#firstname	选择所有id="firstname"的元素	1
*	*	选择所有元素	2
*element*	p	选择所有元素	1
*element,element*	div,p	选择所有元素和元素	1
**element element**	div p	选择元素内的所有元素	1
**element>element**	div>p	选择所有父级是元素的元素	2
**element+element**	div+p	选择所有紧接着元素之后的元素	2
*[attribute]*	[target]	选择所有带有target属性元素	2
*[attribute=value]*	[target=-blank]	选择所有使用target="-blank"的元素	2
*[attribute~=value]*	[title~=flower]	选择标题属性包含单词"flower"的所有元素	2
*[attribute\|=language]*	[lang\|=en]	选择 lang 属性以 en 为开头的所有元素	2
:link	a:link	选择所有未访问链接	1
:visited	a:visited	选择所有访问过的链接	1
:active	a:active	选择活动链接	1
:hover	a:hover	选择鼠标在链接上面时	1
:focus	input:focus	选择具有焦点的输入元素	2
:first-letter	p:first-letter	选择每一个元素的第一个字母	1
:first-line	p:first-line	选择每一个元素的第一行	1
:first-child	p:first-child	指定只有当元素是其父级的第一个子级的样式。	2
:before	p:before	在每个元素之前插入内容	2
:after	p:after	在每个元素之后插入内容	2
*:lang(language)*	p:lang(it)	选择一个lang属性的起始值="it"的所有元素	2
**element1~element2**	p~ul	选择p元素之后的每一个ul元素	3
*[attribute^=value]*	a[src^="https"]	选择每一个src属性的值以"https"开头的元素	3
*[attribute$=value]*	a[src$=".pdf"]	选择每一个src属性的值以".pdf"结尾的元素	3
*[attribute*=value]*	a[src*="runoob"]	选择每一个src属性的值包含子字符串"runoob"的元素	3
:first-of-type	p:first-of-type	选择每个p元素是其父级的第一个p元素	3
:last-of-type	p:last-of-type	选择每个p元素是其父级的最后一个p元素	3
:only-of-type	p:only-of-type	选择每个p元素是其父级的唯一p元素	3
:only-child	p:only-child	选择每个p元素是其父级的唯一子元素	3
:nth-child(n)	p:nth-child(2)	选择每个p元素是其父级的第二个子元素	3
:nth-last-child(n)	p:nth-last-child(2)	选择每个p元素的是其父级的第二个子元素，从最后一个子项计数	3
:nth-of-type(n)	p:nth-of-type(2)	选择每个p元素是其父级的第二个p元素	3
:nth-last-of-type(n)	p:nth-last-of-type(2)	选择每个p元素的是其父级的第二个p元素，从最后一个子项计数	3
:last-child	p:last-child	选择每个p元素是其父级的最后一个子级。	3
:root	:root	选择文档的根元素	3
:empty	p:empty	选择每个没有任何子级的p元素（包括文本节点）	3
:target	#news:target	选择当前活动的#news元素（包含该锚名称的点击的URL）	3
:enabled	input:enabled	选择每一个已启用的输入元素	3
:disabled	input:disabled	选择每一个禁用的输入元素	3
:checked	input:checked	选择每个选中的输入元素	3
*:not(selector)*	:not(p)	选择每个并非p元素的元素	3
::selection	::selection	匹配元素中被用户选中或处于高亮状态的部分	3
:out-of-range	:out-of-range	匹配值在指定区间之外的input元素	3
:in-range	:in-range	匹配值在指定区间之内的input元素	3
:read-write	:read-write	用于匹配可读及可写的元素	3
:read-only	:read-only	用于匹配设置 "readonly"（只读）属性的元素	3
:optional	:optional	用于匹配可选的输入元素	3
:required	:required	用于匹配设置了 "required" 属性的元素	3
:valid	:valid	用于匹配输入值为合法的元素	3
:invalid	:invalid	用于匹配输入值为非法的元素	3

你可能感兴趣的:(python,爬虫相关)

python画画加粗_Matplotlib'粗体'字体 - python weixin_39569747 python画画加粗
跟随thisexample：importnumpyasnpimportmatplotlib.pyplotaspltfig=plt.figure()fori,labelinenumerate(('A','B','C','D')):ax=fig.add_subplot(2,2,i+1)ax.text(0.05,0.95,label,transform=ax.transAxes,fontsize=16,

matplotlib使用大字体，粗线 weixin_34254823 python
2019独角兽企业重金招聘Python工程师标准>>>matplotlib在绘图时缺省的字体和线条都有些细，所以需要加粗一下importmatplotlib.pyplotaspltdefuseLargeSize(axis,marker_lines=None,fontsize='xx-large',fontproperties=None):'''将X,Y坐标轴的标签、刻度以及legend都使用大字体

六种方法教你将Python源代码打包成exe xuefeng_210 python 开发语言 linux
将Python源代码打包成可执行文件（exe）是一种常见的需求，它可以使我们的程序在没有安装Python解释器的环境中运行。在本文中，我们将介绍六种常用的方法来实现这个目标，并详细说明每种方法的使用过程。cx_Freezecx_Freeze是一个用于将Python脚本打包成可执行文件的工具。它可以将Python代码和依赖的库文件一起打包，并生成一个独立的可执行文件。使用cx_Freeze的步骤如下

Python Excel操作新玩法：从零到高手掌握openpyxl xuefeng_210 python 自动化 java
openpyxl是Python中一个强大的第三方库，用于操作Excel文件，它可以读取、写入和修改Excel文件，并且支持Excel文件中的样式、图表等元素。openpyxl使得在Python中处理Excel文件变得非常简单和高效。本文将从入门到精通地介绍openpyxl的使用方法，带你掌握在Python中处理Excel文件的技巧。目录安装和导入创建和保存Excel文件读取Excel文件写入Exc

CentOS7下安装python3.8 讓丄帝愛伱 Linux 编程语言
查看系统版本#查看系统版本cat/etc/centos-release>CentOSLinuxrelease7.2.1511(Core)uname-a>Linuxlocalhost.localdomain3.10.0-327.el7.x86_64#1SMPThuNov1922:10:57UTC2015x86_64x86_64x86_64GNU/Linux#查看python版本python-V>Py

Ubuntu18.04切换python3.8版本波波维琦 python linux ubuntu
安装python3.8sudoaptinstallpython3.8赋予python优先级sudoupdate-alternatives--install/usr/bin/pythonpython/usr/bin/python3.82切换python默认版本sudoupdate-alternatives--configpython选择python3.8的编号，回车赋予python3优先级sudou

Python连接StarRocks全流程实践: SQL文件调用与Pandas混合优化 ToreanonyTang python sql pandas 数据库开发语言
文章目录一环境准备与连接方法1.安装核心依赖库2.连接字符串配置3.多模式连接验证二SQL文件调用与动态执行1.外部SQL文件结构设计2.Python动态加载执行三Pandas混合使用技巧1.查询结果直接转DataFrame2.批量数据写入优化四深度性能优化策略1.StarRocks服务端优化2.Python客户端优化3.混合计算策略五完整业务场景示例1:用户转化漏斗业务场景实现代码公用表表达式(

DJANGO 中间件的白名单配置换个网名有点难 django python
在处理白名单内的多个Apps的URL链接时，可以采用以下几种方法来简化白名单的配置：1.使用reverse动态获取URL如果你在urls.py中为每个App的URL定义了名称（name参数），可以使用reverse函数动态获取这些URL，而不是硬编码路径。这样可以避免手动维护大量的路径字符串。Python复制fromdjango.urlsimportreverseclassLoginRequire

MySQL Connector / Python weixin_30369087
MySQLConnector/Python允许Python程序使用符合Python数据库API规范v2.0（PEP249）的API访问MySQL数据库。MySQLConnector/Python包括对以下内容的支持：几乎所有MySQLServer提供的功能都包括MySQLServer版本5.7。Connector/Python8.0也支持XDevAPI。有关使用XDevAPI的MySQLConne

基于交替方向乘法（ADMM）的PAPR约束下传输波束成形器设计的方法研究（Matlab代码实现）创新优化代码学习 matlab 前端算法
欢迎来到本博客❤️❤️博主优势：博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。⛳️座右铭：行百里者，半于九十。本文目录如下：目录1概述2运行结果3参考文献4Matlab代码、数据、文章下载1概述上一次介绍的是用Python代码编程的，这次用Matlab代码实现。回顾见：基于交替方向乘法（ADMM）的PAPR约束下传输波束成形器设计的方法研究（Python代码实现）摘要本文研究了峰值平均功率比(

Python 3 介绍（二十二）--mysql-connector-python 小蘑菇二号零基础学 Python--快速入门 Python 快速入门 adb
目录安装mysql-connector-python基本使用示例1.连接到数据库2.插入数据3.更新数据4.删除数据进阶功能1.使用事务2.批量插入数据3.使用字典游标错误处理总结mysql-connector-python是一个用于Python的MySQL数据库驱动程序，它允许Python应用程序与MySQL数据库进行交互。这个驱动程序提供了高级别的API，支持多种Python版本，并且兼容多种

Python - 爬虫；爬虫-网页抓取数据-工具curl MinggeQingchun Python 爬虫 curl python
一、爬虫关于爬虫的合法性通用爬虫限制：Robots协议【约定协议robots.txt】robots协议：协议指明通用爬虫可以爬取网页的权限robots协议是一种约定，一般是大型公司的程序或者搜索引擎等遵守几乎每一个网站都有一个名为robots.txt的文档，当然也有部分网站没有设定robots.txt。对于没有设定robots.txt的网站可以通过网络爬虫获取没有口令加密的数据，也就是该网站所有页

Python爬虫：数据抓取工具及类库详解 2401_84692751 程序员 python 爬虫开发语言
wget也是一个利用URL语法在命令行环境下进行文件传输的工具,其基本用法为wget[URL地址][参数],如:wgethttps://www.baidu.com其常用参数如下:下面例子演示如何使用wget镜像一个网站到本地并启动:使用wget--mirror命令将整个网站的镜像下载到本地wget--mirror-p--convert-linkshttp://www.httpbin.org切换到下

大语言模型学习路线：从入门到实战大模型官方资料语言模型学习人工智能产品经理自然语言处理搜索引擎
大语言模型学习路线：从入门到实战在人工智能领域，大语言模型（LargeLanguageModels,LLMs）正迅速成为一个热点话题。本学习路线旨在为有基本Python编程和深度学习基础的学习者提供一个清晰、系统的大模型学习指南，帮助你在这一领域快速成长。本学习路线更新至2024年02月，后期部分内容或工具可能需要更新。适应人群已掌握Python基础具备基本的深度学习知识学习步骤本路线将通过四个核

python arm64_PyTorch-aarch64 人类0663号 python arm64
PyTorch源码编译步骤：1、源码编译环境：操作系统：debian9.12交换空间：1GPython版本：3.5硬件：CPU：RK3399(aarch64)内存：4G2、下载依赖包：下载pytorch及其依赖包时，默认从github上下载，如果网络不好、容易断开时，可在gitee上找到对应包克隆链接，然后修改对应配置文件，进行下载。需要细致耐心。3、编译主要参数：设置最大作业数：exportMA

交叉编译python3.8 岁月金刀 python linux 开发语言
参考链接：交叉编译移植Python到arm架构下的Linux系统-白菜没我白-博客园Python3交叉编译步骤（二）-三方库的交叉编译-秀才哥哥-博客园一、先安装Ubantu虚拟机上的python：1，下载python3.8安装包2，安装依次执行如下步骤：./configureprefix=/usr/local/python3//prefix是指定安装目录，你可以自己新建目录安装到那里makema

31天Python入门——第10天:深入理解值传递·引用传递以及深浅拷贝问题安然无虞 Python手把手教程 python 开发语言后端 pyqt
你好，我是安然无虞。文章目录1.什么是对象2.对象类型3.引用传递3.1基本概念3.2不可变对象和可变对象的引用传递不可变对象可变对象3.3函数参数传递中的引用传递不可变对象作为参数可变对象作为参数3.4如何避免可变对象引用传递带来的问题3.5总结:值传递和引用传递4.深浅拷贝问题4.1浅拷贝4.2深拷贝4.3使用场景1.什么是对象如果你学过驾驶，八成被教练骂过吧？可能你的脑海中现在还回荡着教练粗

定时任务调度框架xxl-job与quartz的区别 java程序员CC java
XXL-Job和Quartz都是Java项目中常用的定时任务框架，它们有以下几点区别：xxl-job和Quartz都是用于任务调度的开源框架，它们之间有一些区别，主要体现在以下几个方面：语言支持：Quartz主要是基于Java的任务调度框架，支持Java语言。xxl-job是一个分布式任务调度平台，它提供了Java版本的调度中心，同时还提供了Python、PHP等语言的任务执行器，因此支持多种语言

python科学绘图-matplotlib绘制三维函数图像，并且在函数底部绘制等值线 zhan114514 python科学绘图 python matplotlib 开发语言
python使用matplotlib库绘制三维函数图像，并且在底部绘制等值线。三维图像函数surface=ax.plot_surface(X,Y,zss,camp=色带)等值线函数contour=ax.contour(xs,ys,zss,zdir=在哪个轴绘制,offset=在该轴什么位置绘制,camp=色带,zorder=图层位置)颜色条函数plt.colorbar(surface,shrink

python使用matplotlib库绘制饼图 zhan114514 python科学绘图 python matplotlib 开发语言
使用python的matplotlib库绘制饼图，包括普通饼图、堆叠饼图、嵌套饼图，并一一封装成了方法，直接调用使用。先安装matplotlib库，pipinstallmatplotlib代码如下：fromtypingimportSequenceimportmatplotlib.pyplotaspltimportmatplotlibimportnumpyasnpmatplotlib.rcParam

python科学绘图-matplotlib中标记marker的使用方法 zhan114514 python科学绘图 python matplotlib 开发语言
python使用matplotlib库，在绘制点图、线图的时候，标记初始的数据用图标记所有标记，可以拿出来对比使用代码：importmatplotlibimportnumpyasnpfrommatplotlibimportpyplotaspltimportmatplotlib.linesasmlinesmatplotlib.use("TkAgg")plt.rcParams['font.sans-s

python：@classmethod zcxvdzv python
python提供了@classmethod和@staticmethod来定义静态方法1、实例方法，该实例属于对象，该方法的第一个参数是当前实例，拥有当前类以及实例的所有特性。2、@classmethod类方法，该实例属于类，该方法的第一个参数是当前类，可以对类做一些处理，如果一个静态方法和类有关但是和实例无关，那么使用该方法。3、@staticmethod静态方法，该实例属于类，但该方法没有参数，

Tinyflow AI 工作流编排框架 v0.0.7 发布自不量力的A同学人工智能
目前没有关于TinyflowAI工作流编排框架v0.0.7发布的相关具体信息。Tinyflow是一个轻量的AI智能体流程编排解决方案，其设计理念是“简单、灵活、无侵入性”。它基于WebComponent开发，前端支持与React、Vue等任何框架集成，后端支持Java、Node.js、Python等语言，助力传统应用快速AI转型。该框架代码库轻量，学习成本低，能轻松应对简单任务编排和复杂多模态推理

Python classmethod函数晓之以理的喵~~ Python python 开发语言
在Python编程中，classmethod()函数是一个内置函数，用于定义类方法。类方法是绑定到类而不是实例的方法，可以通过类名直接调用，并且可以访问类的属性和方法。本文将深入探讨Python中的classmethod()函数，包括基本用法、与实例方法的区别、应用场景，并提供丰富的示例代码来帮助更好地理解和使用classmethod()函数。什么是classmethod()函数？classmet

python画图怎么调色_Python气象数据处理与绘图(19)：如何使用NCL色板(调色盘思路相同)... weixin_39710295 python画图怎么调色
一、使用NCL色板(使用调色盘文件思路相同)NCL的色板十分丰富，几乎可以涵盖平常所需。详见：传送门那么我们能否将NCL的色板用在python中呢？答案当然是可以的。我在气象家园发现了个帖子，楼主自己封装了一个包，可以在python中调用NCL的色板，详见：传送门，一般来说这个包足够大家日常使用了。一些想进一步了解原理并且进行扩展应用的朋友，可以接着往下看。其基本原理就是读取NCL色板的.rgb文

python中的@classmethod 无脑敲代码，bug漫天飞编程 python
@classmethod是一个装饰器，用于指示一个方法是一个类方法;类方法是通过类本身来调用的，而不是通过类的实例来调用。类方法接收的第一个参数是类本身（通常命名为cls），而不是类的实例。用处：创建类的实例。使用类方法作为工厂函数，可以隐藏对象的创建细节，并在创建对象时执行一些额外的逻辑.由于类方法接收的是类本身作为第一个参数，因此它们可以用于修改类级别的状态或属性。代码案例：classMyCl

PYQT5的UI转换报错：fatal python error: _pyinterpreterstate_get(): no current thread state解决办法 QX大黄蜂 python ui qt python
使用QT可视化工具设计界面，在将UI文件转换为py文件的时候报错：fatalpythonerror:_pyinterpreterstate_get():nocurrentthreadstatepythonrun原因可能是python版本与QT不兼容，具体原因不知道解决办法：使用以下配置将UI转换为py，再将py文件给其它程序调用python版本：3.7.1pyqt5版本：5.11.3pyqt5-t

Python 数据分析实战：宠物经济行业发展洞察萧十一郎@ python python 数据分析宠物
目录一、案例背景二、代码实现2.1数据收集2.2数据探索性分析2.3数据清洗2.4数据分析2.4.1宠物用品用户满意度分析2.4.2宠物用品销售与价格关系分析2.4.3宠物经济行业未来发展预测三、主要的代码难点解析3.1数据收集3.2数据清洗-销售数据处理3.3数据分析-宠物用品用户满意度分析3.4数据分析-宠物用品销售与价格关系分析3.5数据可视化四、可能改进的代码4.1数据收集改进4.2数据清

一文搞懂python中常用的装饰器（@classmethod、@property、@staticmethod、@abstractmethod......） NosONE python python
本文分为两部分，第一部分是介绍python中常见的装饰器。另一部分是自定义装饰器，包括了一些非常好用的自定义装饰器。一文搞懂python中常用的装饰器常见的几个装饰器介绍及示例@classmethod装饰器基本用法@property、@setter装饰器基本用法@staticmethod装饰器基本用法@abstractmethod装饰器基本用法自定义装饰器类装饰器非常好用的自定义装饰器常见的几个装

python @classmethod Mmnnnbb123 python java 开发语言
1..什么是classmethodclassmethod是用来指定一个类的方法为类方法长的像下面这个样子123classcc:@classmethoddeff(cls,arg1,arg2,...):...cls通常用作类方法的第一参数跟self有点类似（__init__里面的slef通常用作实例方法的第一参数)。即通常用self来传递当前类对象的实例，cls传递当前类对象。self和cls没有特别

PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆

zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日

Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb

Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作

CommonDAO（公共/基础DAO） g21121 DAO
 好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业

直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人

安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。 即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v

Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与

JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标

Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id

优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他

js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl

【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占

J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application

博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac

java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(

sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ

[新概念武器]气象战争 comsci
 气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次

oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)

技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser

初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部

截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi

MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq

Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs

spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&

重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ

.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心

使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——

Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs

菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他

首页 - 关于我们 - 站内搜索 - Sitemap - 侵权投诉

版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.

表达式	描述
nodename	选取此节点的所有子节点
/	从当前节点选取直接子节点
//	从当前节点选取子孙节点
.	选取当前节点
..	选取当前节点的父节点
@	选取属性
*	通配符，选择所有元素节点与元素名
@*	选取所有属性
[@attrib]	选取具有给定属性的所有元素
[@attrib='value']	选取给定属性具有给定值的所有元素
[tag]	选取所有具有指定元素的直接子节点
[tag='text']	选取所有具有指定元素并且文本内容是text节点

选择器	描述	举例
*	通配选择器，选择所有的元素	*
	选择特定类型的元素，支持基本HTML标签	h1
.	选择具有特定class的元素。	.class1
.	特定类型和特定class的交集。（直接将多个选择器连着一起表示交集）	h1.class1
#	选择具有特定id属性值的元素	#id1

:active	鼠标点击的元素
:checked	处于选中状态的元素
:default	选取默认值的元素
:disabled	选取处于禁用状态的元素
:empty	选取没有任何内容的元素
:enabled	选取处于可用状态的元素
:first-child	选取元素的第一个子元素
:first-letter	选取文本的第一个字母
:first-line	选取文本的第一行
:focus	选取得到焦点的元素
:hover	选取鼠标悬停的元素
:in-range	选取范围之内的元素
:out-of-range	选取范围之外的元素
:lang()	选取lang属性为language的元素
:last-child	选取元素的最后一个子元素

Python 中 xpath 语法 与 lxml 库解析 HTML/XML 和 CSS Selector

前言

安装

Python 中如何安装使用 XPath

Python3 解析 XML

一、什么是 XML?

二、有哪些可以解析 XML 的 Python 包 ？

三、利用 ElementTree 解析 XML

四、使用示例：

（2）子（Children）

（3）同胞（Sibling）

（4）先辈（Ancestor）

（5）后代（Descendant）

选取节点

下面列出了最有用的路径表达式：

谓语（Predicates）

选取未知节点

选取若干路径

XPath 运算符

Xpath 高级用法

lxml 用法

文件读取

XPath 实例测试

案例应用：抓取TIOBE指数前20名排行开发语言

案例应用：解析 古文网 并打印 诗经 所对应的 URL

CSS 选择器——cssSelector 定位方式详解

基本css选择器

属性选择器

关系选择器

联合选择器与反选择器

伪元素和伪类选择器

你可能感兴趣的:(python,爬虫相关)

Python 中 xpath 语法与 lxml 库解析 HTML/XML 和 CSS Selector

二、有哪些可以解析 XML 的 Python 包？

案例应用：解析古文网并打印诗经所对应的 URL