Xpath语法与lxml库

1. Xpath

1 )什么是XPath？

xpath（XML Path Language）是一门在XML和HTML文档中查找信息的语言，可用来在XML和HTML文档中对元素和属性进行遍历。

2) XPath开发工具

Chrome插件XPath Helper。
Firefox插件Try XPath。

1.1Xpath语法

xml version="1.0" encoding="ISO-8859-1"?>

<bookstore>

<book>
  <title lang="eng">Harry Pottertitle>
  <price>29.99price>
book>

<book>
  <title lang="eng">Learning XMLtitle>
  <price>39.95price>
book>

bookstore>

xml实例文档

1.1.1 选取节点

XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。

下面列出了最有用的路径表达式：

表达式	描述
nodename	选取此节点的所有子节点。
/	如果是在最前面，代表从根节点选取。否则选择某节点下的直接子节点
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
.	选取当前节点。
..	选取当前节点的父节点。
@	选取属性。

实例：在下面的表格中，列出了一些路径表达式以及表达式的结果：

路径表达式	结果
bookstore	选取 bookstore 元素的所有子节点。
/bookstore	选取根元素 bookstore。注释：假如路径起始于正斜杠( / )，则此路径始终代表到某元素的绝对路径！
bookstore/book	选取属于 bookstore 的子元素的所有 book 元素。
//book	选取所有 book 子元素，而不管它们在文档中的位置。
bookstore//book	选择属于 bookstore 元素的后代的所有 book 元素，而不管它们位于 bookstore 之下的什么位置。
//book[@lang]	选取所有拥有lang属性的book节点。

1.1.2 谓语（Predicates）

谓语用来查找某个特定的节点或者包含某个指定的值的节点。

谓语被嵌在方括号中。

实例：在下面的表格中，列出了带有谓语的一些路径表达式，以及表达式的结果：

路径表达式	结果
/bookstore/book[1]	选取属于 bookstore 子元素的第一个 book 元素。
/bookstore/book[last()]	选取属于 bookstore 子元素的最后一个 book 元素。
/bookstore/book[last()-1]	选取属于 bookstore 子元素的倒数第二个 book 元素。
/bookstore/book[position()<3]	选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
//title[@lang]	选取所有拥有名为 lang 的属性的 title 元素。
//title[@lang='eng']	选取所有 title 元素，且这些元素拥有值为 eng 的 lang 属性。
/bookstore/book[price>35.00]	选取 bookstore 元素的所有 book 元素，且其中的 price 元素的值须大于 35.00。
/bookstore/book[price>35.00]/title	选取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值须大于 35.00。

1. 1.3 通配符

XPath 通配符可用来选取未知的 XML 元素。

通配符	描述
*	匹配任何元素节点。
@*	匹配任何属性节点。
node()	匹配任何类型的节点。

实例：在下面的表格中，我们列出了一些路径表达式，以及这些表达式的结果：

路径表达式	结果
/bookstore/*	选取 bookstore 元素的所有子元素。
//*	选取文档中的所有元素。
//title[@*]	选取所有带有属性的 title 元素。

1.1.4 选取若干路径

通过在路径表达式中使用“|”运算符，您可以选取若干个路径。

实例：在下面的表格中，我们列出了一些路径表达式，以及这些表达式的结果：

路径表达式	结果
//book/title \| //book/price	选取 book 元素的所有 title 和 price 元素。
//title \| //price	选取文档中的所有 title 和 price 元素。
/bookstore/book/title \| //price	选取属于 bookstore 元素的 book 元素的所有 title 元素，以及文档中所有的 price 元素。

Xpath语法详解文档路径：http://www.w3school.com.cn/xpath/index.asp

2. lxml库

lxml是python的一个解析库，支持HTML和XML的解析，支持XPath解析方式，而且解析效率非常高

2.1 lxml库常用类的属性和方法

object ---+
          |
         _Element

# =====================================
# Properties(属性)
# =====================================

attrib  # 元素属性字典
base  # 原始文档的url或None
sourceline  # 原始行数或None
tag  # tag名
tail  # 尾巴文本(存在于兄弟节点间，属于父节点的文本内容)
text  # 位于第一个子标签之前的子文本
prefix  # 命名空间前缀(XML)(详解见底部附录)
nsmap  # 命名空间与URL映射关系(XML)(详解见底部附录)


# =====================================
# Instance Methods(实例方法)(常用)
# =====================================

xpath(self, _path, namespaces=None, extensions=None, smart_strings=True, **_variables)
# 通过xpath表达式查找指定节点元素，返回指定节点元素列表或None

getparent(self)
# 查找父节点，返回找到的父节点对象或None

getprevious(self)
# 查找前一个相邻的兄弟节点元素，返回找到的节点对象或None

getnext(self)
# 查找后一个相邻的兄弟节点对象，返回找到的节点对象或None

getchildren(self)
# 返回所有直属的子节点对象

getroottree(self)
# 返回所在文档的根节点树

find(self, path, namespaces=None)
# 根据标签名或路径，返回第一个匹配到的子节点对象

findall(self, path, namespaces=None)
# 根据标签名或路径，返回全部符合要求的子节点对象

findtext(self, path, default=None, namespaces=None)
# 根据标签名或路径，返回第一个匹配到的子节点对象的text文本

clear(self)
# 重置节点对象，清除所有子节点对象，以及所有的text、tail对象

get(self, key, default=None)
# 返回节点属性key对应的值

items(self)
# 以任意顺序返回节点属性键和值

keys(self)
# 以任意顺序返回包含节点全部属性名的列表

values(self)
# 以任意顺序返回包含节点全部属性值的列表

set(self, key, value)
# 设置节点属性

Class _Element(顶级基类)

object ---+
          |
   _Element ---+
               |
              ElementBase

# =====================================
Functions(函数)(常用)
# =====================================

HTML(text, parser=None, base_url=None)
# 将字符型HTML文档内容转换为节点树对象

fromstring(text, parser=None, base_url=None)
# 将字符型XML文档或文档片段转换问节点树对象

tostring(element_or_tree, encoding=None, method="xml", xml_declaration=None, pretty_print=False, with_tail=True, standalone=None, doctype=None, exclusive=False, with_commments=True, inclusive_ns_prefixes=None)
# 将节点树对象序列化为编码的字符型

tounicode(element_or_tree, method="xml", pretty_print=False, with_tail=True, doctype=None)
# 将节点树对象序列化为Unicode型

lxml.etree

 object ---+ 
            | 
etree._Element ---+
                  | 
    etree.ElementBase---+ 
                        | 
         object ---+    | 
                   |    |
           HtmlMixin ---+  
                        |
                       HtmlElement


# =====================================
Functions(函数)(常用)
# =====================================

fromstring(html, base_url=None, parser=None, **kwargs)
# 将字符型html文档转换为节点树或文档树

tostring(doc, pretty_print=False, include_meta_content_type=False, encoding=None, method="html", with_tail=True, doctype=None)
# 将节点树或文档树序列化为字符型

######################################
**Class HtmlMixin**

object ---+
          |
          HtmlMixin

# =====================================
Properties(属性)
# =====================================
base_url  # 文档url
head  # 标签部分
body  # 标签部分
forms  # 返回全部form列表
label  # 元素的label标签
classes  # class属性值的集合

# =====================================
Instance Methods(实例方法)(常用)
# =====================================

drop_tag(self)
# 移除标签，但不移除其子标签和text文本，将其合并到父节点

drop_tree(self)
# 移除节点树（包含子节点和text），但不移除它的tail文本，将其合并到父节点或前一个兄弟节点

find_class(self, class_name)
# 根据class属性值查找节点元素

get_element_by_id(self, rel)
# 根据id属性值查找节点元素

set(self, key, value=None)
# 设置节点元素的属性

text_content(self)
# 返回其后代节点与其自身的全部text内容

lxml.html

2.2 从字符串中解析HTML代码

解析html字符串，使用'lxml.etree.HTML'进行解析。

# 使用 lxml 的 etree 库
from lxml import etree 

text = '''

    
         first item
         second item
         third item
         fourth item
         fifth item # 注意，此处缺少一个  闭合标签
     
 
'''

#利用etree.HTML，将字符串解析为HTML文档
htmlElementTree = etree.HTML(text) 

# 按字符串序列化HTML文档
result = etree.tostring(htmlElementTree,encoding='utf-8') .decode('utf-8'))

print(result)

View Code

输出结果如下：

<html><body>
<div>
    <ul>
         <li class="item-0"><a href="link1.html">first itema>li>
         <li class="item-1"><a href="link2.html">second itema>li>
         <li class="item-inactive"><a href="link3.html">third itema>li>
         <li class="item-1"><a href="link4.html">fourth itema>li>
         <li class="item-0"><a href="link5.html">fifth itema>li>
ul>
 div>
body>html>

可以看到。lxml会自动修改HTML代码。例子中不仅补全了li标签，还添加了body，html标签。

2.3 从文件中解析html代码

除了直接使用字符串进行解析，lxml还支持从文件中读取内容。我们新建一个hello.html文件：


<div>
    <ul>
         <li class="item-0"><a href="link1.html">first itema>li>
         <li class="item-1"><a href="link2.html">second itema>li>
         <li class="item-inactive"><a href="link3.html"><span class="bold">third itemspan>a>li>
         <li class="item-1"><a href="link4.html">fourth itema>li>
         <li class="item-0"><a href="link5.html">fifth itema>li>
     ul>
 div>

解析html文件，使用lxml.etree.parse()进行解析，这个函数默认使用XMLparser解析器，所以如果遇到一些不规范的HTML代码就会解析错误，此时需要自己创建HTMLparser解析器。示例代码如下：

from lxml import etree
# 读取外部文件 hello.html
parser = etree.HTMLParser()#指定解析器HTMLParser,解析时会根据文件修复HTML文件中缺失的信息
htmlElementTree = etree.parse('hello.html',parser = parser) 
result = etree.tostring(htmlElementTree,encoding = 'utf-8',pretty_print=True).decode('utf-8')
print(result)

输出结果和之前是相同的。

2.4 Xpath与lxml结合

#-*-coding = utf-8 -*-
from lxml import etree
import requests
#爬取豆瓣电影热映电影信息
headers = {
    "User-Agent":'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
}

response = requests.request(method='get',url='https://movie.douban.com',headers=headers)
text = response.text
parser = etree.HTMLParser()
html = etree.fromstring(text,parser=parser)
ul = html.xpath('//ul[@class="ui-slide-content"]')[0]
li_list = ul.xpath('./li')
move_list = []
for li in li_list:
    if li.xpath('./@data-title')!= []:
        data_title = li.xpath('./@data-title')
        data_release = li.xpath('./@date-release')
        data_rate = li.xpath('./@data-rate')
        data_duration = li.xpath('./@data-duration')
        data_director = li.xpath('./@data-director')
        data_actors = li.xpath('./@data-actors')
        data_postor = li.xpath('.//img/@src')
        data = {
            'data_title':data_title,
            'data_release':data_release,
            'data_rate':data_rate,
            'data_duration':data_duration,
            'data_director':data_director,
            'data_actors':data_actors,
            'data_postor':data_postor
        }
        move_list.append(data)


print(move_list)

爬取豆瓣电影热映电影信息

以下面的xml练习lxml结合Xpath语法查找感兴趣的元素

xml version="1.0" encoding="utf8"?>
<bookstore>
    <book>
        <title lang="eng">Harry Pottertitle>
        <price>29.99price>
    book>
    <book>
        <title lang="eng">Learning XMLtitle>
        <price>39.95price>
    book>
bookstore>

xml="""

    
        Harry Potter
        29.99
    
    
        Learning XML
        39.95
    

"""
#1）得到根节点
root = etree.fromstring(xml.encode('utf-8'))#
#2）选取所有book子元素，注意xpath()方法返回的是列表
booklist=root.xpath('book')#[, ]
#3）选取根节点bookstore
bookstore = root.xpath('/bookstore')#[]
#4）选取所有book子元素的title子元素
titlelist1 = root.xpath('/bookstore/book/title')#[, ]
titlelist2 = root.xpath('book/title')#[, ]
#5）以根节点为始祖，选取其后代的title元素
titlelist = root.xpath('//title')#[, ]
#6)以book子元素为始祖，选取后代中的price元素
pricelist = root.xpath('book//price')#[, ]
#7)以根节点为始祖，选取其后代的lang属性值
langValue = root.xpath('//@lang')#['eng', 'eng']
#8）获取bookstore的第一个book子元素
book = root.xpath('/bookstore/book[1]')#[]
#9)获取bookstore的最后一个book子元素
book_last = root.xpath('/bookstore/book[last()]')#[]
#10)选取bookstore的倒数第二个book子元素
print(root.xpath('/bookstore/book[last()-1]'))#[]
#11)选取bookstore的前两个book子元素
print(root.xpath('/bookstore/book[position()<3]'))#[, ]
#12)以根节点为始祖，选取其后代中含有lang属性的title元素
print(root.xpath('//title[@lang]'))#[, ]
#13)以根节点为始祖，选取其后代中含有lang属性并且其值为eng的title元素
print(root.xpath("//title[@lang='eng']"))#[, ]
#14)选取bookstore子元素book，条件是book的price子元素要大于35
print(root.xpath('/bookstore/book[price>35.00]'))#[]
#15)选取bookstore子元素book的子元素title,条件是book的price子元素要大于35
print(root.xpath('/bookstore/book[price>35.00]/title'))#[]
#16）选取bookstore的所有子元素
print(root.xpath('/bookstore/*'))#[, ]
#17)选取根节点的所有后代元素
print(root.xpath('//*'))#[, , , , , , ]
#18）选取根节点的所有具有属性的title元素
print(root.xpath('//title[@*]'))#[, ]
#19）选取当前节点下的所有节点。'\n'是文本节点
print(root.xpath('node()'))#['\n    ', , '\n    ', , '\n']
#20）选取根节点所有后代节点，包括元素、属性、文本
print(root.xpath('//node()'))#[, '\n    ', , '\n        ', , 'Harry Potter', '\n        ', , '29.99', '\n    ', '\n    ', , '\n        ', , 'Learning XML', '\n        ', , '39.95', '\n    ', '\n']
#21）选取所有book的title元素或者price元素
print(root.xpath('//book/title|//book/price'))#[, , , ]
#22）选取所有的title或者price元素
print(root.xpath('//title|//price'))#[, , , ]

xml_1="""

    
        Harry Potter
        29.99
        分部内容
            
                HarryPotter and the Philosopher's Stone
                    

                    1.大难不死的男孩
                    

                    2.悄悄消失的玻璃
                    

                    3.猫头鹰传书
                    

                    4.钥匙保管员
            
            HarryPotter and the Chamber of Secrets
            HarryPotter and the Prisoner of Azkaban
            HarryPotter and the Prisoner of Azkaban
        
    
    
        Learning XML
        39.95
    

"""

#23）获取所有price的文本内容
root = etree.fromstring(xml_1.encode('utf-8'),parser=etree.HTMLParser())
#way1
print(root.xpath('//price/text()'))#['29.99', '39.95'],
print(type(root.xpath('//price/text()')[0]))#返回的是一个
#way2
price_list = root.xpath('//price')
for price in price_list:
    print(price.xpath("string(.)"))#如果匹配的标签是多个，直接用xpath的string(.)方法会报错，如:root.xpath('//price/string(.)')
    #29.99
    #39.95
print(root.xpath('//content/part1/text()'))#["\n                HarryPotter and the Philosopher's Stone\n                    ", '\n                    1.大难不死的男孩\n                    ', '\n                    2.悄悄消失的玻璃\n                    ', '\n                    3.猫头鹰传书\n                    ', '\n                    4.钥匙保管员\n            ']
#24）注意
#1.使用'xpath'语法，应该使用'Element.xpath'方法来选择感兴趣的元素.’xpath函数返回来的永远是一个列表。
#2.获取某个标签的属性:href = html.xpath('//a/@href')
#3.获取某个标签的文本，通过xpath中的'text()'函数，root.xpath('//price/text()')

Xpath练习

#-*-coding = utf-8 -*-
from lxml import etree
import requests

BASE_DOMAIN = 'https://www.dytt8.net'
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
}

def get_detail_urls(url):
    response = requests.request(method='get',url=url,headers=headers)
    html=response.text
    parser = etree.HTMLParser()
    root = etree.fromstring(html,parser=parser)
    movies_url_list = root.xpath('//table[@class="tbspan"]//a/@href')
    #movies_urls = list(map(lambda url:BASE_DOMAIN + url,movies_url_list))
    movies_urls = list(map(lambda url:''.join((BASE_DOMAIN,url)),movies_url_list))
    return movies_urls

def parse_detail_page(url):
    movie = {}
    response = requests.request(method='get',url=url,headers=headers)
    html = response.content.decode('gbk')
    parser = etree.HTMLParser()
    root = etree.fromstring(html, parser=parser)
    title = root.xpath('//h1/font[@color="#07519a"]/text()')[0]
    movie['title'] = title
    zoom = root.xpath('//div[@id="Zoom"]')[0]
    infors = zoom.xpath('.//p/text()')
    for index,infor in enumerate(infors):
        if infor.startswith('◎年　　代'):
            movie['年代'] = infor.replace('◎年　　代','').strip()
        elif infor.startswith('◎产　　地'):
            movie['产地'] = infor.replace('◎产　　地','').strip()
        elif infor.startswith('◎类　　别'):
            movie['类别'] = infor.replace('◎类　　别', '').strip()
        elif infor.startswith('◎语　　言'):
            movie['语言'] = infor.replace('◎语　　言', '').strip()
        elif infor.startswith('◎字　　幕'):
            movie['字幕'] = infor.replace('◎字　　幕', '').strip()
        elif infor.startswith('◎豆瓣评分'):
            movie['豆瓣评分'] = infor.replace('◎豆瓣评分', '').strip()
        elif infor.startswith('◎片　　长'):
            movie['片长'] = infor.replace('◎片　　长', '').strip()
        elif infor.startswith('◎导　　演'):
            movie['导演'] = infor.replace('◎导　　演', '').strip()
        elif infor.startswith('◎主　　演'):
            movie['主演'] = []
            movie['主演'].append(infor.replace('◎主　　演', '').strip())
            for infor in infors[index+1:len(infors)]:
                if infor.startswith('◎'):
                    break
                movie['主演'].append(infor.strip())
        elif infor.startswith('◎简　　介'):
            profile = infor.replace('◎简　　介', '').strip()
            for infor in infors[index+1:len(infors)]:
                profile = profile + infor.strip()
            movie['简介'] = profile
        movie['下载地址'] = root.xpath('//td[@bgcolor = "#fdfddf"]/a/@href')[0]
    return movie

def spider():
    #url = 'https://www.dytt8.net/html/gndy/dyzz/list_23_1.html'
    base_url = 'https://www.dytt8.net/html/gndy/dyzz/list_23_{}.html'
    movies = []
    for i in range(1,2):
        url = base_url.format(i)
        movies_urls = get_detail_urls(url)
        for detail_url in movies_urls:
            movie = parse_detail_page(detail_url)
            movies.append(movie)
    return movies
if __name__ == '__main__':
    movies = spider()
    print(movies)

爬取电影天堂电影信息

>>>>>待续

转载于:https://www.cnblogs.com/wuxunyan/p/10563705.html

freemarker模板学习笔记 tryCbest freemarker java spring boot
文章目录freemarker常用指令if-elseif-else指令switch,case,default,break指令list,else,items,sep,break指令指令语法指令指令指令指令include指令基础知识带*的pathimport指令assign指令自定义指令参数嵌套内容宏和循环变量freemarker内置函数字符串内置函数数字内置函数哈希表内置函数序列内置函数循环变量内置函
MySQL添加用户、为用户分配权限 ChenyuMa
添加用户1.允许本地访问的用户（127.0.0.1）createuserzhrt@localhostidentifiedby'123456';2.允许外网IP访问的用户createuser'zhrt'@'%'identifiedby'123456';用户分配权限授予用户在本地服务器对该数据库的全部权限grantallprivilegesondbname.*tozhrt@localhostident
【年末感悟】2018少儿英语培训行业的现状：一半是火，一半是冰趣瓣
根据《2018年中小学生减负调查报告》显示，2018年家长对孩子的各方面能力培养有明显诉求，其中家长最关注“逻辑思维能力”（57.2%）、“与人沟通、合作的能力”（43.7%）与“解决实际问题的能力”（43.6%），而传统家长看重的应试技巧和能力培养占比只有13%，这说明家长对于孩子学习能力的关注变得更加科学与多元。从2017年开始，不断听到多家少儿英语培训行业获得融资，仅在2018年上半年，融资
数据库，数据仓库，数据湖，湖仓一体到底是什么区别大数据小尘数据库数据仓库 spark
昨天结束的一场面试，面试官问了下我对数据仓库和数据湖的理解，根据之前的理解我说了下数据湖是数据仓库某些时候的缓存，然后面试官反问说我确定这个用词对吗？没理解到位，所以去了解之后再整体输出下我自己的理解。先说下上面的答案，数据仓库和数据湖可以是互相独立存在的，不存在谁是谁的缓存一说，但是如果涉及到湖仓一体的时候，数仓是结构化的数据访问入口，而底层的数据湖是可以作为数仓的底层的存储支持。要了解各个概念
MYSQL数据库的实验总结_MySQL数据库基础总结 weixin_39993623 MYSQL数据库的实验总结
来源:实验楼链接:https://www.shiyanlou.com/courses/9一、开发准备#打开MySQL服务sudoservicemysqlstart#使用root用户登录，密码为空mysql-uroot二、查看数据库SHOWDATABASES三、新建数据库首先，我们创建一个数据库，给它一个名字，比如mysql_shiyan，以后的几次实验也是对mysql_shiyan这个数据库进行操
pythoncharm安装配置_pycharm的安装与配置 weixin_39887183 pythoncharm安装配置
1.pycharm的下载step1：打开下载网址：http://www.jetbrains.com/pycharm/step2：点击下载按钮。step3：专业版是收费的，社区版是免费的，并且社区版新手使用足够，我们这里下载社区版。2.pycharm的安装pycharm的安装依然是傻瓜化安装，基本一路next,这里只强调一点安装时切记勾选64-bit那么一个选项3.pycharm的入门基础配置ste
我感觉就是这样七_星_草
我听说乌尔都语里有一个词，如果你从右往左写，它的意思是爱慕；如果你从左往右写，它的意思则是厌恶。生活是什么样的它说了算，但你想要过成什么样，是你自己说了算。新生活正徐徐展开，以此皎洁的明月，共祝我们拥有长久的欢喜与美梦
2024年免费的微信红包封面序列号最新列表（库洛米，原神系列）全网优惠分享君
随着科技的不断发展，微信红包已经成为我们日常生活中不可或缺的一部分。每到节日、生日等特殊时刻，发送微信红包已经成为了人们表达祝福和关怀的一种常见方式。而微信红包封面作为红包的外观展示，更是增添了不少趣味性和个性化。在2024年，有一系列备受欢迎的微信红包封面序列号，其中包括库洛米和原神系列，这些序列号将为大家带来全新的红包体验。关注微信公众号：小云线报圈领取封面序列号，几千款可选（含库洛米，原神系
生命的意义从与他人连接开始佳简诚锄
随着生活节奏的加快，我们每个人身上的“巨婴”现象越来越明显，即现在的很多脾气秉性都是从儿时延续下来的，只不过成人之后我们的自控意识强了，表现得不如小时候那么直接罢了。那么是不是小时候的性格延续就注定了我们今后的命运呢？我们还能否克服潜意识的影响而“破茧重生”呢？一起来看本期分享书籍《自卑与超越》，作者阿尔弗雷德-阿德勒。个体心理学认为人类的所有问题都可归于职业、交际和两性这三个问题。每个人对于这三
ECS了解 subwuti
entity：实体，就是一堆组件的集合，实体就是一堆组件的列表component:组件，仅有数据结构，没有功能函数，比如坐标组件，物理组件等等system:系统，仅有功能函数，没有数据结构，不可以有状态实体中会把一堆组件聚合在一起。在实体与组件这一层，只是数据的初始化与存储问题，还没有任何的游戏逻辑相关的内容，所以的逻辑都在更新中处理，即在一个系统中，对所以实体的所有组件，按则一定的规则，获得数据
zookeeper原理篇-Zookeeper的数据存储与恢复原理逐梦々少年
前言经过前面的一些文章的学习和了解，我们对Zookeeper有了一定的理解，但是无论是节点持久化，还是启动流程中的数据恢复等，我们都没有详细的去了解内部的数据存储和恢复的机制，本篇文章就开始学习Zookeeper的数据存储相关。内存存储zookeeper刚开始的时候，我们就已经知道其结构就像一个内存数据库一样，按照树的结构，能把节点的路径、节点数据以及ACL和节点的数据存储，其核心就是依靠Data
【数据获取与读取】JSON & CSV yogurt=b 数据分析 json python
数据分析流程获取数据-读取数据-评估数据-清洗数据-整理数据-分析数据-可视化数据公开数据集飞桨（百度旗下深度学习平台）数据集：https:/aistudio.baidu.com/aistudio/datasetoverview天池（阿里云旗下开发者竞赛平台）:https:/tianchiaiyun.com/dataset/和鲸社区（数据科学开源社区）数据集：htps://www.heywhale
PySpark 静听山水 Spark spark
PySpark的本质确实是Python的一个接口层，它允许你使用Python语言来编写ApacheSpark应用程序。通过这个接口，你可以利用Spark强大的分布式计算能力，同时享受Python的易用性和灵活性。1、PySpark的工作原理PySpark的工作原理可以概括为以下几个步骤：编写Python代码：开发者使用Python语法来编写Spark应用程序。这些程序通常涉及创建RDDs（弹性分布
水利万物而不争白话道德经第八章自有日月
“上善若水，水利万物而不争”到了第八章，原文用“水”做喻，形象的展现出“后其身”的外在表现：“居善地，心善渊，与善仁，言善信，政善治，事善能，动善时。”处在应在的低洼之地，心境深邃宁静、亲善如水柔顺，信而周流不息，自正而不偏，循环而绵延，时令顺随得势，七个方面，从身心的定位（居善地，心善渊），到与外界的交往（与善仁、言善信），最后到事物的应变（政善治，事善能，动善时）。完完整整、全全面面、明明白白
中间件的学习理解总结 DCDDDDcccc 中间件学习
目录一、定义与作用二、主要类型数据库中间件远程过程调用中间件面向消息的中间件事务处理中间件三、特点与优势独立性高效性可扩展性可靠性四、应用场景企业应用集成分布式系统电子商务移动应用开发五、数据库中间件功能细节：应用优势：六、远程过程调用中间件功能细节：应用优势：七、面向消息的中间件功能细节：应用优势：八、事务处理中间件功能细节：应用优势：数据库中间件MyCat：ShardingSphere：远程过
丰富自己，胜过取悦别人依旧如初z
有人说：“不要追一匹马，你用追马的时间去种草，待春暖花开时，能吸引一批骏马来供你选择。不要刻意巴结一个人，用暂时没有朋友的时间去提升自己的能力，待时机成熟时，便有一批朋友与你同行。”在我们的世界里，大部分时间都是与亲人、朋友、同学和同事相处，你不可能让所有人都成为知己，更不可能让每个人都认可自己。无谓地迎合别人，不知不觉，真正的自己就这样在取悦别人的过程中，被慢慢地磨蚀掉，而失去了自我。我们总是欣
linux中vim常用命令大全详细讲解程序员小羊！软件测试-Linux环境搭建 linux vim excel
大家好，我是程序员小羊！前言：Vim是Linux系统中功能强大的文本编辑器，广泛用于代码编辑和配置文件的编辑。以下是Vim常用命令的详细讲解，包括基本操作、文本编辑、查找与替换、窗口操作等。一、Vim基本操作1.启动和退出Vim启动Vim:vimfilename如果filename不存在，Vim会新建一个文件。退出Vim:正常退出并保存：:wq或ZZ仅退出（不保存）：:q强制退出（不保存）：:q!
typdef 与 struct 经常发呆的柴犬 c语言
typdeftypdef是C语言中很重要的关键字，他可以把已有的数据类型定义改成新名字的关键字，提高代码可读性。1、为基本数据类型定义名称typdefintnumber；numbera=1；2、为指针类型定义新名称typdefint*IntPrt；IntPrta=NULL；3、声明结构体typdefstruct{charname[15];intage;intnum;}FirstClass;//Fi
{MC}唐缘出山与303相遇恋蝶0126
今天又得出山了，唐缘边整理衣着边抱怨，这时，抹茶走进来，“汤圆，你的外衣。”“谢了。”唐缘走到门口，抹茶锁上门，唐缘手中形成了一个能量球，一扔，能量球变成了好几个巨大的雪怪和数万个小雪球，小雪球飞起来，四处巡逻。雪怪则是在门口和花园周围站着。唐缘走在街道上，抹茶在身旁四处看看有什么需要买的。今天唐缘穿的不是古装，而是一件白色蓝条纹连衣衫，下面穿着白色牛仔裤，穿着蓝色帆布鞋。头发扎成单马尾，插了个玉
DDT数据驱动测试爱学习的执念软件测试面试面试软件测试面试软件测试软件测试面试
简单介绍DDT（DateDriverTest），所谓数据驱动测试，简单来说就是由数据的改变从而驱动自动化测试的执行，最终引起测试结果的改变。通过使用数据驱动测试的方法，可以在需要验证多组数据测试场景中，使用外部数据源实现对输入输出与期望值的参数化，避免在测试中使用硬编码的数据，也就是测试数据和用例脚本代码分离。DDT它其实就是一个装饰器，它会根据你传递进来的数据来决定要生成几个测试用例。使用的意义
2021-06-08 2018心如止水
张雲芳焦点解决网络课程学习坚持分享第785天20210608本周第1次（约练总285）焦点解决短期心理治疗是一个入门易，精进难的学派，需要学习者多年的学习、练习、反思与坚持。学习焦点不能一步登天，更不能一蹴而就，她需要循序渐进的学习，才能慢慢形成焦点的思维模式。
联合唯一索引其中一个为Null，多条同样的数据为什么不会冲突 Amagi. 数据库开发语言
在数据库中，联合唯一索引（CompositeUniqueIndex）是由两个或多个列组合而成的主键，用于唯一标识表中的每一行。当一个联合唯一索引的某个字段为NULL时，涉及到的关键问题在于，NULL值的唯一性是不同于其他值的。1.NULL的语义在SQL中，NULL被认为是“未知”的而非简单的空值。在大多数数据库管理系统（DBMS）中，NULL值的比较结果是“未知”，并且两个NULL被认为是不同的。
MyBatis如何实现分页思静语 #Mybatis mybatis
文章目录MyBatis分页方式对比使用数据库厂商提供的分页查询语句通过自定义SQL实现分页逻辑1.使用RowBounds实现分页2.使用PageHelper实现分页数组分页使用MyBatis-Plus进行分页MyBatis物理分页和逻辑分页MyBatis手写一个拦截器分页在MyBatis中实现分页通常有两种方式：使用数据库厂商提供的分页查询语句（如MySQL的LIMIT）或者通过自定义SQL来实现
像素流送技术，潜力巨大还是功能不足？ DolitD 3d ue4 交互云计算
像素流送技术作为UE引擎自带的一款扩展性模块，尽管这项技术拥有一定的潜力，但与市场上成熟的云推流产品相比，它在配套功能方面仍显薄弱。都有哪些具体表现呢？一、维护和更新成本高像素流送云推流需要开发团队在研发阶段投入大量的人力进行维护，以解决不断出现的各种问题。此外像素流送插件作为UE引擎的官方组件，在使用中随着平台的更新而更新，需要大量的维护和更新，这部分成本也是比较高的。二、平台管理功能的缺失成熟
无需高配置怎么获得超流畅的VR体验？ DolitD 交互 3d vr 科技虚拟现实
传统VR眼镜在使用中存在一些显著不足，而实时渲染技术又是如何解决的？接下来与大家共同探讨遇到的问题以及实时渲染在VR眼镜中的实际应用。1、高配置要求目前主流VR一体机的眼镜需要较高配置才能运行普通VR内容，且受限于VR眼镜的算力限制，无法运行大型的VR内容。2、空间和时间限制部分非VR一体机的设备，算力来自于PC设备，则需要使用线缆连接，用户的活动范围和自由度受限，这对于教学和体验来说是一个明显的
感恩日记D2 RINJaime
感恩沙雅与玮玲成为我的镜子，让我更多的照见内心的感受，特别是玮玲，给她输出了很多内容，同时自己也输入了很多，感受到彼此的心醉，孤独，不被接纳，不够好的感觉。她如同同一个我一样在海的那一端生活着，感恩遇上你也照见了我感恩先生的沉默用他的方式来包容我的一切，他给不了我答案，是来告诉我要往内求，而不是找他要，他给不了的东西是他所未拥有的，一切的发生都在促成我的成长。让我知道没有任何人比我重要，我的和平世
Java-实现双向环形链表 Bro_cat 数据结构与算法链表数据结构 java 双向环形链表
双向链表是一种常用的数据结构，其特点是每个节点不仅包含数据，还持有指向前一个节点和后一个节点的指针。与普通双向链表不同的是，它的哨兵节点的prev指向最后一个元素，而最后一个元素的next指向哨兵。具体双向普通链表可以参考我的上篇文章，这里是传送门。什么是双向环形链表？双向环形链表不仅支持双向遍历，还形成一个闭合环，即最后一个节点的next指针指向链表的头部，第一个节点的prev指针指向链表的尾部
各种编程语言的优缺点无聊的一个人啊 golang 开发语言后端 vue.js python
当谈论编程语言时，我们进入了一个充满激情和争议的领域。每种编程语言都有其独特的优点和局限性，适用于不同的场景。让我们简要评价一些主流编程语言，探讨它们的优缺点和应用领域。来来来,老铁们,男人女人都需要的技术活拿去不谢:远程调试,发布网站到公网演示,远程内网服务,游戏联机推荐链接Python优点：简单易学：Python的语法简单明了，易于理解和掌握。开源：免费使用，自由修改和分发源代码，促进了Pyt
忆君与小女子，望君此生勿忘冰冰的美年达呢
我有时候在想有没有意义，想不出个答案，第一眼就决定了此生要不是你就不值得了，可人生已经有过你了，值得了吧，我的十八年，你不觉得遗憾，有人会后悔错过了我一个十八年，跟我说我的人生有多少个十八年啊，是啊，你陪我从十七岁到十八岁，小女子知足了，纵使有千万个不甘心，从你我决定毁画的时候，就不可能再有一天拼好了，拼好也不会完整了。至此，小女子才得以说愿君幸福平安，此生喜乐。愿君勿忘曾雨时，融入雨时的我们。无
Windows系统上更换pip源的详细指南 2402_85758349 windows pip
Python的包管理工具pip允许用户从Python包索引(PyPI)下载和安装第三方库。然而，默认的PyPI源有时可能因为网络问题或地理位置导致访问速度较慢。更换为更快的源可以显著提高下载和安装Python包的速度。本文将详细介绍如何在Windows系统上更换pip的源。1.理解pip源的重要性更换pip源是优化Python开发环境的重要步骤之一。一个快速且稳定的源可以提高包管理的效率，尤其是在
java Illegal overloaded getter method with ambiguous type for propert的解决 zwllxs java jdk
好久不来iteye,今天又来看看，哈哈,今天碰到在编码时，反射中会抛出 Illegal overloaded getter method with ambiguous type for propert这么个东东，从字面意思看，是反射在获取getter时迷惑了，然后回想起java在boolean值在生成getter时，分别有is和getter，也许我们的反射对象中就有is开头的方法迷惑了jdk，
IT人应当知道的10个行业小内幕 beijingjava 工作互联网
10. 虽然IT业的薪酬比其他很多行业要好，但有公司因此视你为其“佣人”。　　尽管IT人士的薪水没有互联网泡沫之前要好，但和其他行业人士比较，IT人的薪资还算好点。在接下的几十年中，科技在商业和社会发展中所占分量会一直增加，所以我们完全有理由相信，IT专业人才的需求量也不会减少。　　然而，正因为IT人士的薪水普遍较高，所以有些公司认为给了你这么多钱，就把你看成是公司的“佣人”，拥有你的支配
java 实现自定义链表 CrazyMizzz java 数据结构
1.链表结构链表是链式的结构 2.链表的组成链表是由头节点，中间节点和尾节点组成节点是由两个部分组成： 1.数据域 2.引用域 3.链表的实现 &nbs
web项目发布到服务器后图片过一会儿消失麦田的设计者 struts2 上传图片永久保存
作为一名学习了android和j2ee的程序员，我们必须要意识到，客服端和服务器端的交互是很有必要的，比如你用eclipse写了一个web工程，并且发布到了服务器（tomcat）上，这时你在webapps目录下看到了你发布的web工程，你可以打开电脑的浏览器输入http://localhost:8080/工程/路径访问里面的资源。但是，有时你会突然的发现之前用struts2上传的图片
CodeIgniter框架Cart类 name 不能设置中文的解决方法 IT独行者 CodeIgniter Cart 框架　
今天试用了一下CodeIgniter的Cart类时遇到了个小问题，发现当name的值为中文时，就写入不了session。在这里特别提醒一下。在CI手册里也有说明，如下： $data = array( 'id' => 'sku_123ABC', 'qty' => 1, '
linux回收站 _wy_ linux 回收站
今天一不小心在ubuntu下把一个文件移动到了回收站，我并不想删，手误了。我急忙到Nautilus下的回收站中准备恢复它，但是里面居然什么都没有。后来我发现这是由于我删文件的地方不在HOME所在的分区，而是在另一个独立的Linux分区下，这是我专门用于开发的分区。而我删除的东东在分区根目录下的.Trash-1000/file目录下，相关的删除信息（删除时间和文件所在
jquery回到页面顶端知了ing html jquery css
html代码： <h1 id="anchor">页面标题</h1> <div id="container">页面内容</div> <p><a href="#anchor" class="topLink">回到顶端</a><
B树、B-树、B+树、B*树矮蛋蛋 B树
原文地址： http://www.cnblogs.com/oldhorse/archive/2009/11/16/1604009.html B树即二叉搜索树： 1.所有非叶子结点至多拥有两个儿子（Left和Right）； &nb
数据库连接池 alafqq 数据库连接池
http://www.cnblogs.com/xdp-gacl/p/4002804.html @Anthor:孤傲苍狼数据库连接池用MySQLv5版本的数据库驱动没有问题，使用MySQLv6和Oracle的数据库驱动时候报如下错误： java.lang.ClassCastException: $Proxy0 cannot be cast to java.sql.Connec
java泛型百合不是茶 java泛型
泛型在Java SE 1.5之前，没有泛型的情况的下，通过对类型Object的引用来实现参数的“任意化”，任意化的缺点就是要实行强制转换，这种强制转换可能会带来不安全的隐患泛型的特点：消除强制转换确保类型安全向后兼容简单泛型的定义：泛型：就是在类中将其模糊化，在创建对象的时候再具体定义 class fan
javascript闭包[两个小测试例子] bijian1013 JavaScript JavaScript
一.程序一 <script> var name = "The Window"; var Object_a = { 　　name : "My Object", 　　getNameFunc : function(){ var that = this; 　　　　return function(){ 　　　　
探索JUnit4扩展：假设机制（Assumption） bijian1013 java Assumption JUnit 单元测试
一.假设机制（Assumption）概述理想情况下，写测试用例的开发人员可以明确的知道所有导致他们所写的测试用例不通过的地方，但是有的时候，这些导致测试用例不通过的地方并不是很容易的被发现，可能隐藏得很深，从而导致开发人员在写测试用例时很难预测到这些因素，而且往往这些因素并不是开发人员当初设计测试用例时真正目的，
【Gson四】范型POJO的反序列化 bit1129 POJO
在下面这个例子中，POJO(Data类)是一个范型类，在Tests中，指定范型类为PieceData，POJO初始化完成后，通过 String str = new Gson().toJson(data); 得到范型化的POJO序列化得到的JSON串，然后将这个JSON串反序列化为POJO import com.google.gson.Gson; import java.
【Spark八十五】Spark Streaming分析结果落地到MySQL bit1129 Stream
几点总结： 1. DStream.foreachRDD是一个Output Operation，类似于RDD的action，会触发Job的提交。DStream.foreachRDD是数据落地很常用的方法 2. 获取MySQL Connection的操作应该放在foreachRDD的参数（是一个RDD[T]=>Unit的函数类型)，这样，当foreachRDD方法在每个Worker上执行时，
NGINX + LUA实现复杂的控制 ronin47 nginx lua
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-递归判断数组是否升序 bylijinnan java
public class IsAccendListRecursive { /*递归判断数组是否升序 * if a Integer array is ascending,return true * use recursion */ public static void main(String[] args){ IsAccendListRecursiv
Netty源码学习-DefaultChannelPipeline2 bylijinnan java netty
Netty3的API http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/ChannelPipeline.html 里面提到ChannelPipeline的一个“pitfall”：如果ChannelPipeline只有一个handler（假设为handlerA）且希望用另一handler（假设为handlerB）来
Java工具之JPS chinrui java
JPS使用熟悉Linux的朋友们都知道，Linux下有一个常用的命令叫做ps（Process Status)，是用来查看Linux环境下进程信息的。同样的，在Java Virtual Machine里面也提供了类似的工具供广大Java开发人员使用，它就是jps（Java Process Status)，它可以用来
window.print分页打印 ctrain window
function init() { var tt = document.getElementById("tt"); var childNodes = tt.childNodes[0].childNodes; var level = 0; for (var i = 0; i < childNodes.length; i++) {
安装hadoop时执行jps命令Error occurred during initialization of VM daizj jdk hadoop jps
在安装hadoop时，执行JPS出现下面错误 [slave16][email protected]:/tmp/hsperfdata_hdfs# jps Error occurred during initialization of VM java.lang.Error: Properties init: Could not determine current working
PHP开发大型项目的一点经验 dcj3sjt126com PHP 重构
一、变量最好是把所有的变量存储在一个数组中，这样在程序的开发中可以带来很多的方便，特别是当程序很大的时候。变量的命名就当适合自己的习惯，不管是用拼音还是英语，至少应当有一定的意义，以便适合记忆。变量的命名尽量规范化，不要与PHP中的关键字相冲突。二、函数 PHP自带了很多函数，这给我们程序的编写带来了很多的方便。当然，在大型程序中我们往往自己要定义许多个函数，几十
android笔记之--向网络发送GET/POST请求参数 dcj3sjt126com android
使用GET方法发送请求 private static boolean sendGETRequest (String path, Map<String, String> params) throws Exception{ //发送地http://192.168.100.91:8080/videoServi
linux复习笔记之bash shell (3) 通配符 eksliang linux 通配符 linux通配符
转载请出自出处： http://eksliang.iteye.com/blog/2104387 在bash的操作环境中有一个非常有用的功能，那就是通配符。下面列出一些常用的通配符，如下表所示符号意义 * 万用字符，代表0个到无穷个任意字符 ? 万用字符，代表一定有一个任意字符 [] 代表一定有一个在中括号内的字符。例如：[abcd]代表一定有一个字符，可能是a、b、c
Android关于短信加密 gqdy365 android
关于Android短信加密功能，我初步了解的如下（只在Android应用层试验）： 1、因为Android有短信收发接口，可以调用接口完成短信收发；发送过程：APP（基于短信应用修改）接受用户输入号码、内容——>APP对短信内容加密——>调用短信发送方法Sm
asp.net在网站根目录下创建文件夹 hvt .net C#hovertree asp.net Web Forms
假设要在asp.net网站的根目录下建立文件夹hovertree,C#代码如下： string m_keleyiFolderName = Server.MapPath("/hovertree"); if (Directory.Exists(m_keleyiFolderName)) { //文件夹已经存在 return; } else { try { D
一个合格的程序员应该读过哪些书 justjavac 程序员书籍
编者按：2008年8月4日，StackOverflow 网友 Bert F 发帖提问：哪本最具影响力的书，是每个程序员都应该读的？ “如果能时光倒流，回到过去，作为一个开发人员，你可以告诉自己在职业生涯初期应该读一本，你会选择哪本书呢？我希望这个书单列表内容丰富，可以涵盖很多东西。” 很多程序员响应，他们在推荐时也写下自己的评语。以前就有国内网友介绍这个程序员书单，不过都是推荐数
单实例实践跑龙套_az 单例
1、内部类 public class Singleton { private static class SingletonHolder { public static Singleton singleton = new Singleton(); } public Singleton getRes
PO VO BEAN 理解 q137681467 VO DTO po
PO：全称是 persistant object持久对象最形象的理解就是一个PO就是数据库中的一条记录。好处是可以把一条记录作为一个对象处理，可以方便的转为其它对象。 BO：全称是 business object:业务对象主要作用是把业务逻辑封装为一个对象。这个对
战胜惰性，暗自努力金笛子努力
偶然看到一句很贴近生活的话：“别人都在你看不到的地方暗自努力，在你看得到的地方，他们也和你一样显得吊儿郎当，和你一样会抱怨，而只有你自己相信这些都是真的，最后也只有你一人继续不思进取。”很多句子总在不经意中就会戳中一部分人的软肋，我想我们每个人的周围总是有那么些表现得“吊儿郎当”的存在，是否你就真的相信他们如此不思进取，而开始放松了对自己的要求随波逐流呢？我有个朋友是搞技术的，平时嘻嘻哈哈，以
NDK/JNI二维数组多维数组传递 wenzongliang 二维数组 jni NDK
多维数组和对象数组一样处理，例如二维数组里的每个元素还是一个数组用jArray表示，直到数组变为一维的，且里面元素为基本类型，去获得一维数组指针。给大家提供个例子。已经测试通过。 Java_cn_wzl_FiveChessView_checkWin( JNIEnv* env,jobject thiz,jobjectArray qizidata) { jint i,j; int s