尹煜

【RPA开发】lxml 库之 etree 使用详解

通过 requests.get 方法获得 html 源代码后，可以通过 etree 进行解析，进而从源代码中提取关键信息。etree 同 Beautiful Soup 一样均可以解析 xml 和 html，两者不同之处在于：etree主要通过 xpath 进行定位，而 Beautiful Soup 主要通过 css 进行定位。

目录

1 etree 介绍

2 创建 XML/HTML 树

2.1 etree.Element()

2.2 lxml.builder

3 xpath 解析 html/xml

3.1 html/xml 接入

3.2 xpath 表达式定位

① xpath结合属性定位

② xpath文本定位及获取

③ xpath层级定位

④ xpath索引定位

⑤ xpath模糊匹配

4 总结

1 etree 介绍

lxml 库是 Python 中一个强大的 XML 处理库，简单来说，etree 模块提供了一个简单而灵活的API来解析和操作 XML/HTML 文档。

官方网址：The lxml.etree Tutorial
安装：pip install lxml

etree 不仅可以创建 xml/html 树，还可以解析及处理 XML/HTML 数据（lxml.html 也是基于 lxml.etree 的），因为它可以方便地从 XML/HTML 文档中选取某些节点。总之，etree 是 lxml 库中最常用的模块之一，可以极大地简化 XML/HTML 数据的处理过程。

2 创建 XML/HTML 树

etree 及 lxml 可以生成 XML/HTML 树，不过对于实际开发来说用处不大（一般直接对抓取到的html/xml 数据进行处理），不想了解的同学可以直接跳过。

2.1 etree.Element()

这是 etree 比较重要的一个方法，用于创建 xml 树（默认是xml，至于 html 后边有介绍）。

语法：

root = etree.Element("根元素标签名") #创建 xml 树的根元素
child = etree.SubElement(root,"子元素标签名") # 添加子元素，root为根元素
root = etree.Element("根元素标签名",属性名='属性值') #添加根元素+属性，子元素一样
root.text = "文本值" #给元素添加文本值
属性值 = root("属性名") #获取元素的属性值，root为上个根元素，子元素一样

from lxml import etree

root = etree.Element("root")
print(root.tag) # 元素标签名
#root
print(etree.tostring(root)) 
#b''

child2 = etree.SubElement(root,"child2")# 添加子元素
child3 = etree.SubElement(root,"child3")# 添加子元素
print(etree.tostring(root,  pretty_print=True))# 查看现在的XML元素
#b'\n  \n  \n\n'

root = etree.Element("root",hello='good morning') #添加元素及+属性
root.text = "yinyu" #给元素添加文本值
print(etree.tostring(root))
# b'yinyu'
print(root.get('hello')) #获取属性值
# good morning

2.2 lxml.builder

E-factory 提供了一种简单紧凑的语法来直接生成 XML 和 HTML，虽然对于我们来说用处不大，不过还觉得挺厉害的。

# E-factory：提供一种简单紧凑的语法来生成XML和HTML
from lxml import etree
from lxml.builder import E

#用于给元素添加 class属性
def CLASS(*args): # class 是python中的保留字，无法直接当做属性名
    return {"class":' '.join(args)}

html = page = (
  E.html(
    E.head(
      E.title("This is a sample document")
    ),
    E.body(
      E.h1("Hello!", CLASS("title")),
      E.p("This is a paragraph with ", E.b("bold"), " text in it!"),
      E.p("This is another paragraph, with a", "\n      ",
        E.a("link", href="http://www.python.org"), "."),
      E.p("Here are some reserved characters: ."),
      etree.XML("And finally an embedded XHTML fragment."),
    )
  )
)

print(str(etree.tostring(page, pretty_print=True),encoding='utf-8'))

控制台输出：

This is a sample document

Hello!

This is a paragraph with bold text in it!

This is another paragraph, with a
link.

Here are some reserved characters: <spam&egg>.

And finally an embedded XHTML fragment.

页面效果：

3 xpath 解析 html/xml

通过 xpath 解析处理 html/xml 可就是最重要的部分了，实际开发中的 90% 部分都是基于此，主要用来从 html/xml 代码中提取关键信息。

3.1 html/xml 接入

第一步就是使用 etree 连接 html/xml 代码/文件。

语法：

root = etree.XML(xml代码) #xml 接入
root = etree.HTML(html代码) #html 接入

root = etree.XML("data")
print(root.tag)
#root
print(etree.tostring(root))
#b'data'

root = etree.HTML("data")
print(root.tag)
#html
print(etree.tostring(root))
#b'data
'

3.2 xpath 表达式定位

xpath 使用路径表达式在 HTML/XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。下面列出了最有用的路径表达式：

① xpath结合属性定位

如图，确定该标题元素可以使用下边的方式。

语法：

html.xpath(".//标签名[@属性='属性值']") #注意，这返回的是列表！！
[] ：表示要根据属性找元素
@ ：后边跟属性的key,表示要通过哪个属性定位

from lxml import etree

ht = """
  
    This is a sample document
  
  
    Hello!
    This is a paragraph with bold text in it!
    This is another paragraph, with a
      link.
    Here are some reserved characters: <spam&egg>.
    And finally an embedded XHTML fragment.
  
"""

html = etree.HTML(ht)

title = html.xpath(".//h1[@class='title']")[0] #取列表中的第一个元素
print(etree.tostring(title))
#b'Hello!\n    '
print(title.get('class'))
# title

② xpath文本定位及获取

依然是定位该红框内的元素，这次使用文本定位。

语法：

ele = html.xpath(".//标签名[text()='文本值']")[0]
text1 = ele.text #获取元素文本1，ele为定位后的元素
text2 = html.xpath("string(.//标签名[@属性='属性值'])") #获取元素文本2，返回文本
text3 = html.xpath(".//标签名[@属性='属性值']/text()") #获取元素文本3，返回文本列表

title1 = html.xpath(".//h1[text()='Hello!']")[0] #取列表中的第一个元素
text1 = title1.text
print(text1)
#Hello!
text2 = html.xpath("string(.//h1[@class='title'])")
print(text2)
#Hello!
text3 = html.xpath(".//h1[@class='title']/text()") #返回列表
print(text3)
#['Hello!']

③ xpath层级定位

我重新生成了下 html，给 a 标签元素的父元素加了个 class，效果如下

实际开发时，若需求元素没有像 id、name、class 等基本属性，那么我们就需要借助相邻的元素定位，首先我们可以定位到相邻元素，然后通过层级关系来定位最终元素。

语法：

html.xpath(".//父元素标签名[@父元素属性='父元素属性值']/子元素标签名") #由上到下的层级关系，目标是子元素
html.xpath(".//子元素标签名[@子元素属性='子元素属性值']/parent::父元素标签名") #父子元素定位，目标是父元素
html.xpath(".//元素标签名[@元素属性='元素属性值']//preceding-sibling::哥哥元素标签名") #哥哥元素定位，目标是哥哥元素
html.xpath(".//元素标签名[@元素属性='元素属性值']//following-sibling::弟弟元素标签名") #弟弟元素定位，目标是弟弟元素

from lxml import etree

ht = """
  
    This is a sample document
  
  
    Hello!
    This is a paragraph with bold text in it!
    This is another paragraph, with a
      link.
    Here are some reserved characters: <spam&egg>.
    And finally an embedded XHTML fragment.
  
"""

html = etree.HTML(ht)


ele1 = html.xpath(".//p[@class='para']/a")[0] #由上到下的层级关系
print(etree.tostring(ele1))
#b'link.'

ele2 = html.xpath(".//a[@href='http://www.python.org']/parent::p")[0]#父子元素定位
print(etree.tostring(ele2))
#b'This is another paragraph, with a\n      link.\n    '

ele3 = html.xpath(".//p[@class='para']//preceding-sibling::p")[0] #哥哥元素定位
print(etree.tostring(ele3))
#b'This is a paragraph with bold text in it!\n    '

ele4 = html.xpath(".//p[@class='para']//following-sibling::p") #弟弟元素定位
for ele in ele4:
    print(etree.tostring(ele))
    #b'Here are some reserved characters: <spam&egg>.\n    '
    #b'And finally an embedded XHTML fragment.
\n  '

④ xpath索引定位

etree 结合 xpath 进行索引定位主要有两种方式，主要是因为 html.xpath() 返回的是一个列表。

语法1：

html.xpath("xpath表达式")[0] #获取列表中第一个元素
html.xpath("xpath表达式")[-1] #获取列表中最后一个元素
html.xpath("xpath表达式")[-2] #获取列表中倒数第二个元素

ele1 = html.xpath(".//body/p")[0]
print(etree.tostring(ele1))
#b'This is a paragraph with bold text in it!\n    '

ele1 = html.xpath(".//body/p")[-1]
print(etree.tostring(ele1))
#b'And finally an embedded XHTML fragment.
\n  '

语法2：

html.xpath("xpath表达式[1]")[0] #获取第一个元素
html.xpath("xpath表达式[last()]")[0] #获取最后一个元素
html.xpath("xpath表达式[last()-1]")[0] #获取倒数第二个元素

注：与python列表索引的概念不同，xpath 的标签索引是从1开始；python列表的索引是从0开始。

ele1 = html.xpath(".//body/p[1]")[0]
print(etree.tostring(ele1))
#b'This is a paragraph with bold text in it!\n    '

ele2 = html.xpath(".//body/p[last()]")[0]
print(etree.tostring(ele2))
#b'And finally an embedded XHTML fragment.\n  '

ele3 = html.xpath(".//body/p[last()-1]")[0]
print(etree.tostring(ele3))
#b'Here are some reserved characters: <spam&egg>.
\n    '

⑤ xpath模糊匹配

有时会遇到属性值过长的情况，此时我们可以通过模糊匹配来处理，只需要属性值的部分内容即可。

语法：

html.xpath(".//标签名[start-with(@属性, '属性值开头')]") #匹配开头
html.xpath(".//标签名[ends-with(@属性, '属性值结尾')]") #匹配结尾
html.xpath(".//标签名[contains(text(), '部分文本')]") #包含部分文本

注：ends-with方法是 xpath 2.0 的语法，而 etree 只支持 xpth 1.0，所以可能不会成功。

ele1 = html.xpath(".//p[starts-with(@class,'par')]")[0] #匹配开头
print(etree.tostring(ele1))
#b'This is another paragraph, with a\n      link.\n    '

ele2 = html.xpath(".//p[ends-with(@class, 'ara')]")[0] #匹配结尾
print(etree.tostring(ele2))

ele3 = html.xpath(".//p[contains(text(),'is a paragraph with')]")[0] #包含“is a paragraph with”
print(etree.tostring(ele3))
#b'This is a paragraph with bold text in it!
\n    '

4 总结

基于此，etree 在实际开发中的应用介绍完毕，如果大家想要实践下，可以参考Beautiful Soup 使用详解的第四部分，将 Beautiful Soup 换成 etree 即可。

你可能感兴趣的:(#,RPA,rpa)

26、A* Algorithm: An In-depth Guide to Optimal Pathfinding tree C#搜索设计模式精解 A*Algorithm Pathfinding Heuristic Function
A*Algorithm:AnIn-depthGuidetoOptimalPathfinding1.IntroductiontoA*AlgorithmA(pronounced“Astar”)isapowerfulalgorithmwidelyusedforpathfindingandgraphtraversal.Itcombinestheadvantagesofbothuniform-costsea
设计模式之Visitor Pattern（访问者模式）尤物程序猿设计模式访问者模式
VisitorPattern是一种行为设计模式，它允许你在不修改已有类结构的情况下定义新的操作。该模式将算法与其操作的对象结构分离，是解决"双重分发"问题的经典方案。核心概念主要角色Visitor（访问者接口）：声明了一组访问方法，每个方法对应一个具体元素类，ConcreteVisitor（具体访问者）：实现访问者接口中声明的操作Element（元素接口）：定义accept方法，接收访问者对象Co
设计模式 | 建造者模式
建造者模式（BuilderPattern）是创建型设计模式中的精妙之作，它将复杂对象的构造过程与其表示方式分离，使得同样的构建过程可以创建不同的表示。本文将深入探索建造者模式的核心思想、实现技巧以及在C++中的高效实践。为什么需要建造者模式？在软件开发中，我们经常遇到需要创建复杂对象的场景：包含多个组成部分的对象需要分步骤构造的对象构造过程需要不同表示的对象需要避免"重叠构造函数"（telesco
代码随想录| 图论01 ●深度优先搜索知识 ●797所有可能的路径 ●广度优先搜索知识 ●200 岛屿数量dfs ●200 岛屿数量bfs weixin_51674457 代码随想录一刷深度优先图论宽度优先
#dfs知识看了一下感觉和二叉树，和回溯，没啥区别。#797所有可能路径普通回溯，很快path.push_back(0);要提前写不要忘了。另外path不要担心不需要归零，他每次回溯call完了会退回去的vector>res;vectorpath;voiddfs(intnode,intn,vector>&graph){if(node==n-1){res.push_back(path);return
OpenCV边缘填充方式详解慕婉0307 opencv基础 opencv 计算机视觉人工智能
一、边缘填充概述在图像处理中，边缘填充（BorderPadding）是一项基础而重要的技术，特别是在进行卷积操作（如滤波、边缘检测等）时，处理图像边缘像素需要用到周围的像素值。由于图像边缘的像素没有完整的邻域，因此需要通过某种方式对图像边界进行扩展。边缘填充的主要应用场景包括：图像滤波（如高斯滤波、中值滤波等）卷积神经网络（CNN）中的卷积层形态学操作（如膨胀、腐蚀）图像特征提取二、OpenCV中
装饰器模式沐知全栈开发开发语言
装饰器模式引言装饰器模式（DecoratorPattern）是一种结构型设计模式，它允许向现有对象添加新的功能，同时又不改变其接口。这种模式在软件设计中被广泛使用，特别是在Java、Python等编程语言中。本文将详细介绍装饰器模式的概念、原理、实现方法以及在实际开发中的应用。概念与原理概念装饰器模式是一种设计模式，它允许在运行时动态地给一个对象添加一些额外的职责。这种模式通过创建一个包装类（装饰
SciPy稀疏特征值问题：ARPACK库应用详解
SciPy稀疏特征值问题：ARPACK库应用详解关键词：SciPy、稀疏特征值问题、ARPACK库、特征值求解、数值计算摘要：本文主要深入探讨了在SciPy中处理稀疏特征值问题时ARPACK库的应用。我们将从基础概念入手，用通俗易懂的方式解释什么是稀疏特征值问题以及ARPACK库的作用。接着详细介绍核心算法原理和具体操作步骤，通过Python代码示例进行展示。还会结合实际应用场景，探讨其未来发展趋
Java设计模式之结构型模式（装饰器模式）介绍与说明爪哇手记 #Java知识点 java 设计模式装饰器模式开发语言笔记
一、装饰器模式定义装饰器模式（DecoratorPattern）是一种结构型设计模式，允许在不改变对象结构的情况下，通过动态添加附加功能来扩展对象的行为。其核心思想是通过组合替代继承，在运行时为对象“包裹”一层新功能，类似于“套娃”或“包装礼物”的过程。关键特点：动态扩展：功能在运行时动态添加，无需修改原有类。透明性：装饰后的对象与原始对象具有相同的接口，客户端无需感知差异。遵循开闭原则：对扩展开
No module named ‘dbgpt_ext.rag.retriever.doc_tree‘ 爱吃土豆的马铃薯ㅤㅤㅤㅤㅤㅤㅤㅤㅤ DB-GPT
dbgpt_ext模块导入失败解决方案1.检查dbgpt_ext是否存在于项目中(推荐)首先确认项目中是否存在dbgpt_ext目录：#进入项目根目录cdD:\soft\DB-GPT#查找dbgpt_ext目录dirpackages|findstrdbgpt_ext#Windowslspackages|grepdbgpt_ext#Linux/macOS如果不存在，可能需要从源码安装或更新子模块：#
开源项目控制面板（control-panel）安装与使用指南秋然仪Stranger
开源项目控制面板（control-panel）安装与使用指南control-panelembeddablepanelofinputsforparametersetting项目地址:https://gitcode.com/gh_mirrors/co/control-panel一、项目目录结构及介绍control-panel/├──README.md-项目说明文件，提供快速入门信息。├──LICENS
CommunityToolkit.Mvvm 重构激光直写控制软件 CoderIsArt 激光微加工 C#重构 c#
使用CommunityToolkit.Mvvm库重新设计激光直写控制软件的框架，展示现代MVVM实现方式。一、项目结构LaserDirectWriteApp/├──Models/│├──LaserParameters.cs│├──MotionParameters.cs│└──SystemStatus.cs├──ViewModels/│├──MainViewModel.cs│├──LaserCont
编程简单了，部署依旧很难｜Karpathy 演讲的 5 点解读阿里云云原生阿里云云原生
作者：望宸看完了AndrejKarpathy在YCAIStartupSchool近40分钟的分享，有点意犹未尽。推荐观看完整视频（链接贴在文末阅读原文），没有任何模型架构，也没有任何算法细节，适合AI领域的所有从业者，包括AgentBuilder和AgentUser。我们将一些核心观点进行了延展，并尝试用更易于理解的方式进行表达。Software软件1.0是“人写代码，机器照做”。我们用if/el
Python设计模式-建造者模式 Aerkui python高级 python 设计模式建造者模式
1.建造者模式概述建造者模式(BuilderPattern)是一种创建型设计模式，它允许你分步骤创建复杂对象。该模式的主要目的是将一个复杂对象的构建与它的表示分离，使得同样的构建过程可以创建不同的表示。1.1模式特点分离构建过程：将复杂对象的构建过程分解为多个简单步骤灵活创建：相同的构建过程可以创建不同的产品表示控制构建顺序：可以精确控制对象的创建过程1.2适用场景当创建复杂对象的算法应该独立于该
docker基础(七)之docker start/stop/kill/restart/pause/unpause
文章目录概述命令速查dockerstart语法OPTIONS详解：dockerstop语法OPTIONS详解：dockerrestart语法OPTIONS详解：示例和说明dockerkill语法OPTIONS说明：dockerpause语法示例dockerunpause语法示例dockerstop和dockerkill区别dockerpause和dockerunpause的使用场景概述用于学习和记
【Langchain + Robocorp：如何高效构建和运行自动化操作服务器】 cgsayuclv langchain 自动化服务器 python
引言在这个日益自动化的时代，结合Langchain和Robocorp的功能，可以为开发者提供强大的工具来构建和运行自动化操作服务器。本篇文章旨在为您介绍如何使用LangchainCLI和RobocorpActionServer来构建高效的自动化解决方案。主要内容安装LangchainCLI要开始使用Langchain和Robocorp，首先需要安装LangchainCLI。执行以下命令以确保您使用
vllm docker容器部署大语言模型 zhangxiangweide docker 语言模型容器 vllm
什么是VLLM？VLLM（VeryLargeLanguageModelInference）是一个高性能、优化显存管理的大模型推理引擎。它的目标是最大化推理吞吐量，并降低显存消耗，让大语言模型（LLMs）在单卡或多GPU服务器上运行得更高效。VLLM的核心优势：高吞吐量：支持批量推理，减少token生成延迟，高效KV缓存管理：优化GPU显存，支持更长的上下文多GPU支持：TensorParallel
100个Pandas练习题：从入门到精通的实战指南陆骊咪Durwin
100个Pandas练习题：从入门到精通的实战指南100-pandas-puzzles100datapuzzlesforpandas,rangingfromshortandsimpletosupertricky(60%complete)项目地址:https://gitcode.com/gh_mirrors/10/100-pandas-puzzles前言Pandas作为Python数据分析的核心库，
字符串内置函数 Uzizi Python
一、实验字符串二、函数1、find函数2、rfind函数3、index函数rindex函数4、count函数5、replace6、join函数7、split函数8、title函数9、capitalize10、startwithendwith11、lowerupper12、lstriprstrip13、strip14、partionrpartion函数15、isalpha函数16、isdigit函数
leetcode：78. 子集呆呆的小鳄鱼 #回溯 #深搜 leetcode 算法数据结构
学习要点首先就是要先明白什么是回溯：leetcode：46.全排列-CSDN博客。在此基础上我们可以细化一下这种题的解题思路。题目链接78.子集-力扣（LeetCode）题目描述解法：回溯classSolution{public:vector>ret;vectorpath;voiddfs(vector&nums,intpos){for(inti=pos;i>subsets(vector&nums)
C# 窗体位置 Show和ShowDialog weixin_33768481 c#
CenterParent窗体在其父窗体中居中。CenterScreen窗体在当前显示窗口中居中，其尺寸在窗体大小中指定。Manual窗体的位置由Location属性确定。WindowsDefaultBounds窗体定位在Windows默认位置，其边界也由Windows默认决定。WindowsDefaultLocation窗体定位在Windows默认位置，其尺寸在窗体大小中指定。也就是说,Cente
MySQL基础函数篇小胖同学~ mysql
1.字符串函数CONCAT---字符串拼接LOWER---全部转成小写UPPER---全部转成大写LPAD---左拼接RPAD---右拼接TRIM---去除首尾空格SUBSTRING---截取selectconcat("hello","word");selectlower("HEllo");---helloselectupper("hello");---HELLOselectlpad("word"
【C++】装饰模式 OpenC++ 设计模式 c++设计模式装饰模式
目录一、模式核心概念与结构二、C++实现示例：咖啡与配料的装饰三、装饰模式与继承的对比四、应用场景五、C++实现注意事项六、装饰模式与其他设计模式的关系七、实战案例：网络请求处理链八、优缺点分析九、C++标准库中的装饰模式应用如果这篇文章对你有所帮助，渴望获得你的一个点赞！装饰模式（DecoratorPattern）是一种【结构型】设计模式，它允许向一个现有的对象添加新的功能，同时又不改变其结构。
OpenCV 图像仿射变换之旋转程序员小马兰 OpenCV opencv 人工智能计算机视觉图像处理
一、知识点1、voidwarpAffine(InputArraysrc,OutputArraydst,InputArrayM,Sizedsize,intflags=INTER_LINEAR,intborderMode=BORDER_CONSTANT,constScalar&borderValue=Scalar());(1)、对图像应用仿射变换(旋转、平移、缩放)。(2)、参数说明:src:输入图像
三分钟实现文件批量重命名自动化
在日常工作和学习中，文件管理是一项不可或缺的任务。当面对大量文件需要重命名时，手动操作不仅耗时耗力，还容易出现错误。例如，在整理项目资料、照片图库时，手动重命名文件可能需要花费数小时甚至更长时间。不过，借助影刀RPA（机器人流程自动化）技术，这一繁琐过程可以在短短三分钟内实现自动化，大幅提升工作效率。接下来，我们就一起看看如何使用影刀RPA按照指定规则对大量文件进行批量重命名。一、影刀RPA简介影
软件工程领域RPA的持续集成与持续交付软件工程实践软件工程最佳实践 AI软件构建大数据系统架构软件工程 rpa ci/cd ai
软件工程领域RPA的持续集成与持续交付关键词：软件工程、RPA、持续集成、持续交付、自动化测试摘要：本文聚焦于软件工程领域中RPA（机器人流程自动化）的持续集成与持续交付。首先介绍了RPA、持续集成和持续交付的背景知识，明确文章的目的、范围、预期读者和文档结构。接着阐述了相关核心概念及联系，详细讲解了RPA持续集成与持续交付的核心算法原理、具体操作步骤，通过数学模型和公式进行深入分析，并举例说明。
Python 算法及其架构设计详解 conkl python知识 python 算法开发语言
文章目录一、算法基础与架构概述二、经典算法实现与分析1.排序算法-快速排序2.搜索算法-二分查找3.图算法-广度优先搜索(BFS)三、算法架构设计模式1.策略模式(StrategyPattern)2.管道-过滤器模式(Pipeline-FilterPattern)四、Python算法优化与性能分析1.使用内置数据结构和库2.性能分析工具3.算法优化示例五、总结在计算机科学领域，算法是解决特定问题的
Servlet+JSP 实现分页查询的功能她的坏机器人 JavaWeb java jsp servlet 分页查询 javaweb
创建一个存储分页信息的工具类packagecom.robot.utils;importjava.util.List;/***存储页面的相关信息。**@author张宝旭*/publicclassPageBean{/***当前页面*/privateintcurPage;/***每页大小*/privateintpageSize;/***总页数*/privateintpageCount;/***总数据量
Django Restframework实现自定义分页 _PeppaPig Django django 数据库 python
1.自定义分页器首先继承drf框架的分页器，以下是PageNumberPagination的源码。defget_paginated_response(self,data):returnResponse({'count':self.page.paginator.count,'next':self.get_next_link(),'previous':self.get_previous_link(),
【python实用小脚本-109】人脸识别系统实战：从基础实现到性能优化 Kyln.Wu Python python 开发语言 opencv
一、代码功能解析1.核心功能概述本代码实现了一个基于face_recognition库的人脸识别系统，能够从已知人脸库中识别出输入图像中的人物身份，主要功能包括：已知人脸特征编码存储未知图像人脸检测与编码人脸特征匹配与身份识别结果可视化展示2.关键模块深度解析(1)已知人脸编码模块defget_encoded_faces():encoded={}fordirpath,dnames,fnamesin
centos8 编译 openstall 后，无法使用一堆系统命令 Terry_Tsang ssl
背景oscentos8编译了openssl-1.1.1g编译参数./config--prefix=/usr/local/openssl-Wl,-rpath,/usr/local/openssl/libcentos7正常，centos8上出现下面问题（同样sshd服务也不再正常）#rpm-qarpm:symbollookuperror:/lib64/librpmio.so.8:undefinedsy
关于旗正规则引擎中的MD5加密问题何必如此 jsp MD5 规则加密
一般情况下，为了防止个人隐私的泄露，我们都会对用户登录密码进行加密，使数据库相应字段保存的是加密后的字符串，而非原始密码。在旗正规则引擎中，通过外部调用，可以实现MD5的加密，具体步骤如下： 1.在对象库中选择外部调用，选择“com.flagleader.util.MD5”，在子选项中选择“com.flagleader.util.MD5.getMD5ofStr({arg1})”； 2.在规
【Spark101】Scala Promise/Future在Spark中的应用 bit1129 Promise
Promise和Future是Scala用于异步调用并实现结果汇集的并发原语，Scala的Future同JUC里面的Future接口含义相同，Promise理解起来就有些绕。等有时间了再仔细的研究下Promise和Future的语义以及应用场景，具体参见Scala在线文档：http://docs.scala-lang.org/sips/completed/futures-promises.html
spark sql 访问hive数据的配置详解 daizj spark sql hive thriftserver
spark sql 能够通过thriftserver 访问hive数据，默认spark编译的版本是不支持访问hive，因为hive依赖比较多，因此打的包中不包含hive和thriftserver,因此需要自己下载源码进行编译，将hive，thriftserver打包进去才能够访问，详细配置步骤如下： 1、下载源码 2、下载Maven,并配置此配置简单，就略过
HTTP 协议通信周凡杨 java httpclient http 通信
一：简介 HTTPCLIENT，通过JAVA基于HTTP协议进行点与点间的通信！二：代码举例测试类： import java
java unix时间戳转换 g21121 java
把java时间戳转换成unix时间戳： Timestamp appointTime=Timestamp.valueOf(new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date())) SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd hh:m
web报表工具FineReport常用函数的用法总结（报表函数）老A不折腾 web报表 finereport 总结
说明：本次总结中，凡是以tableName或viewName作为参数因子的。函数在调用的时候均按照先从私有数据源中查找，然后再从公有数据源中查找的顺序。 CLASS CLASS(object):返回object对象的所属的类。 CNMONEY CNMONEY(number,unit)返回人民币大写。 number:需要转换的数值型的数。 unit:单位，
java jni调用c++ 代码报错墙头上一根草 java C++jni
# # A fatal error has been detected by the Java Runtime Environment: # # EXCEPTION_ACCESS_VIOLATION (0xc0000005) at pc=0x00000000777c3290, pid=5632, tid=6656 # # JRE version: Java(TM) SE Ru
Spring中事件处理de小技巧 aijuans spring Spring 教程 Spring 实例 Spring 入门 Spring3
Spring 中提供一些Aware相关de接口，BeanFactoryAware、 ApplicationContextAware、ResourceLoaderAware、ServletContextAware等等，其中最常用到de匙ApplicationContextAware.实现ApplicationContextAwaredeBean，在Bean被初始后，将会被注入 Applicati
linux shell ls脚本样例 annan211 linux linux ls源码 linux 源码
#! /bin/sh - #查找输入文件的路径 #在查找路径下寻找一个或多个原始文件或文件模式 # 查找路径由特定的环境变量所定义 #标准输出所产生的结果通常是查找路径下找到的每个文件的第一个实体的完整路径 # 或是filename :not found 的标准错误输出。 #如果文件没有找到则退出码为0 #否则即为找不到的文件个数 #语法 pathfind [--
List,Set,Map遍历方式 (收集的资源,值得看一下) 百合不是茶 list set Map遍历方式
List特点：元素有放入顺序，元素可重复 Map特点：元素按键值对存储，无放入顺序 Set特点：元素无放入顺序，元素不可重复（注意：元素虽然无放入顺序，但是元素在set中的位置是有该元素的HashCode决定的，其位置其实是固定的） List接口有三个实现类：LinkedList，ArrayList，Vector LinkedList：底层基于链表实现，链表内存是散乱的，每一个元素存储本身
解决SimpleDateFormat的线程不安全问题的方法 bijian1013 java thread 线程安全
在Java项目中，我们通常会自己写一个DateUtil类，处理日期和字符串的转换，如下所示： public class DateUtil01 { private SimpleDateFormat dateformat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss"); public void format(Date d
http请求测试实例（采用fastjson解析） bijian1013 http 测试
在实际开发中，我们经常会去做http请求的开发，下面则是如何请求的单元测试小实例，仅供参考。 import java.util.HashMap; import java.util.Map; import org.apache.commons.httpclient.HttpClient; import
【RPC框架Hessian三】Hessian 异常处理 bit1129 hessian
RPC异常处理概述 RPC异常处理指是，当客户端调用远端的服务，如果服务执行过程中发生异常，这个异常能否序列到客户端？如果服务在执行过程中可能发生异常，那么在服务接口的声明中，就该声明该接口可能抛出的异常。在Hessian中，服务器端发生异常，可以将异常信息从服务器端序列化到客户端，因为Exception本身是实现了Serializable的
【日志分析】日志分析工具 bit1129 日志分析
1. 网站日志实时分析工具 GoAccess http://www.vpsee.com/2014/02/a-real-time-web-log-analyzer-goaccess/ 2. 通过日志监控并收集 Java 应用程序性能数据(Perf4J) http://www.ibm.com/developerworks/cn/java/j-lo-logforperf/ 3.log.io 和
nginx优化加强战斗力及遇到的坑解决 ronin47 nginx 优化
　　　先说遇到个坑，第一个是负载问题，这个问题与架构有关，由于我设计架构多了两层，结果导致会话负载只转向一个。解决这样的问题思路有两个：一是改变负载策略，二是更改架构设计。　　　由于采用动静分离部署，而nginx又设计了静态，结果客户端去读nginx静态，访问量上来，页面加载很慢。解决：二者留其一。最好是保留apache服务器。　　　来以下优化：　　　
java-50-输入两棵二叉树A和B，判断树B是不是A的子结构 bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/25411174201011445550396/ import ljn.help.*; public class HasSubtree { /**Q50. * 输入两棵二叉树A和B，判断树B是不是A的子结构。例如，下图中的两棵树A和B，由于A中有一部分子树的结构和B是一
mongoDB 备份与恢复开窍的石头 mongDB备份与恢复
Mongodb导出与导入 1: 导入/导出可以操作的是本地的mongodb服务器,也可以是远程的. 所以,都有如下通用选项: -h host 主机 --port port 端口 -u username 用户名 -p passwd 密码 2: mongoexport 导出json格式的文件
[网络与通讯]椭圆轨道计算的一些问题 comsci 网络
如果按照中国古代农历的历法，现在应该是某个季节的开始，但是由于农历历法是3000年前的天文观测数据，如果按照现在的天文学记录来进行修正的话，这个季节已经过去一段时间了。。。。。也就是说，还要再等3000年。才有机会了，太阳系的行星的椭圆轨道受到外来天体的干扰，轨道次序发生了变
软件专利如何申请 cuiyadll 软件专利申请
软件技术可以申请软件著作权以保护软件源代码，也可以申请发明专利以保护软件流程中的步骤执行方式。专利保护的是软件解决问题的思想，而软件著作权保护的是软件代码（即软件思想的表达形式）。例如，离线传送文件，那发明专利保护是如何实现离线传送文件。基于相同的软件思想，但实现离线传送的程序代码有千千万万种，每种代码都可以享有各自的软件著作权。申请一个软件发明专利的代理费大概需要5000-8000申请发明专利可
Android学习笔记 darrenzhu android
1.启动一个AVD 2.命令行运行adb shell可连接到AVD,这也就是命令行客户端 3.如何启动一个程序 am start -n package name/.activityName am start -n com.example.helloworld/.MainActivity 启动Android设置工具的命令如下所示： # am start -
apache虚拟机配置，本地多域名访问本地网站 dcj3sjt126com apache
现在假定你有两个目录，一个存在于 /htdocs/a，另一个存在于 /htdocs/b 。现在你想要在本地测试的时候访问 www.freeman.com 对应的目录是 /xampp/htdocs/freeman ,访问 www.duchengjiu.com 对应的目录是 /htdocs/duchengjiu。 1、首先修改C盘WINDOWS\system32\drivers\etc目录下的
yii2 restful web服务[速率限制] dcj3sjt126com PHP yii2
速率限制为防止滥用，你应该考虑增加速率限制到您的API。例如，您可以限制每个用户的API的使用是在10分钟内最多100次的API调用。如果一个用户同一个时间段内太多的请求被接收，将返回响应状态代码 429 (这意味着过多的请求)。要启用速率限制, [[yii\web\User::identityClass|user identity class]] 应该实现 [[yii\filter
Hadoop2.5.2安装——单机模式 eksliang hadoop hadoop单机部署
转载请出自出处：http://eksliang.iteye.com/blog/2185414 一、概述 Hadoop有三种模式单机模式、伪分布模式和完全分布模式，这里先简单介绍单机模式，默认情况下，Hadoop被配置成一个非分布式模式，独立运行JAVA进程，适合开始做调试工作。二、下载地址 Hadoop 网址http:
LoadMoreListView+SwipeRefreshLayout（分页下拉）基本结构 gundumw100 android
一切为了快速迭代 import java.util.ArrayList; import org.json.JSONObject; import android.animation.ObjectAnimator; import android.os.Bundle; import android.support.v4.widget.SwipeRefreshLayo
三道简单的前端HTML/CSS题目 ini html Web 前端 css 题目
使用CSS为多个网页进行相同风格的布局和外观设置时，为了方便对这些网页进行修改，最好使用（）。http://hovertree.com/shortanswer/bjae/7bd72acca3206862.htm 在HTML中加入<table style=”color:red; font-size:10pt”>，此为（）。http://hovertree.com/s
overrided方法编译错误 kane_xie override
问题描述：在实现类中的某一或某几个Override方法发生编译错误如下： Name clash: The method put(String) of type XXXServiceImpl has the same erasure as put(String) of type XXXService but does not override it 当去掉@Over
Java中使用代理IP获取网址内容（防IP被封，做数据爬虫） mcj8089 免费代理IP 代理IP 数据爬虫 JAVA设置代理IP 爬虫封IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ Java语言有两种方式使用代理IP访问网址并获取内容，方式一，设置System系统属性 // 设置代理IP System.getProper
Nodejs Express 报错之 listen EADDRINUSE qiaolevip 每天进步一点点学习永无止境 nodejs 纵观千象
当你启动 nodejs服务报错： >node app Express server listening on port 80 events.js:85 throw er; // Unhandled 'error' event ^ Error: listen EADDRINUSE at exports._errnoException (
C++中三种new的用法 _荆棘鸟_ C++new
转载自：http://news.ccidnet.com/art/32855/20100713/2114025_1.html 作者: mt 其一是new operator，也叫new表达式；其二是operator new，也叫new操作符。这两个英文名称起的也太绝了，很容易搞混，那就记中文名称吧。new表达式比较常见，也最常用，例如： string* ps = new string("
Ruby深入研究笔记1 wudixiaotie Ruby
module是可以定义private方法的 module MTest def aaa puts "aaa" private_method end private def private_method puts "this is private_method" end end

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他