python3解析库pyquery的深入讲解

前言

pyquery是一个类似jquery的python库，它实现能够在xml文档中进行jQuery查询，pyquery使用lxml解析器进行快速在xml和html文档上操作，它提供了和jQuery类似的语法来解析HTML文档，支持CSS选择器，使用非常方便

1、pyquery安装

pip方式安装：

$pip install pyquery

#它依赖cssselect和lxml包
pyquery==1.4.0
 - cssselect [required: >0.7.9, installed: 1.0.3] #CSS选择器并将它转换为XPath表达式
 - lxml [required: >=2.1, installed: 4.2.2] #处理xml和html解析库

验证安装：

In [1]: import pyquery

In [2]: pyquery.text
Out[2]:

2、pyquery对象初始化

pyquery首先需要传入HTML文本来初始化一个pyquery对象，它的初始化方式有多种，如直接传入字符串，传入URL或者传入文件名

（1）字符串初始化

from pyquery import PyQuery as pq

html='''
人生是一条没有尽头的路，不要留恋逝去的梦，把命运掌握在自己手中，让我们来掌握自己的命运，别让别人的干扰与诱惑，别让功名与利禄，来打翻我们这坛陈酿已久的命运之酒！

'''
doc=pq(html) #初始化并创建pyquery对象
print(type(doc))
print(doc('p').text())

#

人生是一条没有尽头的路，不要留恋逝去的梦，把命运掌握在自己手中，让我们来掌握自己的命运，别让别人的干扰与诱惑，别让功名与利禄，来打翻我们这坛陈酿已久的命运之酒！

（2）URL初始化

from pyquery import PyQuery as pq

doc=pq(url='https://www.cnblogs.com/zhangxinqi/p/9218395.html')
print(type(doc))
print(doc('title'))

#

python3解析库BeautifulSoup4 - Py.qi - 博客园

PyQuery能够从url加载一个html文档，之际上是默认情况下调用python的urllib库去请求响应，如果requests已安装的话它将使用requests来请求响应，那我们就可以使用request的请求参数来构造请求了，实际请求如下：

from pyquery import PyQuery as pq
import requests

doc=pq(requests.get(url='https://www.cnblogs.com/zhangxinqi/p/9218395.html').text)
print(type(doc))
print(doc('title'))

#输出同上一样

python3解析库BeautifulSoup4 - Py.qi - 博客园

（3）通过文件初始化

通过本地的HTML文件来构造PyQuery对象

from pyquery import PyQuery as pq

doc=pq(filename='demo.html',parser='html')
#doc=pq(open('demo.html','r',encoding='utf-8').read(),parser='html') #注意：在读取有中文的HTML文件时，请使用此方法，否则会报解码错误
print(type(doc))
print(doc('p'))

3、CSS选择器

在使用属性选择器中，使用属性选择特定的标签，标签和CSS标识必须引用为字符串，它会过滤筛选符合条件的节点打印输出，返回的是一个PyQuery类型对象

from pyquery import PyQuery as pq
import requests
html='''

 
  first item
  second item
  third item
  fourth item
  fifth item
 
 
'''
doc=pq(html,parser='html')
print(doc('#container .list .item-0 a'))
print(doc('.list .item-1'))

#
third itemfifth item
second item
  fourth item

4、查找节点

PyQuery使用查询函数来查询节点，同jQuery中的函数用法完全相同

(1)查找子节点和子孙节点

使用find()方法获取子孙节点，children()获取子节点，使用以上的HTML代码测试

from pyquery import PyQuery as pq
import requests

doc=pq(html,parser='html')
print('find:',doc.find('a'))
print('children:',doc('li').children('a'))

(2)获取父节点和祖先节点

parent()方法获取父节点，parents()获取祖先节点

doc(.list).parent()
doc(.list).parents()

(3)获取兄弟节点

siblings()方法用来获取兄弟节点，可以嵌套使用，传入CSS选择器即可继续匹配

doc('.list .item-0 .active').siblings('.active')

5、遍历

对于pyquery的选择结果可能是多个字节，也可能是单个节点，类型都是PyQuery类型，它没有返回列表等形式，对于当个节点我们可指直接打印输出或者直接转换成字符串，而对于多个节点的结果，我们需要遍历来获取所有节点可以使用items()方法，它会返回一个生成器，循环得到的每个节点类型依然是PyQuery类型，所以我们可以继续方法来选择节点或属性，内容等

lis=doc('li').items()
for i in lis:
 print(i('a')) #继续获取节点下的子节点

6、获取信息

attr()方法用来获取属性，如返回的结果有多个时可以调用items()方法来遍历获取

doc('.item-0.active a').attr('href') #多属性值中间不能有空格

text()方法用来获取文本内容，它只返回内部的文本信息不包括HTML文本内容，如果想返回包括HTML的文本内容可以使用html()方法，如果结果有多个，text()方法会方法所有节点的文本信息内容并将它们拼接用空格分开返回字符串内容，html()方法只会返回第一个节点的HTML文本，如果要获取所有就需要使用items()方法来遍历获取了

from pyquery import PyQuery as pq
html='''

 
   first item
   second item
   third item
   fourth item
   fifth item
  
 
'''
doc=pq(html,parser='html')
print('text:',doc('li').text()) #获取li节点下的所有文本信息
lis=doc('li').items()
for i in lis:
 print('html:',i.html()) #获取所有li节点下的HTML文本

#
text: first item second item third item fourth item fifth item
html: first item
html: second item
html: third item
html: fourth item
html: fifth item

7、节点操作

pyquery提供了一系列方法来对节点进行动态修改，如添加一个class，移除某个节点，修改某个属性的值

addClass()增加Class，removeClass()删除Class

attr()增加属性和值，text()增加文本内容，html()增加HTML文本，remove()移除

from pyquery import PyQuery as pq
import requests
html='''

 
   first item
   second item
   third item
   fourth item
   fifth item
  
 
'''
doc=pq(html,parser='html')
print(doc('#1'))
print(doc('#1').add_class('myclass')) #增加Class
print(doc('.item-1').remove_class('item-1')) #删除Class
print(doc('#1').attr('name','link')) #添加属性name=link
print(doc('#1').text('hello world')) #添加文本
print(doc('#1').html('changed item')) #添加HTML文本
print(doc('.item-2.active a').remove('span')) #删除节点

#
first item
   
first item
   
second item
   
first item
   
hello world
   
changed item

after()在节点后添加值

before()在节点之前插入值

append()将值添加到每个节点

contents()返回文本节点内容

empty()删除节点内容

remove_attr()删除属性

val()设置或获取属性值

另外还有很多节点操作方法，它们和jQuery的用法完全一致，详细请参考：http://pyquery.readthedocs.io/en/latest/api.html

8、伪类选择器

CSS选择器之所以强大，是因为它支持多种多样的伪类选择器，如：选择第一个节点，最后一个节点，奇偶数节点等。

#!/usr/bin/env python
#coding:utf-8
from pyquery import PyQuery as pq

html='''

 
   first item
   second item
   third item
   fourth item
   fifth item
  
   

'''
doc=pq(html,parser='html')
print('第一个li节点:',doc('li:first-child')) #第一个li节点
print('最后一个li节点:',doc('li:last_child')) #最后一个li节点
print('第二个li节点:',doc('li:nth-child(2)')) #第二个li节点
print('第三个之后的所有li节点:',doc('li:gt(2)')) #第三个之后的所有li节点
print('偶数的所有li节点:',doc('li:nth-child(2n)')) #偶数的所有li节点
print('包含文本内容的节点:',doc('li:contains(second)')) #包含文本内容的节点
print('索引第一个节点：',doc('li:eq(0)'))
print('奇数节点:',doc('li:even'))
print('偶数节点:',doc('li:odd'))

#
第一个li节点: first item
   
最后一个li节点: fifth item
  
第二个li节点: second item
   
第三个之后的所有li节点: fourth item
   fifth item
  
偶数的所有li节点: second item
   fourth item
   
包含文本内容的节点: second item
   
索引第一个节点： first item
   
奇数节点: first item
   third item
   fifth item
  
偶数节点: second item
   fourth item

更多伪类参考：http://pyquery.readthedocs.io/en/latest/pseudo_classes.html

更多css选择器参考：http://www.w3school.com.cn/cssref/css_selectors.asp

9、实例应用

抓取http://www.mzitu.com网站美女图片12万张用时28分钟，总大小9G，主要受网络带宽影响，下载数据有点慢

#!/usr/bin/env python
#coding:utf-8
import requests
from requests.exceptions import RequestException
from pyquery import PyQuery as pq
from PIL import Image
from PIL import ImageFile
from io import BytesIO
import time
from multiprocessing import Pool,freeze_support
ImageFile.LOAD_TRUNCATED_IMAGES = True

headers={
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36'
,'Referer':'http://www.mzitu.com'
}

img_headers={
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36'
,'Referer':'http://i.meizitu.net'
}
#保持会话请求
sesion=requests.Session()

#获取首页所有URL并返回列表
def get_url(url):
 list_url = []
 try:
  html=sesion.get(url,headers=headers).text
  doc=pq(html,parser='html')
  url_path=doc('#pins > li').children('a')
  for i in url_path.items():
   list_url.append(i.attr('href'))
 except RequestException as e:
  print('get_url_RequestException:',e)
 except Exception as e:
  print('get_url_Exception:',e)
 return list_url

#组合首页中每个地址的图片分页返回列表
def list_get_pages(list_url):
 list_url_fen=[]
 try:
  for i in list_url:
   doc_children = pq(sesion.get(i,headers=headers).text,parser='html')
   img_number = doc_children('body > div.main > div.content > div.pagenavi > a:nth-child(7) > span').text()
   number=int(img_number.strip())
   for j in range(1,number+1):
    list_url_fen.append(i+'/'+str(j))
 except ValueError as e:
  print('list_get_pages_ValueError:',e)
 except RequestException as e:
  print('list_get_pages_RequestException',e)
 except Exception as e:
  print('list_get_pages_Exception:',e)
 return list_url_fen

#获取image地址并下载图片
def get_image(url):
 im_path=''
 try:
  html=sesion.get(url, headers=headers).text
  doc=pq(html,parser='html')
  im_path=doc('.main-image a img').attr('src')
  image_names = ''.join(im_path.split('/')[-3:])
  image_path = 'D:\images\\' + image_names
  with open('img_url.txt','a') as f:
   f.write(im_path + '\n')
  r=requests.get(im_path,headers=img_headers)
  b=BytesIO(r.content)
  i=Image.open(b)
  i.save(image_path)
  b.close()
  i.close()
  #print('下载图片:{}成功！'.format(image_names))
 except RequestException as e:
  print('RequestException:',e)
 except OSError as e:
  print('OSError:',e)
 except Exception as e: #必须捕获所有异常，运行中有一些链接地址不符合抓取规律，需要捕获异常使程序正常运行
  print('Exception:',e)
 return im_path


#主调用函数
def main(item):
 url1='http://www.mzitu.com/page/{}'.format(item) #分页地址
 print('开始下载地址：{}'.format(url1))
 获取首页链接地址
 html=get_url(url1)
 #获取分页链接地址
 list_fenurl = list_get_pages(html)
 #根据分页链接地址获取图片并下载
 for i in list_fenurl:
  get_image(i)
 return len(list_fenurl) #统计下载数

if __name__ == '__main__':
 freeze_support() #windows下进程调用时必须添加
 pool=Pool() #创建进程池
 start=time.time()
 count=pool.map(main,[i for i in range(1,185)]) #多进程运行翻页主页
 print(sum(count),count) #获取总的下载数
 end=time.time()
 data=time.strftime('%M:%S',time.localtime(end-start)) #获取程序运行时间
 print('程序运行时间:{}分{}秒'.format(*data.split(':')))

#学习阶段，代码写得通用性很差，以后改进！
#运行结果
#会有几个报错都忽略了是获取文件名时的分割问题和在图片很少的情况下导致获取不到单分页图片的数目，先忽略以后有时间再改正
#Exception: 'NoneType' object has no attribute 'split'
#list_get_pages_ValueError: invalid literal for int() with base 10: '下一页»'

开始下载地址：http://www.mzitu.com/page/137
OSError: image file is truncated (22 bytes not processed)
开始下载地址：http://www.mzitu.com/page/138

程序运行时间:28分27秒

进程完成，退出码 0

pyquery相关链接：

GitHub：https://github.com/gawel/pyquery （本地下载）

PyPI：https://pypi.python.org/pypi/pyquery

官方文档：http://pyquery.readthedocs.io

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，如果有疑问大家可以留言交流，谢谢大家对脚本之家的支持。

[AWS] 跨账户S3存储桶的访问设置 futurismme-锦光环境配置 aws
s3存储通策略设置:{"Version":"2012-10-17","Statement":[{"Sid":"cross","Effect":"Allow","Principal":{"AWS":"arn:aws:iam::256454142732:root"},"Action":"s3:*","Resource":["arn:aws:s3:::iloveawscn","arn:aws:s3:::
探索未来，AI-WEBUI：让AI创作触手可及农爱宜
探索未来，AI-WEBUI：让AI创作触手可及ai_webuiAI-WEBUI:AuniversalwebinterfaceforAIcreation,一款好用的图像、音频、视频AI处理工具项目地址:https://gitcode.com/gh_mirrors/ai/ai_webui1、项目介绍AI-WEBUI是一个创新的开源项目，它提供了一个全面的Web界面，让你无需编程背景就能轻松进行AI创作
二分(C++) 数的范围三次方根你干码，哎哟算法 c++排序算法
二分通常指的是二分查找（BinarySearch），它是一种高效的查找算法，用于在有序数组中查找某一特定元素的位置。二分查找的思路是：每次取中间位置的元素与目标值进行比较。如果中间位置的元素正好等于目标值，则查找成功。如果中间位置的元素大于目标值，则在数组的左半部分继续查找。如果中间位置的元素小于目标值，则在数组的右半部分继续查找。重复上述过程，直到找到目标值或查找范围为空。一.数的范围题目给定一
数据结构之循环队列C语言实现（详细） ck8719 数据结构与算法队列数据结构算法 leetcode c#
队列的一些说明队列的定义队列，一种特殊的线性表特点：只允许在一端输入，在另一端输出。输入端称为队尾，输出端称为队头因此，队列，又称为先进先出表（FIFO），类似于生活中的排队，先来的排在前头，后来的排在后头，一个一个办理业务。队列有两种，一种叫做循环队列（顺序队列），另一种叫做链式队列。这一篇讲的是循环队列，链式队列在另外一篇文章中链式队列讲解与C++实现循环数组循环队列使用的是数组，但是这个数组
LLM - 大模型 ScallingLaws 的 CLM 和 MLM 中不同系数(PLM) 教程(2) ManonLegrand 大模型 (LLM)LLM ScalingLaws CLM MLM IsoFLOPs SymboLab
欢迎关注我的CSDN：https://spike.blog.csdn.net/本文地址：https://spike.blog.csdn.net/article/details/145188660免责声明：本文来源于个人知识与公开资料，仅用于学术交流，欢迎讨论，不支持转载。ScalingLaws(缩放法则)是大模型领域中，用于描述模型性能(Loss)与模型规模N、数据量D、计算资源C之间关系的经验规
oracle goldengate from mongodb to oracle的实时同步夹心饼2024 数据库运维案例分享 oracle mongodb 数据库
oraclegoldengatefrommongodbtooracle的实时同步近期因公司项目需要，需要将mongodb数据同步到oracle数据库，由于第一次接触到mongodb数据库同步到Oracle的项目，故没有主动获取数据，而且让对方工程师把mongodb数据同步到我方的mongodb数据库，为此新建了一个mongodb数据库。我方工程师把mongodb数据库同步到doris数据仓库。考虑
k8s_CKA考试_学习笔记 bq_o_pd kubernetes linux 容器笔记
k3s默认无法使用docker，导入docker的镜像加载到k3s中[root@worker1php]#k3scrictlimagesIMAGETAGIMAGEIDSIZEdocker.io/library/busyboxlatest9211bbaa0dbd62.23MBdocker.io/library/nginx1.7.935d28df486f6139.9MBdocker.io/library
华为OD机试 - 数大雁（Java & Python& JS & C++ & C ）算法大师最新华为OD机试 c++java 华为OD 华为od机试 python 华为od javascript
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述一群大雁往南飞，给定一个字符串记录地面上的游客听到的大雁叫声，请给出叫声最少由几只大雁发出。具体的:1.大雁发出的完整叫声为”quack“，因为有多只大雁同一时间嘎嘎作响，所以字符串中可能会混合多个”quack”。2.大雁会依次完整发出”quack”，即字符串中’q’,‘u’,‘a’,‘c’,‘k’这5个字母按顺序完整
【Python】Tkinter电器销售有限公司销售数据分析（源码）【独一无二】不争不抢不显不露 python 数据分析开发语言
一、设计要求该项目创建一个数据分析软件，利用Tkinter和Matplotlib构建图形用户界面（GUI），读取和分析美迪电器销售有限公司销售数据。用户可以通过界面选择月份查看数据详情、生成销量图表并计算月总销量和年总销量。二、设计思路2.模块引入首先引入了所需的模块，包括Tkinter（用于GUI创建和管理）、ttk（Tkinter主题化控件）、messagebox（用于弹出消息框）、panda
NextJs - 服务端组件如何拿到当前页面的URL或者参数 Zong_0915 javascript 前端开发语言 NextJs
NextJs-服务端组件如何拿到当前页面的URL或者参数前言一.NextJs如何拿到当前页面URL二.NextJs拿URL参数的两种方式前言NextJs中，如果你是服务端组件，并且是App路由模式，如果想拿到当前URL，我们只能通过中间件获取，并通过header来实现交互。想再学习下中间件的可以参考我的这篇文章：NextJs初级篇-安装|路由|中间件一.NextJs如何拿到当前页面URL我们编写根
NextJs - antd5 降级兼容方案 Zong_0915 NextJs antd 前端
NextJs-antd5降级兼容方案前言一.降级解决方案1.1解决message等通知静态方法的样式丢失问题1.1解决非静态的样式兼容前言目前antd5对于SSR的兼容还有各方面都是很不错的，比如性能、UI设计等，不过，我们作为开发人员，在使用antd5作为UI组件库的时候，还需要考虑版本兼容问题，这里就说明下NextJs中如何进行antd5的降级。和本篇内容有关的前序文章：NextJs-SSR渲
库函数的模拟实现（memset、memcmp）扶我起来我还能再做一题 c语言开发语言
一、memset函数说明还是贴上cplusplus的网址！函数总结：功能:memset函数将指定的值填充到内存块中。这个值被解释为无符号字符（unsignedchar），并且连续地设置内存块的前num个字节。参数:ptr:指向要填充的内存块的指针。value:要设置的值。虽然这个值以int类型传递，但实际填充时会将其转换为无符号字符。num:要设置的字节数，使用size_t类型，这是一个无符号整型
移除元素OJ详解扶我起来我还能再做一题开发语言数据结构 c语言 leetcode
一、题目介绍给你一个数组nums和一个值val，你需要原地移除所有数值等于val的元素。元素的顺序可能发生改变。然后返回nums中与val不同的元素的数量。假设nums中不等于val的元素数量为k，要通过此题，您需要执行以下操作：更改nums数组，使nums的前k个元素包含不等于val的元素。nums的其余元素和nums的大小并不重要。返回k。用户评测：评测机将使用以下代码测试您的解决方案：int
基于DSP+FPGA高速运动控制器设计深圳信迈科技DSP+ARM+FPGA 运动控制器国产ARM+FPGA fpga开发运动控制器
基于“PC+运动控制器”结构的开放式机器人运动控制系统能够充分利用PC开放程度高、通用性好、处理能力强等特点以及运动控制器运算速度快、实时性能好、控制能力强等特点，因此得到较快发展，成为目前的研究热点。但目前采用此种结构的开放式机器人运动控制系统中，不管是控制器供应商所提供的运动控制器或者是科研人员自主设计的运动控制器，在通用性、软硬件可重构方面都存在一些问题，影响着机器人运动控制系统的开放性。因
【离散数学】关系闭包运算的性质彭彭不吃虫子机器学习人工智能
关系闭包运算是关系代数中的一个重要概念，它用于通过一系列运算来生成一个关系的闭包，即包含原关系的所有可能的“扩展”形式。关系闭包主要有三种类型：传递闭包、对称闭包和自反闭包。每种闭包运算都有一些性质，我们将逐个分析这些性质，并通过详细的例子和图形来加以说明。1.传递闭包（TransitiveClosure）定义：传递闭包是给定一个关系RR和一集合AA，通过不断加入能通过已有关系到达的元素来构建最小
【Python】super() 函数和 MRO 顺序的实例剖析彭彭不吃虫子 python 开发语言
1.构造函数（__init__(self[,...])）在类中定义__init__()方法，可以实现在实例化对象的时候进行个性化定制：>>>classC:... def__init__(self,x,y):... self.x=x... self.y=y... defadd(self):... returnself.x+self.y... defmu
【Python】类与对象:self在其中的作用，面向对象的优势，函数和方法的区别彭彭不吃虫子 python 开发语言
1.self在类和对象中的功能与用处在面向对象编程（OOP）中，self是类中方法的第一个参数，它指向当前实例（对象）。每个类的方法第一个参数通常是self，它用于引用当前对象本身，这使得我们能够访问类中的属性和其他方法。功能与用处：访问实例属性：self允许在类的方法中引用对象的属性。例如，如果类中有一个实例属性name，你可以通过self.name来访问它。修改实例属性：通过self，方法可以
浅拷贝和深拷贝的逻辑剖析彭彭不吃虫子 python
1.请问下面代码执行之后，变量e的内容是？FVPKR&.dZi4l|='6antuk+ezo>>>d={"小甲鱼":"千年王八，万年龟。"}>>>e=d.copy()>>>d["小甲鱼"]="666"答：Poweredby+9|BeC#(~820TEvSKq.[g!FZz>>>e{'小甲鱼':'千年王八，万年龟。'}解析：其实这跟列表的道理是一样的，浅拷贝第一层的修改是不会相互影响的，但是对于嵌套
深入理解C语言函数：定义、调用与设计 Threeiy c语言
在C语言编程的世界里，函数是构建复杂程序的基石。它允许我们将一个大的任务分解为多个小的、功能独立的模块，使得代码更易于理解、维护和复用。今天，我们就来深入探讨一下C语言函数的方方面面。一、函数定义的一般形式函数定义由函数头和函数体两部分组成。//返回值类型类型标识符函数名(形式参数)//函数头head{//函数体--body声明部分语句部分}-函数头：-类型标识符：用于指定函数处理完后要带出的结果
Python在WRF模型自动化运行及前后处理中实践技术应用-包括数据处理、模型运行、结果可视化等步骤。 KY_chenzhao python 自动化开发语言
1.背景与目标WRF（WeatherResearchandForecasting）模型是中尺度气象数值模式的佼佼者，广泛应用于气象预报和气候研究。Python在WRF模型中的应用主要体现在前后处理、自动化运行和数据可视化等方面。本文将以风速预测为例，详细说明Python在WRF模型中的具体应用，包括数据处理、模型运行、结果可视化等步骤。2.数据准备数据来源包括WRF模型的输出数据和实际观测数据。这
基于Python机器学习、深度学习技术提升气象、海洋、水文领域实践应用 KY_chenzhao python 机器学习深度学习气象
1.背景与目标ENSO（ElNiño-SouthernOscillation）是全球气候系统中最显著的年际变率现象之一，对全球气候、农业、渔业等有着深远的影响。准确预测ENSO事件的发生和发展对于减灾防灾具有重要意义。近年来，深度学习技术在气象领域得到了广泛应用，其中长短期记忆网络（LSTM）因其在处理时间序列数据方面的优势，被广泛用于ENSO预测。2.数据准备数据来源包括NOAA（美国国家海洋和
基于R语言的DICE模型实践技术应用；评估气候变化对经济的影响以及不同减排政策的经济成本和效益 KY_chenzhao DICE模型 R语言气候变化
DICE模型是一个动态综合气候经济模型，由诺贝尔经济学奖得主WilliamNordhaus开发，用于评估气候变化对经济的影响以及不同减排政策的经济成本和效益。以下是一个关于DICE模型在气候变化影响评估中的实际应用案例，结合R语言代码进行讲解。实际案例：评估全球碳税政策的影响假设我们要评估一项全球碳税政策对经济增长、碳排放和气候变化的影响。我们将使用DICE模型的基本框架来进行分析。模型构建经济部
PySide6 GUI 学习笔记——Python文件编译打包 Humbunklung PySide6 学习笔记 python
前面编写的软件工具都必须运行在Python环境中，且通过命令行的方式运行，通过Python打包工具，我们可以把.py文件封装成对应平台的运行文件，供用户执行。常见Python打包工具工具简介官网/文档地址py2exe将Python脚本转换为Windows可执行文件https://www.py2exe.orgcx_Freeze跨平台的Python打包工具，它可以将Python脚本打包为可执行文件或动
循环队列C语言实现 Helpsen 数据结构与算法 c语言开发语言后端
循环队列C语言实现特性：先进先出(FirstInFirstOut=FIFO)，取数从队列的开头取，存储从队列尾部存。第一个元素又称首元素,最后一个元素又称尾元素。Linux系统三大队列：消息队列：进程间通信的一种手段。工作队列：延后执行的一种手段。等待队列：随时随地让进程休眠并且让进程随时随地被唤醒。/*循环队列*/#include#include/*声明描述队列属性的结构体*/typedefst
对超短脉冲的色散效应的研究 Bonnie1985119 hololens 人工智能 matlab python 算法
在现代光学系统中，超快现象经常被应用于各种各样的场合。由于这种短脉冲的光谱带宽很大，色散效应在这些系统的设计和分析中起着重要作用。因此，为了确保准确和合适的建模，系统中的所有色散效应都必须得到充分考虑。为了强调快速物理光学软件VirtualLabFusion在这个特定光学领域的能力，我们展示了两个例子。在第一个例子中，我们研究了一个脉冲在不同材料中传播时的行为，并说明了相应的色散相关效应。我们还用
构建一个查询分析系统 AWsggdrg 数据库 python
技术背景介绍在构建一个查询分析系统时，需要能够加载文档、使用聊天模型、生成嵌入、创建向量存储并执行检索。这些过程的目标是将用户输入的查询优化，以实现更为精准的检索结果。本文将通过一个端到端的示例展示如何使用查询分析提升检索结果的相关性。我们将着眼于如何对LangChain的YouTube视频进行检索，并通过查询分析解决原始用户问题直接传递给搜索引擎时可能出现的失败模式。核心原理解析查询分析的核心在
AWS学习笔记——Chapter5 Identity and Access Management and Security on AWS 坚果壳er AWS学习
前注：学习书籍IndexIdentityandAccessManagementandSecurityonAWS1.Authentication(认证)2.Authorization(授权)3.Auditing(审核)4.Typesofsecuritycredentials(安全凭证的类型)5.Users6.Groups7.Roles8.IAMHierarchyofPrivileges9.IAMBe
MDX语言的编程范式 BinaryBardC 包罗万象 golang 开发语言后端
MDX语言的编程范式引言MDX（MultidimensionalExpressions）是一种查询语言，主要用于在多维数据集中检索数据。这种语言广泛应用于商业智能（BI）领域，尤其是在与分析服务（如MicrosoftAnalysisServices）相关的上下文中。MDX语言提供了一个强大的语法，使得开发者能够以灵活的方式操作多维数据模型。本文将深入探讨MDX的编程范式，从基本语法、查询结构到高级
MDX语言的数据类型 BinaryBardC 包罗万象 golang 开发语言后端
MDX语言的数据类型详解引言MDX（多维表达式）是一种用于查询和操作多维数据集的查询语言，广泛用于数据分析和商业智能领域。MDX语言的设计旨在帮助用户高效地从多维数据库（如MicrosoftSQLServerAnalysisServices）中提取和分析数据。随着数据量的不断增加和数据结构的日益复杂，MDX提供了一种强大的方式来处理和分析这些多维数据。在MDX中，数据类型是理解和使用该语言的基础，
R语言的软件工程 BinaryBardC 包罗万象 golang 开发语言后端
R语言的软件工程1.引言随着数据科学的快速发展，R语言作为一种统计计算和图形绘制的编程语言，其在数据分析、可视化以及机器学习等领域的应用日益广泛。尽管R语言在数据处理上有其独特的优势，但要将其运用于大型项目和商业应用中，就需要遵循软件工程的原则。本篇文章将探讨R语言在软件工程中的应用，主要涵盖软件开发生命周期、代码规范、版本控制、测试和文档等方面。2.软件开发生命周期软件开发生命周期（SDLC）是
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他