仲君Johnny

Python爬虫 pyquery库详解#4

爬虫专栏：http://t.csdnimg.cn/WfCSx

使用 pyquery

在上一节中，我们介绍了 Beautiful Soup 的用法，它是一个非常强大的网页解析库，你是否觉得它的一些方法用起来有点不适应？有没有觉得它的 CSS 选择器的功能没有那么强大？

如果你对 Web 有所涉及，如果你比较喜欢用 CSS 选择器，如果你对 jQuery 有所了解，那么这里有一个更适合你的解析库 ——pyquery。

接下来，我们就来感受一下 pyquery 的强大之处。

1. 准备工作

在开始之前，请确保已经正确安装好了 pyquery。若没有安装，可以参考第 1 章的安装过程。

2. 初始化

像 Beautiful Soup 一样，初始化 pyquery 的时候，也需要传入 HTML 文本来初始化一个 PyQuery 对象。它的初始化方式有多种，比如直接传入字符串，传入 URL，传入文件名，等等。下面我们来详细介绍一下。

字符串初始化

首先我们用一个实例来感受一下：

html = '''

 
     first item
     second item
     third item
     fourth item
     fifth item
 
 
'''
from pyquery import PyQuery as pq

doc = pq(html)
print(doc('li'))

运行结果如下：

first item
second item
third item
fourth item
fifth item

这里首先引入 PyQuery 这个对象，取别名为 pq。然后声明了一个长 HTML 字符串，并将其当作参数传递给 PyQuery 类，这样就成功完成了初始化。接下来，将初始化的对象传入 CSS 选择器。在这个实例中，我们传入 li 节点，这样就可以选择所有的 li 节点。

URL 初始化

初始化的参数不仅可以以字符串的形式传递，还可以传入网页的 URL，此时只需要指定参数为 url 即可：

from pyquery import PyQuery as pq
headers = {
    'User-Agent': 'Mozilla/5.0 (',
}
doc = pq(url='https://blog.csdn.net/lizhongjun1005', headers=headers)
print(doc('title'))

运行结果：

仲君Johnny-CSDN博客

这样的话，PyQuery 对象会首先请求这个 URL，然后用得到的 HTML 内容完成初始化，这其实就相当于用网页的源代码以字符串的形式传递给 PyQuery 类来初始化。

它与下面的功能是相同的：

from pyquery import PyQuery as pq
import requests


headers = {
    'User-Agent': 'Mozilla/5.0 (',
}
doc = pq(requests.get('http://blog.csdn.net/lizhongjun1005', headers=headers).text)
print(doc('title'))

文件初始化

当然除了传递一个 URL，还可以传递本地的文件名，参数指定为 filename 即可：

from pyquery import PyQuery as pq
doc = pq(filename='demo.html')
print(doc('li'))

当然，这里需要有一个本地 HTML 文件 demo.html，其内容是待解析的 HTML 字符串。这样它会首先读取本地的文件内容，然后用文件内容以字符串的形式传递给 PyQuery 类来初始化。

以上 3 种初始化方式均可，当然最常用的初始化方式还是以字符串形式传递。

3. 基本 CSS 选择器

我们首先用一个实例来感受一下 pyquery 的 CSS 选择器的用法：

html = '''

    
         first item
         second item
         third item
         fourth item
         fifth item
     
 
'''
from pyquery import PyQuery as pq
doc = pq(html)
print(doc('#container .list li'))
print(type(doc('#container .list li')))

运行结果：

first item
second item
third item
fourth item
fifth item

这里我们初始化 PyQuery 对象之后，传入了一个 CSS 选择器 #container .list li，它的意思是先选取 id 为 container 的节点，然后再选取其内部的 class 为 list 的节点内部的所有 li 节点。然后，打印输出。可以看到，我们成功获取到了符合条件的节点。

最后，将它的类型打印输出。可以看到，它的类型依然是 PyQuery 类型。

4. 查找节点

下面我们介绍一些常用的查询方法，这些函数和 jQuery 中的方法用法也完全相同。

子节点

查找子节点需要用到 find 方法，传入的参数是 CSS 选择器，我们还是以上面的 HTML 为例：

from pyquery import PyQuery as pq
doc = pq(html)
items = doc('.list')
print(type(items))
print(items)
lis = items.find('li')
print(type(lis))
print(lis)

运行结果：



    first item
    second item
    third item
    fourth item
    fifth item


first item
second item
third item
fourth item
fifth item

首先，我们选取 class 为 list 的节点，然后调用了 find() 方法，传入 CSS 选择器，选取其内部的 li 节点，最后打印输出。可以发现，find() 方法会将符合条件的所有节点选择出来，结果的类型是 PyQuery 类型。

其实 find 的查找范围是节点的所有子孙节点，而如果我们只想查找子节点，那可以用 children 方法：

lis = items.children()
print(type(lis))
print(lis)

运行结果如下：


first item
second item
third item
fourth item
fifth item

如果要筛选所有子节点中符合条件的节点，比如想筛选出子节点中 class 为 active 的节点，可以向 children() 方法传入 CSS 选择器.active：

lis = items.children('.active')
print(lis)

运行结果：

third item
fourth item

可以看到输出的结果已经做了筛选，留下了 class 为 active 的节点。

父节点

我们可以用 parent 方法来获取某个节点的父节点，我们用一个实例来感受一下：

html = '''

    
        
             first item
             second item
             third item
             fourth item
             fifth item
         
     
 
'''
from pyquery import PyQuery as pq
doc = pq(html)
items = doc('.list')
container = items.parent()
print(type(container))
print(container)

运行结果如下：



    
         first item
         second item
         third item
         fourth item
         fifth item

这里我们首先用.list 选取 class 为 list 的节点，然后调用 parent 方法得到其父节点，其类型依然是 PyQuery 类型。

这里的父节点是该节点的直接父节点，也就是说，它不会再去查找父节点的父节点，即祖先节点。

但是如果想获取某个祖先节点，该怎么办呢？这时可以用 parents 方法：

from pyquery import PyQuery as pq
doc = pq(html)
items = doc('.list')
parents = items.parents()
print(type(parents))
print(parents)

运行结果：



    
        
             first item
             second item
             third item
             fourth item
             fifth item
         
     
 
 
        
             first item
             second item
             third item
             fourth item
             fifth item

可以看到，输出结果有两个：一个是 class 为 wrap 的节点，一个是 id 为 container 的节点。也就是说，parents() 方法会返回所有的祖先节点。

如果想要筛选某个祖先节点的话，可以向 parents 方法传入 CSS 选择器，这样就会返回祖先节点中符合 CSS 选择器的节点：

parent = items.parents('.wrap')
print(parent)

运行结果：


    
        
             first item
             second item
             third item
             fourth item
             fifth item

可以看到，输出结果少了一个节点，只保留了 class 为 wrap 的节点。

兄弟节点

前面我们说明了子节点和父节点的用法，还有一种节点，那就是兄弟节点。如果要获取兄弟节点，可以使用 siblings() 方法。这里还是以上面的 HTML 代码为例：

from pyquery import PyQuery as pq
doc = pq(html)
li = doc('.list .item-0.active')
print(li.siblings())

这里首先选择 class 为 list 的节点内部 class 为 item-0 和 active 的节点，也就是第三个 li 节点。那么，很明显，它的兄弟节点有 4 个，那就是第一、二、四、五个 li 节点。

运行结果：

second item
first item
fourth item
fifth item

可以看到，这正是我们刚才所说的 4 个兄弟节点。

如果要筛选某个兄弟节点，我们依然可以向 siblings 方法传入 CSS 选择器，这样就会从所有兄弟节点中挑选出符合条件的节点了：

from pyquery import PyQuery as pq
doc = pq(html)
li = doc('.list .item-0.active')
print(li.siblings('.active'))

这里我们筛选了 class 为 active 的节点，通过刚才的结果可以观察到，class 为 active 的兄弟节点只有第四个 li 节点，所以结果应该是一个。

我们再看一下运行结果：

fourth item

5. 遍历

刚才可以观察到，pyquery 的选择结果可能是多个节点，也可能是单个节点，类型都是 PyQuery 类型，并没有返回像 Beautiful Soup 那样的列表。

对于单个节点来说，可以直接打印输出，也可以直接转成字符串：

from pyquery import PyQuery as pq
doc = pq(html)
li = doc('.item-0.active')
print(li)
print(str(li))

运行结果：

third item
third item

对于多个节点的结果，我们就需要遍历来获取了。例如，这里把每一个 li 节点进行遍历，需要调用 items 方法：

from pyquery import PyQuery as pq
doc = pq(html)
lis = doc('li').items()
print(type(lis))
for li in lis:
    print(li, type(li))

运行结果如下：


first item

second item

third item

fourth item

fifth item

可以发现，调用 items() 方法后，会得到一个生成器，遍历一下，就可以逐个得到 li 节点对象了，它的类型也是 PyQuery 类型。每个 li 节点还可以调用前面所说的方法进行选择，比如继续查询子节点，寻找某个祖先节点等，非常灵活。

6. 获取信息

提取到节点之后，我们的最终目的当然是提取节点所包含的信息了。比较重要的信息有两类，一是获取属性，二是获取文本，下面分别进行说明。

获取属性

提取到某个 PyQuery 类型的节点后，就可以调用 attr() 方法来获取属性：

html = '''

    
        
             first item
             second item
             third item
             fourth item
             fifth item
         
     
 
'''
from pyquery import PyQuery as pq
doc = pq(html)
a = doc('.item-0.active a')
print(a, type(a))
print(a.attr('href'))

运行结果如下：

third item 
link3.html

这里首先选中 class 为 item-0 和 active 的 li 节点内的 a 节点，它的类型是 PyQuery 类型。

然后调用 attr 方法。在这个方法中传入属性的名称，就可以得到这个属性值了。

此外，也可以通过调用 attr 属性来获取属性，用法如下：

print(a.attr.href)

结果：

link3.html

这两种方法的结果完全一样。

如果选中的是多个元素，然后调用 attr 方法，会出现怎样的结果呢？我们用实例来测试一下：

a = doc('a')
print(a, type(a))
print(a.attr('href'))
print(a.attr.href)

运行结果如下：

second itemthird itemfourth itemfifth item 
link2.html
link2.html

照理来说，我们选中的 a 节点应该有 4 个，而且打印结果也应该是 4 个，但是当我们调用 attr 方法时，返回结果却只是第一个。这是因为，当返回结果包含多个节点时，调用 attr 方法，只会得到第一个节点的属性。

那么，遇到这种情况时，如果想获取所有的 a 节点的属性，就要用到前面所说的遍历了：

from pyquery import PyQuery as pq
doc = pq(html)
a = doc('a')
for item in a.items():
    print(item.attr('href'))

运行结果：

link2.html
link3.html
link4.html
link5.html

因此，在进行属性获取时，可以观察返回节点是一个还是多个，如果是多个，则需要遍历才能依次获取每个节点的属性。

获取文本

获取节点之后的另一个主要操作就是获取其内部的文本了，此时可以调用 text 方法来实现：

html = '''

    
        
             first item
             second item
             third item
             fourth item
             fifth item
         
     
 
'''
from pyquery import PyQuery as pq
doc = pq(html)
a = doc('.item-0.active a')
print(a)
print(a.text())

运行结果：

third item
third item

这里首先选中一个 a 节点，然后调用 text 方法，就可以获取其内部的文本信息。此时它会忽略掉节点内部包含的所有 HTML，只返回纯文字内容。

但如果想要获取这个节点内部的 HTML 文本，就要用 html 方法了：

from pyquery import PyQuery as pq
doc = pq(html)
li = doc('.item-0.active')
print(li)
print(li.html())

这里我们选中了第三个 li 节点，然后调用了 html() 方法，它返回的结果应该是 li 节点内的所有 HTML 文本。

运行结果：

third item

这里同样有一个问题，如果我们选中的结果是多个节点，text() 或 html() 会返回什么内容？我们用实例来看一下：

html = '''

    
        
             second item
             third item
             fourth item
             fifth item
         
     
 
'''
from pyquery import PyQuery as pq
doc = pq(html)
li = doc('li')
print(li.html())
print(li.text())
print(type(li.text())

运行结果如下：

second item
second item third item fourth item fifth item

结果可能比较出乎意料，html 方法返回的是第一个 li 节点的内部 HTML 文本，而 text 则返回了所有的 li 节点内部的纯文本，中间用一个空格分割开，即返回结果是一个字符串。

所以这个地方值得注意，如果得到的结果是多个节点，并且想要获取每个节点的内部 HTML 文本，则需要遍历每个节点。而 text() 方法不需要遍历就可以获取，它将所有节点取文本之后合并成一个字符串。

7. 节点操作

pyquery 提供了一系列方法来对节点进行动态修改，比如为某个节点添加一个 class，移除某个节点等，这些操作有时候会为提取信息带来极大的便利。

由于节点操作的方法太多，下面举几个典型的例子来说明它的用法。

addClass 和 removeClass

我们先用一个实例来感受一下：

html = '''

    
        
             first item
             second item
             third item
             fourth item
             fifth item
         
     
 
'''
from pyquery import PyQuery as pq
doc = pq(html)
li = doc('.item-0.active')
print(li)
li.removeClass('active')
print(li)
li.addClass('active')
print(li)

首先选中了第三个 li 节点，然后调用 removeClass() 方法，将 li 节点的 active 这个 class 移除，后来又调用 addClass() 方法，将 class 添加回来。每执行一次操作，就打印输出当前 li 节点的内容。

运行结果如下：

third item
third item
third item

可以看到，一共输出了 3 次。第二次输出时，li 节点的 active 这个 class 被移除了，第三次 class 又添加回来了。

所以说，addClass 和 removeClass 方法可以动态改变节点的 class 属性。

attr、text、html

当然，除了操作 class 这个属性外，也可以用 attr 方法对属性进行操作。此外，还可以用 text 和 html 方法来改变节点内部的内容。示例如下：

html = '''

     third item

'''
from pyquery import PyQuery as pq
doc = pq(html)
li = doc('.item-0.active')
print(li)
li.attr('name', 'link')
print(li)
li.text('changed item')
print(li)
li.html('changed item')
print(li)

这里我们首先选中 li 节点，然后调用 attr 方法来修改属性，其中该方法的第一个参数为属性名，第二个参数为属性值。接着，调用 text 和 html 方法来改变节点内部的内容。三次操作后，分别打印输出当前的 li 节点。

运行结果如下：

third item
third item
changed item
changed item

可以发现，调用 attr 方法后，li 节点多了一个原本不存在的属性 name，其值为 link。接着调用 text 方法，传入文本之后，li 节点内部的文本全被改为传入的字符串文本了。最后，调用 html 方法传入 HTML 文本后，li 节点内部又变为传入的 HTML 文本了。

所以说，如果 attr 方法只传入第一个参数的属性名，则是获取这个属性值；如果传入第二个参数，可以用来修改属性值。text 和 html 方法如果不传参数，则是获取节点内纯文本和 HTML 文本；如果传入参数，则进行赋值。

remove

顾名思义，remove 方法就是移除，它有时会为信息的提取带来非常大的便利。下面有一段 HTML 文本：

html = '''

    Hello, World
    This is a paragraph.
 
'''
from pyquery import PyQuery as pq
doc = pq(html)
wrap = doc('.wrap')
print(wrap.text())

现在想提取 Hello, World 这个字符串，而不要 p 节点内部的字符串，需要怎样操作呢？

这里直接先尝试提取 class 为 wrap 的节点的内容，看看是不是我们想要的。运行结果如下：

Hello, World This is a paragraph.

这个结果还包含了内部的 p 节点的内容，也就是说 text 把所有的纯文本全提取出来了。如果我们想去掉 p 节点内部的文本，可以选择再把 p 节点内的文本提取一遍，然后从整个结果中移除这个子串，但这个做法明显比较烦琐。

这时 remove 方法就可以派上用场了，我们可以接着这么做:

wrap.find('p').remove()
print(wrap.text())

首先选中 p 节点，然后调用了 remove() 方法将其移除，然后这时 wrap 内部就只剩下 Hello, World 这句话了，然后再利用 text() 方法提取即可。

另外，其实还有很多节点操作的方法，比如 append()、empty() 和 prepend() 等方法，它们和 jQuery 的用法完全一致，详细的用法可以参考官方文档：pyquery – PyQuery complete API — pyquery 2.0.x documentation

8. 伪类选择器

CSS 选择器之所以强大，还有一个很重要的原因，那就是它支持多种多样的伪类选择器，例如选择第一个节点、最后一个节点、奇偶数节点、包含某一文本的节点等。示例如下：

html = '''

    
        
             first item
             second item
             third item
             fourth item
             fifth item
         
     
 
'''
from pyquery import PyQuery as pq
doc = pq(html)
li = doc('li:first-child')
print(li)
li = doc('li:last-child')
print(li)
li = doc('li:nth-child(2)')
print(li)
li = doc('li:gt(2)')
print(li)
li = doc('li:nth-child(2n)')
print(li)
li = doc('li:contains(second)')
print(li)

这里我们使用了 CSS3 的伪类选择器，依次选择了第一个 li 节点、最后一个 li 节点、第二个 li 节点、第三个 li 之后的 li 节点、偶数位置的 li 节点、包含 second 文本的 li 节点。

关于 CSS 选择器的更多用法，可以参考 CSS 教程。

到此为止，pyquery 的常用用法就介绍完了。如果想查看更多的内容，可以参考 pyquery 的官方文档：pyquery: a jquery-like library for python — pyquery 2.0.x documentation。

你可能感兴趣的:(python爬虫逆向教程,python,爬虫,开发语言,网络爬虫,数据分析)

python+django+vue医院门诊挂号预约管理系统57wsx QQ_402205496 django pycharm python
开发语言：Python框架：django/flaskPython版本：python3.7.7数据库：mysql数据库工具：Navicat开发软件：PyCharm主要功能有：管理员功能：系统首页、个人中心、用户管理、医生管理、疫情公告管理、行动轨迹管理、异样报告管理、科室信息管理、异常报告管理、系统管理、医院信息管理、预约信息管理、在线聊天管理、聊天回复管理、我的收藏管理。用户功能模块：系统首页、个
Python 入门『六哥』 Python python 开发语言
Python安装检测许多PC和Mac都已经安装了python。如果需要检查是否已在WindowsPC上安装了python，请在开始栏中寻找Python或在命令行（cmd.exe）上运行以下命令:C:\Users\YourName>python--version如果是检查是否在Linux或Mac上安装了python，请在Linux上打开命令行或在Mac上打开终端并键入:python--version
Python爬虫|获取大麦网演出信息最好的药物是乌梅 python 爬虫开发语言
使用Selenium库自动化浏览器操作，从大麦网的搜索结果页面抓取演唱会信息，并将这些信息保存到一个CSV文件中代码的主要步骤包括：1.初始化WebDriver。2.打开指定的URL。3.模拟点击“全部”按钮。4.循环抓取每一页的演唱会信息，并写入CSV文件。5.关闭WebDriver。代码拆分讲解1.导入相关库fromselenium.webdriver.supportimportexpecte
【蓝桥杯速成】| 2.逆向思维最好的药物是乌梅算法
题目一：青蛙跳台阶题目描述一只青蛙一次可以跳上1级台阶，也可以跳上2级台阶。求该青蛙跳上一个n级的台阶总共有多少种跳法。解题步骤选用递归的方法解决该问题！使用递归只需要考虑清楚边界条件/终止条件，再写清楚单层循环逻辑剩下的交给程序就好啦！那么如果顺着一级一级去想会非常麻烦，不妨倒着想想，青蛙以什么姿势跳上第n级台阶是优雅的迈了一步？还是急速蹦了两级？以jump(n)为求步数的函数，根据该思路则有：
数码管绘制程序(python) 最好的药物是乌梅 python 开发语言
题目自行设计界面上的输出信息"加上班级姓名学号,日期的年月日等"包括字体、颜色、样式均可自行编辑.将——————————的每一行补充正确的代码。importturtle,datetimedefdrawLine(draw):#绘制单段数码管turtle.pendown()ifdrawelseturtle.penup()turtle.fd(40)——————————————————————（1）———
tensorflow 不支持python3以下的版本辽宁大学神经网络神经网络
小白一枚，没用过tensorflow，所以在安装的时候导致版本错误安装不上。遇到这种情况建议换python的版本。
第5篇：从入门到精通：深入详解Python模块与包管理的应用猿享天开 python 开发语言
第5篇：模块与包管理目录模块概述什么是模块导入模块标准库简介创建与使用自定义模块创建模块导入自定义模块模块搜索路径包（Packages）什么是包创建包导入包中的模块常用内置模块介绍math模块datetime模块os模块sys模块模块与包的最佳实践命名规范组织结构避免循环导入示例代码常见问题及解决方法总结模块概述什么是模块模块是Python中组织代码的一种方式。一个模块就是一个包含Python定义
用Python打造智能姓名生成器：从数据分离到AI赋能灏瀚星空 python 人工智能开发语言经验分享笔记
用Python打造智能姓名生成器：从数据分离到AI赋能目录项目概述与功能清单环境准备与工具选择项目架构设计核心代码实现AI古文解析模块交互界面开发使用示例与效果展示扩展思路与优化建议1.项目概述与功能清单核心功能数据管理CSV文件存储姓氏/名字库支持用户导入/导出数据交互界面姓名生成与实时预览已选名单管理（增删改查）排除词输入框（黑名单过滤）AI赋能从古文中提取字词及注解自动生成姓名寓意解析扩展功
Python常用10个模块详解：提升开发效率的利器 Python_trys python microsoft 数据库开发语言 Python入门 Python基础 Python教程
包含编程籽料、学习路线图、爬虫代码、安装包等！【点击领取！】Python作为一门功能强大且易于学习的编程语言，拥有丰富的标准库和第三方模块，能够帮助开发者快速实现各种功能。本文将详细介绍Python中常用的10个模块，帮助你在开发中更高效地完成任务。1.os模块：操作系统交互os模块提供了与操作系统交互的功能，包括文件操作、目录管理、环境变量等。常用功能：文件与目录操作：importos#获取当前
掌握Conda的艺术：精通channels管理 2401_85702623 conda
掌握Conda的艺术：精通channels管理Conda作为Python和其他科学计算包的包管理器，其强大的包管理能力很大程度上依赖于channels。channels是Conda用来查找和安装包的源。默认情况下，Conda会从Anaconda的官方源安装包，但有时我们需要添加额外的channels来获取更多的包或者特定版本的包。本文将详细介绍如何在Conda中使用condaconfig--add
Python模块详解：定义、操作方法与高级特性编程咕咕gu- python 数据库开发语言学习路线数据分析
如果你正在学习Python，那么你需要的话可以点击这里Python重磅福利：入门&进阶全套学习资料、电子书、软件包、项目源码等等免费分享！在Python中，模块是一个包含Python定义和语句的文件。模块可以定义函数、类和变量。模块也可以包含可执行的代码。你可以通过import语句将一个模块中的函数、类等导入到当前的程序中，以便能够重复使用代码，提高代码的可维护性。模块定义一个Python文件（.
3.13.0 python 配置tensorflow（CPU版本） m0_Gattuso tensorflow 人工智能 python
condacreate--nametestpython=3.12activatetestpipinstalltensorflow上面3步骤在condaprompt里完成退出时记得condadeactivate来源：Windows下tensorflow/pytorch环境配置_pycharm怎么配置tensorflow环境-CSDN博客然后问题出现了：condaenvironment里什么都没有，理
2021-05-21 python中curses基本用法 zerfew python curses cli
有时候linux系统没有界面，可能需要在terminal终端完成程序的交互和状态显示，C语言的ncurses支持命令行界面程序开发，curses是基于ncurses实现的python终端界面库。本文实现一个简单的demo小程序，方便初学者学习和使用。首先上demo主程序#-*-coding:UTF-8-*-importcursesimportlocalelocale.setlocale(local
构建可扩展的Python API与框架：实践与指南清水白石008 Python题库 python 计算机 python 开发语言
构建可扩展的PythonAPI与框架：实践与指南一、引言在当今的软件开发中，可扩展性已成为一个不可或缺的特性。一个可扩展的API或框架不仅能够满足当前的需求，还能轻松应对未来的变化和增长。本文将深入探讨在Python中如何设计一个可扩展的API或框架，通过实际例子和详细步骤，为您提供一个实用的指南。二、理解可扩展性可扩展性指的是系统或软件能够容易地适应变化，包括但不限于新功能的添加、现有功能的修改
在 Python 中实现 RESTful API 的完整指南清水白石008 python Python题库 python restful 开发语言
在Python中实现RESTfulAPI的完整指南随着互联网的发展，RESTfulAPI（RepresentationalStateTransfer）已成为现代应用程序架构的重要组成部分。RESTfulAPI允许不同系统之间通过HTTP协议进行通信，提供了一种简单而灵活的方式来访问和操作资源。在这篇文章中，我们将深入探讨如何在Python中实现RESTfulAPI，并提供简单的示例代码。一、什么是
MIE 1622H Risk-Based and Robust 后端
MIE1622H:Assignment2–Risk-BasedandRobustPortfolioSelectionStrategiesDr.OleksandrRomanko,MohammadrezaMohammadiFebruary10,2025Due:Friday,March7,2025,notlaterthan11:59p.m.UsePythonforallMIE1622Hassignmen
python测试工具 doctest pythondoctest
python调试工具doctestbriefintroductiondoctest是python自带的一个调试测试工具，可用于初步检测你写的python程序的输入与输出结果是否符合你的预期通过在自己写的函数内，按照规定的格式写上你想要对比的输入输出结果，再使用python3-mdoctestexample.py(example.py是你要test的python程序)，python会自动帮你用你的输
关于“Python int too large to convert to C long”的解决。 James Bamp python python too large long
这个问题在我使用python计算平方的时候出现，其实问题的症结并不是数据太大（你可以使用print(很大的数的平方)来验证，会发现是可以输出的），而是数据结构的问题。具体是指，直接使用np.array数据来遍历，会出问题，但是如果将np.array数据转化为列表形式再遍历，那么就不会出现问题。例如：data=np.array(100020003000)#计算平方和sum_squa=0foriinr
python restful api 高并发_Python 之路，Restful API设计规范 IT小霸王 python restful api 高并发
理解RESTful架构RestfulAPI设计指南理解RESTful架构越来越多的人开始意识到，网站即软件，而且是一种新型的软件。这种"互联网软件"采用客户端/服务器模式，建立在分布式体系上，通过互联网通信，具有高延时(highlatency)、高并发等特点。网站开发，完全可以采用软件开发的模式。但是传统上，软件和网络是两个不同的领域，很少有交集；软件开发主要针对单机环境，网络则主要研究系统之间的
数据分析：数据的存储结构、数据类型、数据集成技术、存储模型、查询语言、API、驱动器等 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介数据分析是一个复杂的工程，需要用到多个数据库、数据表、数据文件等数据集成资源。不同的数据集成环境（如分布式系统、异构数据库）会影响数据分析的效率和效果。在进行数据分析时，首先要确定数据集成方案、选择合适的数据模型和索引策略，以及评估各种解决方案之间的优劣。因此，掌握数据的存储结构、数据类型、数据集成技术、存储模型、查询语言、API、驱动器等关键信息对数据分析工作
Python int too large to convert to C long 铃音. 笔记 python 开发语言 c语言
报错在用python的matplotlib库绘制折线图时我报了这个错误PythoninttoolargetoconverttoClong解决方法win+R然后输入cmd,再输入pipinstall--upgradematplotlib然后问题就解决了
Python精进系列： K-Means 聚类算法调用库函数和手动实现对比分析进一步有进一步的欢喜 Python 精进系列算法 python kmeans
一、引言在机器学习领域，聚类分析是一种重要的无监督学习方法，用于将数据集中的样本划分为不同的组或簇，使得同一簇内的样本具有较高的相似性，而不同簇之间的样本具有较大的差异性。K-Means聚类算法是最常用的聚类算法之一，它以其简单性和高效性在数据挖掘、图像分割、模式识别等领域得到了广泛应用。本文将详细介绍K-Means聚类算法，并分别给出调用现成函数和不调用任何现成函数实现K-Means聚类的代码示
Chitu：清华核弹级开源！推理引擎3倍提速+50%省卡，国产芯片告别英伟达绑架蚝油菜花每日 AI 项目与应用实例开源开源人工智能
❤️如果你也关注AI的发展现状，且对AI应用开发感兴趣，我会每日分享大模型与AI领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！AI在线答疑->智能检索历史文章和开源项目->丰富的AI工具库->每日更新->尽在微信公众号->搜一搜：蚝油菜花“还在为天价H100排队？清华让国产芯片跑出3倍英伟达性能！”大家好，我是蚝油菜花。当科技巨头用天价H100显卡筑起算力高墙时，中国团队用
Windows Curses Python 模块使用教程邱进斌Olivia
WindowsCursesPython模块使用教程windows-cursesWindowsCursesPythonmodule项目地址:https://gitcode.com/gh_mirrors/wi/windows-curses1.项目介绍windows-curses是一个为Windows平台提供Pythoncurses模块的Python包。curses模块是Python标准库的一部分，但在
OverflowError: Python int too large to convert to C long**：整数太大，无法转换为C类型long完美解决方法 ️ 默语 c语言开发语言
OverflowError:PythoninttoolargetoconverttoClong**：整数太大，无法转换为C类型long完美解决方法️OverflowError:PythoninttoolargetoconverttoClong**：整数太大，无法转换为C类型long完美解决方法️**摘要****1.引言****2.产生`OverflowError`的原因****2.1Python与
热门AI创作助手推荐【第一期】量子星澜文心一言 AI写作 chatgpt
星游AI创作助手人工智能在现代科技中的应用非常广泛，涵盖了诸多领域，包括但不限于以下几个方面：1.语音识别和自然语言处理：人工智能技术被广泛应用于语音识别和自然语言处理领域，例如智能助手、翻译系统、语音交互系统等。2.机器学习和数据分析：人工智能的机器学习算法被用于数据分析、预测建模、用户个性化推荐等领域，帮助企业做出更准确的商业决策。3.计算机视觉：人工智能在计算机视觉领域的应用包括图像识别、视
OpenAI Agents SDK 中文文档中文教程（1） wtsolutions openai agents sdk openai agents sdk python 中文文档教程
英文文档原文详见OpenAIAgentsSDKhttps://openai.github.io/openai-agents-python/本文是OpenAI-agents-sdk-python使用翻译软件翻译后的中文文档/教程。分多个帖子发布，帖子的目录如下：(1)OpenAI代理SDK，介绍及快速入门(2)OpenAIagentssdk,agents，运行agents，结果，流，工具，交接目录O
地基Python中列表（List）和数组（Array）区别天天向上杰 python 开发语言
在Python中，列表（List）和数组（Array）是两种不同的数据结构，主要区别体现在语法、内存管理和适用场景上。以下是详细对比：1.语法区别特性列表（List）数组（Array）定义方式用方括号[]定义需导入array模块，用array.array()构造函数元素类型可以存储不同类型的元素所有元素必须是同一类型（需指定类型码）类型码无类型码必须指定类型码（如'i'表示整数）示例代码：#列表m
地基Python常用的模块包及其用法天天向上杰 python 开发语言
Python标准库非常丰富，提供了大量内置模块，覆盖文件操作、数据处理、网络通信、系统交互等场景。以下是常用模块的详细说明及代码示例：1.文件与系统操作【os模块】处理操作系统相关功能（路径、目录、进程等）。importos#获取当前工作目录current_dir=os.getcwd()print("当前目录:",current_dir)#创建新目录os.makedirs("new_folder"
Web 开发都需要学什么？ Duiz33237 前端 html5 css3 web
Web开发是指开发和构建用于互联网的网站和应用程序的过程。它涉及使用各种编程语言、框架和技术来创建功能丰富、用户友好的网站和应用程序。常见的web开发技术包括HTML、CSS和JavaScript。HTML用于创建网页的结构，CSS用于样式和布局，而JavaScript用于实现交互和动态效果。此外，还有许多其他的编程语言和框架，如Python、PHP、Ruby、React、Angular等，用于开
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p