weixin_39635657

pandas的自带数据集_如何正确使用Pandas库提升项目的运行速度？

TUSHARE 金融与技术学习兴趣小组

翻译整理 | One

本期编辑 | Little monster

译者简介：西南财经大学应用数学本科，英国曼彻斯特大学金融数学硕士，金融分析师，专注于利用数据建立金融模型，发掘潜在投资价值。

作者：Joe Wyndham

如果你从事大数据工作，用Python的Pandas库时会发现很多惊喜。Pandas在数据科学和分析领域扮演越来越重要的角色，尤其是对于从Excel和VBA转向Python的用户。

所以，对于数据科学家，数据分析师，数据工程师，Pandas是什么呢？Pandas文档里的对它的介绍是：

“快速、灵活、和易于理解的数据结构，以此让处理关系型数据和带有标签的数据时更简单直观。”

快速、灵活、简单和直观，这些都是很好的特性。当你构建复杂的数据模型时，不需要再花大量的开发时间在等待数据处理的任务上了。这样可以将更多的精力集中去理解数据。

但是，有人说Pandas慢…

第一次使用Pandas时，有人评论说：Pandas是很棒的解析数据的工具，但是Pandas太慢了，无法用于统计建模。第一次使用的时候，确实如此，真的慢。

但是，Pandas是建立在NumPy数组结构之上的。所以它的很多操作通过NumPy或者Pandas自带的扩展模块编写，这些模块用Cython编写并编译到C，并且在C上执行。因此，Pandas不也应该很快的吗？

事实上，使用姿势正确的话，Pandas确实很快。

在使用Pandas时，使用纯“python”式代码并不是最效率的选择。和NumPy一样，Pandas专为向量化操作而设计，它可在一次扫描中完成对整列或者数据集的操作。而单独处理每个单元格或某一行这种遍历的行为，应该作为备用选择。

本教程

先说明下，本教程不是引导如何过度优化Pandas代码。因为Pandas在正确的使用下已经很快了。此外，优化代码和编写清晰的代码之间的差异是巨大的。

这是一篇关于“如何充分利用Pandas内置的强大且易于上手的特性”的指引。此外，你将学习到一些实用的节省时间的技巧。在这篇教程中，你将学习到：

· 使用datetime时间序列数据的优势

· 处理批量计算更效率的方法

· 利用HDFStore节省时间

在本文中，耗电量时间序列数据将被用于演示本主题。加载数据后，我们将逐步了解更有效率的方法取得最终结果。对于Pandas用户而言，会有多种方法预处理数据。但是这不意味着所有方法都适用于更大、更复杂的数据集。

【注】

Github 源码见文末【1】

【工具】

Python 3、Pandas 0.23.1

任务

本例使用能源消耗的时间序列数据计算一年能源的总成本。由于不同时间段的电价不同，因此需要将各时段的耗电量乘上对应时段的电价。

从CSV文件中可以读取到两列数据：日期时间和电力消耗(千瓦)

pandas的自带数据集_如何正确使用Pandas库提升项目的运行速度？_第2张图片

每行数据中都包含每小时耗电量数据，因此整年会产生8760(356×24)行数据。每行的小时数据表示计算的开始时间，因此1/1/13 0：00的数据指1月1号第1个小时的耗电量数据。

用Datetime类节省时间

首先用Pandas的一个I/O函数读取CSV文件：

>>> import pandas as pd

这结果看上去挺好，但是有个小问题。Pandas 和NumPy有个数据类型dtypes概念。假如不指定参数的话，date_time这列将会被归为默认类object：

>>> df.dtypes

默认类object不仅是str类的容器，而且不能齐整的适用于某一种数据类型。字符串str类型的日期在数据处理中是非常低效的，同时内存效率也是低下的。

为了处理时间序列数据，需要将date_time列格式化为datetime类的数组，Pandas 称这种数据类型为时间戳Timestamp。用Pandas进行格式化相当简单：

>>> df[

至此，新的df和CSV file内容基本一样。它有两列和一个索引。

df

上述代码简单且易懂，但是有执行速度如何呢？这里我们使用了timing装饰器，这里将装饰器称为@timeit。这个装饰器模仿了Python标准库中的timeit.repeat() 方法，但是它可以返回函数的结果，并且打印多次重复调试的平均运行时间。Python的timeit.repeat() 只返回调试时间结果，但不返回函数结果。

将装饰器@timeit放在函数上方，每次运行函数时可以同时打印该函数的运行时间。

>>> @timeit(repeat=

看结果如何？处理8760行数据耗时1.6秒。这似乎没啥毛病。但是当处理更大的数据集时，比如计算更高频的电费数据，给出每分钟的电费数据去计算一整年的总成本。数据量会比现在多60倍，这意味着你需要大约90秒去等待输出的结果。这就有点忍不了了。

实际上，作者工作中需要分析330个站点过去10年的每小时电力数据。按上边的方法，需要88分钟完成时间列的格式化转换。

有更快的方法吗？一般来说，Pandas可以更快的转换你的数据。在本例中，使用格式参数将csv文件中特定的时间格式传入Pandas的to_datetime中，可以大幅的提升处理效率。

>>> @timeit(repeat=

新的结果如何？0.032秒，速度提升了50倍！所以之前330站点的数据处理时间节省了86分钟。

一个需要注意的细节是CSV中的时间格式不是ISO 8601格式：YYYY-mm-dd HH：MM。如果没有指定格式，Pandas将使用dateuil包将每个字符串格式的日期格式化。相反，如果原始的时间格式已经是ISO 8601格式了，Pandas可以快速的解析日期。

【注】Pandas的read_csv()方法也提供了解析时间的参数。详见parse_dates，infer_datetime_format，和date_parser参数。

遍历

日期时间已经完成格式化，现在准备开始计算电费了。由于每个时段的电价不同，因此需要将对应的电价映射到各个时段。此例中，电价收费标准如下：

pandas的自带数据集_如何正确使用Pandas库提升项目的运行速度？_第3张图片

如果电价全天统一价28美分每千瓦每小时，大多数人都知道可以一行代码实现电费的计算：

>>> df[

这行代码将创建一行新列，该列包含当前时段的电费：

date_time

但是电费的计算取决于不用的时段对应的电价。这里许多人会用非Pandas式的方式：用遍历去完成这类计算。

在本文中，将从最基础的解决方案开始介绍，并逐步提供充分利用Pandas性能优势的Python式解决方案。

但是对于Pandas库来说，什么是Python式方案？这里是指相比其他友好性较差的语言如C++或者Java，它们已经习惯了“运用遍历”去编程。

如果不熟悉Pandas，大多数人会像以前一样使用继续遍历方法。这里继续使用@timeit装饰器来看看这种方法的效率。

首先，创建一个不同时段电价的函数：

def apply_tariff(kwh, hour):

如下代码就是一种常见的遍历模式：

# 注意：不要尝试该函数！

对于没有用过Pandas的Python用户来说，这种遍历很正常：对于每个x，再给定条件y下，输出z。

但是这种遍历很笨重。可以将上述例子视为Pandas用法的“反面案例”，原因如下几个。

首先，它需要初始化一个列表用于存储输出结果。

其次，它用了隐晦难懂的类range(0, len(df))去做循环，接着在应用apply_tariff()函数后，还必须将结果增加到列表中用于生成新的DataFrame列。

最后，它还使用链式索引df.iloc[i]['date_time']，这可能会生产出很多bugs。

这种遍历方式最大的问题在于计算的时间成本。对于8760行数据，花了3秒钟完成遍历。下面，来看看一些基于Pandas数据结构的迭代方案。

用.itertuples()和.iterrow()遍历

还有其他办法吗？

Pandas实际上通过引入DataFrame.itertuples()和DataFrame.iterrows()方法使得for i in range(len(df))语法冗余。这两种都是产生一次一行的生成器方法。

.itertuples()为每行生成一个nametuple类，行的索引值作为nametuple类的第一个元素。nametuple是来自Python的collections模块的数据结构，该结构和Python中的元组类似，但是可以通过属性查找可访问字段。

.iterrows()为DataFrame的每行生成一组由索引和序列组成的元组。

与.iterrows()相比，.itertuples()运行速度会更快一些。本例中使用了.iterrows()方法，因为很多读者很可能没有用过nametuple。

repeat=

取得一些不错的进步。语法更清晰，少了行值i的引用，整体更具有可读性了。在时间收益方面，几乎快了5倍！

但是，仍然有很大的改进空间。由于仍然在使用for遍历，意味着每循环一次都需要调用一次函数，而这些本可以在速度更快的Pandas内置架构中完成。

Pandas的.apply()

可以用.apply()方法替代.iterrows()方法提升效率。Pandas的.apply()方法可以传入可调用的函数并且应用于DataFrame的轴上，即所有行或列。此例中，借助lambda功能将两列数据传入apply_tariff()：

>>> @timeit(repeat=

.apply()的语法优势很明显，代码行数少了，同时代码也更易读了。运行速度方面，这与.iterrows()方法相比节省了大约一半时间。

但是，这还不够快。一个原因是.apply()内部尝试在Cython迭代器上完成循环。但是在这种情况下，lambda中传递了一些无法在Cython中处理的输入，因此调用.apply()时仍然不够快。

如果使用.apply()在330个站点的10年数据上，这大概得花15分钟的处理时间。假如这个计算仅仅是一个大型模型的一小部分，那么还需要更多的提升。下面的向量化操作可以做到这点。

用.isin()筛选数据

之前看到的如果只有单一电价，可以将所有电力消耗数据乘以该价格df['energy_kwh'] * 28。这种操作就是一种向量化操作的一个用例，这是Pandas中最快的方式。

但是，在Pandas中如何将有条件的计算应用在向量化操作中呢？一种方法是，根据条件将DataFrame进行筛选并分组和切片，然后对每组数据进行对应的向量化操作。

在下面的例子中，将展示如何使用Pandas中的.isin()方法筛选行，然后用向量化操作计算对应的电费。在此操作前，将date_time列设置为DataFrame索引便于向量化操作：

'date_time', inplace=

执行结果如下：

>>> apply_tariff_isin(df)
Best of 3 trials with 100 function calls per trial:
Function `apply_tariff_isin` ran in average of 0.010 seconds.

要理解这段代码，也许需要先了解.isin()方法返回的是布尔值，如下：

[False, False, False, ..., True, True, True]

这些布尔值标记了DataFrame日期时间索引所在的时段。然后，将这些布尔值数组传给DataFrame的.loc索引器时，会返回一个仅包含该时段的DataFrame切片。最后，将该切片数组乘以对应的时段的费率即可。

这与之前的遍历方法相比如何？

首先，不需要apply_tariff()函数了，因为所有的条件逻辑都被应用在了被选中的行。这大大减少了代码的行数。

在速度方面，比普通的遍历快了315倍，比.iterrows()方法快了71倍，且比.apply()方法快了27倍。现在可以快速的处理大数据集了。

还有提升空间吗？

在apply_tariff_isin()中，需要手动调用三次df.loc和df.index.hour.isin()。比如24小时每个小时的费率不同，这意味着需要手动调用24次.isin()方法，所以这种方案通常不具有扩展性。幸运的是，还可以使用Pandas的pd.cut()功能：

@timeit(repeat=3, number=100)

pd.cut()根据分组bins产生的区间生成对应的标签“费率”。

【注】include_lowest参数设定第一个间隔是否包含在组bins中，例如想要在该组中包含时间在0时点的数据。

这是种完全向量化的操作，它的执行速度已经起飞了：

>>> apply_tariff_cut(df)
Best of 3 trials with 100 function calls per trial:
Function `apply_tariff_cut` ran in average of 0.003 seconds.

至此，现在可以将330个站点的数据处理时间从88分钟缩小到只需不到1秒。但是，还有最后一个选择，就是使用NumPy库来操作DataFrame下的每个NumPy数组，然后将处理结果集成回DataFrame数据结构中。

还有NumPy！

别忘了Pandas的Series和DataFrame是在NumPy库的基础上设计的。这提供了更多的灵活性，因为Pandas和NumPy数组可以无缝操作。

在下一例中，将演示NumPy的digitize()功能。它和Pandas的cut()功能类似，将数据分组。本例中将DataFrame中的索引(日期时间)进行分组，将三个时段分入三组。然后将分组后的电力消耗数组应用在电价数组上：

@timeit(repeat=3, number=100)

和cut()一样，语法简单易读。但是速度如何呢？

>>> apply_tariff_digitize(df)
Best of 3 trials with 100 function calls per trial:
Function `apply_tariff_digitize` ran in average of 0.002 seconds.

执行速度上，仍然有提升，但是这种提升已经意义不大了。不如将更多精力去思考其他的事情。

Pandas可以提供很多批量处理数据方法的备用选项，这些已经在上边都一一演示过了。这里将最快到最慢的方法排序如下：

1. 使用向量化操作：没有for遍历的Pandas方法和函数。

2. 使用.apply()方法。

3. 使用.itertuples()：将DataFrame行作为nametuple类从Python的collections模块中进行迭代。

4. 使用.iterrows()：将DataFrame行作为(index，pd.Series)元组数组进行迭代。虽然Pandas的Series是一种灵活的数据结构，但将每一行生成一个Series并且访问它，仍然是一个比较大的开销。

5. 对逐个元素进行循环，使用df.loc或者df.iloc对每个单元格或者行进行处理。

【注】以上顺序不是作者的建议，而是Pandas核心开发人员给的建议。

以下是本文中所有函数的调试时间汇总：

用HDFstore存储预处理数据

已经了解了用Pandas快速处理数据，现在我们需要探讨如何避免重复的数据处理过程。这里使用了Pandas内置的HDFStore方法。

通常在建立一些复杂的数据模型时，对数据做一些预处理是很常见的。例如，假如有10年时间跨度的分钟级的高频数据，但是模型只需要20分钟频次的数据或者其他低频次数据。你不希望每次测试分析模型时都需要预处理数据。

一种方案是，将已经完成预处理的数据存储在已处理数据表中，方便需要时随时调用。但是如何以正确的格式存储数据？如果将预处理数据另存为CSV，那么会丢失datetime类，再次读入时必须重新转换格式。

Pandas有个内置的解决方案，它使用HDF5，这是一种专门用于存储数组的高性能存储格式。Pandas的HDFstore方法可以将DataFrame存储在HDF5文件中，可以有效读写，同时仍然保留DataFrame各列的数据类型和其他元数据。它是一个类似字典的类，因此可以像Python中的dict类一样读写。

以下是将已经预处理的耗电量DataFrame写入HDF5文件的方法：

# 创建存储类文件并命名 `processed_data`

将数据存储在硬盘以后，可以随时随地调取预处理数据，不再需要重复加工。以下是关于如何从HDF5文件中访问数据的方法，同时保留了数据预处理时的数据类型：

# 访问数据仓库

一个数据仓库可以存储多张表，每张表配有一个键。

【注】使用Pandas的HDFStore需要安装PyTables>=3.0.0，因此安装Pandas后，需要更新PyTables：

install

总结

如果觉得你的Pandas项目不具备速度快、灵活、简单且直观的特征，那么该重新思考使用该库的方式了。

本文中已经相当直观的展示了正确的使用Pandas是可以大幅改善运行时间，以及代码可读性的。以下是应用Pandas的一些经验性的建议：

① 尝试更多的向量化操作，尽量避免类似for x in df的操作。如果代码中本身就有许多for循环，那么尽量使用Python自带的数据结构，因为Pandas会带来很多开销。

② 如果因为算法复杂无法使用向量化操作，可以尝试.apply()方法。

③ 如果必须循环遍历数组，可用.iterrows()或者.itertuples()改进语法和提升速度。

④ Pandas有很多可选项操作，总有几种方法可以完成从A到B的过程，比较不同方法的执行方式，选择最适合项目的一种。

⑤ 做好数据处理脚本后，可以将中间输出的预处理数据保存在HDFStore中，避免重新处理数据。

⑥ 在Pandas项目中，利用NumPy可以提高速度同时简化语法。

pandas的自带数据集_如何正确使用Pandas库提升项目的运行速度？_第5张图片

END

更多内容请关注“挖地兔”公众号。

pandas的自带数据集_如何正确使用Pandas库提升项目的运行速度？_第6张图片

【参考链接】

https://github.com/realpython/materials/tree/master/pandas-fast-flexible-intuitive【1】

https://realpython.com/fast-flexible-pandas/

【扩展阅读】
这些方法解决了数据清洗80%的工作量
利用Python玩转PDF，简单实用
利用python进行蒙特卡罗模拟
利用Tushare数据实现知识图谱效果
你真的懂线程吗？史上最全Python线程解析

不同客户群，交互设计原则 zhanggongzichu 个人成长前端交互设计规范
1.对于不同客户群，交互设计原则ToB（企业对企业）和ToC（企业对消费者）ToC客户群简单性和直观性：产品界面应简单直观，容易理解和操作，不需要用户培训。个性化和情感化：考虑用户情感需求，通过设计语言和交互方式建立情感联系。视觉吸引力：强调视觉设计的吸引力，以吸引用户眼球和提升用户体验。互动性：提供丰富的互动元素，例如动画、过渡效果，以增强用户参与感和互动体验。ToB客户群效率和功能性：产品设计
npm、cnpm、pnpm、yarn包管理工具别傻傻分不清楚了青苔猿猿 nodejs npm 前端 node.js pnpm yarn cnpm node包管理器
干啥的：nodejs的包管理工具。用于自动化处理包的安装、更新、配置和管理。它们之间的主要区别在于它们各自的实现方式、性能优化、以及一些特有的功能。怎么用：1、npm1.1、描述NodePackageManager默认包管理器从npm公共仓库中安装、共享和分发代码包npm在项目中创建一个node_modules文件夹，其中包含所有的依赖项。每个项目的依赖都是独立安装的，这可能会导致重复的包和较大的
npm、cnpm、pnpm、yarn的区别迷途小码农零零发前端知识库 npm 前端 node.js
npm,cnpm,pnpm,和yarn都是JavaScript的包管理工具，用于自动化处理包的安装、更新、配置和管理。它们之间的主要区别在于它们各自的实现方式、性能优化、以及一些特有的功能。npmnpm(NodePackageManager)是Node.js的默认包管理器，也是最早被广泛接受和使用的JavaScript包管理工具。它允许用户从npm公共仓库中安装、共享和分发代码包。npm在项目中创
Python的绝对引入和相对引入 wildland python
Python的绝对引入和相对引入绝对引入相对引入参考于：https://www.bilibili.com/video/BV1EK411g7Ff在python中有一些常见的概念，并且这些概念可能会被混淆：脚本（script）：一个python文件，可以直接运行用于实现特定的功能。通常不包含类和函数，只是用来执行。模块（module）：也是一个python文件，通常包含了一些类和函数，用来被其他文件引
成绩统计（蓝桥云课）盖世沈复. c语言练习题蓝桥杯 c语言 c++
题目描述小蓝给学生们组织了一场考试，卷面总分为100分，每个学生的得分都是一个0到100的整数。如果得分至少是60分，则称为及格。如果得分至少为85分，则称为优秀。请计算及格率和优秀率，用百分数表示，百分号前的部分四舍五入保留整数。输入描述输入的第一行包含一个整数n\(1\leqn\leq10^4)n(1≤n≤104)，表示考试人数。接下来nn行，每行包含一个0至100的整数，表示一个学生的得分。
Java基础入门3《IDEA使用与数据类型详解》圆圆Alice Alice的Java学习笔记 intellij idea java
Hi，我又出现了，是Alice，今天我学习的是，刚刚入门，肯定是先搞定各种开发工具，还一些理解性的内容，视频来源于‘蓝桥研究院’.....本节笔记重点提要：本节笔记重点提要：1.IntellijIdea下载与安装2.IntellijIdea使用3.使用IntellijIdea打印一个界面（案列）4.变量5.Java的数据类型、数据范围、符号的意义——————————————————————————
Python 函数魔法书：基础、范例、避坑、测验与项目实战李智 - 重庆 Python 精讲精练 -从入门到实战 python 经验分享编程技巧编程实战水平考试
Python函数魔法书：基础、范例、避坑、测验与项目实战内容简介本系列文章是为Python3学习者精心设计的一套全面、实用的学习指南，旨在帮助读者从基础入门到项目实战，全面提升编程能力。文章结构由5个版块组成，内容层层递进，逻辑清晰。基础速通：n个浓缩提炼的核心知识点，夯实编程基础；经典范例：10个贴近实际的应用场景，深入理解Python3的编程技巧和应用方法；避坑宝典：10个典型错误解析，提供解
[TriCore][官方例程][TC397以太网例程详解] - 5.IP 地址声明 MaoXian_n TriCore官方例程 tcp/ip 网络协议网络嵌入式硬件驱动开发
关键词TC397官方例程；TC397以太网例程；TC397GETH；简介本篇为AurixTriCoreTC397以太网官方例程分析，重点关注其硬件行为调试所用的开发板型号：KIT-A2G-TC397-5V-TFT所使用的例程：Ethernet_1_KIT_TC397_TFT英飞凌TriCore官方例程下载地址：GitHub-Infineon/AURIX_code_examples:Thisrepo
工程师必读一次性讲明白系列（十四）XCU、BMS、BCM 、VCU 、MCU 空间机器人单片机嵌入式硬件
工程师必读一次性讲明白系列（十四）:XCU（多域控制器）、BMS、BCM（车身控制器）、VCU（整车控制器）、MCU（电机电控）今天我们要深入浅出地讨论一些电动汽车里不可或缺的控制系统，分别是XCU（多域控制器）、BMS（电池管理系统）、BCM（车身控制器）、VCU（整车控制器）和MCU（电机电控）。这些系统像“汽车的大脑和神经”，一起保证着车辆的高效、安全和舒适。我们将用简单又有趣的方式讲解原理
Oracle 创建用户和表空间天农学子 oracle 数据库
Oracle创建用户和表空间使用sys账户登录建立临时表空间--建立临时表空间CREATETEMPORARYTABLESPACETEMP_POS--创建名为TEMP_POS的临时表空间TEMPFILE'/oracle/oradata/POS/TEMP_POS.DBF'--临时文件SIZE50M--其初始大小为50MAUTOEXTENDON--支持自动扩展NEXT50M--20480M--每次增量为
调整oracle服务器时间,那些年Oracle数据库主机时间调整的风花雪月环球旅行船长调整oracle服务器时间
最近工作中又遇到因时间问题导致的故障，这让本新四有好青年想起了N年前的一个案例，今天整理分享一下。当时是应用反应主机时间与正确的时间相差有8分多钟，影响了正常的业务，登录发现主机的NTP服务是开启的，查看NTP同步状态：可以看到offset是0.051s,基本没有延迟，那么问题就出在Ntpserver时间存在不准确的可能，通过主机侧查看，果然server端存在延迟的情况。为尽快恢复业务，通过以下方
基于微信小程序的校园二手物品交易平台的设计与实现 AI天才研究院计算大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
基于微信小程序的校园二手物品交易平台的设计与实现1.背景介绍1.1校园二手物品交易的需求在校园生活中,学生们经常会遇到一些闲置物品需要出售或者需要购买的情况。传统的校园二手物品交易方式存在诸多不便,比如信息不对称、交易渠道单一、安全性和可信度较低等问题。随着移动互联网的快速发展,基于微信小程序的校园二手物品交易平台应运而生,为校园师生提供了一个高效、便捷、安全的二手物品交易渠道。1.2微信小程序的
构建 Q&A 系统：基于文档和模型的问答 drebander AI 编程 springAI
在现代企业中，自动化的问答系统可以极大地提升工作效率，特别是在文档处理、客户支持和知识管理等领域。通过结合SpringAI和文档检索技术，可以轻松构建一个智能的问答系统，帮助用户从文档中快速获取信息。本文将展示如何利用SpringAI构建一个可以根据文档内容回答问题的智能Q&A系统。1.构建智能Q&A系统的背景现代的Q&A系统不仅需要能理解用户的问题，还需要能够从大量文档中找到相关的答案。传统的问
Java服务端服务网关：Kong与Spring Cloud Gateway的比较微赚淘客系统开发者@聚娃科技 java kong 网络
Java服务端服务网关：Kong与SpringCloudGateway的比较大家好，我是微赚淘客返利系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！在微服务架构中，服务网关是至关重要的组件，它负责处理服务间的入站和出站流量，提供路由、过滤、限流等功能。Kong和SpringCloudGateway是两个流行的服务网关解决方案，它们各有特点和优势。本文将对Kong和SpringCloudG
你还在以为golang切片扩容是1/4的增加吗?其实早就已经变啦! 爱学习的狮王 go golang 开发语言后端
golang切片扩容原理变化前言切片扩容对比Go1.17(这个版本中的扩容也是目前大部分书籍和博客中讲到的切片扩容内容)Go1.18(这个是目前实际的扩容规则,虽然在1.20中入参变了,但是核心的扩容逻辑没有变,所以还是以1.18举例)结语前言最近看go语言的切片原理时发现实际的扩容规则和一些博客和书上讲的不一致,所以看看各版本的源码中切片的扩容到底是怎么做的,看源码是最快捷且准确的方式,go语言
（新春特辑）腾讯开源MimicMotion整合包，最强图片生成跳舞视频的动作视频模型，动作丝滑没有破绽 struggle2025 人工智能计算机视觉机器学习 AI作画腾讯云AI代码助手
一、项目介绍：（文末提供下载）腾讯图片生成跳舞视频的项目MimicMotion，高质量人类动作视频生成与置信感姿势。亮点：丰富的细节，良好的时间平滑性，以及长视频长度。效果同时支持面部特征和唇形同步，不止可以搞跳舞视频，也可以做数字人。本文信息图片均来源于GitHub开源地址：https://github.com/Tencent/MimicMotion二、效果展示三、概述近年来，生成式人工智能在图
React Native常见报错解决整理飞翔的熊blabla react
转载于:https://blog.csdn.net/u010127332/article/details/83622209ReactNative从开发环境到入门练手，再到跑几个开源demo的整个过程中，遇到了不少问题，以下是对报错现象及解决方法的记录：Mac上运行iOS项目问题1：npmERR!UnexpectedendofJSONinputwhileparsingnear‘…ire-main-f
一旦Docker出现宕机，运行其中的Oracle数据库如何快速恢复？邱邱i Docker docker oracle 数据库
背景描述：数据库运行中，docker服务异常宕机，如何快速恢复oracle数据库服务场景一：docker服务能够重新拉起，但是容器无法拉起场景二：docker服务无法拉起，一、准备工作禁止Docker的自动拉起修改为novi/usr/lib/systemd/system/docker.serviceRestart=no重启生效[root@e3qiutldor05system]#systemctld
大话特征工程：2.特征组合与描述 nnerddboy 白话机器学习机器人
公元2147年，人类文明站在科技的巅峰，所有决策、发展甚至感知都被“全维计算网络”所掌控。这套系统以高维空间中的数据为基础，试图预测并塑造未来。然而，这场辉煌的技术革命却在悄无声息之间酿成了人类最大的危机——维数灾难。系统的高维特征空间本应为复杂世界提供精确的洞察，但却因维度的无限膨胀开始背离现实。全球天气失控、医疗系统陷入混乱、社会资源分配崩溃，这些技术上的崩坏正在逐步渗透进人类的感知之中。建筑
算法设计与分析-----贪心法拾亿-唯一算法算法贪心算法 c语言
算法设计与分析-----贪心法(c语言）一、贪心法1、定义2、贪心法具有的性质1、贪心选择性质2、最优子结构性质3、贪心法的算法框架5、求解活动安排问题6、求解最优装载问题二、贪心法实验1、实验一求解田忌赛马问题2、实验二求解多机调度问题3、实验三哈夫曼编码一、贪心法1、定义贪心法的基本思路是在对问题求解时总是做出在当前看来是最好的选择，也就是说贪心法不从整体最优上加以考虑，所做出的仅是在某种意义
Transformers库的模板困境：apply_chat_template的版本变迁与解决方案 Gaffey大杂烩大模型 windows linux 数据库
目录问题现状低版本（4.43及以下）的简便方式高版本的报错问题原因分析旧版本的实现逻辑新版本的变化解决办法问题现状在使用Transformers库中的tokenizer处理模型输入时，我们经常需要将输入文本格式化为模型可以理解的格式。这个过程在不同版本的Transformers库中有着显著的差异。低版本（4.43及以下）的简便方式在Transformers4.43及更低版本中，当我们需要加载类似C
Mac Electron 应用公证(notarization)失败, appid or password was entered incorrectly 楠辞琦咎 electron mac 前端
MacElectron应用公证(notarization)失败,appidorpasswordwasenteredincorrectly最近在开发electron桌面应用，最后需要打包后进行签名和公证才能给其他电脑正常打开运行，网上主流的有electron-notarize插件和命令行工具这两种方法，这里说说命令行公证时的一个坑正题来了：具体命令行公证方法可移步-》MacElectron应用的签名
【TC3xx芯片】AUTOSAR架构下内部看门狗复位检测汽车电子嵌入式 AUTOSAR精进之路 AUTOSAR WatchDog 功能安全 SMU TC3xx 架构
目录前言正文1.背景知识1-内部看门狗2.背景知识2-SMU问题：我们在SMU中断处理程序或者NMItraphandler中怎么确定时WatchDog上报的alarm了？3.背景知识3-CSA问题1：什么是CSA？问题2：怎么知道一块CSA保存的UpperCotext还是LowerContext？问题3：CPU如果管理所有的CSA内容？问题4：CSA中的什么信息和看门狗复位最为相关？问题5：看门狗
包管理器-npm、yarn、cnpm、pnpm的比较小禄不迷路 npm 前端
1.npm(nodepackagemanage)1.1本地安装使用命令：npminstall包名或npmi包名本地安装的包出现在当前目录下的node_module目录中如果本地安装的包带有CLI，npm会将它的CLI脚本放置到node_modules/.bin下，使用npx命令即可调用。1.2全局安装全局安装的包放置在一个特殊的全局目录。使用命令npminstall--global包名或npmi-
【力扣每日一题】解答分析 1010. 总持续时间可被 60 整除的歌曲对数迪小莫学AI leetcode 算法职场和发展
1010.总持续时间可被60整除的歌曲对数题目简介给定一个整数数组time，表示每首歌曲的持续时间（以秒为单位），我们希望计算出数组中所有歌曲对(i,j)，使得iint:res=0n=len(time)foriinrange(n):forjinrange(i+1,n):if(time[i]+time[j])%60==0:res+=1returnres问题与瓶颈由于暴力解法需要两层循环来遍历所有可能
Ollama 可以设置的环境变量刘贤松工具服务器运维
在Ollama的世界里，环境变量如同神秘的符文，它们是控制和定制这个强大工具的关键。通过精心设置这些环境变量，我们可以让Ollama更好地适应我们的需求，就像调整一把精密的乐器，使其奏出最和谐的旋律。以下是一些可以设置的环境变量，它们将帮助我们驾驭Ollama，让它成为我们探索数据海洋的得力助手。Llama3.1是Meta（Facebook的母公司）发布的一系列最先进的开源大语言模型。Llama3
PyAutoGUI 使用教程 —— 喜欢你就 Copy 一下冰雪危境 Python python
前言PyAutoGUI是一个纯Python的GUI自动化工具，它可以让程序自动控制鼠标和键盘等一系列操作来达到自动化操作目的。使用PyAutoGUI脚本，在执行期间，应避免手动移动鼠标或进行键盘输入，以免干扰脚本的执行。全局暂停设置：通过设置全局变量pyautogui.PAUSE=“秒”，来每个延迟每个动作执行的暂停时间，以防止错误或干扰。自动防故障：将鼠标快速移到屏幕左上角，脚本会立即停止执行。
Docker最新安装教程基于centos7.9 Acerola- 菜鸡上路 docker
1.基本准备Docker要求内核版本3.10以上,请务必注意,安装教程基于centos7.9,内核版本3.10.0-1160.11.1.el7.x86_64#查看内核版本命令uname-r2.安装以下步骤依次进行#安装环境依赖yuminstall-yyum-utils#设置下载Docker的镜像源yum-config-manager\--add-repo\https://zfzbet67.mirr
springboot整合Logback m0_74825634 面试学习路线阿里巴巴 spring boot logback 后端
Logback介绍描述Logback是由log4j创始人设计的另外一种开源日志组件，性能比log4j要好。相对是一个可靠、通用、快速而又灵活的Java日志框架。Logback主要分三个模块1、logback-core：其他两个模块的基础模块2、logback-classic：它是log4j的一个改良版本，同时它完整实现了slf4j。API，可以很方便地更换成其它日志系统，如log4j或JDK14L
【Docker】Docker中的动态容器管理：利用Golang实现Docker容器动态重命名的高级策略与最佳实践 m0_74825634 面试学习路线阿里巴巴 docker golang 容器
【Docker】Docker中的动态容器管理：利用Golang实现Docker容器动态重命名的高级策略与最佳实践大家好我是寸铁??总结了一篇【Docker】Docker中的动态容器管理：利用Golang实现Docker容器动态重命名的高级策略与最佳实践喜欢的小伙伴可以点点关注??前言今天遇到一个新的需求，要动态改变运行中的容器名字。可以考虑先把容器删除再重新创建容器那这里要考虑一个问题:假设我容器
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S

pandas的自带数据集_如何正确使用Pandas库提升项目的运行速度？

你可能感兴趣的:(pandas的自带数据集)