Python,Numpy,Pandas…数据科学家必备排序技巧!

对数据进行分类整理是数据科学家和数据工程师的基础工作。Python会提供许多内置库，优化排序选项。有些库甚至可以同时在GPU上运行。令人惊奇的是，一些排序方法并没有使用之前所述的算法类型，其他方法的执行效果也不如预期。

选择使用哪种库和哪类排序算法着实难办，因为算法的执行变化很快。本文将具体展开讲解，提供一些帮助记忆算法的技巧，分享测速的结果。

分好类的茶

Python资源共享群：626017123

开始排序吧!

更新于2019年7月17日：速度测试结果现在包括PyTorch和TensorFlow的GPU执行。TensorFlow还包括tensorflow==2.0.0-beta1和tensorflow-gpu==2.0.0-beta1下的CPU结果。令人感到惊奇的发现是：PyTorch GPU变亮的速度更快，TensorFlow GPU比TensorFlow CPU速度更慢。

有许多不同的基本排序算法。有些比其他执行速度更快、占用内存更小。有些适合处理大数据，还有些可以更好地对特定序列数据进行排排序。可参见下表了解许多常用算法的时间和空间复杂性。

图片来自 http://bigocheatsheet.com/

了解基础的算法并不能解决大多数数据科学问题。事实上，过早的优化处理说不定什么时候就会被视为错误源泉。不过需要重复排序大量数据时，知道使用哪个库和哪些关键字参数会十分有用。以下是一个备忘表。

Google表格可 在此处获取

多年来，许多库的排序算法都发生了变化。用于本文分析的软件版本如下。

python 3.6.8
numpy 1.16.4
pandas 0.24.2
tensorflow==2.0.0-beta1
#tensorflow-gpu==2.0.0-beta1 slows sorting
pytorch 1.1

让我们从基础开始吧!

Python (vanilla版)

Python包含两个内置排序法。

my_list.sort()对原有列表进行排序。改变了列表。sort()返回None。
sorted(my_list)生成任何可迭代的排序副本。sorted()返回已排序的迭代。sort()不会改变原始迭代。

sort()应该更快，因为已到位。神奇的是这不是下面测试中的发现。就地排序更危险，因为会改变原始数据。

香草味冰激凌

说到vanilla版Python，本文呈现的默认排序顺序都是升序—从小到大。大多数排序方法采用关键字参数，将顺序切换为降序。对大脑来说很不幸，因为每个库的参数名称都不同。

要将vanilla Python中排序方式更改为降序，通过reverse = True.

key可以作为关键字参数来传递，从而创建自己的排序标准。例如，sort(key = len)将按照每个列表项的长度排序。

Vanilla Python中唯一使用的排序算法是Timsort。Timsort会根据要排序的数据特征选择排序方法。举个例子，如果排短列表，就采用插入排序。

Timsort以及Vanilla Python的其他算法都很稳定。这意味着如果有多个相同值，这些数据在排序后仍维持原始顺序。

想要记住sort()与sorted()不同，就记着sorted比sort单词长，并且因复制需要排序时间会更长。虽然下面的结果与传统观念相悖，但助记符仍然起作用。

NumPy

Numpy是用于科学计算的Python基础库。与vanilla Python一样，有两种执行方式，一种是变异数组，另一种是数据的复制。

my_array.sort()改变有序数组并返回已排序数组。
np.sort(my_array)返回已排序数组的副本，因此原始数组不会改变。

以下是可选参数。

axis：int，可选—要排序的轴。默认值为-1，表示沿最后一个轴排序。
kind：{'quicksort'，'mergesort'，'heapsort'，'stable'}，可选—排序算法。默认为'quicksort'。详细信息如下。
order：str或str的列表，可选—当a是已定义字段的数组时，该参数会指定首先比较哪一字段，其次是哪个等等。可以指定单个字段为字符串，而且不是所有字段都需指定，不过仍需按照未指定字段在dtype中的顺序执行，打破联系。

现在，人们使用的排序算法与根据名字联想的略有不同。通过kind = quicksort意味着排序实际是从introsort算法开始的。

若[它]没有明显进展，则会切换成堆排序算法。执行该操作最坏的情况就是产生快速排序O(n * log(n))。Stable会自动为正在排序的数据类型选择最稳定的排序算法。目前依据数据类型，它与合并排序一起映射到tim排序或基数排序中。API前向兼容性目前抑制了选择执行的能力，并且是不同数据类型的硬连线。添加Timsort是为了更好地处理已完成或几乎排好序的数据。对于随机数据，timsort在处理方式上几乎与mergesort相同。现在timsort用于稳定排序，而在没有其他选择的情况下，quicksort仍为默认排序...'mergesort'和'stable'会映射到整数数据类型的基数排序。来自Numpy文档 -(部分内容有改动)

其中一点是Numpy提供了比vanilla Python排序算法选项更大的控制范围。第二点是kind关键字值不一定与实际排序类型相对应。最后一点是mergesort和stable值是稳定的，但quicksort和heapsort不是。

Numpy排序是列表中唯一没有用关键字参数来反转排序顺序的操作。幸运的是，这个可快速反转数组顺序：my_arr [:: -1]。

Numpy算法选项在更受欢迎的Pandas中也适用—而且这些功能更容易保持稳定。

Pandas

通过df.sort_values(by = my_column)对Pandas DataFrame进行排序。有许多可用关键字参数。

by：str或str of list，required—要排序的名称或名称列表。如果axis为0或index，那by可能会有索引级别和/或列标签。如果axis为1或columns，则by可能含级别和/或索引标签。
axis：{0或index，1或columns}，默认为0—排序轴。
ascending：bool或bool列表，默认为True—按升序与降序排序。指定多个排序顺序的列表。如果是bool列表，就必须与by参数长度匹配。
inplace：bool，默认为False—如果为True，则直接对其执行操作。
kind：{quicksort，mergesort，heapsort或stable}，默认快速排序—选择排序算法。可另参见ndarray.np.sort了解更多内容。对于DataFrames，此法仅应用于单列或单标签的排序。
na_position：{‘first’，‘last’}，默认‘last’ - 首先以NaNs作为开头，最后将NaNs作为结尾。

按照相同的句法对Pandas系列进行排序。用Series时，不需要输入by关键字，因为列不多。

Pandas用到了Numpy计算法，动动手指即可轻松获得同等优化的排序选项。但是，Pandas操作需要更多的时间。

按单列排序时的默认设置是Numpy的quicksort。如果排序进度很慢，那么实际为内省排序的quicksort会变为堆排序。Pandas确保多列排序使用Numpy的mergesort。Numpy中的mergesort实际用的是Timsort和Radix排序算法。这些排序算法都很稳定，而且多数列排序中稳定排序是很有必要的。

使用Pandas需记住的关键内容：

函数名称：sort_values()。
by= column_name或列名列表。
“ ascending”是逆转的关键字。
用mergesort进行稳定排序。

在进行探索性数据分析时，常发现自己是用Series.value_counts()在Pandas DataFrame中对值进行求和排序的。这是一个代码片段，用于每列常用值的求和和排序。

for c in df.columns:  
print(f"---- {c} ---")  
print(df[c].value_counts().head())

Dask，实际上是用于大数据的Pandas，到2019年中期还没有实现并行排序，尽管大家一直在讨论这个。

对小数据集进行探索性数据分析，Pandas排序是个不错的选择。当数据很大，想要在GPU上并行搜索时，你也许会想到TensorFlow或PyTorch。

TensorFlow

TensorFlow是最受欢迎的深度学习框架。以下是TensorFlow 2.0的简介。

tf.sort(my_tensor)返回tensor排序副本。可选参数有：

axis：{int，optional}待排序轴。默认值为-1，对最后一个轴进行排序。
direction：{ascending or descending}—数值排序的方向。
name：{str，optional}—操作的名称。

tf.sort在幕后使用top_k()方法。top_k使用CUB库的CUDA GPU促使并行性更容易实现。正如文档所述“CUB为CUDA编程模型的每一项程序都提供了最先进、可重复利用的软件组件。”TensorFlow通过CUB在GPU上使用基数排序。

为了使GPU能够满足TensorFlow 2.0，你需要!pip3 install tensorflow-gpu==2.0.0-beta1。我们会从下面的评论看到，如果你要进行排序，你可能想坚持tensorflow==2.0.0-beta1。

使用下面一小段代码来检查代码的每一行是否都能在CPU 或GPU中运行：

tf.debugging.set_log_device_placement(True)

为了详述你想要使用GPU,使用下面代码：

with tf.device('/GPU:0'):  
%time tf.sort(my_tf_tensor)

使用 with tf.device('/CPU:0'):为了使用CPU。

假如在TensorFlow中工作，tf.sort()是非常直观的记忆和使用方法。只需记住direction = descending可转换排序顺序。

PyTorch

torch.sort(my_tensor)返回tensor排序副本。可选参数有：

dim：{int，optional} - 待排序维度
descending：{bool，optional} - 控制排序顺序(升序或降序)。
out：{tuple，optional} - (Tensor，LongTensor)的输出元组，可以作为输出缓冲区。

通过将.cuda()粘贴到张量的末尾来指定要使用GPU进行排序。

gpu_tensor=my_pytorch_tensor.cuda()  
%time torch.sort(gpu_tensor)

一些分析表明，如果任何大于100万行乘以100,000列的数据集要排序，PyTorch将通过Thrust利用分段式并行排序。

不幸的是，当我们试图通过Google Colab中的Numpy创建1.1M x 100K随机数据点时，发现内存已不足。然后尝试了416 MB RAM的GCP，依旧没有内存。

分段排序和位置排序是mergesort的高性能体现，处理非均匀随机数据。分段排序使我们能够并行排序许多长度可变数组。 https://moderngpu.github.io/segsort.html

Thrust作为并行算法库，实现了GPU与多核CPU之间的联系。提供了排序原语，可自动选择最有效的执行方式。TensorFlow使用的CUB库会用来包装Thrust。PyTorch和TensorFlow在操作时GPU分类法相似 - 无论选择何种。

与TensorFlow一样，PyTorch的排序方法记起来相当容易：torch.sort()。唯一费脑子的是排序值的方向：TensorFlow使用direction，而PyTorch使用descending。

虽然用GPU进行排序对于非常大的数据集来说可能是一个很好的选择，但直接在SQL中对数据进行排序也是可以的。

SQL

SQL中的排序通常非常快，特别是在内存中执行时。

SQL很规范，但没有规定某操作必须使用哪种排序算法。Postgres使用磁盘合并排序，堆排序或快速排序，视情况而定。如果内存够，在内存中排序会更快。通过work_mem设置增加排序的可用内存。

其他SQL的执行使用不同排序算法。例如，根据Stack Overflow的回答，谷歌BigQuery的内省排序采取了一些措施。

SQL中的排序由ORDER BY命令执行。这种句法不同于所有使用单词sort的Python排序执行。其实更容易记住SQR语句与ODER BY，因为非常独特。

为使排序降序，请用关键字DESC。因此，按字母顺序从最后一个到第一个反馈给客户的查询如下所示：

SELECT Names FROM Customers
ORDER BY Names DESC;

比较

对于上面的每个Python库，我们对wall time进行了分析，以便在单列，单数组或单列表中对相同的1,000,000个数据点进行排序。同时使用了配有T4 GPU的Google Colab Jupyter笔记本。

数据来源: https://colab.research.google.com/drive/1NNarscUZHUnQ5v-FjbfJmB5D3kyyq9Av

观察

对于Numpy和Pandas，inplace比复制数据更快。这并不奇怪。
Pandas默认快速排序相当快。
大多数Pandas功能相对较慢。
TensorFlow操作相当快。
Python inplace排序慢得出奇。比Numpy inplace mergesort和TensorFlow慢了10倍。曾多次对其进行测试(使用不同的数据)来确认这不是一个异常现象。

重申，这只是一个小测试。绝对不是决定性的。

Wrap

通常不需要自定义排序。选择很多。一般不会采用单一的排序方法。相反，首先对数据进行评估，然后用效果更好的排序算法。如果排序进展不快，执行操作时也会自行改变算法。

在本文中，你已经了解了如何在Python数据科学堆和SQL中的每个板块里进行排序。

只需要记住选择哪个选项以及如何调用它们。可用上面的备忘表，节省时间。大致建议如下：

使用默认的Pandas sort_values()来探索相对较小的数据集。
数据集较大或运行速度较高时，尝试Numpy的就地合并，PyTorch或TensorFlow并行GPU方式或SQL。

【Python】一文详细介绍 py格式文件高斯小哥 Python基础【高质量合集】python 新手入门学习
【Python】一文详细介绍py格式文件个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文章目录一、py格式文件简介二、如何创建和编辑py格式文件三、如何运行py
python抓包与解包_Python—网络抓包与解包（pcap、dpkt） weixin_39691055 python抓包与解包
pcap安装[root@localhost~]#pipinstallpypcap抓包与解包#-*-coding:utf-8-*-importpcap,dpktimportre,threading,requests__black_ip=['103.224.249.123','203.66.1.212']#抓包：param1eth_name网卡名，如：eth0,eth3。param2p_type日志捕
华为OD机试 - 单向链表中间节点（Java & JS & Python & C & C++）华为OD题库华为od 链表 java
须知哈喽，本题库完全免费，收费是为了防止被爬，大家订阅专栏后可以私信联系退款。感谢支持文章目录须知题目描述输出描述解析代码题目描述给定一个单链表L，请编写程序输出L中间结点保存的数据。如果有两个中间结点，则输出第二个中间结点保存的数据。例如：给定L为1→7→5，则输出应该为7；给定L为1→2→3→4，则输出应该为3；输入描述每个输入包含1个测试用例。每个测试用例：第一行给出链表首结点的地址、结点总
python 推导式(派生、衍生) sanduo112 人工智能 python windows 开发语言
python推导式一、推导式(派生、衍生)1.Python推导式是一种独特的数据处理方式，可以从一个数据序列构建另一个新的数据序列的结构体。2.列表(list)推导式3.字典(dict)推导式4.集合(set)推导式5.元组(tuple)推导式二、代码概述一、推导式(派生、衍生)1.Python推导式是一种独特的数据处理方式，可以从一个数据序列构建另一个新的数据序列的结构体。Python支持各种数
数据挖掘|数据预处理|基于Python的数据标准化方法皖山文武数据挖掘数据建模与分析 python 数据挖掘开发语言
基于Python的数据标准化方法1.z-score方法2.极差标准化方法3.最大绝对值标准化方法在数据分析之前，通常需要先将数据标准化（Standardization），利用标准化后的数据进行数据分析，以避免属性之间不同度量和取值范围差异造成数据对分析结果的影响。1.z-score方法Z-score方法是基于原始数据的均值和标准差来进行数据标准化的，处理后的数据均值为0，方差为1，符合标准正态分布
CSV指南：Python程序获取大型CSV文件行数孤独打铁匠Julian 笔记经验分享 python
本指南提供了几种使用Python来获取大型CSV文件行数的方法，并解释了每种方法的适用场景。方法1:使用csv.reader处理复杂CSV文件当你的CSV文件中包含多行字段（即某些字段的值中包含换行符）时，使用csv.reader是一个可靠的选择，因为它能够正确处理这些复杂情况。这个方法适用于大多数大小的CSV文件，但是对于非常大的文件，读取整个文件可能会占用较多的时间和内存。对于极大的文件，考虑
谷歌浏览器驱动Chromedriver（114-120版本）文件以及驱动下载教程 pigerr杨 Python python chrome drivers
ChromeDriver官方网站GitHub||GoogleChromeLabs/chrome-for-testingChromeDriver113-125_JSONChromeforTestingavailability123-125zip白月黑羽Python基础|进阶|Qt图形界面|Django|自动化测试|性能测试|JS语言|JS前端|原理与安装
大创项目推荐深度学习 opencv python 公式识别(图像识别机器视觉) laafeer python
文章目录0前言1课题说明2效果展示3具体实现4关键代码实现5算法综合效果6最后0前言优质竞赛项目系列，今天要分享的是基于深度学习的数学公式识别算法实现该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！学长这里给一个题目综合评分(每项满分5分)难度系数：3分工作量：4分创新点：4分更多资料,项目分享：https://gitee.com/dancheng-senior/postgraduate1课题
python转码 Desamond python 开发语言
转码在许多场景中都有应用，以下是一些常见的场景：网页开发：当用户在网页上输入文本时，可能需要将特殊字符（如空格、引号、特殊符号等）进行转码，以防止这些字符对URL或HTML代码产生干扰。文件名处理：在处理文件名时，可能需要将特殊字符进行转码，以避免文件名被错误地解析或显示。数据传输：在数据传输过程中，为了确保数据的完整性和正确性，可能需要将数据中的特殊字符进行转码。数据存储：在数据库或数据存储中，
排序算法太多？常用排序都在这了，一篇文章总结和实现所有面试会考的排序算法（基于Python实现）宇宙之一粟不归路之Python #IT面试题收集与总结数据结构与算法算法数据结构排序算法 python java
文章目录排序算法1.常见的排序算法1.1选择排序1.1.1思想1.1.2实现**1.1.3选择排序分析**1.2冒泡排序**1.2.1思想****1.2.2实现****1.2.3冒泡排序分析**1.3插入排序**1.3.1思想****1.3.2实现****1.3.3插入排序分析**1.4归并排序☆☆★**1.4.1思想****1.4.2实现****1.4.3归并排序分析**1.5快速排序☆★★**
27.Python从入门到精通—Python异常处理抛出异常用户自定义异常定义清理行为预定义的清理行为以山河作礼。 #Python基础入门—详解版 python java 服务器
27.从入门到精通：Python异常处理抛出异常用户自定义异常定义清理行为预定义的清理行为异常处理抛出异常用户自定义异常定义清理行为预定义的清理行为异常处理在Python中，异常处理是一种处理程序在执行期间可能遇到的错误的方法。当Python解释器遇到错误时，它会引发异常。异常是一种Python对象，它包含有关错误的信息，例如错误类型和错误位置。为了处理异常，您可以使用try-except语句。在
python清华大学出版社答案_Python机器学习及实践 weixin_39805119 python清华大学出版社答案
第1章机器学习的基础知识1.1何谓机器学习1.1.1传感器和海量数据1.1.2机器学习的重要性1.1.3机器学习的表现1.1.4机器学习的主要任务1.1.5选择合适的算法1.1.6机器学习程序的步骤1.2综合分类1.3推荐系统和深度学习1.3.1推荐系统1.3.2深度学习1.4何为Python1.4.1使用Python软件的由来1.4.2为什么使用Python1.4.3Python设计定位1.4.
Python | Redis工具类 -拟墨画扇- Python redis 数据库缓存 python
一、需求自动连接Redis数据库，通过连接池处理数据对输出结果进行Log打印并保存到文件二、代码Utils.redisUtils.py#!/usr/bin/envpython#-*-coding:utf-8-*-importredisfromUtils.loggerimportlog"""Redis数据格式(1)字符串|存储形式:key-value:str-存储二进制数据:可以存储任意类型的数据，
Python dict字符串转json对象，小数精度丢失问题朝如青丝暮成雪 json python
一前言JSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式，dict是Python的一种数据格式。本篇介绍一个float数据转换时精度丢失的案例。二问题描述importjsontest_str1='{"π":3.1415926535897932384626433832795028841971}'test_str2='{"value":10.00000}'print
Python+Requests模拟发送GET请求爱学习的执念自动化测试软件测试技术分享 python 开发语言
模拟发送GET请求前置条件：导入requests库一、发送不带参数的get请求代码如下：以百度首页为例importrequests#发送get请求response=requests.get(url="http://www.baidu.com")print(response.content.decode("utf-8"))#以utf-8的编码输出内容二、发送带参数的get请求发送带参数的get请求有
Python极速入门：五分钟开启实战之旅！知白守黑V Python 编程语言系统运维 python 编程语言 python开发 python学习 python入门 python数据分析
1.Python基础语法和结构：了解Python的基本语法，包括变量、数据类型、运算符、注释等。控制流：掌握条件语句（if-elif-else）、循环（for和while）及其控制（break和continue）。函数：学习如何定义和使用函数，包括参数传递、返回值、作用域和闭包。模块和包：理解如何导入和使用模块，以及如何创建和使用自己的包。2.数据处理列表、元组和集合：学习这些序列类型的操作和方法
Python Flask 使用数据库安果移不动 python flask 开发语言
pipinstallflask_sqlalchemy官方文档：Flask-SQLAlchemy—Flask-SQLAlchemyDocumentation(3.1.x)为了不报错也需要导入另外两个库#pipinstallflask_sqlalchemy#pipinstallmysqlclient完整代码importosfromflaskimportFlaskfromflask_sqlalchemy
PaperWeekly sapienst Papers PaperwithCode General ML
1.Python软件包解决DL在未见过的数据分布下性能差的问题：（1）神经网络和损失分离的模块化设计（2）强大便捷的基准测试能力（3）易于使用但难以修改（4）github:https://github.com/marrlab/domainlabTrainer和Models之间是什么关系Trainer和Models是DomainLab中的两个核心概念。Trainer是一个用于指导数据流向模型并计算S
使用Python读取Excel文件并计算平均分嘻嘻爱编码 Python从入门到放弃 python excel 开发语言
在这篇博客中，我们将探讨如何使用Python的pandas库来读取Excel文件，并计算其中数据的平均分。pandas是一个强大的数据分析工具，它允许我们以简单直观的方式处理表格数据。安装必要的库在开始之前，确保你的环境中安装了pandas和openpyxl库。可以使用以下命令进行安装：pipinstallpandasopenpyxl读取Excel文件首先，我们需要读取Excel文件。假设我们有一
python项目练习——7.网站访问日志分析器 F—— python项目练习 python 信息可视化数据分析数据挖掘开发语言学习
项目功能分析：这个项目可以读取网站的访问日志文件，统计访问量、独立访客数、访问来源等信息，并以图表或表格的形式展示出来。这个项目涉及到文件操作、数据处理、数据可视化等方面的技术。示例代码：importrefromcollectionsimportCounterimportmatplotlib.pyplotaspltdefparse_log_file(log_file):#读取日志文件内容witho
python的while双重循环九九乘法表 Jinm_R python 开发语言
a=1whilea<=9:b=1#乘数每次需要从1开始whileb<=a:print(f"{a}*{b}={a*b}\t",end='')#\t为制表符使乘法表整齐end=''代表用空格代替换行b+=1a+=1print()#乘数每加一换行
【Python】成功解决ModuleNotFoundError: No module named ‘torchinfo‘ 高斯小哥 BUG解决方案合集 python pytorch 新手入门学习 debug
【Python】成功解决ModuleNotFoundError:Nomodulenamed‘torchinfo’个人主页：高斯小哥高质量专栏：Matplotlib之旅：零基础精通数据可视化、Python基础【高质量合集】、PyTorch零基础入门教程希望得到您的订阅和支持~创作高质量博文(平均质量分92+)，分享更多关于深度学习、PyTorch、Python领域的优质内容！（希望得到您的关注~）文
Python自动化测试web常见框架汇总自动化测试薰儿软件测试技术分享 python 前端开发语言
1、前言目前，有非常多的Python框架，用来帮助你更轻松的创建web应用。这些框架把相应的模块组织起来，使得构建应用的时候可以更快捷，也不用去关注一些细节（例如socket和协议），所以需要的都在框架里了。接下来我们会介绍不同的选项。经过初期的不起眼，Python已经成为互联网最流行的服务端编程语言之一。根据W3Techs的统计，它被用于很多的大流量的站点很多的大流量的站点很多的大流量的站点，超
python安装jupter在线ide 晚风拂柳颜生活小经验 python3 ide jupter
我在虚拟3.6.8的环境里面安装的，具体用了以下命令；pipinstallipython-ihttps://mirrors.aliyun.com/pypi/simple/pipinstalljupyter-ihttps://mirrors.aliyun.com/pypi/simple/jupyternotebook当然，jupter可以直接通过python环境里script目录下的jupyter-
opencv 十八 python下实现0缓存掉线重连的rtsp直播流播放器摸鱼的机器猫 opencv实战 opencv python 缓存
使用opencv打开rtsp视频流时，会因为网络问题导致VideoCapture掉线；也会因为图像的后处理阶段耗时过长导致opencv缓冲区数据堆积，从而使程序无法及时处理最新的数据。为此对cv2.VideoCapture进行封装，实现0缓存掉线重连的rtsp直播流播放器，让程序能一直处理最新的数据。代码实现fromcollectionsimportdequeimportthreadingimpo
Windows如何安装poppler库，python的PDF转PPTX项目跨不过 pdf
资源库在这里下载https://github.com/oschwartz10612/poppler-windows/releases/tag/v21.03.0其他的参考这篇博客，里面提到的资源链接失效了https://blog.csdn.net/wy01415/article/details/110257130
用Python批量更改图片大小马达马达达 AI python
#提取目录下所有图片,更改尺寸后保存到另一目录fromPILimportImageimportos.pathimportglobdefconvertjpg(jpgfile,outdir,width=128,height=128):img=Image.open(jpgfile)try:new_img=img.resize((width,height),Image.BILINEAR)new_img.s
3.Python数据分析—数据分析入门知识图谱&索引(知识体系中篇) 以山河作礼。 Python数据分析项目数据分析知识图谱数据挖掘 python 开发语言
3.Python数据分析—数据分析入门知识图谱&索引-知识体系中篇一·个人简介二·数据获取和处理2.1数据来源：2.2数据清洗：2.2.1缺失值处理：2.2.2异常值处理：2.3数据转换：2.3.1数据类型转换：2.3.2数据编码：2.4数据合并与重塑：2.4.1数据合并：2.4.2数据拼接：2.4.3数据重塑：三·数据探索与分析3.1描述性统计分析3.2数据可视化原则和技巧3.3探索性数据分析（
SWIFT环境配置及大模型微调实践 weixin_43870390 swift 开发语言 ios
SWIFT环境配置及大模型微调实践SWIFT环境配置基础配置增量配置SWIFTQwen_audio_chat大模型微调实践问题1:问题2:问题定位解决方法手动安装pytorchSWIFT介绍参考：这里SWIFT环境配置基础配置condacreate-nswiftpython=3.8pipinstallms-swift[all]-U#下载项目gitclonehttps://github.com/mo
【Python】 Python脚本实现某平台视频流下载音乐学家方大刚 Python 爬虫 python chrome 开发语言
亲爱的玛丽我会想念着你我是多么的讨厌分离加油站旁的海鸥机场路上的松柏挥挥手眼泪就落下来我多想和那些光阴永远住下来我不能我不能赵雷《玛丽》在视频内容的分发上，m3u8格式的视频流越来越常见。它将视频切分成多个小片段（TS文件），然后通过索引文件（m3u8文件）来组织播放顺序，有效地支持了视频的流式传输。这篇博客将引导您使用Python脚本来下载m3u8格式的视频流，并将其合并成一个单一的视频文件。准
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http

Python,Numpy,Pandas…数据科学家必备排序技巧!

你可能感兴趣的:(Python,Python)