小嗷犬

Python 数据处理：NumPy库

✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。
个人主页：小嗷犬的博客
个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。
本文内容：Python 数据处理：NumPy库

Python 数据处理：NumPy库

1.NumPy简介
2.NumPy的ndarray：一种多维数组对象
- 2.1 创建ndarray
- 2.2 ndarray的数据类型
- 2.3 NumPy数组的运算
- 2.4 基本的索引和切片
- 2.5 切片索引
- 2.6 布尔型索引
- 2.7 花式索引
- 2.8 数组转置和轴对换
3.通用函数：快速的元素级数组函数
- 3.1 指定输出
- 3.2 聚合
- 3.3 外积
4.利用数组进行数据处理
- 4.1 将条件逻辑表述为数组运算
- 4.2 数学和统计方法
- 4.3 用于布尔型数组的方法
- 4.4 排序
- 4.5 唯一化以及其它的集合逻辑
5.用于数组的文件输入输出
6.线性代数
7.伪随机数生成
8.高级数组操作
- 8.1 数组重塑
- 8.2 C和Fortran顺序
- 8.3 数组的合并和拆分
- 8.4 元素的重复操作：tile和repeat
9.广播
- 9.1 广播规则
- 9.2 通过广播设置数组的值

1.NumPy简介

NumPy（Numerical Python的简称）是Python数值计算最重要的基础包。大多数提供科学计算的包都是用NumPy的数组作为构建基础。

NumPy的部分功能如下:

ndarray，一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组。

用于对整组数据进行快速运算的标准数学函数（无需编写循环）。

用于读写磁盘数据的工具以及用于操作内存映射文件的工具。

线性代数、随机数生成以及傅里叶变换功能。

用于集成由C、C++、Fortran等语言编写的代码的API。

NumPy对于数值计算特别重要的原因之一，是因为它可以高效处理大数组的数据。这是因为：

NumPy是在一个连续的内存块中存储数据，独立于其他Python内置对象。NumPy的C语言编写的算法库可以操作内存，而不必进行类型检查或其它前期工作。比起Python的内置序列，NumPy数组使用的内存更少。

NumPy可以在整个数组上执行复杂的计算，而不需要Python的for循环。

在jupyter notebook中运行以下代码，可以比较NumPy数组和Python列表的数据运算效率：

# 考察一个包含一百万整数的数组，和一个等价的Python列表：
import numpy as np
my_arr = np.arange(1000000)
my_list = list(range(1000000))
# 各个序列分别乘以2：
%time for _ in range(10): my_arr2 = my_arr * 2
%time for _ in range(10): my_list2 = [x * 2 for x in my_list]

其中：

CPU time：衡量的是CPU用来执行程序的时间；

Wall time：从计算开始到计算结束等待的时间。

2.NumPy的ndarray：一种多维数组对象

NumPy最重要的一个特点就是其N维数组对象（即ndarray），该对象是一个快速而灵活的大数据集容器。你可以利用这种数组对整块数据执行一些数学运算，其语法跟标量元素之间的运算一样。

import numpy as np
data = np.random.randn(2,3)
print(data)
print(data * 10)
print(data + data)

对于Python原生的列表，这些乘法和加法的规则有点不一样

pythonList = [1,2,3]
print(pythonList * 10)
print(pythonList + pythonList)

ndarray是一个通用的同构数据多维容器，也就是说，其中的所有元素必须是相同类型的（记录数组除外）。每个数组都有一个shape（一个表示各维度大小的元组）和一个dtype（一个用于说明数组数据类型的对象）：

import numpy as np
data = np.random.randn(2,3)
print(data)
print(data.shape)
print(data.dtype)

2.1 创建ndarray

创建数组最简单的办法就是使用array函数。它接受一切序列型的对象（包括其他数组），然后产生一个新的含有传入数据的NumPy数组。以一个列表的转换为例：

import numpy as np
data1 = [1,2,3,5.0,6]
arr1 = np.array(data1)
print(arr1)
print(arr1.ndim)
print(arr1.shape)
print(arr1.dtype)

嵌套序列（比如由一组等长列表组成的列表）将会被转换为一个多维数组：

import numpy as np
data2 = [[1, 2, 3, 4], [5, 6.1, 7, 8]]
arr2 = np.array(data2)
print(arr2)
print(arr2.ndim)
print(arr2.shape)
print(arr2.dtype)

除np.array之外，还有一些函数也可以新建数组。比如，zeros和ones分别可以创建指定长度或形状的全0或全1数组。empty可以创建一个没有任何具体值的数组。要用这些方法创建多维数组，只需传入一个表示形状的元组即可：

import numpy as np
print(np.zeros(10))
print(np.ones((3,6)))
print(np.empty((2,3,2)))

arange是Python内置函数range的数组版：

import numpy as np
dataArange = np.arange(15)
print(type(dataArange))
print(dataArange)

下表列出了一些数组创建函数。由于NumPy关注的是数值计算，因此，如果没有特别指定，数据类型基本都是float64（浮点数）。

函数	描述
array	将输入数据（列表、元组、数组或其它序列类型)转换为ndarray。要么推断出dtype，要么特别指定dtype。默认直接复制输入数据
asarray	将输入转换为ndarray，如果输入本身就是一个ndarray就不进行复制
arange	类似于内置的range，但返回的是一个ndarray而不是列表
ones,ones_like	根据指定的形状和dtype创建一个全1数组。one_like 以另一个数组为参数，并根据其形状和dtype创建一个全1数组
zeros,zeros_like	类似于ones和ones_like，只不过产生的是全О数组而已
empty,empty_like	创建新数组，只分配内存空间但不填充任何值
full,full_like	用fill value中的所有值,根据指定的形状和dtype创建一个数组。full_like使用另一个数组,用相同的形状和dtype创建
eye,identity	创建一个正方的N×N单位矩阵（对角线为1，其余为0）

2.2 ndarray的数据类型

dtype（数据类型）是一个特殊的对象，它含有ndarray将一块内存解释为特定数据类型所需的信息：

import numpy as np
arr1 = np.array([1,2,3], dtype=np.float64)
arr2 = np.array([1,2,3], dtype=np.int32)
print(arr1.dtype)
print(arr1)
print(arr2.dtype)
print(arr2)

数值型dtype的命名方式相同：一个类型名（如 float 或 int ），后面跟一个用于表示各元素位长的数字。标准的双精度浮点值（即Python中的 float 对象）需要占用8字节（即64位）。因此，该类型在NumPy中就记作float64。

下表列出了NumPy所支持的全部数据类型：

类型	类型代码	描述
int8、 uint8	i1、 u1	有符号和无符号的8位（1个字节)整型
int16、uint16	i2、u2	有符号和无符号的16位（2个字节)整型
int32、uint32	i4、u4	有符号和无符号的32位（4个字节）整型
int64、 uint64	i8、u8	有符号和无符号的64位(8个字节)整型
float16	f2	半精度浮点数
float32	f4或f	标准的单精度浮点数。与C的float兼容
float64	f8或d	标准的双精度浮点数。与C的double和Python的float对象兼容
float128	f16或g	扩展精度浮点数
complex64、complex128、 complex256	c8、c16、c32	分别用两个32位、64位或128位浮点数表示的复数
bool	?	存储True和False值的布尔类型
object	O	Python对象类型
string_	S	固定长度的字符串类型(每个字符1个字节)。例如，要创建一个长度为10的字符串，应使用S10
unicode_	U	固定长度的unicode类型（字节数由平台决定)。跟字符串的定义方式一样（如U10)

可以通过ndarray的astype方法明确地将一个数组从一个dtype转换成另一个dtype：

import numpy as np
arr = np.array([1,2,3,4,5])
print(arr.dtype)
print(arr)
float_arr = arr.astype(np.float64)
print(float_arr.dtype)
print(float_arr)

如果将浮点数转换成整数，则小数部分将会被截取删除：

import numpy as np
arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])
print(arr)
print(arr.astype(np.int32))

如果某字符串数组表示的全是数字，也可以用astype将其转换为数值形式：

import numpy as np
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=np.string_)
print(numeric_strings)
print(numeric_strings.astype(np.float64))

2.3 NumPy数组的运算

数组很重要，因为它使你不用编写循环即可对数据执行批量运算。NumPy用户称其为矢量化（vectorization）。大小相等的数组之间的任何算术运算都会将运算应用到元素级：

import numpy as np
arr = np.array([[1.,2,3],[4,5,6]])
print(arr)
print(arr * arr)
print(arr - arr)

数组与标量的算术运算会将标量值传播到各个元素：

import numpy as np
arr = np.array([[1.,2,3],[4,5,6]])
print(arr)
print(1 / arr)
print(arr ** 0.5)

大小相同的数组之间的比较会生成布尔值数组：

import numpy as np

arr = np.array([[1.,2,3],[4,5,6]])
print(arr)

arr2 = np.array([[0., 4,1],[7,2,12]])
print(arr2)

print(arr > arr2)

2.4 基本的索引和切片

NumPy数组的索引是一个内容丰富的主题，因为选取数据子集或单个元素的方式有很多。一维数组很简单。从表面上看，它们跟Python列表的功能差不多：

import numpy as np
arr = np.arange(10) * 2
print(arr)
print(arr[5])

arr_tmp = arr[5:8]
print(arr_tmp)

arr_tmp[0] = 100
print(arr_tmp)

跟列表最重要的区别在于，数组切片是原始数组的视图。这意味着数据不会被复制，视图上的任何修改都会直接反映到源数组上。

import numpy as np
arr = np.arange(10) * 2
print(arr)

# 先创建一个arr的切片：
arr_slice = arr[5:8]
print(arr_slice)

# 现在，当修改arr_slice中的值，变动也会体现在原始数组arr中：
arr_slice[1] = 108
print(arr)

# 切片[ : ]会给数组中的所有值赋值：
arr_slice[:] = 64
print(arr)

# 再来试试List
lst = list(range(10))
print(lst)

lst_slice = lst[5:8]
print(lst_slice)

lst_slice[1] = 12345
print(lst_slice)
print(lst)

如果你想要得到的是ndarray切片的一份副本而非视图，就需要明确地进行复制操作，例如:

import numpy as np
arr = np.arange(10) * 2
print(arr)

arr_slice = arr[5:8].copy()
print(arr_slice)

arr_slice[1] = 108
print(arr_slice)
print(arr)

对于高维度数组，能做的事情更多。在一个二维数组中，各索引位置上的元素不再是标量而是一维数组：

import numpy as np
arr2d = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(arr2d[2])

因此，可以对各个元素进行递归访问，但这样需要做的事情有点多。你可以传入一个以逗号隔开的索引列表来选取单个元素。也就是说，下面两种方式是等价的：

import numpy as np
arr2d = np.array([[1,2,3],[4,5,6],[7,8,9]])

print(arr2d[0][2])
print(arr2d[0,2])

二维数组的索引方式，轴0作为行，轴1作为列：

在多维数组中，如果省略了后面的索引，则返回对象会是一个维度低一点的ndarray（它含有高一级维度上的所有数据）。因此，在2×2×3数组arr3d中：

import numpy as np
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], 
                  [[7, 8, 9], [10, 11, 12]]])
print(arr3d)
print(arr3d[0,1])

标量值和数组都可以被赋值给arr3d[0]：

import numpy as np
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], 
                  [[7, 8, 9], [10, 11, 12]]])

old_values = arr3d[0].copy()

arr3d[0] = 42
print(arr3d)

print('\n' + '-'*20 + '\n')

arr3d[0] = old_values
print(arr3d)

2.5 切片索引

ndarray的切片语法跟Python列表这样的一维对象差不多：

import numpy as np
arr = np.arange(10) * 2
print(arr)
print(arr[1:6])

对于之前的二维数组arr2d，其切片方式稍显不同，它是沿着第0轴（即第一个轴）切片的。也就是说，切片是沿着一个轴向选取元素的。表达式arr2d[:2]可以被认为是“选取arr2d的前两行”：

import numpy as np
arr2d = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(arr2d)
print("-"*20)
print(arr2d[:2])

可以一次传入多个切片，就像传入多个索引那样：

import numpy as np
arr2d = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(arr2d)
print("-"*20)
print(arr2d[1:, 1:])

像这样进行切片时，只能得到相同维数的数组视图。通过将整数索引和切片混合，可以得到低维度的切片。

例如，可以选取第二行的前两列：

import numpy as np
arr2d = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(arr2d)
print("-"*20)
print(arr2d[1, :2])

相似的，还可以选择第三列的前两行：

import numpy as np
arr2d = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(arr2d)
print("-"*20)
print(arr2d[:2, 2])

“只有冒号”表示选取整个轴，因此你可以像下面这样只对高维轴进行切片：

import numpy as np
arr2d = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(arr2d)
print("-"*20)
print(arr2d[:,:1])

对切片表达式的赋值操作也会被扩散到整个选区：

import numpy as np
arr2d = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(arr2d)
print("-"*20)
arr2d[:2, 1:] = 0
print(arr2d)

2.6 布尔型索引

来看这样一个例子，假设我们有一个用于存储数据的数组以及一个存储姓名的数组（含有重复项）。在这里，我将使用numpy.random中的randn函数生成一些正态分布的随机数据：

import numpy as np
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 
                  'Will', 'Joe', 'Joe'])
data = np.random.randn(7,4)
print(names)
print(data)

假设每个名字都对应data数组中的一行，而我们想要选出对应于名字"Bob"的所有行。跟算术运算一样，数组的比较运算（如==）也是矢量化的。因此，对names和字符串"Bob"的比较运算将会产生一个布尔型数组：

import numpy as np
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 
                  'Will', 'Joe', 'Joe'])
print(names == 'Bob')

这个布尔型数组可用于数组索引：

import numpy as np
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 
                  'Will', 'Joe', 'Joe'])
data = np.random.randn(7,4)

print(data[names == 'Bob'])

布尔型数组的长度必须跟被索引的轴长度一致。此外，还可以将布尔型数组跟切片、整数混合使用。

下面的例子，选取了names == 'Bob'的行，并索引了列：

import numpy as np
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 
                  'Will', 'Joe', 'Joe'])
data = np.random.randn(7,4)

print(data[names == 'Bob', 2:])
print(data[names == 'Bob', 3])

要选择除"Bob"以外的其他值，既可以使用不等于符号（!=），也可以通过~对条件进行否定：

import numpy as np
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 
                  'Will', 'Joe', 'Joe'])
data = np.random.randn(7,4)

print(names != 'Bob')
print(data[~(names == 'Bob')])

选取这三个名字中的两个需要组合应用多个布尔条件，使用&（与）、|（或）之类的布尔算术运算符即可：

import numpy as np
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 
                  'Will', 'Joe', 'Joe'])
data = np.random.randn(7,4)

mask = (names == 'Bob') | (names == 'Will')
print(mask)
print(data[mask])

通过布尔型数组设置值是一种经常用到的手段。为了将data中的所有负值都设置为0，我们只需：

import numpy as np
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 
                  'Will', 'Joe', 'Joe'])
data = np.random.randn(7,4)

print(data)

print("-"*20)

data[data < 0] = 0
print(data)

通过一维布尔数组设置整行或列的值也很简单：

import numpy as np
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 
                  'Will', 'Joe', 'Joe'])
data = np.random.randn(7,4)

print(data)

print("-"*20)

data[names != 'Joe'] = 7
print(data)

2.7 花式索引

花式索引（Fancy indexing）是一个NumPy术语，它指的是利用整数数组进行索引。假设我们有一个8×4数组：

import numpy as np
arr = np.empty((8, 4))
for i in range(8):
    arr[i] = i
print(arr)

arr[:2] = arr[[1,0]]
print(arr)

为了以特定顺序选取行子集，只需传入一个用于指定顺序的整数列表或ndarray即可：

import numpy as np
arr = np.empty((8, 4))
for i in range(8):
    arr[i] = i
print(arr)

print("-"*20)

print(arr[[4, 3, 0, 6]])

使用负数索引将会从末尾开始选取行：

import numpy as np
arr = np.empty((8, 4))
for i in range(8):
    arr[i] = i
print(arr)

print("-"*20)

print(arr[[-3, -5, -7]])

一次传入多个索引数组会有一点特别。它返回的是一个一维数组，其中的元素对应各个索引元组：

import numpy as np
arr = np.arange(32).reshape(8,4)
print(arr)

print("-"*20)

print(arr[[1,5,7,2],[0,3,1,2]])

最终选出的是元素(1,0)、(5,3)、(7,1)和(2,2)。无论数组是多少维的，花式索引总是一维的。

这个花式索引的行为可能会跟某些用户的预期不一样，选取矩阵的行列子集应该是矩形区域的形式才对。下面是得到该结果的一个办法：

import numpy as np
arr = np.arange(32).reshape(8,4)
print(arr)

print("-"*20)

print(arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]])

记住，花式索引跟切片不一样，它总是将数据复制到新数组中。

import numpy as np
arr = np.arange(32).reshape(8,4)
print(arr)

print("-"*20)

arrNew = arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]]
print(arrNew)

print("-"*20)

arrNew[1] = -100
print(arrNew)

print("-"*20)

print(arr)

2.8 数组转置和轴对换

转置是重塑的一种特殊形式，它返回的是源数据的视图（不会进行任何复制操作）。数组不仅有transpose方法，还有一个特殊的T属性：

import numpy as np
arr = np.arange(15).reshape((3,5))
print(arr)

print("-"*20)

print(arr.T)

print("-"*20)

print(arr.transpose((1,0)))

在进行矩阵计算时，经常需要用到该操作，比如利用np.dot计算矩阵内积：

import numpy as np
arr = np.random.randn(6,3)
print(arr)

print("-"*20)

print(np.dot(arr.T, arr))

简单的转置可以使用.T，它其实就是进行轴对换而已。ndarray还有一个swapaxes方法，它需要接受一对轴编号：

import numpy as np
arr = np.arange(16).reshape((2,2,4))
print(arr)

print("-"*20)

arr = arr.swapaxes(1,2)
print(arr)

3.通用函数：快速的元素级数组函数

通用函数（即ufunc）是一种对ndarray中的数据执行元素级运算的函数。你可以将其看做简单函数（接受一个或多个标量值，并产生一个或多个标量值）的矢量化包装器。

许多ufunc都是简单的元素级变体，如sqrt和exp：

import numpy as np
arr = np.arange(10)
print(arr)
print(np.sqrt(arr))
print(np.exp(arr))

这些都是一元（unary）ufunc。另外一些（如add或maximum）接受2个数组（因此也叫二元（binary）ufunc），并返回一个结果数组：

import numpy as np
x = np.random.randn(8)
y = np.random.randn(8)
print(x)
print("-"*20)
print(y)
print("-"*20)
print(np.maximum(x, y))

有些ufunc可以返回多个数组。modf就是一个例子，它是Python内置函数divmod的矢量化版本，它会返回浮点数数组的小数和整数部分：

import numpy as np
arr = np.random.randn(7) * 5
print(arr)
print('-' * 50)
remainder, whole_part = np.modf(arr)
print(remainder)
print('-' * 50)
print(whole_part)

ufuncs可以接受一个out可选参数，这样就能在数组原地进行操作：

import numpy as np
arr = np.arange(10)
print(arr)
print('-' * 50)
print(np.sqrt(arr))
print('-' * 50)
print(arr)
print('-' * 50)
arr = arr.astype(np.float64)
np.sqrt(arr,arr)
print(arr)

下表列出了一些一元和二元ufunc：

一元ufunc	描述
abs、 fabs	计算整数、浮点数或复数的绝对值。对于非复数值，可以使用更快的fabs
sqrt	计算各元素的平方根。相当于arr** 0.5
square	计算各元素的平方。相当于arr**2
exp	计算各元素的指数e^x
log、log10、log2、log1p	分别为自然对数（底数为e)、底数为10的log、底数为2的log、log(1 +x)
sign	计算各元素的正负号:1(正数)、0(零)、-1(负数)
ceil	计算各元素的ceiling值，即大于等于该值的最小整数
floor	计算各元素的floor值，即小于等于该值的最大整数
arccos、arccosh、arcsin、arcsinh、arctan、arctanh	反三角函数
logical_not	计算各元素not x的真值。相当于-arr

二元ufunc	描述
add	将数组中对应的元素相加
subtract	从第一个数组中减去第二个数组中的元素
multiply	数组元素相乘
divide、floor_divide	除法或向下圆整除法（丢弃余数)
power	对第一个数组中的元素A，根据第二个数组中的相应元素B，计算AB
maximum、fmax	元素级的最大值计算。fmax将忽略NaN
minimum、fmin	元素级的最小值计算。fmin将忽略NaN
mod	元素级的求模计算（除法的余数)
copysign	将第二个数组中的值的符号复制给第一个数组中的值

3.1 指定输出

在进行大量运算时，指定一个用于存放运算结果的数组时非常有用的。不同于创建临时数组，可以用这个特性将计算结果直接写入到期望的存储位置，这样在进行较大数据运算时，可以有效节约内存。所有的通用函数都可以通过out参数来指定计算结果的存放位置：

import numpy as np
x = np.arange(5)
y = np.empty(5)
np.multiply(x, 10, out = y)
print(y)

这个特性也可以被用作数组视图，例如可以将计算结果写入指定数组的每隔一个元素的位置：

import numpy as np
x = np.arange(5)
y = np.zeros(10)
np.power(2, x, out = y[::2])
print(y)

3.2 聚合

可以使用任何通用函数的reduce方法，该方法会对给定的元素和操作重复执行，直至得到单个的结果：

import numpy as np
x = np.arange(1, 6)
print(np.add.reduce(x))
print(np.multiply.reduce(x))

类似的还有accumulate，可以存储每次计算的中间结果：

import numpy as np
x = np.arange(1, 6)
print(np.add.accumulate(x))
print(np.multiply.accumulate(x))

3.3 外积

任何通用函数都可以用outer方法获得两个不同输入数组所有元素对的函数运算结果。

import numpy as np
x = np.arange(1,10)
print(np.multiply.outer(x, x))

4.利用数组进行数据处理

假设我们想要在一组值（网格型）上计算函数sqrt(x²+y²)。np.meshgrid函数接受两个一维数组，并产生两个二维矩阵（对应于两个数组中所有的(x,y)对）：

import numpy as np
points = np.arange(5) 
print(points)

xs, ys = np.meshgrid(points, points)
print(xs)
print("-" * 20)
print(ys)

现在，对该函数的求值运算就好办了，把这两个数组当做两个浮点数那样编写表达式即可：

import numpy as np
points = np.arange(5) 
print(points)

xs, ys = np.meshgrid(points, points)
print(xs)
print("-" * 20)
print(ys)

z = np.sqrt(xs ** 2 + ys **2)
print(z)

4.1 将条件逻辑表述为数组运算

numpy.where函数是三元表达式x if condition else y的矢量化版本。假设我们有一个布尔数组和两个值数组：

xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
cond = np.array([True, False, True, True, False])

假设我们想要根据cond中的值选取xarr和yarr的值：当cond中的值为True时，选取xarr的值，否则从yarr中选取。列表推导式的写法应该如下所示：

result = [(x if c else y) for x, y, c in zip(xarr, yarr, cond)]

若使用np.where，则可以将该功能写得非常简洁：

result = np.where(cond, xarr, yarr)

在数据分析工作中，where通常用于根据另一个数组而产生一个新的数组。假设有一个由随机数据组成的矩阵，你希望将所有正值替换为2，将所有负值替换为－2。若利用np.where，则会非常简单：

import numpy as np
arr = np.random.randn(4,4)
print(arr)
print("-"*20)
print(np.where(arr>0, 2, -2))

使用np.where，可以将标量和数组结合起来。例如，可用常数2替换arr中所有正的值：

import numpy as np
arr = np.random.randn(4,4)
print(arr)
print("-"*20)
print(np.where(arr > 0, 2, arr))

去除异常值，例如，在成绩列表中，将所有小于0的成绩改为0，所有大于100的成绩改为100：

import numpy as np
scoreArr = np.array([88, 90, 58, -12, 91, 108])
scoreArr = np.where(scoreArr > 100, 100, scoreArr)
print(scoreArr)
scoreArr = np.where(scoreArr < 0, 0, scoreArr)
print(scoreArr)

4.2 数学和统计方法

可以通过数组上的一组数学函数对整个数组或某个轴向的数据进行统计计算。sum、mean以及标准差std等聚合计算（aggregation，通常叫做约简（reduction））既可以当做数组的实例方法调用，也可以当做顶级NumPy函数使用。

import numpy as np
arr = np.random.randn(5,4)
print(arr)
print(arr.mean())
print(np.mean(arr))
print(arr.sum())
print(np.sum(arr))

mean和sum这类的函数可以接受一个axis选项参数，用于计算该轴向上的统计值，最终结果是一个少一维的数组：

import numpy as np
arr = np.random.randn(5,4)
print(arr)
print(arr.mean(axis=1))
print(arr.sum(axis=0))

这里，arr.mean(1)是“计算行的平均值”，arr.sum(0)是“计算每列的和”。

axis关键字指定的时数组将会被折叠的维度，而不是将要返回的维度。因此，指定axis=0意味着第0个轴将要被折叠，对于二维数组来说，这意味着每一列的值都将被聚合。

其他如cumsum和cumprod之类的方法则不聚合，而是产生一个由中间结果组成的数组：

import numpy as np
arr = np.array([0,1,2,3,4,5,6,7])
print(arr.cumsum())

在多维数组中，累加函数（如cumsum）返回的是同样大小的数组，但是会根据每个低维的切片沿着标记轴计算部分聚类：

import numpy as np
arr = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])
print(arr)
print(arr.cumsum(axis=0))
print(arr.cumprod(axis=1))

下表列出了全部的基本数组统计方法：

方法	描述
sum	对数组中全部或某轴向的元素求和。零长度的数组的sum为0
mean	算术平均数。零长度的数组的mean为NaN
std、 var	分别为标准差和方差，自由度可调（默认为n)
min、 max	最大值和最小值
argmin、argmax	分别为最大和最小元素的索引
cumsum	所有元素的累计和
cumprod	所有元素的累计积

4.3 用于布尔型数组的方法

在上面这些方法中，布尔值会被强制转换为1（True）和0（False）。因此，sum经常被用来对布尔型数组中的True值计数：

import numpy as np
arr = np.random.randn(10)
print(arr)
print((arr > 0).sum())

另外还有两个方法any和all，它们对布尔型数组非常有用。any用于测试数组中是否存在一个或多个True，而all则检查数组中所有值是否都是True：

import numpy as np
bools = np.array([False, False, True, False])
print(bools.any())
print(bools.all())

4.4 排序

跟Python内置的列表类型一样，NumPy数组也可以通过sort方法就地排序：

import numpy as np
arr = np.random.randn(5)
print(arr)
arr.sort()
print(arr)

多维数组可以在任何一个轴向上进行排序，只需将轴编号传给sort即可：

import numpy as np
arr = np.random.randn(5, 3)
print(arr)
arr.sort(1)
print(arr)

顶级方法np.sort返回的是数组的已排序副本，而就地排序则会修改数组本身。计算数组分位数最简单的办法是对其进行排序，然后选取特定位置的值：

import numpy as np
large_arr = np.random.randn(1000)
large_arr.sort()
print(large_arr[int(0.05 * len(large_arr))])

4.5 唯一化以及其它的集合逻辑

NumPy提供了一些针对一维ndarray的基本集合运算。最常用的可能要数np.unique了，它用于找出数组中的唯一值并返回已排序的结果：

import numpy as np
names = np.array(['Bob', 'Joe', 'Will', 'Bob',
                  'Will', 'Joe', 'Joe'])
print(np.unique(names))

ints = np.array([3,3,3,2,2,1,1,4,4])
print(np.unique(ints))

np.in1d用于测试一个数组中的值在另一个数组中的成员资格，返回一个布尔型数组：

import numpy as np
values = np.array([6, 0, 0, 3, 2, 5, 6])
print(np.in1d(values, [2,3,6]))

下表列出了NumPy中的集合函数：

方法	描述
unique(x)	计算x中的唯一元素，并返回有序结果
intersect1d(x, y)	计算x和y中的公共元素，并返回有序结果
union1d(x, y)	计算x和y的并集，并返回有序结果
in1d(x, y)	得到一个表示“x的元素是否包含于y”的布尔型数组
setdiff1d(x, y)	集合的差，即元素在x中且不在y中
setxor1d(x, y)	集合的对称差，即存在于一个数组中但不同时存在于两个数组中的元素

5.用于数组的文件输入输出

NumPy能够读写磁盘上的文本数据或二进制数据。这一小节只讨论NumPy的内置二进制格式，因为更多的用户会使用pandas或其它工具加载文本或表格数据。

np.save和np.load是读写磁盘数组数据的两个主要函数。默认情况下，数组是以未压缩的原始二进制格式保存在扩展名为.npy的文件中的：

import numpy as np
arr = np.arange(10)
np.save('some_array', arr)
print(np.load('some_array.npy'))

通过np.savez可以将多个数组保存到一个未压缩文件中，将数组以关键字参数的形式传入即可：

import numpy as np
arr = np.arange(10)
np.savez('array_archive.npz', a=arr, b=arr * 2)
arch = np.load('array_archive.npz')
print(arch['b'])

如果要将数据压缩，可以使用numpy.savez_compressed：

np.savez_compressed('arrays_compressed.npz', a=arr, b=arr * 2)

6.线性代数

线性代数（如矩阵乘法、矩阵分解、行列式以及其他方阵数学等）是任何数组库的重要组成部分。NumPy提供了一个用于矩阵乘法的dot函数（既是一个数组方法也是numpy命名空间中的一个函数）：

import numpy as np
x = np.array([[1., 2., 3.], [4., 5., 6.]])
y = np.array([[6., 23.], [-1, 7], [8, 9]])
print(x)
print(y)
print("-"*20)
print(x.dot(y))
# x.dot(y)等价于np.dot(x, y)：
print(np.dot(x, y))

一个二维数组跟一个大小合适的一维数组的矩阵点积运算之后将会得到一个一维数组：

import numpy as np
x = np.array([[1., 2., 3.], [4., 5., 6.]])
print(np.dot(x, np.ones(3)))
print(print(np.ones(3).shape))

@符也可以用作中缀运算符，进行矩阵乘法：

import numpy as np
x = np.array([[1., 2., 3.], [4., 5., 6.]])
print(x @ np.ones(3))

numpy.linalg中有一组标准的矩阵分解运算以及诸如求逆和行列式之类的东西。它们跟MATLAB和R等语言所使用的是相同的行业标准线性代数库，如BLAS、LAPACK、Intel MKL（Math Kernel Library，可能有，取决于你的NumPy版本）等：

import numpy as np
from numpy.linalg import inv, qr
X = np.random.randn(5, 5)
mat = X.T.dot(X)
print(inv(mat))
print(mat.dot(inv(mat)))
q, r = qr(mat)
print(r)

下表列出了一些最常用的线性代数函数：

函数	描述
diag	以一维数组的形式返回方阵的对角线（或非对角线）元素，或将一维数组转换为方阵（非对角线元素为O)
dot	矩阵乘法
trace	计算对角线元素的和
det	计算矩阵行列式
eig	计算方阵的特征值和特征向量
inv	计算方阵的逆
pinv	计算矩阵的Moore-Penrose伪逆
qr	计算QR分解
svd	计算奇异值分解（SVD)
solve	解线性方程组AX = B，其中A为一个方阵
lstsq	计算AX = B的最小二乘解

7.伪随机数生成

numpy.random模块对Python内置的random进行了补充，增加了一些用于高效生成多种概率分布的样本值的函数。例如，你可以用normal来得到一个标准正态分布的4×4样本数组：

import numpy as np
samples = np.random.normal(size=(4,4))
print(samples)

Python内置的random模块则只能一次生成一个样本值。从下面的测试结果中可以看出，如果需要产生大量样本值，numpy.random快了不止一个数量级：

import numpy as np
from random import normalvariate
N = 1000000
%timeit samples = [normalvariate(0, 1) for _ in range(N)]
%timeit np.random.normal(size=N)

我们说这些都是伪随机数，是因为它们都是通过算法基于随机数生成器种子，在确定性的条件下生成的。你可以用NumPy的np.random.seed更改随机数生成种子：

import numpy as np
np.random.seed(1234)
print(np.random.randn(10))
np.random.seed(1234)
print(np.random.randn(10))
print(np.random.randn(10))
print(np.random.randn(10))

numpy.random的数据生成函数使用了全局的随机种子。要避免全局状态，你可以使用numpy.random.RandomState，创建一个与其它隔离的随机数生成器：

import numpy as np
rng = np.random.RandomState(1234)
print(rng.randn(10))

下表列出了numpy.random中的部分函数：

函数	描述
seed	确定随机数生成器的种子
permutation	返回一个序列的随机排列或返回一个随机排列的范围
shuffle	对一个序列就地随机排列
rand	产生均匀分布的样本值
randint	从给定的上下限范围内随机选取整数
randn	产生正态分布（平均值为0，标准差为1）的样本值，类似于MATLAB接口
binomial	产生二项分布的样本值
normal	产生正态（高斯）分布的样本值
beta	产生Beta分布的样本值
chisquare	产生卡方分布的样本值
gamma	产生Gamma分布的样本值
uniform	产生在[0,1)中均匀分布的样本值

8.高级数组操作

除花式索引、切片、布尔条件取子集等操作之外，数组的操作方式还有很多。虽然pandas中的高级函数可以处理数据分析工作中的许多重型任务，但有时你还是需要编写一些在现有库中找不到的数据算法。

8.1 数组重塑

多数情况下，你可以无需复制任何数据，就将数组从一个形状转换为另一个形状。只需向数组的实例方法reshape传入一个表示新形状的元组即可实现该目的。例如，假设有一个一维数组，我们希望将其重新排列为一个矩阵（结果见图）：

import numpy as np
arr = np.arange(12)
print(arr)
print(arr.reshape((4,3), order='C'))
print(arr.reshape((4,3), order='F'))

多维数组也能被重塑：

import numpy as np
arr = np.arange(12)
print(arr.reshape((4, 3)).reshape((3, 4)))

作为参数的形状的其中一维可以是－1，它表示该维度的大小由数据本身推断而来：

import numpy as np
arr = np.arange(15)
print(arr.reshape((5,-1)))

与reshape将一维数组转换为多维数组的运算过程相反的运算通常称为扁平化（flattening）或散开（raveling），对应的函数为flatten和ravel：

import numpy as np
arr = np.arange(15).reshape((5, 3))
print(arr)
print(arr.flatten())
print(arr.ravel())

如果结果中的值与原始数组相同，ravel不会产生源数据的副本。flatten方法的行为类似于ravel，只不过它总是返回数据的副本：

import numpy as np
arr = np.arange(15).reshape((5, 3))
print(arr.flatten())

8.2 C和Fortran顺序

NumPy允许你更为灵活地控制数据在内存中的布局。默认情况下，NumPy数组是按行优先顺序创建的。在空间方面，这就意味着，对于一个二维数组，每行中的数据项是被存放在相邻内存位置上的。另一种顺序是列优先顺序，它意味着每列中的数据项是被存放在相邻内存位置上的。

像reshape和reval这样的函数，都可以接受一个表示数组数据存放顺序的order参数。一般可以是’C’或’F’（还有’A’和’K’等不常用的选项，具体请参考NumPy的文档）。上一小节的图片对此进行了说明。

8.3 数组的合并和拆分

numpy.concatenate可以按指定轴将一个由数组组成的序列（如元组、列表等）连接到一起：

import numpy as np
arr1 = np.array([[1, 2, 3], [4, 5, 6]])
arr2 = np.array([[7, 8, 9], [10, 11, 12]])
print(np.concatenate([arr1, arr2], axis=0))
print(np.concatenate([arr1, arr2], axis=1))

对于常见的连接操作，NumPy提供了一些比较方便的方法（如vstack和hstack）。因此，上面的运算还可以表达为：

import numpy as np
arr1 = np.array([[1, 2, 3], [4, 5, 6]])
arr2 = np.array([[7, 8, 9], [10, 11, 12]])
print(np.vstack((arr1, arr2)))
print(np.hstack((arr1, arr2)))

与此相反，split用于将一个数组沿指定轴拆分为多个数组，传入到np.split的值指示在哪个索引处分割数组：

import numpy as np
arr = np.random.randn(5,2)
print(arr)
first, second, third = np.split(arr, [1,4])
print(first)
print(second)
print(third)

下表列出了所有关于数组连接和拆分的函数，其中有些是专门为了方便常见的连接运算而提供的：

函数	描述
concatenate	最一般化的连接，沿一条轴连接一组数组
vstack、row_stack	以面向行的方式对数组进行堆叠（沿轴o)
hstack	以面向列的方式对数组进行堆叠（沿轴1)
column_stack	类似于hstack，但是会先将一维数组转换为二维列向量
dstack	以面向“深度”的方式对数组进行堆叠（(沿轴2)
split	沿指定轴在指定的位置拆分数组
hsplit、 vsplit、dsplit	split的便捷化函数，分别沿轴o、轴1、轴2进行拆分

8.4 元素的重复操作：tile和repeat

对数组进行重复以产生更大数组的工具主要是repeat和tile这两个函数。repeat会将数组中的各个元素重复一定次数，从而产生一个更大的数组：

import numpy as np
arr = np.arange(3)
print(arr)
print(arr.repeat(3))

默认情况下，如果传入的是一个整数，则各元素就都会重复那么多次。如果传入的是一组整数，则各元素就可以重复不同的次数：

import numpy as np
arr = np.arange(3)
print(arr)
print(arr.repeat([2,3,4]))

对于多维数组，还可以让它们的元素沿指定轴重复：

import numpy as np
arr = np.random.randn(2,2)
print(arr)
print(arr.repeat(2, axis=0))
print(arr.repeat(2, axis=1))

同样，在对多维进行重复时，也可以传入一组整数，这样就会使各切片重复不同的次数：

import numpy as np
arr = np.random.randn(2,2)
print(arr)
print(arr.repeat([2,3], axis=0))
print(arr.repeat([2,3], axis=1))

tile的功能是沿指定轴向堆叠数组的副本。你可以形象地将其想象成“铺瓷砖”：

import numpy as np
arr = np.random.randn(2,2)
print(arr)
print(np.tile(arr, 2))

第二个参数是瓷砖的数量。对于标量，瓷砖是水平铺设的，而不是垂直铺设。它可以是一个表示“铺设”布局的元组：

import numpy as np
arr = np.random.randn(2,2)
print(arr)
print(np.tile(arr, (2,1)))
print(np.tile(arr, (3,2)))

9.广播

广播（broadcasting）指的是不同形状的数组之间的算术运算的执行方式。它是一种非常强大的功能，但也容易令人误解，即使是经验丰富的老手也是如此。将标量值跟数组合并时就会发生最简单的广播：

import numpy as np
arr = np.arange(5)
print(arr)
print(arr * 4)

看一个例子，我们可以通过减去列平均值的方式对数组的每一列进行距平化处理。这个问题解决起来非常简单：

import numpy as np
arr = np.arange(12).reshape(4,3)
print(arr)
print(arr.mean(0))

demeaned = arr - arr.mean(0)
print(demeaned)

print(demeaned.mean(0))

下图形象地展示了该过程。用广播的方式对行进行距平化处理会稍微麻烦一些。幸运的是，只要遵循一定的规则，低维度的值是可以被广播到数组的任意维度的（比如对二维数组各列减去行平均值）。

9.1 广播规则

如果两个数组的维度数不相同，那么小维度数组的形状将会在最左边补1。

如果两个数组的形状在任何一个维度上都不匹配，那么数组的形状会沿着维度为1的维度扩展以匹配另外一个数组的形状。

如果两个数组的形状在任何一个维度上都不匹配并且每一偶任何一个维度等于1，那么会引发异常。

import numpy as np
M = np.ones((2,3))
a = np.arange(3)
print(M.shape)
print(a.shape)

根据规则1，数组a的维度数更小，所以在其左边补1：

M.shape -> (2, 3)

a.shape -> (1, 3)

根据规则2，第一个维度不匹配，因此扩展这个维度以匹配数组：

M.shape -> (2, 3)

a.shape -> (2, 3)

这样两个数组的形状匹配了，他们最终的形状都是 (2, 3)：

import numpy as np
M = np.ones((2,3))
a = np.arange(3)
print(M + a)

对于三维的情况，在三维中的任何一维上广播其实也就是将数据重塑为兼容的形状而已。下图说明了要在三维数组各维度上广播的形状需求。

于是就有了一个非常普遍的问题（尤其是在通用算法中），即专门为了广播而添加一个长度为1的新轴。虽然reshape是一个办法，但插入轴需要构造一个表示新形状的元组。这是一个很无聊的过程。因此，NumPy数组提供了一种通过索引机制插入轴的特殊语法。下面这段代码通过特殊的np.newaxis属性以及“全”切片来插入新轴：

import numpy as np
arr = np.zeros((4, 4))
print(arr)
print("\n----------------\n")
arr_3d = arr[:, np.newaxis, :]
print(arr_3d)
print(arr_3d.shape)

import numpy as np
arr_1d = np.random.normal(size=3)
print(arr_1d[:, np.newaxis])
print(arr_1d[np.newaxis, :])
print(arr_1d.reshape((1,-1)))

因此，如果我们有一个三维数组，并希望对轴2进行距平化，那么只需要编写下面这样的代码就可以了：

import numpy as np
arr = np.random.randn(3, 4, 5)
depth_means = arr.mean(2)
print(depth_means)
print(depth_means.shape)
demeaned = arr - depth_means[:, :, np.newaxis]
print(demeaned.mean(2))

9.2 通过广播设置数组的值

算术运算所遵循的广播原则同样也适用于通过索引机制设置数组值的操作。对于最简单的情况，我们可以这样做：

import numpy as np
arr = np.zeros((4, 3))
arr[:] = 5
print(arr)

但是，假设我们想要用一个一维数组来设置目标数组的各列，只要保证形状兼容就可以了：

import numpy as np
arr = np.zeros((4, 3))
col = np.array([1.28, -0.42, 0.44, 1.6])
print(col.shape)
arr[:] = col[:, np.newaxis]
print(arr)
arr[:2] = [[-1.27],[0.509]]
print(arr)
print(arr.flags)

你可能感兴趣的:(Python,#,数据分析及可视化,numpy,python,开发语言)

《Python期末备考全攻略：高分秘籍与实用技巧大合集！》跟着小郑学前端 python windows 开发语言数据结构
《Python期末备考全攻略：高分秘籍与实用技巧大合集！》1Python基础语法1.1变量与数据类型1.2条件语句1.3循环语句2.常见数据结构2.1列表2.2元组2.3字典2.4集合3.函数与模块3.1自定义函数3.2匿名函数（lambda）3.3标准库与第三方库4.文件操作4.1文件读写操作5.面向对象编程5.1类与对象5.2继承与多态6.综合练习题与答案1Python基础语法1.1变量与数据
Python 实现 RGB 和 HSV 相互转换算法传说里的故事 python 算法开发语言
Python实现RGB和HSV相互转换算法在图像处理领域，RGB和HSV是两种最常用的颜色空间。RGB是红绿蓝三原色的组合，HSV是色调、饱和度和亮度的组合。在不同应用场景下，需要将RGB和HSV进行相互转换。下面给出Python实现RGB和HSV相互转换的算法，并附上完整的源码。首先，我们需要导入colorsys库。这个库提供了许多颜色空间的转换函数。接下来，我们定义RGBToHSV和HSVTo
让旅游更智能：基于AR的旅游导览应用解析 Echo_Wish Python 笔记 Python算法旅游 ar restful
友友们好！我的新专栏《Python进阶》正式启动啦！这是一个专为那些渴望提升Python技能的朋友们量身打造的专栏，无论你是已经有一定基础的开发者，还是希望深入挖掘Python潜力的爱好者，这里都将是你不可错过的宝藏。在这个专栏中，你将会找到：●深入解析：每一篇文章都将深入剖析Python的高级概念和应用，包括但不限于数据分析、机器学习、Web开发等。●实战案例：通过丰富的实战案例，带你一步步实现
python 实现RGB和HSV相互转换算法 luthane python 算法开发语言
RGB和HSV相互转换算法介绍RGB和HSV之间的相互转换算法可以通过一系列的数学计算来实现。以下是对这两种色彩空间之间转换的基本算法的概述：RGB到HSV的转换1、归一化RGB值：首先，将RGB值从范围[0,255]归一化到[0,1]。这可以通过将每个颜色分量除以255来实现。2、计算明度V：明度V可以通过取RGB三个分量中的最大值来计算。即：[V=max⁡(R,G,B)][V=\max(R,G
【AI日志分析】基于机器学习的异常检测：告别传统规则的智能进阶人工智能机器学习深度学习
摘要随着系统规模的扩大和复杂性增加，传统基于规则的日志分析方法难以识别隐藏的复杂异常模式。本文将介绍基于机器学习的日志异常检测技术，包括模型选择、特征工程及实现步骤。通过具体的代码示例与图表，展示如何高效检测异常日志，并提供应用场景与优化策略。引言日志是系统运行状态的关键数据来源，但面对海量日志数据，传统规则式分析显得力不从心。机器学习能够根据日志的历史数据和行为模式，通过训练模型检测异常情况，不
《CMake实践》笔记三：构建静态库(.a) 与动态库(.so) 及如何使用外部共享库和头文件【转】... 嵌入式小庄老师 c++开发语言
本文转载自：五、静态库与动态库构建读者云，太能罗唆了，一个HelloWorld就折腾了两个大节。OK，从本节开始，我们不再折腾HelloWorld了，我们来折腾HelloWorld的共享库。本节的任务：１、建立一个静态库和动态库，提供HelloFunc函数供其他程序编程使用，HelloFunc向终端输出HelloWorld字符串。２、安装头文件与共享库。(一)、准备工作：在/backup/cmak
销售易CRM 2024年市场表现分析及2025年展望程序员算法机器学习
在2024年，腾讯旗下销售易CRM作为国内领先的企业级SaaS服务提供商，在多个维度都取得了显著进展。让我们从几个关键方面来分析其表现并展望2025年的发展方向。产品创新与技术升级2024年，销售易在AI赋能方面投入大量资源，推出了智能销售助手功能，通过AI技术辅助销售团队进行客户画像分析、商机预测等工作。其私有化部署方案得到进一步优化，满足了更多大型企业的数据安全需求。移动端应用的用户体验也获得
【Python】edge文件转csv文件海轰Pro 唯有努力 Python python 开发语言
目录简介问题场景解决方案结语简介Hello！非常感谢您阅读海轰的文章，倘若文中有错误的地方，欢迎您指出～ଘ(੭ˊᵕˋ)੭昵称：海轰标签：程序猿｜C++选手｜学生简介：因C语言结识编程，随后转入计算机专业，获得过国家奖学金，有幸在竞赛中拿过一些国奖、省奖…已保研学习经验：扎实基础+多做笔记+多敲代码+多思考+学好英语！唯有努力本文仅记录自己感兴趣的内容问题场景存在一个类型为edge的文件需要转化为格
2025年计算机专业毕业设计选题推荐速存小晓程序设计课程设计 java spring boot 毕业设计
2025最新计算机专业毕业设计选题推荐博主介绍CSDN特邀作者、博客专家、CSDN新星计划导师Java领域优质创作者，荣获“博客之星”称号掘金、华为云、阿里云、InfoQ等平台优质作者专注于Java技术及学生毕业项目实战指导高校教师/讲师，擅长同行交流合作文末获取源码联系方式主要内容SpringBoot、Vue、SSM框架应用HLMT（假设为某特定技术或框架）、Jsp、PHP、Node.js、Py
centos安装python3 XMYX-0 centos linux python
目录介绍安装依赖下载python安装包安装python建立软连接python3加入PATH变量验证python3安装的一些库psutil模块安装源码安装psutilpip安装windows上安装IPy的安装dns模块安装疑难杂症解决python上下键无法使用的问题安装pip以及setuptools安装pip测试：其他安装node以及pm2介绍Python是一种广泛应用的编程语言，原由荷兰国家数学与
python把列表插入列表 Zoert
python相关学习资料：https://edu.51cto.com/video/4102.htmlhttps://edu.51cto.com/video/1158.htmlhttps://edu.51cto.com/video/4645.htmlPython中列表的嵌套与操作在Python编程中，列表（List）是一种非常重要的数据结构，它不仅可以存储数据，还可以进行各种操作，如插入、删除、排序
python列表同时添加多个元素_如何将两个列表中的元素一起添加(how do i add elements from two lists together)... weixin_39627481
如何将两个列表中的元素一起添加(howdoiaddelementsfromtwoliststogether)我有两个这样的列表：l_1n-values...List不是专业的，所以专业级别没有多大意义。只有Array是专门的。classPoly[T](valcoef:List[T]){def+(op:Poly[T])(implicitadder:(T,T)=>T)=newPoly(Poly.com
【Python】Python之列表List添加插入元素 mjiansun Python
本文代码上下文person_dev_group=["徐强","倍总","航神"]第一种方式：append（）方法说明：list的实例方法append（），会在list的尾部添加一个元素person_dev_group.append("大森")第二种方式：insert（）方法，指定下标说明：index值可以为正数、也可以为负数，超出list范围的index值，将在list的头部或者尾部插入元素per
Centos7在线快速安装python3 ascarl2010 Linux系统运维 linux python
首先安装依赖包：yum-yinstallgcczlib-develbzip2-developenssl-develncurses-develsqlite-develreadline-develtk-devellibffi-develxz-devel使用国内镜像源下载Python源码（以Python3.8.12为例）：wgethttps://mirrors.huaweicloud.com/pytho
python打印对角线相连的菱形米酒馆 PYTHON python 开发语言
【开发该软件的操作系统】：windows10【软件开发环境/开发工具】：PyCharm【编程语言】：Python【开发目的】：这是老师布置的作业啦~供初学者参考学习【开发者】：江西农业大学2020级大二学生代码实现：输入菱形边长，打印对角线相连的菱形。代码如下：#打印对角线相连的菱形n=int(input('请输入菱形每边星星个数，n='))m=t=2*n-1#双重赋值,m和t为行数whilem>
【Python】高效的Web自动化测试利器—Python+Playwright快速上手自动化实战指南墩墩分墩 Python python 自动化测试 playwright 爬虫 UI自动化
文章目录前言一.playwright是什么二.python引入playwright1.安装2.playwright命令行参数3.playwrightcodegen自动生成代码4.Chrome和Chromium有什么关系？三.基本概念1.无头浏览器（HeadlessBrowser）2.同步和异步模式操作playwright2.1.同步（Sync）模式同步方式代码模板2.2.异步（Async）模式异步
【Python】记录生产编程小tips(字符串处理、列表删除、字典、csv、excel操作)持续更新墩墩分墩 Python python 开发语言字符串操作时间转换列表删除
文章目录一.for循环删除列表元素1.删除list元素方法2.直接删除往往结果与期望不一致3.循环删除元素的正确方法：方法1：while循环+i减方法2：使用copy方法3：倒叙遍历二.字符串处理库三.dict字典1.dict运用2.循环删除dict的键值对1.使用for循环和del语句2.使用字典推导式（创建新字典）3.使用popitem()方法（在Python3.7+中有序）4.使用items
linux虚拟机连接不上Xshell 远方 hi php apache 开发语言
本文介绍了在尝试通过Xshell连接Linux虚拟机时遇到的问题及解决方案。错误表现为无法连接到指定IP的SSH服务。常规检查包括确认网络连通性、防火墙状态和SSH服务状态。作者发现问题根源在于虚拟机的网络配置错误，子网配置与分配的IP地址不匹配。修复网络配置后，成功解决了连接问题。Type`help'tolearnhowtouseXshellprompt.[c:\~]$Connectingto1
centos下安装python3详细教程_centos python m0_60635321 2024年程序员学习 centos python linux
yum-yinstalllibffi-devel#安装pipyuminstallpython-pip*####4.用pip装wgetpipinstallwget*####5.用wget下载python3的源码包（评论区网友提供了淘宝镜像，替换了官网下载python3，提高下载速度）wgethttp://npm.taobao.org/mirrors/python/3.7.5/Python-3.7.5
微服务架构对IT市场的影响及可能出现的商业模式自由鬼 IT应用探讨行业发展架构微服务云原生
随着技术的不断发展，企业对IT架构的需求不断发生变化，微服务架构（MicroservicesArchitecture）作为一种新兴的架构模式，正在引领企业IT构建的革命性变化。尤其在私有云模式下，微服务架构提供了灵活性、安全性以及定制化解决方案，这对IT行业以及商业模式的演变具有深远影响。一、微服务架构的核心优势微服务架构通过将传统单体应用拆分成一系列独立且小型的服务，使得每个服务都可以独立开发、
Edge-TTS：Python中的微软Edge在线文本转语音服务葛佩蔷
Edge-TTS：Python中的微软Edge在线文本转语音服务edge-ttsUseMicrosoftEdge'sonlinetext-to-speechservicefromPythonWITHOUTneedingMicrosoftEdgeorWindowsoranAPIkey项目地址:https://gitcode.com/gh_mirrors/ed/edge-tts项目基础介绍和主要编程语
Python语法总结彧侠脚本处理 Python
Python作为一种解释型的脚本语言，无论从自动化运维、大数据处理还是人工智能都得到了广泛的应用，而且它好理解、易学习、上手快的特点也使它成为了当下最火热的开发语言之一。下面就对Python语言中的各种语法做一个总结，以备后用数据类型一、整数二、浮点数三、字符串四、布尔值五、空值print语句注释什么是变量比如：定义字符串raw字符串与多行字符串Unicode字符串字符串还有一个编码问题。整数和浮
python算法毕业设计开题答疑 DD项目分享家毕业设计 python 毕设
文章目录0简介1如何选题2最新软件工程毕设选题3最后0简介丹成学长，搜集分享最新的软件工程业专业毕设选题，难度适中，适合作为毕业设计，大家参考。学长整理的题目标准：相对容易工作量达标题目新颖选题指导,项目分享：见文末1如何选题最近非常多的学弟学妹问学长关于选题的问题，所以今天学长来教大家如何进行毕业设计选题！毕业设计的选题尤为重要，选好题目是最终完成毕业设计的第一步。因为题目的选择跟之后的设计实现
Python Turtle艺术绘画赏析与编程自由徜徉碧海蓝天 python 开发语言爬虫编程
PythonTurtle是一个强大的绘图库，通过简单的命令和指令，可以在屏幕上绘制出各种图形和艺术作品。本文将介绍PythonTurtle艺术绘画的一些技巧和示例代码，帮助您了解如何使用PythonTurtle库来创作独特的艺术作品。在开始之前，确保您已经安装了Python和Turtle库。如果您还没有安装，可以通过Python的官方网站下载并安装Python，然后在命令行中使用以下命令安装Tur
纺织厂车间设备的数据采集与智能化管理北京天拓四方物联网边缘计算其他
纺织厂作为传统制造业的重要组成部分，其车间内配备了多种复杂且高效的机器设备。这些设备不仅承担着从原材料到成品的整个生产过程，还是数据采集与智能化管理的基础。纺织厂车间的主要设备包括纺纱设备、织机、印染设备及辅助设备。纺纱设备如纺纱机、捻线机和细纱机，负责将棉、麻、毛等原材料纺成纱线。织机则用于将纱线织成布匹，常见类型有水力织机、气流织机和电子织机。印染设备如印染机和烘干机，则负责为织成的布匹进行染
【全开源】物业收费管理收费小程序系统源码（FastAdmin+UniApp）指间代码师 miui52086微码集市小程序 uni-app 大数据微信小程序微信开放平台
一款基于FastAdmin+UniApp开发的一款物业收费管理小程序。包含房产管理、收费标准、家属管理、抄表管理、在线缴费、业主公告、统计报表、业主投票、可视化大屏等功能。为物业量身打造的小区收费管理系统，贴合物业工作场景，轻松提高物业费用收缴率，助力物业节约成本高效运营。智能化管理，提升物业效率引言随着城市化进程的加快，物业管理日益成为社区管理的关键环节。传统的物业收费方式不仅效率低下，还容易引
大学生python编程小游戏,python初学者小项目 2301_81895949 java 前端服务器人工智能
大家好，本文将围绕大学生python编程小游戏展开说明，python初学者小项目是一个很多人都想弄明白的事情，想搞清楚python做简单的项目需要先了解以下几个事情。开发教程目录前前言——是大佬就别进来看了，远古项目，写的很菜前言——学会项目开发项目开发的意义和重要性如何去开发一个项目(理论)开发前期准备(了解业务)项目设计项目需求讨论项目开发规划项目资源的准备源代码的编写开发后期处理正文——开发
Linux编辑器——vim的基础使用 Yui_ Linux linux 编辑器 vim 笔记经验分享
文章目录1.vim的基本概念2.vim的基本操作3.vim命令模式命令集3.1移动光标3.2删除文字3.3复制3.4替换3.5撤销3.6更改3.7跳到指定的行1.vim的基本概念本文将介绍vim的三种模式，分别位：命令模式、插入模式、低行模式。他们的功能区分如下：正常/普通/命令模式控制屏幕光标的移动、字符、字或行的删除、移动某区段及进入插入模式，或者到末行模式插入模式只有在插入模式才可以做文字输
华为OD机试E卷 --英文输入法--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od java javascript c语言 python
文章目录题目描述输入描述输出描述用例JS算法源码Java算法源码python算法源码c算法源码c++算法源码题目描述主管期望你来实现英文输入法单词联想功能。需求如下：•依据用户输入的单词前缀，从已输入的英文语句中联想出用户想输入的单词，按字典序输出联想到的单词序列，•如果联想不到，请输出用户输入的单词前缀。注意：英文单词联想时，区分大小写缩略形式如”don’t”，判定为两个单词，”don”和”t”
python+ollama本地大模型批量识别PDF，总结摘要以及关键词并输出EXCEL。月野难浔丶 python pdf 开发语言
现在市场上有很多PDF文件的识别，转化，等等。有些业务可能需要总结摘要和关键词等等一系列的操作。然而随着AI的兴起，本地大模型的部署，这些成为一种很方便的方法，接下来我将为各位介绍我所使用的方法。本篇文章旨在自动化处理PDF文档，提取并清理文本数据，然后使用一种大型模型生成摘要和关键词。最后，处理结果会被整理并输出到Excel文件中，便于后续分析和查看。人工智能（AI）是一种模拟人类智能的科技，它
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文