Leben&流觞

python常用模块(二) —— numpy

参考视频视频：黑马Python教程4天快速入手Python数据挖掘
切片图片出自：https://www.jianshu.com/p/a380222a3292

1 Numpy优势

1.1 Numpy介绍

Numpy（Numerical Python）是一个开源的Python科学计算库，用于快速处理任意维度的数组。(numerical $\to$ 数值化的)
Numpy支持常见的数组和矩阵操作。对于同样的数值计算任务，使用Numpy比直接使用Python要简洁的多。
Numpy使用ndarray对象来处理多维数组，该对象是一个快速而灵活的大数据容器。

1.2 ndarray介绍

NumPy provides an N-dimensional array type, the ndarray, which describes a collection of “item” of the same type.

NumPy提供了一个N维数组类型ndarray，描述了相同类型的“items”的集合。

ndarray：n $\to$ 任意个；d $\to$ dimension 维度；array $\to$ 数组

import numpy as np

score = np.array([[80, 89, 86, 67, 79],
[78, 97, 89, 67, 81],
[90, 94, 78, 67, 74],
[91, 91, 90, 67, 69],
[76, 87, 75, 67, 86],
[70, 79, 84, 67, 84],
[94, 92, 93, 67, 64],
[86, 85, 83, 67, 80]])	# 将数据存储到 ndarray容器中

In[1] ：score
Out[1]: array([[80, 89, 86, 67, 79],
           [78, 97, 89, 67, 81],
           [90, 94, 78, 67, 74],
           [91, 91, 90, 67, 69],
           [76, 87, 75, 67, 86],
           [70, 79, 84, 67, 84],
           [94, 92, 93, 67, 64],
           [86, 85, 83, 67, 80]])

In[1] ：type(score)
Out[1]: numpy.ndarray

1.3 ndarray与Python原生list运算效率对比

使用 Python列表可以存储一维数组，通过列表的嵌套可以实现多维数组。

那么为什么还需要使用 Numpy的ndarray呢？

import random
import time

# 生成一个大数组
python_list = []
for i in range(100000000):
    python_list.append(random.random())
ndarray_list = np.array(python_list)

# 原生pythonlist求和
t1 = time.time()
a = sum(python_list)
t2 = time.time()
d1 = t2 - t1		# 0.7309620380401611

# ndarray求和
t3 = time.time()
b = np.sum(ndarray_list)
t4 = time.time()
d2 = t4 - t3		# 0.12980318069458008

总结：

从中可以看到ndarray的计算速度要快很多，节约了时间。

机器学习的最大特点就是大量的数据运算，如果没有一个快速的解决方案，那可能现在 python也在机器学习领域达不到好的效果。

Numpy专门针对ndarray的操作和运算进行了设计，所以数组的存储效率和输入输出性能远优于Python中的嵌套列表，数组越大，Numpy的优势就越明显。

1.4 ndarray的优势

内存块风格：ndarray - 相同类型 - 通用性不强；list - 不同类型 - 通用性很强。
从图中可以看岀ndarray在存储数据的时候，数据与数据的地址都是连续的，这样使得批量操作数组元素时速度更快。

因为ndarray中的所有元素的类型都是相同的，而Python列表中的元素类型是任意的，所以ndarray在存储元素时内存可以连续，而python原生list就只能通过寻址方式找到下一个元素，这虽然导致了在通用性能方面Numpy的ndarray不及Python原生list，但在科学计算中，Numpy的ndarray就可以省掉很多循环语句，代码使用方面比 Python原生list简单的多。
ndarray支持并行化运算（向量化运算）。
Numpy底层使用c语言编写，内部解除了GIL（全局解释器锁），其对数组的操作速度不受 Python解释器的限制，效率远高于纯 Python代码。

2 N维数组 - ndarray

2.1 ndarray的属性

属性名字	属性解释
ndarray.shape	数组维度的元组
ndarray.ndim	数组维数
ndarray.size	数组中的元素数量
ndarray.dtype	数组元素的类型
ndarray.itemsize	一个数组元素的长度（字节）

In[1] ：score.shape
Out[1]: (8, 5)		# 8行5列，元组表示

In[1] ：score.ndim
Out[1]: 2		# 2维

In[1] ：score.size
Out[1]: 40		# 40个元素

In[1] ：score.dtype
Out[1]: dtype('int64')	# 默认整数类型

In[1] ：score.itemsize
Out[1]: 8		# 一个元素 8 个字节

2.2 ndarray的形状

# 首先创建一些数组：
a = np.array([[1,2,3],[4,5,6]])
b = np.array([1,2,3,4])
c = np.array([[[1,2,3],[4,5,6]],[[1,2,3],[4,5,6]]])

In[1] ：a
Out[1]: array([[1, 2, 3],
           [4, 5, 6]])

In[1] ：a.shape
Out[1]: (2, 3)		# 二维数组

In[1] ：b
Out[1]: array([1, 2, 3, 4])

In[1] ：b.shape
Out[1]: (4,)		# 一维数组

In[1]：c
Out[1]: array([[[1, 2, 3],
            [4, 5, 6]],
    
           [[1, 2, 3],
            [4, 5, 6]]])

In[1] ：c.shape
Out[1]: (2, 2, 3)	# 三维数组

注意：

可以查看最外围中括号，有几个就是几维

数组的形状ndarray.shape用元组表示

2.3 ndarray的类型

dtype是numpy.dtype类型

名称	描述	简写
np.bool	用一个字节存储的布尔类型（True或 False）	‘b’
np.int8	一个字节大小，-128至127	‘i’
np.int16	整数，-32768至32767	‘i2’
np.int32	整数，-2³¹至2³²-1	’i4’
np.int64	整数，-2⁶³至2⁶³-1	’i8’
np.uint8	无符号整数，0至255	’u’
np.uint16	无符号整数，0至65535	‘u2’
np.uint32	无符号整数，0至2³²-1	‘u4’
np.uint64	无符号整数，0至2⁶⁴-1	‘u8’
np.float16	半精度浮点数：16位，正负号1位，指数5位，精度10位	‘f2’
np.float32	单精度浮点数：32位，正负号1位，指数8位，精度23位	’f4’
np.float64	双精度浮点数：64位，正负号1位，指数11位，精度52位	’f8’
np.complex64	复数，分别用两个32位浮点数表示实部和虚部	‘c8’
np.complex 128	复数，分别用两个64位浮点数表示实部和虚部	‘c16’
np.object	python对象	‘O’
np.string	字符串	‘S’
np. unicode_	unicode类型	‘U’

data = np.array([1.1, 2.2, 3.3])

In[1] ：data
Out[1]: array([1.1, 2.2, 3.3])

In[1] ：data.dtype
Out[1]: dtype('float64')	# 默认浮点类型

创建数组的时候指定类型：

In[1] ：np.array([1.1, 2.2, 3.3], dtype="float32")
Out[1]: array([1.1, 2.2, 3.3], dtype=float32)

In[1] ：np.array([1.1, 2.2, 3.3], dtype=np.float32)
Out[1]: array([1.1, 2.2, 3.3], dtype=float32)

# 不常用
arr = np.array(['python','tensorflow','scikit-learn', 'numpy'], dtype =np.string_)

In[1] ：arr
Out[1]: array([b'python', b'tensorflow', b'scikit-learn', b'numpy'], dtype='|S12')

注意： 若不指定，整数默认int64，小数默认foat64。

3 基本操作

ndarray.方法()或者np.函数名()。

3.1 生成数组的方法

3.1.1 生成0和1的数组

empty(shape[, dtype, order])
empty_like(a[, dtype, order, subok])
eye(N[, M, k, dtype, order])
identity(n[, dtype)
ones(shape[, dtype, order])
ones_like(a[, dtype, order, subok])
zeros(shape[, dtype, order])
zeros_like(a[, dtype, order, subok])
full(shape, fill_value[, dtype, order])
full_like(a, fill_value, dtype, order, subok])

# 生成 0 的数组
In[1] ：np.zeros(shape=(3, 4), dtype="float32")
Out[1]: array([[0., 0., 0., 0.],
           [0., 0., 0., 0.],
           [0., 0., 0., 0.]], dtype=float32)
# 生成 1 的数组
In[1] ：np.ones(shape=[2, 3], dtype=np.int32)
Out[1]: array([[1, 1, 1],
           [1, 1, 1]], dtype=int32)

注意： 查看np.shape属性时，表示方法为元组；指定形状，既可以用元组也可以用列表。

3.1.2 从现有数组生成

array(object[, dtype, copy, order, subok, ndmin])
asarray(a[, dtype, order])
asanyarray(a[, dtype, order])
ascontiguousarray(a[, dtype])
asmatrix(data[, dtype)
copy[a[, order]

关于 array 和 asarray 的不同

a = np.array([[1, 2, 3], [4, 5, 6]])

In[1] ：a
Out[1]: array([[1, 2, 3],
       [4, 5, 6]])

np.array( )，从现有的数组当中创建

a1 = np.array(a)

In[1] ：a1
Out[1]: array([[1, 2, 3],
       [4, 5, 6]])

np.asarray( )，相当于索引的形式，并没有真正的创建一个新的

a2 = np.asarray(a)

In[1] ：a2
Out[1]: array([[1, 2, 3],
       [4, 5, 6]])

np.copy()

a3 = np.copy(a)

In[1] ：a3
Out[1]: array([[1, 2, 3],
       [4, 5, 6]])

总结： a1 = np.array(a)，a2 = np.asarray(a)，a3 = np.copy(a)三者数据显示相同

改数值：

a[1, 1] = 1000

In[1] ：a
Out[1]: array([[   1,    2,    3],
       [   4, 1000,    6]])

a1 = np.array(a)，数据未改，深拷贝

In[1] ：a1
Out[1]: array([[1, 2, 3],
       [4, 5, 6]])

a2 = np.asarray(a)，数据改变，浅拷贝

In[1] ：a2
Out[1]: array([[   1,    2,    3],
       [   4, 1000,    6]])

a3 = np.copy(score)，数据未改，深拷贝

In[1] ：data3
Out[1]: array([[1, 2, 3],
       [4, 5, 6]])

3.1.3 生成固定范围的数组

np.linspace(start, stop, num, endpoint, retstep, dtype)

生成等间隔的序列

start 序列的起始值
stop 序列的终止值
- 如果 endpoint 为true，该值包含于序列中，默认闭区间[ ]
num要生成的等间隔样例数量，默认为50
endpoint 序列中是否包含 stop 值，默认为ture
retstep 如果为 true，返回样例以及连续数字之间的步长
dtype输出 ndarray的数据类型

In[1] ：np.linspace(0, 10, 5)
Out[1]: array([ 0. ,  2.5,  5. ,  7.5, 10. ])

numpy.arange(start, stop, step, dtype)，左闭右开[ )，step是步长

In[1] ：np.arange(0, 10, 5)
Out[1]: array([ 0,  5])

numpy.logspace(start, stop, num, endpoint, base, dtype)，构建等比数列

3.1.4 生成随机数组：`np.random`模块

1. 均匀分布(Uniform Distribution)

概率统计中的重要分布之一。顾名思义，均匀，表示可能性相等的含义。均匀分布在自然情况下极为罕见，而人工栽培的有一定株行距的植物群落即是均匀分布。

np.random.rand(d0, d1, … dn)，返回 [0.0, 1.0) 内的一组均匀分布的数
np.random.uniform(low=0.0, high=1.0, size=None)
- 功能：从一个均匀分布[low,high)中随机采样, 注意定义域是左闭右开
- 参数介绍：
  low：采样下界, float类型, 默认值为0；
  high：采样上界, float类型, 默认值为1；
  size：输出样本数目, 为int或元组(tuple)类型, 例如, size=(m,n,k), 则输出mnk个样本, 缺省时输出1个值。
  返回值：ndarray类型, 其形状和参数size中描述一致。
np.random.randint(low, high=None, size=None, dtype=‘l’)
- 从一个均匀分布中随机采样，生成一个整数或N维整数数组，取数范围：若high不为None时，取[low, high)之间随机整数，否则取值[0, low)之间随机整数。

示例：

data1 = np.random.uniform(low=-1, high=1, size=1000000)

In[1] ：data1
Out[1]：array([-0.49795073, -0.28524454,  0.56473937, ...,  0.6141957 ,
            0.4149972 ,  0.89473129])

画图看分布状况：

import matplotlib.pyplot as plt

# 1、创建画布
plt.figure(figsize=(20, 8), dpi=80)
# 2、绘制直方图
plt.hist(data1, 1000)
# 3、显示图像
plt.show()

2. 正态分布

简介：

正态分布是一种概率分布，是具有两个参数 $\mu$ 和 $\sigma$ 的连续型随机变量的分布，第一个参数 $\mu$ 是服从正态分布的随机变量的均值，第二个参数 $\sigma$ 是此随机变量的标准差，所以正态分布记作 $N(\mu, \sigma)$ 。

应用：生活、生产与科学实验中很多随机李量的概率分布都可以近似地用正态分布来描述。
正态分布特点： $\mu$ 决定位置，标准差 $\sigma$ 决定分布的幅度、集中程度。当 $\mu=0$ , $\sigma=1$ 时的正态分布是标准正态分布。

$\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

标准差：方差开平方。
方差：
$s^2=\frac{(x_1-\mu)^2+(x_2-\mu)^2+(x_3-\mu)^2+……+(x_n-\mu)^2}{n}$ 其中 $\mu$ 为平均值， $n$ 为数据总个数， $s$ 为标准差 $\sigma$
$\sigma=\sqrt{\frac{1}{N}\sum_{i=1}^N(x_i-\mu)^2}$ 标准差与方差的意义：在概率论和统计学中衡量一组数据离散程度的度量。

正态分布语法：

np.random.rand(d0, d1, … dn)
- 功能：从标准正态分布中返回一个或多个样本值
np.random.normal(loc=0.0, scale=1.0, size=None)
- loc：float类型，此概率分布的均值（对应着整个分布的中心 centre）
- scale：float类型，此概率分布的标准差（对应于分布的宽度，scale越大越矮胖，scale越小，越瘦高）
- size：int or tuple of ints，输出的 shape，默认为None，只输出一个值
np.random.standard_normal(size=None)，返回指定形状的标准正态分布的数组。

示例：

# 正态分布
data2 = np.random.normal(loc=1.75, scale=0.1, size=1000000)

In[1] ：data2
Out[1]: array([1.66381498, 1.81276401, 1.58393696, ..., 1.72017482, 1.90260969,
           1.69554529])

图像显示效果：

# 1、创建画布
plt.figure(figsize=(20, 8), dpi=80)

# 2、绘制直方图
plt.hist(data2, 1000)

# 3、显示图像
plt.show()

3.2 数组操作

案例：随机生成8只股票2周的交易日涨跌幅数据

两周的交易日数量为：2×5=10天
随机生成涨跌幅在某个正态分布内，比如均值0，方差1

3.2.1 股票涨跌幅数据的创建

stock_change = np.random.normal(loc=0, scale=1, size=(8, 10))

In[1] ：stock_change
Out[1]: array([[-0.03469926,  1.68760014,  0.05915316,  2.4473136 , -0.61776756,
            -0.56253866, -1.24738637,  0.48320978,  1.01227938, -1.44509723],
           [-1.8391253 , -1.10142576,  0.09582268,  1.01589092, -1.20262068,
             0.76134643, -0.76782097, -1.11192773,  0.81609586,  0.07659056],
	   ...
           [-2.93762047,  0.22199761,  0.98788788,  0.37899235,  0.28281886,
            -1.75837237, -0.09262863, -0.92354076,  1.11467277,  0.76034531],
           [-0.39473551,  0.28402164, -0.15729195, -0.59342945, -1.0311294 ,
            -1.07651428,  0.18618331,  1.5780439 ,  1.31285558,  0.10777784]])

3.2.2 数组的索引、切片

获取第一个股票的前3个交易日的涨跌幅数据

# 二维的数组，两个维度
In[1] ：stock_change[0, :3]
Out[1]: array([-0.03469926,  1.68760014,  0.05915316])

一维、二维、三维的数组索引：

# 三维，一维
a1 = np.array([[[1,2,3],[4,5,6]], [[12,3,34],[5,6,7]]])

In[1] ：a1
Out[1]: array([[[ 1,  2,  3],
            [ 4,  5,  6]],
    
           [[12,  3, 34],
            [ 5,  6,  7]]])

# 索引、切片
In[1] ：a1[0, 0, 1]
Out[1]: 2

# 形状
In[1] ：a1.shape
Out[1]: (2, 2, 3)

# 值修改
a1[1, 0, 2] = 100000

In[1] ：a1
Out[1]: array([[[     1,      2,      3],
            [     4,      5,      6]],
    
           [[    12,      3, 100000],
            [     5,      6,      7]]])

3.3.3 形状修改 - 转置

需求：将上述股票行、日期列反过来，变成日期行，股票列

ndarray.reshape(shape[, order])：returns an array containing the same data with a new shape.

# 在转换形状的时候，一定要注意数组的元素匹配
stock_change.reshape([-1, 201]) # 数组的形状被修改为：(4, 20)，-1：表示待计算

In[1] ：stock_change.reshape((10, 8)) 	# stock_change.reshape([10, 8])
Out[1]: array([[-0.03469926,  1.68760014,  0.05915316,  2.4473136 , -0.61776756,
            -0.56253866, -1.24738637,  0.48320978],	# 一行 8 个数据
           [ 1.01227938, -1.44509723, -1.8391253 , -1.10142576,  0.09582268,
             1.01589092, -1.20262068,  0.76134643],
           ...........])

# 原始数据没有改变
In[1] ：stock_change
Out[1]: array([[-0.03469926,  1.68760014,  0.05915316,  2.4473136 , -0.61776756,
            -0.56253866, -1.24738637,  0.48320978,  1.01227938, -1.44509723],
           [-1.8391253 , -1.10142576,  0.09582268,  1.01589092, -1.20262068,
             0.76134643, -0.76782097, -1.11192773,  0.81609586,  0.07659056],
            ............])

总结：

ndarray.reshape(shape)只是将形状进行了修改，并没有将行列进行转换，原始数据按行读取，从左至右，依次读取8个数据，共10次 $\to$ 10行8列。

ndarray.reshape(shape) 返回新的ndarray，原始数据没有改变。

ndarray.resize(new_shape[, refcheck])：Change shape and size of array in-place.

In[1]：stock_change.resize((10, 8))

In[1] ：stock_change.shape
Out[1]: (10, 8)

In[1] ：stock_change		
Out[1]: array([[-0.03469926,  1.68760014,  0.05915316,  2.4473136 , -0.61776756,
            -0.56253866, -1.24738637,  0.48320978]
            [1.01227938, -1.44509723,  -1.8391253 , -1.10142576,  0.09582268,
             1.01589092, -1.20262068,  0.76134643],
            ............])

总结：

ndarray.resize(shape) 只是将形状进行了修改，并没有将行列进行转换，原始数据按行读取，从左至右，依次读取8个数据，共10次 $\to$ 10行8列。

ndarray.resize(shape) 没有返回值，对原始的ndarray进行了修改。

ndarray.T数组的转置：将数组的行、列进行互换

In[1] ：stock_change.T
Out[1]: array([[-0.03469926, -1.8391253 , -0.74293074,  0.45914676, -0.50413407,
             0.3627785 , -2.93762047, -0.39473551],
           [ 1.68760014, -1.10142576, -0.7836588 , -0.78330377, -1.35848099,
             1.00279706,  0.22199761,  0.28402164],
             ............])

总结：

ndarray.T将数组的行、列进行互换。

ndarray.T 返回新的ndarray，原始数据没有改变。

3.3.4 类型修改

ndarray.astype(type)：更改数组类型

# 浮点型 ndarray 转化为整型
In[1] ：stock_change.astype("int32")
Out[1]: array([[ 0,  1,  0,  2,  0,  0, -1,  0,  1, -1],
           [-1, -1,  0,  1, -1,  0,  0, -1,  0,  0],
           [ 0,  0,  1,  0,  1,  2,  0,  0,  0,  0],
           [ 0,  0, -1,  0,  0, -1,  0, -1,  0,  0],
           [ 0, -1, -2, -1,  0,  0,  0,  1,  1,  0],
           [ 0,  1,  0, -2, -2, -1,  1, -2,  1,  1],
           [-2,  0,  0,  0,  0, -1,  0,  0,  1,  0],
           [ 0,  0,  0,  0, -1, -1,  0,  1,  1,  0]], dtype=int32)

ndarray.tostring([order])或者ndarray.tobytes([order])：Construct Python bytes containing the raw data bytes in the array.（ndarray序列化到本地）

概念：把对象或者结构体从内存中变成可存储或传输的过程称之为序列化。序列化是将一个对象转换成字节流(byte[ ]，或者叫字符串，2进制串)以达到将其长期保存在内存、数据库或文件中的处理过程。它的主要目的是保存对象的状态以便以后需要的时候使用。

In[1] ：stock_change.tostring()
Out[1]: b'\x95&\x99\xdd\x19\xc4\xa1\.......\xa2\x95x&\x19\x94\x03@\x9f?\x8c\x98P\xdbt\x01\xf5?t\xd8 -T\x97\xbb?'

3.3 数组的去重

语法：np.unique(ndarray)

temp = np.array([[1, 2, 3, 4],[3, 4, 5, 6]])

In[1] ：temp
Out[1]: array([[1, 2, 3, 4],
           [3, 4, 5, 6]])

# 方法一：
In[1] ：np.unique(temp)
Out[1]: array([1, 2, 3, 4, 5, 6])

# 方法二：
In[1] ：temp.flatten()		# 平滑处理
Out[1]: array([1, 2, 3, 4, 3, 4, 5, 6])

In[1] ：set(temp.flatten())	# 集合去重，集合只能处理一维形式
Out[1]: {
     1, 2, 3, 4, 5, 6}

4 ndarray运算

4.1 逻辑运算

操作符合某一条件的数据。

4.1.1 逻辑判断

stock_change = np.random.normal(loc=0, scale=1, size=(5, 5))

In[1] ：stock_change
Out[1]: array([[ 1.46338968, -0.45576704,  0.29667843,  0.16606916,  0.46446682],
       [ 0.36775845,  0.24078108,  0.122042  ,  1.19314047,  1.34072589],
       [-1.48252741, -0.69347186,  0.91122464, -0.30606473,  0.41598897],
       [ 0.39438905, -1.31770556,  1.7344868 , -1.52812773, -0.47703227],
       [-0.9822216 , -1.09482936, -0.81834523,  0.57335311,  0.97390091]])

# 逻辑判断, 如果涨跌幅大于0.5就标记为True，否则为False
In[1] ：stock_change > 0.5
Out[1]: array([[ True, False, False, False, False],
       [False, False, False,  True,  True],
       [False, False,  True, False, False],
       [False, False,  True, False, False],
       [False, False, False,  True,  True]])

# 判断 stock_change[0:2, 0:5]是否全是上涨的
In[1] ：stock_change[0:2, 0:5] > 0
Out[1]: array([[ True, False,  True,  True,  True],
           [ True,  True,  True,  True,  True]])

4.1.2 布尔索引

In[1] ：stock_change[stock_change > 0.5] = 1.1
In[1] ：stock_change
Out[1]: array([[ 1.1       , -0.45576704,  0.29667843,  0.16606916,  0.46446682],
       [ 0.36775845,  0.24078108,  0.122042  ,  1.1       ,  1.1       ],
       [-1.48252741, -0.69347186,  1.1       , -0.30606473,  0.41598897],
       [ 0.39438905, -1.31770556,  1.1       , -1.52812773, -0.47703227],
       [-0.9822216 , -1.09482936, -0.81834523,  1.1       ,  1.1       ]])

4.2 通用判断函数

np.all(布尔值)：只有全是True才返回True，只要有一个False就返回False

In[1] ：np.all(stock_change[0:2, 0:5] > 0)
Out[1]: False

np.any(布尔值)：只要有一个True就返回True，只有全是False才返回False

# 判断前5只股票这段期间是否有上涨的
In[1] ：np.any(stock_change[:5, :] > 0)
Out[1]: True

4.3 np.where(三元运算符)

通过使用np.where(布尔值, True的位置的值, False的位置的值)能够进行更加复杂的运算

# 判断前四个股票前四天的涨跌幅 大于0的置为1，否则为0
temp = stock_change[:4, :4]

# 方法一：
In[1] ：temp
Out[1]: array([[ 1.1       , -0.45576704,  0.29667843,  0.16606916],
           [ 0.36775845,  0.24078108,  0.122042  ,  1.1       ],
           [-1.48252741, -0.69347186,  1.1       , -0.30606473],
           [ 0.39438905, -1.31770556,  1.1       , -1.52812773]])

In[1] ：np.where(temp > 0, 1, 0) # 大于零的位置置为 1，小于零的位置置为 0
Out[1]: array([[1, 0, 1, 1],
           [1, 1, 1, 1],
           [0, 0, 1, 0],
           [1, 0, 1, 0]])

# 方法二：
In[1] ：temp > 0
Out[1]: array([[ True, False,  True,  True],
           [ True,  True,  True,  True],
           [False, False,  True, False],
           [ True, False,  True, False]])

In[1] ：np.where([[ True, False,  True,  True],
       [ True,  True,  True,  True],
       [False, False,  True, False],
       [ True, False,  True, False]], 1, 0)
Out[1]: array([[1, 0, 1, 1],
           [1, 1, 1, 1],
           [0, 0, 1, 0],
           [1, 0, 1, 0]])

复合逻辑需要结合np.logical_and()和np.logical_or()使用

# 判断前四个股票前四天的涨跌幅 大于0.5并且小于1的，换为1，否则为0
# (temp > 0.5) and (temp < 1)    报错

# 方法一：
In[1] ：np.logical_and(temp > 0.5, temp < 1)
Out[1]: array([[False, False, False, False],
           [False, False, False, False],
           [False, False, False, False],
           [False, False, False, False]])

In[1] ：np.where([[False, False, False, False],
       [False, False, False, False],
       [False, False, False, False],
       [False, False, False, False]], 1, 0)
Out[1]: array([[0, 0, 0, 0],
           [0, 0, 0, 0],
           [0, 0, 0, 0],
           [0, 0, 0, 0]])

# 方法二：
In[1] ：np.where(np.logical_and(temp > 0.5, temp < 1), 1, 0)
Out[1]: array([[0, 0, 0, 0],
           [0, 0, 0, 0],
           [0, 0, 0, 0],
           [0, 0, 0, 0]])

# 判断前四个股票前四天的涨跌幅 大于0.5或者小于-0.5的，换为1，否则为0

# 方法一：
In[1] ：np.logical_or(temp > 0.5, temp < -0.5)
Out[1]: array([[ True, False, False, False],
           [False, False, False,  True],
           [ True,  True,  True, False],
           [False,  True,  True,  True]])
# 同上

# 方法二：
In[1] ：np.where(np.logical_or(temp > 0.5, temp < -0.5), 11, 3)
Out[1]: array([[11,  3,  3,  3],
           [ 3,  3,  3, 11],
           [11, 11, 11,  3],
           [ 3, 11, 11, 11]])

4.4 统计运算

4.4.1 统计指标

np.函数名或者ndarray.方法名：在数据挖掘/机器学习领域，统计指标的值也是我们分析问题的一种方式。

np.min(a[, axis, out, keepdims])
- Return the minimum of an array or minimum along an axis
np.max(a[, axis, out, keepdims])
- Return the maximum of an array or maximum along an axis
np.median(a[, axis, out, overwrite_ input, keepdims])
- Compute the median along the specified axis
np.mean(a[, axis, dtype, out, keepdims])
- Compute the arithmetic mean along the specified axis
np.std(a[, axis, dtype, out, ddof, keepdims])
- Compute the standard deviation along the specified axis
np.var(a[, axis, dtype, out, ddof, keepdims])
- Compute the variance along the specified axis

4.4.2 股票涨跌幅统计运算

进行统计的时候，axis轴的取值并不一定，Numpy中不同的API轴的值都不一样。在这里，axis=0代表列，axis=1代表行去进行统计。

# 前四只股票前四天的最大涨幅
In[1] ：temp # shape: (4, 4) 0  1
Out[1]: array([[ 1.1       , -0.45576704,  0.29667843,  0.16606916],
           [ 0.36775845,  0.24078108,  0.122042  ,  1.1       ],
           [-1.48252741, -0.69347186,  1.1       , -0.30606473],
           [ 0.39438905, -1.31770556,  1.1       , -1.52812773]])

# 求所有元素最大值
In[1] ：temp.max()
Out[1]: 1.1

# 求各列元素最大值
In[1] ：temp.max(axis=0)
Out[1]: array([1.1       , 0.24078108, 1.1       , 1.1       ])

# 求各行元素最大值
In[1] ：np.max(temp, axis=-1)	# -1 表示最后一个维度
Out[1]: array([1.1, 1.1, 1.1, 1.1])

返回最大最小值所在的位置：

np.argmax(temp, axis=)
np.argmin(temp, axis=)

# 获取股票指定哪一天的涨幅最大
In[1] ：np.argmax(temp, axis=-1)
Out[1]: array([0, 3, 2, 2], dtype=int64)

注意：如果多个位置数据相同，返回第一个数据所在位置

5 数组间运算

5.1 数组与数的运算

arr = np.array([[1, 2, 3, 2, 1, 4], [5, 6, 1, 2, 3, 1]])

In[1] ：arr / 10
Out[1]: array([[0.1, 0.2, 0.3, 0.2, 0.1, 0.4],
           [0.5, 0.6, 0.1, 0.2, 0.3, 0.1]])

# 对比 python列表的运算
a = [1, 2, 3, 4, 5]

In[1] ：a * 3
Out[1]: [1, 2, 3, 4, 5, 1, 2, 3, 4, 5, 1, 2, 3, 4, 5]

5.2 数组与数组的运算（行不通）

arr1 = np.array([[1, 2, 3, 2, 1, 4], [5, 6, 1, 2, 3, 1]])
arr2 = np.array([[1, 2, 3, 4], [3, 4, 5, 6]])

In[1] ：arr1 # (2, 6)
Out[1]: array([[1, 2, 3, 2, 1, 4],
           [5, 6, 1, 2, 3, 1]])

In[1] ：arr2 # (2, 4)
Out[1]: array([[1, 2, 3, 4],
           [3, 4, 5, 6]])

# arr1 + arr2，报错

5.3 广播机制(broadcast)

执行broadcast的前提在于，两个ndarray执行的是element-wise的运算，Broadcast机制的功能是为了方便不同形状的ndarray（numpy库的核心数据结构）进行数学运算。

当操作两个数组时，numpy会从右往左逐个比较它们的shape(构成的元组tuple)，两个数组运算需要满足下述任意条件：
- 维度相等
- shape（其中相对应的一个地方为1）
结果的维度取数组每个shape的最大值

例如：可以运算

Image （3d array）：256 × 256 × 3
Scale （1d array）：            3
Result（3d array）：256 × 256 × 3

A     （4d array）：9 × 1 × 7 × 1
B     （3d array) ：    8 × 1 × 5
Result（4d array）：9 × 8 × 7 × 5

A     （2d array）：5 × 4
B     （1d array）：    1
Result（2d array）：5 × 4

A     （3d array）：15 × 3 × 5
B     （3d array）：15 × 1 × 1
Result (3d array）：15 × 3 × 5

示例：

arr1 = np.array([[1, 2, 3, 2, 1, 4], 
		 [5, 6, 1, 2, 3, 1]]) # (2, 6)
arr2 = np.arrayarray([[1],
    	              [3]])	      # (2, 2)

In[1] ：arr1 + arr2  		      # (2, 6)
Out[1]: array([[2, 3, 4, 3, 2, 5],
           [8, 9, 4, 5, 6, 4]])

In[1] ：arr1 * arr2
Out[1]: array([[ 1,  2,  3,  2,  1,  4],
           [15, 18,  3,  6,  9,  3]])

5.4 矩阵运算

5.4.1 什么是矩阵

矩阵，英文matrix，和array的区别矩阵必须是2维的，但是array可以是多维的。

矩阵与二维数组区别：矩阵一定是二维数组，二维数组不一定是矩阵。

两种方法存储矩阵：

ndarray 二维数组
matrix数据结构
- np.mat()：将数组（ndarray 二维数组）转换成矩阵类型

# 方法一：
# ndarray存储矩阵
data = np.array([[80, 86],
		[82, 80],
		[85, 78],
		[90, 90],
		[86, 82],
		[82, 90],
		[78, 80],
		[92, 94]])

# 方法二：
# matrix存储矩阵：
In[1] ：np.mat(data)
Out[1]: matrix([[80, 86],
        [82, 80],
        [85, 78],
        [90, 90],
        [86, 82],
        [82, 90],
        [78, 80],
        [92, 94]])

In[1] ：type(np.mat(data))
Out[1]: numpy.matrix

5.4.2 矩阵乘法运算

矩阵乘法： $(M 行, N 列) \times (N 行, L 列) = (M 行, L 列)$

ndarray二维数组矩阵乘法API：np.matmul()，np.dot()

1. ndarray矩阵运算：

In[1] ：data	 # (8, 2) * (2, 1) = (8, 1)
Out[1]: array([[80, 86],
           [82, 80],
           [85, 78],
           [90, 90],
           [86, 82],
           [82, 90],
           [78, 80],
           [92, 94]])

weights = np.array([[0.3], [0.7]])

In[1] ：weights
Out[1]: array([[0.3],
           [0.7]])

# 方法一：
In[1] ：np.matmul(data, weights)
Out[1]: array([[84.2],
           [80.6],
           [80.1],
           [90. ],
           [83.2],
           [87.6],
           [79.4],
           [93.4]])

# 方法二：
In[1] ：np.dot(data, weights)
Out[1]: array([[84.2],
           [80.6],
           [80.1],
           [90. ],
           [83.2],
           [87.6],
           [79.4],
           [93.4]])

注意： data * weights 不满足广播机制，不能进行运算。

2. matrix数据结构矩阵运算

data_mat = np.mat(data)
weights_mat = np.mat([[0.3], [0.7]])

In[1] ：weights_mat
Out[1]: matrix([[0.3],
            [0.7]])

In[1] ：data_mat * weights_mat
Out[1]: matrix([[84.2],
            [80.6],
            [80.1],
            [90. ],
            [83.2],
            [87.6],
            [79.4],
            [93.4]])

3. ndarray矩阵运算直接相乘：@

In[1] ：data @ weights
Out[1]: array([[84.2],
           [80.6],
           [80.1],
           [90. ],
           [83.2],
           [87.6],
           [79.4],
           [93.4]])

6 合并与分割

将数据进行切分合并处理。

6.1 合并

numpy.hstack(tup)：Stack arrays in sequence horizontally(column wise).
numpy.vstack(tup)：Stack arrays in sequence vertically(row wise).
numpy.concatenate((a1, a2, ...), axis=0)

data1= np.array([[1, 2],[3, 4],[5, 6]])     # (2, 3)

In[1] ：data1
Out[1]: array([[1, 2],
	       [3, 4],
	       [5, 6]])

data2 = np.array([[7, 8],[9, 10],[11, 12]])

In[1] ：data2
Out[1]: array([[ 7,  8],
	       [ 9, 10],
	       [11, 12]])

# 列拼接
In[1] ：np.hstack((data1, data2))
Out[1]: array([[ 1,  2,  7,  8],
	       [ 3,  4,  9, 10],
	       [ 5,  6, 11, 12]])

# axis=1时候，按照数组的列方向拼接在一起
In[1] ：np.concatenate((data1, data2), axis = 1)
Out[1]: array([[ 1,  2,  7,  8],
	       [ 3,  4,  9, 10],
	       [ 5,  6, 11, 12]])

# 行拼接
In[1] ：np.vstack((data1, data2))
Out[1]: array([[ 1,  2],
	       [ 3,  4],
	       [ 5,  6],
	       [ 7,  8],
	       [ 9, 10],
	       [11, 12]])

# axs=0时候，按照数组的行方向拼接在一起
In[1] ：np.concatenate((data1, data2), axis = 0)
Out[1]: array([[ 1,  2],
	       [ 3,  4],
	       [ 5,  6],
	       [ 7,  8],
	       [ 9, 10],
	       [11, 12]])

6.2 分割

numpy.split(ary, indices_or_sections, axis=0)：Split an array into multiple sub-arrays.

x = np.arange(9.0)

# 按组数划分，平均分为三组
In[1] ：x
Out[1]: array([0., 1., 2., 3., 4., 5., 6., 7, 8.])

In[1] ：np.split(x,3)
Out[1]: [array([0., 1., 2.]), array([3., 4., 5.]), array([6., 7., 8.])]

# 按索引分割，四组，第一组：[0,3)，第二组：[3,5)，第三组：[5,6)，第四组：[6,...)
In[1] ：np.split(x,[3, 5, 6])
Out[1]: [array([0., 1., 2.]), 
	 array([3., 4.]), 
	 array([5.]), 
	 array([6., 7., 8.])]

7 IO操作与数据处理（常用pandas）

问题：大多数数据是存在文件当中，需要用工具获取。

Numpy并不适合读取和处理数据，本节仅做简单了解。

7.1 Numpy读取

genfromtxt(fname[, dtype, comments, delimiter, ...)：Load data from a text file, with missing values handled as specified.
- fname：文件路径
- delimiter：分隔符

data = np.genfromtxt("test.csv", delimiter=",")

In[1] ：data
Out[1]: array([[  nan,   nan,   nan,   nan],
           [  1. , 123. ,   1.4,  23. ],
           [  2. , 110. ,   nan,  18. ],
           [  3. ,   nan,   2.1,  19. ]])

缺点： numpy将字符串读取为缺失值(nan)

7.2 缺失值处理

缺失值：当读取本地的文件为float时，如果有缺失（或者为None），就会岀现nan。

如果nan全部替换为0后，替换之前的平均值如果大于0，替换之后的均值会变小。

处理缺失值两种思路：

直接删除含有缺失值的样本
替换/插补：按列求平均，用平均值进行填补

如何计算一组数据的中值或者是均值，以及删除有缺失数据的那一行（列）在 pandas中介绍。

查看 nan 类型：

In[1] ：type(data[2, 2])
Out[1]: numpy.float64	# 浮点型

处理 nan（不建议）：

def fill_nan_by_column_mean(t):
    # 遍历列
    for i in range(t.shape[1]):
        # 计算nan的个数
        nan_num = np.count_nonzero(t[:, i][t[:, i] != t[:, i]])
        if nan_num > 0:
            now_col = t[:, i]
            # 求和
            now_col_not_nan = now_col[np.isnan(now_col) == False].sum()
            # 和/个数
            now_col_mean = now_col_not_nan / (t.shape[0] - nan_num)
            # 赋值给now_col
            now_col[np.isnan(now_col)] = now_col_mean
            # 赋值给t，即更新t的当前列
            t[:, i] = now_col
    return t

In[1] ：data
Out[1]: array([[  nan,   nan,   nan,   nan],
           [  1. , 123. ,   1.4,  23. ],
           [  2. , 110. ,   nan,  18. ],
           [  3. ,   nan,   2.1,  19. ]])

In[1] ：fill_nan_by_column_mean(data)
Out[1]: array([[  2.  , 116.5 ,   1.75,  20.  ],
           [  1.  , 123.  ,   1.4 ,  23.  ],
           [  2.  , 110.  ,   1.75,  18.  ],
           [  3.  , 116.5 ,   2.1 ,  19.  ]])

8 总结

你可能感兴趣的:(python,python,数据分析,numpy)

Python 基础-循环赔罪 Python 系统学习 python windows 服务器
目录简介breakcontinue小结简介要计算1+2+3，我们可以直接写表达式：>>>1+2+36要计算1+2+3+...+10，勉强也能写出来。但是，要计算1+2+3+...+10000，直接写表达式就不可能了。为了让计算机能计算成千上万次的重复运算，我们就需要循环语句。Python的循环有两种，一种是for...in循环，依次把list或tuple中的每个元素迭代出来，看例子：names=[
【FastAPI 】FastAPI 模板：提供静态文件 iFakeCoder Flask fastapi python 开发语言
FastAPI是一个现代、快速（高性能）的Web框架，用于基于标准Python类型提示使用Python3.7+构建API。虽然它的主要用例是构建API，但FastAPI还可以轻松提供静态文件和HTML模板，从而让您可以构建全栈Web应用程序。在此博客中，我们将探讨如何使用FastAPI提供静态文件。我们将介绍基础知识并提供演示以帮助您入门。为什么要提供静态文件？静态文件是不经常更改的资产，并按原样
深入解析：Tableau在数据可视化中的高级应用 Echo_Wish 实战高阶大数据信息可视化数据分析数据挖掘
深入解析：Tableau在数据可视化中的高级应用引言在大数据时代，数据可视化已成为数据分析中不可或缺的一部分。作为一款广受欢迎的数据可视化工具，Tableau以其强大的功能和灵活性，赢得了众多数据分析师的青睐。然而，许多人在使用Tableau时，仅停留在基本操作层面，未能充分发挥其潜力。本文将深入探讨Tableau的高级应用，展示其在复杂数据分析中的强大能力，并以具体实例说明其实际应用效果。数据预
深度学习在医疗影像分析中的革命性应用 Echo_Wish 人工智能前沿技术深度学习人工智能
深度学习在医疗影像分析中的革命性应用引言医疗影像分析是现代医学中不可或缺的一部分，特别是在疾病诊断和治疗过程中发挥了至关重要的作用。随着深度学习技术的发展，医疗影像分析的效率和准确性得到了显著提升。本文将探讨如何利用深度学习技术，特别是Python编程语言，来优化医疗影像分析，展示具体的代码实例，并举例说明其实际应用效果。深度学习与医疗影像分析深度学习（DeepLearning）是一种基于人工神经
DeepSeek使用中的问题及解决方案（部分） WeiLai1112 DeepSeek 人工智能
1.模型部署与配置问题问题1：环境依赖冲突现象：安装模型依赖库时出现版本不兼容（如Python、PyTorch版本冲突）。解决方案：使用虚拟环境（如conda或venv）隔离依赖。严格按照官方文档的版本要求安装依赖，例如：condacreate-ndeepseekpython=3.9condaactivatedeepseekpipinstalltorch==2.0.1transformers==4
python whoosh clisy python 开源搜索
原文地址：http://whoosh.ca/wikiWhoosh:高效的纯python全文搜索组件Whoosh是一个纯python实现的全文搜索组件。Whoosh不但功能完善，还非常的快。Whoosh的作者是MattChaput，由SideEffectsSoftware公司开发。项目的最初用于Houdini（SideEffectsSoftware公司开发的3D动画软件）的在线帮助系统。SideEf
Python性能优化：懒加载与其他高级技巧车载testing pytest数据驱动框架开发 python python 数据库开发语言
Python性能优化：懒加载与其他高级技巧在软件开发中，我们经常会遇到一些需要大量资源或时间来初始化的对象。如果这些对象在程序的整个生命周期中只被使用一次或很少使用，那么在程序启动时就立即初始化它们将是一种资源浪费。什么是懒加载？懒加载是一种设计模式，它推迟了对象的初始化直到其被实际需要的时候。这种方式可以提高程序的启动速度，减少内存消耗，并在某些情况下提高性能。实现懒加载的步骤定义类和属性：首先
Click：构建Python命令行界面的利器车载testing python python linux 开发语言
Click：构建Python命令行界面的利器Click是一个Python包，它允许开发者以最少的代码创建出美观、功能丰富的命令行界面（CLI）。它以其高度的可配置性、合理的默认设置以及简洁的API而受到广泛欢迎。本文将详细介绍Click的核心API组件，并提供示例代码，帮助你快速掌握Click的基本用法。1.Decorators（装饰器）装饰器是Click中用于定义命令和参数的强大工具。click
Python 队列的使用：掌握先进先出的数据结构车载testing python
Python队列的使用：掌握先进先出的数据结构队列是一种先进先出（FIFO）的数据结构，它在多种编程场景中都非常有用，比如任务调度、事件处理等。在Python中，我们可以通过标准库中的queue模块来实现队列。本文将详细介绍如何使用Python的queue模块来创建和操作队列。导入Queue模块使用queue模块之前，我们需要先导入它：fromqueueimportQueue创建队列创建一个队列实
Whoosh: 一个功能强大的纯Python全文搜索引擎富珂祯
Whoosh:一个功能强大的纯Python全文搜索引擎whooshWhooshisafast,featurefulfull-textindexingandsearchinglibraryimplementedinpurePython.项目地址:https://gitcode.com/gh_mirrors/wh/whooshWhoosh是一个快速且功能丰富的全文索引和搜索库，完全使用Python实现
pycdc 安装和配置指南左洋蔷Rory
pycdc安装和配置指南pycdcC++pythonbytecodedisassembleranddecompiler项目地址:https://gitcode.com/gh_mirrors/py/pycdc1.项目基础介绍和主要的编程语言项目名称:pycdc项目简介:pycdc是一个用C++编写的Python字节码反编译器和反汇编器。它的目标是帮助开发者将编译后的Python字节码（.pyc文件）
Whoosh：一款优秀的纯Python全文搜索库沈书苹Peter
Whoosh：一款优秀的纯Python全文搜索库whooshPure-Pythonfull-textsearchlibrary项目地址:https://gitcode.com/gh_mirrors/who/whooshWhoosh是一个快速、功能丰富的全文索引和搜索库，完全使用Python编写。它允许程序员轻松地将搜索功能添加到他们的应用程序和网站中。项目基础介绍Whoosh是一个纯Python项
deepseek_各个版本django特性终是蝶衣梦晓楼 django 数据库 python
以下是Django2.0至5.0的主要区别总结，按版本特性分类说明：1.Django2.0的主要变化Python支持仅支持Python3.4+，不再兼容Python2.x。路由系统弃用url()，引入path()和re_path()替代，path()默认不支持正则表达式，但提供内置转换器（如）进行参数类型匹配。支持更简洁的URL配置语法（例如path('articles//',views.year
一个Python的轻量级搜索工具--Whose Ai_绘画小南 python 开发语言
本文将简单介绍Python中的一个轻量级搜索工具Whoosh，并给出相应的使用示例代码。Whoosh简介Whoosh由MattChaput创建，它一开始是一个为Houdini3D动画软件包的在线文档提供简单、快速的搜索服务工具，之后便慢慢成为一个成熟的搜索解决工具并已开源。Whoosh纯由Python编写而成，是一个灵活的，方便的，轻量级的搜索引擎工具，现在同时支持Python2、3，其优点如下：
Selenium使用指南程序员杰哥 selenium 测试工具 python 测试用例职场和发展程序人生功能测试
概述selenium是网页应用中最流行的自动化测试工具，可以用来做自动化测试或者浏览器爬虫等。官网地址为：相对于另外一款web自动化测试工具QTP来说有如下优点：免费开源轻量级，不同语言只需要一个体积很小的依赖包支持多种系统，包括Windows，Mac，Linux支持多种浏览器，包括Chrome，FireFox，IE，safari，opera等支持多语言，包括Java，C，python，c#等主流
基于Python的搜索引擎的设计与实现 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 java python javascript kotlin golang 架构人工智能
搜索引擎,Python,爬虫,自然语言处理,信息检索,索引,算法,数据库1.背景介绍在信息爆炸的时代，海量数据无处不在，高效地获取所需信息变得至关重要。搜索引擎作为信息获取的桥梁，扮演着不可或缺的角色。传统的搜索引擎往往依赖于庞大的服务器集群和复杂的算法，对资源消耗较大，且难以满足个性化搜索需求。基于Python的搜索引擎设计，则凭借Python语言的易学易用、丰富的第三方库和强大的社区支持，为开
【Python】email：发送纯文本邮件 T0uken python linux github
在这篇教程中，我们将一步步解析如何使用Python发送电子邮件。我们将用到Python中的smtplib和email库，它们为我们提供了与邮件服务器互动的功能。我们将逐步解释代码的每个部分，帮助你理解如何通过Python发送邮件。导入必要的库首先，我们需要导入一些Python库来处理邮件的发送过程。importsmtplibfromemail.mime.multipartimportMIMEMul
Python Web开发新选择：FastAPI框架详细教程车载testing python python 前端 fastapi
PythonWeb开发新选择：FastAPI框架详细教程简介FastAPI是一个用于构建API的现代、快速（高性能）的Web框架，它基于Python3.6+的类型提示。本文将通过具体的示例，详细介绍如何使用FastAPI进行Web开发。一、FastAPI简介1.FastAPI能做什么？FastAPI适用于构建：Web站点WebAPI测试平台持续集成工具自动生成API文档2.为什么要学习FastAP
《从编程小白到人工智能大神：大学新生Python入门攻略》千帆过尽. python 人工智能
前言在如今这个技术飞速发展的时代，编程已经成为许多大学生不可或缺的技能，尤其是对于人工智能方向的学生来说，编程更是必不可少的一部分。作为一名大三学生，并且专注于Python和人工智能方向，我深知刚开始学习编程时的挑战与迷茫。希望本文能帮助作为大学新生的你们在编程入门的过程中少走弯路，提供一条清晰有效的学习路径。一、编程语言选择作为编程新手，选择一门适合自己的编程语言至关重要。对于希望进入人工智能领
python进程数上限_python 多进程数量对爬虫程序的影响 weixin_39759995 python进程数上限
1.首先看一下python多进程的优点和缺点多进程优点：1.稳定性好：多进程的优点是稳定性好，一个子进程崩溃了，不会影响主进程以及其余进程。基于这个特性，常常会用多进程来实现守护服务器的功能。然而多线程不足之处在于，任何一个线程崩溃都可能造成整个进程的崩溃，因为它们共享了进程的内存资源池。2.能充分利用多核cpu：由于python设计之初，没预料到多核cpu能够得到现在的发展，只考虑到了单核cpu
探索Vearch：高效的深度学习向量相似度搜索系统 scaFHIO 深度学习人工智能 python
Vearch是一个可扩展的分布式系统，用于高效搜索深度学习向量的相似度。在本文中，我们将介绍Vearch的技术背景及其核心原理，演示如何使用VearchPythonSDK进行安装和设置，并分析一些实际应用场景，最后提供一些实战建议。技术背景介绍随着深度学习技术的发展，向量相似度搜索在各类应用中变得越来越重要。从图像识别、推荐系统到自然语言处理，向量搜索可以极大地提升系统的性能。然而，随着数据量的增
如何在Python中使用Etherscan API进行以太坊数据查询 scaFHIO python 开发语言
Etherscan是领先的区块链浏览器、搜索、API和分析平台，专注于以太坊——一个去中心化的智能合约平台。在本篇文章中，我们将介绍如何在Python中使用EtherscanAPI进行以太坊数据查询，并提供详细的代码示例。1.技术背景介绍Etherscan提供了丰富的API接口，允许开发者查询以太坊网络上的各种数据，包括交易、账户、合约等信息。使用这些API接口，开发者可以方便地集成以太坊数据到自
Anaconda 配置镜像源猿代码_xiao python pytorch python 深度学习
Anaconda镜像使用帮助Anaconda是一个用于科学计算的Python发行版，支持Linux,Mac,Windows,包含了众多流行的科学计算、数据分析的Python包。Anaconda安装包可以到https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/下载。TUNA还提供了Anaconda仓库与第三方源（conda-forge、msys2
如何将python脚本生成exe 和猫妹学Python python
一、简介py2exe是一个将python脚本转换成windows上的可独立执行的可执行程序(*.exe)的工具，这样，你就可以不用装python而在windows系统上运行这个可执行程序。py2exe已经被用于创建wxPython,Tkinter,Pmw,PyGTK,pygame,win32comclient和server,和其它的独立程序。py2exe是发布在开源许可证下的。二、安装py2exe
AScript自动化脚本游戏辅助系列教程 jinglong.zha 自动化脚本自动化运维 ascript 懒人精灵 easyclick python 游戏辅助开发
Python自动化脚本开发，AScript零基础从入门到精通，游戏脚本，自动化脚本，python核心与进阶实战教程AScript基础-python核心与进阶课程简介_哔哩哔哩_bilibiliAScript基础-python核心与进阶课程简介是Python自动化脚本开发，AScript零基础从入门到精通，游戏脚本，自动化脚本，python核心与进阶实战教程的第1集视频，该合集共计35集，视频收藏或
python爬虫--安装XPath Helper S903784597 python 爬虫开发语言
给chrome浏览器安装xpath插件。-从网盘下载xpath的插件文件链接：https://pan.baidu.com/s/1B85d5cLDyAz1xUQqmL3uug?pwd=3306提取码：3306-在chrome中输入chrome://extensions/打开扩展程序。-将从百度网盘中下载的xpath.zip文件直接拖到浏览器的扩展程序页面中-得到chrome插件，将插件开关开启，并且
使用LM Studio在WordPress基于大模型原创文章上稿进行SEO优化 Mr数据杨 Python 自然语言技术 wordpress 大模型 seo 1024程序员节
在进行自动化文章生成与发布的流程中，首先需要确保基础配置的完善性和数据的准确性。通过手动设置分类和标签，文章能够在发布时被准确归类，从而提升SEO的效果。通过Excel表格的方式管理这些分类与标签，结合Python脚本，可以高效地实现自动化文章的生成和发布。该流程依赖于对WordPress数据库的操作，包括标签的批量导入、分类和标签的映射，以及通过AI生成内容的自动发布。全面的配置不仅节省了手动处
linux安装python开发环境燃冰结晶 linux python linux install python jupyter python web开发环境
安装Anaconda下载Anacondawgethttps://repo.anaconda.com/archive/Anaconda3-5.3.0-Linux-x86_64.sh安装AnacondabashAnaconda3-5.3.0-Linux-x86_64.sh会选择安装路径会选择是否需要安装vscode,国内安装不上,所以不要安装了刷新环境配置source~/.bashrc验证是否安装成功
Python 小练习 —— 统计字符串各类字符数量奶香臭豆腐 python 开发语言学习
需求允许用户不断输入一个字符串。写一个函数负责统计该字符串中的字符、数字、空格、特殊字符的个数。代码如下：#统计字符、数字、特殊字符的个数fromtypingimportTuple#使用类型注释所需的库#定义函数，用到了类型注释。defcount_characters(msg:str)->Tuple[int,int,int,int]:digit_count=0#数字计数器alpha_count=0
Python —— 深拷贝和浅拷贝奶香臭豆腐 python 开发语言学习
Python——深拷贝和浅拷贝浅拷贝——ShallowCopy深拷贝——DeepCopy总结常见的应用场景浅拷贝——ShallowCopy浅拷贝是指复制对象本身，但不会复制对象内部的嵌套对象。换句话说，浅拷贝会创建一个新的对象，但是新对象中的元素是原始对象元素的引用（即指向同一块内存地址）。因此，若原始对象中的元素是可变对象，修改这些元素会影响到原始对象和拷贝对象。s="abcdef123456"
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio