志yu

利用python进行数据分析-numpy入门

4.1Numpy的ndarray

4.2通用函数：快速的元素级数组函数

4.3利用数组进行数据处理

4.4用于数组的文件输入输出

4.5线性代数

4.6伪随机数生成

4.7示例随机漫步

对于数据分析而言，最关注的功能主要集中在:
- 用于数据整理和清理、子集构造和过滤、转换等快速的矢量化数组运算。
- 常用的数组算法，如排序、唯一化、集合运算等。
- 高效的描述统计和数据聚合/摘要运算。
- 用于异构数据集的合并/连接运算的数据对齐和关系型数据运算。
- 将条件逻辑表述为数组表达式（而不是带有if-elif-else分支的循环）。
- 数据的分组运算（聚合、转换、函数应用等）。

numpy最重要的原因之一，是因为它可以**高效处理大数组的数据**。这是因为：
- NumPy是在一个连续的内存块中存储数据，独立于其他Python内置对象。NumPy的C语言编写的算法库可以操作内存，而不必进行类型检查或其它前期工作。比起Python的内置序列，NumPy数组使用的内存更少。
- NumPy可以在整个数组上执行复杂的计算，而不需要Python的for循环。

#考察一个一百万整数的数组 和一个等价的py列表:
import numpy as np
my_arr = np.arange(1000000)
my_list = list(range(1000000))

##各个序列分别乘以 2 
%time for _ in range(10):my_arr2 = my_arr * 2

Wall time: 24 ms

%time for _ in range(10): my_list2 = [x * 2 for x in my_list]
    #基于Numpy算法比纯py快10 - 1000倍 并且使用更少的内存

Wall time: 1.12 s

4.1Numpy的ndarray

创建ndarray
ndarray数据类型
numpy数组的运算
基本的索引和切片
切片索引
bool索引
花式索引
数组转置和轴对换

创建ndarray

data = np.random.randn(2,3)
data

array([[ 0.6141173 ,  0.17961086,  2.03771464],
       [ 0.89655866, -0.60078493, -1.27983922]])

data * 10

array([[  6.14117299,   1.79610856,  20.37714637],
       [  8.96558659,  -6.0078493 , -12.79839221]])

data + data

array([[ 1.2282346 ,  0.35922171,  4.07542927],
       [ 1.79311732, -1.20156986, -2.55967844]])

#sahpe 表示各维度大小元组  dtype 用于说明数组数据类型对象
data.shape

(2L, 3L)

data.dtype

dtype('float64')

data1 = [6,7.5,8,0,1]
arr1 = np.array(data1)
arr1

array([6. , 7.5, 8. , 0. , 1. ])

#嵌套序列 多维数组
data2 = [[1,2,3,4],[5,6,7,8]]
arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

arr2.ndim

arr2.shape

(2L, 4L)

除了np.array之外，还有一些函数可以新建数组。比如，zeros和ones分别可以创建指定长度或形状的全0 | 1 数组 empty可以创建一个没有具体值得数组。要用这些方法创建多维数组，只需要传入一个表示形状的元组即可:

np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

np.zeros([3,3])

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

np.empty((2,3,2))

array([[[4.33431578e-316, 2.47032823e-322],
        [0.00000000e+000, 0.00000000e+000],
        [0.00000000e+000, 8.60952352e-072]],

       [[7.12298518e-091, 1.02290495e+166],
        [4.29055704e-038, 4.54681480e+174],
        [3.99910963e+252, 1.46030983e-319]]])

np.empty会返回全0数组的想法不安全很多情况下返回的都是一些未初始化的垃圾值。

ndarray数据类型

arr1 = np.array([1,2,3],dtype = np.float64)

arr2 = np.array([1,2,3],dtype = np.int32)

arr1.dtype

dtype('float64')

arr2.dtype

dtype('int32')

dtype是numpy灵活交互其他系统的源泉之一。多数情况下，直接映射到相应的机器表示，这使得"读写磁盘上的二进制数据流"以及“集成低级语言代码”等工作变得更加简单。数值型dtype的命名方式相同:一个类型名(float或int)后面跟一个用于表示各元素位长的数字。标准的双精度浮点值需要占用8字节

通常只需要知道你所处理的数据的大致类型是浮点数、复数、整数、布尔值、字符串，还是普通的Python对象即可

当需要控制数据在内存和磁盘中的存储方式时，就得了解如何控制存储类型。

arr = np.array([1,2,3,4,5])
arr.dtype

dtype('int32')

##将一个数组从一个dtype转换成另一个dtype
float_arr = arr.astype(np.float64)
float_arr.dtype

dtype('float64')

#integer  <-> float
arr = np.array([3.7,-1.2,-2.6,0.5,12.9,10.1])
arr

array([ 3.7, -1.2, -2.6,  0.5, 12.9, 10.1])

arr.astype(np.int64)

array([ 3, -1, -2,  0, 12, 10], dtype=int64)

#如果某字符串数组表示的全是数字，也可以用astype将其转换为数值形式。
numeric_strings = np.array(['1.25','-9.6','42'],dtype = np.string_)

numeric_strings.astype(float)

array([ 1.25, -9.6 , 42.  ])

注意使用numpy.string_类型时，一定要小心，因为numpy的字符串数据是大小固定的，发生截取时，不会发出警告。pandas提供了更多非数值数据的便利的处理方法

int_array = np.arange(10)
calibers = np.array([.22,.270,.357,.363])
int_array.astype(calibers.dtype)

array([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])

calibers.dtype

dtype('float64')

#可以用简洁类型代码表示dtype
empty_uint32 = np.empty(8,dtype='u4')
empty_uint32

array([3264175145, 1070344437,  343597384, 1070679982, 2267742732,
       1071044886, 1511828488, 1071070052], dtype=uint32)

empty_uint32.dtype

dtype('uint32')

调用astype总会创建一个新的数组，即使新的dtype与旧的dtype相同

numpy数组的运算

numpy用户称其为矢量化

arr = np.array([
    [1.,2.,3.],
    [4.,5.,6.]
])
arr

array([[1., 2., 3.],
       [4., 5., 6.]])

arr * arr

array([[ 1.,  4.,  9.],
       [16., 25., 36.]])

arr - arr

array([[0., 0., 0.],
       [0., 0., 0.]])

#数组与标量的算术运算会将标量值传播到各个元素
1/arr

array([[1.        , 0.5       , 0.33333333],
       [0.25      , 0.2       , 0.16666667]])

arr ** 0.5

array([[1.        , 1.41421356, 1.73205081],
       [2.        , 2.23606798, 2.44948974]])

#大小相同的数组之间的比较会生成bool数组
arr2 = np.array([
    [0.,4.,1.],
    [7.,2.,12.]
])

arr2 > arr1

array([[False,  True, False],
       [ True, False,  True]])

基本的索引和切片

arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

arr[5]

arr[5:8]

array([5, 6, 7])

arr_slice = arr[5:8]
arr_slice

array([5, 6, 7])

arr_slice[:] = 64
arr
#会给所有值赋值

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

由于NumPy的设计目的是处理大数据，所以你可以想象一下，假如NumPy坚持要将数据复制来复制去的话会产生何等的性能和内存问题。

arr2d = np.array([
    [1,2,3],
    [4,5,6],
    [7,8,9]
])
arr2d[2]

array([7, 8, 9])

#以下两个等价
arr2d[0][2]

arr2d[0,2]

在多维数组中如果省略了后面的索引，返回对象会是一个维度低点的ndarray（含有高一级维度上的所有数据）

arr3d = np.array([
    [[1,2,3],
    [4,5,6]],
    [[7,8,9],
     [10,11,12]]
])
arr3d

array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

arr3d[0]#是一个2*3的数组

array([[1, 2, 3],
       [4, 5, 6]])

#标量值和数组都可以被赋值给arr3d[0]
old_values = arr3d[0].copy()
arr3d[0] = 55
arr3d

array([[[55, 55, 55],
        [55, 55, 55]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

#相似的 arr3d[1,0]可以访问索引(1,0)开头的那些值(以一维数组的形式返回):
arr3d[1,0]

array([7, 8, 9])

#虽然用两步进行索引 表达式相同:
x = arr3d[1]
x

array([[ 7,  8,  9],
       [10, 11, 12]])

x[0]

array([7, 8, 9])

切片索引

arr

array([ 0,  1,  2,  3,  4, 64, 64, 64,  8,  9])

arr[1:6]

array([ 1,  2,  3,  4, 64])

#二维数组切片方式
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

arr2d[:2]

array([[1, 2, 3],
       [4, 5, 6]])

它是沿着第0轴切片的。就是说，切片是沿着一个轴向选取元素的。表达式arr2d[:2]可以被认为是选取 arr2d前两行

arr2d[:2,:2]

array([[1, 2],
       [4, 5]])

arr2d[0,0:2]#第一行 第 1 2列

array([1, 2])

arr2d[:,:1]

array([[1],
       [4],
       [7]])

bool索引

来看这样一个例子，假设我们有一个用于存储数据的数组以及一个存储姓名的数组。在这里，我将使用numpy.random的randn函数生成一些正态分布的随机数据。

names = np.array(['Bob','Joe','Will','Bob','Will','Joe','Joe'])
data = np.random.randn(7,4)# 7 row 4 column
names

array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype='|S4')

data

array([[-0.72230465,  0.78196394,  0.4297224 , -0.23100626],
       [-0.09260799,  0.97562741, -0.91985061,  2.11889301],
       [-0.95422621, -0.10126194,  1.36407324, -0.04231048],
       [-1.46019906,  0.25216944,  0.62382515, -1.28653627],
       [ 1.73250189, -0.12787307,  1.45648103,  0.71737467],
       [ 0.10289804,  1.49219221,  0.43248312, -0.7245715 ],
       [-1.43817579,  0.89582166,  1.52649938, -0.32845354]])

假设每个名字都对应data数组中的一行，想要选出对应于名字“Bob”的所有行。跟算术运算一样，数组的比较运算也是矢量化的。因此，对names和字符串"BOB"的比较运算会产生一个bool型数组

names == 'Bob'

array([ True, False, False,  True, False, False, False])

#也可以这样用于数组索引
data[names == 'Will']

array([[-0.95422621, -0.10126194,  1.36407324, -0.04231048],
       [ 1.73250189, -0.12787307,  1.45648103,  0.71737467]])

bool数组长度必须跟被索引的轴长度一致。此外，还可以将bool数组跟切片、整数混合使用。

#选取了 names = 'Will' 行 索引了列0 1列
data[names == 'Will',:2]

array([[-0.95422621, -0.10126194],
       [ 1.73250189, -0.12787307]])

选择除BOB以外的其他值既可以使用!= 也可以通过~对条件进行否定

names != 'Bob'

array([False,  True,  True, False,  True,  True,  True])

data[~(names == 'Bob')]

array([[-0.09260799,  0.97562741, -0.91985061,  2.11889301],
       [-0.95422621, -0.10126194,  1.36407324, -0.04231048],
       [ 1.73250189, -0.12787307,  1.45648103,  0.71737467],
       [ 0.10289804,  1.49219221,  0.43248312, -0.7245715 ],
       [-1.43817579,  0.89582166,  1.52649938, -0.32845354]])

cond = names == 'Bob'

data[~cond]

array([[-0.09260799,  0.97562741, -0.91985061,  2.11889301],
       [-0.95422621, -0.10126194,  1.36407324, -0.04231048],
       [ 1.73250189, -0.12787307,  1.45648103,  0.71737467],
       [ 0.10289804,  1.49219221,  0.43248312, -0.7245715 ],
       [-1.43817579,  0.89582166,  1.52649938, -0.32845354]])

#选取这三个名字中的两个需要组合应用多个bool条件 使用& | 之类的bool算术运算符即可
mask = (names == 'Bob') | (names == 'Will')
mask

array([ True, False,  True,  True,  True, False, False])

data[mask]#选取mask对应的行 1 3 4 5行

array([[-0.72230465,  0.78196394,  0.4297224 , -0.23100626],
       [-0.95422621, -0.10126194,  1.36407324, -0.04231048],
       [-1.46019906,  0.25216944,  0.62382515, -1.28653627],
       [ 1.73250189, -0.12787307,  1.45648103,  0.71737467]])

#将<0的值赋值为0
data[data < 0] = 0
data

array([[0.        , 0.78196394, 0.4297224 , 0.        ],
       [0.        , 0.97562741, 0.        , 2.11889301],
       [0.        , 0.        , 1.36407324, 0.        ],
       [0.        , 0.25216944, 0.62382515, 0.        ],
       [1.73250189, 0.        , 1.45648103, 0.71737467],
       [0.10289804, 1.49219221, 0.43248312, 0.        ],
       [0.        , 0.89582166, 1.52649938, 0.        ]])

#通过一维bool数组设置整行或列的值很简单
data[names != 'Joe'] = 7
data

array([[7.        , 7.        , 7.        , 7.        ],
       [0.        , 0.97562741, 0.        , 2.11889301],
       [7.        , 7.        , 7.        , 7.        ],
       [7.        , 7.        , 7.        , 7.        ],
       [7.        , 7.        , 7.        , 7.        ],
       [0.10289804, 1.49219221, 0.43248312, 0.        ],
       [0.        , 0.89582166, 1.52649938, 0.        ]])

花式索引(Fancy indexing)

利用整数数组进行索引。假设有一个8*4数组:

arr = np.empty((8,4))
arr.shape
#arr = np.empty((8*4)) 报错 发现是一维数组 敲错代码了！！！！
for i in range(8):# row 0 - 7 
    for j in range(4):# colum 0 - 3
        arr[i,j] = i
    
arr

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

#为了一特定顺序选取行子集，只需要传入一个用于指定顺序的整数列表或ndarray即可:
arr[[5,7,4,1,0]]

array([[5., 5., 5., 5.],
       [7., 7., 7., 7.],
       [4., 4., 4., 4.],
       [1., 1., 1., 1.],
       [0., 0., 0., 0.]])

#使用"-"将会从末尾开始选取行:
arr[[-1,-2,-5]]

array([[7., 7., 7., 7.],
       [6., 6., 6., 6.],
       [3., 3., 3., 3.]])

arr = np.arange(32).reshape(8,4)
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

arr[[1,5,7,2],[0,3,1,2]]

array([ 4, 23, 29, 10])

arr[[1,5,7,2],:][:,[0,3,1,2]]# 2 6 8 3行 按照 1 4 2 3列排列

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

arr#花式索引 和 切片不一样 总是将数据复制到新的数组中

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

数组转置和轴对换

转置是重塑的一种特殊形式它返回的是源数据的视图（不会进行任何复制操作）数组不仅有transpose方法，还有一个特殊的T属性：

arr = np.arange(15).reshape(3,5)
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

arr.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

在进行矩阵计算时，经常需要用到该操作比如利用np.dot计算矩阵内积

arr = np.random.randn(6,3)
arr

array([[-0.74828937, -0.42977691, -0.69217468],
       [ 1.04925324, -0.32452027, -0.72236249],
       [ 0.51535819, -1.87033518,  1.95841616],
       [-0.04133086,  0.64583836, -1.14689452],
       [ 1.13435366, -0.35554267,  0.72745511],
       [-1.47417425,  2.55414223,  0.33564803]])

np.dot(arr.T,arr)

array([[ 5.3881196 , -5.1780539 ,  1.14708141],
       [-5.1780539 , 10.85533561, -3.27304969],
       [ 1.14708141, -3.27304969,  6.7935248 ]])

#对于高维数组，transpose需要得到一个由轴编号组成的元组才能对这些轴进行转置
arr = np.arange(16).reshape(2,2,4)
arr
#2 column 2 row 2

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

arr1 = arr.reshape(4,2,2)
arr1

array([[[ 0,  1],
        [ 2,  3]],

       [[ 4,  5],
        [ 6,  7]],

       [[ 8,  9],
        [10, 11]],

       [[12, 13],
        [14, 15]]])

arr.transpose(1,0,2)
#第一个轴 变成第二个
#第二个轴 变成第一个
#第三个轴 不变
# 2*2*4

array([[[ 0,  1,  2,  3],
        [ 8,  9, 10, 11]],

       [[ 4,  5,  6,  7],
        [12, 13, 14, 15]]])

Numpy 操作的axis讲解:

#example
import numpy as np
arr = np.arange(16).reshape(2,4,2)
arr

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5],
        [ 6,  7]],

       [[ 8,  9],
        [10, 11],
        [12, 13],
        [14, 15]]])

arr.sum(axis=0)

array([[ 8, 10],
       [12, 14],
       [16, 18],
       [20, 22]])

arr.sum(axis =1)

array([[12, 16],
       [44, 48]])

arr.sum(axis = 2)

array([[ 1,  5,  9, 13],
       [17, 21, 25, 29]])

通过以上可以发现，通过指定不同axis numpy会沿着不同的方向进行操作，如果不设置表示对所有元素进行操作。

axis = 0沿着纵轴进行操作
axis = 1沿着横轴进行操作

可以总结:设axis=i 则numpy沿着第i个下标变化的方向进行操作

下面考虑三维的方向处理:

#three D
arr = np.arange(16).reshape(2,4,2)
arr

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5],
        [ 6,  7]],

       [[ 8,  9],
        [10, 11],
        [12, 13],
        [14, 15]]])

arr.sum(axis = 0)
#就是(4,2)二维结果

array([[ 8, 10],
       [12, 14],
       [16, 18],
       [20, 22]])

arr的shape为(2,4,2) arr的shape下标为(0,1,2),则axis=0对应于数组shape下标的第一个位置。那么第一个位置的变化方向有几个，需要看shape下标对应的数值，为2 下面列举两个变化的方向:

将以上两两变化的下标对应的数字进行sum就好了，得到了上述的结果。

arr.sum(axis = 1)

array([[12, 16],
       [44, 48]])

arr.sum(axis = 1)

swapaxes方法:需要接受一对轴编号:

arr
#2 * 2 * 4

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

arr.swapaxes(1,2)
# 2 * 4 * 2 将 1 和 2 axis进行兑换

array([[[ 0,  4],
        [ 1,  5],
        [ 2,  6],
        [ 3,  7]],

       [[ 8, 12],
        [ 9, 13],
        [10, 14],
        [11, 15]]])

4.2通用函数：快速的元素级数组函数

通用函数是一种对ndarray中的数据执行元素级运算的函数。可以将其看做简单函数(接受一个或多个标量值，并产生一个或多个标量值)的矢量化包装器。

arr = np.arange(10)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

np.sqrt(arr)

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ,
       2.23606798, 2.44948974, 2.64575131, 2.82842712, 3.        ])

x = np.random.randn(8)
y = np.random.randn(8)

array([ 0.01405846, -0.70512306,  1.06652829,  0.0734746 , -0.24392996,
        0.52697044,  0.55488568, -1.3440912 ])

array([-0.45326333, -0.60979654, -2.09286773, -2.5700492 ,  0.27796645,
        0.79478465, -0.43451777, -0.26488798])

np.maximum(x,y)
#这里计算了x和y的元素级别最大的元素

array([ 0.01405846, -0.60979654,  1.06652829,  0.0734746 ,  0.27796645,
        0.79478465,  0.55488568, -0.26488798])

4.3利用数组进行数据处理

用数组表达式代替循环做法称为矢量化。后面介绍广播，这是一种针对矢量化计算的强大手段。

#想在一组值(网格型)上计算函数sqrt(x^2+y^2) np.meshgrid函数接受两个一维数组，并产生两个
#二维矩阵
points = np.arange(-5,5,0.01)
xs,ys = np.meshgrid(points,points)
ys

array([[-5.  , -5.  , -5.  , ..., -5.  , -5.  , -5.  ],
       [-4.99, -4.99, -4.99, ..., -4.99, -4.99, -4.99],
       [-4.98, -4.98, -4.98, ..., -4.98, -4.98, -4.98],
       ...,
       [ 4.97,  4.97,  4.97, ...,  4.97,  4.97,  4.97],
       [ 4.98,  4.98,  4.98, ...,  4.98,  4.98,  4.98],
       [ 4.99,  4.99,  4.99, ...,  4.99,  4.99,  4.99]])

z = np.sqrt(xs**2 +ys**2)
z

array([[7.07106781, 7.06400028, 7.05693985, ..., 7.04988652, 7.05693985,
        7.06400028],
       [7.06400028, 7.05692568, 7.04985815, ..., 7.04279774, 7.04985815,
        7.05692568],
       [7.05693985, 7.04985815, 7.04278354, ..., 7.03571603, 7.04278354,
        7.04985815],
       ...,
       [7.04988652, 7.04279774, 7.03571603, ..., 7.0286414 , 7.03571603,
        7.04279774],
       [7.05693985, 7.04985815, 7.04278354, ..., 7.03571603, 7.04278354,
        7.04985815],
       [7.06400028, 7.05692568, 7.04985815, ..., 7.04279774, 7.04985815,
        7.05692568]])

import matplotlib.pyplot as plt
plt.imshow(z,cmap=plt.cm.gray)
plt.colorbar()
plt.title("Image plot of $\sqrt{x^2+y^2}$ for a grid of values")

Text(0.5,1,'Image plot of $\\sqrt{x^2+y^2}$ for a grid of values')

将逻辑表述为数组运算

Numpy.where函数是三元表达式x if condition else y的矢量版本。假设我们有一个bool数组和两个值数组。

xarr = np.array([1.1,1.2,1.3,1.4,1.5],dtype = float)
yarr = np.array([2.1,2.2,2.3,2.4,2.5],dtype = float)
cond = np.array([True,False,True,True,False])

#假设根据cond中的值选取xarr 和 yarr值:cond -> True 选取xarr 否则选取yarr 
#列表推导公式
#的写法应该如下所示:
result = [(x if c else y)
         for x,y,c in zip(xarr,yarr,cond)]

result

[1.1, 2.2, 1.3, 1.4, 2.5]

Pro above:
- 1.对大数组处理速度不是很快
- 2.无法用于多维数组若使用np.where 则可以将功能写的很简洁:

result = np.where(cond,xarr,yarr)
result

array([1.1, 2.2, 1.3, 1.4, 2.5])

np.where的第二个和第三个参数不必是数组都可以是标量值。在数据分析工作中，where通常用于根据另一个数组而产生一个新的数组假设有个由随机数组成的矩阵，希望所有正值替换为2，将所有负值替换为 -2 若利用Np.where 则会非常简单

arr = np.random.randn(4,4)
arr

array([[ 0.06558874, -2.70606526,  1.44692089, -0.39903601],
       [-0.68711786, -1.75560247, -0.76330474, -0.59857356],
       [-1.18115698, -1.35253882, -0.5534564 , -0.97926207],
       [-0.77505713, -0.56019667,  0.46180098,  1.04687073]])

arr > 0

array([[ True, False,  True, False],
       [False, False, False, False],
       [False, False, False, False],
       [False, False,  True,  True]])

np.where(arr > 0 , 2 , -2)

array([[ 2, -2,  2, -2],
       [-2, -2, -2, -2],
       [-2, -2, -2, -2],
       [-2, -2,  2,  2]])

使用np.where 可以将标量和数组结合起来。例如可以用常数2替换arr中所有正的值

np.where(arr > 0,2,arr)

array([[ 2.        , -2.70606526,  2.        , -0.39903601],
       [-0.68711786, -1.75560247, -0.76330474, -0.59857356],
       [-1.18115698, -1.35253882, -0.5534564 , -0.97926207],
       [-0.77505713, -0.56019667,  2.        ,  2.        ]])

数学和统计方法:

可以通过数组上的一组数学函数对对个数组或轴向数据进行统计计算 sum、mean以及标准差std等聚合计算(aggregation 通常叫做约简(reduction)可以当做数组的示例方法调用可以当做顶级Numpy函数使用)

arr  = np.random.randn(5,4)
arr

array([[ 0.6383171 ,  0.4107347 , -0.80231428,  0.21591313],
       [ 0.96458743, -1.61906183, -0.03083475,  0.60562961],
       [ 1.29263996,  0.12877919,  1.23673408, -0.14365957],
       [-0.60738506,  1.39670689, -0.62700838,  1.19102011],
       [-1.48107429,  0.12330974,  0.76627256,  1.05623004]])

arr.mean()

0.23577681910980633

np.mean(arr)

0.23577681910980633

arr.sum(axis = 0)#计算每列的和

array([0.80708514, 0.44046869, 0.54284923, 2.92513332])

arr.mean(axis = 1 )#就算每行的平均值

array([ 0.11566266, -0.01991988,  0.62862342,  0.33833339,  0.11618451])

其他如cumsum何cumprod之类的方法则不聚合，而是产生一个由中间结果组成的数组。

arr = np.array([0,1,2,3,4,5,6,7])
arr.cumsum()

array([ 0,  1,  3,  6, 10, 15, 21, 28])

#多维数组 累加函数(cumsum) 返回的是同样大小的数组 但根据每个低维切片沿着标记轴计算
#部分聚类
arr = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])
arr

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

arr.cumsum(axis=0)

array([[ 0,  1,  2],
       [ 3,  5,  7],
       [ 9, 12, 15]])

以下是全部的基本数组统计方法:

用于bool数组的方法

在上面这些方法中，bool值会被强制转换为1和0
因此,sum经常被用来对bool数组中的True值计数。

arr = np.random.randn(100)
(arr > 0 ).sum()

way 2： any & all 他们对bool数组很有用。

any 用于检测数组是否存在一个或多个true
all检测数组中所有值是否都是true

bools = np.array([False,False,True,False])
bools.any()

True

bools.all()

False

排序

和py内置列表类型一样 numpy数组也可以通过sort方法就地排序:

arr = np.random.randn(6)
arr

array([-0.39065258, -2.71242898, -1.92679479,  1.55291201,  0.51294281,
       -0.11633546])

arr.sort()
arr

array([-2.71242898, -1.92679479, -0.39065258, -0.11633546,  0.51294281,
        1.55291201])

多维数组可以在任何一个轴向上进行排序只需要将轴编号传给sort即可:

arr = np.random.randn(5,3)
arr

array([[ 0.30207802, -0.81233625, -0.56164607],
       [-0.10964939, -1.37365698, -0.049106  ],
       [-0.64501391, -1.7706598 , -0.6320434 ],
       [-0.0695195 ,  0.86075897,  2.00105375],
       [-0.13046796,  0.6264181 , -0.79649535]])

arr.sort(0)  #纵向排序
arr

array([[-0.64501391, -1.7706598 , -0.79649535],
       [-0.13046796, -1.37365698, -0.6320434 ],
       [-0.10964939, -0.81233625, -0.56164607],
       [-0.0695195 ,  0.6264181 , -0.049106  ],
       [ 0.30207802,  0.86075897,  2.00105375]])

large_arr = np.random.randn(1000)
large_arr.sort()

large_arr[int(0.05 * len(large_arr))]
#更多技术参见 附录A

-1.6464279203960233

唯一化及其他的集合逻辑

np.unique 用于找出数组中的唯一值并返回已排序的结果:

names = np.array(['Bob','Joe','Will','Bob','Will', 'Joe','Will'])
np.unique(names)

array(['Bob', 'Joe', 'Will'], dtype='|S4')

ints = np.array([1,2,3,4,5,1,2,2,1,7])
np.unique(ints)

array([1, 2, 3, 4, 5, 7])

4.4用于数组的文件输入输出

numpy能够读写磁盘上的文本数据或二进制数据。np.save和np.load是读写磁盘数组数据的两个主要函数。默认情况下，数组是以未压缩的原始二进制格式保存在拓展名为.npy文件中的:

arr = np.arange(10)
np.save('some_array',arr)

np.load('some_array.npy')

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

如果文件路径末尾没有扩展名.npy 则该扩展名会被自动加上然后通过np.load读取磁盘上的数组。

np.savez('some_archive.npz',a=arr,b=arr)

通过np.savez可以将多个数组保存到一个未压缩文件中，将数组以关键字参数的形式传入即可。

#加载npz文件时，会得到一个类似字典的对象 该对象会对各个数组进行延迟加载。
arch = np.load('some_archive.npz')
arch['b']

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

#想将数据压缩 使用np.savez_compressed:
np.savez_compressed('arrays_comprossed.npz',a=arr, b = arr)

4.5线性代数

linear algebra是任何数组库的重要组成部分。不像某些语言，通过*对两个二维数组相乘得到的是一个元素级的积，而不是一个矩阵点积。因此np提供了一个用于矩阵乘法的dot函数:

x = np.array([[1., 2., 3.], [4., 5., 6.]])
#2*3
y = np.array([[6., 23.], [-1, 7], [8, 9]])
#3*2

x.dot(y)

array([[ 28.,  64.],
       [ 67., 181.]])

#x.dot(y) == np.dot(x,y)
np.dot(x,y)

array([[ 28.,  64.],
       [ 67., 181.]])

np.dot(x,np.ones(3))

array([ 6., 15.])

@表示矩阵乘法 #3.6语法

x @ np.ones(3)

np.linalg中有一组标准的矩阵分解运算以及诸如求逆和行列式之类的东西。

线性代数参考函数

np.linalg.inv()矩阵的逆它乘以原始矩阵=单位矩阵
np.linalg.solve() 给出了矩阵的线性方程的解
np.linalg.det() 左上和游侠元素的成绩与其他两个的乘积的差
np,linalg.matul() 返回两个数组的矩阵乘积
np.inner() 返回一维数组的向量内积对于高维度返回最后一个最后一个轴上的和的成绩

from numpy.linalg import inv,qr
X = np.random.randn(5,5)
mat = X.T.dot(X)
#计算X和它的转置的点积
inv(X)

array([[ 0.11308974, -0.11250289,  0.13933068, -0.30489062,  0.1950831 ],
       [ 0.45149202, -0.08040628, -1.23983825, -1.59884382, -0.02865385],
       [ 1.44367483, -0.65488517, -2.24816212, -3.26605913, -0.09523802],
       [ 0.28095089,  0.07998305,  0.17209162, -0.30694757, -0.31436612],
       [-0.23363819, -0.21210541,  0.19039961, -0.19629612, -0.37542163]])

mat.dot(inv(mat))

array([[ 1.00000000e+00,  6.66175389e-18, -1.15198245e-16,
         1.65824985e-16, -2.88608427e-17],
       [-5.93265432e-17,  1.00000000e+00,  8.97046660e-17,
        -4.07539310e-16,  2.86477122e-17],
       [-4.28341066e-16,  1.20657157e-16,  1.00000000e+00,
        -5.42891650e-16, -2.77112029e-17],
       [ 3.51099456e-16,  1.08052799e-16, -1.45156592e-17,
         1.00000000e+00, -9.56530652e-17],
       [ 3.81828462e-16, -6.22696755e-17,  2.96105669e-16,
        -3.26589874e-16,  1.00000000e+00]])

q,r = qr(mat)
r

array([[-2.88178926,  5.36777815,  4.67041404,  1.7423072 , -2.8741252 ],
       [ 0.        , -7.9373961 , -4.5047787 , -4.28509008,  3.03048883],
       [ 0.        ,  0.        , -7.89377311, -5.55621837,  2.65445333],
       [ 0.        ,  0.        ,  0.        , -0.56228365,  1.66290593],
       [ 0.        ,  0.        ,  0.        ,  0.        ,  2.74060938]])

4.6伪随机数生成

numpy.random模块对py内置进行补充增加了一些用于高效生产多种概率分布的样本值函数

samples = np.random.normal(size=(4,4))
samples

array([[ 0.27252875, -0.90220088,  1.0978832 , -0.21163186],
       [-0.59617607, -0.25670218, -0.09046641,  0.1052227 ],
       [ 0.33653998, -1.29007404,  1.30382925, -0.28602955],
       [-0.18526258,  0.8320744 ,  1.09525305,  0.71737174]])

from random import normalvariate
N = 1000000
%timeit samples = [normalvariate(0,1) for _ in range(N) ]

1 loop, best of 3: 918 ms per loop

%timeit np.random.normal(size=N)

10 loops, best of 3: 38.9 ms per loop

这些都是伪随机数，因为都是通过算法基于随机数生成器种子，在确定性的条件下生成的。可以用Numpy的np.random.seed更改随机数生成种子:

np.random.seed(1234)

numpy.random的数据生成函数使用了全局的随机种子。要避免全局状态，可以使用Numpy.random.RandomState,创建一个与其他隔离的随机数生成器:

rng = np.random.RandomState(1234)
rng.randn(10)

array([ 0.47143516, -1.19097569,  1.43270697, -0.3126519 , -0.72058873,
        0.88716294,  0.85958841, -0.6365235 ,  0.01569637, -2.24268495])

4.7示例随机漫步

从0开始，步长1和-1出现的概率相等。

下面是一个通过内置的random模块用纯py方式实现1000步的随机漫步:

import random
position = 0
walk = [position]
steps = 1000
for i in range(steps):
    step = 1 if random.randint(0,1) else -1#给定的范围内随机选取整数
    position += step
    walk.append(position)

plt.plot(walk[:1000])

[]

不难看出，其实就是随机漫步中各部的累计和，可以用一个数组运算来实现。因此Np.random模块依次性随机产生1000个"掷硬币"结果(两个数中任选一个)，将其分别设置为1和-1，然后计算累计和:

nsteps = 1000
draws = np.random.randint(0,2,size=nsteps)
steps = np.where(draws > 0,1,-1)
walk = steps.cumsum()

#求最大值 最小值
walk.min()

-9

walk.max()

复杂的统计任务:首次穿越时间随机漫步过程中第一次达到某个特定值的时间。假设我们想要知道本次随机漫步需要多久才能距离初始0点至少10步远。
np.abs(walk)>=10可以得到一个bool数组，表示的是距离是否达到或超过10，我们想要知道的是第一个10或-10的索引。可以用argmax来解决这个问题。

(np.abs(walk) >= 10).argmax()
#argmax并不是很高效  因为无论如何都会对数组进行完全扫描
#本例 只要发现一个true 就是最大值了

一次模拟多个随机漫步

只需要给np.random的函数传入一个二元元组就可以产生一个二维数组，然后就可以一次性计算5000个随机漫步过程的累计和了。

nwalks = 5000
nsteps = 1000
draws = np.random.randint(0,2,size=(nwalks,nsteps))
#0 or 1
steps = np.where(draws > 0,1,-1)#if draws > 0 then 1 else -1
walks = steps.cumsum(1)#累加起来
walks

array([[ -1,   0,   1, ...,  -6,  -5,  -4],
       [ -1,  -2,  -1, ..., -18, -19, -18],
       [  1,   0,  -1, ...,  24,  23,  22],
       ...,
       [ -1,   0,  -1, ...,  -2,  -3,  -4],
       [ -1,   0,  -1, ...,  30,  29,  30],
       [  1,   0,  -1, ...,  18,  19,  20]])

walks.max()

walks.min()

-137

#计算30 或 -30的最小穿越时间 不是 5000个过程都达到了30  可以用any方法进行检查
hits30 = (np.abs(walks) > 30).any(1)
hits30

array([False, False, False, ..., False,  True,  True])

hits30.sum()

#利用bool选出了30的随机漫步 并调用argmax在轴1获取穿越时间
crossing_times = (np.abs(walks[hits30]) >= 30)
crossing_times.mean()

0.2723794996949359

#不同的漫步数据
steps = np.random.normal(loc=0, scale=0.25,
                          size=(nwalks, nsteps))

你可能感兴趣的:(利用python进行数据分析)

python数据分析张俊红_Python数据分析实战基础 | 初识Pandas weixin_39678531 python数据分析张俊红
这是Python数据分析实战基础的第一篇内容，主要是和Pandas来个简单的邂逅。已经熟练掌握Pandas的同学，可以加快手速滑动浏览或者直接略过本文。01重要的前言这段时间和一些做数据分析的同学闲聊，我发现数据分析技能入门阶段存在一个普遍性的问题，很多凭着兴趣入坑的同学，都能够很快熟悉Python基础语法，然后不约而同的一头扎进《利用Python进行数据分析》这本经典之中，硬着头皮啃完之后，好像
技术书籍推荐(002) 陌尘(MoChen) 技术书籍 c++Python Java JavaScript Go
20.利用Python进行数据分析免费电子书PDF下载书籍简介：本书聚焦于使用Python进行数据处理和分析。详细介绍了Python中用于数据分析的重要库，如NumPy（提供高效的数值计算功能，包括数组操作、数学函数等）、pandas（用于数据清洗、分析和结构化处理，具备数据导入导出、数据分组聚合等强大功能）以及matplotlib（用于数据可视化，可创建各种类型的图表，如折线图、柱状图、散点图等
numpy将所有数据变为0和1_《利用python进行数据分析》1.0——Numpy库 weixin_39849888 numpy将所有数据变为0和1
目录：Tab键自动完成%run命令“Ctri-C”中断正在执行的代码忘记输入和输出文本怎么办创建数组zero和onesarange()，生成一定长度的数量dtype,将一块内存解释为TED数据类型所需的信息astype,转换dtype切片布尔型索引花式索引：利用整数数组进行索引数据转置和轴兑换通用函数np.meshgrid函数(接受两个一维数组，并产生两个二维矩阵)np.where函数(根据另一个
如何利用Python进行数据分析与可视化的具体操作指南 Stanford_1106 学习关于Python python twitter 微信开放平台微信小程序微信公众平台 c++开发语言
成长路上不孤单【14后///C++爱好者///持续分享所学///如有需要欢迎收藏转发///】今日分享关于如何利用Python进行数据分析与可视化的具体操作的相关内容！数据可视化是数据分析中的关键步骤，旨在通过图表和图形将数据的规律和趋势直观地展示出来。Python作为一种强大的编程语言，提供了丰富的库和工具来处理数据分析和可视化任务。如Matplotlib和Seaborn，使得数据可视化变得简单而
怎么在python中读取电脑里的数据集_利用Python读取外部数据文件 weixin_39724004
不论是数据分析，数据可视化，还是数据挖掘，一切的一切全都是以数据作为最基础的元素。利用Python进行数据分析，同样最重要的一步就是如何将数据导入到Python中，然后才可以实现后面的数据分析、数据可视化、数据挖掘等。在本期的Python学习中，我们将针对Python如何获取外部数据做一个详细的介绍，从中我们将会学习以下4个方面的数据获取：1、读取文本文件的数据，如txt文件和csv文件2、读取电
技术书籍推荐(002):电子书免费下载 c++
20.利用Python进行数据分析免费电子书PDF下载下载地址：http://t-book.sunlogging.com/2025/03/24/book/book_0020/书籍简介：本书聚焦于使用Python进行数据处理和分析。详细介绍了Python中用于数据分析的重要库，如NumPy（提供高效的数值计算功能，包括数组操作、数学函数等）、pandas（用于数据清洗、分析和结构化处理，具备数据导入
说一些python的技术干货，不能再干了 Helena__a python 开发语言
今天我们主要来详细讲解一下Pyhon从基础语法到高级的应用，例如如何利用Python进行数据分析、搭建Web应用，示例代码丰富且讲解清晰，对于这些想学习Python的新手小白有着很高的吸引力哦！一、Python基础语法精要（一）变量与数据类型Python无需提前声明变量类型，赋值即定义。例如：pythonname="John"#字符串类型age=25#整数类型height=1.75#浮点数类型is
利用python进行数据分析（重点、易忘点）---第五章Pandas基础学习 tenderjets 利用python进行数据分析 pandas
之前看的pandas的教材和课程里，内容参差不齐，实际使用很少的方法的内容有点多，导致很乱而且记不住那么多，这个帖子尽量用最少的文字，最精炼的语言来总结比较实用的方法，内容主要来源于《利用python进行数据分析》。1.创建Series直接给列表，加index。obj=pd.Series([1,2,3,4,5],index=['a','b','c','d','e'])也可以用字典sdata={'O
《利用python进行数据分析》——3.1数据结构和序列——元组、列表、字典、集合——读书笔记 pillow_L python数据分析
第3章Python的数据结构、函数和文件3.1数据结构和序列Python中常见的数据结构可以统称为容器。序列（如列表和元组）、映射（如字典）以及集合（set）是三类主要的容器。1.元组——tuple元组是一个固定长度，不可改变的Python序列对象。元组与列表一样，也是一种序列，唯一不同的是元组不能被修改（字符串其实也有这种特点）元组Tuple，一经初始化，就不能修改，没有列表List中的appe
打卡第13天：《利用python进行数据分析》学习笔记且不了了
第7章——数据规整化：清理、转换、合并、重塑数据变换http://nbviewer.jupyter.org/github/qiebuliaoliao/data_analysis_python/blob/master/ch7/20180405.ipynb
matplotlib和seaborn绘图 Oliveee
https://www.jianshu.com/p/7a0eafdd1340《利用Python进行数据分析·第2版》第9章绘图和可视化matplotlib引入%matplotlibnotebookimportmatplotlib.pyplotasplt简单示例fig=plt.figure()ax1=fig.add_subplot(2,2,1)ax2=fig.add_subplot(2,2,2)ax
《利用Python进行数据分析》附录 A.3 广播 CCC考研
附录A高阶NumpyA.3广播广播描述了算法如何在不同形状的数组之间进行运算。它是一个强大的功能，但可能会导致混淆，即使对于有经验的用户也是如此。1.最简单的广播示例发生在将标量值与数组组合的时候（见图A-1）图A-1:简单广播注：有关此操作的说明，请参见图A-2。对行进行减均值的广播需要更小心。幸运的是，只要遵循规则，就可以在数组的任何维度上对潜在较低维度值进行广播（例如从二维数组的每一列中减去
Week 02 Python初步图小加
本周是Python的基本使用，从真正小白零接触，跟着大神们开始学习参考书：利用Python进行数据分析（原书第2版）中第三章和第五章一、Python基础1）Python环境安装（1）下载anaconda是python的包管理器和环境管理器，是在conda（一个包管理器和环境管理器）上发展出来的。在数据分析中，将会用到很多第三方的包，而conda（包管理器）可以很方便地在计算机上安装和管理这些包，包
《利用Python进行数据分析》 14.2 MovieLens 1M数据集 CCC考研
第十四章数据分析示例注：本章示例数据集可在附带的GitHub仓库（http://github.com/wesm/pydata-book）中找到14.2MovieLens1M数据集GroupLens实验室（http://www.grouplens.org/node/73）提供了一些从MovieLens用户那里收集的20世纪90年代末和21世纪初的电影评分数据的集合。这些数据提供了电影的评分、电影的元
2018-11-28 wangyou2550
python书籍入门：python基础教程第二版，笨方法学python进阶：流畅的python，effictivepython，Python编程实战，编写高质量代码：python，python核心编程第三版，PythonCookbook中文版第3版计算：python科学计算，利用Python进行数据分析前端：FlaskWeb开发：基于Python的Web应用开发实战，DjangoWeb开发指南网络
【读书笔记】《利用Python进行数据分析》第2版_第二章：Python语言基础、IPython及Jupyternotebook is_colorful python python pytorch 深度学习
推荐使用IPython命令行和Jupyternotebook来实验代码示例，以及探索各种类型、函数和方法的文档。和其他键盘控制的命令行环境一样，练就常用命令的肌肉记忆也是学习曲线的一部分。优秀Python书籍推荐《PythonCookbook》（第3版），作者为DavidBeazley和BrianK.Jones（O’Reilly）《FluentPython》，作者为LucianoRamalho（O
利用python进行数据分析(第二版)_第十四章 shifanfashi 数据分析数据分析
本书正文的最后一章，我们来看一些真实世界的数据集。对于每个数据集，我们会用之前介绍的方法，从原始数据中提取有意义的内容。展示的方法适用于其它数据集，也包括你的。本章包含了一些各种各样的案例数据集，可以用来练习。案例数据集可以在Github仓库找到，见第一章。#14.1来自Bitly的USA.gov数据2011年，URL缩短服务Bitly跟美国政府网站USA.gov合作，提供了一份从生成.gov或.
利用Python进行数据分析的学习笔记——chap10 调停者จุ๊บ 笔记 python 开发语言后端
时间序列日期和时间数据类型及工具fromdatetimeimportdatetimenow=datetime.now()nowdatetime.datetime(2022,3,4,8,23,31,842698)now.year,now.month,now.day(2022,3,4)#时间差delta=datetime(2022,3,3)-datetime(1998,10,20,8,10)delta
利用python进行数据分析(1) Doter
第一章一.数据的类型表格数据多维数据(矩阵)多张表数据(主外键关联)时间序列二.重要的Python库NumPy基础数据结构和函数pandas高级数据结构和函数matplotlib二维数据可视化IPython和Jupyter交互Scipy科学计算领域scikit-learn机器学习包statsmodels统计分析包第二章Python基础略第三章NumPy菜鸟教程比书详细第四章pandas易百教程最简
学习python数据分析必看，《利用Python进行数据分析》新潮看世界
利用Python进行数据分析pdf:讲述了从pandas库的数据分析工具开始利用高性能工具、matpIotlib、pandas的groupby功能等处理各种各样的时间序列数据。
NumPy教程（一）—— ndarray：多维数组对象 m0_61766362 Numpy python学习笔记 numpy python 学习方法
前言该numpy学习笔记参考了菜鸟教程网、b站up主孙兴华zz的《孙兴华中文讲python数据分析三部曲》以及《北理-python数据分析与展示》，课本推荐使用《利用python进行数据分析》Numpy简介：NumPy(NumericalPython)是Python语言的一个扩展程序库，支持大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库。1.数组(array)的介绍数组是相同数据
字符串与正则表达式python实验报告分析_《利用Python进行数据分析》第7章字符串操作与正则表达式... weixin_39615257
字符串操作Python有简单易用的字符串和文本处理功能，大部分文本运算都直接做成了字符串对象的内置方法。对于更为复杂的模式匹配和文本操作，则可能需要用到正则表达式。字符串对象方法以逗号分隔的字符串可以用split拆分成数段In[4]:val='a,bc,c,gudio'In[5]:val.split(',')Out[5]:['a','bc','c','gudio']In[6]:val='a,bc,
chatgpt赋能python：Python统计总分——利用Python进行数据分析 laingziwei ChatGpt python chatgpt 开发语言计算机
Python统计总分——利用Python进行数据分析Python是一门流行的编程语言，有着广泛的应用领域。其中，Python在数据分析和统计领域也发挥着重要作用。本文将介绍如何利用Python进行数据分析，进而实现统计总分的功能。什么是数据分析？数据分析是指用各种统计方法对数据进行处理和分析，以获取数据中的信息和规律，并进行有效的决策。在现代社会中，数据分析已经成为了各行各业必备的技能之一。而Py
打卡第11天：《利用python进行数据分析》学习笔记且不了了
第五章——pandas入门第二部分：pandas主要功能（四）http://nbviewer.jupyter.org/github/qiebuliaoliao/data_analysis_python/blob/master/ch5/20180403.ipynb
day14：《利用python进行数据分析》学习笔记且不了了
第7章——数据规整化：清理、转换、合并、重塑字符串处理http://nbviewer.jupyter.org/github/qiebuliaoliao/data_analysis_python/blob/master/ch7/20180406.ipynb
《利用Python进行数据分析》 13.1pandas与建模代码的结合 CCC考研
第十三章Python建模库介绍13.1pandas与建模代码的结合使用pandas用于数据载入和数据清洗，之后切换到模型库去建立模型是一个常见的模型开发工作流。在机器学习中，特征工程是模型开发的重要部分之一。特征工程是指从原生数据集中提取可用于模型上下文的有效信息的数据转换过程或分析，书中会展示一些可以在利用pandas进行数据操作和建模之间无痛切换的方法。1.panas和其他分析库的结合点通常是
利用python进行数据分析第十四章 14.3 1880-2010年间全美婴儿姓名小猞猁啥都学利用Python进行数据分析 python 数据分析开发语言
14.31880-2010年间全美婴儿姓名美国社会保障总署（SSA）ᨀ供了一份从1880年到现在的婴儿名字频率数据。HadleyWickham（许多流行R包的作者）经常用这份数据来演示R的数据处理功能。我们要做一些数据规整才能加载这个数据集，这么做就会产生一个如下的DataFrame：In[4]:names.head(10)Out[4]:namesexbirthsyear0MaryF7065188
利用python进行数据分析第十四章 14.5 2012联邦选举委员会数据库小猞猁啥都学利用Python进行数据分析 python 数据分析开发语言
14.52012联邦选举委员会数据库美国联邦选举委员会发布了有关政治竞选赞助方面的数据。其中包括赞助者的姓名、职业、雇主、地址以及出资额等信息。我们对2012年美国总统大选的数据集比较感兴趣（http://www.fec.gov/disclosurep/PDownload.do）。我在2012年6月下载的数据集是一个150MB的CSV文件（P00000001-ALL.csv），我们先用pandas
利用python进行数据分析第十章数据聚合与分组运算小猞猁啥都学利用Python进行数据分析 python 数据分析开发语言
对数据集进行分组并对各组应用一个函数（无论是聚合还是转换），通常是数据分析工作中的重要环节。在将数据集加载、融合、准备好之后，通常就是计算分组统计或生成透视表。pandasᨀ供了一个灵活高效的gruopby功能，它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。关系型数据库和SQL（StructuredQueryLanguage，结构化查询语言）能够如此流行的原因之一就是其能够方便地对数
利用python进行数据分析第十三章 Python建模库介绍小猞猁啥都学利用Python进行数据分析 python 数据分析开发语言
本书中，我已经介绍了Python数据分析的编程基础。因为数据分析师和科学家总是在数据规整和准备上花费大量时间，这本书的重点在于掌握这些功能。开发模型选用什么库取决于应用本身。许多统计问题可以用简单方法解决，比如普通的最小二乘回归，其它问题可能需要复杂的机器学习方法。幸运的是，Python已经成为了运用这些分析方法的语言之一，因此读完此书，你可以探索许多工具。本章中，我会回顾一些pandas的特点，
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修

利用python进行数据分析-numpy入门

4.1Numpy的ndarray

4.2通用函数：快速的元素级数组函数

4.3利用数组进行数据处理

4.4用于数组的文件输入输出

4.5线性代数

4.6伪随机数生成

4.7示例 随机漫步

由于NumPy的设计目的是处理大数据，所以你可以想象一下，假如NumPy坚持要将数据复制来复制去的话会产生何等的性能和内存问题。

数学和统计方法:

用于bool数组的方法

排序

唯一化及其他的集合逻辑

一次模拟多个随机漫步

你可能感兴趣的:(利用python进行数据分析)

4.7示例随机漫步