From Star.

【利用python进行数据分析】学习笔记-第4章 NumPy基础

第4章 NumPy基础：数组和矢量运算

引用惯例：import numpy as np
基于NumPy的算法要比纯python快10到100倍（甚至更快），并且使用更少的内存。

4.1NumPy的ndarray：一种多维数组对象

ndarray是一个通用的同构数据多维容器，即其中的元素必须是相同类型的。每个数组都有⼀个shape（⼀个表示各维度⼤⼩的元组）和⼀个dtype（⼀个⽤于说明数组数据类型的对象）

4.1.1 创建ndarray

使⽤array函数：接受⼀切序列型的对象（包括其他数组），然后产⽣⼀个新的含有传⼊数据的
NumPy数组。

In [19]: data1 = [6, 7.5, 8, 0, 1]

In [20]: arr1 = np.array(data1)

In [21]: arr1
Out[21]: array([ 6. , 7.5, 8. , 0. , 1. ])

嵌套序列

In [22]: data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]

In [23]: arr2 = np.array(data2)

In [24]: arr2
Out[24]:
array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

# 数据维度
In [25]: arr2.ndim
Out[25]: 2

# 数据大小
In [26]: arr2.shape
Out[26]: (2, 4)

np.array会尝试为新建的这个数组推断出⼀个较为合适的数据类型。数据类型保存在⼀个特殊的dtype对象中。
```
In [27]: arr1.dtype
Out[27]: dtype('float64')

In [28]: arr2.dtype
Out[28]: dtype('int64')
```

其它可新建数组的函数

In [29]: np.zeros(10)
Out[29]: array([ 0., 0., 0., 0., 0., 0., 0., 0., 0., 0. ])

In [30]: np.zeros((3, 6))
Out[30]:
array([[ 0., 0., 0., 0., 0., 0.],
       [ 0., 0., 0., 0., 0., 0.],
       [ 0., 0., 0., 0., 0., 0.]])

In [31]: np.empty((2, 3, 2)) # np.empty不一定返回全0数组，很多情况下它返回的都是⼀些未初始化的垃圾值。
Out[31]:
array([[[ 0., 0.],
        [ 0., 0.],
        [ 0., 0.]],
       [[ 0., 0.],
        [ 0., 0.],
        [ 0., 0.]]])

In [32]: np.arange(15)
Out[32]: array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12， 13， 14]

4.1.2 ndarray的数据类型

dtype含有ndarray将⼀块内存解释为特定数据类型所需的信息

In [33]: arr1 = np.array([1, 2, 3], dtype=np.float64)

In [34]: arr2 = np.array([1, 2, 3], dtype=np.int32)

In [35]: arr1.dtype
Out[35]: dtype('float64')

In [36]: arr2.dtype
Out[36]: dtype('int32')

NumPy所有数据类型：

类型	说明
int8, uint8	有符号和无符号的8位整数
int16, uint16	有符号和无符号的16位整数
int32, uint32	有符号和无符号的32位整数
int64, uint64	有符号和无符号的64位整数
float16	半精度浮点数
float32	标准的单精度浮点数
float64	标准的双精度浮点数
float128	扩展精度浮点数
complex64, complex128, complex256	分别用两个32位， 64位或128位浮点数表示的复数
bool	布尔类型

数据类型转换：astype

如果将浮点数转换成整数，则⼩数部分将会被截取删除

In [37]: arr = np.array([1, 2, 3, 4, 5])

In [38]: arr.dtype
Out[38]: dtype('int64')

In [39]: float_arr = arr.astype(np.float64)

In [40]: float_arr.dtype
Out[40]: dtype('float64')

4.1.3 NumPy数组的运算

不⽤编写循环即可对数据执⾏批量运算

# ⼤⼩相等的数组之间的任何算术运算都会将运算应⽤到元素级
In [51]: arr = np.array([[1., 2., 3.], [4., 5., 6.]])

In [53]: arr * arr
Out[53]:
array([[ 1., 4., 9.],
       [ 16., 25., 36.]])

In [54]: arr - arr
Out[54]:
array([[ 0., 0., 0.],
       [ 0., 0., 0.]])

# 数组与标量的算术运算会将标量值传播到各个元素
In [55]: 1 / arr
Out[55]:
array([[ 1. , 0.5 , 0.3333],
       [ 0.25 , 0.2 , 0.1667]])

In [56]: arr ** 0.5
Out[56]:
array([[ 1. , 1.4142, 1.7321],
       [ 2. , 2.2361, 2.4495]])

# ⼤⼩相同的数组之间的⽐较会⽣成布尔值数组
In [57]: arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])

In [59]: arr2 > arr
Out[59]:
array([[False,  True, False],
       [ True, False,  True]], dtype=bool)

4.1.4 基本的索引和切片

In [60]: arr = np.arange(10)

In [62]: arr[5]
Out[62]: 5

In [63]: arr[5:8]
Out[63]: array([5, 6, 7])

# 视图上的任何修改都会直接反映到源数组上
In [64]: arr[5:8] = 12

In [65]: arr
Out[65]: array([ 0, 1, 2, 3, 4, 12, 12, 12, 8, 9])
# 切片
In [66]: arr_slice = arr[5:8]
    
In [67]: arr_slice
Out[67]: array([12, 12, 12])

# 切⽚[:]会给数组中的所有值赋值
In [70]: arr_slice[:] = 64
In [71]: arr
Out[71]: array([ 0, 1, 2, 3, 4, 64, 64, 64, 8, 9])
    
# 高维数组的索引位置上的元素变为数组
In [72]: arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
    
In [73]: arr2d[2]
Out[73]: array([7, 8, 9])

# 下面两种方式等价
In [74]: arr2d[0][2]
Out[74]: 3

In [75]: arr2d[0, 2]
Out[75]: 3

4.1.5 切片索引：与python列表相似

In [88]: arr
Out[88]: array([ 0, 1, 2, 3, 4, 64, 64, 64, 8, 9])

In [89]: arr[1:6]
Out[89]: array([ 1, 2, 3, 4, 64])
    
# 二维数组切片
In [90]: arr2d
Out[90]:
array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [91]: arr2d[:2]
Out[91]:
array([[1, 2, 3],
       [4, 5, 6]])

In [92]: arr2d[:2, 1:]
Out[92]:
array([[2, 3],
       [5, 6]])

4.1.6 布尔型索引

In [98]: names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])

In [99]: data = np.random.randn(7, 4)

In [100]: names
Out[100]:
array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'], dtype=')

In [101]: data
Out[101]:
array([[ 0.0929,  0.2817,  0.769 ,  1.2464],
       [ 1.0072, -1.2962,  0.275 ,  0.2289],
       [ 1.3529,  0.8864, -2.0016, -0.3718],
       [ 1.669 , -0.4386, -0.5397,  0.477 ],
       [ 3.2489, -1.0212, -0.5771,  0.1241],
       [ 0.3026,  0.5238,  0.0009,  1.3438],
       [-0.7135, -0.8312, -2.3702, -1.8608]])
       
In [102]: names == 'Bob'
Out[102]: array([ True, False, False, True, False, False, False])

# 这个布尔型数组可⽤于数组索引
In [103]: data[names == 'Bob']
Out[103]:
array([[ 0.0929,  0.2817,  0.769 , 1.2464],
       [ 1.669 , -0.4386, -0.5397, 0.477 ]])

In [104]: data[names == 'Bob', 2:]
Out[104]:
array([[ 0.769 , 1.2464],
       [-0.5397, 0.477 ]])

In [105]: data[names == 'Bob', 3]
Out[105]: array([ 1.2464, 0.477 ])
    
# ~和!=都可以表示否定
In [106]: names != 'Bob'  
Out[106]: array([False, True, True, False, True, True, True])

In [107]: data[~(names == 'Bob')]
Out[107]:
array([[ 1.0072, -1.2962,  0.275 ,  0.2289],
       [ 1.3529,  0.8864, -2.0016, -0.3718],
       [ 3.2489, -1.0212, -0.5771,  0.1241],
       [ 0.3026,  0.5238,  0.0009,  1.3438],
       [-0.7135, -0.8312, -2.3702, -1.8608]])

# 组合引用多个布尔条件
In [110]: mask = (names == 'Bob') | (names == 'Will')
    
In [111]: mask
Out[111]: array([ True, False, True, True, True, False, False])

In [112]: data[mask]
Out[112]:
array([[ 0.0929, 0.2817, 0.769 , 1.2464],
       [ 1.3529, 0.8864, -2.0016, -0.3718],
       [ 1.669 , -0.4386, -0.5397, 0.477 ],
       [ 3.2489, -1.0212, -0.5771, 0.1241]])

4.1.7 花式索引（利⽤整数数组进⾏索引）

In [117]: arr = np.empty((8, 4))

In [118]: for i in range(8):
   .....: arr[i] = i
   
In [119]: arr
Out[119]:
array([[ 0., 0., 0., 0.],
       [ 1., 1., 1., 1.],
       [ 2., 2., 2., 2.],
       [ 3., 3., 3., 3.],
       [ 4., 4., 4., 4.],
       [ 5., 5., 5., 5.],
       [ 6., 6., 6., 6.],
       [ 7., 7., 7., 7.]])

# 为了以特定顺序选取⾏⼦集，只需传⼊⼀个⽤于指定顺序的整数列表或ndarray即可
In [120]: arr[[4, 3, 0, 6]]
Out[120]:
array([[ 4., 4., 4., 4.],
       [ 3., 3., 3., 3.],
       [ 0., 0., 0., 0.],
       [ 6., 6., 6., 6.]])

# 使⽤负数索引将会从末尾开始选取⾏
In [121]: arr[[-3, -5, -7]]
Out[121]:
array([[ 5., 5., 5., 5.],
       [ 3., 3., 3., 3.],
       [ 1., 1., 1., 1.]])

# ⼀次传⼊多个索引数组，返回⼀个⼀维数组，其中的元素对应各个索引元组
In [122]: arr = np.arange(32).reshape((8, 4))
    
In [123]: arr
Out[123]:
array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [124]: arr[[1, 5, 7, 2], [0, 3, 1, 2]]
Out[124]: array([ 4, 23, 29, 10])

# 使选取矩阵的行列子集为矩形区域的形式
In [125]: arr[[1, 5, 7, 2]][:, [0, 3, 1, 2]]
Out[125]:
array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

4.1.8 数组转置和轴对换

In [126]: arr = np.arange(15).reshape((3, 5))

In [127]: arr
Out[127]:
array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

# 利用T属性转置
In [128]: arr.T 
Out[128]:
array([[ 0, 5, 10],
       [ 1, 6, 11],
       [ 2, 7, 12],
       [ 3, 8, 13],
       [ 4, 9, 14]])

# 利用np.dot计算矩阵内积
In [129]: arr = np.random.randn(6, 3)
    
In [130]: arr
Out[130]:
array([[-0.8608,  0.5601, -1.2659],
       [ 0.1198, -1.0635,  0.3329],
       [-2.3594, -0.1995, -1.542 ],
       [-0.9707, -1.307 ,  0.2863],
       [ 0.378 , -0.7539,  0.3313],
       [ 1.3497,  0.0699,  0.2467]])

In [131]: np.dot(arr.T, arr)
Out[131]:
array([[ 9.2291,  0.9394,  4.948 ],
       [ 0.9394,  3.7662, -1.3622],
       [ 4.948 , -1.3622,  4.3437]])

# 对于⾼维数组，transpose需要得到⼀个由轴编号组成的元组才能对这些轴进⾏转置
In [132]: arr = np.arange(16).reshape((2, 2, 4))

In [133]: arr
Out[133]:
array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],
       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

In [134]: arr.transpose((1, 0, 2)) # 第⼀个轴被换成了第⼆个，第⼆个轴被换成了第⼀个，最后⼀个轴不变
Out[134]:
array([[[ 0,  1,  2,  3],
        [ 8,  9, 10, 11]],
       [[ 4,  5,  6,  7],
        [12, 13, 14, 15]]])

# swapaxes⽅法
In [135]: arr
Out[135]:
array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],
       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

In [136]: arr.swapaxes(1, 2)
Out[136]:
array([[[ 0,  4],
        [ 1,  5],
        [ 2,  6],
        [ 3,  7]],
       [[ 8, 12],
        [ 9, 13],
        [10, 14],
        [11, 15]]])

4.2 通用函数：快速的元素级数组函数

通⽤函数（即ufunc）是⼀种对ndarray中的数据执⾏元素级运算的函数

# 一元ufunc，如sqrt和exp
In [137]: arr = np.arange(10)
In [138]: arr
Out[138]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [139]: np.sqrt(arr)
Out[139]:
array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ,
       2.23606798, 2.44948974, 2.64575131, 2.82842712, 3.        ])

In [140]: np.exp(arr)
Out[140]:
array([1.00000000e+00, 2.71828183e+00, 7.38905610e+00, 2.00855369e+01,
       5.45981500e+01, 1.48413159e+02, 4.03428793e+02, 1.09663316e+03,
       2.98095799e+03, 8.10308393e+03])

# 二元func，如add和maximum
In [141]: x = np.random.randn(8)
    
In [142]: y = np.random.randn(8)
    
In [143]: x
Out[143]:
array([-0.0119, 1.0048, 1.3272, -0.9193, -1.5491, 0.0222, -0.6605])

In [144]: y
Out[144]:
array([ 0.8626, -0.01 , 0.05 , 0.6702, 0.853 , -0.9559, -2.3042])

In [145]: np.maximum(x, y)
Out[145]:
array([ 0.8626, 1.0048, 1.3272, 0.6702, 0.853 , 0.0222, -0.6605])

# 返回多个数组的ufunc，如modf
In [146]: arr = np.random.randn(7) * 5
    
In [147]: arr
Out[147]: array([ 0.14637842, 16.6325636 , -3.00944909,  4.40540062,  1.76045076, 0.4892904 , -5.15885562])

In [148]: remainder, whole_part = np.modf(arr) # 返回浮点数的小数部分
                 
In [149]: remainder
Out[149]: array([ 0.14637842,  0.6325636 , -0.00944909,  0.40540062,  0.76045076,
0.4892904 , -0.15885562])
                 
In [150]: whole_part
Out[150]: array([ 0., 16., -3.,  4.,  1.,  0., -5.])

4.3 利用数组进行数据处理

矢量化：⽤数组表达式代替循环的做法

In [155]: points = np.arange(-5, 5, 0.01) 

In [156]: xs, ys = np.meshgrid(points, points)

In [157]: ys
Out[157]:
array([[-5.  , -5.  , -5.  , ..., -5.  , -5.  , -5.  ],
       [-4.99, -4.99, -4.99, ..., -4.99, -4.99, -4.99],
       [-4.98, -4.98, -4.98, ..., -4.98, -4.98, -4.98],
       ...,
       [ 4.97,  4.97,  4.97, ...,  4.97,  4.97,  4.97],
       [ 4.98,  4.98,  4.98, ...,  4.98,  4.98,  4.98],
       [ 4.99,  4.99,  4.99, ...,  4.99,  4.99,  4.99]])

In [158]: z = np.sqrt(xs ** 2 + ys ** 2)
In [159]: z
Out[159]:
array([[ 7.0711, 7.064 , 7.0569, ..., 7.0499, 7.0569, 7.064 ],
       [ 7.064 , 7.0569, 7.0499, ..., 7.0428, 7.0499, 7.0569],
       [ 7.0569, 7.0499, 7.0428, ..., 7.0357, 7.0428, 7.0499],
       ...,
       [ 7.0499, 7.0428, 7.0357, ..., 7.0286, 7.0357, 7.0428],
       [ 7.0569, 7.0499, 7.0428, ..., 7.0357, 7.0428, 7.0499],
       [ 7.064 , 7.0569, 7.0499, ..., 7.0428, 7.0499, 7.0569]])

# 用matplotlib创建这个二维数组的可视化
In [160]: import matplotlib.pyplot as plt

In [161]: plt.imshow(z, cmap=plt.cm.gray); 
          plt.colorbar()
Out[161]: <matplotlib.colorbar.Colorbar at 0x7f715e3fa630>
    
In [162]: plt.title("Image plot of $\sqrt{x^2 + y^2}$ for a grid")
Out[162]: <matplotlib.text.Text at 0x7f715d2de748>

4.3.1将条件逻辑表述为数组运算

注：三元表达式x if condition else y对大数组的处理速度不是很快，且无法用于多维数组

# numpy.where函数是三元表达式x if condition else y的⽮量化版本
In [165]: xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])

In [166]: yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])

In [167]: cond = np.array([True, False, True, True, False])
    
In [168]: result = [(x if c else y)
   .....: for x, y, c in zip(xarr, yarr, cond)] # 当cond中的值为True时，选取xarr的值，否则从yarr中选取
    
In [169]: result
Out[169]: [1.1, 2.2, 1.3, 1.4, 2.5]

# np.where实现，比起之前更加简洁
In [170]: result = np.where(cond, xarr, yarr)
    
In [171]: result
Out[171]: array([ 1.1, 2.2, 1.3, 1.4, 2.5])
    
# np.where的第⼆个和第三个参数不必是数组，它们都可以是标量值
In [172]: arr = np.random.randn(4, 4)
    
In [173]: arr
Out[173]:
array([[-0.5031, -0.6223, -0.9212, -0.7262],
       [ 0.2229,  0.0513, -1.1577,  0.8167],
       [ 0.4336,  1.0107,  1.8249, -0.9975],
       [ 0.8506, -0.1316,  0.9124,  0.1882]])

In [174]: arr > 0
Out[174]:
array([[False, False, False, False],
       [ True,  True, False,  True],
       [ True,  True,  True, False],
       [ True, False,  True, True]], dtype=bool)

In [175]: np.where(arr > 0, 2, -2)
Out[175]:
array([[-2, -2, -2, -2],
       [ 2,  2, -2,  2],
       [ 2,  2,  2, -2],
       [ 2, -2,  2,  2]])

# 使⽤np.where，可以将标量和数组结合起来。例如，我可⽤常数2替换arr中所有正的值
In [176]: np.where(arr > 0, 2, arr) # set only positive values 
Out[176]:
array([[-0.5031, -0.6223, -0.9212, -0.7262],
       [ 2.    ,  2.    , -1.1577,  2.    ],
       [ 2.    ,  2.    ,  2.    , -0.9975],
       [ 2.    , -0.1316,  2.    ,  2.    ]])

4.3.2 数学和统计方法

可以通过数组上的⼀组数学函数对整个数组或某个轴向的数据进行统计计算。sum、mean以及标准差std等聚合计算

# 对正态分布随机数据做聚类统计
In [177]: arr = np.random.randn(5, 4)

In [178]: arr
Out[178]:
array([[ 2.1695, -0.1149,  2.0037,  0.0296],
       [ 0.7953,  0.1181, -0.7485,  0.585 ],
       [ 0.1527, -1.5657, -0.5625, -0.0327],
       [-0.929 , -0.4826, -0.0363,  1.0954],
       [ 0.9809, -0.5895,  1.5817, -0.5287]])
       
In [179]: arr.mean()
Out[179]: 0.19607051119998253

In [180]: np.mean(arr)
Out[180]: 0.19607051119998253

In [181]: arr.sum()
Out[181]: 3.9214102239996507
    
# mean和sum这类的函数可以接受⼀个axis选项参数，⽤于计算该轴向上的统计值，最终结果是⼀个少⼀维的数组
In [182]: arr.mean(axis=1) # 每行的平均值
Out[182]: array([ 1.022 , 0.1875, -0.502 , -0.0881, 0.3611])
    
In [183]: arr.sum(axis=0) # 每列的和
Out[183]: array([ 3.1693, -2.6345, 2.2381, 1.1486])
    
### 累加
In [184]: arr = np.array([0, 1, 2, 3, 4, 5, 6, 7])
    
In [185]: arr.cumsum()
Out[185]: array([ 0, 1, 3, 6, 10, 15, 21, 28], dtype=int32)
    
# 在多维数组中，累加函数（如cumsum）返回的是同样⼤⼩的数组，但是会根据每个低维的切⽚沿着标记轴计算部分聚类
In [186]: arr = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])

In [187]: arr
Out[187]:
array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [188]: arr.cumsum(axis=0)
Out[188]:
array([[ 0,  1,  2],
       [ 3,  5,  7],
       [ 9, 12, 15]])

In [189]: arr.cumprod(axis=1) # 累乘
Out[189]:
array([[ 0,  0,   0],
       [ 3, 12,  60],
       [ 6, 42, 336]])

统计函数

函数	说明
sum	对数组中全部或某轴向的元素求和
mean	算数平方数
std, var	标准差，方差
min, max	最大值和最小值
argmin, argmax	最大和最小元素的索引
cumsum	累加
cumprod	累乘

4.3.3 用于布尔值数组的方法

# sum可⽤来对布尔型数组中的True值计数
In [190]: arr = np.random.randn(100)

In [191]: (arr > 0).sum()
Out[191]: 42

# any⽤于测试数组中是否存在⼀个或多个True
In [192]: bools = np.array([False, False, True, False])
    
In [193]: bools.any()
Out[193]: True
 
# all可检查数组中所有值是否都是True
In [194]: bools.all()
Out[194]: False

4.3.4 排序

In [195]: arr = np.random.randn(6)

In [196]: arr
Out[196]: array([-0.45591363,  1.14798833,  2.69410768, -0.88924344, 1.04095721, 0.8110316])
    
In [197]: arr.sort()
    
In [198]: arr
Out[198]: array([-0.88924344, -0.45591363,  0.8110316 ,  1.04095721, 1.14798833, 2.69410768])
    
# 多维数组可以在任何⼀个轴向上进⾏排序，只需将轴编号传给sort即可
In [199]: arr = np.random.randn(5, 3)
    
In [200]: arr
Out[200]:
array([[ 0.6033,  1.2636, -0.2555],
       [-0.4457,  0.4684, -0.9616],
       [-1.8245,  0.6254,  1.0229],
       [ 1.1074,  0.0909, -0.3501],
       [ 0.218 , -0.8948, -1.7415]])

In [201]: arr.sort(1) # 按行排序
    
In [202]: arr
Out[202]:
array([[-0.2555,  0.6033, 1.2636],
       [-0.9616, -0.4457, 0.4684],
       [-1.8245,  0.6254, 1.0229],
       [-0.3501,  0.0909, 1.1074],
       [-1.7415, -0.8948, 0.218 ]])

4.3.5 唯⼀化以及其它的集合逻辑

# np.unique⽤于找出数组中的唯⼀值并返回已排序的结果，等同于sort(set(names))
In [206]: names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will'])

In [207]: np.unique(names)
Out[207]:
array(['Bob', 'Joe', 'Will'], dtype=')

In [208]: ints = np.array([3, 3, 3, 2, 2, 1, 1, 4, 4])

In [209]: np.unique(ints)
Out[209]: array([1, 2, 3, 4])
    
# np.in1d⽤于测试⼀个数组中的值在另⼀个数组中的成员资格，返回⼀个布尔型数组
In [211]: values = np.array([6, 0, 0, 3, 2, 5, 6])
    
In [212]: np.inld(values, [2, 3, 6])
Out[212]: array([ True, False, False, True, True, False, True])

NumPy中的集合函数

函数	说明
unique(x)	计算x中的唯一元素，并返回有序结果
intersect1d(x, y)	计算x和y中的公共元素，并返回有序结果
union1d(x, y)	计算x和y的并集，并返回有序结果
in1d(x, y)	得到一个表示“x的元素是否包含y”的布尔型数组
setdiff1d(x, y)	集合的差，即元素在x中且不在y中
setxor1d(x, y)	集合的对称差，即存在于一个数组中但不同时存在于两个数组中的元素

4.4 用于数组的文件输入输出

# np.save和np.load是读写磁盘数组数据的两个主要函数。默认情况下，数组是以未压缩的原始⼆进制格式保存在扩展名为.npy的⽂件中的
In [213]: arr = np.arange(10)

In [214]: np.save('some_array', arr)

In [215]: np.load('some_array.npy')
Out[215]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
    
# 通过np.savez可以将多个数组保存到⼀个未压缩⽂件中，将数组以关键字参数的形式传⼊即可
In [216]: np.savez('array_archive.npz', a=arr, b=arr)
    
# 加载.npz⽂件时，你会得到⼀个类似字典的对象，该对象会对各个数组进⾏延迟加载
In [217]: arch = np.load('array_archive.npz')
    
In [218]: arch['b']
Out[218]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

# 如果数据压缩的很好，就可以使⽤numpy.savez_compressed
In [219]: np.savez_compressed('arrays_compressed.npz', a=arr, b=arr)

4.5 线性代数

# NumPy提供了⼀个⽤于矩阵乘法的dot函数
In [223]: x = np.array([[1., 2., 3.], [4., 5., 6.]])

In [224]: y = np.array([[6., 23.], [-1, 7], [8, 9]])

In [225]: x
Out[225]:
array([[ 1., 2., 3.],
       [ 4., 5., 6.]])

In [226]: y
Out[226]:
array([[  6., 23.],
       [ -1.,  7.],
       [  8.,  9.]])
       
In [227]: x.dot(y)
Out[227]:
array([[ 28.,  64.],
       [ 67., 181.]])
       
# x.dot(y)等价于np.dot(x, y)
In [228]: np.dot(x, y)
Out[228]:
array([[ 28.,  64.],
       [ 67., 181.]])
       
# @符也可以⽤作中缀运算符，进⾏矩阵乘法
In [230]: x @ np.ones(3)
Out[230]: array([ 6., 15.])

# numpy.linalg中有⼀组标准的矩阵分解运算以及诸如求逆和⾏列式之类的函数
In [231]: from numpy.linalg import inv, qr

In [232]: X = np.random.randn(5, 5)

In [233]: mat = X.T.dot(X)

In [234]: inv(mat)
Out[234]:
array([[  933.1189,   871.8258, -1417.6902, -1460.4005,  1782.1391],
       [  871.8258,   815.3929, -1325.9965, -1365.9242,  1666.9347],
       [-1417.6902, -1325.9965,  2158.4424,  2222.0191, -2711.6822],
       [-1460.4005, -1365.9242,  2222.0191,  2289.0575, -2793.4224],        
       [ 1782.1391,  1666.9347, -2711.6822, -2793.422 ,  3409.5128]])

In [235]: mat.dot(inv(mat))
Out[235]:
array([[ 1., 0., -0., -0., -0.],
       [-0., 1.,  0.,  0.,  0.],
       [ 0., 0.,  1.,  0.,  0.],
       [-0., 0.,  0.,  1., -0.],
       [-0., 0.,  0.,  0.,  1.]])
       
In [236]: q, r = qr(mat)

In [237]: r
Out[237]:
array([[-1.6914,  4.38  ,  0.1757,  0.4075, -0.7838],
       [ 0.    , -2.6436,  0.1939, -3.072 , -1.0702],
       [ 0.    ,  0.    , -0.8138,  1.5414,  0.6155],
       [ 0.    ,  0.    ,  0.    , -2.6445, -2.1669],
       [ 0.    ,  0.    ,  0.    ,  0.    ,  0.0002]])

4.6 伪随机数生成

Python内置的random模块则只能⼀次⽣成⼀个样本值。从下⾯的测试结果中可以看出，如果需要产⽣⼤量样本值，numpy.random快了不⽌⼀个数量级

# ⽤normal来得到⼀个标准正态分布的4×4样本数组
In [238]: samples = np.random.normal(size=(4, 4))

In [239]: samples
Out[239]:
array([[ 0.5732, 0.1933,  0.4429,  1.2796],
       [ 0.575 , 0.4339, -0.7658, -1.237 ],
       [-0.5367, 1.8545, -0.92  , -0.1082],
       [ 0.1525, 0.9435, -1.0953, -0.144 ]])
       
# 可以⽤NumPy的np.random.seed更改随机数⽣成种⼦
In [244]: np.random.seed(1234)

# numpy.random的数据⽣成函数使⽤了全局的随机种⼦。要避免全局状态，你可以使⽤numpy.random.RandomState，创建⼀个与其它隔离的随机数⽣成器
In [245]: rng = np.random.RandomState(1234)

In [246]: rng.randn(10)
Out[246]:
array([ 0.4714, -1.191 , 1.4327, -0.3127, -0.7206, 0.8872, -0.6365, 0.0157, -2.2427])

numpy.random函数

函数	说明
seed	确定随机数生成器的种子
permutation	返回一个序列的随机排列
shuffle	对一个序列就地随机排列
rand	产生均匀分布的样本值
randint	从给定上下范围内随机选取整数
randn	产生正态分布（平均值为0，标准值为1）的样本值
binomial	产生二项分布的样本值
normal	产生正态（高斯）分布的样本值
beta	产生Beta分布的样本值
chisquare	产生卡方分布的样本值
gamma	产生Gamma分布的样本值
uniform	产生在（0，1）中均匀分布的样本值

你可能感兴趣的:(python数据分析,python,numpy,数据分析)

Python 现代时间序列预测第二版（五）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/22eab741fce9c15dfad894ecf37bdd51译者：飞龙协议：CCBY-NC-SA4.0第十七章：概率预测及更多在整本书中，我们学习了生成预测的不同技术，包括一些经典方法，使用机器学习以及一些深度学习架构。但我们一直在关注一种典型的预测问题——为连续时间序列生成点预测，并且没有层级关系且历史数据足够丰富。我们之所以这样做，是因为这
自动化测试中，测试数据如何管理？鱼鱼说测试 java linux 服务器
今晚在某个测试群，看到有人问了一个问题：把测试数据放配置文件读取和放文件通过函数调用读取有什么区别？Python接口自动化测试零基础入门到精通（2025最新版）当时我下意识的这么回答：数据量越大，配置文件越臃肿，放在专门的数据文件（比如excel，csv），方便针对性的维护。乍看没毛病，但回头和人讨论这个问题的时候，就认真思考了一下这个问题，下面是我的一些思考和讨论的一些结果，仅供参考。。。自动化
基于selenium的pyse自动化测试框架鱼鱼说测试 selenium 测试工具
Python接口自动化测试零基础入门到精通（2025最新版）介绍：pyse基于selenium（webdriver）进行了简单的二次封装，比selenium所提供的方法操作更简洁。特点：默认使用CSS定位，同时支持多种定位方法（id\name\class\link_text\xpath\css）。本框架只是对selenium（webdriver）原生方法进行了简单的封装，精简为大约30个方法，这些
自动化测试准备鱼鱼说测试自动化测试
什么是自动化测？Python接口自动化测试零基础入门到精通（2025最新版）首先理清自动化测试的概念，广义上来讲，自动化包括一切通过工具（程序）的方式来代替或辅助手工测试的行为都可以看做自动化，包括性能测试工具（loadrunner、jmeter）,或自己所写的一段程序，用于生成1到100个测试数据。狭义上来讲，通工具记录或编写脚本的方式模拟手工测试的过程，通过回放或运行脚本来执行测试用例，从而代
重塑未来：AI如何重新定义全栈开发熊猫钓鱼>_> 人工智能
在传统认知中，全栈开发者被誉为技术界的“全能选手”。——他们需要精通前端界面构建（HTML/CSS/JavaScript）、后端业务逻辑实现（Python/Java/Node.js）、数据库设计优化（MySQL/MongoDB）以及服务器部署运维（Linux/Docker）。这种“一人包打天下”的能力模型长期被视为高效开发的黄金标准，尤其受到创业公司和小型团队的青睐，因为它能大幅减少沟通成本，加速
OpenCV稠密光流法可直接运行的例程（python） indrrra opencv python 人工智能
#dense_optical_flow.pyimportcv2importnumpyasnpimportargparsedefdense_optical_flow(method,video_path,params=[],to_gray=False):#读取视频cap=cv2.VideoCapture(video_path)#读取第一帧ret,old_frame=cap.read()#创建HSV并使
分布式锁特点、以及用python3实现redis分布式锁数据知道 python3案例和总结分布式 redis 数据库 python
更多内容请见：python3案例和总结-专栏介绍和目录文章目录一、Redis分布式锁核心原理1.1Redis锁机制1.2锁释放二、基础实现代码2.1使用`redis-py`客户端2.2分布式锁类三、使用示例3.1基础锁操作3.2装饰器模式四、高级特性实现4.1Redlock算法（高可用方案）五、生产环境最佳实践5.1锁粒度控制5.2异常处理5.3监控与调试5.4重试机制六、测试代码6.1并发测试6
云服务器性能优化全攻略：CPU、内存、磁盘IO调优实战 Gloria歌洛莉亚 c语言数据库服务器 python 性能优化
在云计算时代，服务器性能直接影响应用响应速度、用户体验和运营成本。无论是高并发网站、实时数据分析还是机器学习训练，优化云服务器性能都是开发者必须掌握的核心技能。本攻略将从CPU调度、内存管理、磁盘IO三个维度，结合Linux系统特性和实际场景，提供可落地的优化方案。一、CPU性能调优：从调度策略到并行计算1.1CPU资源监控与瓶颈定位实时监控工具：top-c#动态查看进程CPU占用（按P键按CPU
php、go、python后端接口签名实现奇华智能后台开发 linux 签名接口安全
1.php实现/**生成签名，$args为请求参数，$key为私钥*/functionmakeSignature($args,$key){if(isset($args['sign'])){$oldSign=$args['sign'];unset($args['sign']);}else{$oldSign='';}ksort($args);$requestString='';foreach($arg
python第一次作业
1.技术面试题（1）TCP与UDP的区别是什么？**答：1.TCP是面向连接的协议，而UDP是元连接的协议2.TCP协议传输是可靠的，而UDP协议的传输是“尽力而为3.TCP是可以实现流控，而UDP不行4.TCP可以实现分段，而UDP不行5.TCP的传输速率较慢，占用资源较大，UDP传输速率快，占用资源小。TCP/UDP的应用场景不同TCP适合可靠性高的效率要求低的，UDP可靠性低，效率高。（2）
python www_hhhhhhh python java 面试
1.技术面试题（1）解释Linux中的进程、线程和守护进程的概念，以及如何管理它们？答：进程：是操作系统进行资源分配的基本单位，拥有独立的地址空间、进程控制块，每个进程之间相互隔离。例如，打开一个终端窗口会启动一个bash进程。线程：是操作系统调度的基本单位，隶属于进程，共享进程的资源，但有独立的线程控制块和栈。线程切换开销远小于进程。例如，一个Web服务器的单个进程中，多个线程可同时处理不同客户
Python lambda表达式：匿名函数的适用场景与限制梦幻南瓜 python python 服务器 linux
目录1.Lambda表达式概述1.1Lambda表达式的基本语法1.2简单示例2.Lambda表达式的核心特点2.1匿名性2.2简洁性2.3即时性2.4函数式编程特性3.Lambda表达式的适用场景3.1作为高阶函数的参数3.2简单的数据转换3.3条件筛选3.4GUI编程中的回调函数3.5Pandas数据处理4.Lambda表达式的限制4.1只能包含单个表达式4.2没有语句4.3缺乏文档字符串4.
【python】 www_hhhhhhh python 面试职场和发展
1.技术面试题（1）TCP与UDP的区别是什么？答：TCP（传输控制协议）和UDP（用户数据报协议）是两种常见的传输层协议，主要区别在于连接方式和可靠性。TCP是面向连接的协议，传输数据前需建立连接，通过三次握手确保连接可靠，传输过程中有确认、重传和顺序控制机制，保证数据完整、按序到达，适用于网页浏览、文件传输等对可靠性要求高的场景。UDP是无连接的协议，无需建立连接即可发送数据，不保证数据可靠传
Python函数的返回值
1.返回值定义及案例：2.返回值与print的区别：print仅仅是打印在控制台，而return则是将return后面的部分作为返回值作为函数的输出，可以用变量接走，继续使用该返回值做其它事。3.保存函数的返回值如果一个函数return返回了一个数据，那么想要用这个数据，那么就需要保存.#定义函数defadd2num(a,b): returna+b#调用函数，顺便保存函数的返回值result=
python怎么把函数返回值_python函数怎么返回值
python函数使用return语句返回“返回值”，可以将其赋给其它变量作其它的用处。所有函数都有返回值，如果没有return语句，会隐式地调用returnNone作为返回值。python函数使用return语句返回"返回值"，可以将其赋给其它变量作其它的用处。所有函数都有返回值，如果没有return语句，会隐式地调用returnNone作为返回值。一个函数可以存在多条return语句，但只有一条
Python星球日记 - 第8天：函数基础 Code_流苏 Python星球日记 python 函数 def关键字函数参数返回值
引言：上一篇：Python星球日记-第7天：字典与集合名人说：路漫漫其修远兮，吾将上下而求索。——屈原《离骚》创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的Coder）目录一、函数的定义与调用1.什么是函数？2.如何定义函数-`def`关键字3.函数调用方式二、参数与返回值1.函数参数类型2.如何传递参数3.返回值和`return`语句三、局部变量与全局变量1.变量作用域概念2.局部变
华为OD机试2025C卷 - 小明的幸运数 (C++ & Python & JAVA & JS & GO) 无限码力华为od 华为OD机试2025C卷华为OD2025C卷华为OD机考2025C卷
小明的幸运数华为OD机试真题目录点击查看:华为OD机试2025C卷真题题库目录｜机考题库+算法考点详解华为OD机试2025C卷100分题型题目描述小明在玩一个游戏，游戏规则如下：在游戏开始前，小明站在坐标轴原点处（坐标值为0）.给定一组指令和一个幸运数，每个指令都是一个整数，小明按照指令前进指定步数或者后退指定步数。前进代表朝坐标轴的正方向走，后退代表朝坐标轴的负方向走。幸运数为一个整数，如果某个
Python 函数返回值落花雨时 Python基础
#返回值，返回值就是函数执行以后返回的结果#可以通过return来指定函数的返回值#可以之间使用函数的返回值，也可以通过一个变量来接收函数的返回值defsum(*nums):#定义一个变量，来保存结果result=0#遍历元组，并将元组中的数进行累加forninnums:result+=nprint(result)#sum(123,456,789)#return后边跟什么值，函数就会返回什么值#r
存档python爬虫、Web学习资料
1python爬虫学习学习Python爬虫是个不错的选择，它能够帮你高效地获取网络数据。下面为你提供系统化的学习路径和建议：1.打好基础首先要掌握Python基础知识，这是学习爬虫的前提。比如：变量、数据类型、条件语句、循环等基础语法。列表、字典等常用数据结构的操作。函数、模块和包的使用方法。文件读写操作。推荐通过阅读《Python编程：从入门到实践》这本书或者在Codecademy、LeetCo
Python爬虫入门到实战（3）-对网页进行操作荼蘼爬虫
一.获取和操作网页元素1.获取网页中的指定元素tag_name()方法：获取元素名称。text()方法：获取元素文本内容。click()方法():点击此元素。submit()方法():提交表单。send_keys()方法：模拟输入信息。size()方法:获取元素的尺寸可进入selenium库文件夹下的webdriver\remote\webelement.py中查看更多的操作方法,2.在元素中输入
华为OD 机试 2025 B卷 - 周末爬山 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD2025B卷华为OD机考2025B卷华为OD机试2025B卷华为OD机试
周末爬山华为OD机试真题目录点击查看:华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD机试2025B卷200分题型题目描述周末小明准备去爬山锻炼，0代表平地，山的高度使用1到9来表示，小明每次爬山或下山高度只能相差k及k以内，每次只能上下左右一个方向上移动一格，小明从左上角(0,0)位置出发输入描述第一行输入mnk(空格分隔)。代表m*n的二维山地图，k为小明每次爬山或下山高度
Python,C++,Go开发芯片电路设计APP Geeker-2025 python c++golang
#芯片电路设计APP-Python/C++/Go综合开发方案##系统架构设计```mermaidgraphTDA[Web前端]-->B(Python设计界面)B-->C(GoAPI网关)C-->D[C++核心引擎]D-->E[硬件加速]F[数据库]-->CG[EDA工具链]-->DH[云服务]-->C```##技术栈分工|技术|应用领域|优势||------|----------|------||
红队测试-代理和中间人攻击工具小浪崇礼
BetterCAP-Modular,portableandeasilyextensibleMITMframework.Ettercap-Comprehensive,maturesuiteformachine-in-the-middleattacks.Habu-Pythonutilityimplementingavarietyofnetworkattacks,suchasARPpoisoning,D
pyside6使用1 窗体、信号和槽
一、概要由于作者前期很多年都在使用C++和Qt框架进行项目的开发工作，故可以熟练的使用Qt框架。Qt框架在界面设计以及跨平台运用方面，有着巨大的优势，而界面设计恰恰是python的短板，故使用pyside6实现python和Qt的互补。1.1pyside6安装更新pip工具：pipinstall--upgradepip命令行执行如下指令：pipinstallpyside6-ihttps://pyp
python-读写mysql(操作mysql数据库)
importpymysqlimportpandasaspdimporttimeonly_time=time.localtime(time.time())time_now=time.strftime('%Y-%m-%d%H:%M:%S',only_time)dt=time.strftime('%Y%m%d',only_time)t=time.time()tt=int(t)parentId=''sta
python读写mysql cavin_2017 Python 学习
目前用到的连接数据库，主要实现连个功能：1.根据sql查询2.将dataframe数据通过pandas包写入mysql数据库中1.根据sql查询：通常我们通过sql查询mysql中的表，分三步1.连接数据库2.数据查询3.关闭连接，如果需要查询的步骤较多，将查询封装成函数，通过参数传递sql代码会省事很多。##定义连接数据库函数defmy_db(host,user,passwd,db,sql,po
python+playwright 学习-91 cookies的获取保存删除相关操作上海-悠悠 playwright python
前言playwright可以获取浏览器缓存的cookie信息，可以将这些cookies信息保存到本地，还可以加载本地cookies。获取cookies相关操作在登录前和登录后分别打印cookies信息，对比查看是否获取成功。fromplaywright.sync_apiimportsync_playwrightwithsync_playwright()asp:browser=p.chromium.
Python——登录后获取cookie访问页面尖叫的太阳
importrequestsurl="https://kyfw.12306.cn/otn/view/index.html"#网址首页https://kyfw.12306.cn/otn/view/index.html的cookieheaders={'User-Agent':'Mozilla/5.0(WindowsNT6.1;Win64;x64)','Cookie':'JSESSIONID=3330D
python request 获取cookies value值的方法 dianqianwei8752 python c/c++
importrequestsres=requests.get(url)cookies=requests.utils.dict_from_cookiejar(res.cookies)print(cookies[key])转载于:https://www.cnblogs.com/VseYoung/p/python_cookies.html
python连接达梦数据库方式 water bucket python 数据库 pandas
1、通过jaydebeapi调用jdbcimportpandasaspdimportjaydebeapiif__name__=='__main__':url='jdbc:dm://{IP}:{PORT}/{库名}'username='{username}'password='{password}'jclassname='dm.jdbc.driver.DmDriver'jarFile='{DmJdb
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/