我像影子一样

数据分析：数据分析篇

文章目录

- 第一章科学计算库Numpy
- - 1.1 认识Ndarray
  - 1.2 Ndarray的属性
  - 1.3 Numpy中的数据类型
  - 1.4 Numpy数组
  - - 1.4.1 Numpy数组的创建
    - 1.4.2 Numpy数组的基本索引和切片
    - 1.4.3 Numpy布尔索引
    - 1.4.4 数组运算和广播机制
    - 1.4.5 Numpy数组的赋值和Copy复制
    - 1.4.6 Numpy数组的形状变换
    - 1.4.7 Numpy数组的拼接
  - 1.5 Numpy读取文件操作，数组的序列化和反序列化
  - 1.6 Numpy中的聚合函数
- 第二章数据分析处理库Pandas
- - 2.1 pandas读取和保存excel和csv文件(以及数据结构类型)
  - 2.2 序列数据的常用操作
  - 2.3 数据框的常用操作
  - 2.4 pandas筛选数据
  - 2.5 pandas去除重复数据
  - 2.6 pandas分组统计
  - 2.7 pandas合并表数据
  - 2.8 批量自动化读取文件
  - 2.9 merge连接操作
  - 2.10 pandas数据计算
  - 2.11 apply实现快速变换

第一章科学计算库Numpy

1.1 认识Ndarray

定义：
- Ndarray对象是用于存放同类型元素的多维数组
- 它是一系列同类型数据的集合，以0下标开始进行集合中元素的索引；
- Ndarray中的每个元素在内存中都有相同存储大小的区域

例子：

## 二维
data2 = np.array([[1, 2],[3, 4]])
data2

## import numpy as np  ## 导入numpy，给他起个别名np
data = np.array([1, 2, 3, 4])   ## np.array() 创建一个Ndarray
print(data)

## [1 2 3 4]

type(data)  ## 查看数据类型

## numpy.ndarray



## python写法
## 对[1, 2, 3, 4]这四个数分别加1
list_data = [1, 2, 3, 4]

for i in range(len(list_data)):
    # list_data[i] = list_data[i] + 1
    list_data[i] += 1
print(list_data)

## [2, 3, 4, 5]


## Ndarray 写法
data = np.array([1, 2, 3, 4])
data = data + 1  ## ndarray本身可以当做一个整体来计算
print(data)

## [2 3 4 5]



## 二维
data2 = np.array([[1, 2],[3, 4]])
data2

## 
array([[1, 2],
       [3, 4]])


data2 = data2 + 1
data2

array([[2, 3],
       [4, 5]])

1.2 Ndarray的属性

属性及其定义：

属性	含义
Ndarray.ndim	查看ndarray的纬度
Ndarray.shape	查看ndarray的形状
Ndarray.size	查看ndarray的元素个数
Ndarray.dtype	查看ndarray的元素数据类型
Ndarray.itemsize	查看ndarray中的每个元素的字节大小

示例：

## nidim
data = np.array([1, 2, 3, 4])
data2 = np.array([[1, 2, 3],[4, 5, 6]])
data3 = np.array([1, 2, 3, 4, 5, 6, 7.0])

print(data.ndim)
print(data2.ndim)

## shape
print(type(data.shape))
print(data.shape)
print(data2.shape)
print(data.shape[0])  ##一定要注意下标
print(data2.shape)
print(data2.shape[0]) ## 两个一维数组
print(data2.shape[1]) ## 一个一位数组有三列

## size
print(data.size)
print(data2.size)

## dtype
print(data.dtype)
print(data2.dtype)
print(data3.dtype)  ## float就是浮点数
print(data3[0]) ## 全部变成浮点数了

## itemsize
print(data3.itemsize)  ## 8表示8个字节，每8位为一个字节    64/8=8
print(data2.itemsize)

##
1
2
<class 'tuple'>
(4,)
(2, 3)
4
(2, 3)
2
3
4
6
int32
int32
float64
1.0
8
4

1.3 Numpy中的数据类型

数据类型：

类型	说明
int8,uint8	有符号和无符号的8位整数
int 16,uint16	有符号和无符号的16位整数
int32,uint32	有符号和无符号的32位整数
int64,uint64	有符号和无符号的64位整数
float16	16位半精度浮点数
float32	32位半精度浮点数
float64	64位半精度浮点数
bool	存储True和False的布尔类型
string	字符串类型

8位 = 1字节
16位2 = 2字节
32位 = 4字节
64位 = 8字节

优点：
- 用合适的类型存储，可以节约内存空间
- 用尽量小的位数存储，可以加快运算速度

示例：

## int整型
data = np.array([1, 2, 3, 4, 5])  ## 32位4个字节
print(data.dtype)

## int32


data1 = np.array([1, 2, 3, 4, 5], dtype = np.int8) 
data1
## array([1, 2, 3, 4, 5], dtype=int8)

data1.dtype
## dtype('int8')

data.itemsize
## 4   #4个字节

data1.itemsize
## 1  #一个字节

data2 = np.array([1, 2, 3, 4], dtype=np.int16)

data2.dtype
## dtype('int16')

data2.itemsize
## 2

## float浮点数
data3 = np.array([1.0, 1.1, 1.2])
data3.dtype
## dtype('float64')

data3.itemsize
## 8

data4 = np.array([1.0, 1.1, 1.2], dtype=np.float16)
data4
## array([1. , 1.1, 1.2], dtype=float16)

data4.dtype
## dtype('float16')

data4.itemsize
## 2


## bool布尔值
data5 = np.array([True, False, True])
data5.dtype
## dtype('bool')

data5.itemsize
## 1


## 字符串
data6 = np.array(['a', 'b'])
data6.dtype  ## U1,U2,U3..这些表示unicode字符
## dtype('

data6.itemsize
## 4

data7 = np.array(['ab', 'bc'])
data7.dtype
## dtype('

data7.itemsize
## 8

1.4 Numpy数组

1.4.1 Numpy数组的创建

函数	说明
np.array	将输入的数据（列表、元组、数组或其他序列）转化为ndarray
np.asarray	将输入转换为ndarray，如果输入本身是一个ndarray就不进行复制
np.arange	类似于内置的range，但返回的是一个ndarray而不是列表
np.ones, np.ones_like	根据指定的形状和dtype创建一个全为1的数组，ones_like以另一个数组为参数，根据形状和dtype创建一个全为1的数组
np.zeros, np.zeros_like	类似于ones和ones_like，只不过产生的是全0的数组
np.empty, np.empty_like	创建新数组，只分配空间而不填充任何数据
np.eye, np.identity	创建一个正方的N*N单位矩阵（对角线为1，其余为0）

示例：

## np.array、np.asarray
import numpy as np
data = np.array([1,2,3,4,5])
print(data)
type(data)

##
[1 2 3 4 5]
numpy.ndarray

data1 = np.array((1,2,3,4,5))
print(data1)
type(data1)

## 
[1 2 3 4 5]
numpy.ndarray

data2 = np.asarray([1,2,3,4,5])
print(data2)
type(data2)

## 
[1 2 3 4 5]
numpy.ndarray

id(data), id(data1)

## (2748573991824, 2748574043760)


id(data), id(data2), id(data3)

## (2748573991824, 2748573994512, 2748573991824)

#通过asarray传进来的不会创建心得数组


data3[0] = 2
data3

## array([2, 2, 3, 4, 5])

data

## array([2, 2, 3, 4, 5])

#因为data和data3的地址一样，所以都改变数组的值

## np.arange
data4 = np.arange(10)
print(data4)
type(data4)

##
[0 1 2 3 4 5 6 7 8 9]
numpy.ndarray

## np.ones, np.ones_like
data5 = np.ones((5,))
print(data5)
data5.dtype

## 
[1. 1. 1. 1. 1.]
dtype('float64')

data6 = np.ones_like(data5)  ## like就是创建一个跟传入的ndarray相同属性的ndarray
print(data5)

## [1. 1. 1. 1. 1.]

id(data5), id(data6)

## (2748574061552, 2748574043856)

## np.zeros, np.zeros_like
data7 = np.zeros((5,))
print(data7)
data7.dtype

## 
[0. 0. 0. 0. 0.]
dtype('float64')

data8 = np.zeros((5,),dtype=np.int16)
print(data8)

data9 = np.zeros_like(data8)
data9

## 
[0 0 0 0 0]
array([0, 0, 0, 0, 0], dtype=int16)

## np.empty, np.empty_like
data10 = np.empty((5,))
print(data10)
data10.dtype

## 
[0. 0. 0. 0. 0.]
dtype('float64')

data11 = np.empty((5,),dtype=np.int32)  ## 分配的空间不同，出现的值带有随机性
data11

## array([-242862944,        639,          0,          0,     131074])


data12 = np.empty_like(data11)
data12

## array([-241241376,        639,          0,          0,          1])

## np.eye, np.identity
data13 = np.eye(4)
print(data13)
data13.dtype

##
[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]
dtype('float64')


data14 = np.eye(4, dtype = np.int16)
data14

##
array([[1, 0, 0, 0],
       [0, 1, 0, 0],
       [0, 0, 1, 0],
       [0, 0, 0, 1]], dtype=int16)


data15 = np.identity(4)
print(data15)
data15.dtype

## 

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]
dtype('float64')


data16 = np.identity(4, dtype = np.int32)
print(data16)
data16.dtype

##
[[1 0 0 0]
 [0 1 0 0]
 [0 0 1 0]
 [0 0 0 1]]
dtype('int32')

1.4.2 Numpy数组的基本索引和切片

索引示例：

## 索引
## 一维数组
data1 = np.array([1,2,3,4,5])
data1[0]  ## [index]进行索引

## 1


## 二维数组
data2 = np.array([[1,2],[2,3]])
print(data2[0][1])
data2[0,1]

##
2
2


## 三维数组
data3 = np.array([[[1,2]],[[2,3]]])
print(data3[0][0][1])
data3[0,0,1]

##
2
2

切片示例：

## 切片
data1 = np.array([1,2,3,4,5])
data1[0:3]

## array([1, 2, 3])


data1[:4]

## array([1, 2, 3, 4])


# 一位数组取出奇数位的数据
data1[::2]  ## start_index:end_index:step   从头到尾，步长

array([1, 3, 5])


data4 = np.arange(10)
data4[::2]

## array([0, 2, 4, 6, 8])


data4[1::2]  ## 取出偶数位的数据

## array([1, 3, 5, 7, 9])

## 操作数据
data4 = np.arange(10)
data5 = data4[::2] + 1
data5

## array([1, 3, 5, 7, 9])


data6 = np.array([[1,2,3],[4,5,6]])
data6.shape

## (2, 3)


data6[:,:]

##
array([[1, 2, 3],
       [4, 5, 6]])


data6[:,:2]

##
array([[1, 2],
       [4, 5]])


data6[:1,:1]

## array([[1]])


data7 = np.array([[[1,2],[3,4]]])
data7.shape

## (1, 2, 2)


data7[:,:,:1] ## 只保留第三维度的第一列

## 
array([[[1],
        [3]]])

1.4.3 Numpy布尔索引

示例：

# 每个学生对应的成绩，身高，将他们一一索引出来

names = np.array(['小明','小红','小王','小张'])
names

## array(['小明', '小红', '小王', '小张'], dtype='


scores = np.array([[1,2,3,4],[2,3,4,5],[3,4,5,6],[4,5,6,7]])
scores

## 
array([[1, 2, 3, 4],
       [2, 3, 4, 5],
       [3, 4, 5, 6],
       [4, 5, 6, 7]])


## 查找小王
a = names == '小王'
a

## array([False, False,  True, False])


print(scores[a])   ## 布尔类型的索引，只有True才返回
scores[a].shape

## 
[[3 4 5 6]]
(1, 4)


names = np.array(['小明','小红','小王','小张','小王'])
names

## array(['小明', '小红', '小王', '小张', '小王'], dtype='


scores = np.array([[1,2,3,4],[2,3,4,5],[3,4,5,6],[4,5,6,7],[5,6,7,8]])
scores

## 
array([[1, 2, 3, 4],
       [2, 3, 4, 5],
       [3, 4, 5, 6],
       [4, 5, 6, 7],
       [5, 6, 7, 8]])


b = names == '小王'
b

## array([False, False,  True, False,  True])


print(scores[b])   ## 布尔类型的索引，只有True才返回
scores[b].shape

## 
[[3 4 5 6]
 [5 6 7 8]]
(2, 4)


scores[np.array([True,False,False,False,True])]
scores

##
array([[1, 2, 3, 4],
       [2, 3, 4, 5],
       [3, 4, 5, 6],
       [4, 5, 6, 7],
       [5, 6, 7, 8]]
      
      
heights = np.array([1,2,3,4,5])  
      
scores[heights > 3]
      
## 
array([[4, 5, 6, 7],
       [5, 6, 7, 8]])
      

scores[(names == '小王') & (heights > 3)]  ## &,| 这些必须要维度相同
      
## array([[5, 6, 7, 8]])

# 从一堆数字里面取出负数，并将它们变为0

nums = np.array([[1,2,3,-4],[2,-3,4,5],[3,-4,5,6],[4,5,-6,7]])
nums.shape
print(nums)

##
[[ 1  2  3 -4]
 [ 2 -3  4  5]
 [ 3 -4  5  6]
 [ 4  5 -6  7]]


c = nums < 0
c

##
array([[False, False, False,  True],
       [False,  True, False, False],
       [False,  True, False, False],
       [False, False,  True, False]])


nums[c]

## array([-4, -3, -4, -6])


nums[c] = 0
nums

## 
array([[1, 2, 3, 0],
       [2, 0, 4, 5],
       [3, 0, 5, 6],
       [4, 5, 0, 7]])


nums2 = np.array([[1,2,3,-4],[2,-3,4,5],[3,-4,5,6],[4,5,-6,7]])
nums2

## 
array([[ 1,  2,  3, -4],
       [ 2, -3,  4,  5],
       [ 3, -4,  5,  6],
       [ 4,  5, -6,  7]])


nums2[nums2<0] = 0  ## 只需要一条语句就搞定了
nums2

## 
array([[1, 2, 3, 0],
       [2, 0, 4, 5],
       [3, 0, 5, 6],
       [4, 5, 0, 7]])

1.4.4 数组运算和广播机制

示例：

# 一维数组

data = np.array([1,2,3,4,5])
data

## array([1, 2, 3, 4, 5])


data1 = data + 5
data1

## array([ 6,  7,  8,  9, 10])


data3 = data * 5
print(data3.dtype)
data3

## 
int32
array([ 5, 10, 15, 20, 25])


data4 = data * 4.0
print(data4.dtype)
data4

## 
float64
array([ 4.,  8., 12., 16., 20.])


data5 = data / 10
print(data5.dtype)
data5

##
float64
array([0.1, 0.2, 0.3, 0.4, 0.5])


data6 = data * np.array([1.0,2.0,3.0,4.0,5.0])
data6

## array([ 1.,  4.,  9., 16., 25.])

# 二维数组
data = np.array([[1,2],[3,4]])
print(data.shape)
data

## 
(2, 2)
array([[1, 2],
       [3, 4]])


data1 = data + 8
data1

## 
array([[ 9, 10],
       [11, 12]])


data2 = data + np.array([1,2])
data2

## 
array([[2, 4],
       [4, 6]])


data3 = data + np.array([[1,2],[1,2]]) 
data3

##
array([[2, 4],
       [4, 6]])


data4 = data * np.array([0.1,0.2])
data4

##
array([[0.1, 0.4],
       [0.3, 0.8]])

1.4.5 Numpy数组的赋值和Copy复制

data = np.array([1,2,3,4,5,6])
data

## array([1, 2, 3, 4, 5, 6])

data1 = data  ##赋值
data1

## array([1, 2, 3, 4, 5, 6])


id(data), id(data1)  ## id相同，则里面的东西一样

## (2748591002512, 2748591002512)


data[0] = 7
data[2] = 10
data   ## 单纯的赋值，两个ndarray都会同时改变

## array([ 7,  2, 10,  4,  5,  6])

data1

## array([ 7,  2, 10,  4,  5,  6])



## 只改变data2 保证data不变
data2 = data.copy()  ## copy函数，会复制一个副本
data2

## array([ 7,  2, 10,  4,  5,  6])


data2[3] = 15
data2

## array([ 7,  2, 10, 15,  5,  6])

data

## array([ 7,  2, 10,  4,  5,  6])

id(data), id(data2)

## (2748591002512, 2748590984528)



# 二维数组
data = np.array([[1,2,3],[4,5,6]])
data

##
array([[1, 2, 3],
       [4, 5, 6]])

data2 = data[:1,:2]
data2

## array([[1, 2]])

data2[0, 0] = 2
data2

## array([[2, 2]])


data  ## data2改变，data也跟着改变

##
array([[2, 2, 3],
       [4, 5, 6]])


data3 = [1, 2, 3, 4, 5]

data4 = data3[:3]  ### Python列表的截取操作只是一个副本
data4

## [1, 2, 3]


data4[0] = 10
data4

## [10, 2, 3]

data3  ## 对列表，没有影响

## [1, 2, 3, 4, 5]


data5 = np.array([[1,2,3],[4,5,6]])
data5

## 
array([[1, 2, 3],
       [4, 5, 6]])


data6 = data5[:1,:2].copy()  ## 加了copy函数
data6

## array([[1, 2]])


data6[0] = 2
data6

## array([[2, 2]])

data5  ## 保持不变，无影响

## 
array([[1, 2, 3],
       [4, 5, 6]])

1.4.6 Numpy数组的形状变换

data = np.arange(20)

data = np.arange(20)
data

## array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,17, 18, 19])

data1 = data.reshape((2, 10)) ## 二维数组
data1

## 
array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 15, 16, 17, 18, 19]])


data2 = data.reshape((2,2,5))  ## 三维数组
data2

## 
array([[[ 0,  1,  2,  3,  4],
        [ 5,  6,  7,  8,  9]],

       [[10, 11, 12, 13, 14],
        [15, 16, 17, 18, 19]]])

data2.shape

## (2, 2, 5)


data3 = data.reshape(2,1,10)  ## reshape指定参数shape绝对不能改变ndarray的元素个数  2 * 1* 10 =20
data3

## 
array([[[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9]],

       [[10, 11, 12, 13, 14, 15, 16, 17, 18, 19]]])



data1.revel()  ## 会把reshape之后的数组变为原来的数组
data1

# 
array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 15, 16, 17, 18, 19]])

1.4.7 Numpy数组的拼接

# np.concatenate([a,b,c,..],axis=0)  #

data1 = np.arange(5)
data1

## array([0, 1, 2, 3, 4])

data2 = np.arange(10)
data2

## array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

data3 = np.concatenate([data1,data2])
data3

## array([0, 1, 2, 3, 4, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

data4 = np.concatenate([data1,data2],axis=0)  ## 一位数组axis=0，沿水平方向拼接 # axis的取值不能大于他的纬度
data4

## array([0, 1, 2, 3, 4, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9])


data5 = np.arange(8).reshape((4,2))
data5

## 
array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7]])

data6 = np.arange(6).reshape((3,2))
data6

## 
array([[0, 1],
       [2, 3],
       [4, 5]])


data7 = np.concatenate([data5,data6], axis=0)  ## 二维数组axis=0沿竖直方向拼接
data7

##
array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [0, 1],
       [2, 3],
       [4, 5]])

data8 = np.arange(8).reshape((4,2))
data8

## 
array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7]])

data9 = np.arange(12).reshape((4,3))
data9

## 
array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

data10 = np.concatenate([data8,data9],axis=1)  ## 二维数组axis=1沿水平方向拼接
data10

## 
array([[ 0,  1,  0,  1,  2],
       [ 2,  3,  3,  4,  5],
       [ 4,  5,  6,  7,  8],
       [ 6,  7,  9, 10, 11]])

1.5 Numpy读取文件操作，数组的序列化和反序列化

读取文件操作：

## 文件读取
# 在jupyter notebook中新建 scores.csv 文件
# 添加以下内容:
数学,语文,英语
90,86,84
80,76,74
89,72,88
67,65,68
91,86,89
87,85,83
69,70,82
77,78,86
72,71,78

# 并保存
import numpy as np

data1 = np.genfromtxt("scores.csv", delimiter=",", skip_header=1, dtype=np.int64, encoding="utf-8") ## 接口的默认分隔符是空格     # 可以读取缺失值  # 注意读取文件的路径  # skip_header=1表示跳过第一行不读取  # dtype=np.int64 将数据类型转换为整型

data2 = np.loadtxt("scores.csv", delimiter=",", skiprows=1, dtype=np.int64, encoding="utf-8")  # 不可以读取缺失值


data1

##

array([[90, 86, 84],
       [80, 76, 74],
       [89, 72, 88],
       [67, 65, 68],
       [91, 86, 89],
       [87, 85, 83],
       [69, 70, 82],
       [77, 78, 86],
       [72, 71, 78]], dtype=int64)


data2

##
array([[90, 86, 84],
       [80, 76, 74],
       [89, 72, 88],
       [67, 65, 68],
       [91, 86, 89],
       [87, 85, 83],
       [69, 70, 82],
       [77, 78, 86],
       [72, 71, 78]], dtype=int64)


data1.dtype

## dtype('int64')


data1 = data1.astype(np.int64) ## astype类型转换的接口 # 即对数据类型进行转变


# 文件保存

data1.shape

## (9, 3)


data3 = data1[:3]

## 
array([[90, 86, 84],
       [80, 76, 74],
       [89, 72, 88],
       [67, 65, 68]], dtype=int64)


np.savetxt("tmp.csv", data3, fmt="%.3f") ## %.3f就是保存三位小数

np.savetxt("tmp.csv", data3, fmt="%d", delimiter=",", header="数学,语文,英语", encoding="utf-8", comments="") ##%d代表保存整数  # comments默认是#号 # header是表头

序列化和反序列化：

data = np.array([[1,2,3],[4,5,6]])
data

## 
array([[1, 2, 3],
       [4, 5, 6]])

# 序列化存储
np.save("data.npy", data)  ## 二进制文件


## 反序列化读取
data1 = np.load("data.npy")
data1

##
array([[1, 2, 3],
       [4, 5, 6]])


list_data = ["张三", '张三', '王五']
list_data

## ['张三', '张三', '王五']


np.save("list_data.npy",list_data)
names = np.load("list_data.npy")
print(type(names))
names

##
<class 'numpy.ndarray'>
array(['张三', '张三', '王五'], dtype=')


a = names.tolist() ## 把numpy数组转换为Python的list列表
type(a)

## list

1.6 Numpy中的聚合函数

常见的聚合函数

函数	说明
np.min	计算数组的最小值
np.max	计算数组的最大值
np.sum	计算数组的总和
np.mean	计算数组的平均值
np.std	计算数组的方差
np.argmax	计算出现最大值的下标
np.argmin	计算出现最小值的下标

示例：

import numpy as np

data = np.arange(10)
data

## array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])


np.min(data)

## 0

np.max(data)

## 9

np.sum(data)

## 45

np.mean(data)

## 4.5

np.std(data)

## 2.8722813232690143

np.argmax(data)

## 9

np.argmin(data)

## 0



names = ['张三', '李四', '王五']
age = np.array([25,27,22])


idx1 = np.argmax(age)
idx1

## 1

names[idx1]

## '李四'


idx2 = np.argmin(age)
idx2

## 2

names[idx2]

'王五'

多维数组的聚合:

data = np.array([1,2,3,4])
np.sum(data)

## 10

# 二维数组
data1 = np.array([[1, 2, 3],[4, 5, 6]])
data1

## 
array([[1, 2, 3],
       [4, 5, 6]])

a = np.sum(data1, axis=0)  ##沿着y轴方向聚合
a

## array([5, 7, 9])

a.shape

## (3,)


b = np.sum(data1, axis=1)  ##沿着x轴方向聚合
b

## array([ 6, 15])

b.shape

## (2,)

data1.shape

## (2, 3)





# 三维数组
data3 = np.array([[[1,2,3,4],[5,6,7,8]]])
data3.shape

## 
array([[[1, 2, 3, 4],
        [5, 6, 7, 8]]])

a = np.sum(data3, axis=0)   ## 三维数组axis=0 与原数组不变
a

##
array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

a.shape

## (2, 4)

b = np.sum(data3, axis=1)  ## 三维数组axis=1，对应的是y轴竖着看
b

## array([[ 6,  8, 10, 12]])

b.shape

## (1, 4)

c= np.sum(data3, axis=2)  ## 三维数组axis=2，对应的是x轴横着看
c

## array([[10, 26]])

c.shape

## (1, 2)





data1

##
array([[1, 2, 3],
       [4, 5, 6]])

np.argmax(data1, axis=0)  ## 1的下标对应的是 4 、 5 、6    y轴竖着看

## array([1, 1, 1], dtype=int64)

np.argmax(data1, axis=1) ## 2的下标对应的是 3 、 6         x轴横着看

## array([2, 2], dtype=int64)

np.mean(data1, axis=1,dtype=np.int32)

## array([2, 5])

第二章数据分析处理库Pandas

2.1 pandas读取和保存excel和csv文件(以及数据结构类型)

excel:

import pandas as pd
# 读文件数据
data = pd.read_excel("data/学生信息.xlsx",sheet_name="测试") ## sheet_name指定名字叫做测试的那张表，默认读第一张工作表 # pd.read("文件路径",..)
data



# 导出数据
data.to_excel("数据.xlsx", index=None)  ## 表示导出不需要下标

csv:

## 注意excel用记事本打开会乱码，而csv文件用记事本打开不会。excel可读性比csv差

import pandas as pd
data = pd.read_csv("data/学生信息.csv", engine="python", encoding='gbk')  ## engine=c 的时候读取csv文件会报错，要把它换成python引擎  # 注意有的编码格式是gbk而不是utf-8
data

data.to_csv("保存.csv",encoding='gbk', index=None)  ## 编码需要改成gbk才不会乱码，视文件编码格式为主

读写数据库（MySQL）数据：

SQLAlchemy连接MySQL数据库

from sqlalchemy import create_engin
## 创建一个mysql连接器，用户名为root，密码为1234
## 地址为127.0.0.1，数据库名称为testdb，编码为utf-8
engine = create_engine('mysql+pymysql://root:[email protected]:3306/meal?charset=utf8')
print(engine)

##
Engine(mysql+pymysql://root:***@127.0.0.1:3306/meal?charset=utf8)

使用read_sql_table、read_sql_query、read_sql函数读取数据库数据

read_sql_table只能读取数据库的某一张表，不能执行查询操作；
read_sql_query函数只能实现查询，不能读取某张表；
read_sql是上面两者的综合，既能读取某张表的数据，又能实现查询操作。

import pandas as pd
order1 = pd.read_sql_table("meal_order_detail1", con=engine)
order1   
###  meal_order_detail1是数据表，engine是连接器

数据库数据存储：
- 将DataFrame写入到数据库中，同样也要依赖SQLAlchemy库的create_engine函数创建数据库连接。
  
  与数据库读取有3个函数不同，数据库存储只有一个to_sql方法。语法如下：
  
  DataFrame.to_sql(name, con, schema=None, if_exists=‘fail’, index=True index_label=None, dtype=None)
- ```
### 使用to_sql方法写入数据
import pandas as pd
from sqlalchemy import create_engine
engine = create_engine('mysql+pymysql://root:123456@localhost:3306/bd20db?charset=utf8')

data = pd.read_excel("./data/student_bd20.xlsx")
data.to_sql('student_bd20',if_exists='fail',index=False,con=engine)
```

数据结构类型：

## 接上面csv

type(data)

## pandas.core.frame.DataFrame  #数据框

data['班级']

## 
0     1班
1     1班
2     1班
..	  ..
34    4班
Name: 班级, dtype: object
        
        
type(data['班级'])

## pandas.core.series.Series # 序列数据


type(data['学号'])

## pandas.core.series.Series


# 拿取多个字段需要再嵌套一个方括号

data[['班级', '学号', '体重']]

type(data[['班级', '学号', '体重']])

## pandas.core.frame.DataFrame

2.2 序列数据的常用操作

查看序列数据的数据类型：

data["班级"].dtype

## dtype('O')  # o 表示字符串

data["学号"].dtype

## dtype('int64')

data["性别"].dtype

## dtype('O')

查看序列数据的不同取值：

data["班级"].unique()

## array(['1班', '2班', '3班', '4班'], dtype=object)

data["性别"].unique()

## array(['男', '女'], dtype=object)

查看序列数据的不同取值对应的数量：

data["性别"].value_counts()

##
女    19
男    16
Name: 性别, dtype: int64
        
data["班级"].value_counts()

##
1班    10
2班    10
3班    10
4班     5
Name: 班级, dtype: int64

查看序列数据的统计信息：

# 最大值
data["身高"].max()

## 195

# 最小值
data["身高"].min()

## 155

# 平均值
data["身高"].mean()

## 174.14285714285714

# 中位数
data["身高"].median()

## 173.0

序列数据的排序：

import pandas as pd
data = pd.read_csv("data/学生信息.csv", engine="python", encoding='gbk')
data

##
	班级	学号	性别	身高	体重
0	1班	1101	男	173	63
1	1班	1102	女	192	73
2	1班	1103	男	186	82
3	1班	1104	女	167	81
4	1班	1105	女	159	64
5	2班	1201	男	188	68
6	2班	1202	女	176	94
7	2班	1203	男	160	53
8	2班	1204	女	162	63
9	2班	1205	女	167	63
10	3班	1301	男	161	68
11	3班	1302	女	175	57
12	3班	1303	男	188	82
13	3班	1304	男	195	70
14	3班	1305	女	187	69
15	1班	2101	男	174	84
16	1班	2102	女	161	61
17	1班	2103	男	157	61
18	1班	2104	女	159	97
19	1班	2105	男	170	81
20	2班	2201	男	193	100
21	2班	2202	女	194	77
22	2班	2203	男	155	91
23	2班	2204	男	175	74
24	2班	2205	女	183	76
25	3班	2301	女	157	78
26	3班	2302	男	171	88
27	3班	2303	女	190	99
28	3班	2304	女	164	81
29	3班	2305	男	187	73
30	4班	2401	女	192	62
31	4班	2402	男	166	82
32	4班	2403	女	158	60
33	4班	2404	女	160	84
34	4班	2405	女	193	54

# 对身高进行排序，取前5条数据，默认从小到大
data["身高"].sort_values().head() # 默认前5条

##
22    155
17    157
25    157
32    158
18    159
Name: 身高, dtype: int64
        
# 对身高进行排序，取前5条数据，改为从大到小
data["身高"].sort_values(ascending=False).head()

##
13    195
21    194
34    193
20    193
1     192
Name: 身高, dtype: int64

2.3 数据框的常用操作

查看数据框的前面几条数据：

data.head()  # 默认前五条数据 #data.head(10) 前10条数据

## 
	班级	学号	性别	身高	体重
0	1班	1101	男	173	63
1	1班	1102	女	192	73
2	1班	1103	男	186	82
3	1班	1104	女	167	81
4	1班	1105	女	159	64

查看数据框的基本属性信息：

data.info()

##
<class 'pandas.core.frame.DataFrame'>  # 数据框
RangeIndex: 35 entries, 0 to 34  # 下标0 到 34，即35行数据
Data columns (total 5 columns):  # 5列数据
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   班级      35 non-null     object  # 字符串
 1   学号      35 non-null     int64   # 整数
 2   性别      35 non-null     object
 3   身高      35 non-null     int64 
 4   体重      35 non-null     int64 
dtypes: int64(3), object(2)
memory usage: 1.5+ KB  # 内存占用

查看数据框的统计信息：

data.describe()

##
		学号			身高			体重
count	35.00000	35.000000	35.000000
mean	1803.00000	174.142857	74.657143
std		536.87741	13.541098	12.895377
min		1101.00000	155.000000	53.000000
25%		1204.50000	161.000000	63.000000
50%		2103.00000	173.000000	74.000000
75%		2301.50000	187.500000	82.000000
max		2405.00000	195.000000	100.000000

# count	总数
# mean 	平均值
# std  	方差
# min  	最小值
# max  	最大值
# 25%  	25%中的最小的
# 50%  	50%中的最小的
# 75%  	50%中的最小的

## 注意，字符串类型无统计信息

查看数据框的表头信息：

data.columns

## Index(['班级', '学号', '性别', '身高', '体重'], dtype='object')

# 拿取第一个表头信息
data.columns[0]

## '班级'

# 拿取最后一个表头信息
data.columns[-1]

## '体重'


# 修改表头信息
data = data.rename(columns={"体重": "测试"})
data.head()

##
	班级	学号	性别	身高	测试 # 可以发现，体重已经改为测试了
0	1班	1101	男	173	63
1	1班	1102	女	192	73
2	1班	1103	男	186	82
3	1班	1104	女	167	81
4	1班	1105	女	159	64

data = data.rename(columns={"测试": "体重"})  # 改回来

数据框的排序：

# 取前五条数据，按指定身高进行从小到大
data.sort_values(by="身高").head() # by是指定那个字段来排序

## 
	班级	学号	性别	身高	体重
22	2班	2203	男	155	91
17	1班	2103	男	157	61
25	3班	2301	女	157	78
32	4班	2403	女	158	60
18	1班	2104	女	159	97

# 取前五条数据，按多个字段进行排序
data.sort_values(by=["身高", "体重"], ascending=False).head() ## 按照身高和体重，并从大到小进行排序

##
	班级	学号	性别	身高	体重
13	3班	1304	男	195	70
21	2班	2202	女	194	77
20	2班	2201	男	193	100
34	4班	2405	女	193	54
1	1班	1102	女	192	73

2.4 pandas筛选数据

单条件筛选数据:

# 依旧用学生信息.csv这个表

# 取出性别为男生的前五条数据
data1 = data["性别"]=="男"
data1.head()

##
0     True  ## True为男生
1    False
2     True
3    False
4    False
Name: 性别, dtype: bool ##返回的序列数据是布尔类型

# 用返回序列传给data，即传给数据框
data[data["性别"]=="男"].head()

##
	班级	学号	性别	身高	体重
0	1班	1101	男	173	63
2	1班	1103	男	186	82
5	2班	1201	男	188	68
7	2班	1203	男	160	53
10	3班	1301	男	161	68


# 身高大于180的部分学生筛选出来
data[data["身高"]>180].head()

##
	班级	学号	性别	身高	体重
1	1班	1102	女	192	73
2	1班	1103	男	186	82
5	2班	1201	男	188	68
12	3班	1303	男	188	82
13	3班	1304	男	195	70

多条件筛选数据：

# 性别为女生，身高大于180的
# & 两个条件都要满足
data[(data["性别"]=="女") & (data["身高"]>180)]

##
	班级	学号	性别	身高	体重
1	1班	1102	女	192	73
14	3班	1305	女	187	69
21	2班	2202	女	194	77
24	2班	2205	女	183	76
27	3班	2303	女	190	99
30	4班	2401	女	192	62
34	4班	2405	女	193	54

# | 至少有一个条件成立就行
# 取前五条数据
data[(data["性别"]=="女") & (data["身高"]>180)].head()

##
	班级	学号	性别	身高	体重
1	1班	1102	女	192	73
2	1班	1103	男	186	82
3	1班	1104	女	167	81
4	1班	1105	女	159	64
5	2班	1201	男	188	68


# 性别为女生，身高大于180，并且为一班的
data[(data["性别"]=="女") & (data["身高"]>180) & (data["班级"]=='1班')]

##
	班级	学号	性别	身高	体重
1	1班	1102	女	192	73

2.5 pandas去除重复数据

计算重复数据的数量：

## 所用数据data文件夹的重复数据样本.xlsx 文件

data = pd.read_excel("data/重复数据样本.xlsx")
data

##
	用户编号	下单日期	下单数量
0	10001	2019-10-01	10
1	10002	2019-10-04	8
2	10003	2019-09-23	15
3	10004	2019-10-12	9
4	10005	2019-10-14	20
5	10006	2019-10-15	17
6	10007	2019-08-26	19
7	10001	2019-10-01	10
8	10008	2019-09-16	6
9	10009	2019-10-08	14
10	10010	2019-10-02	7
11	10011	2019-10-03	11
12	10012	2019-10-05	12
13	10013	2019-10-06	13
14	10014	2019-10-24	23
15	10005	2019-10-14	20
16	10007	2019-08-26	19
17	10001	2019-10-01	10
18	10015	2019-08-26	15
19	10016	2019-10-07	4

# 计算重复数据
data.duplicated()

##
0     False
1     False
2     False
3     False
4     False
5     False
6     False
7      True
8     False
9     False
10    False
11    False
12    False
13    False
14    False
15     True
16     True
17     True
18    False
19    False
dtype: bool   # 返回的序列数据是布尔类型，True出现的是重复性数据
    
data.duplicated().sum()

## 4   # 返回的是4，即有4条重复数据

快速去除重复数据：

# 去掉重复性数据
data1 = data.drop_duplicates() 
data1

##
	用户编号	下单日期	下单数量
0	10001	2019-10-01	10
1	10002	2019-10-04	8
2	10003	2019-09-23	15
3	10004	2019-10-12	9
4	10005	2019-10-14	20
5	10006	2019-10-15	17
6	10007	2019-08-26	19
8	10008	2019-09-16	6
9	10009	2019-10-08	14
10	10010	2019-10-02	7
11	10011	2019-10-03	11
12	10012	2019-10-05	12
13	10013	2019-10-06	13
14	10014	2019-10-24	23
18	10015	2019-08-26	15
19	10016	2019-10-07	4

# 没去除前
data.shape

## (20, 3)

# 去除后
data1.shape

## (16, 3)

2.6 pandas分组统计

分组统计：

## data文件夹下的分组统计数据.xlsx 文件

import pandas as pd
data = pd.read_excel("data/分组统计数据.xlsx")
data

##
	城市	订单数	销售额
0	北京	18	32000
1	北京	16	30000
2	北京	20	48000
3	北京	15	28000
4	深圳	24	40000
5	深圳	18	30000
6	深圳	14	24000
7	广州	16	26000
8	广州	14	24000
9	上海	22	46000
10	上海	18	40000

# groupby
data.groupby("城市")

##  # 返回的是一个object对象

group = data.groupby("城市")
group.groups

## {'上海': [9, 10], '北京': [0, 1, 2, 3], '广州': [7, 8], '深圳': [4, 5, 6]}		 #里面的数该城市所对应的下标


# 看分组之后某个组的数据
group.get_group("北京")

##
	城市	订单数	销售额
0	北京	18	32000
1	北京	16	30000
2	北京	20	48000
3	北京	15	28000


group.get_group("北京")["订单数"]

## 
0    18
1    16
2    20
3    15
Name: 订单数, dtype: int64

# 计算北京的总订单数
group.get_group("北京")["订单数"].sum()

## 69


# 计算所有组的总订单数
group["订单数"].sum()

##
城市
上海    40
北京    69
广州    30
深圳    56
Name: 订单数, dtype: int64
        
data.groupby("城市")["订单数"].sum()

## 
城市
上海    40
北京    69
广州    30
深圳    56
Name: 订单数, dtype: int64
        
# 计算所有组的销售额
data.groupby("城市")["销售额"].sum()

##
城市
上海     86000
北京    138000
广州     50000
深圳     94000
Name: 销售额, dtype: int64

分组统计练习：

## data下面的 学生信息.xlsx 文件
import pandas as pd
data = pd.read_excel("data/学生信息.xlsx")
data

##
	班级	学号	性别	身高	体重
0	1班	1101	男	173	63
1	1班	1102	女	192	73
2	1班	1103	男	186	82
3	1班	1104	女	167	81
4	1班	1105	女	159	64
5	2班	1201	男	188	68
6	2班	1202	女	176	94
7	2班	1203	男	160	53
8	2班	1204	女	162	63
9	2班	1205	女	167	63
10	3班	1301	男	161	68
11	3班	1302	女	175	57
12	3班	1303	男	188	82
13	3班	1304	男	195	70
14	3班	1305	女	187	69
15	1班	2101	男	174	84
16	1班	2102	女	161	61
17	1班	2103	男	157	61
18	1班	2104	女	159	97
19	1班	2105	男	170	81
20	2班	2201	男	193	100
21	2班	2202	女	194	77
22	2班	2203	男	155	91
23	2班	2204	男	175	74
24	2班	2205	女	183	76
25	3班	2301	女	157	78
26	3班	2302	男	171	88
27	3班	2303	女	190	99
28	3班	2304	女	164	81
29	3班	2305	男	187	73
30	4班	2401	女	192	62
31	4班	2402	男	166	82
32	4班	2403	女	158	60
33	4班	2404	女	160	84
34	4班	2405	女	193	54

## 练习
# 1、按照班级分组，算学生的身高的统计信息

data.groupby("班级")["身高"].max().reset_index()  # reset_index() 重置下标  #max() 最大值

##
	班级	身高
0	1班	192
1	2班	194
2	3班	195
3	4班	193
        
data.groupby("班级")["身高"].min().reset_index()  # reset_index() 重置下标

## 
	班级	身高
0	1班	157
1	2班	155
2	3班	157
3	4班	158

# 改变字段
a = data.groupby("班级")["身高"].max().reset_index()
a.columns = ["班级","身高的最大值"]
a

##
	班级	身高的最大值
0	1班	192
1	2班	194
2	3班	195
3	4班	193

# 2、按班级，计算体重的统计信息
# 体重的最大值
b = data.groupby("班级")["体重"].max().reset_index()
b.columns = ["班级", "体重的最大值"]
b

##
	班级	体重的最大值
0	1班	97
1	2班	100
2	3班	99
3	4班	84

# 3、每个班级里面男生跟女生的身高情况的统计信息（多个字段分组）
# 按照班级性别分组，算出各个班男女的身高的最大值
c = data.groupby(["班级","性别"])["身高"].max().reset_index()
c.columns = ["班级", "性别", "身高的最大值"]
c

##
	班级	性别	身高的最大值
0	1班	女	192
1	1班	男	186
2	2班	女	194
3	2班	男	193
4	3班	女	190
5	3班	男	195
6	4班	女	193
7	4班	男	166

2.7 pandas合并表数据

按行方向合并数据：

按照行方向合并，数据要具有相同的字段

# data文件夹下的行拼接数据文件夹下有4个xlsx文件
import pandas as pd
data1 = pd.read_excel("data/行拼接数据/用户数据1.xlsx")
data2 = pd.read_excel("data/行拼接数据/用户数据2.xlsx")
data3 = pd.read_excel("data/行拼接数据/用户数据3.xlsx")
data4 = pd.read_excel("data/行拼接数据/用户数据4.xlsx")

data1
##
	用户编号	订单数
0	1	4
1	2	8
2	3	9
3	4	12
4	5	6

data2
##
	用户编号	订单数
0	6	5
1	7	2
2	8	11
3	9	18
4	10	15

data3
##
	用户编号	订单数
0	11	3
1	12	16
2	13	31
3	14	23
4	15	6

data4
##
用户编号	订单数
0	16	6
1	17	34
2	18	9
3	19	12
4	20	6

## 行拼接
data = pd.concat([data1,data2,data3,data4]).reset_index()
data

##
	用户编号	订单数
0	1	4
1	2	8
2	3	9
3	4	12
4	5	6
0	6	5
1	7	2
2	8	11
3	9	18
4	10	15
0	11	3
1	12	16
2	13	31
3	14	23
4	15	6
0	16	6
1	17	34
2	18	9
3	19	12
4	20	6

按列方向合并数据：

按照列方向合并，数据的数量必须要相同

# data文件夹下的列拼接数据文件夹下有3个xlsx文件

import pandas as pd
data5 = pd.read_excel("data/列拼接数据/用户信息1.xlsx")
data6 = pd.read_excel("data/列拼接数据/用户信息2.xlsx")
data7 = pd.read_excel("data/列拼接数据/用户信息3.xlsx")


data5
##
	用户编号	用户性别
0	1	男
1	2	女
2	3	男
3	4	男
4	5	女

data6
##
身高
0	167
1	174
2	184
3	154
4	167

data7
##
	职业	爱好
0	学生	唱歌
1	白领	旅行
2	农民	看视频
3	学生	看小说
4	学生	唱歌

## 列拼接
data = pd.concat([data5,data6,data7], axis=1)  ## axis=1 按照列方向拼接
data

##
	用户编号	用户性别	身高	职业	爱好
0	1	男	167	学生	唱歌
1	2	女	174	白领	旅行
2	3	男	184	农民	看视频
3	4	男	154	学生	看小说
4	5	女	167	学生	唱歌

2.8 批量自动化读取文件

# 在data文件夹下的合并练习数据的 文件
import pandas as pd
import os  ## 操作系统库
os.listdir("data/列拼接数据/")  ## os.listdit() 返回该目录下的所有的数据文件的名字，并且返回的是一个列表结构

## ['用户信息1.xlsx', '用户信息2.xlsx', '用户信息3.xlsx']


import pandas as pd
import os  ## 操作系统库
files = os.listdir("data/合并练习数据/")
len(files)

## 1000 		# 1000个文件

data_list = [] ## 定义一个列表，专门用来存放我们在for循环里面读进来的每一个数据文件


for file in files:	## file指的是每个数据文件的名字，用for循环迭代files这一千个个数据文件的名字传入file
    data = pd.read_excel("data/合并练习数据/" + file) # data里面现在就存放了每个数据文件读进来的那些数据
    data_list.append(data)
    
    
len(data_list)
## 1000

all_data1 = pd.concat(data_list)  ## 按照行拼接
all_data1[["用户编号","订单数"]]  # 拿多个数据记得嵌套列表
##
	用户编号	订单数
0	0	40
0	1	81
0	10	45
0	100	50
0	101	11
...	...	...
0	995	70
0	996	60
0	997	71
0	998	84
0	999	62
1000 rows × 2 columns

## 改进
# 1、
import pandas as pd
import os

data_dir = "data/合并练习数据/"  
files = os.listdir(data_dir)
data_list = []
for file in files:	## file指的是每个数据文件的名字，用for循环迭代files这一千个个数据文件的名字传入file
    data = pd.read_excel("data/合并练习数据/" + file) # data里面现在就存放了每个数据文件读进来的那些数据
    data_list.append(data)  ## 将data的数据追加进定义好的data_list列表中
all_data = pd.concat(data_list)
all_data[["用户编号", "订单数"]]

##
	用户编号	订单数
0	0	40
0	1	81
0	10	45
0	100	50
0	101	11
...	...	...
0	995	70
0	996	60
0	997	71
0	998	84
0	999	62
1000 rows × 2 columns


# 2、
import pandas as pd
import os

data_dir = r"C:\Users\24998\数据分析\第十五章 数据分析处理库pandas\data\合并练习数据"	# 在路径前面加r，即保持字符原始值的意思,否则报错
files = os.listdir(data_dir)
data_list = []
for file in files:  ## file指的是每个数据文件的名字，用for循环迭代files这一千个个数据文件的名字传入file
    data = pd.read_excel(os.path.join(data_dir, file)) # data里面现在就存放了每个数据文件读进来的那些数据 	# os下的path下的join()方法，只需要传入绝对路径，和for循环遍历的文件名 # data_dir 是之前的绝对路径
    data_list.append(data)  ## 将data的数据追加进定义好的data_list列表中
all_data = pd.concat(data_list)
all_data[["用户编号", "订单数"]]

##
	用户编号	订单数
0	0	40
0	1	81
0	10	45
0	100	50
0	101	11
...	...	...
0	995	70
0	996	60
0	997	71
0	998	84
0	999	62
1000 rows × 2 columns

2.9 merge连接操作

将一张数据表和另一张数据表关联起来，形成一个新的数据表

merge连接数据

# data文件夹下merge目录下的两xlsx个文件
import pandas as pd
data1 = pd.read_excel("data/merge连接数据/用户订单信息.xlsx")
data1

## 
	用户编号	订单数
0	u001	23
1	u002	35
2	u002	24
3	u003	14
4	u004	20
5	u005	40

data2 = pd.read_excel("data/merge连接数据/用户基本属性.xlsx")
data2

##
用户编号	性别	职业
0	u001	男	学生
1	u002	女	会计师
2	u003	男	程序员
3	u004	男	学生
4	u005	女	律师

# 将以上两张表拼接起来（两种方法）
# 1、
data = pd.merge(data1,data2,on="用户编号") 	# 用on连接
data

##
	用户编号	订单数	性别	职业
0	u001	23	男	学生
1	u002	35	女	会计师
2	u002	24	女	会计师
3	u003	14	男	程序员
4	u004	20	男	学生
5	u005	40	女	律师

# 2、
data3 = data1.merge(data2,on="用户编号")
data3

## 
	用户编号	订单数	性别	职业
0	u001	23	男	学生
1	u002	35	女	会计师
2	u002	24	女	会计师
3	u003	14	男	程序员
4	u004	20	男	学生
5	u005	40	女	律师

## 判断性别是否影响了用户下单数
data.groupby("性别")["订单数"].mean().reset_index()

## 
	性别	订单数
0	女	33.0
1	男	19.0

2.10 pandas数据计算

# data文件夹下的学生.xlsx文件
import pandas as pd
data = pd.read_excel("data/学生信息.xlsx")
data

## 
	班级	学号	性别	身高	体重
0	1班	1101	男	173	63
1	1班	1102	女	192	73
2	1班	1103	男	186	82
3	1班	1104	女	167	81
4	1班	1105	女	159	64
5	2班	1201	男	188	68
6	2班	1202	女	176	94
7	2班	1203	男	160	53
8	2班	1204	女	162	63
9	2班	1205	女	167	63
10	3班	1301	男	161	68
11	3班	1302	女	175	57
12	3班	1303	男	188	82
13	3班	1304	男	195	70
14	3班	1305	女	187	69
15	1班	2101	男	174	84
16	1班	2102	女	161	61
17	1班	2103	男	157	61
18	1班	2104	女	159	97
19	1班	2105	男	170	81
20	2班	2201	男	193	100
21	2班	2202	女	194	77
22	2班	2203	男	155	91
23	2班	2204	男	175	74
24	2班	2205	女	183	76
25	3班	2301	女	157	78
26	3班	2302	男	171	88
27	3班	2303	女	190	99
28	3班	2304	女	164	81
29	3班	2305	男	187	73
30	4班	2401	女	192	62
31	4班	2402	男	166	82
32	4班	2403	女	158	60
33	4班	2404	女	160	84
34	4班	2405	女	193	54

# 计算学生的BMI
## 先把身高换成以米为单位
data["身高"].values  #values就是序列数据的一个属性 # 返回一个array

##
array([173, 192, 186, 167, 159, 188, 176, 160, 162, 167, 161, 175, 188,
       195, 187, 174, 161, 157, 159, 170, 193, 194, 155, 175, 183, 157,
       171, 190, 164, 187, 192, 166, 158, 160, 193], dtype=int64)

type(data["身高"].values)

## numpy.ndarray 

# 所以pandas里面的每一列的序列数据其实就是底层封装的numpy里面的数组
# 由以上可知，我们可以直接按照numpy的计算方式

# BMI
a = data["体重"] / ((data["身高"]/100) * (data["身高"]/100))
a

##
0     21.049818
1     19.802517
2     23.702162
3     29.043709
4     25.315454
5     19.239475
6     30.346074
7     20.703125
8     24.005487
9     22.589551
10    26.233556
11    18.612245
12    23.200543
13    18.408941
14    19.731762
15    27.744748
16    23.533043
17    24.747454
18    38.368735
19    28.027682
20    26.846358
21    20.459135
22    37.877211
23    24.163265
24    22.694019
25    31.644286
26    30.094730
27    27.423823
28    30.116002
29    20.875633
30    16.818576
31    29.757585
32    24.034610
33    32.812500
34    14.497033
dtype: float64
    
# 新增一列BMI指数，显示前五条数据
data["BMI指数"] = a
data.head()

##
	班级	学号	性别	身高	体重	BMI指数
0	1班	1101	男	173	63	21.049818
1	1班	1102	女	192	73	19.802517
2	1班	1103	男	186	82	23.702162
3	1班	1104	女	167	81	29.043709
4	1班	1105	女	159	64	25.315454

2.11 apply实现快速变换

一般方法(for循环)

# 接pandas数据计算
# 实现新增身体情况的一列，体重过低，体重正常，超重

# 一般方法
list_data = [] # 定义一个列表，存放BMI所对应的情况
for bmi in data["BMI指数"]:
    if bmi < 18.5:
        a = "体重过低"
        #list_data.append(a)
    elif bmi < 24:
        a = "体重正常"
        #list_data.append(a)
    else:
        a = "超重"
        #list_data.append(a)
    list_data.append(a)
list_data  ### 存放了所有人的身体情况

##
['体重正常',
 '体重正常',
 '体重正常',
 '超重',
 '超重',
 '体重正常',
 '超重',
 '体重正常',
 '超重',
 '体重正常',
 '超重',
 '体重正常',
 '体重正常',
 '体重过低',
 '体重正常',
 '超重',
 '体重正常',
 '超重',
 '超重',
 '超重',
 '超重',
 '体重正常',
 '超重',
 '超重',
 '体重正常',
 '超重',
 '超重',
 '超重',
 '超重',
 '体重正常',
 '体重过低',
 '超重',
 '超重',
 '超重',
 '体重过低']

data["身体情况"] = list_data
data.head()  ## 默认显示前五条数据

##
	班级	学号	性别	身高	体重	BMI指数	身体情况
0	1班	1101	男	173	63	21.049818	体重正常
1	1班	1102	女	192	73	19.802517	体重正常
2	1班	1103	男	186	82	23.702162	体重正常
3	1班	1104	女	167	81	29.043709	超重
4	1班	1105	女	159	64	25.315454	超重

apply：

# apply  # 相当于已经自动实现了一个for循环了
data["BMI指数"].apply(lambda x: x).head()  ## apply的意思是运用，运用了什么函数。lambda x: x 函数指的是他自己，apply(lambda x: x)就是运用它本身，所以传他本身的数据

##
0    21.049818
1    19.802517
2    23.702162
3    29.043709
4    25.315454
Name: BMI指数, dtype: float64
        
        
# 实现新增身体情况的一列，体重过低，体重正常，超重

def body(bmi):
    if bmi < 18.5:
        return "体重过低"
    elif bmi<24:
        return "体重正常"
    else :
        return "超重"
b = data["BMI指数"].apply(body).head()  #默认查询前五条数据
b

## 
0    体重正常
1    体重正常
2    体重正常
3      超重
4      超重
Name: BMI指数, dtype: object
        
data["身体情况_apply"] = b
data.head()

## 
	班级	学号	性别	身高	体重	BMI指数	身体情况	身体情况_apply
0	1班	1101	男	173	63	21.049818	体重正常	体重正常
1	1班	1102	女	192	73	19.802517	体重正常	体重正常
2	1班	1103	男	186	82	23.702162	体重正常	体重正常
3	1班	1104	女	167	81	29.043709	超重	超重
4	1班	1105	女	159	64	25.315454	超重	超重

#用apply将男生变成1，女生变成2
def sex(x):
    if x == "男":
        return 1
    elif x == "女":
        return  2
    
c = data["性别"].apply(sex)
c.head()

##
0    1
1    2
2    1
3    2
4    2
Name: 性别, dtype: int64
        
        
data["新增列性别"] = c
data.head()

##
	班级	学号	性别	身高	体重	BMI指数	身体情况	身体情况_apply	新增列性别
0	1班	1101	男	173	63	21.049818	体重正常	体重正常	1
1	1班	1102	女	192	73	19.802517	体重正常	体重正常	2
2	1班	1103	男	186	82	23.702162	体重正常	体重正常	1
3	1班	1104	女	167	81	29.043709	超重	超重	2
4	1班	1105	女	159	64	25.315454	超重	超重	2



# lambda函数也可以实现
data["性别"].apply(lambda x: 1 if x == "男" else 2).head()

##
0    1
1    2
2    1
3    2
4    2
Name: 性别, dtype: int64

你可能感兴趣的:(python,数据分析,numpy,数据分析,python,numpy,pandas)

Python爬虫requests(详细) dme. Python爬虫零基础入门爬虫 python
本文来学爬虫使用requests模块的常见操作。1.URL参数无论是在发送GET/POST请求时，网址URL都可能会携带参数，例如：http://www.5xclass.cn?age=19&name=dengres=requests.get(url="https://www.5xclass.cn?age=19&name=deng")res=requests.get(url="https://www
毕业论文如何降低AIGC率？ kexiaoya2013 AIGC 论文笔记论文阅读
在Deepseek爆火的当下，AI生成内容已经渗透到各个领域，包括论文写作。如果你的论文使用了AI工具辅助写作，那么，如何降低AIGC率呢？一、控制使用比例将AI工具用于辅助性任务，如文献检索、语法检查、词汇替换等，而非核心内容的生成。论文的研究方法、数据分析、结论等核心部分应尽量手动完成。完全依赖AI生成论文会导致AI率过高，而将AI用于辅助性任务则能有效降低AI率。二、采用不同模型不同AI模型
BP 神经网络在考古数据分析中的应用 fanxbl957 人工智能理论与实践神经网络数据分析人工智能
BP神经网络在考古数据分析中的应用摘要：本文深入探讨了BP神经网络在考古数据分析领域的应用。首先阐述了考古数据分析的重要性以及传统分析方法的局限性。随后详细介绍了BP神经网络的结构、原理与训练算法。通过丰富的代码示例展示了如何运用BP神经网络进行考古文物的分类鉴定、年代预测以及遗址空间分布分析等任务，涵盖数据预处理、网络构建、模型训练与评估等关键环节。分析了该应用的优势与局限性，并对其在考古数据分
市场波动中的数据分析与策略优化 QQ3990385023 数据分析区块链人工智能
市场波动中的数据分析与策略优化在市场交易中，价格的波动往往受到多种因素影响，包括资金流向、经济数据、政策调整等。如何利用数据分析优化交易策略，提升市场适应能力，是投资者需要重点关注的问题。借助科学的分析方法，结合技术指标，可以更精准地识别趋势，提高交易稳定性。一、市场数据分析的核心要素1.价格趋势分析市场价格的变动通常会形成一定的趋势，例如上涨趋势、震荡趋势或下跌趋势。通过均线（MA）等技术指标，
2024亚马逊数据分析！ KJYHS 数据分析数据挖掘
整体财务数据23净销售额：全年净销售额达6380亿美元，同比增长11%。净利润：全年净利润为592亿美元，较上年同期的304亿美元增长95%。经营活动现金流：经营活动现金流达1159亿美元，同比增加了36%。各业务板块数据AWS业务1第四季度营收：2024年第四季度，AWS业务实现营收288亿美元，同比增长19%；经营利润达106亿美元，同比增长34亿美元。广告业务5全年营收：2024年广告业务总
使用python计算等比数列求和的方法 HAMYHF windows
在python中，计算Sum=m+mm+mmm+mmmm+.....+mmmmm.....,输入两个数m,n。m的位数累加到n的值，列出算式并计算出结果：#为了打印出算式，并计算出结果，将m,mm这些放入到列表中#定义列表中的m初始值为0,用Ele来代表m,mm....Ele=0#定义总和为0Sum=0#定义一个空列表List=[]#输入两个值n=int(input("inputadigit：")
Python+Playwright常用元素定位方法 HAMYHF python 功能测试
CSSselector选择器在CSS中，定位元素主要通过选择器完成，以下是几种常见的CSS选择器定位方法：标签选择器(element):直接使用HTML元素名称来定位，例如p会选择所有段落元素。属性选择器(attribute):选择所有具有指定属性的元素，无论该属性的值是什么。例如，[title]会选择所有包含title属性的元素。选择具有指定属性，并且该属性值完全等于给定值的元素。例如，[typ
Python中的 redis keyspace 通知_python 操作redis psubscribe(‘__keyspace@0__ ‘) 2301_82243733 程序员 python 学习面试
最后Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习Python门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的Pytho
Python数据分析与可视化程序媛小果 python python 数据分析开发语言
Python数据分析与可视化在数据驱动的商业世界中，数据分析和可视化成为了理解复杂数据集、做出明智决策的关键工具。Python，作为一种功能强大且易于学习的编程语言，提供了丰富的库和框架，使得数据分析和可视化变得简单高效。本文将探讨Python在数据分析和可视化中的应用，包括数据预处理、分析、以及如何通过可视化工具将数据洞察转化为可操作的策略。1.数据分析的重要性数据分析是提取数据中有用信息的过程
【数据分析】通过个体和遗址层面的遗传相关性网络分析生信学习者1 数据分析数据分析数据挖掘 r语言数据可视化
禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者!文章目录介绍原理应用场景加载R包数据下载函数个体层面的遗传相关性网络分析导入数据数据预处理构建遗传相关性的个体网络对个体网络Nij进行可视化评估和选择最佳模型评估和选择最佳模型最佳模型进行总结拟合优度检验遗址层面的遗传相关性网络分析导入数据数据预处理构建遗址之间的遗传相关性网络可视化图条件边预测与模型评估总结系统信息介绍个
【Python 学习 / 7】模块与文件操作卜及中 Python基础 python 学习数据库
文章目录前言一、导入模块1.导入整个模块2.导入模块中的特定函数3.给模块或函数起别名二、常用模块1.`math`模块2.`random`模块3.`os`模块4.`sys`模块三、文件处理1.打开文件2.读取文件3.写入文件4.关闭文件5.使用`with`语句管理文件四、日期时间1.`datetime`模块获取当前日期和时间创建日期和时间对象格式化日期和时间解析字符串为日期对象2.`time`模块
探索天气预警API：精准预测，守护安全 api
引言在当今这个快速变化的世界中，天气的波动直接影响着人们的日常生活、农业生产、交通出行乃至公共安全。为了有效应对各种极端天气事件，天气预警API应运而生，成为连接气象数据与公众服务的重要桥梁。本文将深入探讨天气预警API的工作原理、应用场景以及其对社会的积极影响。天气预警API的工作原理天气预警API基于先进的气象监测技术和大数据分析，通过收集全球范围内的气象卫星、雷达、地面观测站等数据源，进行实
经销商管理系统架构设计方案（附 Java版本和Python版本源代码详解） AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 AI大模型企业级应用开发实战 AI大模型应用入门实战与进阶计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
经销商管理系统架构设计方案（Java实现源代码详解）关键词：经销商管理系统，Java，SpringBoot，MyBatis，MySQL，架构设计，源代码1.背景介绍随着市场竞争的日益激烈，企业对经销商的管理越来越重视。传统的经销商管理方式效率低下，信息滞后，难以适应现代企业的发展需求。为了提高经销商管理效率，降低运营成本，越来越多的企业开始采用信息化的手段来管理经销商，而经销商管理系统应运而生。经
Python:数据从Excel表格链接到Word文档更新Excel即可自动更新Word 一个花生米生花 python excel word
要使用Python来创建或更新一个Word文档，并将数据从Excel表格链接到Word文档中，你可以使用python-docx库来操作Word文档和openpyxl或pandas库来读取Excel文件。不过，需要注意的是，python-docx库并不支持将外部文件链接到Word文档的功能。你可以在Word文档中插入Excel数据的快照，但它们不会自动更新。如果你想要在Word文档中插入Excel数
使用Odoo Shell卸载模块 odoo中国 odoo odoo 开源软件 erp
使用OdooShell卸载模块我们在Odoo使用过程中，因为模块安装错误或者前端错误等导致odoo无法通过界面登录，这时候你可以使用OdooShell来卸载模块。OdooShell是一个交互式Pythonshell，允许你直接与Odoo数据库和模型进行交互。以下是使用OdooShell卸载模块的详细步骤：步骤1：启动OdooShell要启动OdooShell，你需要在终端中运行以下命令。确保你已经
NumPy的基本使用 Mo思编程学习 numpy python 开发语言 pip
在Python的数据科学与数值计算领域，NumPy无疑是一颗耀眼的明星。作为Python中用于科学计算的基础库，NumPy提供了高效的多维数组对象以及处理这些数组的各种工具。本文将带您深入了解NumPy的基本使用，感受它的强大魅力。一、安装与导入在使用NumPy之前，首先要确保它已经安装在您的Python环境中。如果您使用的是Anaconda发行版，NumPy通常已经预装。若未安装，可以使用如下命
FOKS-TROT: 一个高效、易用的全功能开源知识图谱生成工具柳旖岭
FOKS-TROT:一个高效、易用的全功能开源知识图谱生成工具项目简介FOKS-TROT是一个基于Python的全功能开源知识图谱生成工具，旨在帮助研究人员和开发者快速构建具有丰富信息的知识图谱。该项目由hkx3upper在GitCode上开发并维护。通过FOKS-TROT，您可以轻松地将各种数据源（如文本文件、数据库、API）转换为结构化的知识图谱，并对其进行可视化分析和机器学习任务。此外，该工
python实现word文档合并 v2.0 task138 python自动化 python 自动化运维开发
目录前言要求运行效果脚本下载链接前言之前发表了一个小工具，python用于合并word文档以完成特定的工作任务，现在领导给出了新需求，适当的调整了一下word文档的合并情况。同时，各位同事反馈说，环境部署太难了，脚本的使用成本比较高，难度大，所以我这次把脚本打包成一个EXE可执行文件，直接双击即可使用。要求由于脚本的具体逻辑发生了变化，因此，exe文件的同级目录下，一定要存在一个txt文件，否则无
2025年全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！白帽安全-黑客4148 安全 web安全网络网络安全 CTF
目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、SQL注入（7-8天）2、文件上传（7-8天）3、其他漏洞（14-15天）4.3、后期五、CTF学习资源5.1、CTF赛题复现平台5.
2025年全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！白帽安全-黑客4148 网络安全 web安全 linux 密码学 CTF
目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、SQL注入（7-8天）2、文件上传（7-8天）3、其他漏洞（14-15天）4.3、后期五、CTF学习资源5.1、CTF赛题复现平台5.
基于python深度学习遥感影像地物分类与目标识别、分割实践技术应用 xiao5kou4chang6kai4 深度学习遥感勘测 python 深度学习分类
专题一：深度学习发展与机器学习深度学习的历史发展过程机器学习，深度学习等任务的基本处理流程梯度下降算法讲解不同初始化，学习率对梯度下降算法的实例分析从机器学习到深度学习算法专题二深度卷积网络、卷积神经网络、卷积运算的基本原理池化操作，全连接层，以及分类器的作用BP反向传播算法的理解一个简单CNN模型代码理解特征图，卷积核可视化分析专题三TensorFlow与keras介绍与入门TensorFlow
python 快速实现链接转 word 文档嘿嘿潶黑黑 python word
python快速实现链接转word文档演示代码展示最后演示代码展示fromnewspaperimportArticlefromdocximportDocumentfromdocx.sharedimportPt,RGBColorfromdocx.enum.styleimportWD_STYLE_TYPEfromdocx.oxml.nsimportqn#tkinterGUIimporttkintera
Python入门笔记「已注销」计算机
文章目录第0周课程导学第1周Python基本语法元素保留字数据类型语句与函数输入函数第2周Python基本图形绘制turtle库绝对坐标海龟坐标turtle角度坐标体系RGB色彩体系画笔控制函数运动控制函数方向控制函数循环语句第3周基本数据类型整型浮点数科学计数法复数类型数值运算操作符二元操作符有对应的增强赋值操作符数值运算函数字符串类型的表示字符串切片字符串类型及操作字符串类型格式化time库时
pythonxml模块高级用法_Python minidom模块用法示例【DOM写入和解析XML】 Lucy-露西娅 pythonxml模块高级用法
本文实例讲述了Pythonminidom模块用法。分享给大家供大家参考，具体如下：一、DOM写XML文件#-*-coding:utf-8-*-#!python3#导入minidomfromxml.domimportminidom#1.创建DOM树对象dom=minidom.Document()#2.创建根节点。每次都要用DOM对象来创建任何节点。root_node=dom.createElemen
Redis 全方位解析：从入门到实战 kiss strong redis 数据库缓存
引言在当今互联网快速发展的时代，高并发、低延迟的应用场景越来越普遍。Redis，作为一款高性能的开源数据库，以其卓越的性能和灵活的功能，成为了许多开发者的首选工具。无论是在缓存、消息队列，还是在实时数据分析等领域，Redis都展现出了强大的能力。本文将从Redis的基本介绍、官网、安装、特性，到具体的存储类型、Java代码实例、SpringBoot整合，以及Redis的主要作用和应用场景，进行全面
React 渲染 Flash 接口数据 ox0080 #北漂+滴滴出行 VIP 激励 Web react.js 前端前端框架
1.后端Python代码使用Flask创建多个接口，每个接口返回不同的数据，并使用自定义装饰器来绑定路由。代码：#app.pyfromflaskimportFlask,jsonifyapp=Flask(__name__)defapi_route(route,methods=['GET']):"""自定义装饰器，用于将函数与HTTP路由绑定"""defdecorator(func):app.rout
LQB---基础练习---十六进制转八进制「已注销」 #LQB LQB
试题基础练习十六进制转八进制资源限制内存限制：512.0MBC/C++时间限制：1.0sJava时间限制：3.0sPython时间限制：5.0s问题描述给定n个十六进制正整数，输出它们对应的八进制数。输入格式输入的第一行为一个正整数n（1<=n<=10）。接下来n行，每行一个由09、大写字母AF组成的字符串，表示要转换的十六进制正整数，每个十六进制数长度不超过100000。输出格式输出n行，每行为
【2025年】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！网安詹姆斯 web安全 CTF 网络安全大赛 python linux
【2025年】全国CTF夺旗赛-从零基础入门到竞赛，看这一篇就稳了！基于入门网络安全/黑客打造的：黑客&网络安全入门&进阶学习资源包目录一、CTF简介二、CTF竞赛模式三、CTF各大题型简介四、CTF学习路线4.1、初期1、html+css+js（2-3天）2、apache+php（4-5天）3、mysql（2-3天）4、python(2-3天)5、burpsuite（1-2天）4.2、中期1、S
机器学习·文本数据读写处理 AAA顶置摸鱼 python 深度学习机器学习人工智能数据处理
前言在自然语言处理的第一步，需要面对的是各种各样以不同形式表现的文本数据，比如，txt、Excel中的表格数据，还有无法直接打开的pkl文件等。针对这些不同类型的数据，可以基于Python中的基本功能函数或者调用某些库进行读写以及作一些基本的处理。一、文本数据读写方法1.读写TXT文件读取方法：read()：读取整个文件，返回字符串。readline()：逐行读取，返回字符串。readlines(
LQB（4）-python-DFS搜索 AAA顶置摸鱼蓝桥杯python组深度优先算法 python 蓝桥杯
前言DFS即深度优先搜索（Depth-FirstSearch），是一种用于遍历或搜索树或图的算法，有三种核心的应用场景（基础遍历、回溯、剪枝）。一、DFS-基础遍历1.核心原理深度优先搜索（DFS）是一种遍历或搜索树/图的算法，优先沿着一条路径尽可能深入，直到无法继续再回溯。实现方式：递归：隐式利用系统调用栈。栈模拟：显式使用栈数据结构。2.代码实现(1)递归实现（树结构）classTreeNod
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它

数据分析：数据分析篇

文章目录

第一章 科学计算库Numpy

1.1 认识Ndarray

1.2 Ndarray的属性

1.3 Numpy中的数据类型

1.4 Numpy数组

1.4.1 Numpy数组的创建

1.4.2 Numpy数组的基本索引和切片

1.4.3 Numpy布尔索引

1.4.4 数组运算和广播机制

1.4.5 Numpy数组的赋值和Copy复制

1.4.6 Numpy数组的形状变换

1.4.7 Numpy数组的拼接

1.5 Numpy读取文件操作，数组的序列化和反序列化

1.6 Numpy中的聚合函数

第二章 数据分析处理库Pandas

2.1 pandas读取和保存excel和csv文件(以及数据结构类型)

2.2 序列数据的常用操作

2.3 数据框的常用操作

2.4 pandas筛选数据

2.5 pandas去除重复数据

2.6 pandas分组统计

2.7 pandas合并表数据

2.8 批量自动化读取文件

2.9 merge连接操作

2.10 pandas数据计算

2.11 apply实现快速变换

你可能感兴趣的:(python,数据分析,numpy,数据分析,python,numpy,pandas)

第一章科学计算库Numpy

第二章数据分析处理库Pandas