cx-young

python数据分析学习笔记之matplotlib、numpy、pandas

为了学习机器学习，在此先学习以下数据分析的matplotlib，numpy，pandas，主要是为自己的学习做个记录，如有不会的可以随时查阅。希望大家可以一起学习共同进步，我们最终都可以说：功不唐捐，玉汝于成。就算遇到困难也不要气馁，大声说：我不怕，我敏而好学！！

数据分析

把大量的数据进行统计和整理，得出结论，为后续的决策提供数据支持

matplotlib

1.什么是matplotlib
2.matplotlib基本要点
3.matolotlib的散点图、直方图、柱状图
4.更多的画图工具

为什么要学习matplotlib

能将数据进行可视化，更直观的呈现
使数据更加客观、更具说服力

什么是matplotlib

最流行的python底层绘图库，主要做数据可视化图表，名字取材于MATLAB，模仿MATLAB构建
matplotlib可以绘制折线图、散点图、柱状图、直方图、箱线图、饼图等。

折线图

以折线的上升或下降来表示统计数量的增减变化的统计图
特点：能够显示数据的变化趋势，反映事务的变化情况（变化）

直方图

由一系列高度不等的纵向条纹或线段表示数据分布的情况，一般用横轴表示数据范围，纵轴表示分布情况
特点：绘制连续性的数据，展示一组或多组数据的分布状况（统计）

条形图

排列在工作表的列或行中的数据可以绘制到条形图中
特点：绘制离散的数据，能够一眼看出各个数据的大小，比较数据之间的差别（统计）

散点图

用两组数据构成多个坐标点，考虑坐标点的分布，判断两变量之间是否存在某种关联或总结坐标点的分布模式
特点：
判断变量之间是否存在数量关联趋势，展示离群点（分布规律）

matplotlib基本要点

那么上面的每一个红色的点是什么呢？
每个红色的点是坐标，把5个点的坐标连接成一条线，组成了一个折线图。

演示matplotlib简单的使用

假设一天中每隔两个小时(range(2,26,2))的气温(℃)分别是
[15,13,14,5,17,20,25,26,26,27,22,18,15]

'''
假设一天中每隔两个小时(range(2,26,2))的气温(℃)分别是
[15,13,14,5,17,20,25,26,26,27,22,18,15]
'''
from matplotlib import pyplot as plt#导入pyplot
#数据在x轴的位置，是一个可迭代对象
x = range(2,26,2)
#数据在y轴的位置，是一个可迭代对象
y = [15,13,14.5,17,20,25,26,26,27,22,18,15]
'''x轴和y轴的数据一起组成了所有要绘制的坐标
分别是(2,15),(4,13),(6,14.5),(8,17)......'''
#传入x和y，通过plot绘制出折线图
plt.plot(x,y)
plt.show()#在执行程序的时候展示图形

运行结果：

案例存在以下几个问题

1.设置图片大小(想要一个高清无码大图)
2.保存到本地
3.描述信息，比如x轴和y轴表示什么，这个图表示什么
4.调整x或y的刻度的间距
5.线条的样式(比如颜色，透明度等)
6.标记出特殊的点(比如告诉别人最高点和最低点在哪里)
7.给图片添加一个水印(防伪，防止盗用)

'''
假设一天中每隔两个小时(range(2,26,2))的气温(℃)分别是
[15,13,14,5,17,20,25,26,26,27,22,18,15]
'''
from matplotlib import pyplot as plt#导入pyplot
### 设置图片大小
'''设置图片大小
figure图形图标的意思，在这里指的就是我们画的图
通过实例化一个figure并且传递参数，能够在后台自动使用该figure实例
在图像模糊时，可以传入dpi参数，让图片更清晰
'''
fig = plt.figure(figsize=(20,8),dpi=80)
#数据在x轴的位置，是一个可迭代对象
x = range(2,26,2)
#数据在y轴的位置，是一个可迭代对象
y = [15,13,14.5,17,20,25,26,26,27,22,18,15]
'''
x轴和y轴的数据一起组成了所有要绘制的坐标
分别是(2,15),(4,13),(6,14.5),(8,17)......
'''
#传入x和y，通过plot绘制出折线图
plt.plot(x,y)
### 保存图片，可以保存svg这种矢量图格式，放大不会有锯齿
# plt.savefig('./t1.png')

###设置x或y轴的刻度
# plt.xticks(x)
_xtick_labels = [i/2 for i in range(4,49)]
# plt.xticks(_xtick_labels)
# plt.xticks(_xtick_labels[::3])#当刻度太密集时，使用列表的步长(间隔取值)来解决，matplotlib会自动帮我们对应
plt.xticks(range(25,50))#设置x的刻度
plt.yticks(range(min(y),max(y)+1))
plt.show()#在执行程序的时候展示图形

那么问题来了：
如果列表a表示10点到12点的每一分钟的气温，如何绘制折线图观察每分钟气温的变化情况？

from matplotlib import pyplot as plt
import random

x = range(0,120)
y = [random.randint(20,35) for i in range(120)]
plt.figure(figsize=(20,8),dpi=80)
plt.plot(x,y)

plt.show()

运行结果：

根据每分钟气温变化绘制折线图

from matplotlib import pyplot as plt, font_manager
import random
import matplotlib
#windows和linux设置字体方法
my_font = {'family' : 'FangSong',
          'weight' : 'bold',
          'size'   : '16'}
# plt.rc( 'font' , ** font)        # 步骤一(设置字体的更多属性)
# plt.rc( 'axes' , unicode_minus = False ) # 步骤二(解决坐标轴负数的负号显示问题)
matplotlib.rc('font',** my_font)

x = range(0,120)
y = [random.randint(20,35) for i in range(120)]
plt.figure(figsize=(20,8),dpi=80)
plt.plot(x,y)

#调整x的刻度
_xtick_labels = ["10点{}分".format(i) for i in range(60)]
_xtick_labels += ["11点{}分".format(i) for i in range(60)]
#取步长，数字和字符串一一对应，数据的长度一样 rotation旋转的度数
plt.xticks(list(x)[::3],_xtick_labels[::3],rotation=45)
plt.show()

运行结果：

在上题基础上添加描述信息

from matplotlib import pyplot as plt, font_manager
import random
import matplotlib
#windows和linux设置字体方法
my_font = {'family' : 'FangSong',
          'weight' : 'bold',
          'size'   : '16'}
# plt.rc( 'font' , ** font)        # 步骤一(设置字体的更多属性)
# plt.rc( 'axes' , unicode_minus = False ) # 步骤二(解决坐标轴负数的负号显示问题)
matplotlib.rc('font',** my_font)

x = range(0,120)
y = [random.randint(20,35) for i in range(120)]
plt.figure(figsize=(20,8),dpi=80)
plt.plot(x,y)

#调整x的刻度
_xtick_labels = ["10:0{}".format(i) for i in range(10)]
_xtick_labels += ["10:{}".format(i) for i in range(10,60)]
_xtick_labels += ["11:0{}".format(i) for i in range(10)]
_xtick_labels += ["11:{}".format(i) for i in range(10,60)]
#取步长，数字和字符串一一对应，数据的长度一样 rotation旋转的度数
plt.xticks(list(x)[::3],_xtick_labels[::3],rotation=45)

#添加描述信息
plt.xlabel("时间")
plt.ylabel("温度 单位(℃)")
plt.title("10点到12点每分钟的气温变化情况")

plt.show()

运行结果：

案例绘制11到30岁看书数量折线图

from matplotlib import pyplot as plt
import matplotlib
'''
假设小明在30岁的时候，根据自己的实际情况，统计出
从1到30岁每年看过的书籍数量，请绘制折线图，
以便分析自己每年所看书籍数量走势
x轴表示岁数
y轴表示个数
'''
#windows和linux设置字体方法
my_font = {'family' : 'FangSong',
          'weight' : 'bold',
          'size'   : '16'}
# plt.rc( 'font' , ** font)        # 步骤一(设置字体的更多属性)
# plt.rc( 'axes' , unicode_minus = False ) # 步骤二(解决坐标轴负数的负号显示问题)
matplotlib.rc('font',** my_font)

y = [1,0,1,1,2,4,3,2,3,4,4,5,6,5,4,3,3,1,1,1]
x = range(11,31)

#设置图形大小
plt.figure(figsize=(20,8),dpi=80)

plt.plot(x,y)

#设置x轴刻度
_xtick_labels = ["{}岁".format(i) for i in x]
plt.xticks(x,_xtick_labels)
plt.yticks(range(0,9))

#绘制网格
plt.grid(alpha=0.4)

#添加描述信息
plt.xlabel("年龄")
plt.ylabel("书本数量")
plt.title("每年所看书籍数量走势")

#展示
plt.show()

运行结果：

案例绘制自己和同桌两人的看书数量折线图

from matplotlib import pyplot as plt
import matplotlib
'''
假设小明在30岁的时候，根据自己的实际情况，统计出
从1到30岁每年看过的书籍数量，请绘制折线图，
以便分析自己每年所看书籍数量走势
x轴表示岁数
y轴表示个数
'''
#windows和linux设置字体方法
my_font = {'family' : 'FangSong',
          'weight' : 'bold',
          'size'   : '16'}
# plt.rc( 'font' , ** font)        # 步骤一(设置字体的更多属性)
# plt.rc( 'axes' , unicode_minus = False ) # 步骤二(解决坐标轴负数的负号显示问题)
matplotlib.rc('font',** my_font)

y_1 = [1,0,1,1,2,4,3,2,3,4,4,5,6,5,4,3,3,1,1,1]
y_2 = [1,0,3,1,2,2,3,3,2,1,2,1,1,1,1,1,1,1,1,1]
x = range(11,31)

#设置图形大小
plt.figure(figsize=(20,8),dpi=80)
#通过label指定显示的图例内容
plt.plot(x,y_1,label="自己",color='orange',linestyle=':')
plt.plot(x,y_2,label="同桌",color='cyan',linestyle='--')

#设置x轴刻度
_xtick_labels = ["{}岁".format(i) for i in x]
plt.xticks(x,_xtick_labels)
plt.yticks(range(0,9))

#绘制网格
plt.grid(alpha=0.4)

#添加图例
#通过prop指定图例的字体
#通过loc指定图例的位置，默认右上角
plt.legend(prop=my_font,loc='upper left')
#添加描述信息
plt.xlabel("年龄")
plt.ylabel("书本数量")
plt.title("每年所看书籍数量走势")
#展示
plt.show()

运行结果：

自定义绘制图形风格

plt.plot(
x,#x
y,#y
#在绘制的时候指定即可
color='r',#线条颜色 r红色，g绿色，b蓝色，w白色，y黄色
linestyle='--',#线条风格 -实线 --虚线 -.点画线 :点虚线
linewidth=5,#线条粗细
alpha=0.5#透明度
)

matplotlib绘制散点图

假设通过爬虫你获取了某地3
月份，10月份每天白天的最高气温，那么此时绘制出它的散点图
y_3 = [11,17,16,11,12,11,12,6,6,7,8,9,12,15,14,17,18,21,16,17,20,14,15,15,15,19,21,22,22,22,23]
y_10 = [26,26,28,19,21,17,16,19,18,20,20,19,22,23,17,20,21,20,22,15,11,15,5,13,17,10,11,13,12,13,6]

#绘制散点图
from matplotlib import pyplot as plt
import matplotlib
#windows和linux设置字体方法
my_font = {'family' : 'FangSong',
          'weight' : 'bold',
          'size'   : '16'}
# plt.rc( 'font' , ** font)        # 步骤一(设置字体的更多属性)
# plt.rc( 'axes' , unicode_minus = False ) # 步骤二(解决坐标轴负数的负号显示问题)
matplotlib.rc('font',** my_font)

y_3 = [11,17,16,11,12,11,12,6,6,7,8,9,12,15,14,17,18,21,16,17,20,14,15,15,15,19,21,22,22,22,23]
y_10 = [26,26,28,19,21,17,16,19,18,20,20,19,22,23,17,20,21,20,22,15,11,15,5,13,17,10,11,13,12,13,6]

x_3 = range(1,32)
x_10 = range(51,82)

#设置图形大小
plt.figure(figsize=(20,8),dpi=80)
#使用scatter绘制散点图，和之前绘制折线图的唯一区别
plt.scatter(x_3,y_3,label='3月份')
plt.scatter(x_10,y_10,label='10月份')

#调整x轴的刻度
_x = list(x_3) + list(x_10)
_xtick_labels = ['3月{}日'.format(i) for i in x_3]
_xtick_labels += ['10月{}日'.format(i-50) for i in x_10]
plt.xticks(_x[::3],_xtick_labels[::3],rotation=45)

#添加图例
plt.legend(loc = 'upper left')

#添加描述信息
plt.xlabel('时间')
plt.ylabel('温度')
plt.show()

运行结果：

散点图应用场景

不同条件(维度)之间的内在关联关系
观察数据的离散聚合程度

绘制条形图

假设你获得了电影以及其对应的票房。

绘制竖条形图

#绘制条形图
from matplotlib import pyplot as plt
import matplotlib

#windows和linux设置字体方法
my_font = {'family' : 'FangSong',
          'weight' : 'bold',
          'size'   : '16'}
# plt.rc( 'font' , ** font)        # 步骤一(设置字体的更多属性)
# plt.rc( 'axes' , unicode_minus = False ) # 步骤二(解决坐标轴负数的负号显示问题)
matplotlib.rc('font',** my_font)
a = ['电影1','电影2','电影3','电影4','电影5','电影6','电影7','电影8','电影9']
b = [56,26,17,16,12,11,10,9,8]
#设置图片大小
plt.figure(figsize=(20,15),dpi=80)
#绘制条形图 竖着的
plt.bar(range(len(a)),b,width=0.3)
#设置字符串到x轴
plt.xticks(range(len(a)),a,rotation=90)
plt.xlabel('电影名称')
plt.ylabel('票房')
plt.show()

运行结果：

绘制横条形图

#绘制条形图
from matplotlib import pyplot as plt
import matplotlib

#windows和linux设置字体方法
my_font = {'family' : 'FangSong',
          'weight' : 'bold',
          'size'   : '16'}
# plt.rc( 'font' , ** font)        # 步骤一(设置字体的更多属性)
# plt.rc( 'axes' , unicode_minus = False ) # 步骤二(解决坐标轴负数的负号显示问题)
matplotlib.rc('font',** my_font)
a = ['电影1','电影2','电影3','电影4','电影5','电影6','电影7','电影8','电影9']
b = [56,26,17,16,12,11,10,9,8]
#设置图片大小
plt.figure(figsize=(20,15),dpi=80)
#绘制条形图 竖着的
plt.barh(range(len(a)),b,height=0.3,color='orange')
#设置字符串到x轴
plt.yticks(range(len(a)),a)
plt.grid(alpha=0.3)
plt.ylabel('电影名称')
plt.xlabel('票房')
plt.show()

运行结果：

绘制三天数据条形图

假设你知道了列表a中电影分别在2017-9-14(b_14),2017-9-15(b_15),2017-9-16(b_16)三天的票房，为了展示列表中电影本身的票房以及其它电影的数据对比情况，应该如何更加直观地呈现该数据
a=[“猩球崛起”,“敦刻尔克”,“蜘蛛侠”,“战狼2”]
b_16 = [15746,312,4497,319]
b_15=[12357,156,2045,168]
b_14=[2358,399,2358,362]

条形图应用场景

数量统计
频率统计(市场饱和度)

绘制直方图

import matplotlib.pyplot as plt
import numpy as np

lst=[]
for _ in range(250):
    a = np.random.randint(80,160)
    lst.append(a)#生成数据

#计算组数
d = 5
num_bins = (max(lst) - min(lst))//d
print(lst)
plt.hist(lst,num_bins)
#设置x轴的刻度
plt.xticks(range(min(lst),max(lst)+d,d))
plt.grid()
plt.show()

直方图应用场景

用户的年龄分布状态
一段时间内用户点击次数的分布状态
用户活跃时间的分布状态

matplotlib浅浅总结


plt.plot绘制折线图	from matplotlib import pyplot as plt
设置图形大小和分辨率	plt.figure(figsize=(20,8),dpi=80)
绘图	plt.plot(x,y)	x(y):所有的坐标的x(y)值
调整x(y)轴的刻度	plt.xticks()
	调整间距：	传一个参数(包含数字的可迭代对象)，步长合适即可
	添加字符串到x(y)轴:	传入两个参数，分别是两个可迭代对象，数字和字符串最终会一一对应，只显示字符串
展示	plt.show()
图片保存	plt.savefig(“file_path”)
显示中文	matplotlib.rc	my_font = {‘family’ : ‘FangSong’, ‘weight’ : ‘bold’, ‘size’ : ‘16’} matplotlib.rc(‘font’,** my_font)
font_manager	from matplotlib import font_manager
	my_font=font_manager.FontProperties(fname=“”)
一个图中绘制多个图形	plt.plot()调用多次	plt.plot(x,y_1,label=“自己”,color=‘orange’,linestyle=‘:’)
		plt.plot(x,y_2,label=“同桌”,color=‘cyan’,linestyle=‘–’)
图例	展示当前这个图形是谁
	1.plot(label=“自己”)
	2.plot.legend(loc,prop)	loc表示的是图例的位置
图形的样式	color	linestyle,linewidth
添加图形的描述	plt.xlabel(“添加描述”)
	plt.ylabel(“添加描述”)
	plt.title(“添加描述”)
网格	plt.grid(alpha=0.4,linestyle=)

numpy

1.什么是numpy
2.numpy基础
3.numpy常用方法
4.numpy常用统计方法

为什么学习numpy

1.快速
2.方便
3.科学计算的基础库

对同样的数据计算任务，使用Numpy比直接使用python代码实现，优点
代码更简洁：Numpy直接以数组、矩阵为粒度计算并且支撑大量的数字函数，而python需要for循环从底层实现
性能更高效：Numpy的数组存储效率和输入输出计算性能，比Python使用list或者嵌套list好很多
注：Numpy的数据存储和Python原生的list是不一样的
注：Numpy的大部分代码都是C语言实现的，这是Numpy比纯Python代码高效的原因
Numpy是Python各种数据科学类库的基础库
比如：Scipy、Scikit-Learn、TensorFlow、pandas等

什么是numpy

一个在python中做科学计算的基础库，重在数值计算，也是大部分python科学计算库的急促库，多用于大型、多多维数组上执行数值运算

Numerical Python
一个开源的python科学计算库
使用Numpy可以方便地使用数组、矩阵进行计算
包含线性代数、傅里叶变换、随机数生成等大量函数

Numpy下载与安装

在Windows系统下安装Numpy有两种常用方式
1.使用Python包管理器pip来安装numpy，是一种最简单、最轻量级的方法。只需要执行以下命令即可

		pip install numpy

2.使用anaconda(官网下载：https://www.anaconda.com/)是一个开源的python发行版，应用较为广泛。

numpy ndarray对象

numpy定义了一个n维数组对象，简称ndarray对象，它是一个一系列相同类型元素组成的数组集合。数组中的每个元素都占有大小相同的内存块。
ndarray对象采用了数组的索引机制，将数组中的每个元素映射到内存块上，并且按照一定的布局对内存块进行排列(行或列)

numpy创建数组(矩阵)

numpy.array(object,dtype = None,copy = True,order = None,subok = False,ndmin = 0)

参数

序号	参数	描述说明
1	object	表示一个数组序列
2	dtype	可选参数，通过它可以更改数组的数据类型
3	copy	可选参数，当数据源是ndarray时表示数组能否被复制，默认时True
4	order	可选参数，以哪种内存布局创建数组，有3个可选值，分别是C(行序列)/F(列序列)/A(默认)
5	ndmin	可选参数用于指定数组的维度
6	subok	可选参数，类型为bool值，默认False。为True：使用object的内部数据类型；False：使用object数组的数据类型

import random
import numpy as np

# 使用numpy生成数组，得到ndarray的类型
t1 = np.array([1, 2, 3])
print(t1, type(t1))

t2 = np.array(range(10))
print(t2, type(t2))

t3 = np.arange(4, 10, 2)
print(t3, type(t3), t3.dtype)

# 调整数据类型
t4 = t3.astype(int)
print(t4, t4.dtype)

# numpy中的小数
t5 = np.array([random.random() for i in range(10)])
print(t5, t5.dtype)
print('------------')
# 取两位小数
t8 = np.round(t5, 2)
print(t8)

运行结果：

[1 2 3] <class 'numpy.ndarray'>
[0 1 2 3 4 5 6 7 8 9] <class 'numpy.ndarray'>
[4 6 8] <class 'numpy.ndarray'> int32
[4 6 8] int32
[0.15005218 0.04573021 0.16078498 0.81148836 0.69045563 0.50318601
 0.04133977 0.04835085 0.04299551 0.79446533] float64
------------
[0.15 0.05 0.16 0.81 0.69 0.5  0.04 0.05 0.04 0.79]

数组的形状与修改

# 数组的形状
import numpy as np

t1 = np.arange(12)
# 查看数组的形状 x.shape
print(t1, 't1.shape',t1.shape)

print('*' * 15)
t2 = np.array([[1, 2, 3], [4, 5, 6]])
print(t2,'t2.shape',t2.shape)
print()
# 修改数组的形状 x.reshape
t1 = t1.reshape(3, 4)#.reshape有返回值，不会对本身t1影响进行改变
print('t1.reshape(3, 4)',t1)#若t1=None，原地操作，对数据本身进行修改，没有返回值

#转成一维数组
t1 = t1.flatten()
print(t1)

运行结果：

[ 0  1  2  3  4  5  6  7  8  9 10 11] t1.shape (12,)
***************
[[1 2 3]
 [4 5 6]] t2.shape (2, 3)

t1.reshape(3, 4) [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[ 0  1  2  3  4  5  6  7  8  9 10 11]

轴(axis)

在numpy中可以理解为方向，使用0，1，2…数字表示，对于一个一维数组，只有一个0轴，对于二维数组(shape(2,2))，有0轴和1轴，对于三维数组(shape(2,2,3)),有0,1,2轴

有了轴的概念之后，计算会更加方便，比如计算一个2维数组的平均值，必须指定是计算哪个方向上面的数字的平均值

在前面的知识里，请问轴在哪里呢？
回顾np.arange(0,10).reshape(2,5)，reshape中2表示0轴长度(包含数据的条数)为2，1轴长度为5，2x5一个10个数据。

numpy读取数据

CSV:Comma-Separated Value，逗号分隔值文件
显示:表格状态
源文件:换行和逗号分割行列的格式化文本，每一行的数据表示一条记录

由于CSV便于展示读取和写入，所以很多地方也是用CSV的格式存储和传输中小型的数据。

np.loadtxt(frame,dtype=np.float,delimiter=',',skiprows=0,usecols=None,unpack=False)

参数解释
frame	文件、字符串或产生器，可以是.gz或bz2压缩文件
dtype	数据类型，可选，CSV的字符串以什么数据类型读入数组中，默认np.float
delimiter	分割字符串，默认是任何空格，改为逗号
skiprows	跳过前x行，一般跳过第一行表头
usecols	读取指定的列，索引，元组类型
unpack	如果True，读入属性将分别写入不同数组变量，相当于转置的效果；False读入数据只写入一个数组变量，默认False

代码演示：

#这个是自己胡乱写的一个.csv文件
143,456,789,100
1,2,3,5
4,111,124,556

代码

import numpy as np
us_file_path ="file.csv"

t1 = np.loadtxt(us_file_path,delimiter=',',dtype='int',unpack=True)
t2 = np.loadtxt(us_file_path,delimiter=',',dtype='int')

print(t1)
print('*'*18)
print(t2)

运行结果：

[[143   1   4]
 [456   2 111]
 [789   3 124]
 [100   5 556]]
******************
[[143 456 789 100]
 [  1   2   3   5]
 [  4 111 124 556]]

numpy中的转置

转置是一种变换，对于numpy中的数组来说，就是在对角线方向交换数据，目的也是为了更方便的去处理数据。以下代码演示的三种方法都可以实现二维数组的转置效果，转置和交换轴的效果一样。
代码：

# numpy中的转置
import numpy as np

t1 = np.arange(8).reshape(2,4)
print('转置前：\n', t1)

t2 = t1.transpose()
print('方法1转置后：\n',t2)

t3 = t1.swapaxes(1,0)
print('方法2转置后：\n',t3)

t4 = t1.T
print('方法3转置后：\n',t4)

运行结果：

转置前：
 [[0 1 2 3]
 [4 5 6 7]]
方法1转置后：
 [[0 4]
 [1 5]
 [2 6]
 [3 7]]
方法2转置后：
 [[0 4]
 [1 5]
 [2 6]
 [3 7]]
方法3转置后：
 [[0 4]
 [1 5]
 [2 6]
 [3 7]]

numpy索引和切片

对于刚刚加载出来的数据，若只想选择其中的某一行或某一列，应该如何操作？
和python的列表一样
具体如代码所示：

import numpy as np

t1 = np.arange(20).reshape(4, 5)
print('输出原t1\n', t1)

print('取一行:\n', t1[2])

print('取连续多行:\n', t1[1:])

print('取不连续多行:\n', t1[[0, 2]]) 
print()
# 逗号前表示行，逗号后表示列
print('取一列:\n', t1[:, 0])

print('取连续的多列:\n', t1[:, 2:])

print('取不连续的多列:\n', t1[:, [0, 2, 4]])
print('取多行和多列，取第2行到4行，第2列到第4列')
print('取的是交叉点的位置')
print(t1[1:4,1:4])

print('取多个不相邻的点')
#选出来的结果是(0,1),(2,3)
print(t1[[0,2],[1,3]])


#取第2和第4行
print(t1[[1,3],:])
#取第1和第4列
print(t1[:,[0,3]])

运行结果：

输出原t1
 [[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]
取一行:
 [10 11 12 13 14]
取连续多行:
 [[ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]
取不连续多行:
 [[ 0  1  2  3  4]
 [10 11 12 13 14]]

取一列:
 [ 0  5 10 15]
取连续的多列:
 [[ 2  3  4]
 [ 7  8  9]
 [12 13 14]
 [17 18 19]]
取不连续的多列:
 [[ 0  2  4]
 [ 5  7  9]
 [10 12 14]
 [15 17 19]]
取多行和多列，取第2行到4行，第2列到第4列
取的是交叉点的位置
[[ 6  7  8]
 [11 12 13]
 [16 17 18]]
取多个不相邻的点
[ 1 13]

[ 1 13]
[[ 5  6  7  8  9]
 [15 16 17 18 19]]
[[ 0  3]
 [ 5  8]
 [10 13]
 [15 18]]

numpy中数值的修改

修改行列的值，很容易实现，若想把数组中小于10的数字替换成3呢？

import numpy as np

t1 = np.arange(20).reshape(4, 5)
print('输出原t1\n', t1)
#输出行列<10的bool值
print('t1<10的bool值\n',t1<10)
#将<10的数字替换为3
t1[t1<10]=3
print('将<10的数字替换为3\n',t1)
#查看值>18的
print('查看值>18的\n',t1[t1>18])
#将>18的替换为100
t1[t1>18]=100
print('将>18的替换为100后\n',t1)

t1[:,2:4]=0
print(t1)

运行结果：

输出原t1
 [[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]
t1<10的bool值
 [[ True  True  True  True  True]
 [ True  True  True  True  True]
 [False False False False False]
 [False False False False False]]
将<10的数字替换为3
 [[ 3  3  3  3  3]
 [ 3  3  3  3  3]
 [10 11 12 13 14]
 [15 16 17 18 19]]
查看值>18的
 [19]
将>18的替换为100后
 [[  3   3   3   3   3]
 [  3   3   3   3   3]
 [ 10  11  12  13  14]
 [ 15  16  17  18 100]]

[[  3   3   0   0   3]
 [  3   3   0   0   3]
 [ 10  11   0   0  14]
 [ 15  16   0   0 100]]

numpy中布尔索引

若想把数组中小于10的数字替换为0，把大于10的替换为10，如何做？

import numpy as np

t1 = np.arange(20).reshape(4, 5)
print(t1)
print()
#小于10的替换为10，大于15的替换为15
t1 = t1.clip(10, 15)
print(t1)
print()
#小于10的替换为100，大于10的替换为300
t1 = np.where(t1 < 11, 100, 300)
print(t1)

运行结果：

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]]

[[10 10 10 10 10]
 [10 10 10 10 10]
 [10 11 12 13 14]
 [15 15 15 15 15]]

[[100 100 100 100 100]
 [100 100 100 100 100]
 [100 300 300 300 300]
 [300 300 300 300 300]]

numpy中的nan和常用方法

两个nan是不相等的

	np.nan == np.nan
	#结果是False

	np.nan != np.nan #为True

根据以上特性，判断数组中nan的个数

	np.count_nonzero(t != t)

通过np.isnan(a)判断一个数字是否是nan，返回bool类型。比如希望把nan替换为0

	np.isnan(t)
	t[np.isnan(t)] = 0

nan和任何值计算都为nan
以下是代码案例

	import numpy as np

	t = np.array([1., 2., 3.])
    t[0] = np.nan
    print(t)
    print('判断数组中nan的个数',np.count_nonzero(t != t))
    print('判断一个数字是否是nan',np.isnan(t))
    print('根据返回bool类型，希望将nan替换为0')
    t[np.isnan(t)] = 0
    print(t)

运行结果：

	[nan  2.  3.]
	判断数组中nan的个数 1
	判断一个数字是否是nan [ True False False]
	根据返回bool类型，希望将nan替换为0
	[0. 2. 3.]

案例将数组中nan替换为该列的均值

#将数组中的nan替换为该列的均值
import numpy as np

def fill_ndarray(t1):
    for i in range(t1.shape[1]):  # 遍历每一列
        temp_col = t1[:, i]  # 当前的一列
        #np.count_nonzero 判断数组中nan的个数
        nan_num = np.count_nonzero(temp_col != temp_col)
        if nan_num != 0:  # 不为0，说明当前这一列有nan
            temp_not_nan_col = temp_col[temp_col == temp_col]
            # 选中当前为nan的位置，把值赋值为不为nan的均值
            #判断一个数字是否为nan，通过np.isnan()来判断，通过布尔类型，比如希望nan替换为0
            temp_col[np.isnan(temp_col)] = temp_not_nan_col.mean()
    return t1

if __name__ == '__main__':
    t1 = np.arange(12).reshape(3, 4).astype('float')
    t1[1, 2:] = np.nan
    print(t1)
    print()
    t1 = fill_ndarray(t1)
    print(t1)

运行结果：

[[ 0.  1.  2.  3.]
 [ 4.  5. nan nan]
 [ 8.  9. 10. 11.]]

[[ 0.  1.  2.  3.]
 [ 4.  5.  6.  7.]
 [ 8.  9. 10. 11.]]

numpy中常用的统计函数

常用的统计函数
求和	t.sum(axis=None)
均值	t.mean(a,axis=None) 受离群点的影响较大
中值	np.median(t.axis=None)
最大值	t.max(axis=None)
最小值	t.min(axis=None)
极值	np.ptp(t,axis=None) 即最大值和最小值之差
标准差	t.std(axis=None)
	默认返回多维数组的全部的统计结果，若指定axis，则返回一个当前轴上的结果

numpy小小结

切片和索引
选择行	t[2]
	t[3:,:]
选择列	t[:,4:]
选择行列	连续的多行 t[2:,:3]
	不连续的t[[1,3],[2,4]]选择的是(1,2),(3,4)两个位置的值
索引	t[2,3]
赋值	t[2:,3]=3
布尔索引	t[t>10]=10
三元运算符	np.where(t>10,20,0)
	把t中大于10的替换为20，其他的替换为0
裁剪	t.clip(10,20)
	把小于10的替换为10，大于20的替换为20
转置	t.T
	t.transpose()
	t.swapaxes(1,0)
读取本地文件	np.loadtxt(file,path,delimiter,dtype)
nan和inf
inf	表示无穷
nan	不是一个数字
	np.nan != np.nan
	np.count_nonzero(np.nan != np.nan)
	np.isnan(t1)效果和np.nan != np.nan相同

数组的拼接

import numpy as np

t1 = np.arange(0, 12).reshape(2, 6)
t2 = np.arange(12, 24).reshape(2, 6)
#竖直拼接
t = np.vstack((t1, t2))
print('竖直拼接\n',t)
#水平拼接
t=np.hstack((t1,t2))
print('水平拼接\n',t)

运行结果：

竖直拼接
 [[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]
 [12 13 14 15 16 17]
 [18 19 20 21 22 23]]
水平拼接
 [[ 0  1  2  3  4  5 12 13 14 15 16 17]
 [ 6  7  8  9 10 11 18 19 20 21 22 23]]

数组的行列交换

import numpy as np

# 数组的行列交换
t = np.arange(12, 24).reshape(3, 4)
print(t)
print('行交换')
t[[1, 2], :] = t[[2, 1], :]
print(t)

print('列交换')
t[:, [0, 2]] = t[:, [2, 0]]
print(t)

运行结果:

[[12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]]
行交换
[[12 13 14 15]
 [20 21 22 23]
 [16 17 18 19]]
列交换
[[14 13 12 15]
 [22 21 20 23]
 [18 17 16 19]]

numpy一些好用的方法

获取最大值最小值的位置

	np.argmax(t,axis=0)
	np.argmin(t,axis=1)

创建一个全0的数组

	np.zeros((3,4))

创建一个全1的数组

	np.ones((3,4))

创建一个对角线为1的正方形数组(矩阵)

	np.eye(3)

numpy生成随机数

参数	解释
.rand(d0,d1,…,dn)	创建d0-dn维度的均匀分布的随机数数组，浮点数，范围从0-1
.randn(d0,d1,…,dn)	创建d0-dn维度的标准正态分布的随机数，浮点数，平均数0，标准差1
.randint(low,high,(shape))	从给定上下范围选取随机数整数，范围是low,high,形状是shape
.uniform(low,high,(size))	产生具有均匀分布的数组，low起始值，high结束值，size形状
.normal(loc,scale,(size))	从指定正态分布中随机抽取样本，分布中心是loc（概率分布的均值),标准差是scale,形状是size
.seed(s)	随机数种子，s是给定的种子值。因为计算生成的是伪随机数，所以通过设定相同的随机数种子，可以每次生成相同的随机数

pandas

为什么学习pandas

numpy能够处理数据，可以结合matplotlib解决数据分析的问题，那么学习pandas的目的是？
numpy能够帮助我们处理数值型数据，但很多时候，数据除了数值之外，还有字符串，时间序列等。

numpy能够处理数值，但是pandas除了处理数值之外的(基于numpy),还能处理其它类型的数据

pandas的常用数据类型

Series 一维，带标签数组
DataFrame 二维，Series容器

pandas之Series创建

代码演示

import pandas as pd

#通过列表或可迭代对象创建Series
t = pd.Series([1, 23, 22, 2, 0], index=list('abcde'))
print(t)
# 通过字典创建Series，索引就是字典的键
print('\n通过字典创建:')
temp_dict = {'name': '张三', 'gender': '男', 'age': 15}
t3 = pd.Series(temp_dict)
print(t3)

print('Series切片和索引')
#切片：直接传入start end 或者步长即可
#索引：一个的时候直接传入序号或者index，多个的时候传入序号或index的列表
print("t3['name']:",t3['name'])
print("t3['gender']:",t3['gender'])
print("t3['age']: ",t3['age'])
print("t3[0]: ",t3[0])
print("t3[1]: ",t3[1])
print("t3[2]: ",t3[2])
print('取前两行\n',t3[:2])
print('取不连续的\n',t3[[1,2]])
print('取不连续的\n',t3[['gender','age']])
#Series对象本质由两个数组构成
#一个数组构成对象的键(index,索引)，一个数组构成对象的值(values)，键->值
print(t3.index,'---',type(t3.index))
print(t3.values,'---',type(t3.values))
# ndarray的很多方法都可以运用于series类型，比如argmax，clip
#Series具有where方法，但结果和ndarray不同

运行结果：

a     1
b    23
c    22
d     2
e     0
dtype: int64

通过字典创建:
name      张三
gender     男
age       15
dtype: object
Series切片和索引
t3['name']: 张三
t3['gender']: 男
t3['age']:  15
t3[0]:  张三
t3[1]:  男
t3[2]:  15
取前两行
 name      张三
gender     男
dtype: object
取不连续的
 gender     男
age       15
dtype: object
取不连续的
 gender     男
age       15
dtype: object
Index(['name', 'gender', 'age'], dtype='object') --- <class 'pandas.core.indexes.base.Index'>
['张三' '男' 15] --- <class 'numpy.ndarray'>

pandas之读取外部数据

数据存储在csv中，直接使用pd.read_csv即可
pd.read_sql(sql_sentence,connection)读取数据库数据

pandas之DataFrame

DataFrame对象既有行索引，又有列索引
行索引：表明不同行，横向索引，叫index，0轴，axis=0
列索引：表明不同列，纵向索引，叫columns，1轴，axis=1
代码演示：

import pandas as pd
import numpy as np

t = pd.DataFrame(np.arange(12).reshape(3,4))
print(t)
print('-'*30)
t1 = pd.DataFrame(np.arange(12).reshape(3,4),index=list('abc'),columns=list("WXYZ"))
print(t1)

运行结果：

   0  1   2   3
0  0  1   2   3
1  4  5   6   7
2  8  9  10  11
------------------------------
   W  X   Y   Z
a  0  1   2   3
b  4  5   6   7
c  8  9  10  11

DataFrame的基本属性

df.shape	行数、列数
df.dtypes	列数据类型
df.ndim	数据维度
df.index	行索引
df.columns	列索引
df.values	对象值，二维ndarray数组

DataFrame整体情况查询

df.head(3)	显示头部几行，默认5行
df.tail(3)	显示末尾几行，默认5行
df.info()	相关信息概览：行数、列数、列索引、列非空值个数、列类型、内存占用
df.describe()	快速综合统计结果：计数、均值、标准差、最大值、四分位数、最小值
df.sort_values(by=‘XX’,ascending=False)

DataFrame的索引

pandas取行和列的注意点
方括号写数，表示取行，对行进行操作df[:20]
写字符串，表示取列索引，具体要选择某一列对列进行操作df['列索引']
若同时选择行和列，df[:100]['列索引']

pandas之Ioc和iloc

df.loc通过标签索引行数据
df.iloc通过位置获取行数据
具体见代码演示：

import numpy as np
import pandas as pd

t3=pd.DataFrame(np.arange(12).reshape(3,4),
                index=list("abc"),columns=list("WXYZ"))
print('t3：')
print(t3)

#逗号前表示行，逗号后表示列
print('1.',)
#表示取a行Z列
print(t3.loc['a','Z'])
#查看类型
print(type(t3.loc['a','Z']),end='\n\n')
#取第a行，t3.loc['a']等价于t3.loc['a',:]
print('2.')
t = t3.loc['a']
print(t)
print()
print("t3.loc['a']的类型",type(t),end='\n\n')
#取Y这一列
t = t3.loc[:,"Y"]
print('Y：')
print(t)
#取多行 eg：取a行和c行 t3.loc[['a','c']]等价于t3.loc[['a','c'],:]
t = t3.loc[['a','c']]
print('取a行和c行')
print(t)
#取多列 取W和Z列
t=t3.loc[:,['W','Z']]
print('取W和Z列')
print(t)
#取间隔的多行多列
t=t3.loc[['a','b'],['W','Z']]
print('取间隔的多行多列')
print(t)
#冒号在loc里面是闭合的
# 即会选择到冒号后面的数据
t=t3.loc['a':'c',['W','Z']]
print('：选取多行')
print(t)
#通过位置获取行数据 等价于.iloc[1,:]
t=t3.iloc[1]
print('取第二行')
print(t)

t=t3.iloc[:,2]
print('取第3列')
print(t)
#取多列
t=t3.iloc[:,[2,1]]
print('取多列')
print(t)
t=t3.iloc[[0,2],[2,1]]
print(t)
print('取连续多行')
t=t3.iloc[1:,:2]
print(t)
print('赋值更改数据')
t3.iloc[1:,:2]=30
print(t3)
print('赋值为nan')
t3.iloc[1:,:2]=np.nan
print(t3)

运行结果：

t3：
   W  X   Y   Z
a  0  1   2   3
b  4  5   6   7
c  8  9  10  11
1.
3
<class 'numpy.int32'>

2.
W    0
X    1
Y    2
Z    3
Name: a, dtype: int32

t3.loc['a']的类型 <class 'pandas.core.series.Series'>

Y：
a     2
b     6
c    10
Name: Y, dtype: int32
取a行和c行
   W  X   Y   Z
a  0  1   2   3
c  8  9  10  11
取W和Z列
   W   Z
a  0   3
b  4   7
c  8  11
取间隔的多行多列
   W  Z
a  0  3
b  4  7
：选取多行
   W   Z
a  0   3
b  4   7
c  8  11
取第二行
W    4
X    5
Y    6
Z    7
Name: b, dtype: int32
取第3列
a     2
b     6
c    10
Name: Y, dtype: int32
取多列
    Y  X
a   2  1
b   6  5
c  10  9
    Y  X
a   2  1
c  10  9
取连续多行
   W  X
b  4  5
c  8  9
赋值更改数据
    W   X   Y   Z
a   0   1   2   3
b  30  30   6   7
c  30  30  10  11
赋值为nan
     W    X   Y   Z
a  0.0  1.0   2   3
b  NaN  NaN   6   7
c  NaN  NaN  10  11

pandas之布尔索引

假设有一列代表狗的名字，取这一列次数超过800的狗的名字
df=pd.read_csv(“file_path.csv”)

df[df["列名']>800]

假设要选择使用次数超过700并且名字的字符串长度大于4的狗的名字，应如何写？

df[(df["相应列"].str.len()>4) &  (df["列名']>700)]

不同的条件之间需要括号括起来

& 且
| 或

pandas之字符串方法

方法	说明
cat	实现元素级的字符串连接操作，可指定分隔符
contains	返回表示各字符串是否含有指定模式的布尔型数组
count	模式的出现次数
endswith，startswith	相当于对各个元素执行x.endswith(pattern)或x.startswith(pattern)
findall	计算各字符串的模式列表
get	获取各元素的第i个字符
join	根据指定的分隔符将Series中各元素的字符串连接起来
len	计算各字符串的长度
lower，upper	转换大小写，相当于对各个元素执行x.lower()或x.upper()
match	根据指定的正则表达式对各个元素执行re.match
pad	在字符串的左边、右边或左右两边添加空白符
center	相当于pad(side=‘both’)
repeat	重复值。eg：s.str.repeat(3)相当于对各个字符串执行x*3
replace	用指定字符串替换找到的模式
slice	对Series中的哥哥字符串进行子串截取
split	根据分隔符或正则表达式对字符串进行拆分。eg:`df["列名"].str.split("/").tolist()`
strip,rstrip,lstrip	去除空白符，包括换行符。相当于对各个元素执行x.strip,x.rstrip,x.lstrip

缺失数据的处理

数据缺失通常有两种情况

一种就是空，None等，在pandas是NaN(和np.nan一样)
另一种，让其为0

在pandas中处理NaN数据非常容易

判断数据是否是NaN	pd.isnull(t)是就返回True,pd.notnull(t)不是就返回True
处理方式	删除NaN所在的行列：`dropna(axis=0,how='any',inplace=False)`
	填充数据：`t.fillna(t.mean())` ,`t.fillna(t.median())`,`t.fillna(0)`
处理为0的数据	t[t==0]=np.nan
	并非每次为0的数据都需要处理
	计算平均值等情况，nan是不参与计算的但是0会

数据的合并和分组聚合

数据合并之join

join默认情况下是把行索引相同的数据合并到一起

代码演示：

import numpy as np
import pandas as pd

df1 = pd.DataFrame(np.ones((2, 4)), index=['A', 'B'], columns=list("abcd"))
print('输出df1')
print(df1)
df2=pd.DataFrame(np.zeros((3,3)),index=['A','B','C'],columns=list('xyz'))
print('输出df2    ')
print(df2)
print('输出df1 join df2')
print(df1.join(df2))
print('输出df2 join df1')
print(df2.join(df1))

运行结果：

输出df1
     a    b    c    d
A  1.0  1.0  1.0  1.0
B  1.0  1.0  1.0  1.0
输出df2    
     x    y    z
A  0.0  0.0  0.0
B  0.0  0.0  0.0
C  0.0  0.0  0.0
输出df1 join df2
     a    b    c    d    x    y    z
A  1.0  1.0  1.0  1.0  0.0  0.0  0.0
B  1.0  1.0  1.0  1.0  0.0  0.0  0.0
输出df2 join df1
     x    y    z    a    b    c    d
A  0.0  0.0  0.0  1.0  1.0  1.0  1.0
B  0.0  0.0  0.0  1.0  1.0  1.0  1.0
C  0.0  0.0  0.0  NaN  NaN  NaN  NaN

数据合并之merge

merge按照指定的列把数据按照一定的方式合并到一起
默认的合并方式：inner 交集
merge outer NaN补全并集
merge left 左边为准 NaN补全
merge right 右边为准 NaN补全

分组与聚合

在pandas中类似的分组的操作：

#grouped是一个DataFrameGroupBy对象，是可迭代的
#grouped中的每一个元素是一个元组
#元组里面是(索引(分组的值)，分组之后的DataFrame)
grouped=df.groupby(by="columns_name")
grouped.count()
grouped["columns_name"].count()

DataFrameGroupBy对象有很多经过优化的方法

函数名	说明
count	分组中非NA值的数量
sum	非NA值的和
mean	非NA值的平均值
median	非NA值的算术中位数
std，var	无偏（分母为n-1）标准差和方差
min,max	非NA值的最小值和最大值
假设按照国家和省份这两列进行分组统计

grouped = df.groupby(by=[df["country"],df["state/province"]])

假设只希望对获取分组之后的某一部分数据，或者只希望对某几列数据进行分组

#获取分组之后的某一部分数据
df.groupy(by=["country","state/province"])["country"].count()
#对某几列数据进行分组 
df["country"].groupby(by=[df["country"],df["state/province"]]).count()

以上学习内容来自B站

你可能感兴趣的:(python,matplotlib,数据分析)

Python快速使用js接口程序媛小本 python javascript udp
在跨语言编程和Web开发中，Python和JavaScript是两种常用的编程语言。有时候，我们可能需要在Python环境中执行JavaScript代码。这就是execjs库发挥作用的地方。一、安装ExecJS在命令行中输入以下命令：pipinstallPyExecJS二、ExecJS的基本使用ExecJS支持多种JavaScript运行时环境，包括Node.js、SpiderMonkey、Web
Python设计模式详解之5 —— 原型模式拾工 Python设计模式 python 设计模式
Prototype设计模式是一种创建型设计模式，它通过复制已有的实例来创建新对象，而不是通过从头实例化。这种模式非常适合对象的创建成本较高或者需要避免复杂的构造过程时使用。Prototype模式提供了一种通过克隆来快速创建对象的方式。1.Prototype模式简介Prototype模式通过定义一个接口来克隆自身，使得客户端代码可以通过复制原型来创建新对象。Python中，Prototype模式可以
Python中的23种设计模式：详细分类与总结拾工 Python设计模式软件设计设计模式
设计模式是解决特定问题的通用方法，分为创建型模式、结构型模式和行为型模式三大类。以下是对每种模式的详细介绍，包括其核心思想、应用场景和优缺点。一、创建型模式（CreationalPatterns）创建型模式关注对象的创建，旨在解耦对象的创建过程，提高灵活性和可扩展性。1.单例模式（Singleton）核心思想：确保一个类只有一个实例，并提供全局访问点。应用场景：数据库连接、配置管理器、日志记录器。
华为OD机试E卷 -最长方连续方波信号（Java & Python& JS & C++ & C ）算法大师最新华为OD机试华为od java python javascript c语言华为od机考e卷
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述输入一串方波信号，求取最长的完全连续交替方波信号，并将其输出，如果有相同长度的交替方波信号，输出任一即可。方波信号高位用1标识，低位用0标识。说明：一个完整的信号一定以0开始然后以0结尾，即010是一个完整信号，但101，1010，0101不是输入的一串方波信号是由一个或多个完整信号组成两个相邻信号之间可能有0个或多个
「Py」进阶语法篇之 Python中的异常捕获与处理何曾参静谧「Py」Python程序设计 python 数据库开发语言
✨博客主页何曾参静谧的博客（✅关注、点赞、⭐收藏、转发）全部专栏（专栏会有变化，以最新发布为准）「Win」Windows程序设计「IDE」集成开发环境「UG/NX」BlockUI集合「C/C++」C/C++程序设计「DSA」数据结构与算法「UG/NX」NX二次开发「QT」QT5程序设计「File」数据文件格式「UG/NX」NX定制开发「Py」Python程序设计「Math」探秘数学世界「PK」Pa
AI Agent的记忆系统实现：从短期对话到长期知识技术出海录人工智能 AI ai agent
在上一篇文章中，我们搭建了AIAgent的基础框架。今天，我想深入讲讲AIAgent最核心的部分之一：记忆系统。说实话，我在实现记忆系统时走了不少弯路，希望通过这篇文章，能帮大家少走一些弯路。从一个bug说起还记得在开发知识助手的过程中，我遇到了一个很有意思的问题。一天我正在测试多轮对话功能：我：Python的装饰器是什么？助手：装饰器是Python中用于修改函数或类行为的一种设计模式...（省略
python如何在一个类里面调用另一个类里面的东西 xiamu_CDA python 开发语言
Python高手必备：轻松实现在一个类里调用另一个类的方法和属性Python是一门强大且灵活的编程语言，它的面向对象特性使得开发者可以轻松地组织和管理代码。然而，在实际开发过程中，我们经常会遇到这样一个问题：如何在一个类里面调用另一个类里面的东西？这看似简单的问题背后其实涉及到了许多面向对象编程的核心概念。本文将深入探讨这个问题，并提供几种实现方法，帮助你更好地理解和应用Python的类。为什么需
spss因子分析过程中，旋转载荷平方和累积有点低咋办怎么调整 xiamu_CDA python
SPSS因子分析过程中，旋转载荷平方和累积有点低咋办？怎么调整？在数据分析领域，因子分析是一项重要的统计技术，尤其在心理学、社会学、市场营销等领域中应用广泛。它通过将多个变量简化为少数几个潜在因子，帮助研究者理解变量之间的内在结构。然而，在实际操作过程中，我们常常会遇到一些棘手的问题，比如旋转载荷平方和累积值偏低。这不仅会影响模型的解释力，还可能导致研究结果的可靠性大打折扣。那么，当我们在使用SP
python给PDF添加水印 icon920 java pdf
#添加水印fromPyPDF2importPdfReader,PdfWriterfromcopyimportcopysy=PdfReader("C:\\test\\watermark.pdf")＃水印所在位置mark_page=sy.pages[0]#水印所在的页数#读取添加水印的文件file_reader=PdfReader("C:\\test\\PDF.pdf")#需要添加水印的PDFfile
使用python对pdf批量添加水印，并且水印字体，大小，位置，旋转角度都是可以调节不懂python不懂R python python pdf
1.使用python对pdf批量添加水印，并且水印字体，大小，位置，旋转角度都是可以调节的importosfromPyPDF2importPdfReader,PdfWriterfromreportlab.pdfgenimportcanvasfromreportlab.lib.pagesizesimportletterfromreportlab.lib.colorsimportColordefcre
Python批量为PDF添加水印：让你的文件瞬间高大上！码无止尽 Python办公自动化 python pdf
嗨，各位可爱的小伙伴们！小编在此奉上今天的超级干货：如何用Python给一大堆PDF文件添加水印。请放心，这不是在交朋友圈秀操作，而是有实际需求的哦！有时候我们需要在PDF文件上添加水印，比如“草稿”、“保密”、“审阅”等标识，来提醒自己或他人。今天就让我来教你如何用Python轻松搞定这件事！首先，让我给你看一下大致的实现思路，然后再附上实际代码。实现思路1、首先，我们需要一个PDF处理的Pyt
构建自动化网页内容监控系统：使用Python 爱你不会累
本文还有配套的精品资源，点击获取简介：网页监控更新工具是一个由Python开发的软件，用于检测和记录网页内容的变化。该工具利用Python在Web抓取和数据分析方面的优势，包括利用requests,BeautifulSoup,lxml,和diff-match-patch等库来获取网页内容、解析HTML文档及计算文本差异。工具支持在Windows7及Python2.7.3环境下运行，并允许用户设定监
python监控网页更新_【小白教程】Python3监控网页 weixin_39553904 python监控网页更新
之前用RSS来监控网页更新内容，可惜刷新时间太长了，三个小时。。只能看看新闻啥的，又没有小钱钱充会员（摊手听说Python可以做这个功能，抱着试试看的态度，本以为会很麻烦，没想到这么简单哈哈~我从来没有用过Python都做出来了，相信你也没问题！（我真是纯小白，路过的大佬请指教（⊙ｏ⊙）ノ）所用模块#监控模块fromurllibimportrequestfrombs4importBeautiful
python鸢尾花数据集knn_【python+机器学习1】python 实现 KNN weixin_39629269 python鸢尾花数据集knn
欢迎关注哈希大数据微信公众号【哈希大数据】1KNN算法基本介绍K-NearestNeighbor(k最邻近分类算法)，简称KNN，是最简单的一种有监督的机器学习算法。也是一种懒惰学习算法，即开始训练仅仅是保存所有样本集的信息，直到测试样本到达才开始进行分类决策。KNN算法的核心思想：要想确定测试样本属于哪一类，就先寻找所有训练样本中与该测试样本“距离”最近的前K个样本，然后判断这K个样本中大部分所
实时监控网页变化，并增加多种提示信息安替-AnTi 自动化工具 linux 运维服务器监控网页变化
文章目录python代码实现优势手动部署下载源码安装依赖初次登录设置Docker部署设置监控chromeJS插件实现插件1背景介绍使用方法插件2参考文献通过订阅本篇文章，您可以实现在任意打开网页情况下，监控网页内指定内容或者全部内容的变化，变化的内容、时间点可以通过邮箱、微信等方式进行提醒。使用场景可以用来监控足球比赛的赔率、京东商品库存、价格等因素，并且可以为订阅用户添加各种定制化的服务。如在订
用python监控网页某个位置的值的变化老光私享 python 开发语言爬虫
可以使用Python的第三方库来监控网页上某个位置的值的变化。一种方法是使用BeautifulSoup库来爬取网页并解析HTML/XML。然后，您可以使用正则表达式或其他方法来提取所需信息。另一种方法是使用Selenium库来模拟浏览器行为，并使用JavaScript来获取网页上的信息。下面是一个使用BeautifulSoup的例子：importrequestsfrombs4importBeaut
python向pdf添加水印 ChenWenKen Python应用 python 前端
fromtypingimportUnion,Tuplefromreportlab.libimportunitsfromreportlab.pdfgenimportcanvasfromreportlab.pdfbaseimportpdfmetricsfromreportlab.pdfbase.ttfontsimportTTFontpdfmetrics.registerFont(TTFont('msy
mysql之group by语句程序研 mysql mysql 数据库
MySQL的GROUPBY语句详细介绍在MySQL数据库中，GROUPBY子句用于将查询结果按照一个或多个列进行分组。这在数据分析和报表生成中非常有用，因为它允许我们对数据进行汇总和聚合，从而提取有价值的信息。本文将详细介绍GROUPBY语句的用法、注意事项以及通过多个代码例子来演示其功能。1.基本概念GROUPBY子句通常与聚合函数（如COUNT、SUM、AVG、MAX、MIN等）一起使用，以便
python笔记（3）(re库和pandas库) Techer_Y 笔记
参考链接：Python正则表达式|菜鸟教程(runoob.com)1、re库，python正则表达式正则表达式是一个特殊的字符序列它能帮助你检查一个字符串是否与某种模式匹配。re模块使python语言拥有全部的正则表达式功能。re.match尝试从字符串起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。re.match(pattern,string,flags=0)
Python PDF添加水印 lxccc9 python 笔记
PDF添加水印加载模块：fromPyPDF2importPdfFileReader,PdfFileWriterimportosPDF添加水印：watermark_pdf=PdfFileReader('./tests/watermark.pdf')#读取第一页watermark=watermark_pdf.getPage(0)#读取需要加水印的pdf文件input_pdf=PdfFileReader
用Python写前端 eternity_ld 前端 python 开发语言
分享一个让开发交互式Webapp超级简单的工具。不会HTML，CSS，JAVASCRIPT也没事。交互式Webapp非常实用，比如说做一个问卷调查页面、一个投票系统、一个信息收集表单，上传文件等等，因为网页是可视化的，因此还可以作为一个没有服务端的图片界面应用程序而使用。如果你有这样的开发需求，那用Python真的是太简单了。借助于PyWebIO（pipinstallpywebio），你可以分分钟
使用python做出一只懒羊羊大G哥 python 开发语言
今天使用Python的Turtle库做出一只懒羊羊PythonTurtle库功能与用途一、绘图基础功能Turtle库提供了一种简单易用的方式来进行图形绘制。通过控制屏幕上的海龟指针移动来完成线条和形状的创建。可以设置画笔的颜色、大小以及方向等属性，从而实现多样化的视觉效果。importturtlet=turtle.Turtle()t.forward(100)#向前走100像素距离t.right(9
【全栈】SprintBoot+vue3迷你商城-扩展：vue3项目创建及目录介绍杰九 vue.js javascript 前端 spring boot
【全栈】SprintBoot+vue3迷你商城-扩展：vue3项目创建及目录介绍往期的文章都在这里啦，大家有兴趣可以看一下【全栈】SprintBoot+vue3迷你商城（1）【全栈】SprintBoot+vue3迷你商城（2）【全栈】SprintBoot+vue3迷你商城-扩展：利用python爬虫爬取商品数据【全栈】SprintBoot+vue3迷你商城（3）【全栈】SprintBoot+vue
【算法】动态规划：从斐波那契数列到背包问题杰九优质文章算法动态规划
【算法】动态规划：从斐波那契数列到背包问题文章目录【算法】动态规划：从斐波那契数列到背包问题1.斐波那契数列2.爬楼梯3.零钱转换Python代码4.零钱兑换II5.组合数dp和排列数dp6.为什么动态规划的核心思想计算组合数的正确方法代码实现为什么先遍历硬币再遍历金额可以计算组合数详细解释举例说明最终结果具体组合情况为什么有效7.背包问题01背包问题定义完全背包问题定义示例为什么需要倒序遍历8.
通过Python为PDF添加图片水印 nini！ pdf python vscode 安全
前言之前介绍了如何通过Python向PDF添加文本水印。事实上，添加图片水印也同样实用。例如将公司或产品logo添加到文档中，从而提升品牌效应或防止他人随意盗用。或者将图片插入到文档中以注明文档用处或状态。与文本水印类似，添加图片水印时，也可以设置添加单个图片水印或者多个重复水印。下面是以Python平台为例，为PDF添加图片水印的方法介绍。所需工具VisualStudioCodeSpire.PD
用Java提取Word文档表格数据
Word文档作为一种广泛使用的文件格式，常常承载着丰富的表格信息，这些信息可能涉及到财务报表、项目规划、实验数据记录等多方面内容。将这些表格数据提取出来，能够方便进行数据分析以及内容再创作等场景。通过使用Java实现Word文档表格数据的提取，可以确保数据处理的一致性和准确性，同时大大减少所需的时间和成本。本文将介绍如何使用Java提取Word文档中的表格数据。用Java提取Word文档表格到文本
282道Python面试八股文（答案、分析和深入提问）整理 ocean2103 面试题 python 面试开发语言
1.请解释Python中的模块和包。回答在Python中，模块和包是组织代码的重要工具，它们有助于代码的重用和结构化。模块(Module)模块是一个包含Python代码的文件，通常以.py作为文件扩展名。模块可以定义函数、类和变量，也可以包含可执行的代码。通过模块，可以将相关的功能分组到一个文件中，从而使得代码更加结构化和可维护。创建和使用模块创建模块：你可以创建一个Python文件（例如mymo
【Pip】深入理解 `requirements.txt` 文件：Python 项目依赖管理的核心工具丶2136 #pip pip python
目录引言1.什么是`requirements.txt`？2.创建`requirements.txt`文件2.1手动创建2.2使用`pipfreeze`命令2.3使用`pipreqs`生成2.4使用`pipenv`或`poetry`3.安装依赖4.版本管理与更新4.1版本管理的最佳实践5.依赖关系的管理5.1使用`pip-tools`5.2使用虚拟环境5.3使用Docker5.4`requireme
数字孪生技术：虚拟与现实的完美融合 Echo_Wish Python进阶 python 人工智能深度学习虚拟现实
在现代技术飞速发展的时代，数字孪生技术（DigitalTwin）逐渐成为工业、医疗、城市规划等领域的重要工具。通过数字孪生技术，我们可以创建一个与现实世界对象高度一致的虚拟模型，从而实现对现实对象的监测、分析和优化。本文将深入探讨数字孪生技术的原理、应用场景，并结合Python代码示例，展示如何实现一个简单的数字孪生应用。一、数字孪生技术的基本概念数字孪生技术是指利用传感器、物联网（IoT）、大数
python 查询sqlserver 视图_SQL Server 2017 数据库教与学（教学大纲，含Python+SQL Server案例）... weixin_39724748 python 查询sqlserver 视图
原标题：SQLServer2017数据库教与学(教学大纲，含Python+SQLServer案例)本书提供Python+SQLServer案例SQLServer教学大纲一、课程的性质和教学目的课程性质：数据库技术是各类信息系统、管理系统的基础。SQLServer数据库是微软公司的一款数据库产品，它被广泛应用到各大软件公司。本课程适合在计算机专业、非计算机专业但需要数据库辅助科研的理工科专业。教学目
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要

python数据分析学习笔记之matplotlib、numpy、pandas

数据分析

matplotlib

为什么要学习matplotlib

什么是matplotlib

折线图

直方图

条形图

散点图

matplotlib基本要点

演示matplotlib简单的使用

案例存在以下几个问题

根据每分钟气温变化绘制折线图

在上题基础上添加描述信息

案例绘制11到30岁看书数量折线图

案例绘制自己和同桌两人的看书数量折线图

自定义绘制图形风格

matplotlib绘制散点图

散点图应用场景

绘制条形图

绘制竖条形图

绘制横条形图

绘制三天数据条形图

条形图应用场景

绘制直方图

直方图应用场景

matplotlib浅浅总结

numpy

为什么学习numpy

什么是numpy

Numpy下载与安装

numpy ndarray对象

numpy创建数组(矩阵)

数组的形状与修改

轴(axis)

numpy读取数据

numpy中的转置

numpy索引和切片

numpy中数值的修改

numpy中布尔索引

numpy中的nan和常用方法

案例 将数组中nan替换为该列的均值

numpy中常用的统计函数

numpy小小结

数组的拼接

数组的行列交换

numpy一些好用的方法

numpy生成随机数

pandas

为什么学习pandas

pandas的常用数据类型

pandas之Series创建

pandas之读取外部数据

pandas之DataFrame

DataFrame的基本属性

DataFrame整体情况查询

DataFrame的索引

pandas之Ioc和iloc

pandas之布尔索引

pandas之字符串方法

缺失数据的处理

数据的合并和分组聚合

数据合并之join

数据合并之merge

分组与聚合

你可能感兴趣的:(python,matplotlib,数据分析)

案例将数组中nan替换为该列的均值