-韵

python数据分析入门详解！！！非常详细！！！

python数据分析可视化

python内存管理方式：基于值的内存管理

一.体验Numpy(数值计算)多维数组对象

numpy实现数组相加

import numpy as np
def plus(n):
    a = np.arange(1, n+1) ** 3
    b = np.arange(1,n+1) ** 2
    return a+b
print(plus(3))

1.1创建数组的方法

a = np.array([1,2,3])

a = np.arange(1,6)

array的属性

shape：返回一个元组，表示array的维度（几行几列）

ndim：返回一个数字，表示维度数

size：返回一个数字，表示数组中所欲数据元素的数目

dtype：返回数组中的数据类型

1.1.1arange创建数字序列

np.arange([开始,]结束[,步长],dtype=‘’)

eg. a = np.arange(1,10,2)=>[1 3 5 7 9]

a = np.array(range(1,10,2),dtype=‘int64’)=>[1 3 5 7 9]

1.1.2使用ones创建全1的数组

np.ones(shape,dtype=None,order=‘C’)//默认C语言

eg. a = np.ones((2,1))=>[[1.]
[1.]]

a = np.ones(3)=>[1,1,1,]

np.zeros()创建全0的数组

np.full(shape,fill_value,dtype,order)

eg. np.full(3,520)=>[520,520,520]

1.1.3创建形状相同的数组

np.ones_like(array):创建和arrays形状相同的全为1的数组

eg.

a = np.array([[1,2,3],[4,5,6]])
b = np.ones_like(a)

1.1.4使用random生成随机数组

np.random.rand()生成随机数，传1个数就是一维，2个数就是二维，…

eg.a = np.random.rand(3) =>[0.24580567 0.38861566 0.42000963]

b = np.random.rand(2,3) =>[[…,[…,…],[…,…,…]]

1.2多维数组

a = np.array([[1,2,3],[4,5,6]])

a.shape=>(2,3)二行三列的数组

三维数组（a,b,c）a块，b行，c列的数组

eg. a = np.ones((2,3,4))=>a.ndim=>3

1.2.1reshape不改值修改形状

a = np.arange(10).reshape(2,5)

将一维数组[0,1,2,3,4,5,6,7,8,9]转换为二维数组[[0,1,2,3,4],[5,6,7,8,9]]

1.2.2数组计算

a+1:数组中每个数加1

形状一样的数组：a+b:对应位置的数字相加

a(2,5)-b(1,5):将数组b看成一个两行相同数字的二维数组

a(2,5)-b(2,1):将数组b看成一个五列相同数字的二维数组

1.2.3广播原则

若两数组后缘维度相同，则可以将两个数组加减乘除

eg.(2,3)和)(3,); (3,4,2)和(4,2)

若两数组维度相同，则可以相加减(注:b的维度和a相同，但b的后缘维度不能超过a的后缘维度)

eg.(4,3)和(4,1)

eg.(3,2,2)和(2,4)不可以相加减

1.3基础索引

切片语法：序列[开始下标：结束下标：步长]（不包括结束下标的数据）

eg. a = np.arange(10)

索引：a[5]=>5

切片：a[3:9]=>[3,4,5,6,7,8]

二维数组

import numpy as np
a = np.random.rand(20).reshape(4,5)
print(a)#四行五列的数组
print("-------------------")
print(a[-1])#二维数组的最后一行
print("-------------------")
print(a[0:-1])#二维数组除最后一行以外的其他行
print("-------------------")
print(a[0:2])#二维数组的0，1行
print("-------------------")
print(a[0:2,1:3])#二维数组的0，1行的1，2列

1.4布尔索引

一维数组：数组01化处理

import numpy as np
array = np.arange(10)
array[array<5]=0#小于5的数字为0
array[array>=5]=1#大于等于5的数字为1
print(array)

二维数组：把所有行的第三列变为520

import numpy as np
array = np.arange(1,21).reshape(4,5)
array[:,3]=520#所有行的第三列
print(array)

1.5神奇索引

一维数组

import numpy as np
array = np.arange(10)
print(array[[2,3,5]])

"[[]]"代表索引下标

二维数组

import numpy as np
array = np.arange(20).reshape(4,5)
print(array[[1,2]])#1，2行的数据

"[[]]"代表行下标

import numpy as np
array = np.arange(20).reshape(4,5)
print(array[[1,2],[4,3]])#取第一行第四列，第二行第三列

import numpy as np
array = np.arange(20).reshape(4,5)
print(array[:,[1,2]])#所有行的1，2列

import numpy as np
a = np.arange(30);
array = np.arange(20).reshape(4,5)
print(a)
print("--------------")
print(array)
print("--------------")
print(a[array])#一维数组无法按照切片拿出二维数组，所以结果是二维数字本身

二.Numpy的轴

1.一维数组：shape（4，）：一个0轴

2.二维数组：shape（2，3）：两个轴，行为0，列为1

3.三维数组：shape（4，3，2）：三个轴，块为0，行为1，列为2

2.1沿轴切片

a[] = [[1,2,3],[4,5,6],[7,8,9]]

1.一个参数

print(a[:2]):第一个参数代表0轴，所以:2表示0轴，表示这个切片在二维维度上切的

2.两个参数

print(a[:2,1:]):第一个参数表示0轴，即0行到1行；第二个参数表示列，即1列到末尾

2.2传入轴编号

数组转置：a.transpose()

轴转置：a.swapaxes(1,0)//将数组0，1轴转置，即将数组转置

三.常用random随机函数

4.1seed

import random
random.seed(100)#添加种子后，随机数不变
print(random.random())#随机生成0-1之间的浮点数
print(random.random())

4.2rand

rand返回【0，1】之间

import numpy as np;
print(np.random.rand(3))
print(np.random.rand(2,3))#返回2行3列的随机数组（0-1）
print(np.random.rand(2,3,4))

4.3randn返回标准正态分布随机数（浮点数）

randn返回标准正态分布N（0，1），即平均数0，方差1

4.4randint返回随机整数

import  numpy as np
a = np.random.randint(3)
print(f"返回0-3之间的随机整数:{a}")
b = np.random.randint(1,3)
print(f"返回1-3之间的随机整数:{b}")
c = np.random.randint(1,10,size=(5,))
print(f"返回1-10之间5个随机数生成一维数组:\n{c}")
d = np.random.randint(1,20,size=(3,2))
print(f"返回1-20之间的随机数，生成2行三列二维数组:\n{d}")

4.5random

random生成0.0-1.0的随机数

import  numpy as np
a = np.random.random(3)
print(f"生成3个随机数:{a}")
b = np.random.random(size=(2,3))
print(f"生成随机二维数组2行3列:{b}")

4.5choice从一维数组中生成随机数

第一个参数是一个一维数组，一个数可看成range（）

第二个参数是维度和元素个数

import  numpy as np
a = np.random.choice(5,2)
print(f"随机从range(5)中取2个数:{a}")
b = np.random.choice(5,(3,2))
print(f"随机从range(5)中取数得出2行3列数组:\n{b}")
c = np.random.choice([1,2,3,4,5,6,7,8,9],(3,4))
print(f"随机从数组中选取随机数，得到3行4列数组:\n{c}")

4.6shuffle把一个数进行随机排列

import numpy as np
b = np.arange(20).reshape(4,5)
print(b)
print("对数组进行随机排列")
np.random.shuffle(b)
print(b)

二维数组：将行重新随机排列，不改变列

三维数组：按块重新随机排序

4.7permutation

与shuffle功能一样

import numpy as np
print(np.arange(10))
print("随机排序后")
print(np.random.permutation(10))#10相当于range（10）

注：与shuffle不一样的是：随机排序后，permutation不改变原数组

4.8normal

normal生成正态分布数字，normal【平均值，方差，size（维度）】

4.9uniform均匀分布

np.random.uniform(1,10,10)：1到10之间生成随机10个数

五.通用函数

一元通用函数

sqrt（）：返回平方根

exp（）：e的x次方

import numpy as np
a = np.arange(10)
print(a)
print("-----------")
print(np.sqrt(a))#每个元素的平方根
print("-------------")
print(np.exp(a))#每个元素的e的x次方

二元通用函数：两个数组求返回值

np.add(a,b)//对位相加

六.数学和统计方法

prod：所有元素的乘积

mean：数学平均

average：加权平均

std，var：标准差和方差

argmin：最小值的位置

cumsum：从0开始元素的累加

cumprod：从1开始元素的累积

percemtile：0-100百分位数

quantile：0-1分位数

6.1平均数，加权平均，中位数，众数

中位数：所有观察值高低排序找出中间值

加权平均：将各个数乘以相对于的权术，求和得到总体值，再除以总数

6.2一维数组

import numpy as np
a = np.array([0,1,4,2,5,6,8,4,10,3,23,44,56])
print(a)
print("-------------")
print(np.sum(a))
print("-------------")
print(np.prod(a))#乘法
print("-------------")
print(np.cumsum(a))
print("-------------")
print(np.cumprod(a))
print("-------------")
print(np.max(a))
print("-------------")
print(np.argmax(a))
print("-------------")
print(np.mean(a))#平均数
print("-------------")
print(np.median(a))#中位数
print("-------------")
print(np.average(a))#加权平均
print("-------------")
# 众数
counts = np.bincount(a)#统计非负整数个数，不统计浮点数
print(np.argmax(counts))#此方法不能用于二维数组

6.2二维数组

import numpy as np
array = np.array([[1,2,3],[4,5,6]])
print(array)
print("---------------------")
print(np.sum(array))
print("---------------------")
print(np.cumsum(array))#返回一维数组
print("---------------------")
print(np.cumprod(array))
print("---------------------")
print(np.max(array))
print("---------------------")
print(np.argmax(array))
print("---------------------")
print(np.mean(array))
print("---------------------")
print(np.median(array))
print("---------------------")
print(np.average(array))

6.3axis参数

axis=0：行

axis=1：列

import numpy as np
array = np.array([[1,2,3],[4,5,6]])
print(array)
print("---------------------")
# 按照行计算
print(np.sum(array,axis=0))#各行对位相加
# 按照列
print(np.sum(array,axis=1))

6.4数组中满足条件个数的计算

6.4.1将条件逻辑作为数组操作

import numpy as np
array = np.array([[1,2,3],[4,5,6]])
print(array)
print("---------------------")
# 大于3
print(array[array>3])
# 大于3的改为520.小于3的改为1314
print(np.where(array>3,520,1314))

6.4布尔数值

any：检查数组中是否至少有一个true

all：检查数组中是否每个值都是true

import numpy as np
array = np.array([True,True,False,True])
print(array)
print("---------------------")
print(array.any())#true
print(array.all())#false

6.5按值大小排序

一维数组：a.sort()

二维数组：np.sort(a)#默认按最后的轴排序（列）

np.sort(a,axis=0)#按照行排序（竖着排）

6.6从大到小的索引

一维数组

import numpy as np
a = np.array([16,2,7])
print(a)
print("--------------")
b = np.argsort(a)#升序，返回一组索引值
print(b)
print("--------------")
print(a[b])#数组升序
c = np.argsort(-a)#降序
print(c)
print("--------------")
print(a[c])

二维数组

import numpy as np
a = np.array([[1,4,2],[49,3,22]])
print(a)
b = np.argsort(a)#默认按最后的轴（列）排序
print("-----------")
print(b)

6.7根据键值的字典序进行排序

6.8唯一值和其他集合逻辑unique和in1d

unqiue：去重复

import numpy as np
a = np.array(["张三","赵四","王五","赵六","张三","赵武"])
print(np.unique(a))

in1d：检查一个数组中的值是否在另一个数组中

import numpy as np
a = np.array(["张三","赵四","王五","赵六","张三","赵武"])
print(np.in1d(a,["赵四","王五"]))
#[False  True  True False False False]

七.浅拷贝与深拷贝

浅拷贝

a = b：不能这样赋值，因为a和b互相影响，在内存里a变了b也会变化

a = b[:]：视图操作，会创建新的对象a，但是a的数据完全由b保管，他们两个数据变化一致

深拷贝

a = b.copy()：复制，相当于新开辟了一个空间保存b（a改变不影响b）

八.数据类型与新建文件

数据类型--------------------新建文件·

csv，txt pd.to_csv

excel pd.to_excel

sql pd.to_sql

import pandas as pd
url='e:/pandas/a.xlsx'
# 二维数据表
data = pd.DataFrame({'序号':[1,2,3],'姓名':['张三','李四','王五']})
# 设置索引列
data.set_index('序号')
data.to_excel(url)
print("新建a文件成功")

8.1读取txt与csv文件

read_csv：默认逗号做空格符

read_table：默认制表符做空格符，如果需要改变需要指定sep=‘,’

data.head()：默认显示前5行数据，第一行做表头（共6行）

data.dtypes()：返回数据类型

表头默认第一行，如果没有表头，header=None,names设置每一列的列名作为表头

index_col：设置索引列

skiprows：设置跳过的行

encoding：设置文本编码

nrows：显示几行

将文件先读取后转换：

import pandas as pd
url = 'e:/SpringBoot.txt'
data = pd.read_csv(url)
# 将txt文件转换为csv文件
data.to_csv('e:/SpringBoot.csv')
print(data)

8.2读取sql文件

import pandas as pd
import pymysql
# 连接对象
connect = pymysql.connect(host="localhost",user="root",password="123456",database="stc")
# 读取文件
data = pd.read_sql("select * from student",con=connect)
print(data)

8.3读取与修改excel文件

import pandas as pd
url = 'e:/pandas/a.xlsx'
data = pd.read_excel(url,index_col='序号')
print(data)

九.数据结构

DataFrame（df）:二维数据，df.index:索引列；df.columns:列名

Series：一维数据（一行或一列）

9.1Series

字典

import pandas as pd
# 用字典创建Series,以字典的键作索引
dic = {'姓名':'张三','性别':'男','年龄':20}
data = pd.Series(dic)
print(data)

多个列表

# 存放在多个列表
a = ['姓名','性别','年龄']
b = ['李四','男',30]
data = pd.Series(b,index=a)
print(data)

data.values:获取Series的值

data.sort_index():按照索引排序

data_sort_values(xxx):按照xxx排序

data.isnull():查看是否为空

data.notnull():判断是否不为空

9.2DataFrame

import pandas as pd
data = pd.DataFrame([[1,2,4],[6,4,5],[7,8,9]],columns=['a','b','c'])#columns设置列标签
print(data['a'][0])#a列0行
print(data.loc[0]['a'])#loc按照行列标签名称查询
print(data.iloc[0][0])#按照行列标签的位置查询
print(data[['a','b']])#查询a，b列数据

字典

import pandas as pd
# 字典创建表格
dic = {'姓名':['张三','赵丽','王五'],
       '性别':['男','女','男'],
       '年龄':[20,19,10]
       }
data = pd.DataFrame(dic)
print(data)
# 数据类型
print(data.dtypes)
# 列索引
print(data.columns)
# 索引
print(data.index)
# 查询某一列
print(data['姓名'])
# 查尊某一行数据
print(data.loc[0])
# 查询某一个数据
print(data.iloc[0][0])
# 查询多行
print(data.loc[0:3])

多个列表

import pandas as pd
a = pd.Series(['张三','李四','赵六'],index=[1,2,3],name='姓名')
b = pd.Series(['男','男','男'],index=[1,2,3],name='性别')
c = pd.Series([20,11,19],index=[1,2,3],name='年龄')
table = pd.DataFrame({a.name:a,b.name:b,c.name:c})
print(table)

data.head():查看前几行

data.tail():查看后几行

data.values:查看表的值

data.shape:查看表的形状

data.fillna():将空值替换为某个值

data.replace(a,b):将a替换为b

data.reset_index(drop=True):删除索引列

data.rest_index(drop=False):索引列会被还原为普通列

十.连接查询

10.1Merge(字段名)

import pandas as pd
import numpy as np
a = pd.DataFrame({'姓名':['张三','李四','王五','赵六'],'出手次数1':np.arange(4)})
b = pd.DataFrame({'姓名':['张三','李四','赵丽'],'出手次数2':[1,2,3]})
print(a)
print("---------------")
print(b)
# 连接,on表示连接的字段名，how表示连接的方式
#inner:内连接（默认）;left:左连接;right:右连接;outer:外连接
c = pd.merge(a,b,on='姓名',how='inner')
print("---------------")
print(c)

right_index:将右表的index作为连接键

left_on:左表对齐的列

suffix后缀参数：给每个表的重复列名增加后缀

suffix=[‘_l’,‘_r’]:左表重复列名后加’_l‘，右表加’_r’

10.2join

a.join(b)

（建议使用merge）

10.3concat(轴)

np中使用concatenate

import numpy as np
arr = np.arange(9).reshape(3,3)
print(arr)
print("------------")
# 按行合并
arr1 = np.concatenate([arr,arr],axis=0)
print(arr1)
print("------------")
# 按列合并
arr2 = np.concatenate([arr,arr],axis=1)
print(arr2)

pd中使用concat

import pandas as pd
a1 = pd.Series(['A','B','C','D'],index=[1,2,3,4])
a2 = pd.Series(['D','E'],index=[5,6])
print(a1)
print("-----------------")
print(a2)
print("-----------------")
# 默认按行连接
a3 = pd.concat([a1,a2])
print(a3)

如果将axis=1

#axis=1时，生成DataFrame表格,列名为0和1（两张表拼接）
print(pd.concat([a1,a2],axis=1))

10.3.1首尾相接

1.相同字段的表首尾相接

#concat默认首尾相接

pd.concat([a,b]);

2.在相接时加上一个层次的key来识别数据源来自于哪张表

import pandas as pd
a1 = pd.Series(['A','B','C','D'],index=[1,2,3,4])
a2 = pd.Series(['D','E'],index=[5,6])
a3 = pd.concat([a1,a2],keys=['X','Y'])
print(a3)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nyVmSmXQ-1663477585896)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220905121426297.png)]

10.3.2横向表拼接

1.axis=1为行对齐

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-V4OnLFb3-1663477585898)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220905121820959.png)]

2.join参数

join=inner：得到两张表的交集

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-o9BWV6cZ-1663477585899)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220905122343033.png)]

join=outer：得到两张表的并集

3.join_axes

join_axes的参数可以指定根据哪个轴来对齐数据，保留指定表的轴

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-afLUdHci-1663477585900)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220905123239813.png)]

10.3.3append

默认按行追加(Series和DataFrame中的方法)

df1.append(df2)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-otYvrY5J-1663477585901)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220905123431313.png)]

10.3.4无视index的concat

如果两个表的index都没有实际含义，使用ignore_index的参数，置true，合并的两个表就是根据列字段对齐，然后合并，最后重新整理一个新的index

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-geAqJF5r-1663477585901)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220905124039226.png)]

10.3.5合并的同时增加区分数据组的键

1.可以直接用key参数实现

a3 = pd.concat([a1,a2],keys=[‘X’,‘Y’])

2、传入字典来增加分组键

pieces = {'X':a1,'Y':a2}
print(pd.concat(pieces))

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-btirKnvs-1663477585902)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220905124558427.png)]

10.3.6在dataframe中加入新的行

append方法，将参数ignore_index=True

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6GF6UykF-1663477585902)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220905125149225.png)]

10.3.7表格列字段不同的表合并

ignore_index=True

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EahVBDfV-1663477585903)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220905125627224.png)]

十一.填充数据

1.skiprows:跳过几行

usecols:和Excel一样，选定的列区域

2.数据.at：获取某个位置的值，数据.at[0,‘a’]，相当于index=0，columns=‘a’

import pandas as pd
import datetime as dt

#累加月函数
def plusdd(dd, i):
   y = i // 12
   m = dd.month + i % 12
   if m != 12:
      y = y + m // 12
      m = m % 12
   return dt.date(y + dd.year, m, dd.day)


url = 'e:/pandas/b.xlsx'
# 设置跳过前几行，并取中间几列
data = pd.read_excel(url,skiprows=7,usecols='F:I',dtype={'序号':str,'姓名':str,'年龄':str})
# 起始日期
start = dt.date(2022,9,16)
#循环设置添加值
for i in data.index:
   data['序号'].at[i] = i+1
   data['年龄'].at[i] = 20 if i%2==0 else 19
   # 累加日
   data['日期'].at[i] = start+dt.timedelta(days=i)
   # 累加年
   # data['日期'].at[i] = dt.date(start.year+i,start.month,start.day)
   # 累加月
   data['日期'].at[i] =plusdd(start,i)
# 注：索引不可以直接修改
# 不使用新的索引，直接在原先的上修改
data.set_index('序号',inplace=True)
data.to_excel(url)
print(data)

十二.数据

12.1列与列之间的计算

import pandas as pd
url = "e:/pandas/d.xlsx"
data = pd.read_excel(url,index_col='序号')
# 计算销售金额
data['销售金额'] = data["单价"]*data["销售数量"]
# 单价涨价,苹果涨两元
data['涨价'] = data["商品名称"].apply(lambda x:2 if x == '苹果' else 0)
data["最终单价"] = data["单价"]+data["涨价"]
data["名称字数"] = data["商品名称"].apply(len)
print(data)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HkrJwUQO-1663477585903)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220906161404248.png)]

apply函数

import pandas as pd
import numpy as np
arr = [
    [1,2,3],
    [4,5,6],
    [7,8,9]
]
data = pd.DataFrame(arr,columns=list("xyz"),index=list("abc"))
# 将数据全部平方
data = data.apply(np.square)
# 对y，z列平方
data2 = data.apply(lambda m:np.square(m) if m.name in ['y','z'] else m)
# 对每行进行计算,axis设置为1轴
data3 = data.apply(lambda m:np.square(m) if m.name == 'a' else m,axis=1)
print(data)
print("-------------")
print(data2)
print("-------------")
print(data3)

计算间隔

import pandas as pd
url = "e:/pandas/e.xlsx"
data = pd.read_excel(url,index_col="序号")
gap = data['结束日期'] - data['开始日期']
data['间隔'] = gap.apply(lambda x:x.days)
print(data)

12.2数据排序

单个数据排序

import pandas as pd
url = "e:/pandas/f.xlsx"
data = pd.read_excel(url,index_col='序号')
# by:通过什么字段进行排序；ascending:True表示升序；inplace:True修改原始数据,False:data数据未修改,data2是排序后的结果
data2 = data.sort_values(by='语文',inplace=False,ascending=True)
print(data)
print("-----------")
print(data2)

多个数据排序

data2 = data.sort_values(by=['语文','数学'],inplace=False,ascending=[True,False])

按索引进行排序

import pandas as pd
url = "e:/pandas/f.xlsx"
data = pd.read_excel(url,index_col='序号')
data.sort_index(inplace=True)
print(data)

注：按行进行排序，axis=1（1轴）

12.3数据查询

import pandas as pd
url = "e:/pandas/f.xlsx"
data = pd.read_excel(url,index_col='序号')
data.sort_index(inplace=True)
# loc按照行列标签名查询
print(data.loc[1:3,'数学':'英语'])
print("-------------")
# 查询语文及格，数学不及格的人
print(data.loc[(data['语文']>=60)&(data['数学']<60)])
print("------------")
# 新增一列’称呼‘，如果为男则为’先生‘，否则为’女士‘
data.loc[data['性别']=='男','称呼'] = '先生'
data.loc[data['性别']=='女','称呼'] = '女士'
print(data)

12.4筛选

import pandas as pd
url = 'e:/pandas/f.xlsx'
data = pd.read_excel(url,index_col='序号')
print(data)
print("----------")
# 筛选性别为男
con = data['性别']=='男'
print(data[con])
print("----------")
# 性别为男并且语文及格的(条件为字符串)
con2 = "性别 == '男' and 语文>=60"
print(data.query(con2))
print("----------")
# 姓名为张三或赵丽
con3 = "姓名 in ['张三','赵丽']"
print(data.query(con3))

12.4.1文本筛选

startswith,contains

import pandas as pd
url = 'e:/pandas/f.xlsx'
data = pd.read_excel(url,index_col='序号')
print(data)
print("----------")
# startswith筛选开头
#筛选姓张的
con = data['姓名'].str.startswith('张')
print(data[con])
print("-------------")
# 筛选名字中含“丽”的,contains,case匹配敏感度，默认为true（大小写区分）
con2 = data['姓名'].str.contains('丽')
print(data[con2])

12.4.2附：获取某个日期之前/后

dataframe的truncate()可以截取某个日期之前/后的数据，或某个日期区间

注：使用前需要先排序，将日期设置为索引

12.4.3日期筛选

import pandas as pd
url = 'e:/pandas/f.xlsx'
# 将出生日期设置为日期格式
data = pd.read_excel(url,index_col='出生日期',parse_dates=['出生日期'])
print(data)
print("----------")
# 筛选2020年5月出生的
print(data['2020-05'].head())
print("----------")
# 将日期排序
data.sort_values('出生日期',inplace=True)
# 查询2022年以前出生的
print(data.truncate(after='2022').head())
print("----------")
# 获取指定时间区间2020年到2022年
print(data['2020':'2022'])

多条件筛选

注：此时的出生日期不能为索引

import pandas as pd
url = 'e:/pandas/f.xlsx'
# 将出生日期设置为日期格式
data = pd.read_excel(url,index_col='序号',parse_dates=['出生日期'])
print(data)
print("----------")
con = (
    '@data.出生日期.dt.year > 2020 and'
    '@data.出生日期.dt.year < 2021'
    'and 性别=="男"'
)
print(data.query(con))

12.5数据删除

drop函数

url = "e:/pandas/f.xlsx"
data = pd.read_excel(url,index_col="序号")
# 删除序号为2的数据
print(data.drop(2,inplace=True))
# 删除一行和5行
print(data.drop(labels=[1,5]))
# 删除语文列
print(data.drop('语文',axis=1))

12.6处理缺失值

删除缺失值

import pandas as pd
url = "e:/pandas/g.xlsx"
data = pd.read_excel(url,index_col="序号")
print(data)
print("------------")
# 删除所有包含空值的行
print(data.dropna())
print("------------")
#删除所有包含空值的列
print(data.dropna(axis=1))
print("------------")
# 每一行中至少保留5个非空值
print(data.dropna(thresh=5))
print("------------")
# 从指定的列中删除有空值的行
print(data.dropna(subset=['语文','数学']))

填充缺失值

# 将所有空值替换为‘a’
print(data.fillna('a'))
# 将语文列的空值替换为C，数学为M，英语为E
print("------------")
print(data.fillna({'语文':'C','数学':'M','英语':'E'}))

填充方式

ffill：用前面的值填充

print(data.fillna(method="ffill"))

bfill：用后面的值填充

print(data.fillna(method="bfill"))

pad：向后填充

backfill：向前填充

注：如果轴变了，axis=1，左右代表前后，limit限制填充个数

12.7数学统计函数

# 数学统计函数
print(data.describe())

数学统计函数表

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OumVHeAs-1663477585904)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220908145157696.png)]

12.8删除重复和提取重复

重点方法：drop_duplicates

duplicated

# 去重
print(data['姓名'].unique())
# 统计出现次数
print(data['姓名'].value_counts())
print("---------------")
# 删除重复值：drop_duplicates
# subset:用来指定特定的列
# keep：指定处理重复值的方法：first：保留第一次出现的值；false：删除所有重复值
print(data.drop_duplicates(subset=['姓名'],keep='first'))
# 姓名列是否有重复的行：duplicated：true表示重复
print(data['姓名'].duplicated())
print("---------------")
# 利用布尔值获得重复的行
c = data['姓名'].duplicated()
print(data[c])

12.9算数运算与数据对齐

1.处理空值,0替换空值

result = data['1店'].fillna(0)+data['2店'].fillna(0)

result2 = data['1店'].add(data['2店'],fill_value=0)

2.处理无穷大

import pandas as pd
url = "e:/pandas/j.xlsx"
data = pd.read_excel(url)
# 除0得到无穷大
result2 = data['1店'].div(data['2店'],fill_value=0)
print(result2)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bQK5KfOs-1663477585904)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220908161201800.png)]

将无穷大看作缺失值

import pandas as pd
url = "e:/pandas/j.xlsx"
data = pd.read_excel(url)
# 将无穷大看作缺失值
pd.options.mode.use_inf_as_na = True
# 除0得到无穷大
result2 = data['1店'].div(data['2店'],fill_value=0)
print(result2.fillna(0))

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wQDaiauJ-1663477585905)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220908161427235.png)]

12.10多层索引与多层索引计算

import pandas as pd
url = "e:/pandas/k.xlsx"
# 设置索引
data = pd.read_excel(url,index_col=[0,1])
# 有序索引中:取1班的数据,:表示所有列，slice(None)表示所有行
data2 = data.loc[(1,slice(None)),:]
# 无序索引，必须先按照索引排序
print(data2)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TBTVGFXP-1663477585905)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220908163315471.png)]

12.10.1行索引

import pandas as pd
# 数组创建多层索引
aa = pd.MultiIndex.from_arrays([['a','a','b','b'],[1,2,1,2]],names=['x','y'])
print(aa)
# 元组创建多层索引
bb = pd.MultiIndex.from_tuples([('a',1),('a',2),('b',1),('b',2)],names=['A','B'])
print(bb)
# 笛卡尔积创建多层索引
cc = pd.MultiIndex.from_product([['a','b'],[1,2]],names=['M','N'])
print(cc)

12.10.2列索引

# 行索引
index = pd.MultiIndex.from_product([[2021,2022],[5,6]],names=['年','月'])
# 列索引
columns = pd.MultiIndex.from_product([['香蕉','苹果'],['土豆','茄子']],names=['水果','蔬菜'])
data = pd.DataFrame(np.random.rand(4,4),index=index,columns=columns)
print(data)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-kXmzo0Qx-1663477585906)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220908165318500.png)]

12.10.3分层索引计算

import pandas as pd
url = "e:/pandas/l.xlsx"
data = pd.read_excel(url,header=[0,1])
# 计算土豆和倭瓜的销量和毛利分别的和
result1 = data['土豆'] + data['倭瓜']
# 计算土豆和倭瓜的销量和
result2 = data[('土豆','销量')]+data[('倭瓜','销量')]
# 创建总计索引,得到销量和毛利分别的和
sum = data['土豆'] + data['倭瓜']
sum.columns = pd.MultiIndex.from_product([['合计'],sum.columns])
# 按列进行合并
data = pd.concat([data,sum],axis=1)
print(data)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-y5xZjYQO-1663477585906)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220908171223179.png)]

附：MultiIndex参数表

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SqGkO68f-1663477585907)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220908163216602.png)]

12.11数据替换

import pandas as pd
url = "e:/pandas/m.xlsx"
data = pd.read_excel(url)
# 替换数据
data['地区2'].replace('城八区','海淀区',inplace=True)
# 用字典替换多个值
dic = {'城八区':'CB','海淀区':'HD'}
data.replace(dic,inplace=True)
# 通过字符串修改
data['地区'] = data['地区'].str.replace('B','Q')
print(data)

12.12离散化和分箱

1.cut函数

pd.cut(x,bins,right=True,labels=None,retbins=False,precision=3

,include_lowest=False)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-UROlUNNk-1663477585907)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220908182908082.png)]

year = [1992,1981,1990,1997,1987]
pack = [1980,1990,2000]

result = pd.cut(year,pack)
print(result)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Uy918Mc1-1663477585907)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220908184505309.png)]

# 获得每个数字对应的箱号。1980-1990：0；1990-2000：1
result2 = pd.cut(year,pack,labels=False)
print(result2)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jFIEqdi3-1663477585908)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220908184555882.png)]

2.qcut

import pandas as pd
year = [1992,1981,1990,1997,1987,1994,1992.1976]
# q指定所分箱子的数量
result = pd.qcut(year,q=4)
print(result)

12.13字符串操作

字符串：不可变的序列

import pandas as pd
url = "e:/pandas/n.xlsx"
data = pd.read_excel(url)
# 将单位度去掉，并修改类型,replace替换函数
print(data['温度'].str.replace('℃','').astype('int64'))
# cat,拼接函数
print(data['姓名'].str.cat(sep=','))
# split,分割函数，可以指定分割次数n;expand默认false，true表示返回一个数据框（二维表）
print(data['状态'].str.split('血'))
# partition，按照指定的字符分割（只分割第一次出现的字符），将该字符的左右均分隔开，总共分割为三列
print(data['状态'].str.partition('血'))
# get,获得第几列数据
print(data['状态'].str.get(1))
# slice,切片[m:n]
print(data['状态'].str.slice(0,3))
# slice_replace,切片筛选之后替换
print(data['状态'].str.slice_replace(1,3,'20'))
# join,用指定字符连接
print(data['状态'].str.join('a'))
#contains,字符串是否包含某个字符
print(data['状态'].str.contains('血'))
# startswith,是否以某个字符开头;endswith,是否以某个字符结尾
print(data['状态'].str.startswith('满'))
print(data['状态'].str.endswith('活'))
# repeat,将字符串重复
print(data['姓名'].str.repeat(3))
# pad,用指定字符补齐位数,fillchar表示补齐的字符,side表示在哪一边补齐,both表示两端补齐
print(data['姓名'].str.pad(5,fillchar='&',side='both'))
# zfill,用0从左边补齐位数
print(data['姓名'].str.zfill(10))
# encode,编码;decode,解码
# strip.去除指定的字符串
print(data['状态'].str.strip('血复活销毁'))

get_dummies：按指定字符分割，并统计和他相近的字符

print(data['地区'].str.get_dummies('国'))

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RtsxuaI1-1663477585908)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220910151353481.png)]

translate：将指定的字符转换

dic = str.maketrans({'血':'xue','活':'huo'})
print(data['状态'].str.translate(dic))

find：查找指定字符的第一次出现的位置，若没有则返回-1

print(data['日期'].astype('str').str.find("-"))

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OPtCuvv4-1663477585909)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220910152644999.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wQRckeR8-1663477585909)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220910152606213.png)]

12.14正则表达式

match：是否匹配

print(data['状态'].str.match('.{2}复'))

extract：分组

# '()'表示分组
print(data['日期'].astype('str').str.extract('\d{4}-(\d{2})-(\d{2})'))

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zWkBPehV-1663477585910)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220910153743698.png)]

replace：替换

# 将年月日颠倒
print(data['日期'].astype('str').str.replace('(\d+)-(\d+)-(\d+)',r'\3/\2/\1'))

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dU3diNVg-1663477585910)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220910154359695.png)]

12.15Excel文件的拆分与合并

1.将一个文件夹下的几张表合并为一张表

import pandas as pd
import os
url = "e:/pandas/project/"
table = pd.DataFrame();
# 获得project目录下的文件
for i in os.listdir(url):
     t = pd.read_excel(url+i)
     # 合并表,设定表头
     table = pd.concat([table,t],header=1)
print(table)

2.将一张表的多个sheet合并,None：将所有表作为数据文件

import pandas as pd
import os
url = "e:/pandas/e.xlsx"
data = pd.read_excel(url,None)
table = pd.DataFrame();
# 获取列表的字段名
col = list(data.keys())
for i in col:
    newData = data[i]
    table = pd.concat([table,newData])
print(table)

3.将一个表拆封成多个sheet

import pandas as pd
url = "e:/pandas/n.xlsx"
data = pd.read_excel(url)
# 将姓名作为分割列
col = list(data['姓名'])
# 将新数据写到哪
newData = pd.ExcelWriter('e:/pandas/n2.xlsx');
for i in col:
    data1 = data[data['姓名'] == i]
    data1.to_excel(newData,sheet_name=i)
newData.save()
newData.close()

将一张表拆分成多个表

import pandas as pd
url = "e:/pandas/n.xlsx"
data = pd.read_excel(url)
# 将姓名作为分割列
col = list(data['姓名'])
for i in col:
    data1 = data[data['姓名'] == i]
    data1.to_excel('e:/pandas/'+i+'.xlsx')

12.16分组与聚合

1.groupby基础部分

groupby()：分组聚合（基于行）

# 按照城市，区分组，按照人数聚合，金额
data2 = data.groupby(['城市','区'])[['人数','金额']].sum()

agg：分组聚合（基于列）

dic = {'1月':'count','2月':sum,'3月':max}
data2 = data.groupby('店号').agg(dic)
print(data2)

2.分组对象和创建

isin():函数判断元素是否在该列表中

# 按照区是否在开发区，高新区中分组聚合
data2 = data.groupby(data.区.isin(['开发区','高新区']))[['人数','金额']].sum()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JGD4dKoS-1663477585911)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220912171820068.png)]

pipe:分组聚合

data2 = data.pipe(pd.DataFrame.groupby,'城市').sum()

12.17数据透视表

pivot_table()

# index:行标签，columns:添加下级分类，values:列表签，aggfunc:指定列上如何聚合,fillValue:填充缺失值，margin如果为true：添加行/列总和
data2 = pd.pivot_table(data,index=['城市','区'],values='人数',aggfunc=[sum,sum])

12.18vlookup

如何在pandas中实现excel的vlookup

(1)merge,loc实现

(2)删除drop再插入insert

import pandas as pd
url = "e:/pandas/p.xlsx"
data1 = pd.read_excel(url,sheet_name='花名册')
data2 = pd.read_excel(url,sheet_name='成绩单')
# 将两张表连接，以第一张表为基准,和第二张表的总分以及学号连接，按照左连接的方式以学号连接
result = pd.merge(data1,data2.loc[:,['学号','总分']],how='left',on='学号')
print(result)
# 将总分列插在学号之后
result2 = result['总分']
# 删除总分列
result=result.drop('总分',axis=1)
# 重新插入
result.insert(1,'总分',result2)
print(result)

12.19数据处理三板斧

1.map（单行单列）

import pandas as pd
url = "e:/pandas/g.xlsx"
data = pd.read_excel(url)
# map映射-字典
dic = {'男':'先生','女':'女士'}
data['性别']  = data['性别'].map(dic)
# map映射-函数
def rr(x):
    sex = '先生'if x== '男' else'女'
    return sex
data['性别'] = data['性别'].map(rr)
print(data)

2.apply：单行单列（多个数据）

import pandas as pd
url = "e:/pandas/g.xlsx"
data = pd.read_excel(url)
def modify(x,value):
    return x+value;
# 语文减3分
data['语文'] = data['语文'].apply(modify,args=(-3,))
print(data)

3.多行多列

data2 = data[['数学','语文','英语']].apply(sum,axis=0)

axis=0:按行相加，求汇总

12.20数据的转置，计算环与同比

1.转置

# 把数据进行转置：data.value.T,转置之后，行列互换
data2 = pd.DataFrame(data.values.T,index=data.columns,columns=data.index)

2.计算环比:上一列-下一列（a - a.shift()）

注：先排序分组再计算

import pandas as pd
url = "e:/pandas/k.xlsx"
data = pd.read_excel(url)
# 排序
data['score2'] = data.分数.shift()
# 环比 = score - score2
cir = data['score2'] - data['分数']
data['环比'] = cir;
print(data)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7vi9gVhb-1663477585911)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220912194338171.png)]

3.同比

第二年 - 第一年

同比率：（第二年-第一年）/第一年

十三.matplotlib

bar函数--------------条形图

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PR5z0nYx-1663477585911)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220914092532629.png)]

设置图例位置loc=

upper right
upper left
lower left
lower right
right
center left
center right
lower center
upper center
center

pie函数---------------饼图

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4sENxYXu-1663477585912)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220914111912211.png)]

plot函数------------折线图

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xcNtNk68-1663477585913)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220915141502893.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JLsSuCiF-1663477585913)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220915144011475.png)]

13.1柱状图

import pandas as pd
import matplotlib.pyplot as plt
url = "e:/pandas/r.xlsx"
# 设置中文字体,防止中午乱码font.sans-serif
plt.rcParams['font.sans-serif'] = ['SimHei']
# 设置负号axes.unicode_minus
plt.rcParams['axes.unicode_minus'] = False

data = pd.read_excel(url)
data.sort_values(by='第一年',inplace=True,ascending=False)

# 开始画图，x表示x轴,height表示条形的高度,label表示图例
plt.bar(x=data['姓名'],height=data['第一年'],label='第一年')

#设置标题,字号,粗体
plt.title("一年级学生第一年的成绩",fontsize=16,fontweight='bold')

# 设置行列标题
plt.xlabel('姓名')
plt.ylabel('第一年')

# 将x轴数字进行倾斜
# xticks设置或查询x轴刻度值
plt.xticks(data['姓名'],rotation=45)

# 设置y轴的范围
plt.ylim([-100,100])

# 显示图例,默认在右上角
plt.legend(loc="upper left")#设置在左上方

# 显示绘图
plt.show()

13.2条形图

import pandas as pd
import matplotlib.pyplot as plt
url = "e:/pandas/r.xlsx"
# 设置中文字体,防止中午乱码font.sans-serif
plt.rcParams['font.sans-serif'] = ['SimHei']

data = pd.read_excel(url)
data.sort_values(by='第一年',inplace=True,ascending=False)

# 画图,bottom表示条形图起始坐标（y轴起始坐标），width表示条形图长度,orientation表示垂直条还是水平条,alpha为透明度
plt.bar(x=0,bottom=data['姓名'],height=0.5,width=data['第一年'],color="green",orientation="horizontal",alpha=0.5)

# 设置行列标题
plt.xlabel("第一年")
plt.ylabel("姓名")

# 设置标题
plt.title("一年级学生的成绩",fontsize=16)

# 显示图像
plt.show()

13.3分组柱状图

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
url = "e:/pandas/r.xlsx"
data = pd.read_excel(url)
# 用黑体显示中文
plt.rcParams['font.sans-serif']= ['SimHei']
data.sort_values(by='第二年',inplace=True,ascending=False)
# 开始画图，bar
# x轴为姓名，第一个柱为第一年，红色显示，宽度为0.3
wid = 0.3
plt.bar(x=data.姓名,height=data.第一年,color="red",width=wid,label='第一年')#添加图例：第一年
# 第二个柱为第一年的柱下标加宽度
plt.bar(x=np.arange(len(data.姓名))+wid,height=data.第二年,color="blue",width=wid,label='第二年')

# 添加图例,默认右上角
plt.legend()

# 将底部轴文字斜体，对轴进行设置
plt.xticks(data['姓名'])
axis = plt.gca()#获取轴
axis.set_xticklabels(data['姓名'],rotation=45,ha="center")#从中心点旋转45度

# 将整个图进行操作
graph = plt.gcf()
graph.subplots_adjust(left=0.1,bottom=0.3)#距左边0.1,下边0.3
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3XK2vcuM-1663477585913)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220914085148743.png)]

添加数据标签

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-B0XJXTzY-1663477585914)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220914100138349.png)]

# 添加数据标签
for x,y1 in enumerate(data['第一年']):#enumerate枚举函数，添加索引,z为索引，y1为数据
    plt.text(x,y1/2,str(y1),fontsize=20,rotation=0,ha="center",va="center")#水平居中,垂直放在滑块的中间(高度的1/2)
for x,y2 in enumerate(data['第二年']):
    plt.text(x+wid,y2/2,str(y2),fontsize=20,rotation=0,ha="center",va="center")

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bwyo0DEo-1663477585915)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220914102601147.png)]

13.4叠加柱状图

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
url = "e:/pandas/r.xlsx"
data = pd.read_excel(url)

# 用黑体显示中文
plt.rcParams['font.sans-serif']= ['SimHei']

# 画图
plt.bar(np.arange(5),height=data['第一年'],color="red",label="第一年")
plt.bar(np.arange(5),height=data['第二年'],bottom=data['第一年'],color="green",label="第二年")#bottom实现叠加
plt.bar(np.arange(5),height=data['第三年'],bottom=data['第二年']+data['第一年'],color="blue",label="第三年")

# 设置x轴标签
plt.xticks(np.arange(5),data['姓名'])

# 设置图例,将默认三行设置为三列,向上居中
plt.legend(loc="upper center",ncol=3)

# 设置y轴刻度
plt.ylim([20,250])

# 添加网格线
#plt.grid()

# 添加数据标签
for x1,y1 in enumerate(data['第一年']):
    plt.text(x1,y1-10,str(y1),fontsize=16,ha="center")
for x2,y2 in enumerate(data['第二年']+data['第一年']):
    plt.text(x2,y2-10,str(y2),fontsize=16,ha="center")
for x3,y3 in enumerate(data['第三年']+data['第二年']+data['第一年']):
    plt.text(x3,y3-10,str(y3),fontsize=16,ha="center")
# 显示图像
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Eo0ZXLHr-1663477585915)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220914105554632.png)]

13.5叠加条形图

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
url = "e:/pandas/r.xlsx"
data = pd.read_excel(url)

# 用黑体显示中文
plt.rcParams['font.sans-serif']= ['SimHei']

# 画图
plt.bar(x=0,bottom=data['姓名'],height=0.5,width=data['第一年'],label="第一年",color="red",orientation="horizontal")
plt.bar(x=data['第一年'],bottom=data['姓名'],height=0.5,width=data['第二年'],label="第二年",color="green",orientation="horizontal")
plt.bar(x=data['第二年']+data['第一年'],bottom=data['姓名'],height=0.5,width=data['第三年'],label="第三年",color="blue",orientation="horizontal")

# 添加数据标签,注:x和y的位置互换
for x1,y1 in enumerate(data['第一年']):
    plt.text(y1-10,x1,str(y1),fontsize=16,rotation=0,va="center",ha="center")
for x2,y2 in enumerate(data['第二年']+data['第一年']):
    plt.text(y2-10,x2,str(y2),fontsize=16,rotation=0,va="center",ha="center")
for x3,y3 in enumerate(data['第一年']+data['第二年']+data['第三年']):
    plt.text(y3-10,x3,str(y3),fontsize=16,rotation=0,va="center",ha="center")

# 显示绘图
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IVXG3tZJ-1663477585916)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220914111533970.png)]

12.6饼图

import pandas as pd
import matplotlib.pyplot as plt
url = "e:/pandas/r2.xlsx"
data = pd.read_excel(url)

# 用黑体显示中文
plt.rcParams['font.sans-serif']= ['SimHei']

#画图,explode:逆时针设置块离开中心距离,autopct设置百分比,后面添加两个百分号,输出数据加百分号,若不加,则没有百分号,counterclock设置为false时,为顺时针,labeldistance为标签位置.默认1.1,缩小则可放进图中,radius为半径,pctdistance设置百分比位置,textprops设置文本，shadow设置为True时，显示阴影，可现实3d效果。
plt.pie(x=data['第一次'],labels=tuple(data['姓名']),explode=[0,0.2,0],colors=['r','g','b'],autopct="%.2f%%",counterclock=False,labeldistance=0.8,textprops={'fontsize':20,'color':'w'})

# 将饼图变成正圆
plt.axis("equal")

# 添加图例,bbox_to_anchor设置外边距,borderaxespad设置图例内边距
plt.legend(loc="upper right",fontsize=10,bbox_to_anchor=(1.1,1.05),borderaxespad=0.3,ncol=3)

# 保存图片，可通过dpi设置分辨率
plt.savefig(r"e:\pandas\饼图.jpg")

# 显示图像
plt.show()

12.7折线图

import pandas as pd
import matplotlib.pyplot as plt
url = "e:/pandas/r.xlsx"
data = pd.read_excel(url)

# 用黑体显示中文
plt.rcParams['font.sans-serif']= ['SimHei']

# 画图
plt.plot(data['姓名'],data['第一年'],color="r",marker="*",ms=10)#数据点为*，大小为10号
plt.plot(data['姓名'],data['第二年'],color="b",marker="o",ms=10)#数据点为*，大小为10号
plt.plot(data['姓名'],data['第三年'],color="g",marker="^",ms=10)#数据点为*，大小为10号

# 数据标签
for z in [data['第一年'],data['第二年'],data['第三年']]:
    for x,y in zip(data['姓名'],z):
        plt.text(x, y+1, str(y), va="center", ha="center", fontsize=10)
# 显示
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nrPQCp3T-1663477585917)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220915144100486.png)]

12.8平均线

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
url = "e:/pandas/s.xlsx"
data = pd.read_excel(url)

plt.rcParams['font.sans-serif'] = ['SimHei']#设置中文

# 画图
plt.bar(data['班级'],data['销量'],color="g",label="销量")

# 显示图例
plt.legend()

#平均线
avg = np.mean(data['销量'])
plt.axhline(y=avg,color='b',linestyle=":")#画线

# 显示
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-eH7y0YCX-1663477585917)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220915144505436.png)]

补充：

# 线段
plt.axhline(y=0.5,xmin=0.1,xmax=0.6,c='g')

# 填充
plt.axhspan(1,1.2,facecolor='g',alpha=0.4)#y轴从1到1.2

plt.axvspan(1,1.2,facecolor='b',alpha=0.5)#x轴从1到1.2

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0E8f8lTU-1663477585918)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220916082415452.png)]

设置x，y轴刻度

plt.axis([-1,2,1,4])#x[-1,2],y[1,4]

12.9画布以及子图

创建画布

import matplotlib.pyplot as plt
# 创建画布
#num显示画布名称,figsize显示画布大小（长宽）,dpi设置分辨率,facecolor设置背景色
back = plt.figure(num="信息",dpi=200,facecolor='g')

# 创建子图
one = back.add_subplot(1,2,1)#一行两列第一个图
two = back.add_subplot(1,2,2)

# 显示
plt.show()

创建子图

import matplotlib.pyplot as plt
import pandas as pd
url = "e:/pandas/r.xlsx"
data = pd.read_excel(url)

plt.rcParams['font.sans-serif'] = ['SimHei']

# 创建画布
back = plt.figure()

# 创建子图
one = back.add_subplot(2,2,1)#两行两列第一个图
two = back.add_subplot(2,2,2)
three = back.add_subplot(2,2,3)
# 在第三个图上创建一个折线图
plt.plot(data['姓名'],data['第一年'],color="g",marker="o",label="第一年")
four = back.add_subplot(2,2,4)
# 在第四个图上创建一个条形图
plt.bar(data['姓名'],data['第一年'],label="第一年",color="b",alpha=0.6)

# 显示
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5Q9rkNt5-1663477585918)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220915145821884.png)]

方法二

# 创建多个子图
img,back = plt.subplots(2,2)#布，图

one = back[0,0]
two = back[0,1]
three = back[1,0]
four = back[1,1]

one.bar(data['姓名'],data['第一年'],label="第一年",color="g")

four.pie(x=data['第二年'],labels=tuple(data['姓名']))

# 显示
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZoXLVfR8-1663477585919)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220915151231228.png)]

创建子区域

import matplotlib.pyplot as plt
import pandas as pd
url = "e:/pandas/r.xlsx"
data = pd.read_excel(url)

plt.rcParams['font.sans-serif'] = ['SimHei']

# 画布
back = plt.figure()

# 创建区域
left,bottom,width,height = 0.1,0.1,0.8,0.8
one = back.add_axes([left,bottom,width,height])#添加轴

# 画图
one.bar(data['姓名'],data['第一年'])
one.set_title('第一年数据')

# 创建子区域
left,bottom,width,height = 0.65,0.6,0.25,0.25
two = back.add_axes([left,bottom,width,height])

# 画图
two.pie(x=data['第二年'],labels=tuple(data['姓名']))

# 显示
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qaLSzJiA-1663477585919)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220915152402878.png)]

调整子图边框与间距

import matplotlib.pyplot as plt
img,back = plt.subplots(2,2)

# 调整子图间距,wspace是子图的宽，hspace是子图的高
img.subplots_adjust(wspace=0.5,hspace=0.3,left=0.125,right=0.9,bottom=0.1)

#或者
img.tight_layout()

plt.show()

12.10组合图

import pandas as pd
import matplotlib.pyplot as plt
url = "e:/pandas/r.xlsx"
data = pd.read_excel(url)

plt.rcParams['font.sans-serif'] = ['SimHei']

# 创建画布
back = plt.figure();

# 创建图
one = back.add_subplot(1,1,1)
one.bar(data['姓名'],data['第一年'],label='第一年',color='g')

#开启图例
plt.legend(loc="upper left")

# 设置y刻度
plt.ylim([0,100])

# 设置图二
two = one.twinx()
two.plot(data['姓名'],data['第二年'],color="r",label="第二年")

# 添加标签
for x,y in zip(data['姓名'],data['第二年']):
    plt.text(x,y+1,str(y),fontsize=10)

plt.legend(loc="upper right")

# 显示
plt.show()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-f6de75yW-1663477585920)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220915162522150.png)]

设置百分比

import matplotlib.ticker as ticker

# 设置百分比
per = ticker.PercentFormatter(1,2)#最大为100%，保留两位小数
two.yaxis.set_major_formatter(per)
two.set_ylim([0,1])

# 添加标签
for x,y in zip(data['姓名'],data['第二年']):
    plt.text(x,y+1,str(round(y*100,2)),fontsize=10)

12.11坐标轴上的日期格式

import pandas as pd
import matplotlib.pyplot as plt
url = "e:/pandas/t.xlsx"
data = pd.read_excel(url)

plt.rcParams['font.sans-serif'] = ['SimHei']

#修改日期格式strftime
date = [d.strftime('%m-%d') for d in data['日期']]

plt.plot(date,data['销量'],label='销量')

plt.xticks(date,rotation=45)

plt.show()

12.12散点图

scatter函数-----------散点图

import pandas as pd
import matplotlib.pyplot as plt
url = "e:/pandas/u.xlsx"
data = pd.read_excel(url)

plt.rcParams['font.sans-serif'] = ['SimHei']

# s表示散点的大小,设置为身高,表示身高越大,s的点越大,c设置点的颜色
plt.scatter(data['身高'],data['体重'],s=data['身高'],c=data['身高'],marker="x")# 颜色由身高决定
#设置颜色
plt.colorbar()

plt.show()

12.13直方图

hist函数---------直方图

import pandas as pd
import matplotlib.pyplot as plt
url = "e:/pandas/v.xlsx"
data = pd.read_excel(url)

plt.rcParams['font.sans-serif'] = ['SimHei']

# 绘制直方图,bins组数
plt.hist(data['身高'],bins=30,facecolor="g",edgecolor="w")

plt.show()

12.14坐标轴

import matplotlib.pyplot as plt
img,back = plt.subplots(1,1)

# 设置坐标轴的颜色,none表示不显示坐标轴
back.spines['left'].set_color('none')
back.spines['bottom'].set_color('none')
back.spines['right'].set_color('none')
back.spines['top'].set_color('none')

# 翻转x，y的刻度
plt.gca().invert_yaxis()
plt.gca().invert_xaxis()

# 刻度消失
plt.xticks([])
plt.yticks([])

# 
plt.show()

# 将x轴的第二个刻度单独设置
plt.gca().get_xticklabels()[1].set(c='r',fontsize=30)

#设置x,y的区间
plt.gca().set_xlim([0,10])
plt.gca().set_ylim([0,5])

# 设置下限
plt.gca().set_ylim(bottom=5)
plt.gca().set_xlim(left=5)

12.15叠加区域图

import pandas as pd
import matplotlib.pyplot as plt

url = "e:/pandas/r.xlsx"
data = pd.read_excel(url)

plt.rcParams['font.sans-serif'] = ['SimHei']

plt.plot(data['姓名'],data['第一年'])
plt.plot(data['姓名'],data['第三年'])

# 绘制覆盖区域,下限是0，上限是data['第一年']
plt.fill_between(data['姓名'],0,data['第一年'],facecolor='r',alpha=0.6)
plt.fill_between(data['姓名'],data['第一年'],data['第三年'],facecolor='b',alpha=0.6)

plt.show()

区域的高亮显示

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
x = np.arange(30)
y = np.random.rand(30)

plt.plot(x,y,color='g')

# 高亮显示
list = [[1,6],[10,15],[20,25],[26,28]]
for i in list:
    plt.fill_between(x[i[0]:i[1]],0,1,facecolor="g",alpha=0.6)

plt.show()

12.16极坐标

polar函数---------圆盘

import numpy as np
import matplotlib.pyplot as plt	
#极角,极径,ro表示红色的o标志
plt.polar(np.pi*0.25,20,"ro")
plt.ylim([0,100])
plt.show()

雷达图

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
url = "e:/pandas/z.xlsx"
data = pd.read_excel(url,index_col='姓名')

plt.rcParams['font.sans-serif'] = ['SimHei']

# 获得科目以及两个人的分数（首尾分数要相等）
one = "姓名=='A01'"
two = "姓名=='A02'"
a = data.query(one)['分数']
a = np.concatenate((a,[a[0]]))
b = data.query(two)['分数']
b = np.concatenate((b,[b[0]]))
c = data.query(one)['课程']
c = np.concatenate((c,[c[0]]))
print(a)

# 设置角度,linspace设置一维等差数列。endpoint设置为false时，不包含末尾值,len表示个数
angle = np.linspace(0,2*np.pi,len(a)-1,endpoint=False)
angle = np.concatenate((angle,[angle[0]]))
print(angle)

# 画图
back = plt.figure()
img = back.add_subplot(111,polar=True)#绘制圆盘

# 样式
plt.style.use("ggplot")

# 添加数据点,可以绘制折线图,o-可连接点
plt.plot(angle,a,"o-",label="A01同学",linewidth=2)
plt.plot(angle,b,"o-",label="A02同学",linewidth=2)

# 填充
plt.fill(angle,a,'b',alpha=0.25)
plt.fill(angle,b,'g',alpha=0.25)

# 标签
img.set_thetagrids(angle*180/np.pi,c)

# 显示图例
plt.legend()

plt.show()

补：创建子图标签

import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = ['SimHei']

back = plt.figure()

one = back.add_subplot(221)
two = back.add_subplot(222)
three = back.add_subplot(223)
four = back.add_subplot(224)

# 设置图上的标题
plt.suptitle('子图',fontsize=20,color='r')

# 设置标签,pad设置框的大小
dic = dict(facecolor='yellow',pad=5,alpha=0.2)
plt.xlabel('子图四',bbox=dic)

plt.show()

12.17交叉及填充

import matplotlib.pyplot as plt
import numpy as np
x = np.arange(0.0,2,0.01)
y1 = np.sin(2*np.pi*x)
y2 = 1.2*np.sin(4*np.pi*x)

img,back = plt.subplots()
back.plot(x,y1,x,y2,color='black')

# 交叉填充
back.fill_between(x,y1,y2,where=y2>y1,facecolor='g')#当y2>y2时
back.fill_between(x,y1,y2,where=y2<=y1,facecolor='b')

plt.show()

12.18文本注释

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-J0GVmQ3R-1663477585920)(C:\Users\DELL\AppData\Roaming\Typora\typora-user-images\image-20220916084810254.png)]

import matplotlib.pyplot as plt
plt.plot(['A','B','C'],[5,3,2],'ro-')

dic = dict(facecolor='g',shrink=0.1)#shrink越大，箭头尾巴越短
plt.annotate('aaa',xy=('B',3),xytext=('B',2.5),arrowprops=dic)#xy设置点的位置。xytext设置文本位置

plt.show()

# 设置边框
border=dict(boxstyle='sawtooth',fc='0.8',ec='r')#fc:facecolor设置北京灰度，ec设置边框颜色
plt.text('B',3,'aaa',bbox=border,size=20)

#设置箭头
dic = dict(arrowstyle="->",connectionstyle='angle')
plt.annotate('aaa',xy=('B',3),xytext=('C',5),arrowprops=dic)

12.19瀑布图

import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
url = "e:/pandas/z2.xlsx"
data = pd.read_excel(url)

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False;

# 制作瀑布图
list = np.arange(len(data['金额']),dtype=np.float64)# 拿到下标
dis = 0;#下面的距离
for i in data['金额'].index:
    x = list[i]
    y = data.金额[i]
    if y >=0 :
        盈利 = plt.bar(x,y, 0.8,align='center',bottom=dis,label='盈利',color='g')
    else:
        亏损 = plt.bar(x,y, 0.8,align='center',bottom=dis,label='亏损',color='r')
    dis+=y;

# 绘制网格线
plt.gca().yaxis.grid(True,linestyle='--',color='grey',alpha=0.25)

# x轴日期
date = [d.strftime('%m-%d') for d in data['日期']]
plt.xticks(np.arange(len(data['金额'])),date,rotation=45)

plt.show()

12.20树状图

安装模块squarify

import squarify
import matplotlib.pyplot as plt
import pandas as pd
url = "e:/pandas/z3.xlsx"
data = pd.read_excel(url)

plt.rcParams['font.sans-serif'] = ['SimHei']

# 绘制
colors = ['r','b','g','c','m','y']# 颜色
img = squarify.plot(sizes=data['销售数量'],label=data['名称'],color=colors,value=data['销售数量'],edgecolor='white',linewidth=3)#sizes关键字（决定方块大小）。label标签名称,value代表标签值

# 去掉坐标轴
plt.axis('off')

# 标题
img.set_title('销售情况')
plt.show()

12.21玫瑰图

import numpy as np
import squarify
import matplotlib.pyplot as plt
import pandas as pd
url = "e:/pandas/z4.xlsx"
data = pd.read_excel(url)

plt.rcParams['font.sans-serif'] = ['SimHei']

colors=['r','g','b','c','m','y','k','yellow','purple','pink','grey','orange','r','g','b','c','m','y','k','yellow']
angle=np.linspace(0,2*np.pi,len(data['业绩']),endpoint=False)

img = plt.axes(polar=True)
img.set_theta_zero_location('N')#设置方向

grade = np.concatenate((data['业绩'],[data['业绩'][0]]))
angle = np.concatenate((angle,[angle[0]]))
name =  np.concatenate((data['姓名'],[data['姓名'][0]]))

# 绘制
plt.bar(angle,grade,width=0.3,color=colors)
# 挖孔
plt.bar(angle,height=100,width=0.3,color='white')

# 关闭轴
plt.gca().set_axis_off()

# 添加数据标签
for angle,grade,name in zip(angle,grade,name):
    plt.text(angle+0.1,grade+40,str(name))

plt.show()

你可能感兴趣的:(python,数据分析,numpy)

Python 网络爬虫：从入门到实践一ge科研小菜菜编程语言 Python python
个人主页：一ge科研小菜鸡-CSDN博客期待您的关注网络爬虫是一种自动化的程序，用于从互联网上抓取数据。Python以其强大的库和简单的语法，是开发网络爬虫的绝佳选择。本文将详细介绍Python网络爬虫的基本原理、开发工具、常用框架以及实践案例。一、网络爬虫的基本原理网络爬虫的工作流程通常包括以下步骤：发送请求：向目标网站发送HTTP请求，获取网页内容。解析内容：提取需要的数据，可以是HTML标签
PySimpleGUI 4.60.5 孔帆贝
PySimpleGUI4.60.5【下载地址】PySimpleGUI4.60.5**PySimpleGUI**是一款专为简化PythonGUI（图形用户界面）编程而生的库。该库设计宗旨在于通过提供简洁、易懂的API接口，使开发者能够以更快的速度和更少的代码量创建出美观实用的应用程序。对于无论是GUI编程新手还是寻求快速开发工具的老手来说，PySimpleGUI都是一个极具吸引力的选择。其通过封装了
《今日AI-人工智能-编程日报》-源自2025年3月19日小亦编辑部每日AI-人工智能-编程日报人工智能
1.豆包AI编程功能迎来三项重磅升级豆包平台今日宣布其AI编程功能迎来三项重要升级，包括：HTML实时预览：支持用户在编写HTML代码时实时查看网页效果，显著提升前端开发效率，尤其适用于小游戏和网页制作。Python代码直接运行与一键修复：用户可直接运行Python代码，并在出错时一键修复，极大降低了编程门槛，提升了开发效率。生成完整项目：新增生成完整项目的功能，帮助用户快速创建应用程序，缩短开发
python PySimpleGUI 使用 Seeklike python
#PySimpleGUI库快速简单构建一个gui窗口#PySimpleGUI是一个用于简化GUI编程的Python包，它封装了多种底层GUI框架（如tkinter、Qt、WxPython等），提供了简单易用的API。#PySimpleGUI包含了大量的控件（也称为小部件或组件），这些控件可以帮助你快速构建用户界面#导包importPySimpleGUIassgimportcv2importkeyb
2024年最全Python二级考试试题汇总（史上最全） 2401_84584831 程序员 python 开发语言算法
C‘1,2,3,4,5,’D1,2,3,4,5,正确答案：D以下程序的输出结果是：a=30b=1ifa>=10:a=20elifa>=20:a=30elifa>=30:b=aelse:b=0print(‘a={},b={}’.format(a,b))Aa=30,b=1Ba=30,b=30Ca=20,b=20Da=20,b=1正确答案：D以下程序的输出结果是：s=‘’try:foriinrange(
如何通过Python实现自动化任务：从入门到实践小弟有话说1.0 python 自动化开发语言
在当今快节奏的数字化时代，自动化技术正逐渐成为提高工作效率的利器。无论是处理重复性任务，还是管理复杂的工作流程，自动化都能为我们节省大量时间和精力。本文将以Python为例，带你从零开始学习如何实现自动化任务，并通过一个实际案例展示其强大功能。一、为什么选择Python实现自动化？Python作为一种简单易学、功能强大的编程语言，已经成为自动化领域的首选工具。以下是Python在自动化中的几大优势
2024年Python最新Python二级考试试题汇总（史上最全）_计算机二级python真题 2301_82243979 程序员 python 开发语言前端
表达式1001==0x3e7的结果是：AfalseBFalseCtrueDTrue正确答案：B以下选项，不是Python保留字的选项是：AdelBpassCnotDstring正确答案：D表达式eval(‘500/10’)的结果是：A‘500/10’B500/10C50D50.0正确答案：D表达式type(eval(‘45’))的结果是：ABCNoneD正确答案：D表达式divmod(20,3)的
Python点名器代码及打包教程羽落惊鸿TQ python 开发语言
接下来再写一个功能性齐全稍微复杂一点的Python点名器程序，在原简易版的基础上增加历史记录功能、支持多种名单格式（CSV/Excel）、增加点名统计功能，并详细说明了将该程序打包成exe可执行文件的方法，以下是源代码，仅供学习参考：importtkinterastkfromtkinterimportttk, messagebox, filedialogimportrandomimportcsvi
基于python+django的旅游信息网站-旅游景点门票管理系统源码+运行步骤冷琴1996 Python系统设计 python django 旅游
该系统是基于python+django开发的旅游景点门票管理系统。是给师弟做的课程作业。大家学习过程中，遇到问题可以在github咨询作者。学习过程问题可以留言哦演示地址前台地址：http://travel.gitapp.cn后台地址：http://travel.gitapp.cn/admin后台管理帐号：用户名：admin123密码：admin123源码地址https://github.com/
50个常见的python毕业设计/课程设计（源码+文档）冷琴1996 Python系统设计 python 课程设计开发语言
计算机课程设计/毕业设计指南，为计算机相关专业毕业生提供源码、数据库安装、远程调试等相关服务，提供功能讲解视频。下面是50个基于python/django/vue的毕业设计/课程设计。1.网上商城系统这是一个基于python+vue开发的商城网站，平台采用B/S结构，后端采用主流的Python语言进行开发，前端采用主流的Vue.js进行开发。整个平台包括前台和后台两个部分。前台功能包括：首页、商品
大数据点燃智能制造变革之火——从数据到价值的跃迁 Echo_Wish 大数据高阶实战秘籍大数据制造
大数据点燃智能制造变革之火——从数据到价值的跃迁在全球制造业向智能化转型的浪潮中，大数据已然成为点燃变革的关键火种。从车间到供应链，从设备到产品生命周期，制造业正通过大数据分析找到隐形的效率优化机会，打破传统生产模式的桎梏。作为Echo_Wish，今天我将和大家探讨大数据如何融入智能制造，助力实现生产效率和业务价值的双重飞跃。一、智能制造的核心诉求：数据驱动的决策与执行智能制造的目标是通过数据驱动
AI预测体彩排3新模型百十个定位预测+胆码预测+杀和尾+杀和值2025年3月21日第25弹 GIS小天体彩排3 人工智能机器学习彩票算法
前面由于工作原因停更了很长时间，停更期间很多彩友一直私信我何时恢复发布每日预测，目前手头上的项目已经基本收尾，接下来恢复发布。当然，也有很多朋友一直咨询3D超级助手开发的进度，在这里统一回复下。由于本人既精通编程+大数据分析，也热衷于彩票研究，所以很多彩友通过一些渠道找到了我。目前，加我的已有不少彩友，分成了3类人群：第一类：平时不懂数据分析，买彩全靠瞎猜乱蒙，这些朋友希望借助我的技术和方法来给他
分享Python7个爬虫小案例（附源码）人工智能-猫猫爬虫 python 开发语言
在这篇文章中，我们将分享7个Python爬虫的小案例，帮助大家更好地学习和了解Python爬虫的基础知识。以下是每个案例的简介和源代码：1.爬取豆瓣电影Top250这个案例使用BeautifulSoup库爬取豆瓣电影Top250的电影名称、评分和评价人数等信息，并将这些信息保存到CSV文件中。importrequestsfrombs4importBeautifulSoupimportcsv#请求U
后端框架模块化 GIS程序媛—椰子后端
后端框架的模块化设计旨在简化开发流程、提高可维护性，并通过分层解耦降低复杂性。以下是常见的后端模块及其在不同语言（Node.js、Java、Python）中的实现方式：目录1.路由（Routing）2.中间件（Middleware）3.数据库与ORM（models）4.迁移（Migration）5.服务层（ServiceLayer）6.配置管理（Configuration）7.依赖注入（DI）8.
Pyhton 基础 368. python python 开发语言
初识PythonPython是一种解释型语言Python使用缩进对齐组织代码执行，所以没有缩进的代码，都会在载入时自动执行数据类型：整形int无限大浮点型float小数复数complex由实数和虚数组成Python中有6个标准的数据类型：Number(数字)String(字符串)List(列表)Tuple(元组)Sets(集合)Dictionart(字典)其中不可变得数据：Number(数字)St
基于python+django+mysql的小区物业管理系统源码+运行步骤冷琴1996 Python系统设计 python 开发语言
该系统是基于python+django开发的小区物业管理系统。适用场景：大学生、课程作业、毕业设计。学习过程中，如遇问题可以在github给作者留言。主要功能有：业主管理、报修管理、停车管理、资产管理、小区管理、用户管理、日志管理、系统信息。源码学习技术。演示地址http://wuye.gitapp.cn/admin后台管理帐号：用户名：admin123密码：admin123源码地址https:/
用Python修改Word文档字体
在数字化办公场景中，Word文档作为主流文件格式承载着大量商务文书与学术资料。传统手动调整字体格式的操作模式存在显著局限性：当面对批量文档处理、动态内容生成或企业级模板维护时，逐一手工修改不仅效率低下，更难以保障格式规范的统一性。通过Python实现文档字体的程序化控制，能够有效构建自动化处理流程，在确保排版精准度的同时，显著提升文档批量化操作能力。本文将介绍如何使用Python修改Word文档段
python中strip的使用 ICER瞌睡虫
今天聊聊python去除字符串空格的函数：strip（）和replace（）1.strip():函数功能描述：Pythonstrip()方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。格式：str.strip([char])。其中，str为待处理的字符，char指定去除的源字符串首尾的字符。返回结果：去除空格时候的新
基于python+django的家教预约网站-家教信息管理系统源码+运行步骤冷琴1996 Python系统设计 python django 开发语言
该系统是基于python+django开发的家教预约网站。是给师妹做的课程作业。大家在学习过程中，遇到问题可以在github给作者留言。共同学习进步哦效果演示前台地址：http://jiajiao.gitapp.cn后台地址：http://jiajiao.gitapp.cn/admin后台管理帐号：用户名：admin123密码：admin123源码地址https://github.com/geee
揭秘时空大数据：详细介绍、真实应用场景和数据示例解析陈书予 GIS开发（时空大数据）前端大数据 python 时序数据库
时空大数据(SpatialBigData)是指利用空间环境和时间环境信息，以及数字技术，从多种来源获取的海量、动态的、多维的数据，对空间环境和时间环境进行实时监测，并基于复杂的数据分析和挖掘，获取有价值的信息。时空大数据示例：1）社会网络数据：Twitter、Facebook、Instagram等社交媒体上的海量数据，可以通过时间、空间、主题等来提取有价值的信息。2）遥感图像数据：通过遥感技术从卫
python strip函数用法_Python字符串函数strip()原理及用法详解 weixin_39944233 python strip函数用法
strip:用于移除字符串头尾指定的字符（默认为空格）或字符序列。注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。语法：str.strip([chars])str="*****thisis**string**example....wow!!!*****"print(str.strip('*'))#指定字符串*输出结果：thisis**string**example....wow!!
python中strip_python中的strip是什么意思 weixin_39613744 python中strip
Python中strip()方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列。注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。它的函数原型：string.strip(s[,chars])，它返回的是字符串的副本，并删除前导和后缀字符。（意思就是你想去掉字符串里面的哪些字符，那么你就把这些字符当参数传入。此函数只会删除头和尾的字符，中间的不会删除。）如果strip()
python爬虫系列实例-python爬虫实例，一小时上手爬取淘宝评论(附代码) weixin_37988176
前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。1明确目的通过访问天猫的网站，先搜索对应的商品，然后爬取它的评论数据。可以作为设计前期的市场调研的数据，帮助很大。2爬取评论并储存（首先要进行登录，获取cookie）搜索你想收集的信息的评价，然后点开对应的产品图片。找到对应的评价的位置。找到对应的位置之后就可以进行数据的爬取了
python基于Django的旅游景点数据分析及可视化的设计与实现 7blk7 qq2295116502 python django 数据分析
目录项目介绍技术栈具体实现截图Scrapy爬虫框架关键技术和使用的工具环境等的说明解决的思路开发流程爬虫核心代码展示系统设计论文书写大纲详细视频演示源码获取项目介绍大数据分析是现下比较热门的词汇，通过分析之后可以得到更多深入且有价值的信息。现实的科技手段中，越来越多的应用都会涉及到大数据随着大数据时代的到来，数据挖掘、分析与应用成为多个行业的关键,本课题首先介绍了网络爬虫的基本概念以及技术实现方法
python strip()函数牛也唱歌
strip函数原型声明：s为字符串，rm为要删除的字符序列.只能删除开头或是结尾的字符或是字符串。不能删除中间的字符或是字符串。s.strip(rm)删除s字符串中开头、结尾处，位于rm删除序列的字符s.lstrip(rm)删除s字符串中开头处，位于rm删除序列的字符s.rstrip(rm)删除s字符串中结尾处，位于rm删除序列的字符注意：1.当rm为空时，默认删除空白符（包括'\n','\r',
用python执行js代码：PyExecJS库详解数据知道 2025年爬虫和逆向教程 python javascript 爬虫数据采集 nodejs
更多内容请见：爬虫和逆向教程-专栏介绍和目录文章目录1.介绍和安装1.1PyExecJS介绍1.2安装JavaScript运行时1.3安装PyExecJS2.PyExecJS的基本使用2.1执行简单的JavaScript代码2.2使用外部JavaScript文件2.3先编译、后调用2.4传递参数和获取返回值3.PyExecJS的高级功能3.1指定JavaScript运行时3.2处理异步JavaSc
Python中strip()函数详细讲解甯公子_ Python入门程序 python 开发语言算法
strip()是Python中字符串（str）对象的一个内置方法，用于去除字符串开头和结尾的空白字符（包括空格、换行符、制表符等）。它不会修改字符串中间的空白字符。语法str.strip([chars])str：需要处理的字符串。chars（可选）：指定要去除的字符集合。如果未指定，默认去除空白字符（包括空格、换行符\n、制表符\t等）。返回值返回一个新的字符串，去除了开头和结尾的指定字符。常见用
利用Python爬虫获取淘宝商品评论：实战案例分析数据小爬虫@ API python 爬虫开发语言
在数字化时代，数据的价值日益凸显，尤其是对于电商平台而言，商品评论作为用户反馈的重要载体，蕴含着丰富的信息。本文将详细介绍如何利用Python爬虫技术获取淘宝商品评论，包括代码示例和关键步骤解析。淘宝商品评论的重要性淘宝商品评论不仅对消费者购买决策有着重要影响，而且对于商家来说，也是了解市场需求、改进产品和服务的重要途径。因此，获取并分析淘宝商品评论数据，对于电商运营和市场分析具有重要意义。Pyt
Python 自动探索性数据分析库———KLib 若木胡 tools python 数据分析开发语言
Python自动探索性数据分析库——KLib一、引言在当今数据驱动的时代，数据分析师和科学家们面临着海量的数据需要处理和分析。探索性数据分析（EDA）作为数据处理流程中的关键环节，旨在帮助人们快速理解数据的特征、分布、相关性等重要信息，从而为后续的深入分析、建模以及决策提供坚实的基础。Python以其丰富的生态系统和强大的功能在数据分析领域占据着重要地位，而KLib则是其中一款专注于自动探索性数据
源码篇：python生成《蔬菜店销售数据分析报告》案例 IT小本本 python python 数据分析开发语言
本文将通过Python实现一个完整的蔬菜销售数据分析项目，涵盖数据生成、清洗、分析及可视化全流程。我们将利用模拟数据生成技术创建90天的销售记录，通过Pandas进行数据处理，结合Matplotlib和Seaborn实现多样化的可视化图表，并最终生成动态交互报告。一、数据生成：模拟真实销售场景为了模拟真实的蔬菜销售数据，我们设计了包含10种蔬菜（白菜、土豆、西红柿等）的90天销售记录。数据生成逻辑
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号