PCGuo999

Pandas学习笔记

一、Pandas

1.介绍与安装

关系型、标记型数据的数据分析工具；以numpy为基础，借助其在计算方面高性能的优势，还基于matplotlib进行画图。

Pandas优点：

增加图表可读性，将数组显示为表格，使得图表更加直观
更加方便的数据处理
读取文件更加方便
将matplotlib和numpy进行封装

安装

windows:

升级 pip：

python3 -m pip install -U pip

安装 pandas库：（Ubuntu一样）

pip install pandas

下载完成后可以在Python文件中
import pandas as pd # 导入pandas一般使用别名 pd代替
print(pd.__version__)
来测试是否安装成功

2.Pandas数据结构

Series：一维数据结构
Dataframe：二维的表格型数据结构
MultiIndex(老版本叫Panel )：三维的数据结构

(1)Series：一维数据结构

Series是一个类似于一维数组的数据结构，由数据和索引两部分构成。

①创建Series

import pandas as pd
pd.Series(data=None, index=None, dtype=None)

data：传入的数据，可以是ndarray、list等
index：索引，必须是唯一的，且与数据的长度相等。如果没有传入索引参数，则默认会自动创建一个从0-N的整数索引。
dtype：数据的类型

import pandas as pd
import numpy as np
# 1.通过已有数据创建，指定内容，默认索引，即从0开始
pd.Series(np.arange(3))
# 0    0
# 1    1
# 2    2
# dtype: int32

# 2.通过已有数据创建，指定内容，指定索引
pd.Series(np.arange(3),[1,3,4])
# 1    0
# 3    1
# 4    2
# dtype: int32

# 3.通过字典创建数据，这样索引就会被设置为key值
pd.Series({'name':'小明','gender':'男','age':'20'})
# name      小明
# gender     男
# age       20
# dtype: object   # object:python对象

②index和values属性

想要查看索引或者其值时，可以使用index和values属性

a=pd.Series({'name':'小明','gender':'男','age':'20'})
a.index
# Index(['name', 'gender', 'age'], dtype='object')
a.values
# array(['小明', '男', '20'], dtype=object)

(2)DataFrame：二维的表格型数据结构

DataFrame既有行索引，又有列索引

行索引，表明不同行，横向索引，叫index
列索引，表名不同列，纵向索引，叫columns

①创建DataFrame

import pandas as pd
pd.DataFrame(data=None, index=None, columns=None)

index：行标签。如果没有传入索引参数，则默认会自动创建一个从0-N的整数索引。
columns：列标签。如果没有传入索引参数，则默认会自动创建一个从0-N的整数索引。

import pandas as pd
# 创建成绩，取值范围0-100，生成3行5列
score=np.random.randint(0, 100, (3, 6))
index_label=['小王','小张','小明']
columns_label=['语文','数学','英语','政治','历史','地理']
pd.DataFrame(data=score,index=index_label,columns=columns_label)

②属性

.shape：数组形状
.index：行索引值
.columns：列索引值
.values：array的值，即将二维数组所有数据打印
.T：转置
head()：显示前n行，默认显示全部
tail()：显示后n行，默认显示全部

score=np.random.randint(0, 100, (3, 6))
index_label=['小王','小张','小明']
columns_label=['语文','数学','英语','政治','历史','地理']
a=pd.DataFrame(data=score,index=index_label,columns=columns_label)
# 查看数组形状
a.shape
# (3, 6)

# 查看行索引
a.index
# Index(['小王', '小张', '小明'], dtype='object')

# 查看列索引
a.columns
# Index(['语文', '数学', '英语', '政治', '历史', '地理'], dtype='object')

# 查看array的值
a.values
# array([[ 2, 98, 76, 81, 87, 14],
#        [28, 82,  9, 43, 29,  0],
#        [16, 29, 17, 83, 76, 20]])

# 转置
a.T
#  	小王 	小张 	小明
# 语文 	21 	5 	72
# 数学 	98 	86 	89
# 英语 	60 	53 	68
# 政治 	26 	63 	6
# 历史 	78 	26 	8
# 地理 	9 	46 	0

# 显示部分行
# 显示前n行
a.head(1)
#  	 语文 数学 	英语 	政治 	历史 	地理
# 小王 91  50   56	79   9    74

# 显示后n行
a.tail(1)
#  	 语文 数学 	英语 	政治 	历史 	地理
# 小明 91  50   56	79   9    74

③索引修改

stu = ["学生_" + str(i) for i in range(score_df.shape[0])]

# 必须整体全部修改
data.index = stu

# 错误修改方式
data.index[3] = '学生_3'

注意：要修改索引必须全部都修改

④重设索引—`reset_index(drop=False)`

设置新的下标索引
drop:默认为False，不删除原来索引，而是在原来列索引前新建一列；如果为True，则是删除原来的索引值

⑤将某列设置为新的索引—`set_index(keys, drop=True)`

keys : 列索引名成或者列索引名称的列表
drop: boolean, default True.当做新的索引，删除原来的列，False则保留原来的列

若keys值设置多个，则表示多个索引，那么就会变为一个具有MultiIndex的DataFrame。

(3)MultiIndex(老版本叫Panel )：三维的数据结构

多级索引（也称层次化索引）是pandas的重要功能，可以在Series、DataFrame对象上拥有2个以及2个以上的索引。类似ndarray中的三维数组。

①创建`pd.MultiIndex.from_arrays(levels,names)`

pd.MultiIndex.from_arrays(levels,names)
# MultiIndex(levels,names)

②属性

levels：每个level的元组值
names:levels的名称

arrays = [[1, 1, 2, 2], ['red', 'blue', 'red', 'blue']]
a=pd.MultiIndex.from_arrays(arrays, names=('number', 'color'))
a
# MultiIndex([(1,  'red'),
#             (1, 'blue'),
#             (2,  'red'),
#             (2, 'blue')],
#            names=['number', 'color'])
a.levels
# FrozenList([[1, 2], ['blue', 'red']])
# FrozenList(['number', 'color'])

二、操作与运算

1.基本操作

(1)索引

直接索引—先列后行
loc—先行后列，需要通过索引的字符串进行获取
iloc—先行后列，通过下标进行索引

score=np.random.randint(0, 100, (3, 6))
index_label=['小王','小张','小明']
columns_label=['语文','数学','英语','政治','历史','地理']
a=pd.DataFrame(data=score,index=index_label,columns=columns_label)
# 1.获取'语文'列'小张'和'小王'行的数据
a['语文']['小王':'小张']
# 小王    72
# 小张    38
# Name: 语文, dtype: int32

# 2.获取'小张'和'小王'行'语文'列的数据
a.loc['小王':'小张']['语文']
# 小王    72
# 小张    38
# Name: 语文, dtype: int32

# 3.获取前三行前三列的数据
a.iloc[:3, :3]
# 	    语文  数学  英语
# 小王 	72 	89 	50
# 小张 	38 	92	65
# 小明 	56 	25 	77

# 4获取第一行到第三行语文、数学、英语的成绩(同3相同)
a.loc[a.index[0:3],['语文','数学','英语']]
a.iloc[0:3,a.columns.get_indexer(['语文','数学','英语'])]

(2)赋值

对DataFrame当中的某一列进行重新赋值

若该列不存在，则会在所有列最后面新建该列并赋值

# 将'语文'列所有值都赋值1
a['语文']=1
# 因为没有‘总分’列，所以会在所有列后新建一列并复制
a['总分']=[1,2,3]
a

(3)排序

排序可以对索引排序，也可以对内容进行排序

①Series排序

Series排序时，只有一列，不需要参数

.sort_index()：对索引进行排序
.sort_values(ascending=True)：对内容值进行排序

a=pd.Series([1,3,5,2,4,6],index=[6,5,4,3,2,1])
b=a.sort_index()
b
# 1    6
# 2    4
# 3    2
# 4    5
# 5    3
# 6    1
# dtype: int64

a=pd.Series([1,3,5,2,4,6],index=[6,5,4,3,2,1])
b=a.sort_values()
b
# 6    1
# 3    2
# 5    3
# 2    4
# 4    5
# 1    6
# dtype: int64

②DataFrame排序

.sort_index(ascending=True,inplace=True)：对索引进行排序
- ascending：False:降序、True:升序，默认升序
- inplace：是否是对原数据进行操作，True则会改变原数据，默认False，需要新建变量保存
.sort_values(by=, ascending=True)：对内容值进行排序
- by：指定排序参考的键
- ascending：False:降序、True:升序，默认升序

score=np.array([[98, 89, 33],
       [90, 28, 66],
       [52, 32, 79],
       [92, 58, 81]])
index_label=np.array(['No._%d'%i for i in range(0,4)])

# 即index的值为No.0,No.1,No.2,No.3
columns_label=np.array(['语文','数学','英语'])
a=pd.DataFrame(score,index_label,columns_label)

# 以index进行排名
a.sort_index(ascending=False)
#         语文 数学 英语
# No._3 	98 	89 	33
# No._2 	90 	28 	66
# No._1 	52 	32 	79
# No._0 	92 	58 	81

# 以'语文'分数进行排名
a.sort_values('语文')
#         语文 数学 英语
# No._2 	52 	32 	79
# No._1 	90 	28 	66
# No._3 	92 	58 	81
# No._0 	98 	89 	33

2.DataFrame运算

score=np.array([[50, 50, 50],
       [90, 28, 66],
       [52, 32, 79],
       [92, 58, 81]])
index_label=np.array(['No._%d'%i for i in range(0,4)])
# 即index的值为No.4,No.3,No.2,No.1
columns_label=np.array(['语文','数学','英语'])
a=pd.DataFrame(score,index_label,columns_label)

(1)算术运算—`add(),sub()`

# 所有人的语文分数加上自己的数学分数
a['语文'].add(a['数学'])
# No._0    100
# No._1    118
# No._2     84
# No._3    150
# dtype: int32

# 所有人语文分数减2分
a['语文'].sub(2)
# No._0    48
# No._1    88
# No._2    50
# No._3    90
# Name: 语文, dtype: int32

(2)逻辑运算

①`a[判断语句].head()`

②`a.query(判断语句).head()`

③`a[a[判断语句].isin(values)]`

使用逻辑运算可以直接进行判断，但是若想输出筛选为True的数据，则需要a[判断语句].head()，但是为了使得更加方便简单，可以使用a.query(查询字符串).head()，若判断是否为一组数据中的一个，则可以使用a[a[判断语句].isin(values)]

# 判断语文成绩及格的
a['语文']>60
# No._0    False
# No._1     True
# No._2    False
# No._3     True
# Name: 语文, dtype: bool
a[a['语文']>60].head()
a.query('语文>60').head()
#      语文 数学 英语
# No._1 90 	28 	66
# No._3 92 	58 	81

# 判断语文成绩在50-80之间
(a['语文']>50)&(a['语文']<80)
# No._0    False
# No._1    False
# No._2     True
# No._3    False
# Name: 语文, dtype: bool
a[(a['语文']>50)&(a['语文']<80)].head()
a.query('语文>50&语文<80').head()
#      语文 数学 英语
# No._2 52 	32 	79

# 判断是否有人分数为[50,52,90]
a[a['语文'].isin([50,52,90])].head()
#      语文 数学 英语
# No._0 50 	50 	50
# No._1 90 	28 	66
# No._2 52 	32 	79

(3)统计运算

通过统计运算，可以得出比如min(最小值), max(最大值), mean(平均值), median(中位数), var(方差), std(标准差),mode(众数)等等结果

①综合统计函数—`对象.describe()`

describe(): 综合统计函数，可以同时返回数据中的数据量、均值、标准差、最小值、最大值，以及25%、50%、75%分位数。

②统计函数

函数	作用
`.count()`	数量
`.sum()`	所有数据的和
`.mean()`	数据的平均值
`.min()`	最小值
`.max()`	最大值
`.mode()`	众数
`.median()`	中位数
`.abs()`	绝对值
`.std()`	标准差
`.var()`	方差
`.idxmax()`	最大值索引
`.idxmin()`	最小值索引

对于单个函数去进行统计的时候，坐标轴还是按照默认列“columns” (axis=0, default)，如果要对行“index” 需要指定(axis=1)

③累积统计函数

函数	作用
`.cumsum()`	计算前n个数的和
`.cummax()`	计算前n个数的最大值
`.cummin()`	计算前n个数的最小值
`.cumprod()`	计算前n个数的积

④自定义运算—`apply(func, axis=0)`

func:自定义函数
axis=0:默认是列，axis=1为行进行运算

a[['数学', '英语']].apply(lambda x: x.max() - x.min(), axis=0)
# 数学    30
# 英语    31
# dtype: int32

三、Pandas画图

1.Series画图—pandas.Series.plot()

# 加入数据，创建DataFrame数组
score=np.array([160, 175, 170,180])
index_label=['小王','小张','小明','小光']
a=pd.Series(data=score,index=index_label)

# 创建画布
plt.figure(figsize=(5,5), dpi=100)
# 绘制图像
a.plot()
# 设置x轴y轴刻度
plt.xticks(range(0,len(index_label)),index_label)
plt.yticks(range(150,200,10))
# 添加x轴、y轴描述信息及标题
plt.xlabel('学生')
plt.ylabel('身高cm')
plt.title('学生身高表', fontsize=20)
# 添加网格
plt.grid(True, linestyle='--', alpha=0.5)
# 保存图片到指定路径
plt.savefig("./images/学生身高表.png")
# 显示图像
plt.show()

2.DataFrame画图—pandas.DataFrame.plot()

Index值为x轴，数值为y轴，columns值为图像名

# 加入数据，创建DataFrame数组
score=np.array([[60, 60, 60],
       [90, 28, 66],
       [52, 32, 79],
       [92, 58, 81]])
index_label=['小王','小张','小明','小光']
columns_label=['语文','数学','英语']
a=pd.DataFrame(data=score,index=index_label,columns=columns_label)
b=a.T
# 创建画布
plt.figure(figsize=(5,5), dpi=100)
# 绘制图像
b.plot()
# 设置x轴y轴刻度
plt.xticks(range(0,len(columns_label)),columns_label)
plt.yticks(range(0,101,10))
# 添加x轴、y轴描述信息及标题
plt.xlabel('科目')
plt.ylabel('分数')
plt.title('学生成绩表', fontsize=20)
# 添加网格
plt.grid(True, linestyle='--', alpha=0.5)
# 保存图片到指定路径
plt.savefig("./images/学生成绩表.png")
# 显示图像
plt.show()

四、文件读取与存储

因为数据量，数据大多存储在文件中，Pandas支持IO操作，Pandas的API支持很多常见的文件格式，比如：CSV、HDF5、SQL、JSON、XLS

API：应用程序编程接口

是一些预先定义的函数，可以让开发人员无需访问源码和了解其运行过程即可使用

1.CSV

(1)读取文件—read_csv

pandas.read_csv(filepath_or_buffer, sep =',', usecols )

filepath_or_buffer:文件路径
sep :分隔符，默认用","隔开

Student_score_test.csv：

,语文,数学,英语
小王,60,60,60
小张,90,28,66
小明,52,32,79
小光,92,58,81
usecols:指定读取的列名，列表形式

# 读取文件,并且指定只获取'语文', '数学'列数据
data = pd.read_csv("./data/Student_score.csv", usecols=['语文', '数学','英语'])
data
#   语文 	数学 	英语
# 0 60 	60 	60
# 1 90 	28 	66
# 2 52 	32 	79
# 3 92 	58 	81

(2)保存读取的文件—to_csv

DataFrame.to_csv(path_or_buf=None, sep=',’, columns=None, header=True, index=True, mode='w', encoding=None)

path_or_buf :文件路径
sep :分隔符，默认用","隔开
columns :选择需要的列索引
header :boolean or list of string, default True,是否写进列索引值
index:是否写进行索引
mode:‘w’：重写, ‘a’ 追加

# 选取2行数据保存到Student_score_test.csv文件中,便于观察
data[:10].to_csv("./data/Student_score_test.csv", columns=['语文', '数学'])

# Student_score_test.csv：
# ,语文,数学,英语
# 0,60,60,60
# 1,90,28,66
# 2,52,32,79
# 3,92,58,81

# 将语文=100,数学=100,英语=100追加到Student_score_test.csv文件
a=pd.DataFrame(data=[[100,100,100]],index=[4],columns=['语文','数学','英语'])
a.to_csv("./data/Student_score_test.csv",header=False,mode='a')
# Student_score_test.csv：
# ,语文,数学,英语
# 0,60,60,60
# 1,90,28,66
# 2,52,32,79
# 3,92,58,81
# 4,100,100,100

2.HDF5

read_hdf与to_hdf

pandas.read_hdf(path_or_buf，key =None，** kwargs)
DataFrame.to_hdf(path_or_buf, key, **kwargs)
- path_or_buffer:文件路径
- key:读取的键

HDF5文件的读取和存储需要指定一个键，值为要存储的DataFrame

注意：优先选择使用HDF5文件存储

HDF5在存储的时候支持压缩，使用的方式是blosc，这个是速度最快的也是pandas默认支持的

使用压缩可以提磁盘利用率，节省空间

HDF5还是跨平台的，可以轻松迁移到hadoop 上面

3.JSON

JSON是我们常用的一种数据交换格式，在前后端的交互经常用到，也会在存储的时候选择这种格式。

read_json与to_json

pandas.read_json(path_or_buf=None, orient=None, typ='frame', lines=False)

path_or_buf：文件路径或者json格式的字符串。
orient : 存储的json形式，{‘split’,’records’,’index’,’columns’,’values’}
- split : dict like {index -> [index], columns -> [columns], data -> [values]}有索引，列字段和数据构成的json格式。key名称只能是index,columns和data。
  
  '{"index":[],"columns":[],"data":[]}'
- records: list like [{column -> value}, … , {column -> value}]成员为字典的列表。
  
  records 以columns：values的形式输出
- index : dict like {index -> {column -> value}}以索引为key,以列字段构成的字典为键值
- columns: dict like {column -> {index -> value}}这种处理的就是以列为键，对应一个值字典的对象。这个字典对象以索引为键,以值为键值构成的json字符串。
- values : 一个嵌套的列表
lines : boolean, default False
- 按照每行读取json对象
typ : default ‘frame’，指定转换成的对象类型series或者dataframe

DataFrame.to_json(path_or_buf=None, orient=None, lines=False)

lines:一个对象存储为一行

五、高级处理

1.缺失值处理

当该数据并无数据时，需要使用缺失值进行标记，并对这些缺失值进行处理

获取缺失值的标记方式有NaN或者其他标记方式)

(1)判断数据中是否有NaN：

pd.isnull(df)  # 是否存在NaN
pd.nitnull(df) # 是否不存在NaN
# 读取学生表信息
data=pd.read_csv("./data/Student_score.csv")
# 	Unnamed: 0 	语文 	数学 	英语
# 0 	0 	60 	60 	60.0
# 1 	1 	90 	28 	66.0
# 2 	2 	52 	32 	79.0
# 3 	3 	92 	58 	NaN
# 4 	4 	100 100 100.0
pd.notnull(data)
# 	Unnamed: 0 	语文 	数学 	英语
# 0 	True 	True 	True 	True
# 1 	True 	True 	True 	True
# 2 	True 	True 	True 	True
# 3 	True 	True 	True 	False
# 4 	True 	True 	True 	True

(2)若存在缺失值

①NaN：`.dropna(axis='rows')`、`.fillna(value,inplace=True)`

# 1.删除缺失值，不会修改原数据，需要变量保存
.dropna(axis='rows')
# 2.替换缺失值，value:替换成的值，inplace:是否修改原数据
.fillna(value,inplace=True)

# 不修改原数据删除有NaN的数据
data.dropna()
# 	Unnamed: 0 	语文 	数学 	英语
# 0 	0 	60 	60 	60.0
# 1 	1 	90 	28 	66.0
# 2 	2 	52 	32 	79.0
# 4 	4 	100 100 100.0

# 修改原数据删除有NaN的数据
data.fillna(0,inplace=True)
data

# 	Unnamed: 0 	语文 	数学 	英语
# 0 	0 	60 	60 	60.0
# 1 	1 	90 	28 	66.0
# 2 	2 	52 	32 	79.0
# 3 	3 	92 	58 	0.0
# 4 	4 	100 100 100.0

②如果缺失值没有使用NaN标记，则先将标记替换为np.nan，然后继续处理

比如标记为’?'，若使用read_csv时会报错解决办法：

# 全局取消证书验证
import ssl
ssl._create_default_https_context = ssl._create_unverified_context

# 1.先替换‘?’为np.nan,to_replace:替换前的值,value:替换后的值
data = data.replace(to_replace='?', value=np.nan)
# 2.再进行缺失值处理
# 删除
data = data.dropna()

2.数据离散化

(1)介绍

连续属性离散化的目的是为了简化数据结构，减少连续属性值的个数。离散化方法经常作为数据挖掘的工具。

连续属性的离散化就是在连续属性的值域上，将值域划分为若干个离散的区间，最后用不同的符号或整数值代表落在每个子区间中的属性值。

举个栗子：分数区间为0-100，为了简化数据，可以将分数分为优良差，0-59为差，60-79为良，80-100为优，这样就可以将之前数量庞大的表格变为只有三列的数据

(2)过程

①读取数据

data = pd.read_csv("./data/Student_score.csv")
score= data['语文']
# 0    60
# 1    90
# 2    50
# 3    75
# Name: 语文, dtype: int64

②将数据进行分组

pd.qcut(data, q)：
- 对数据进行分组将数据分组，一般会与value_counts搭配使用，统计每组的个数
series.value_counts()：统计分组次数
pd.cut(data, bins)：自定义区间分组，bins是区间

# 自行分组
qcut = pd.qcut(score, 3)
# 0    (49.999, 60.0]
# 1      (75.0, 90.0]
# 2    (49.999, 60.0]
# 3      (60.0, 75.0]
# Name: 语文, dtype: category
# Categories (3, interval[float64, right]): [(49.999, 60.0] < (60.0, 75.0] < (75.0, 90.0]]

# 计算分到每个组数据个数
qcut.value_counts()
# (49.999, 60.0]    2
# (60.0, 75.0]      1
# (75.0, 90.0]      1
# Name: 语文, dtype: int64

# 自定义区间分组
bins=[0,60,80,100]
cut = pd.cut(score, bins)
# 0      (0, 60]
# 1    (80, 100]
# 2      (0, 60]
# 3     (60, 80]
# Name: 语文, dtype: category
# Categories (3, interval[int64, right]): [(0, 60] < (60, 80] < (80, 100]]

③分组数据转成one-hot编码

one-hot编码：把每个类别生成一个布尔列，这些列中只有一列可以为这个样本取值为1.其又被称为独热编码。

pandas.get_dummies(data, prefix=None)

data:array-like, Series, or DataFrame
prefix:分组名字

# 得出one-hot编码矩阵
dummies = pd.get_dummies(cut, prefix="rise")

3.合并

如果数据由多张表组成，那么有时候需要将不同的内容合并在一起分析

(1)`pd.concat([data1, data2], axis=1)`0列1行

data=[[1,2,3],[4,5,6],[7,8,9]]
index=['N0.%d'%i for i in range(0,3)]
columns=['语文','数学','英语']
a=pd.DataFrame(data=data,index=index,columns=columns)
# 	语文 	数学 	英语
# N0.0 	1 	2 	3
# N0.1 	4 	5 	6
# N0.2 	7 	8 	9
data2=[[10,20,30],[40,50,60],[70,80,90]]
index2=['N0.%d'%i for i in range(3,6)]
columns2=['语文','数学','英语']
b=pd.DataFrame(data=data2,index=index2,columns=columns2)
# 	语文 	数学 	英语
# N0.3 	10 	20 	30
# N0.4 	40 	50 	60
# N0.5 	70 	80 	90

# 合并，按列合并
pd.concat([a,b],axis=0)
# 合并，按行合并
pd.concat([a,b],axis=1)

按列合并：按行合并：

(2)`pd.merge(left, right, how='inner', on=None)`

可以指定按照两组数据的共同键值对合并或者左右各自
left: DataFrame
right: 另一个DataFrame
on: 连接的键的依据是哪几个
how:按照什么方式连接
- left左连接
- right右连接
- outer外连接
- inner内连接(默认)

data=[[1,2,3],[4,5,6],[7,8,9]]
index=['N0.%d'%i for i in range(0,3)]
columns=['语文','数学','英语']
a=pd.DataFrame(data=data,index=index,columns=columns)
# 	语文 	数学 	英语
# N0.0 	1 	2 	3
# N0.1 	4 	5 	6
# N0.2 	7 	8 	9
data2=[[1,2,3],[40,50,60],[70,80,90]]
index2=['N0.%d'%i for i in range(3,6)]
columns2=['语文','政治','历史']
b=pd.DataFrame(data=data2,index=index2,columns=columns2)
# 	语文 	政治 	历史
# N0.3 	1 	2 	3
# N0.4 	40 	50 	60
# N0.5 	70 	80 	90

左连接：将左表全部显示，右表进行合并，若没有的用NaN

pd.merge(a,b,how='left')

右连接：将右表全部显示，左表进行合并，若没有的用NaN

pd.merge(a,b,how='right')

外连接：将两表都显示，没有的NaN

pd.merge(a,b,how='outer')

内连接：双方只显示相同的，只有

pd.merge(a,b)

4.交叉表与透视表

(1)交叉表：

交叉表用于计算一列数据对于另外一列数据的分组个数(用于统计分组频率的特殊透视表)，即是计算次数的

pd.crosstab(value1, value2)

data=[[1,2,3],[4,5,6],[7,8,9]]
index=['N0.%d'%i for i in range(0,3)]
columns=['语文','数学','英语']
a=pd.DataFrame(data=data,index=index,columns=columns)
c=pd.crosstab(a['语文'],a['英语'])
c.plot.bar()
plt.savefig('./images/透视表.png')
plt.show()

(2)透视表：

透视表是将原有的DataFrame的列分别作为行索引和列索引，然后对指定的列应用聚集函数。即指定某一列对另一列的比例关系

data.pivot_table([], index=[])

data为DataFrame

data=[[1,2,3],[4,5,6],[7,8,9]]
index=['N0.%d'%i for i in range(0,3)]
columns=['语文','数学','英语']
a=pd.DataFrame(data=data,index=index,columns=columns)
c=a.pivot_table(['语文'],index='英语')
c.plot.bar()
plt.show()

5.分组与聚合

data.groupby(key, as_index=False)----data为DataFrame

key:分组的列数据，可以多个

# 查看性别和年龄对语文成绩的影响
# 获取数据
data=pd.read_csv('./data/Student.csv')

# 分组聚合，按照性别分组
count=data.groupby(['性别']).count()
# 分组聚合，按照性别和年龄分组
count=data.groupby(['性别','年龄']).count()

# 画图显示，与语文成绩对比
count['语文'].plotbar()
plt.show()

五、总结测试

提取考研复试分数表信息，并查询相应信息

1.导入包以及读取数据

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# 设置显示中文字体
plt.rcParams["font.sans-serif"] = ["SimHei"]
# 查看性别和年龄对语文成绩的影响
# 获取数据
data=pd.read_csv('./data/Student.csv')

2.查看各科平均分

# 查看各科平均分
data[['政治','英语','数学','专业课','总分']].mean()
# 政治      68.209677
# 英语      68.383065
# 数学     114.879032
# 专业课    125.004032
# 总分     376.475806
# dtype: float64

3.查看男生和女生比例

man=len(data[data['性别']=='男'])/len(data)
woman=len(data[data['性别']=='女'])/len(data)
num=[man,woman]
plt.figure(figsize=(5,5), dpi=100)
plt.pie(num,labels=['男','女'])
plt.savefig('./images/男女比例饼图.png')
plt.show()

4.对数据按总分进行排序

data.sort_values(by='总分')

5.按年龄进行分组并与性别对比

c=pd.crosstab(data['性别'],data['年龄'])
c.plot.bar()
plt.savefig('./images/年龄与性别对比.png')
plt.show()

你可能感兴趣的:(python,人工智能,学习,python,数据挖掘)

模型量化 (Model Quantization) 算法 (Model Quantization Algorithms) （initial）大模型科普算法人工智能量化
1模型量化的必要性：降低模型大小、加速推理、减少资源消耗随着深度学习模型的日益复杂和庞大，其在资源受限的设备（如移动端、嵌入式设备）上的部署面临着巨大的挑战。即使在服务器端，部署大型模型也会带来高昂的计算成本和能源消耗。模型量化(ModelQuantization)作为一种关键的模型压缩和加速技术应运而生。其核心思想是将模型中的浮点数（通常是FP32或FP16）表示的权重和激活值转换为低精度整数（
零基础小白如何系统学习Spring Boot Victoria Zhu 学习 spring boot 后端
零基础小白如何系统学习SpringBoot一、学习前的准备1.必备基础知识✅Java基础：掌握Java8+的核心语法（类/对象/集合/异常处理）✅Maven/Gradle：理解依赖管理工具的基本使用（pom.xml配置）✅HTTP协议：了解RESTfulAPI设计理念（GET/POST/PUT/DELETE）环境要求公式环境要求公式环境要求公式推荐配置：JDK≥11,IDE=IntelliJIDE
Python虚拟环境和包管理，到底怎么选？ Python资讯站 python 开发语言 python学习编程学习虚拟环境搭建虚拟环境包包管理
包含编程资料、学习路线图、源代码、软件安装包等！【[点击这里]】！在Python开发中，虚拟环境和包管理工具是必不可少的利器。它们帮助我们隔离项目依赖，避免版本冲突，提高开发效率。然而，面对众多工具如"venv"、“virtualenv”、“conda”、“pipenv”、“poetry"和"uv”，许多开发者常常感到困惑：到底该选择哪一个？本文将从优势、使用方法和适用场景等方面，深度对比这些工具
Python包管理不再头疼：uv工具快速上手马岛 python uv 开发语言
Python包管理生态中存在多种工具，如pip、pip-tools、poetry、conda等，各自具备一定功能。而今天介绍的uv是Astral公司推出的一款基于Rust编写的Python包管理工具，旨在成为“Python的Cargo”。它提供了快速、可靠且易用的包管理体验，在性能、兼容性和功能上都有出色表现，为Python项目的开发和管理带来了新的选择。1.为什么用uv与其他Python中的包管
Java对比Python，谁才是编程王者？ Java学研大本营 python java 开发语言
Python和Java是目前编程最受欢迎的两种语言，本文从多角度比较二者的相同点和差异，帮助你更深入地了解两种语言的特点，最终能根据你自身的需求来进行选择。微信搜索关注《Java学研大本营》Python和Java是当今世界上最流行的两种编程语言。两者都被广泛用于各种行业和应用，从网络开发到机器学习再到数据分析。但是这两种语言哪个更好呢？在这本中，我们将多方面比较Python和Java，探索二者的历
ESP32-S3一款专为人工智能物联网打造的芯片 LS_learner 嵌入式人工智能物联网嵌入式硬件
ESP32-S3是一款专为AIoT（人工智能物联网）市场打造的MCU（微控制器单元）芯片，集成了2.4GHzWi-Fi和Bluetooth5（LE）功能。以下是对ESP32-S3的详细介绍：一、核心性能处理器：搭载Xtensa®32位LX7双核处理器，主频高达240MHz。内存：内置512KBSRAM（静态随机存取存储器），同时支持更大容量的高速OctalSPIflash和片外RAM，用户可配置数
AI人工智能PPT内容案例参考 puerppt PPT模板人工智能PPT ppt
人工智能（AI）的PPT介绍内容提纲，可以帮助你在演示中全面而清晰地阐述AI的概念、历史、技术及应用。这些内容可以直接填入PPT的每一张幻灯片中，帮助你高效地介绍主题，文末精选了10套AI人工智能PPT模板，可下载幻灯片1：封面标题：人工智能（AI）的简介副标题：探索智能未来演讲者：你的名字日期：如2023年10月XX日幻灯片2：目录什么是人工智能人工智能的历史人工智能的基本技术人工智能的应用领域
从静态PPT到智能演讲——人工智能在演示文稿中的应用知来者逆智能算法人工智能 powerpoint LLM 大语言模型 GPT PPT
1.概述在这个信息过载的时代，能够吸引并持续吸引观众的注意力无疑成为了一项艰巨的任务。公众演讲领域正经历着一场由人工智能（AI）引领的革命。AI不仅在制作引人入胜的内容方面发挥作用，而且在分析演讲的传递方式上也起着关键作用，它正在彻底改变我们传递信息的传统模式。这篇深度博文将带您一探演示技术激动人心的未来，特别是聚焦于AI如何助力演讲者打造既具有影响力又富有吸引力的观众体验。从内容创作到演讲分析，
鸿蒙5.0版开发：UI界面[email protected] (componentUtils) 星星不闪包退1 ArkTS 鸿蒙5.0 ArkUI harmonyos 华为 android 鸿蒙前端 UI
往期鸿蒙全套实战文章必看：鸿蒙开发核心知识点，看这篇文章就够了最新版！鸿蒙HarmonyOSNext应用开发实战学习路线鸿蒙HarmonyOSNEXT开发技术最全学习路线指南鸿蒙应用开发实战项目，看这一篇文章就够了（部分项目附源码）@ohos.arkui.componentUtils(componentUtils)提供获取组件绘制区域坐标和大小的能力。说明：从APIVersion10开始支持。后续
最新版！“非常详细的” 鸿蒙HarmonyOS Next应用开发学习路线！（从零基础入门到精通）不入流HarmonyOS开发 HarmonyOS 鸿蒙鸿蒙学习鸿蒙开发 harmonyos 移动开发前端学习 android
前言最新数据显示，在中国智能手机市场，鸿蒙操作系统的份额达到10%，鸿蒙开发者数量更是超过240万，鸿蒙生态已经与iOS、安卓形成了“三分天下”的格局，成为当下的风口。如今，为了抢占巨大的鸿蒙市场，Top20移动互联网公司中近半数已经启动了鸿蒙原生应用开发，其中包括支付宝、美团等各大巨头。鸿蒙的崛起，相关岗位需求迅速增长。就业市场中，鸿蒙人才紧缺，已成为炙手可热的宝贵资源。包括美团、京东、网易在内
人工智能演讲PPT：普及这一篇就够了何秀琳Nessa
人工智能演讲PPT：普及这一篇就够了【下载地址】人工智能演讲PPT普及这一篇就够了人工智能演讲PPT：普及这一篇就够了欢迎来到本资源页面，这里提供一份精心制作的人工智能（AI）主题PPT，专为演讲、科普和学习场合设计项目地址:https://gitcode.com/Open-source-documentation-tutorial/12b6a欢迎来到本资源页面，这里提供一份精心制作的人工智能（A
利用python 执行统计模型: 渔好学 python
利用python执行统计模型:http://www.statsmodels.org/stable/index.html
适合企业内训的AI工具实操培训教程（37页PPT）（文末有下载方式）极客11 数字化
详细资料请看本解读文章的最后内容。资料解读：适合企业内训的AI工具实操培训教程在当今数字化时代，人工智能（AI）技术迅速发展，深度融入到各个领域，AIGC（人工智能生成内容）更是成为内容创作的新趋势，为企业提升效率、创新发展带来了新契机。这份培训教程聚焦多种AI工具，尤其是DeepSeek，为企业员工提供了全面的实操指导。AIGC指利用人工智能技术自动生成文本、图像、音频、视频等内容，让AI协助甚
web前端开发工程师工作的岗位职责（合集）极客11 面试与求职前端状态模式
web前端开发工程师工作的岗位职责1职责：1、根据设计图进行前端页面开发并设计编写业务交互脚本2、优化前端页面，保证良好的用户体验以及不同浏览器的兼容性3、web前沿技术研究和新技术调研，将主流的特效应用到业务场景中4、配合后台开发人员实现网站界面和功能，为产品后期运营提供升级、维护等技术支持。5、工作积极主动，善于沟通，协调项目与项目之间的工作安排与配合，确保开发工作顺利进行。6、具备较强的学习
Python广东广州二手房源爬虫数据可视化分析大屏全屏系统开题报告 2401_84688466 程序员信息可视化 python 爬虫
如果需要联系我，可以在CSDN网站查询黄菊华老师在文章末尾可以获取联系方式Python****广东广州二手房源爬虫数据可视化分析大屏全屏系统开题报告XXXX大学**/学校/**学院毕业论文（设计）开题报告书学生姓名所属学院学号专业班级论文（设计）题目Python广东广州二手房源爬虫数据可视化分析大屏全屏系统设计与实现指导教师姓名（职称）开题日期选题依据：1.研究背景与意义；2.国内外研究（应用与发
Python江苏南京二手房源爬虫数据可视化分析大屏全屏系统开题报告 2401_84562041 程序员信息可视化 python 爬虫
Python****江苏南京二手房源爬虫数据可视化分析大屏全屏系统开题报告XXXX大学**/学校/**学院毕业论文（设计）开题报告书学生姓名所属学院学号专业班级论文（设计）题目Python江苏南京二手房源爬虫数据可视化分析大屏全屏系统设计与实现指导教师姓名（职称）开题日期选题依据：1.研究背景与意义；2.国内外研究（应用与发展）现状。1**：研究背景与意义**Python江苏南京二手房源爬虫数据可
python和java的本质区别,python和java有什么关系 2301_81900386 python 开发语言人工智能
本篇文章给大家谈谈python和java的本质区别，以及python和java有什么关系，希望对各位有所帮助，不要忘了收藏本站喔。一、主要区别：1.Python比Java简单，学习成本低，开发效率高2.Java运行效率高于Python，尤其是纯Python开发的程序，效率极低3.Java相关资料多，尤其是中文资料4.Java版本比较稳定，Python2和3不兼容导致大量类库失效5.Java开发偏向
HarmonyNext深度解析：ArkUI高效渲染与性能优化实战披光人 harmonyOS ubuntu linux 运维
一、HarmonyNext渲染引擎技术演进（约1200字技术解析）HarmonyOSNext在UI渲染架构层面实现了重大突破，其创新的ArkUI渲染引擎采用分层异步架构设计。核心改进包括：原子化渲染管线采用基于Vulkan的跨平台渲染后端，通过原子化渲染指令拆分技术，实现绘制指令的并行执行能力。在华为Mate60系列实测中，复杂界面渲染延迟降低42%智能脏区检测机制基于机器学习的区域更新预测算法，
Python多版本环境管理UV 坐吃山猪 Python python uv 开发语言
Python多版本环境管理UV1-参考网址Python虚拟环境UV管理工具-官网Python虚拟环境UV管理工具-快速开始pyproject.toml使用指导2-核心知识点1）python项目维护requirements.txt2）python机器学习环境Anaconda3）python轻量级环境管理uv4）uvx快速上手使用3-上手实操1-安装UV虚拟环境管理工具UV官网安装教程#Windows
数据结构 -- 字符串 _安晓数据结构数据结构
字符串串的定义串，即字符串（String）是由零个或多个字符组成的有限序列，一般记为S=‘a1a2a3a4’（n≥0）其中，S是串名，单引号括起来的是字符序列是串的值；ai可以是字母、数字或是其他字符；串中字符的个数n称为串的长度。n=0时的串称为空串（用∅表示）。例：（不同语言可能使用的边界符不同，Java、c等使用双引号（“”）Python等使用单引号（’‘））S="HelloWorld！"T
《探秘人工智能与鸿蒙系统集成开发的硬件基石》程序猿阿伟人工智能 harmonyos 华为
在科技飞速发展的当下，人工智能与鸿蒙系统的集成开发开辟了创新的前沿领域。这一融合不仅代表着技术的演进，更预示着智能设备生态的全新变革。而在这场技术盛宴的背后，坚实的硬件配置是确保开发顺利进行的关键，它就像一座大厦的基石，决定了上层建筑的高度和稳定性。处理器：运算核心的澎湃动力处理器作为硬件系统的核心，在人工智能与鸿蒙系统集成开发中扮演着至关重要的角色。对于模型训练任务，尤其是深度学习模型，其复杂的
Python湖南长沙二手房源爬虫数据可视化分析大屏全屏系统开题报告黄菊华老师大数据库可视化二手房源数据可视化系统
博主介绍：《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者，CSDN博客专家，在线教育专家，CSDN钻石讲师；专注大学生毕业设计教育和辅导。所有项目都配有从入门到精通的基础知识视频课程，免费项目配有对应开发文档、开题报告、任务书、PPT、论文模版等项目都录了发布和功能操作演示视频；项目的界面和功能都可以定制，包安装运行！！！在文章末尾可以获取联系方式Python湖南长沙二手房源爬虫
Java与Python详细比对 -- Java与Python优缺点知之为 python 开发语言 java
系列文章-Java与PythonPython和Java都是比较流行的编程语言，它们各自有着独特的特性和应用场景。python用途最多的是脚本，java用途最多的是web。文章目录系列文章目录-Java与Python前言一、Java与Python整体区别二、Java与Python详细区别2.1语法结构方面2.2编程特性方面2.3语言执行及内存管理方面2.4多线程及网络编程方面2.5开发工具及相关功能
Development Problems Based On PyTorch woxiwangxuehaocpp pytorch 深度学习人工智能
问题解决RuntimeError:unabletowritetofile:Nospaceleftondevice(28)问题描述：Traceback(mostrecentcalllast):File"/opt/conda/lib/python3.10/multiprocessing/queues.py",line244,in_feedobj=_ForkingPickler.dumps(obj)Fi
如何使用Flask或Django框架构建一个简单的Web应用？清水白石008 Python题库 python flask django 前端
如何使用Flask或Django框架构建一个简单的Web应用？Flask和Django是两个流行的PythonWeb框架，用于构建Web应用。Flask是一个轻量级、易于扩展的框架，而Django则是一个功能全面的框架，包含了更多开箱即用的工具和功能。下面将分别介绍如何使用Flask和Django构建一个简单的Web应用。使用Flask构建简单Web应用1.安装Flask首先，确保安装了Flask
Flask 高并发部署方案详细教程！爬遍天下无敌手
前言虽然标题写的是Flask，但是下面这个教程不仅仅只适用于Flask,还适用于其他Pythonweb框架，记得帮忙点赞！众所周知Flask是一个同步的框架，处理请求的时候是以单进程的方式，当同时访问的人数过多时，Flask服务就会出现阻塞的情况。就像我们买火车票一样，当买火车票的人多的时候，排队的人就会很多，队伍就会很长，相应的等待的时间会变得很长！因此Flask,Django，webpy等框架
flask mysql orm_Flask的ORM和查询操作碍事的尾巴 flask mysql orm
Flask的ORMSQLAlchemySQLAlchemy是Python编程语言下的一个嵌入式软件。提供了SQL工具包以及对象关系映射(ORM)工具。SQLAlchemy“采用简单的Python语言，为高效和高级的数据库访问设计，实现完整的企业级持久模型”。SQLAlchemy首次发行于2006年2月，并迅速地在Python社区中最广泛使用的ORM工具之一，不亚于Django的ORM框架。Flas
数据架构与机器学习：如何构建智能系统 AI天才研究院 AI大模型应用入门实战与进阶大数据人工智能语言模型 AI LLM Java Python 架构设计 Agent RPA
1.背景介绍机器学习（MachineLearning）是一种使计算机程序在未被明确编程的情况下，通过经验的学习自动改善其行为的技术。机器学习的目标是使计算机能够自主地从数据中学习，以便在未来的问题中做出更好的决策。数据架构（DataArchitecture）是一种用于有效管理、存储和处理数据的系统结构和组件。数据架构涉及到数据的收集、存储、处理和分析，以及数据的存储和传输。数据架构是构建智能系统的
解锁高性能Web应用：Gunicorn、Flask与Docker的高并发部署秘籍我是瓦力前端 gunicorn flask
引言在当今的互联网时代，高并发Web应用已成为许多企业的核心需求。无论是电商平台、社交网络还是实时数据分析系统，高并发能力直接影响到用户体验和业务成败。本文将带你深入探讨如何利用Gunicorn、Flask和Docker，实现高性能、高并发的Web应用部署。Gunicorn、Flask和Docker的基本概念Gunicorn：GreenUnicorn(简称Gunicorn)是一个PythonWSG
CSS3学习教程，从入门到精通， CSS3入门介绍的语法知识点及案例（1）知识分享小能手前端开发网页开发编程语言如门 css3 学习 css html5 前端 java html
CSS3入门介绍一、CSS3选择器1.1基本选择器/*元素选择器*/p{color:red;}/*类选择器*/.myClass{font-size:20px;}/*ID选择器*/#myId{background-color:yellow;}/*通用选择器*/*{margin:0;padding:0;}这是一个段落这是一个带有类的段落这是一个带有ID的段落1.2属性选择器/*属性选择器*/[href
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23