落空空。

Python全栈开发-数据分析-02 Pandas详解 (上)

Pandas详解 (上)

一. 安装pandas

1.按Win+R,输入CMD确定,

输入 pip install pandas 回车

还要安装xlrd，否则你打不开Excel文件

pip install xrld

二. 数据类型与新建文件

数据类型	说明	新建方法
csv、tsv、txt	用逗号分隔、tab分割的纯文本文件	pd.to_csv
excel	xls或xlsx	pd.to_excel
mysql	关系数据库表	pd.to_sql

2.1 新建空白Excel文件

示例 :

import pandas as pd
path = 'c:/pandas/新建空白文件.xlsx'
data = pd.DataFrame( )
data.to_excel(path)
print('新建空白文件.xlsx成功')

2.2 新建文件同时写入数据

案例 :

import pandas as pd
path = r'E:\Desktop\text\新建空白文件.xlsx'
data=pd.DataFrame({'id':[1,2,3],'姓名':['叶问','李小龙','落空空']})
data.to_excel(path)
print('新建空白文件.xlsx成功')

运行结果如下:

新建空白文件.xlsx成功

并在对应文件夹内成功创建excel表格,内容与其一致

2.3 将id设置为索引

案例 :

import pandas as pd
path = r'E:\Desktop\text\新建空白文件.xlsx'
data = pd.DataFrame({'id':[1,2,3],'姓名':['叶问','李小龙','落空空']}) # 写入的数据
data = data.set_index('id') # 将id设置为索引
data.to_excel(path) # 将数据写入Excel文件
print(data)

运行结果为:

     姓名
id     
1    叶问
2   李小龙
3   落空空

三. 读取数据

数据类型	说明	读取方法
csv、tsv、txt	默认逗号分隔	pd.read_csv
csv、tsv、txt	默认\t分隔	pd.read_table
excel	xls或xlsx	pd.read_excel
mysql	关系数据库表	pd.read_sql

3.1 读取CSV文件

案例:

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件001-005\读取文件.csv'
data = pd.read_csv(path)
print(data)
print('==='*20)
# 二、查看前几行数据
print(data.head()) # 默认是5行，指定行数写小括号里
print('==='*20)
# 三、查看数据的形状，返回（行数、列数）
print(data.shape)
print('==='*20)
# 四、 查看列名列表
print(data.columns)
print('==='*20)
# 五、查看索引列
print(data.index)
print('==='*20)
# 六、查看每一列数据类型
print(data.dtypes)

运行结果为:

  Unnamed: 0  男   杨过  19  13901234567  终南山古墓  2000/1/1
0           0  女  小龙女  25  13801111111  终南山古墓  2000/1/2
1           1  男   郭靖  40  13705555555   湖北襄阳  2020/1/1
2           2  女   黄蓉  35  13601111111   湖北襄阳  2000/1/4
3           3  男  张无忌  18  13506666666     明教  2000/1/5
4           4  女  周芷若  17  13311111111     明教  2000/1/6
5           5  女   赵敏  17  18800000000     明教  2000/1/7
============================================================
   Unnamed: 0  男   杨过  19  13901234567  终南山古墓  2000/1/1
0           0  女  小龙女  25  13801111111  终南山古墓  2000/1/2
1           1  男   郭靖  40  13705555555   湖北襄阳  2020/1/1
2           2  女   黄蓉  35  13601111111   湖北襄阳  2000/1/4
3           3  男  张无忌  18  13506666666     明教  2000/1/5
4           4  女  周芷若  17  13311111111     明教  2000/1/6
============================================================
(6, 7)
============================================================
Index(['Unnamed: 0', '男', '杨过', '19', '13901234567', '终南山古墓', '2000/1/1'], dtype='object')
============================================================
RangeIndex(start=0, stop=6, step=1)
============================================================
Unnamed: 0      int64
男              object
杨过             object
19              int64
13901234567     int64
终南山古墓          object
2000/1/1       object
dtype: object

3.2 自己制定分隔符、列名

案例:

import pandas as pd

path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件001-005\读取文件.xlsx'
data = pd.read_excel(path, header=None, names=['序号', '姓名', '年龄', '手机', '地址', '入职日期'],index_col='序号')
print(data)

运行结果为:

     姓名  年龄           手机     地址                 入职日期
序号                                                  
序号   姓名  年龄           手机     地址                 入职日期
序号   姓名  年龄           手机     地址                 入职日期
序号   姓名  年龄           手机     地址                 入职日期
1    杨过  19  13901234567  终南山古墓  2000-01-01 00:00:00
2   小龙女  25  13801111111  终南山古墓  2000-01-02 00:00:00
3    郭靖  40  13705555555   湖北襄阳  2000-01-03 00:00:00
4    黄蓉  35  13601111111   湖北襄阳  2000-01-04 00:00:00
5   张无忌  18  13506666666     明教  2000-01-05 00:00:00
6   周芷若  17  13311111111     明教  2000-01-06 00:00:00
7    赵敏  17  18800000000     明教  2000-01-07 00:00:00

注意：你的txt文档必需另存为utf-8编码，如果是ASCII报错

参数	描述
sep	分隔符或正则表达式 sep=’\s+’
header	列名的行号，默认0（第一行），如果没有列名应该为None
names	列名，与header=None一起使用
index_col	索引的列号或列名，可以是一个单一的名称或数字，也可以是一个分层索引
skiprows	从文件开始处，需要跳过的行数或行号列表
encoding	文本编码，例如utf-8
nrows	从文件开头处读入的行数 nrows=3

3.3 txt文件转csv文件

案例 :

import pandas as pd
data = pd.read_csv(r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件001-005\读取文件.txt')
data.to_csv(r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件001-005\读取文件.csv')
print(data)

运行结果为:

   男   杨过  19  13901234567  终南山古墓  2000/1/1
0  女  小龙女  25  13801111111  终南山古墓  2000/1/2
1  男   郭靖  40  13705555555   湖北襄阳  2020/1/1
2  女   黄蓉  35  13601111111   湖北襄阳  2000/1/4
3  男  张无忌  18  13506666666     明教  2000/1/5
4  女  周芷若  17  13311111111     明教  2000/1/6
5  女   赵敏  17  18800000000     明教  2000/1/7

3.4 读取MySQL数据库

案例 :

import pandas as pd
import pymysql

pd_sql = pymysql.connect(host='localhost', user='这里填用户', password='这里填密码', database='这里填数据库名', charset='utf8')
data = pd.read_sql('select * from class1', con=这里填连接对象)
print(data)

3.5 读取Excel文件

案例:

import pandas as pd

path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件001-005\读取文件.xlsx'
data = pd.read_excel(path, header=None, names=['序号', '姓名', '年龄', '手机', '地址', '入职日期'],index_col='序号')
print(data)
data.to_excel(path)  # 写入到Excel文件

运行结果为:

注意 : 在这里刚开始不能正常保存excel文件

后来安装了pyexcel-xls才能正常保存

pip install pyexcel-xls

     姓名  年龄           手机     地址       入职日期
序号                                        
1    杨过  19  13901234567  终南山古墓 2000-01-01
2   小龙女  25  13801111111  终南山古墓 2000-01-02
3    郭靖  40  13705555555   湖北襄阳 2000-01-03
4    黄蓉  35  13601111111   湖北襄阳 2000-01-04
5   张无忌  18  13506666666     明教 2000-01-05
6   周芷若  17  13311111111     明教 2000-01-06
7    赵敏  17  18800000000     明教 2000-01-07

案例 :

import pandas as pd

path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件001-005\读取文件.xlsx'
data = pd.read_excel(path)
# 二、查看前几行数据
print(data.head()) # 默认是5行，指定行数写小括号里
print('==='*20)
# 三、查看数据的形状，返回（行数、列数）
print(data.shape)
print('==='*20)
# 四、 查看列名列表
print(data.columns)
print('==='*20)
# 五、查看索引列
print(data.index)
print('==='*20)
# 六、查看每一列数据类型
print(data.dtypes)

运行结果为:

   序号   姓名  年龄           手机     地址       入职日期
0   1   杨过  19  13901234567  终南山古墓 2000-01-01
1   2  小龙女  25  13801111111  终南山古墓 2000-01-02
2   3   郭靖  40  13705555555   湖北襄阳 2000-01-03
3   4   黄蓉  35  13601111111   湖北襄阳 2000-01-04
4   5  张无忌  18  13506666666     明教 2000-01-05
============================================================
(7, 6)
============================================================
Index(['序号', '姓名', '年龄', '手机', '地址', '入职日期'], dtype='object')
============================================================
RangeIndex(start=0, stop=7, step=1)
============================================================
序号               int64
姓名              object
年龄               int64
手机               int64
地址              object
入职日期    datetime64[ns]
dtype: object

自己设置并写入表头的两种方法:
第一种:

import pandas as pd
path= 'c:/pandas/读取文件.xlsx'
data = pd.read_excel(path,header=None)
data.columns=['序号','姓名','年龄','地址','电话','入职日期'] # 给每个列重复设置表头
data=data.set_index('序号') # 重新指定索引列
print(data.columns) # 查看列名列表
data.to_excel(path) # 写入到Excel文件

第二种:

import pandas as pd
path= 'c:/pandas/读取文件.xlsx'
data = pd.read_excel(path,header=None,index_col='序号')
data.columns=['序号','姓名','年龄','地址','电话','入职日期'] # 给每个列重复设置表头
data=data.set_index('序号',inplace=True) # 只在index上面改,不要生成新的
print(data.columns) # 查看列名列表，index和columns是分开的
data.to_excel(path) # 写入到Excel文件

推荐方法:

import pandas as pd
path= 'c:/pandas/读取文件.xlsx'
data = pd.read_excel(path,header=None,names=['序号','姓名','年龄','手机','地址','入职日期'],index_col='序号')
print(data)
data.to_excel(path)

四. pandas数据结构

DataFrame：二维数据，整个表格，多行多列【简称df】
df.index：索引列
df.columns：列名
Series：一维数据，一行或一列

4.1 Series 一维数据，一行或一列

Series是一种类似于一维数组的对象，它由一组数据（不同数据类型）以及一组与之相关的数据标签（即索引）组成。

4.1.1 仅有数据列表即可产生最简单的Series

案例 :

import pandas as pd
data= pd.Series([520,'落空空',1314,'2021-07-30']) # 左侧是索引，右侧是数据
print(data)
print('==='*20)
print(data.index) # 获取索引，返回索引的（起始值，结束值，步长）
print('==='*20)
print(data.values) # 获取数据，返回值序列，打印元素值的列表

运行结果为:

0           520
1           落空空
2          1314
3    2021-07-30
dtype: object
============================================================
RangeIndex(start=0, stop=4, step=1)
============================================================
[520 '落空空' 1314 '2021-07-30']

4.1.2 我们指定Series的索引

案例:

import pandas as pd
data= pd.Series([520,'落空空',1314,'2021-07-30'],index=['a','b','c','d']) # 指定索引
print(data)
print('==='*20)
print(data.index) # 返回指定的索引

运行结果为:

a           520
b           落空空
c          1314
d    2021-07-30
dtype: object
============================================================
Index(['a', 'b', 'c', 'd'], dtype='object')

4.1.3 使用Python字典创建Series

案例:

import pandas as pd
dict1={'姓名':'落空空','性别':'男','年龄':'20','地址':'花果山水帘洞'}
data=pd.Series(dict1)
print(data)
print('==='*20)
print(data.index) # 返回key

运行结果为:

姓名       落空空
性别         男
年龄        20
地址    花果山水帘洞
dtype: object
============================================================
Index(['姓名', '性别', '年龄', '地址'], dtype='object')

4.1.4 根据标签索引查询数据

案例:

print(data) # 查询整个字典
print(data['姓名']) # 通过key可以查对应的值
print(type(data['年龄'])) # 通过key可以查对应值的类型
print('==='*20)
print(data[['姓名','年龄']]) # 通过多个key查对应的值
print(type(data[['姓名','年龄']])) # 注意：他不返回值的类型，而返回Series

运行结果为:

姓名       落空空
性别         男
年龄        20
地址    花果山水帘洞
dtype: object
落空空
<class 'str'>
============================================================
姓名    落空空
年龄     20
dtype: object
<class 'pandas.core.series.Series'>

4.1.5 键和值存在两个列表中，创建Series

案例:

import pandas as pd
list1 = ['姓名','性别','年龄']
list2 = ['落空空','男',20]
data = pd.Series(list2,index=list1) # 指定谁是索引
print(data)

运行结果为:

姓名    落空空
性别      男
年龄     20
dtype: object

4.1.6 Series常用方法

#常用方法
数据.index #查看索引
数据.values #查看数值
数据.isnull() #查看为空的，返回布尔型
数据.notnull()
数据.sort_index() #按索引排序
数据.sort_values() #按数值排序

4.2 认识DataFrame

每列可以是不同的值类型（数值、字符串、布尔值等）

• 既有行索引index，也有列索引columns
• 可以被看做由Series组成的字典
• DataFrame是一个表格型的数据结构

创建DataFrame最常用的方法，参考读取CSV、TXT、Excel、MySQL等

案例：

import pandas as pd
data=pd.DataFrame([[1,2,3],[4,5,6],[7,8,9]],columns=['a','b','c'])
print(data)
print('==='*20)
print(data['a'][0] )
print('==='*20)
print(data.loc[0]['a'] )
print('==='*20)
print(data.iloc[0][0] )
print('==='*20)
print(data[['a','b']])

运行结果为：

   a  b  c
0  1  2  3
1  4  5  6
2  7  8  9
============================================================
1
============================================================
1
============================================================
1
============================================================
   a  b
0  1  2
1  4  5
2  7  8

4.2.1 DataFrame 整个表格

案例：

import pandas as pd
dict1 = {
'姓名':['落空空','李小龙','叶问'],
'年龄':[20,80,127],
'功夫':['撸铁','截拳道','咏春']
}
data = pd.DataFrame(dict1)
print(data)
print('==='*20)
print(data.dtypes) # 返回每一列的类型
print('==='*20)
print(data.columns) # 返回列索引，以列表形式返回：[列名1，列名2，…]
print('==='*20)
print(data.index) # 返回行索引，（起始，结束，步长）

运行结果为：

    姓名   年龄   功夫
0  落空空   20   撸铁
1  李小龙   80  截拳道
2   叶问  127   咏春
============================================================
姓名    object
年龄     int64
功夫    object
dtype: object
============================================================
Index(['姓名', '年龄', '功夫'], dtype='object')
============================================================
RangeIndex(start=0, stop=3, step=1)

4.2.2 从DataFrame中查询出Series

案例：

# 如果只查询一列，返回的是pd.Series 
print(data['姓名']) # 返回索引和这一列数据
print('==='*20)
# 如果只查询一行，返回的是pd.Series 
print(data.loc[1]) # 这时，它的索引是列名
print('==='*20)
# 如果查询多列，返回的是pd.DataFrame 
print(data[['姓名','年龄']]) # 返回索引和这两列数据
print('==='*20)
# 如果查询多行，返回的是pd.DataFrame 
print(data.loc[1:3]) # 返回前3行，包括结束值

运行结果为：

0    落空空
1    李小龙
2     叶问
Name: 姓名, dtype: object
============================================================
姓名    李小龙
年龄     80
功夫    截拳道
Name: 1, dtype: object
============================================================
    姓名   年龄
0  落空空   20
1  李小龙   80
2   叶问  127
============================================================
    姓名   年龄   功夫
1  李小龙   80  截拳道
2   叶问  127   咏春

4.2.3 将多个Series加入DataFrame

案例：

import pandas as pd
data1 = pd.Series(['叶问','李小龙','落空空'],index=[1,2,3],name='姓名')
data2 = pd.Series(['男','男','男'],index=[1,2,3],name='性别')
data3 = pd.Series([127,80,20],index=[1,2,3],name='年龄')
table1 = pd.DataFrame({data1.name:data1,data2.name:data2,data3.name:data3})
print(table1)

运行结果为：

    姓名 性别   年龄
1   叶问  男  127
2  李小龙  男   80
3  落空空  男   20

4.2.4 DataFrame常用方法

# 常用方法
数据.head( 5 ) #查看前5行
数据.tail( 3 ) #查看后3行
数据.values #查看数值
数据shape #查看行数、列数
数据.fillna(0) #将空值填充0
数据.replace( 1, -1) #将1替换成-1
数据.isnull() #查找数据中出现的空值
数据.notnull() #非空值
数据.dropna() #删除空值
数据.unique() #查看唯一值
数据.reset_index() #修改、删除，原有索引，详见例1
数据.columns #查看数据的列名
数据.index #查看索引
数据.sort_index() #索引排序
数据.sort_values() #值排序
pd.merge(数据1,数据1) #合并
pd.concat([数据1,数据2]) #合并，与merge的区别，自查
pd.pivot_table( 数据 ) #用df做数据透视表（类似于Excel的数透）

五. 连接查询

5.1 Merge

首先merge的操作非常类似sql里面的join，实现将两个Dataframe根据一些共有的列连接起来，当然，在实际场景中，这些共有列一般是Id，
连接方式也丰富多样，可以选择inner(默认)，left,right,outer 这几种模式，分别对应的是内连接，左连接，右连接，全外连接

5.1.1 InnerMerge (内连接)

内连接的参数on和how可以省略

数据3 = pd.merge(数据1,数据2,on='姓名',how='inner')

连接后,显示两个表内的公有数据(交集)

案例 :

import numpy as np
import pandas as pd
data1= pd.DataFrame({'姓名':['叶问','李小龙','落空空','李小龙','叶问','叶问'],'出手次数1':np.arange(6)})
data2 = pd.DataFrame({'姓名':['黄飞鸿','落空空','李小龙'],'出手次数2':[1,2,3]})
data3 = pd.merge(data1,data2)
print(data1)
print('==='*20)
print(data2)
print('==='*20)
print(data3)

运行结果为:
李小龙和落空空在data1和data2中都存在,所以都存入data3

    姓名  出手次数1
0   叶问      0
1  李小龙      1
2  落空空      2
3  李小龙      3
4   叶问      4
5   叶问      5
============================================================
    姓名  出手次数2
0  黄飞鸿      1
1  落空空      2
2  李小龙      3
============================================================
    姓名  出手次数1  出手次数2
0  李小龙      1      3
1  李小龙      3      3
2  落空空      2      2

5.1.2 LeftMerge (左连接)

以左边参数的表为标准,右边的表链接进去

案例 :

import numpy as np
import pandas as pd
data1= pd.DataFrame({'姓名':['叶问','李小龙','落空空','李小龙','叶问','叶问'],'出手次数1':np.arange(6)})
data2 = pd.DataFrame({'姓名':['黄飞鸿','落空空','李小龙'],'出手次数2':[1,2,3]})
data3 = pd.merge(data1,data2,on='姓名',how='left')
print(data1)
print('==='*20)
print(data2)
print('==='*20)
print(data3)

运行结果为:

    姓名  出手次数1
0   叶问      0
1  李小龙      1
2  落空空      2
3  李小龙      3
4   叶问      4
5   叶问      5
============================================================
    姓名  出手次数2
0  黄飞鸿      1
1  落空空      2
2  李小龙      3
============================================================
    姓名  出手次数1  出手次数2
0   叶问      0    NaN
1  李小龙      1    3.0
2  落空空      2    2.0
3  李小龙      3    3.0
4   叶问      4    NaN
5   叶问      5    NaN

5.1.3 RightMerge (右连接)

以右边参数的表为标准,左边的表链接进去

案例:

import numpy as np
import pandas as pd
data1= pd.DataFrame({'姓名':['叶问','李小龙','落空空','李小龙','叶问','叶问'],'出手次数1':np.arange(6)})
data2 = pd.DataFrame({'姓名':['黄飞鸿','落空空','李小龙'],'出手次数2':[1,2,3]})
data3 = pd.merge(data1,data2,on='姓名',how='right')
print(data1)
print('==='*20)
print(data2)
print('==='*20)
print(data3)

运行结果为:

    姓名  出手次数1
0   叶问      0
1  李小龙      1
2  落空空      2
3  李小龙      3
4   叶问      4
5   叶问      5
============================================================
    姓名  出手次数2
0  黄飞鸿      1
1  落空空      2
2  李小龙      3
============================================================
    姓名  出手次数1  出手次数2
0  黄飞鸿    NaN      1
1  落空空    2.0      2
2  李小龙    1.0      3
3  李小龙    3.0      3

5.1.4 OuterMerge (全连接)

两张表的联合(并集)

案例:

import numpy as np
import pandas as pd
data1= pd.DataFrame({'姓名':['叶问','李小龙','落空空','李小龙','叶问','叶问'],'出手次数1':np.arange(6)})
data2 = pd.DataFrame({'姓名':['黄飞鸿','落空空','李小龙'],'出手次数2':[1,2,3]})
data3 = pd.merge(data1,data2,on='姓名',how='outer')
print(data1)
print('==='*20)
print(data2)
print('==='*20)
print(data3)

运行结果为:

    姓名  出手次数1
0   叶问      0
1  李小龙      1
2  落空空      2
3  李小龙      3
4   叶问      4
5   叶问      5
============================================================
    姓名  出手次数2
0  黄飞鸿      1
1  落空空      2
2  李小龙      3
============================================================
    姓名  出手次数1  出手次数2
0   叶问    0.0    NaN
1   叶问    4.0    NaN
2   叶问    5.0    NaN
3  李小龙    1.0    3.0
4  李小龙    3.0    3.0
5  落空空    2.0    2.0
6  黄飞鸿    NaN    1.0

5.1.5 MultipleKey Merge (基于多个key上的merge)

刚才我们都是仅仅实现的在一个key上的merge，当然我们也可以实现基于多个keys的merge

案例:

import pandas as pd
data1 = pd.DataFrame({'姓名': ['张三', '张三', '王五'],'班级': ['1班', '2班', '1班'],'分数': [10,20,30]})
print(data1)
print('==='*20)
data2 = pd.DataFrame({'姓名': ['张三', '张三', '王五','王五'],'班级': ['1班', '1班', '1班','2班'],'分数': [40,50,60,70]})
print(data2)
print('==='*20)
data3= pd.merge(data1,data2,on=['姓名','班级']) # 内连接（交集）的结果
print(data3)
print('==='*20)
data4= pd.merge(data1,data2,on=['姓名','班级'],how='outer') # 外连接（并集）的结果
print(data4)

运行结果为:

   姓名  班级  分数
0  张三  1班  10
1  张三  2班  20
2  王五  1班  30
============================================================
   姓名  班级  分数
0  张三  1班  40
1  张三  1班  50
2  王五  1班  60
3  王五  2班  70
============================================================
   姓名  班级  分数_x  分数_y
0  张三  1班    10    40
1  张三  1班    10    50
2  王五  1班    30    60
============================================================
   姓名  班级  分数_x  分数_y
0  张三  1班  10.0  40.0
1  张三  1班  10.0  50.0
2  张三  2班  20.0   NaN
3  王五  1班  30.0  60.0
4  王五  2班   NaN  70.0

5.1.6 Merge on Index (基于index上的merge)

我们还可以实现几个Dataframe基于Index的merge，还是老样子，先让我们创建两个Dataframe

import pandas as pd
data1 = pd.DataFrame({'姓名': ['张三','李四','王五','张三','李四'],'次数':range(5)})
data2 = pd.DataFrame({'数据': [10, 20]}, index=['张三','李四'])
data3=pd.merge(data1,data2,left_on='姓名',right_index=True)
print(data3)
print('==='*20)
data4=pd.merge(data1,data2,left_on='姓名',right_index=True,how='outer')
print(data4)

运行结果为:

   姓名  次数  数据
0  张三   0  10
3  张三   3  10
1  李四   1  20
4  李四   4  20
============================================================
   姓名  次数    数据
0  张三   0  10.0
3  张三   3  10.0
1  李四   1  20.0
4  李四   4  20.0
2  王五   2   NaN

5.1.7 总结

（1）通过on指定数据合并对齐的列

result = pd.merge(left, right, on=[‘key1’, ‘key2’])

（2）没有指定how的话默认使用inner方法，除了内连接，还包括左连接、右连接、全外连接

左连接：
result = pd.merge(left, right, how=‘left’, on=[‘key1’, ‘key2’])

右连接：
result = pd.merge(left, right, how=‘right’, on=[‘key1’, ‘key2’])

全外连接：
result = pd.merge(left, right, how=‘outer’, on=[‘key1’, ‘key2’])

5.2 Join

案例:

import pandas as pd
left_dict={'姓名1':['叶问','李小龙','落空空'],'年龄1':[127,80,20]}
right_dict={'姓名2':['大刀王五','霍元甲','陈真'],'年龄2':[176,152,128]}
left = pd.DataFrame(left_dict)
right = pd.DataFrame(right_dict)
print(left.join(right))

运行结果为:

   姓名1  年龄1   姓名2  年龄2
0   叶问  127  大刀王五  176
1  李小龙   80   霍元甲  152
2  落空空   20    陈真  128

其实通过这一个小例子大家也就明白了，join无非就是合并，默认是横向，还有一个点需要注意的是，我们其实可以通过join实现和merge一样的效果，但是为了
避免混淆，我不会多举其他的例子了，因为我个人认为一般情况下还是用merge函数好一些

join方法将两个DataFrame中不同的列索引合并成为一个DataFrame参数的意义与merge基本相同，只是join方法默认左外连接how=left

def join(self, other, on=None, how='left', lsuffix='', rsuffix='',sort=False):

（1）on参数
result = left.join(right, on=‘key’)

（3）组合多个dataframe
一次组合多个dataframe的时候可以传入元素为dataframe的列表或者tuple。一次join多个，一次解决多次烦恼~

right2 = pd.DataFrame({'v': [7, 8, 9]}, index=['K1', 'K1', 'K2'])
result = left.join([right, right2])

5.3 Concat

import numpy as np
arr = np.arange(9).reshape((3,3))
print(arr)
arr1 = np.concatenate([arr,arr],axis=1)
print(arr1)
arr2 = np.concatenate([arr,arr],axis=0)
print(arr2)

运行结果为:

[[0 1 2]
 [3 4 5]
 [6 7 8]]
[[0 1 2 0 1 2]
 [3 4 5 3 4 5]
 [6 7 8 6 7 8]]
[[0 1 2]
 [3 4 5]
 [6 7 8]
 [0 1 2]
 [3 4 5]
 [6 7 8]]

concat语法

concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,keys=None, levels=None, names=None, verify_integrity=False,
sort=None, copy=True)

5.3.1 在Pandas中使用Concat

案例:

import pandas as pd
data1 = pd.Series([0,1,2],index=['A','B','C'])
data2 = pd.Series([3,4],index=['D','E'])
data3 = pd.concat([data1,data2])
print(data3)

运行结果为:

A    0
B    1
C    2
D    3
E    4
dtype: int64

在上面的例子中，我们分别创建了两个没有重复Index的Series,然后用concat默认的把它们合并在一起，这时生成的依然是Series类型，如果我们把axis换成1，那生成
的就是Dataframe,像下面一样

data4 = pd.concat([data1,data2],axis=1,sort =True) # sort=Ture是默认的，pandas总是默认index排序，默认axis=0
print(data4)

运行结果为:

     0    1
A  0.0  NaN
B  1.0  NaN
C  2.0  NaN
D  NaN  3.0
E  NaN  4.0

5.3.2 首尾相接

frames = [df1, df2, df3]
result = pd.concat(frames)

要在相接的时候在加上一个层次的key来识别数据源自于哪张表，可以增加key参数

result = pd.concat(frames, keys=['x', 'y', 'z'])

5.3.3 横向表拼接（行对齐）

（1）axis
当axis = 1的时候，concat就是行对齐，然后将不同列名称的两张表合并

result = pd.concat([df1, df4], axis=1)

（2）join
加上join参数的属性，如果为’inner’得到的是两表的交集，如果是
outer，得到的是两表的并集。

result = pd.concat([df1, df4], axis=1, join='inner')

（3）join_axes
如果有join_axes的参数传入，可以指定根据那个轴来对齐数据
例如根据df1表对齐数据，就会保留指定的df1表的轴，然后将df4的表与之
拼接

result = pd.concat([df1, df4], axis=1, join_axes=[df1.index])

5.3.4 append

append是series和dataframe的方法，使用它就是默认沿着列进行凭借（axis = 0，列对齐）

result = df1.append(df2)

5.3.5 无视index的concat

如果两个表的index都没有实际含义，使用ignore_index参数，置true，合并的两个表就是根据列字段对齐，然后合并。最后再重新整理一个新的index。

5.3.6 合并的同时增加区分数据组的键

前面提到的keys参数可以用来给合并后的表增加key来区分不同的表数据来源
（1）可以直接用key参数实现

result = pd.concat(frames, keys=['x', 'y', 'z'])

（2）传入字典来增加分组键

pieces = {'x': df1, 'y': df2, 'z': df3}
result = pd.concat(pieces)

5.3.7 在dataframe中加入新的行

append方法可以将 series 和字典就够的数据作为dataframe的新一行插入。

s2 = pd.Series(['X0', 'X1', 'X2', 'X3'], index=['A', 'B', 'C', 'D'])
result = df1.append(s2, ignore_index=True)

5.3.8 表格列字段不同的表合并

如果遇到两张表的列字段本来就不一样，但又想将两个表合并，其中无效的值用nan来表示。那么可以使用ignore_index来实现。

dicts = [{'A': 1, 'B': 2, 'C': 3, 'X': 4}, {'A': 5, 'B': 6, 'C': 7, 'Y': 8}]
result = df1.append(dicts, ignore_index=True)

六. 填充常用类型数据

pd.read_excel参数：

skiprows=行数 #跳过几行
usecols="区域" # 和Excel中一样，就是一个列的区域
index_col="字段名" # 将谁设置为索引
dtype={'序号':str,'性别':str,'日期':str} # 防止出错，把类型全指定为字符型

数据.at的用法

作用：获取某个位置的值，例如，获取第0行，第a列的值，即：index=0，columns=‘a’

变量名 = 数据.at[0, 'a']

日期模块 datetime

import pandas as pd
import datetime as dt

def add_month(date, month):
    year = month // 12
    mon = date.month + month % 12
    if mon != 12:
        year = year + mon // 12
        mon = mon % 12
    return dt.date(date.year + year, mon, date.day)


path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件010\自动填充.xlsx'
data = pd.read_excel(path, skiprows=8, usecols='F:I', dtype={'序号': str, '性别': str, '日期': str})
start_date = dt.date(2021, 7, 27)
for i in data.index:
    data['序号'].at[i] = i + 1
    data['性别'].at[i] = '男' if i % 2 == 0 else '女'
    # data['日期'].at[i] = start_date + dt.timedelta(days=i)
    data['日期'].at[i] = dt.date(start_date.year + i, start_date.month, start_date.day)
    data['日期'].at[i] = add_month(start_date, i)
data.set_index('序号',inplace=True)
# data.to_excel(path)
print(data)

运行结果为:

    姓名 性别          日期
序号                   
1   张三  男  2021-07-27
2   李四  女  2021-08-27
3   王五  男  2021-09-27

6.1 填充数字

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件010\自动填充.xlsx'
data = pd.read_excel(path)
print(data)

这样做不行，因为所有的空行和空列会被显示为Nan

skiprows 从文件开始处，需要跳过的行数或行号列表

如下图,跳过前8行

下图为选择列

6.2 填充字符

遇到填充时，这里都指定为str类型，因为他不支持int等类型

6.3 填充日期

如果只想累加年份，用Date

timedelta只能加天，小时，秒，毫秒
但是月的累计很麻烦，因为累加到12月就要进1位到年份上

这个时候，设置索引不能在read_excel中完成，因为我们在填充时用到他的自动索引，需要用另一个方法设置索引

数据.set_index(‘序号’,inplace=True) # 只在index上面改,不要生成新的
数据.to_excel(路径) # 写入Excel文件

6.4 在CSV中完成自动填充

七. 计算列

案例 :

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件011\计算列.xlsx'
data = pd.read_excel(path,index_col='序号')
data['销售金额']=data['单价']*data['销售数量']
print(data)

运行结果为:

   商品名称  单价  销售数量  销售金额
序号                     
1    香蕉   5    20   100
2    苹果   6    15    90
3     梨   3    18    54

当你不想全部都计算，只想计算一部分行的时候，需要使用For循环

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件011\计算列.csv'
data = pd.read_csv(path,index_col='序号')
for i in range(1,3):
    data['销售金额'].at[i] = data['单价'].at[i] * data['销售数量'].at[i]
print(data)

运行结果为:

   商品名称  单价  销售数量   销售金额
序号                      
1    香蕉   5    20  100.0
2    苹果   6    15   90.0
3     梨   3    18    NaN

7.1 pandas apply() 函数

理解 pandas 的函数，要对函数式编程有一定的概念和理解。函数式编程，包括函数式编程思维，当然是一个很复杂的话题，但对今天介绍的 apply() 函数，只需要理解：函数作为一个对象，能作为参数传递给其它参数，并且能作为函数的返回值。

pandas 的 apply()函数可以作用于 Series 或者整个 DataFrame，功能也是自动遍历整个 Series 或者 DataFrame, 对每一个元素运行指定的函数

Series.apply()：民族为少数民族的加5分

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件011\apply函数.xlsx'
data = pd.read_excel(path,index_col='序号')
data['加分']=data['民族'].apply(lambda x:5 if x != '汉' else 0)
data['最终分数'] = data['总分']+data['加分']
print(data)

运行结果为:

    姓名 民族   总分  加分  最终分数
序号                      
1   张三  汉  591   0   591
2   李四  满  589   5   594
3   王五  回  587   5   592

apply() 函数当然也可执行 python 内置的函数，比如我们想得到 Name 这一列字符的个数，如果用 apply() 的话：

data['姓名字符个数']=data['姓名'].apply(len)
print(data)

运行结果为:

    姓名 民族   总分  加分  最终分数  姓名字符个数
序号                              
1   张三  汉  591   0   591       2
2   李四  满  589   5   594       2
3   王五  回  587   5   592       2

DataFrame.apply() 函数则会遍历每一个元素，对元素运行指定的 function。比如下面的示例：计算数组的平方根

import pandas as pd
import numpy as np

arr = [
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
]
data = pd.DataFrame(arr, columns=['x', 'y', 'z'], index=['a', 'b', 'c'])
print(data.apply(np.square))

运行结果为:

    x   y   z
a   1   4   9
b  16  25  36
c  49  64  81

如果只想 apply() 作用于指定的行和列，可以用行或者列的 name 属性进行限定。比如下面的示例将 x 列进行平方运算：

data2 = data.apply(lambda a : np.square(a) if a.name=='x' else a)
print(data2)

运行结果为:

    x  y  z
a   1  2  3
b  16  5  6
c  49  8  9

对 x 和 y 列进行平方运算：

data3 = data.apply(lambda a : np.square(a) if a.name in ['x','y'] else a)
print(data3)

运行结果为:

    x   y  z
a   1   4  3
b  16  25  6
c  49  64  9

第一行（a 标签所在行）进行平方运算：

data4 = data.apply(lambda m : np.square(m) if m.name == 'a' else m, axis=1)
print(data4)

运行结果为:

第一行和第三行（a标签和c标签所在行）进行平方运算

data5 = data.apply(lambda m : np.square(m) if m.name in ['a','c'] else m, axis=1)
print(data5)

运行结果为:

    x   y   z
a   1   4   9
b   4   5   6
c  49  64  81

7.2 apply函数计算日期相减

平时我们会经常用到日期的计算，比如要计算两个日期的间隔，比如下面的一组关于起止日期的数据：

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件011\计算日期.xlsx'
data=pd.read_excel(path,index_col='序号')
data['间隔']=data['结束日期']-data['起始日期']
print(data)

运行结果为:

         起始日期       结束日期       间隔
序号                               
1  2020-01-01 2020-01-08   7 days
2  2020-03-01 2020-09-07 190 days
3  2020-05-03 2020-08-08  97 days
4  2020-04-08 2020-11-08 214 days
5  2020-07-30 2021-09-03 400 days

八. 排序

格式:

DataFrame.sort_values(by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last')

参数说明

axis：如果axis=0，那么by=“列名”；如果axis=1，那么by=“行号”；
ascending:True则升序，可以是[True,False]，即第一字段升序，第二个降序
inplace=True：不创建新的对象，直接对原始对象进行修改；
inplace=False：对数据进行修改，创建并返回新的对象承载其修改结果。

kind:排序方法，{‘quicksort’, ‘mergesort’, ‘heapsort’}, default ‘quicksort’。似乎不用太关心
na_position : {‘first’, ‘last’}, default ‘last’，默认缺失值排在最后面

数据如下:

例1：按语文分数降序排列

import pandas as pd
path = 'E:\Desktop\科学计算\Pandas课件\pandas教程\课件012\排序.xlsx'
data = pd.read_excel(path,index_col='序号')
data.sort_values(by='语文',inplace=True,ascending=False)
print(data)

运行结果为:

     姓名  语文  数学  英语
序号                 
4    张伊  69  44  58
1   卢海军  64  49  49
2   丁智敏  61  61  60
3   李平平  58  49  33
6    王松  47  44  62
5    王刚  37  63  42

例2：按语文分数排序降序，数学升序，英语降序

import pandas as pd
path = 'E:\Desktop\科学计算\Pandas课件\pandas教程\课件012\排序.xlsx'
data = pd.read_excel(path,index_col='序号')
data.sort_values(by=['语文','数学','英语'],inplace=True,ascending=[False,True,False])
print(data)

运行结果为:

     姓名  语文  数学  英语
序号                 
4    张伊  69  44  58
1   卢海军  64  49  49
2   丁智敏  61  61  60
3   李平平  58  49  33
6    王松  47  44  62
5    王刚  37  63  42

例3：按索引进行排序

import pandas as pd
path = 'E:\Desktop\科学计算\Pandas课件\pandas教程\课件012\排序.xlsx'
data = pd.read_excel(path,index_col='序号')
data.sort_index(inplace=True)
print(data)

运行结果为:

     姓名  语文  数学  英语
序号                 
1   卢海军  64  49  49
2   丁智敏  61  61  60
3   李平平  58  49  33
4    张伊  69  44  58
5    王刚  37  63  42
6    王松  47  44  62

进阶排序篇:
数据如下:

按a列降序排序

import pandas as pd
path = 'E:\Desktop\科学计算\Pandas课件\pandas教程\课件012\排序进阶.xlsx'
data = pd.read_excel(path)
data.sort_values(by='a',inplace=True,ascending=False)
print(data)

运行结果为:

按 2 行降序排序

import pandas as pd
path = 'E:\Desktop\科学计算\Pandas课件\pandas教程\课件012\排序进阶.xlsx'
data = pd.read_excel(path)
data.sort_values(by=1,inplace=True,ascending=False,axis=1)
print(data)

运行结果为:

九. 查询数据【loc】

注意:如果查询的数据里面牵扯到日期的查询,那么一定要把日期指定为索引再去查

首先先将日期作为索引看一下数据:

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件013-014\筛选.xlsx'
data = pd.read_excel(path,index_col='出生日期')
print(data)

运行结果为:

            序号   姓名 性别  语文  数学  英语   总分               地址
出生日期                                                    
1983-01-05   1  卢海军  男  64  49  49  162     上海市某某区某某小区A座
1983-10-27   2  丁智敏  女  61  61  60  182     冀州市某某区某某小区a座
1994-01-07   3  李平平  女  58  49  33  140     襄阳市某某区某某小区c座
1987-02-06   4   张伊  女  69  44  58  171  河南省信阳市某某区某某小区C座
1989-07-08   5   王刚  男  37  63  42  142     信阳市某某区某某小区B座
1987-03-06   6   王松  男  47  44  62  153     襄阳市某某区某某小区F座

9.1 单条件查询

语法：loc[行标签，列标签]
查看 1983-10-27 的语文成绩

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件013-014\筛选.xlsx'
data = pd.read_excel(path,index_col='出生日期')
print(data.loc['1983-10-27','语文'])

运行结果为:

出生日期
1983-10-27    61
Name: 语文, dtype: int64

9.2 多条件查询

查看 1983-10-27的语文数学英语成绩

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件013-014\筛选.xlsx'
data = pd.read_excel(path,index_col='出生日期')
print(data.loc['1983-10-27',['语文','数学','英语']])

运行结果为:

            语文  数学  英语
出生日期                  
1983-10-27  61  61  60

9.3 使用数据区间范围进行查询

查看1983-10-27 到 1990-12-31的语文数学英语成绩

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件013-014\筛选.xlsx'
data = pd.read_excel(path,index_col='出生日期')
print(data.loc['1983-10-27':'1990-12-31',['语文','数学','英语']])

运行结果为:

            语文  数学  英语
出生日期                  
1983-10-27  61  61  60
1987-02-06  69  44  58
1989-07-08  37  63  42
1987-03-06  47  44  62

9.4 使用条件表达式进行查询

查询语文成绩大于60 英语成绩小于60的信息

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件013-014\筛选.xlsx'
data = pd.read_excel(path,index_col='出生日期')
print(data.loc[(data['语文'] > 60) & (data['英语'] < 60),:])

这里的 ,: 指的是列取全部
运行结果为:

            序号   姓名 性别  语文  数学  英语   总分               地址
出生日期                                                    
1983-01-05   1  卢海军  男  64  49  49  162     上海市某某区某某小区A座
1987-02-06   4   张伊  女  69  44  58  171  河南省信阳市某某区某某小区C座

9.5 loc实现条件判断

添加称呼列,将男性赋值为先生 ,女性赋值为女士

import pandas as pd
import datetime as dt
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件013-014\条件判断.xlsx'
data = pd.read_excel(path,index_col='序号')
data.loc[data['性别'] == "男","称呼"] = "先生"
data.loc[data['性别'] == "女","称呼"] = "女士"
print(data)

运行结果为:

    姓名 性别  语文  数学  英语  称呼
序号                       
1   张三  男  89  60  88  先生
2   李四  女  60  71  98  女士
3   王五  男  73  84  68  先生
4   小孙  男  85  96  96  先生
5   小刘  女  70  63  97  女士
6   小赵  女  63  63  91  女士

十. 筛选

1.加载数据

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件013-014\筛选.xlsx'
data = pd.read_excel(path,index_col='序号',sheet_name='Sheet1')
print(data)

运行结果为:

     姓名 性别       出生日期  语文  数学  英语   总分               地址
序号                                                     
1   卢海军  男 1983-01-05  64  49  49  162     上海市某某区某某小区A座
2   丁智敏  女 1983-10-27  61  61  60  182     冀州市某某区某某小区a座
3   李平平  女 1994-01-07  58  49  33  140     襄阳市某某区某某小区c座
4    张伊  女 1987-02-06  69  44  58  171  河南省信阳市某某区某某小区C座
5    王刚  男 1989-07-08  37  63  42  142     信阳市某某区某某小区B座
6    王松  男 1987-03-06  47  44  62  153     襄阳市某某区某某小区F座

2.按位置筛选，筛选第2行至第4行数据

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件013-014\筛选.xlsx'
data = pd.read_excel(path,index_col='序号',sheet_name='Sheet1')
data2=data.loc[2:4]
print(data2)

运行结果为:

     姓名 性别       出生日期  语文  数学  英语   总分               地址
序号                                                     
2   丁智敏  女 1983-10-27  61  61  60  182     冀州市某某区某某小区a座
3   李平平  女 1994-01-07  58  49  33  140     襄阳市某某区某某小区c座
4    张伊  女 1987-02-06  69  44  58  171  河南省信阳市某某区某某小区C座

3.按值过滤，筛选所有男性

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件013-014\筛选.xlsx'
data = pd.read_excel(path,index_col='序号',sheet_name='Sheet1')
choose = data['性别'] == '男'
print(data[choose])

运行结果为:

    姓名 性别       出生日期  语文  数学  英语   总分            地址
序号                                                  
1   卢海军  男 1983-01-05  64  49  49  162  上海市某某区某某小区A座
5    王刚  男 1989-07-08  37  63  42  142  信阳市某某区某某小区B座
6    王松  男 1987-03-06  47  44  62  153  襄阳市某某区某某小区F座

4.多条件筛选，男性和总分大于等于150

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件013-014\筛选.xlsx'
data = pd.read_excel(path,index_col='序号',sheet_name='Sheet1')
choose = "性别 == '男' and 总分 >= 150"
print(data.query(choose))

运行结果为:

     姓名 性别       出生日期  语文  数学  英语   总分            地址
序号                                                  
1   卢海军  男 1983-01-05  64  49  49  162  上海市某某区某某小区A座
6    王松  男 1987-03-06  47  44  62  153  襄阳市某某区某某小区F座

query 方法，可以直接接受一个查询字符串，是不是很像 Sql 呢.指定多个值也很简单,使用in 或not in，如下：

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件013-014\筛选.xlsx'
data = pd.read_excel(path,index_col='序号',sheet_name='Sheet1')
choose="姓名 in['王松','王刚']"
print(data.query(choose))

运行结果为:

    姓名 性别       出生日期  语文  数学  英语   总分            地址
序号                                                 
5   王刚  男 1989-07-08  37  63  42  142  信阳市某某区某某小区B座
6   王松  男 1987-03-06  47  44  62  153  襄阳市某某区某某小区F座

10.1 文本筛选：开头与结尾

startswith( ) endwith( )
startswith()函数

描述：判断字符串是否以指定字符或子字符串开头。
语法：str.endswith(“suffix”, start, end) 或 str[start,end].endswith(“suffix”) 用于判断字符串中某段字符串是否以指定字符或子字符串结尾。

—> bool 返回值为布尔类型（True,False）
suffix — 后缀，可以是单个字符，也可以是字符串，还可以是元组（"suffix"中的引号要省略）。
start —索引字符串的起始位置。
end— 索引字符串的结束位置。
str.endswith(suffix) star默认为0，end默认为字符串的长度减一（len(str)-1）

注意：空字符的情况。返回值通常也为True

例：姓名列开头姓王的

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件013-014\筛选.xlsx'
data = pd.read_excel(path,index_col='序号',sheet_name='Sheet1')
choose = data['姓名'].str.startswith('王') # 如果是结尾，就改成endwith
print(data[choose])

运行结果为:

    姓名 性别       出生日期  语文  数学  英语   总分            地址
序号                                                 
5   王刚  男 1989-07-08  37  63  42  142  信阳市某某区某某小区B座
6   王松  男 1987-03-06  47  44  62  153  襄阳市某某区某某小区F座

10.2 文本筛选：包含

str.contains(pat, case=True, flags=0, na=nan, regex=True)#是否包含查找的字符串

参数:

pat : 字符串/正则表达式
case : 布尔值, 默认为True.如果为True则匹配敏感
flags : 整型,默认为0(没有flags)
na : 默认为NaN,替换缺失值.
regex : 布尔值, 默认为True.如果为真则使用re.research,否则使用Python

返回值:

布尔值的序列(series)或数组(array)

例1：筛选地址包含信阳市

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件013-014\筛选.xlsx'
data = pd.read_excel(path,index_col='序号',sheet_name='Sheet1')
choose = data['地址'].str.contains('信阳市')
print(data[choose])

运行结果为:

    姓名 性别       出生日期  语文  数学  英语   总分               地址
序号                                                    
4   张伊  女 1987-02-06  69  44  58  171  河南省信阳市某某区某某小区C座
5   王刚  男 1989-07-08  37  63  42  142     信阳市某某区某某小区B座

10.3 筛选值范围

例1：语文分数在60至100之间的女性

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件013-014\筛选.xlsx'
data = pd.read_excel(path,index_col='序号',sheet_name='Sheet1')
choose = " 60 <= 语文 <= 100 and 性别 == '女'"
print(data.query(choose))

运行结果为:

     姓名 性别       出生日期  语文  数学  英语   总分               地址
序号                                                     
2   丁智敏  女 1983-10-27  61  61  60  182     冀州市某某区某某小区a座
4    张伊  女 1987-02-06  69  44  58  171  河南省信阳市某某区某某小区C座

10.4 筛选日期

10.4.1 获取某年某月数据

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件013-014\筛选.xlsx'
data = pd.read_excel(path,index_col='出生日期',parse_dates=['出生日期'])
print(data['1989'].head())
print(data['1983-10'].head())

运行结果为:

            序号  姓名 性别  语文  数学  英语   总分            地址
出生日期                                                
1989-07-08   5  王刚  男  37  63  42  142  信阳市某某区某某小区B座
            序号   姓名 性别  语文  数学  英语   总分            地址
出生日期                                                 
1983-10-27   2  丁智敏  女  61  61  60  182  冀州市某某区某某小区a座

10.4.2 获取某个时期之前或之后的数据

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件013-014\筛选.xlsx'
data = pd.read_excel(path,index_col='出生日期',parse_dates=['出生日期'])
data2 = data.sort_values('出生日期')
# 获取某个时期之前或之后的数据
# 获取1980年以后的数据
print(data2.truncate(before='1980').head())
print('==='*20)
# 获取1990-12之前的数据
print(data2.truncate(after='1990-12').head())
print('==='*20)
# 获取1990-02年以后的数据
print(data2.truncate(before='1990-02').head())
print('==='*20)
# 获取1984-01-01年以后的数据
print(data2.truncate(before='1984-01-1').head())
print('==='*20)
# 获取指定时间区间
print(data2['1983':'1990'])
print(data2['1983-01-1':'1990-12-31'])

运行结果为:

            序号   姓名 性别  语文  数学  英语   总分               地址
出生日期                                                    
1983-01-05   1  卢海军  男  64  49  49  162     上海市某某区某某小区A座
1983-10-27   2  丁智敏  女  61  61  60  182     冀州市某某区某某小区a座
1987-02-06   4   张伊  女  69  44  58  171  河南省信阳市某某区某某小区C座
1987-03-06   6   王松  男  47  44  62  153     襄阳市某某区某某小区F座
1989-07-08   5   王刚  男  37  63  42  142     信阳市某某区某某小区B座
============================================================
            序号   姓名 性别  语文  数学  英语   总分               地址
出生日期                                                    
1983-01-05   1  卢海军  男  64  49  49  162     上海市某某区某某小区A座
1983-10-27   2  丁智敏  女  61  61  60  182     冀州市某某区某某小区a座
1987-02-06   4   张伊  女  69  44  58  171  河南省信阳市某某区某某小区C座
1987-03-06   6   王松  男  47  44  62  153     襄阳市某某区某某小区F座
1989-07-08   5   王刚  男  37  63  42  142     信阳市某某区某某小区B座
============================================================
            序号   姓名 性别  语文  数学  英语   总分            地址
出生日期                                                 
1994-01-07   3  李平平  女  58  49  33  140  襄阳市某某区某某小区c座
============================================================
            序号   姓名 性别  语文  数学  英语   总分               地址
出生日期                                                    
1987-02-06   4   张伊  女  69  44  58  171  河南省信阳市某某区某某小区C座
1987-03-06   6   王松  男  47  44  62  153     襄阳市某某区某某小区F座
1989-07-08   5   王刚  男  37  63  42  142     信阳市某某区某某小区B座
1994-01-07   3  李平平  女  58  49  33  140     襄阳市某某区某某小区c座
============================================================
            序号   姓名 性别  语文  数学  英语   总分               地址
出生日期                                                    
1983-01-05   1  卢海军  男  64  49  49  162     上海市某某区某某小区A座
1983-10-27   2  丁智敏  女  61  61  60  182     冀州市某某区某某小区a座
1987-02-06   4   张伊  女  69  44  58  171  河南省信阳市某某区某某小区C座
1987-03-06   6   王松  男  47  44  62  153     襄阳市某某区某某小区F座
1989-07-08   5   王刚  男  37  63  42  142     信阳市某某区某某小区B座
            序号   姓名 性别  语文  数学  英语   总分               地址
出生日期                                                    
1983-01-05   1  卢海军  男  64  49  49  162     上海市某某区某某小区A座
1983-10-27   2  丁智敏  女  61  61  60  182     冀州市某某区某某小区a座
1987-02-06   4   张伊  女  69  44  58  171  河南省信阳市某某区某某小区C座
1987-03-06   6   王松  男  47  44  62  153     襄阳市某某区某某小区F座
1989-07-08   5   王刚  男  37  63  42  142     信阳市某某区某某小区B座

10.4.3 【推荐】多条件日期范围

import pandas as pd
path = r'E:\Desktop\科学计算\Pandas课件\pandas教程\课件013-014\筛选.xlsx'
data = pd.read_excel(path, index_col='序号', parse_dates=['出生日期'])
choose = (
    '@data.出生日期.dt.year > 1980 and'
    '@data.出生日期.dt.year < 1990'
    'and 性别 == "男"'
)
print(data.query(choose))

运行结果为:

     姓名 性别       出生日期  语文  数学  英语   总分            地址
序号                                                  
1   卢海军  男 1983-01-05  64  49  49  162  上海市某某区某某小区A座
5    王刚  男 1989-07-08  37  63  42  142  信阳市某某区某某小区B座
6    王松  男 1987-03-06  47  44  62  153  襄阳市某某区某某小区F座

你可能感兴趣的:(pandas,python,python,pandas,数据分析)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
seaborn又一个扩展heatmapz qq_21478261 #Python可视化 matplotlib
推荐阅读：Pythonmatplotlib保姆级教程嫌Matplotlib繁琐？试试Seaborn！
NGS测序基础梳理01-文库构建（Library Preparation） qq_21478261 #生物信息生物学
本文介绍Illumina测序平台文库构建（LibraryPreparation）步骤，文库结构。写作时间：2020.05。推荐阅读：10W字《Python可视化教程1.0》来了！一份由公众号「pythonic生物人」精心制作的PythonMatplotlib可视化系统教程，105页PDFhttps://mp.weixin.qq.com/s/QaSmucuVsS_DR-klfpE3-Q10W字《Rg
Python 常用内置函数详解（七）：dir()函数——获取当前本地作用域中的名称列表或对象的有效属性列表
目录一、功能二、语法和示例一、功能dir()函数获取当前本地作用域中的名称列表或对象的有效属性列表。二、语法和示例dir()函数有两种形式，如果没有实参，则返回当前本地作用域中的名称列表。如果有实参，它会尝试返回该对象的有效属性列表。如果对象有一个名为__dir__()的方法，那么该方法将被调用，并且必须返回一个属性列表。dir()函数的语法格式如下：C:\Users\amoxiang>ipyth
pythonjson中list操作_Python json.dumps 特殊数据类型的自定义序列化操作
场景描述：Python标准库中的json模块，集成了将数据序列化处理的功能；在使用json.dumps()方法序列化数据时候，如果目标数据中存在datetime数据类型，执行操作时，会抛出异常：TypeError:datetime.datetime(2016,12,10,11,04,21)isnotJSONserializable那么遇到json.dumps序列化不支持的数据类型，该怎么办！首先，
Python 日期格式转json.dumps的解决方法 douyaoxin python json 开发语言
classDateEncoder(json.JSONEncoder):defdefault(self,obj):ifisinstance(obj,datetime.datetime):returnobj.strftime('%Y-%m-%d%H:%M:%S')elifisinstance(obj,datetime.date):returnobj.strftime("%Y-%m-%d")json.d
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Python技能手册 - 模块module 金色牛神 Python python windows 开发语言
系列Python常用技能手册-基础语法Python常用技能手册-模块modulePython常用技能手册-包package目录module模块指什么typing数据类型int整数float浮点数str字符串bool布尔值TypeVar类型变量functools高阶函数工具functools.partial()函数偏置functools.lru_cache()函数缓存sorted排序列表排序元组排序
Ubuntu基础（Python虚拟环境和Vue） aaiier ubuntu python linux
Python虚拟环境sudoaptinstallpython3python3-venv进入项目目录cdXXX创建虚拟环境python3-mvenvvenv激活虚拟环境sourcevenv/bin/activate退出虚拟环境deactivateVue安装Node.js和npm#安装Node.js和npm（Ubuntu默认仓库可能版本较旧，适合入门）sudoaptinstallnodejsnpm#验
苦练Python第9天：if-else分支九剑 python后端前端人工智能
苦练Python第9天：if-else分支九剑前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众号：倔强青铜三。欢迎点赞、收藏、关注，一键三连！！！欢迎来到100天Python挑战第9天！今天我们不练循环，改磨“分支剑法”——ifelse三式：单分支、双分支、多分支，以及嵌套和三元运算符，全部实战演练，让
苦练Python第8天：while 循环之妙用 python后端前端人工智能
苦练Python第8天：while循环之妙用原文链接：https://dev.to/therahul_gupta/day-9100-while-loops-with-real-world-examples-528f作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我，微信公众
苦练Python第5天：字符串从入门到格式化 python后端人工智能前端
苦练Python第5天：字符串从入门到格式化原文链接：https://dev.to/therahul_gupta/day-5100-working-with-strings-basics-to-formatting-2kkn作者：RahulGupta译者：倔强青铜三前言大家好，我是倔强青铜三。是一名热情的软件工程师，我热衷于分享和传播IT技术，致力于通过我的知识和技能推动技术交流与创新，欢迎关注我
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D

Python全栈开发-数据分析-02 Pandas详解 (上)

Pandas详解 (上)

一. 安装pandas

二. 数据类型与新建文件

2.1 新建空白Excel文件

2.2 新建文件同时写入数据

2.3 将id设置为索引

三. 读取数据

3.1 读取CSV文件

3.2 自己制定分隔符、列名

3.3 txt文件转csv文件

3.4 读取MySQL数据库

3.5 读取Excel文件

四. pandas数据结构

4.1 Series 一维数据，一行或一列

4.1.1 仅有数据列表即可产生最简单的Series

4.1.2 我们指定Series的索引

4.1.3 使用Python字典创建Series

4.1.4 根据标签索引查询数据

4.1.5 键和值存在两个列表中，创建Series

4.1.6 Series常用方法

4.2 认识DataFrame

4.2.1 DataFrame 整个表格

4.2.2 从DataFrame中查询出Series

4.2.3 将多个Series加入DataFrame

4.2.4 DataFrame常用方法

五. 连接查询

5.1 Merge

5.1.1 InnerMerge (内连接)

5.1.2 LeftMerge (左连接)

5.1.3 RightMerge (右连接)

5.1.4 OuterMerge (全连接)

5.1.5 MultipleKey Merge (基于多个key上的merge)

5.1.6 Merge on Index (基于index上的merge)

5.1.7 总结

5.2 Join

5.3 Concat

5.3.1 在Pandas中使用Concat

5.3.2 首尾相接

5.3.3 横向表拼接（行对齐）

5.3.4 append

5.3.5 无视index的concat

5.3.6 合并的同时增加区分数据组的键

5.3.7 在dataframe中加入新的行

5.3.8 表格列字段不同的表合并

六. 填充常用类型数据

6.1 填充数字

6.2 填充字符

6.3 填充日期

6.4 在CSV中完成自动填充

七. 计算列

7.1 pandas apply() 函数

7.2 apply函数计算日期相减

八. 排序

九. 查询数据 【loc】

9.1 单条件查询

9.2 多条件查询

9.3 使用数据区间范围进行查询

9.4 使用条件表达式进行查询

9.5 loc实现条件判断

十. 筛选

10.1 文本筛选：开头与结尾

10.2 文本筛选：包含

10.3 筛选值范围

10.4 筛选日期

10.4.1 获取某年某月数据

10.4.2 获取某个时期之前或之后的数据

10.4.3 【推荐】多条件日期范围

你可能感兴趣的:(pandas,python,python,pandas,数据分析)

九. 查询数据【loc】