★追梦赤子心★

pandas学习笔记（二）：变量的行、列、索引的基本操作

切片本身就是一个列表，因此不需要加 [ ]

注：学习笔记基于文彤老师的pandas的系列课程

课程链接：https://study.163.com/course/courseMain.htm?courseId=1005124008&share=1&shareId=1146477588

# 设定系统环境
import pandas as pd
pd.options.display.max_rows = 10 # 设定自由列表输出最多为10行
pd.__version__ # 显示当前Pandas版本号，默认输出最后一行内容（即使没有打印输出）

'1.1.0'

df2 = pd.read_csv("univ.csv", encoding ="GBK")#使用英文名称，否则可能会报错
#把文件放到了该目录下，因此不需要再写路径，注意编码要写
df2

	名次	学校名称	总分	类型	所在省份	所在城市	办学方向	主管部门
0	1	北京大学	100.00	综合	北京	北京市	中国研究型	教育部
1	2	清华大学	98.50	理工	北京	北京市	中国研究型	教育部
2	3	复旦大学	82.79	综合	上海	上海市	中国研究型	教育部
3	4	武汉大学	82.43	综合	湖北	武汉市	中国研究型	教育部
4	5	浙江大学	82.38	综合	浙江	杭州市	中国研究型	教育部
...	...	...	...	...	...	...	...	...
95	96	浙江师范大学	63.37	师范	浙江	金华市	区域特色研究型	浙江省
96	97	安徽大学	63.34	综合	安徽	合肥市	区域研究型	安徽省
97	98	首都医科大学	63.32	医药	北京	北京市	区域特色研究型	北京市
98	99	江南大学	63.31	综合	江苏	无锡市	区域特色研究型	教育部
99	100	山西大学	63.29	综合	山西	太原市	区域研究型	山西省

100 rows × 8 columns

1.变量列的基本操作

1.1 对数据作简单浏览

print(df2)

     名次    学校名称      总分  类型 所在省份 所在城市     办学方向 主管部门
0     1    北京大学  100.00  综合   北京  北京市    中国研究型  教育部
1     2    清华大学   98.50  理工   北京  北京市    中国研究型  教育部
2     3    复旦大学   82.79  综合   上海  上海市    中国研究型  教育部
3     4    武汉大学   82.43  综合   湖北  武汉市    中国研究型  教育部
4     5    浙江大学   82.38  综合   浙江  杭州市    中国研究型  教育部
..  ...     ...     ...  ..  ...  ...      ...  ...
95   96  浙江师范大学   63.37  师范   浙江  金华市  区域特色研究型  浙江省
96   97    安徽大学   63.34  综合   安徽  合肥市    区域研究型  安徽省
97   98  首都医科大学   63.32  医药   北京  北京市  区域特色研究型  北京市
98   99    江南大学   63.31  综合   江苏  无锡市  区域特色研究型  教育部
99  100    山西大学   63.29  综合   山西  太原市    区域研究型  山西省

[100 rows x 8 columns]

# 数据框的基本信息
df2.info()


RangeIndex: 100 entries, 0 to 99
Data columns (total 8 columns):
名次      100 non-null int64
学校名称    100 non-null object
总分      100 non-null float64
类型      100 non-null object
所在省份    100 non-null object
所在城市    100 non-null object
办学方向    100 non-null object
主管部门    100 non-null object
dtypes: float64(1), int64(1), object(6)
memory usage: 6.4+ KB

# 浏览前几条记录
df2.head(10)#head默认前5条

	名次	学校名称	总分	类型	所在省份	所在城市	办学方向	主管部门
0	1	北京大学	100.00	综合	北京	北京市	中国研究型	教育部
1	2	清华大学	98.50	理工	北京	北京市	中国研究型	教育部
2	3	复旦大学	82.79	综合	上海	上海市	中国研究型	教育部
3	4	武汉大学	82.43	综合	湖北	武汉市	中国研究型	教育部
4	5	浙江大学	82.38	综合	浙江	杭州市	中国研究型	教育部
5	6	中国人民大学	81.98	综合	北京	北京市	中国研究型	教育部
6	7	上海交通大学	81.76	综合	上海	上海市	中国研究型	教育部
7	8	南京大学	80.43	综合	江苏	南京市	中国研究型	教育部
8	9	国防科学技术大学	80.31	理工	湖南	长沙市	中国研究型	中央军委
9	10	中山大学	76.46	综合	广东	广州市	中国研究型	教育部

# 浏览最后几条记录
df2.tail(3)# 默认5条

	名次	学校名称	总分	类型	所在省份	所在城市	办学方向	主管部门
97	98	首都医科大学	63.32	医药	北京	北京市	区域特色研究型	北京市
98	99	江南大学	63.31	综合	江苏	无锡市	区域特色研究型	教育部
99	100	山西大学	63.29	综合	山西	太原市	区域研究型	山西省

1.2 重命名变量列

直接修改columns属性

df.columns = 新的名称list

# 给出变量名/列名
df2.columns

Index(['名次', '学校名称', '总分', '类型', '所在省份', '所在城市', '办学方向', '主管部门'], dtype='object')

df2.columns = ['名次2', '学校名称2', '总分', '类型',
               '所在省份', '所在城市', '办学方向', '主管部门']
#列表数必须全部对应，否则会报错
df2

	名次2	学校名称2	总分	类型	所在省份	所在城市	办学方向	主管部门
0	1	北京大学	100.00	综合	北京	北京市	中国研究型	教育部
1	2	清华大学	98.50	理工	北京	北京市	中国研究型	教育部
2	3	复旦大学	82.79	综合	上海	上海市	中国研究型	教育部
3	4	武汉大学	82.43	综合	湖北	武汉市	中国研究型	教育部
4	5	浙江大学	82.38	综合	浙江	杭州市	中国研究型	教育部
...	...	...	...	...	...	...	...	...
95	96	浙江师范大学	63.37	师范	浙江	金华市	区域特色研究型	浙江省
96	97	安徽大学	63.34	综合	安徽	合肥市	区域研究型	安徽省
97	98	首都医科大学	63.32	医药	北京	北京市	区域特色研究型	北京市
98	99	江南大学	63.31	综合	江苏	无锡市	区域特色研究型	教育部
99	100	山西大学	63.29	综合	山西	太原市	区域研究型	山西省

100 rows × 8 columns

只修改指定列名

df.rename(

columns = 新旧名称字典 : {‘旧名称’: ‘新名称’}

inplace = False : 是否直接替换原数据框，默认即为False
)

df3=df2.rename(
    columns = {'名次2': '名次', '学校名称2':'学校名称'}
) 
print(df3)
df2

     名次    学校名称      总分  类型 所在省份 所在城市     办学方向 主管部门
0     1    北京大学  100.00  综合   北京  北京市    中国研究型  教育部
1     2    清华大学   98.50  理工   北京  北京市    中国研究型  教育部
2     3    复旦大学   82.79  综合   上海  上海市    中国研究型  教育部
3     4    武汉大学   82.43  综合   湖北  武汉市    中国研究型  教育部
4     5    浙江大学   82.38  综合   浙江  杭州市    中国研究型  教育部
..  ...     ...     ...  ..  ...  ...      ...  ...
95   96  浙江师范大学   63.37  师范   浙江  金华市  区域特色研究型  浙江省
96   97    安徽大学   63.34  综合   安徽  合肥市    区域研究型  安徽省
97   98  首都医科大学   63.32  医药   北京  北京市  区域特色研究型  北京市
98   99    江南大学   63.31  综合   江苏  无锡市  区域特色研究型  教育部
99  100    山西大学   63.29  综合   山西  太原市    区域研究型  山西省

[100 rows x 8 columns]

	名次2	学校名称2	总分	类型	所在省份	所在城市	办学方向	主管部门
0	1	北京大学	100.00	综合	北京	北京市	中国研究型	教育部
1	2	清华大学	98.50	理工	北京	北京市	中国研究型	教育部
2	3	复旦大学	82.79	综合	上海	上海市	中国研究型	教育部
3	4	武汉大学	82.43	综合	湖北	武汉市	中国研究型	教育部
4	5	浙江大学	82.38	综合	浙江	杭州市	中国研究型	教育部
...	...	...	...	...	...	...	...	...
95	96	浙江师范大学	63.37	师范	浙江	金华市	区域特色研究型	浙江省
96	97	安徽大学	63.34	综合	安徽	合肥市	区域研究型	安徽省
97	98	首都医科大学	63.32	医药	北京	北京市	区域特色研究型	北京市
98	99	江南大学	63.31	综合	江苏	无锡市	区域特色研究型	教育部
99	100	山西大学	63.29	综合	山西	太原市	区域研究型	山西省

100 rows × 8 columns

df2.rename(
    columns = {'名次2': '名次', '学校名称2':'学校名称'}, inplace = True
) 
df2#如果被替换的变量写错了，它不执行，并且也不报错，需要注意

	名次	学校名称	总分	类型	所在省份	所在城市	办学方向	主管部门
0	1	北京大学	100.00	综合	北京	北京市	中国研究型	教育部
1	2	清华大学	98.50	理工	北京	北京市	中国研究型	教育部
2	3	复旦大学	82.79	综合	上海	上海市	中国研究型	教育部
3	4	武汉大学	82.43	综合	湖北	武汉市	中国研究型	教育部
4	5	浙江大学	82.38	综合	浙江	杭州市	中国研究型	教育部
...	...	...	...	...	...	...	...	...
95	96	浙江师范大学	63.37	师范	浙江	金华市	区域特色研究型	浙江省
96	97	安徽大学	63.34	综合	安徽	合肥市	区域研究型	安徽省
97	98	首都医科大学	63.32	医药	北京	北京市	区域特色研究型	北京市
98	99	江南大学	63.31	综合	江苏	无锡市	区域特色研究型	教育部
99	100	山西大学	63.29	综合	山西	太原市	区域研究型	山西省

100 rows × 8 columns

1.3 筛选变量列

df.var

只适用于已存在的列

只能筛选单列，结果为Series

df2.名次

0       1
1       2
2       3
3       4
4       5
     ... 
95     96
96     97
97     98
98     99
99    100
Name: 名次, Length: 100, dtype: int64

df[[‘var1’, ‘var2’]]

多列时，列名需要用列表形式提供（因此可使用列表中的切片操作）

多列的筛选结果为DF

df2[['名次','总分']]

	名次	总分
0	1	100.00
1	2	98.50
2	3	82.79
3	4	82.43
4	5	82.38
...	...	...
95	96	63.37
96	97	63.34
97	98	63.32
98	99	63.31
99	100	63.29

100 rows × 2 columns

1.4 删除变量列

df.drop(

index / columns = 准备删除的行/列标签，多个时用列表形式提供

inplace = False : 是否直接更改原数据框，默认为False

) # pandas0.21版本以上,之前的老版本较为复杂，不多说

df2.drop(columns = ['名次', '所在城市'])

	学校名称	总分	类型	所在省份	办学方向	主管部门
0	北京大学	100.00	综合	北京	中国研究型	教育部
1	清华大学	98.50	理工	北京	中国研究型	教育部
2	复旦大学	82.79	综合	上海	中国研究型	教育部
3	武汉大学	82.43	综合	湖北	中国研究型	教育部
4	浙江大学	82.38	综合	浙江	中国研究型	教育部
...	...	...	...	...	...	...
95	浙江师范大学	63.37	师范	浙江	区域特色研究型	浙江省
96	安徽大学	63.34	综合	安徽	区域研究型	安徽省
97	首都医科大学	63.32	医药	北京	区域特色研究型	北京市
98	江南大学	63.31	综合	江苏	区域特色研究型	教育部
99	山西大学	63.29	综合	山西	区域研究型	山西省

100 rows × 6 columns

del df[‘column-name’]

直接删除原数据框相应的一列，建议尽量少用

1.5 变量类型的转换

Pandas支持的数据类型

具体类型是Python，Numpy各种类型的混合，可以比下表分的更细

float

int

string

bool

datetime64[ns], datetime64[ns, tz], timedelta[ns] #都与时间格式有关

实战：对PM2.5数据做简单清理

bj2012 = pd.read_csv("PM25\Beijing_2012_HourlyPM2.5_created20140325.csv",encoding ="gbk",skiprows=3)#注意sep
bj2012

	Site	Parameter	Date (LST)	Year	Month	Day	Hour	Value	Unit	Duration	QC Name
0	Beijing	PM2.5	2012-1-1 0:00	2012	1	1	0	303	礸/mg?	1 Hr	Valid
1	Beijing	PM2.5	2012-1-1 1:00	2012	1	1	1	215	礸/mg?	1 Hr	Valid
2	Beijing	PM2.5	2012-1-1 2:00	2012	1	1	2	222	礸/mg?	1 Hr	Valid
3	Beijing	PM2.5	2012-1-1 3:00	2012	1	1	3	85	礸/mg?	1 Hr	Valid
4	Beijing	PM2.5	2012-1-1 4:00	2012	1	1	4	38	礸/mg?	1 Hr	Valid
...	...	...	...	...	...	...	...	...	...	...	...
8779	Beijing	PM2.5	2012-12-31 19:00	2012	12	31	19	131	礸/mg?1 Hr	Valid	NaN
8780	Beijing	PM2.5	2012-12-31 20:00	2012	12	31	20	113	礸/mg?1 Hr	Valid	NaN
8781	Beijing	PM2.5	2012-12-31 21:00	2012	12	31	21	45	礸/mg?1 Hr	Valid	NaN
8782	Beijing	PM2.5	2012-12-31 22:00	2012	12	31	22	39	礸/mg?1 Hr	Valid	NaN
8783	Beijing	PM2.5	2012-12-31 23:00	2012	12	31	23	35	礸/mg?1 Hr	Valid	NaN

8784 rows × 11 columns

bj2012.drop(columns = ['Parameter','Duration','QC Name'],inplace = True )
#之前执行了一次删除，在执行就会因为找不到而报错

bj2012

	Site	Date (LST)	Year	Month	Day	Hour	Value	Unit
0	Beijing	2012-1-1 0:00	2012	1	1	0	303	礸/mg?
1	Beijing	2012-1-1 1:00	2012	1	1	1	215	礸/mg?
2	Beijing	2012-1-1 2:00	2012	1	1	2	222	礸/mg?
3	Beijing	2012-1-1 3:00	2012	1	1	3	85	礸/mg?
4	Beijing	2012-1-1 4:00	2012	1	1	4	38	礸/mg?
...	...	...	...	...	...	...	...	...
8779	Beijing	2012-12-31 19:00	2012	12	31	19	131	礸/mg?1 Hr
8780	Beijing	2012-12-31 20:00	2012	12	31	20	113	礸/mg?1 Hr
8781	Beijing	2012-12-31 21:00	2012	12	31	21	45	礸/mg?1 Hr
8782	Beijing	2012-12-31 22:00	2012	12	31	22	39	礸/mg?1 Hr
8783	Beijing	2012-12-31 23:00	2012	12	31	23	35	礸/mg?1 Hr

8784 rows × 8 columns

bj2012.rename(
    columns = {'Date (LST)': '时间', 'Value':'数值'}, inplace = True
) 
bj2012

	Site	时间	Year	Month	Day	Hour	数值	Unit
0	Beijing	2012-1-1 0:00	2012	1	1	0	303	礸/mg?
1	Beijing	2012-1-1 1:00	2012	1	1	1	215	礸/mg?
2	Beijing	2012-1-1 2:00	2012	1	1	2	222	礸/mg?
3	Beijing	2012-1-1 3:00	2012	1	1	3	85	礸/mg?
4	Beijing	2012-1-1 4:00	2012	1	1	4	38	礸/mg?
...	...	...	...	...	...	...	...	...
8779	Beijing	2012-12-31 19:00	2012	12	31	19	131	礸/mg?1 Hr
8780	Beijing	2012-12-31 20:00	2012	12	31	20	113	礸/mg?1 Hr
8781	Beijing	2012-12-31 21:00	2012	12	31	21	45	礸/mg?1 Hr
8782	Beijing	2012-12-31 22:00	2012	12	31	22	39	礸/mg?1 Hr
8783	Beijing	2012-12-31 23:00	2012	12	31	23	35	礸/mg?1 Hr

8784 rows × 8 columns

bj2012.dtypes

Site     object
时间       object
Year      int64
Month     int64
Day       int64
Hour      int64
数值        int64
Unit     object
dtype: object

2. 索引

索引的用途：

用于在分析、可视化、数据展示、数据操作中标记数据行

提供数据汇总、合并、筛选时的关键依据

提供数据重构时的关键依据

注意事项：

索引是不可直接修改的，只能增、删、替换

逻辑上索引不应当出现重复值，Pandas对这种情况不会报错，但显然有潜在风险

2.1建立索引

新建数据框时建立索引

所有的数据框默认都已经拥有流水号格式的索引，因此这里的“建立”索引指的是自定义索引

df1 = pd.DataFrame(
{'var1' : 1.0, 'var2' : [1,2,3,4],
 'var3' :["test","train","test","train"], 'var4' : 'cons'},
 index = [0, 1 , 2, 5]#index的数量一定要和行数相对应
)

df1

	var1	var2	var3	var4
0	1.0	1	test	cons
1	1.0	2	train	cons
2	1.0	3	test	cons
5	1.0	4	train	cons

2.2 读入数据时建立索引

数据列直接提供索引值，因此指明相应的数据列即可

df2 = pd.read_csv("univ.csv", encoding ="gbk", index_col="学校名称" )
df2

	名次	总分	类型	所在省份	所在城市	办学方向	主管部门
学校名称
北京大学	1	100.00	综合	北京	北京市	中国研究型	教育部
清华大学	2	98.50	理工	北京	北京市	中国研究型	教育部
复旦大学	3	82.79	综合	上海	上海市	中国研究型	教育部
武汉大学	4	82.43	综合	湖北	武汉市	中国研究型	教育部
浙江大学	5	82.38	综合	浙江	杭州市	中国研究型	教育部
...	...	...	...	...	...	...	...
浙江师范大学	96	63.37	师范	浙江	金华市	区域特色研究型	浙江省
安徽大学	97	63.34	综合	安徽	合肥市	区域研究型	安徽省
首都医科大学	98	63.32	医药	北京	北京市	区域特色研究型	北京市
江南大学	99	63.31	综合	江苏	无锡市	区域特色研究型	教育部
山西大学	100	63.29	综合	山西	太原市	区域研究型	山西省

100 rows × 7 columns

# 生成复合索引
df2 = pd.read_csv("univ.csv", encoding ="gbk",
                  index_col=["类型", "学校名称"] )
df2

		名次	总分	所在省份	所在城市	办学方向	主管部门
类型	学校名称
综合	北京大学	1	100.00	北京	北京市	中国研究型	教育部
理工	清华大学	2	98.50	北京	北京市	中国研究型	教育部
综合	复旦大学	3	82.79	上海	上海市	中国研究型	教育部
	武汉大学	4	82.43	湖北	武汉市	中国研究型	教育部
	浙江大学	5	82.38	浙江	杭州市	中国研究型	教育部
...	...	...	...	...	...	...	...
师范	浙江师范大学	96	63.37	浙江	金华市	区域特色研究型	浙江省
综合	安徽大学	97	63.34	安徽	合肥市	区域研究型	安徽省
医药	首都医科大学	98	63.32	北京	北京市	区域特色研究型	北京市
综合	江南大学	99	63.31	江苏	无锡市	区域特色研究型	教育部
综合	山西大学	100	63.29	山西	太原市	区域研究型	山西省

100 rows × 6 columns

2.3 指定某列为索引列

df.set_index(

keys : 被指定为索引的列名，复合索引用list格式提供

drop = True : 建立索引后是否删除该列

append = False : 是否在原索引基础上添加索引，默认是直接替换原索引

inplace = False : 是否直接修改原数据框

)

df2.reset_index(inplace=True) # 筛选其中一个进行还原
df2

	类型	学校名称	名次	总分	所在省份	所在城市	办学方向	主管部门
0	综合	北京大学	1	100.00	北京	北京市	中国研究型	教育部
1	理工	清华大学	2	98.50	北京	北京市	中国研究型	教育部
2	综合	复旦大学	3	82.79	上海	上海市	中国研究型	教育部
3	综合	武汉大学	4	82.43	湖北	武汉市	中国研究型	教育部
4	综合	浙江大学	5	82.38	浙江	杭州市	中国研究型	教育部
...	...	...	...	...	...	...	...	...
95	师范	浙江师范大学	96	63.37	浙江	金华市	区域特色研究型	浙江省
96	综合	安徽大学	97	63.34	安徽	合肥市	区域研究型	安徽省
97	医药	首都医科大学	98	63.32	北京	北京市	区域特色研究型	北京市
98	综合	江南大学	99	63.31	江苏	无锡市	区域特色研究型	教育部
99	综合	山西大学	100	63.29	山西	太原市	区域研究型	山西省

100 rows × 8 columns

df_new = df2.set_index(['名次','学校名称'], drop = False)
df_new

		类型	学校名称	名次	总分	所在省份	所在城市	办学方向	主管部门
名次	学校名称
1	北京大学	综合	北京大学	1	100.00	北京	北京市	中国研究型	教育部
2	清华大学	理工	清华大学	2	98.50	北京	北京市	中国研究型	教育部
3	复旦大学	综合	复旦大学	3	82.79	上海	上海市	中国研究型	教育部
4	武汉大学	综合	武汉大学	4	82.43	湖北	武汉市	中国研究型	教育部
5	浙江大学	综合	浙江大学	5	82.38	浙江	杭州市	中国研究型	教育部
...	...	...	...	...	...	...	...	...	...
96	浙江师范大学	师范	浙江师范大学	96	63.37	浙江	金华市	区域特色研究型	浙江省
97	安徽大学	综合	安徽大学	97	63.34	安徽	合肥市	区域研究型	安徽省
98	首都医科大学	医药	首都医科大学	98	63.32	北京	北京市	区域特色研究型	北京市
99	江南大学	综合	江南大学	99	63.31	江苏	无锡市	区域特色研究型	教育部
100	山西大学	综合	山西大学	100	63.29	山西	太原市	区域研究型	山西省

100 rows × 8 columns

# 生成复合索引
df_new = df2.set_index('名次')# 不删除变量列
df_new

	类型	学校名称	总分	所在省份	所在城市	办学方向	主管部门
名次
1	综合	北京大学	100.00	北京	北京市	中国研究型	教育部
2	理工	清华大学	98.50	北京	北京市	中国研究型	教育部
3	综合	复旦大学	82.79	上海	上海市	中国研究型	教育部
4	综合	武汉大学	82.43	湖北	武汉市	中国研究型	教育部
5	综合	浙江大学	82.38	浙江	杭州市	中国研究型	教育部
...	...	...	...	...	...	...	...
96	师范	浙江师范大学	63.37	浙江	金华市	区域特色研究型	浙江省
97	综合	安徽大学	63.34	安徽	合肥市	区域研究型	安徽省
98	医药	首都医科大学	63.32	北京	北京市	区域特色研究型	北京市
99	综合	江南大学	63.31	江苏	无锡市	区域特色研究型	教育部
100	综合	山西大学	63.29	山西	太原市	区域研究型	山西省

100 rows × 7 columns

将索引还原回变量列

df.reset_index(

drop = False : 是否将索引直接删除，而不是还原为变量列

inplace = False : 是否直接修改原数据框

level = None : 对于多重索引，确定转换哪个级别为变量

)

df_new2 = df2.copy() # 真正生成副本，而不是指定另一个别名
#df_new2 = df2给df2起了一个别名，操作会在df2上进行操作
df_new2.set_index(['名次','类型','所在省份'], inplace = True)
df_new2

			学校名称	总分	所在城市	办学方向	主管部门
名次	类型	所在省份
1	综合	北京	北京大学	100.00	北京市	中国研究型	教育部
2	理工	北京	清华大学	98.50	北京市	中国研究型	教育部
3	综合	上海	复旦大学	82.79	上海市	中国研究型	教育部
4	综合	湖北	武汉大学	82.43	武汉市	中国研究型	教育部
5	综合	浙江	浙江大学	82.38	杭州市	中国研究型	教育部
...	...	...	...	...	...	...	...
96	师范	浙江	浙江师范大学	63.37	金华市	区域特色研究型	浙江省
97	综合	安徽	安徽大学	63.34	合肥市	区域研究型	安徽省
98	医药	北京	首都医科大学	63.32	北京市	区域特色研究型	北京市
99	综合	江苏	江南大学	63.31	无锡市	区域特色研究型	教育部
100	综合	山西	山西大学	63.29	太原市	区域研究型	山西省

100 rows × 5 columns

df_new2.reset_index(level = ['类型'],inplace = True) # 筛选其中一个进行还原
df_new2

		类型	学校名称	总分	所在城市	办学方向	主管部门
名次	所在省份
1	北京	综合	北京大学	100.00	北京市	中国研究型	教育部
2	北京	理工	清华大学	98.50	北京市	中国研究型	教育部
3	上海	综合	复旦大学	82.79	上海市	中国研究型	教育部
4	湖北	综合	武汉大学	82.43	武汉市	中国研究型	教育部
5	浙江	综合	浙江大学	82.38	杭州市	中国研究型	教育部
...	...	...	...	...	...	...	...
96	浙江	师范	浙江师范大学	63.37	金华市	区域特色研究型	浙江省
97	安徽	综合	安徽大学	63.34	合肥市	区域研究型	安徽省
98	北京	医药	首都医科大学	63.32	北京市	区域特色研究型	北京市
99	江苏	综合	江南大学	63.31	无锡市	区域特色研究型	教育部
100	山西	综合	山西大学	63.29	太原市	区域研究型	山西省

100 rows × 6 columns

df_new2.reset_index(level = ['名次','所在省份']) # 保留一个作为索引

	名次	所在省份	类型	学校名称	总分	所在城市	办学方向	主管部门
0	1	北京	综合	北京大学	100.00	北京市	中国研究型	教育部
1	2	北京	理工	清华大学	98.50	北京市	中国研究型	教育部
2	3	上海	综合	复旦大学	82.79	上海市	中国研究型	教育部
3	4	湖北	综合	武汉大学	82.43	武汉市	中国研究型	教育部
4	5	浙江	综合	浙江大学	82.38	杭州市	中国研究型	教育部
...	...	...	...	...	...	...	...	...
95	96	浙江	师范	浙江师范大学	63.37	金华市	区域特色研究型	浙江省
96	97	安徽	综合	安徽大学	63.34	合肥市	区域研究型	安徽省
97	98	北京	医药	首都医科大学	63.32	北京市	区域特色研究型	北京市
98	99	江苏	综合	江南大学	63.31	无锡市	区域特色研究型	教育部
99	100	山西	综合	山西大学	63.29	太原市	区域研究型	山西省

100 rows × 8 columns

df_new2.reset_index(inplace = True) # 将索引全部还原为变量
df_new2

	名次	所在省份	类型	学校名称	总分	所在城市	办学方向	主管部门
0	1	北京	综合	北京大学	100.00	北京市	中国研究型	教育部
1	2	北京	理工	清华大学	98.50	北京市	中国研究型	教育部
2	3	上海	综合	复旦大学	82.79	上海市	中国研究型	教育部
3	4	湖北	综合	武汉大学	82.43	武汉市	中国研究型	教育部
4	5	浙江	综合	浙江大学	82.38	杭州市	中国研究型	教育部
...	...	...	...	...	...	...	...	...
95	96	浙江	师范	浙江师范大学	63.37	金华市	区域特色研究型	浙江省
96	97	安徽	综合	安徽大学	63.34	合肥市	区域研究型	安徽省
97	98	北京	医药	首都医科大学	63.32	北京市	区域特色研究型	北京市
98	99	江苏	综合	江南大学	63.31	无锡市	区域特色研究型	教育部
99	100	山西	综合	山西大学	63.29	太原市	区域研究型	山西省

100 rows × 8 columns

2.4引用和修改索引

引用索引

注意：索引仍然是有存储格式的，注意区分数值型和字符型的引用方式

2.4.1修改索引

修改索引名

本质上和变量列名的修改方式相同

df2.index.names # 复数形式的names代表可能是多重索引
#默认的流水号索引所以结果为None

FrozenList([None])

df2.index.names = ['idx'] 
df2.index.names

FrozenList(['idx'])

df_new2.set_index(['名次','类型','所在省份'], inplace = True)
df_new2

			学校名称	总分	所在城市	办学方向	主管部门
名次	类型	所在省份
1	综合	北京	北京大学	100.00	北京市	中国研究型	教育部
2	理工	北京	清华大学	98.50	北京市	中国研究型	教育部
3	综合	上海	复旦大学	82.79	上海市	中国研究型	教育部
4	综合	湖北	武汉大学	82.43	武汉市	中国研究型	教育部
5	综合	浙江	浙江大学	82.38	杭州市	中国研究型	教育部
...	...	...	...	...	...	...	...
96	师范	浙江	浙江师范大学	63.37	金华市	区域特色研究型	浙江省
97	综合	安徽	安徽大学	63.34	合肥市	区域研究型	安徽省
98	医药	北京	首都医科大学	63.32	北京市	区域特色研究型	北京市
99	综合	江苏	江南大学	63.31	无锡市	区域特色研究型	教育部
100	综合	山西	山西大学	63.29	太原市	区域研究型	山西省

100 rows × 5 columns

df_new2.index.names = [None, None, None] # None代表无名称
df_new2

			学校名称	总分	所在城市	办学方向	主管部门
1	综合	北京	北京大学	100.00	北京市	中国研究型	教育部
2	理工	北京	清华大学	98.50	北京市	中国研究型	教育部
3	综合	上海	复旦大学	82.79	上海市	中国研究型	教育部
4	综合	湖北	武汉大学	82.43	武汉市	中国研究型	教育部
5	综合	浙江	浙江大学	82.38	杭州市	中国研究型	教育部
...	...	...	...	...	...	...	...
96	师范	浙江	浙江师范大学	63.37	金华市	区域特色研究型	浙江省
97	综合	安徽	安徽大学	63.34	合肥市	区域研究型	安徽省
98	医药	北京	首都医科大学	63.32	北京市	区域特色研究型	北京市
99	综合	江苏	江南大学	63.31	无锡市	区域特色研究型	教育部
100	综合	山西	山西大学	63.29	太原市	区域研究型	山西省

100 rows × 5 columns

修改索引值

这里的修改本质上是全部替换，因为索引值不能修改，只能替换

#df1.index [3] = 6   # 此处无法直接赋值

df1.index = ['a', 'b', 'c', 6]
df1.index

Index(['a', 'b', 'c', 6], dtype='object')

强行更新索引

reindex则可以使用数据框中不存在的数值建立索引，并据此扩充新索引值对应的索引行/列，同时进行缺失值填充操作

df.reindex(

labels : 类数组结构的数值，将按此数值重建索引，非必需

axis : 针对哪个轴进行重建

('index', 'columns') or number (0, 1).

copy = True : 建立新对象而不是直接更改原df/series

level : 考虑被重建的索引级别

缺失数据的处理方式

method : 针对已经排序过的索引，确定数据单元格无数据时的填充方法，非必需

    pad / ffill: 用前面的有效数值填充

    backfill / bfill: 用后面的有效数值填充

    nearest: 使用最接近的数值进行填充

fill_value = np.NaN : 将缺失值用什么数值替代

limit = None : 向前/向后填充时的最大步长

)

df2.reindex([1,2,99,101])

	类型	学校名称	名次	总分	所在省份	所在城市	办学方向	主管部门
idx
1	理工	清华大学	2.0	98.50	北京	北京市	中国研究型	教育部
2	综合	复旦大学	3.0	82.79	上海	上海市	中国研究型	教育部
99	综合	山西大学	100.0	63.29	山西	太原市	区域研究型	山西省
101	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN

df2.reindex([1,2,99,101], method = 'ffill' )

	类型	学校名称	名次	总分	所在省份	所在城市	办学方向	主管部门
idx
1	理工	清华大学	2	98.50	北京	北京市	中国研究型	教育部
2	综合	复旦大学	3	82.79	上海	上海市	中国研究型	教育部
99	综合	山西大学	100	63.29	山西	太原市	区域研究型	山西省
101	综合	山西大学	100	63.29	山西	太原市	区域研究型	山西省

df2.reindex([1,2,99,101], fill_value= "不知道" )

	类型	学校名称	名次	总分	所在省份	所在城市	办学方向	主管部门
idx
1	理工	清华大学	2	98.5	北京	北京市	中国研究型	教育部
2	综合	复旦大学	3	82.79	上海	上海市	中国研究型	教育部
99	综合	山西大学	100	63.29	山西	太原市	区域研究型	山西省
101	不知道	不知道	不知道	不知道	不知道	不知道	不知道	不知道

df2.reindex([1,2,99,101], fill_value= "不知道" ).dtypes

类型      object
学校名称    object
名次      object
总分      object
所在省份    object
所在城市    object
办学方向    object
主管部门    object
dtype: object

实战：为PM2.5数据建立索引

bj2012 = pd.read_csv("PM25\Beijing_2012_HourlyPM2.5_created20140325.csv",encoding ="gbk",skiprows=3)#注意sep
bj2012

	Site	Parameter	Date (LST)	Year	Month	Day	Hour	Value	Unit	Duration	QC Name
0	Beijing	PM2.5	2012-1-1 0:00	2012	1	1	0	303	礸/mg?	1 Hr	Valid
1	Beijing	PM2.5	2012-1-1 1:00	2012	1	1	1	215	礸/mg?	1 Hr	Valid
2	Beijing	PM2.5	2012-1-1 2:00	2012	1	1	2	222	礸/mg?	1 Hr	Valid
3	Beijing	PM2.5	2012-1-1 3:00	2012	1	1	3	85	礸/mg?	1 Hr	Valid
4	Beijing	PM2.5	2012-1-1 4:00	2012	1	1	4	38	礸/mg?	1 Hr	Valid
...	...	...	...	...	...	...	...	...	...	...	...
8779	Beijing	PM2.5	2012-12-31 19:00	2012	12	31	19	131	礸/mg?1 Hr	Valid	NaN
8780	Beijing	PM2.5	2012-12-31 20:00	2012	12	31	20	113	礸/mg?1 Hr	Valid	NaN
8781	Beijing	PM2.5	2012-12-31 21:00	2012	12	31	21	45	礸/mg?1 Hr	Valid	NaN
8782	Beijing	PM2.5	2012-12-31 22:00	2012	12	31	22	39	礸/mg?1 Hr	Valid	NaN
8783	Beijing	PM2.5	2012-12-31 23:00	2012	12	31	23	35	礸/mg?1 Hr	Valid	NaN

8784 rows × 11 columns

bj2012_new = pd.read_csv("PM25\Beijing_2012_HourlyPM2.5_created20140325.csv",
                         encoding ="gbk", index_col ='Value',skiprows=3 )
bj2012_new

	Site	Parameter	Date (LST)	Year	Month	Day	Hour	Unit	Duration	QC Name
Value
303	Beijing	PM2.5	2012-1-1 0:00	2012	1	1	0	礸/mg?	1 Hr	Valid
215	Beijing	PM2.5	2012-1-1 1:00	2012	1	1	1	礸/mg?	1 Hr	Valid
222	Beijing	PM2.5	2012-1-1 2:00	2012	1	1	2	礸/mg?	1 Hr	Valid
85	Beijing	PM2.5	2012-1-1 3:00	2012	1	1	3	礸/mg?	1 Hr	Valid
38	Beijing	PM2.5	2012-1-1 4:00	2012	1	1	4	礸/mg?	1 Hr	Valid
...	...	...	...	...	...	...	...	...	...	...
131	Beijing	PM2.5	2012-12-31 19:00	2012	12	31	19	礸/mg?1 Hr	Valid	NaN
113	Beijing	PM2.5	2012-12-31 20:00	2012	12	31	20	礸/mg?1 Hr	Valid	NaN
45	Beijing	PM2.5	2012-12-31 21:00	2012	12	31	21	礸/mg?1 Hr	Valid	NaN
39	Beijing	PM2.5	2012-12-31 22:00	2012	12	31	22	礸/mg?1 Hr	Valid	NaN
35	Beijing	PM2.5	2012-12-31 23:00	2012	12	31	23	礸/mg?1 Hr	Valid	NaN

8784 rows × 10 columns

bj2012_new2 = bj2012.set_index('Date (LST)', drop = True)
bj2012_new2

	Site	Parameter	Year	Month	Day	Hour	Value	Unit	Duration	QC Name
Date (LST)
2012-1-1 0:00	Beijing	PM2.5	2012	1	1	0	303	礸/mg?	1 Hr	Valid
2012-1-1 1:00	Beijing	PM2.5	2012	1	1	1	215	礸/mg?	1 Hr	Valid
2012-1-1 2:00	Beijing	PM2.5	2012	1	1	2	222	礸/mg?	1 Hr	Valid
2012-1-1 3:00	Beijing	PM2.5	2012	1	1	3	85	礸/mg?	1 Hr	Valid
2012-1-1 4:00	Beijing	PM2.5	2012	1	1	4	38	礸/mg?	1 Hr	Valid
...	...	...	...	...	...	...	...	...	...	...
2012-12-31 19:00	Beijing	PM2.5	2012	12	31	19	131	礸/mg?1 Hr	Valid	NaN
2012-12-31 20:00	Beijing	PM2.5	2012	12	31	20	113	礸/mg?1 Hr	Valid	NaN
2012-12-31 21:00	Beijing	PM2.5	2012	12	31	21	45	礸/mg?1 Hr	Valid	NaN
2012-12-31 22:00	Beijing	PM2.5	2012	12	31	22	39	礸/mg?1 Hr	Valid	NaN
2012-12-31 23:00	Beijing	PM2.5	2012	12	31	23	35	礸/mg?1 Hr	Valid	NaN

8784 rows × 10 columns

bj2012.reset_index(inplace = True) # 将索引全部还原为变量
bj2012

	Year	Month	Day	Hour	Site	Parameter	Date (LST)	Value	Unit	Duration	QC Name
0	2012	1	1	0	Beijing	PM2.5	2012-1-1 0:00	303	礸/mg?	1 Hr	Valid
1	2012	1	1	1	Beijing	PM2.5	2012-1-1 1:00	215	礸/mg?	1 Hr	Valid
2	2012	1	1	2	Beijing	PM2.5	2012-1-1 2:00	222	礸/mg?	1 Hr	Valid
3	2012	1	1	3	Beijing	PM2.5	2012-1-1 3:00	85	礸/mg?	1 Hr	Valid
4	2012	1	1	4	Beijing	PM2.5	2012-1-1 4:00	38	礸/mg?	1 Hr	Valid
...	...	...	...	...	...	...	...	...	...	...	...
8779	2012	12	31	19	Beijing	PM2.5	2012-12-31 19:00	131	礸/mg?1 Hr	Valid	NaN
8780	2012	12	31	20	Beijing	PM2.5	2012-12-31 20:00	113	礸/mg?1 Hr	Valid	NaN
8781	2012	12	31	21	Beijing	PM2.5	2012-12-31 21:00	45	礸/mg?1 Hr	Valid	NaN
8782	2012	12	31	22	Beijing	PM2.5	2012-12-31 22:00	39	礸/mg?1 Hr	Valid	NaN
8783	2012	12	31	23	Beijing	PM2.5	2012-12-31 23:00	35	礸/mg?1 Hr	Valid	NaN

8784 rows × 11 columns

bj2012_new2 = bj2012.set_index(['Year','Month','Day','Hour'], drop = True)
bj2012_new2

				Site	Parameter	Date (LST)	Value	Unit	Duration	QC Name
Year	Month	Day	Hour
2012	1	1	0	Beijing	PM2.5	2012-1-1 0:00	303	礸/mg?	1 Hr	Valid
			1	Beijing	PM2.5	2012-1-1 1:00	215	礸/mg?	1 Hr	Valid
			2	Beijing	PM2.5	2012-1-1 2:00	222	礸/mg?	1 Hr	Valid
			3	Beijing	PM2.5	2012-1-1 3:00	85	礸/mg?	1 Hr	Valid
			4	Beijing	PM2.5	2012-1-1 4:00	38	礸/mg?	1 Hr	Valid
	...	...	...	...	...	...	...	...	...	...
	12	31	19	Beijing	PM2.5	2012-12-31 19:00	131	礸/mg?1 Hr	Valid	NaN
			20	Beijing	PM2.5	2012-12-31 20:00	113	礸/mg?1 Hr	Valid	NaN
			21	Beijing	PM2.5	2012-12-31 21:00	45	礸/mg?1 Hr	Valid	NaN
			22	Beijing	PM2.5	2012-12-31 22:00	39	礸/mg?1 Hr	Valid	NaN
			23	Beijing	PM2.5	2012-12-31 23:00	35	礸/mg?1 Hr	Valid	NaN

8784 rows × 7 columns

bj2012_new2.index.names = ['年', '月','日','小时'] # None代表无名称
bj2012_new2

				Site	Parameter	Date (LST)	Value	Unit	Duration	QC Name
年	月	日	小时
2012	1	1	0	Beijing	PM2.5	2012-1-1 0:00	303	礸/mg?	1 Hr	Valid
			1	Beijing	PM2.5	2012-1-1 1:00	215	礸/mg?	1 Hr	Valid
			2	Beijing	PM2.5	2012-1-1 2:00	222	礸/mg?	1 Hr	Valid
			3	Beijing	PM2.5	2012-1-1 3:00	85	礸/mg?	1 Hr	Valid
			4	Beijing	PM2.5	2012-1-1 4:00	38	礸/mg?	1 Hr	Valid
	...	...	...	...	...	...	...	...	...	...
	12	31	19	Beijing	PM2.5	2012-12-31 19:00	131	礸/mg?1 Hr	Valid	NaN
			20	Beijing	PM2.5	2012-12-31 20:00	113	礸/mg?1 Hr	Valid	NaN
			21	Beijing	PM2.5	2012-12-31 21:00	45	礸/mg?1 Hr	Valid	NaN
			22	Beijing	PM2.5	2012-12-31 22:00	39	礸/mg?1 Hr	Valid	NaN
			23	Beijing	PM2.5	2012-12-31 23:00	35	礸/mg?1 Hr	Valid	NaN

8784 rows × 7 columns

3.案例行的基本操作

3.1. 案例排序

3.1.1用索引排序

df.sort_index(

axis = 0 : 针对行/列方向排序，{0 or ‘index’, 1 or ‘columns’}

level : （多重索引时）指定用于排序的级别顺序号/名称

ascending = True : 是否为升序排列，多列时以表形式提供，默认为升序

inplace = False

na_position = ‘last’: 缺失值的排列顺序，first/last

ignore_index = False : 如果忽略原有索引，则索引会被重置为0, 1, …, n - 1，1.0.0版新增

key = None : 在排序前对索引值应用指定的key函数，1.1.0版新增

)

df2 = pd.read_excel("高校信息.xlsx", sheet_name = 0)
df2.set_index(['类型','学校名称'], inplace = True)
df2

		名次	总分	所在省份	所在城市	办学方向	主管部门
类型	学校名称
综合	北京大学	1	100.00	北京	北京市	中国研究型	教育部
理工	清华大学	2	98.50	北京	北京市	中国研究型	教育部
综合	复旦大学	3	82.79	上海	上海市	中国研究型	教育部
	武汉大学	4	82.43	湖北	武汉市	中国研究型	教育部
	浙江大学	5	82.38	浙江	杭州市	中国研究型	教育部
...	...	...	...	...	...	...	...
师范	浙江师范大学	96	63.37	浙江	金华市	区域特色研究型	浙江省
综合	安徽大学	97	63.34	安徽	合肥市	区域研究型	安徽省
医药	首都医科大学	98	63.32	北京	北京市	区域特色研究型	北京市
综合	江南大学	99	63.31	江苏	无锡市	区域特色研究型	教育部
综合	山西大学	100	63.29	山西	太原市	区域研究型	山西省

100 rows × 6 columns

df2 = pd.read_excel("高校信息.xlsx", sheet_name = 0)
df2.set_index(['类型','学校名称'], inplace = True)
df2

		名次	总分	所在省份	所在城市	办学方向	主管部门
类型	学校名称
综合	北京大学	1	100.00	北京	北京市	中国研究型	教育部
理工	清华大学	2	98.50	北京	北京市	中国研究型	教育部
综合	复旦大学	3	82.79	上海	上海市	中国研究型	教育部
	武汉大学	4	82.43	湖北	武汉市	中国研究型	教育部
	浙江大学	5	82.38	浙江	杭州市	中国研究型	教育部
...	...	...	...	...	...	...	...
师范	浙江师范大学	96	63.37	浙江	金华市	区域特色研究型	浙江省
综合	安徽大学	97	63.34	安徽	合肥市	区域研究型	安徽省
医药	首都医科大学	98	63.32	北京	北京市	区域特色研究型	北京市
综合	江南大学	99	63.31	江苏	无锡市	区域特色研究型	教育部
综合	山西大学	100	63.29	山西	太原市	区域研究型	山西省

100 rows × 6 columns

df2.sort_index()

		名次	总分	所在省份	所在城市	办学方向	主管部门
类型	学校名称
农林	中国农业大学	32	68.05	北京	北京市	行业特色研究型	教育部
	北京林业大学	88	63.79	北京	北京市	行业特色研究型	教育部
	华中农业大学	49	65.77	湖北	武汉市	行业特色研究型	教育部
	华南农业大学	95	63.64	广东	广州市	区域特色研究型	广东省
	南京农业大学	46	65.90	江苏	南京市	行业特色研究型	教育部
...	...	...	...	...	...	...	...
财经	上海财经大学	64	64.96	上海	上海市	行业特色研究型	教育部
	中南财经政法大学	76	64.32	湖北	武汉市	行业特色研究型	教育部
	中央财经大学	82	63.99	北京	北京市	区域特色研究型	教育部
	对外经济贸易大学	90	63.77	北京	北京市	区域特色研究型	教育部
	西南财经大学	77	64.27	四川	成都市	区域特色研究型	教育部

100 rows × 6 columns

df2.sort_index(ascending = [True, False])

		名次	总分	所在省份	所在城市	办学方向	主管部门
类型	学校名称
农林	西北农林科技大学	65	64.92	陕西	咸阳市	行业特色研究型	教育部
	南京农业大学	46	65.90	江苏	南京市	行业特色研究型	教育部
	华南农业大学	95	63.64	广东	广州市	区域特色研究型	广东省
	华中农业大学	49	65.77	湖北	武汉市	行业特色研究型	教育部
	北京林业大学	88	63.79	北京	北京市	行业特色研究型	教育部
...	...	...	...	...	...	...	...
财经	西南财经大学	77	64.27	四川	成都市	区域特色研究型	教育部
	对外经济贸易大学	90	63.77	北京	北京市	区域特色研究型	教育部
	中央财经大学	82	63.99	北京	北京市	区域特色研究型	教育部
	中南财经政法大学	76	64.32	湖北	武汉市	行业特色研究型	教育部
	上海财经大学	64	64.96	上海	上海市	行业特色研究型	教育部

100 rows × 6 columns

df2.sort_index(level = '学校名称')

		名次	总分	所在省份	所在城市	办学方向	主管部门
类型	学校名称
综合	上海交通大学	7	81.76	上海	上海市	中国研究型	教育部
综合	上海大学	75	64.41	上海	上海市	区域研究型	上海市
财经	上海财经大学	64	64.96	上海	上海市	行业特色研究型	教育部
理工	东北大学	26	69.55	辽宁	沈阳市	中国研究型	教育部
师范	东北师范大学	40	66.50	吉林	长春市	行业特色研究型	教育部
...	...	...	...	...	...	...	...
综合	重庆大学	27	69.54	重庆	重庆市	中国研究型	教育部
理工	长安大学	42	66.08	陕西	西安市	行业特色研究型	教育部
师范	陕西师范大学	86	63.88	陕西	西安市	区域特色研究型	教育部
医药	首都医科大学	98	63.32	北京	北京市	区域特色研究型	北京市
师范	首都师范大学	92	63.73	北京	北京市	区域特色研究型	北京市

100 rows × 6 columns

df2.sort_index(level = '学校名称', ignore_index = True)

	名次	总分	所在省份	所在城市	办学方向	主管部门
0	7	81.76	上海	上海市	中国研究型	教育部
1	75	64.41	上海	上海市	区域研究型	上海市
2	64	64.96	上海	上海市	行业特色研究型	教育部
3	26	69.55	辽宁	沈阳市	中国研究型	教育部
4	40	66.50	吉林	长春市	行业特色研究型	教育部
...	...	...	...	...	...	...
95	27	69.54	重庆	重庆市	中国研究型	教育部
96	42	66.08	陕西	西安市	行业特色研究型	教育部
97	86	63.88	陕西	西安市	区域特色研究型	教育部
98	98	63.32	北京	北京市	区域特色研究型	北京市
99	92	63.73	北京	北京市	区域特色研究型	北京市

100 rows × 6 columns

# 只使用学校名称的前两个字排序
df2.sort_index(level = '学校名称', key = lambda x: x.str[:2])

		名次	总分	所在省份	所在城市	办学方向	主管部门
类型	学校名称
综合	上海交通大学	7	81.76	上海	上海市	中国研究型	教育部
综合	上海大学	75	64.41	上海	上海市	区域研究型	上海市
财经	上海财经大学	64	64.96	上海	上海市	行业特色研究型	教育部
师范	东北师范大学	40	66.50	吉林	长春市	行业特色研究型	教育部
理工	东北大学	26	69.55	辽宁	沈阳市	中国研究型	教育部
...	...	...	...	...	...	...	...
综合	重庆大学	27	69.54	重庆	重庆市	中国研究型	教育部
理工	长安大学	42	66.08	陕西	西安市	行业特色研究型	教育部
师范	陕西师范大学	86	63.88	陕西	西安市	区域特色研究型	教育部
医药	首都医科大学	98	63.32	北京	北京市	区域特色研究型	北京市
师范	首都师范大学	92	63.73	北京	北京市	区域特色研究型	北京市

100 rows × 6 columns

3.2 用变量值排序

df.sort_values(

by : 指定用于排序的变量名，多列时以列表形式提供

axis = 0 : 针对行/列方向排序，{0 or ‘index’, 1 or ‘columns’}

ascending = True : 是否为升序排列

inplace = False :

na_position = ‘last’: 缺失值的排列顺序，first/last

ignore_index = False : 如果忽略原有索引，则索引会被重置为0, 1, …, n - 1，1.0.0版新增

key = None : 在排序前对索引值应用指定的key函数，1.1.0版新增

)

df2.sort_values(['所在省份','所在城市'], 0, False)

		名次	总分	所在省份	所在城市	办学方向	主管部门
类型	学校名称
理工	哈尔滨工业大学	21	72.72	黑龙江	哈尔滨市	中国研究型	工业和信息化部
理工	哈尔滨工程大学	57	65.41	黑龙江	哈尔滨市	行业特色研究型	工业和信息化部
综合	西安交通大学	17	73.56	陕西	西安市	中国研究型	教育部
理工	西北工业大学	35	67.77	陕西	西安市	中国研究型	工业和信息化部
	长安大学	42	66.08	陕西	西安市	行业特色研究型	教育部
	...	...	...	...	...	...	...
	华东理工大学	48	65.79	上海	上海市	行业特色研究型	教育部
财经	上海财经大学	64	64.96	上海	上海市	行业特色研究型	教育部
综合	上海大学	75	64.41	上海	上海市	区域研究型	上海市
理工	东华大学	79	64.24	上海	上海市	行业特色研究型	教育部
医药	第二军医大学	71	64.74	上海	上海	行业特色研究型

100 rows × 6 columns

3.3 案例筛选

筛选操作的实质：基于T/F值进行筛选

3.3.1按照绝对位置进行筛选(此时不用过于考虑索引)

df.iloc

意为integer-location，即按照行列序号进行检索

可以同时指定行列，指定列时，需要先用","表明为列序号，前行后列

df.iat

本质上和iloc是一回事，可以看作别名

df2.iloc[0:3] # 不包括右侧界值,切片本身代表列表,如果再加上[]会报错

		名次	总分	所在省份	所在城市	办学方向	主管部门
类型	学校名称
综合	北京大学	1	100.00	北京	北京市	中国研究型	教育部
理工	清华大学	2	98.50	北京	北京市	中国研究型	教育部
综合	复旦大学	3	82.79	上海	上海市	中国研究型	教育部

df2.iloc[[0,3]]

		名次	总分	所在省份	所在城市	办学方向	主管部门
类型	学校名称
综合	北京大学	1	100.00	北京	北京市	中国研究型	教育部
综合	武汉大学	4	82.43	湖北	武汉市	中国研究型	教育部

df2.iloc[:,0:3] # 只指定列范围，不包括右侧边界,前面的：不能省略，否则会认为这是空参

		名次	总分	所在省份
类型	学校名称
综合	北京大学	1	100.00	北京
理工	清华大学	2	98.50	北京
综合	复旦大学	3	82.79	上海
	武汉大学	4	82.43	湖北
	浙江大学	5	82.38	浙江
...	...	...	...	...
师范	浙江师范大学	96	63.37	浙江
综合	安徽大学	97	63.34	安徽
医药	首都医科大学	98	63.32	北京
综合	江南大学	99	63.31	江苏
综合	山西大学	100	63.29	山西

100 rows × 3 columns

df2.iloc[1:4,[0,3]] # 同时指定行列范围

		名次	所在城市
类型	学校名称
理工	清华大学	2	北京市
综合	复旦大学	3	上海市
综合	武汉大学	4	武汉市

3.3.2 按照索引值进行筛选

此时要注意进行增删改查操作后的索引会乱的问题,使用其可以用来实现字符串的查找

df.loc

按照给出的索引值进行筛选

筛选范围包括上下界值

出现未知索引值时会报错

df.at

本质上和loc是一回事，可以看作别名

df2 = pd.read_excel("高校信息.xlsx",
                    sheet_name = "full", index_col = '名次')
df2

	学校名称	总分	类型	所在省份	所在城市	办学方向	主管部门
名次
1	北京大学	100.00	综合	北京	北京市	中国研究型	教育部
2	清华大学	98.50	理工	北京	北京市	中国研究型	教育部
3	复旦大学	82.79	综合	上海	上海市	中国研究型	教育部
4	武汉大学	82.43	综合	湖北	武汉市	中国研究型	教育部
5	浙江大学	82.38	综合	浙江	杭州市	中国研究型	教育部
...	...	...	...	...	...	...	...
96	浙江师范大学	63.37	师范	浙江	金华市	区域特色研究型	浙江省
97	安徽大学	63.34	综合	安徽	合肥市	区域研究型	安徽省
98	首都医科大学	63.32	医药	北京	北京市	区域特色研究型	北京市
99	江南大学	63.31	综合	江苏	无锡市	区域特色研究型	教育部
100	山西大学	63.29	综合	山西	太原市	区域研究型	山西省

100 rows × 7 columns

df2.loc[2:4] # 切片本身就是一个列表，因此不需要加[]

	学校名称	总分	类型	所在省份	所在城市	办学方向	主管部门
名次
2	清华大学	98.50	理工	北京	北京市	中国研究型	教育部
3	复旦大学	82.79	综合	上海	上海市	中国研究型	教育部
4	武汉大学	82.43	综合	湖北	武汉市	中国研究型	教育部

df2 = pd.read_excel("高校信息.xlsx",
                    sheet_name = "full", index_col = '学校名称')
df2

	名次	总分	类型	所在省份	所在城市	办学方向	主管部门
学校名称
北京大学	1	100.00	综合	北京	北京市	中国研究型	教育部
清华大学	2	98.50	理工	北京	北京市	中国研究型	教育部
复旦大学	3	82.79	综合	上海	上海市	中国研究型	教育部
武汉大学	4	82.43	综合	湖北	武汉市	中国研究型	教育部
浙江大学	5	82.38	综合	浙江	杭州市	中国研究型	教育部
...	...	...	...	...	...	...	...
浙江师范大学	96	63.37	师范	浙江	金华市	区域特色研究型	浙江省
安徽大学	97	63.34	综合	安徽	合肥市	区域研究型	安徽省
首都医科大学	98	63.32	医药	北京	北京市	区域特色研究型	北京市
江南大学	99	63.31	综合	江苏	无锡市	区域特色研究型	教育部
山西大学	100	63.29	综合	山西	太原市	区域研究型	山西省

100 rows × 7 columns

df2.loc['北京大学':'复旦大学']

	名次	总分	类型	所在省份	所在城市	办学方向	主管部门
学校名称
北京大学	1	100.00	综合	北京	北京市	中国研究型	教育部
清华大学	2	98.50	理工	北京	北京市	中国研究型	教育部
复旦大学	3	82.79	综合	上海	上海市	中国研究型	教育部

df2.loc[['北京大学', '复旦大学']]

	名次	总分	类型	所在省份	所在城市	办学方向	主管部门
学校名称
北京大学	1	100.00	综合	北京	北京市	中国研究型	教育部
复旦大学	3	82.79	综合	上海	上海市	中国研究型	教育部

df2.loc[['北京大学','复旦大学'],['名次','所在省份','总分']]

	名次	所在省份	总分
学校名称
北京大学	1	北京	100.00
复旦大学	3	上海	82.79

针对多重索引的行筛选命令

df.xs(key, axis=0, level=None, drop_level=True)
(指定具体检索用的多重索引级别)

df.IndexSlice #目前不推荐使用

df2 = pd.read_excel("高校信息.xlsx",
                    sheet_name = "full", index_col = [3, 1])
df2

		名次	总分	所在省份	所在城市	办学方向	主管部门
类型	学校名称
综合	北京大学	1	100.00	北京	北京市	中国研究型	教育部
理工	清华大学	2	98.50	北京	北京市	中国研究型	教育部
综合	复旦大学	3	82.79	上海	上海市	中国研究型	教育部
	武汉大学	4	82.43	湖北	武汉市	中国研究型	教育部
	浙江大学	5	82.38	浙江	杭州市	中国研究型	教育部
...	...	...	...	...	...	...	...
师范	浙江师范大学	96	63.37	浙江	金华市	区域特色研究型	浙江省
综合	安徽大学	97	63.34	安徽	合肥市	区域研究型	安徽省
医药	首都医科大学	98	63.32	北京	北京市	区域特色研究型	北京市
综合	江南大学	99	63.31	江苏	无锡市	区域特色研究型	教育部
综合	山西大学	100	63.29	山西	太原市	区域研究型	山西省

100 rows × 6 columns

df2.loc[['财经','师范']] # 只使用最高级别的索引检索，进行筛选

		名次	总分	所在省份	所在城市	办学方向	主管部门
类型	学校名称
师范	北京师范大学	15	74.75	北京	北京市	中国研究型	教育部
	华东师范大学	28	69.52	上海	上海市	中国研究型	教育部
	华中师范大学	34	67.92	湖北	武汉市	中国研究型	教育部
	东北师范大学	40	66.50	吉林	长春市	行业特色研究型	教育部
	南京师范大学	50	65.71	江苏	南京市	区域特色研究型	江苏省
...	...	...	...	...	...	...	...
财经	中央财经大学	82	63.99	北京	北京市	区域特色研究型	教育部
师范	陕西师范大学	86	63.88	陕西	西安市	区域特色研究型	教育部
财经	对外经济贸易大学	90	63.77	北京	北京市	区域特色研究型	教育部
师范	首都师范大学	92	63.73	北京	北京市	区域特色研究型	北京市
师范	浙江师范大学	96	63.37	浙江	金华市	区域特色研究型	浙江省

16 rows × 6 columns

df2.loc[[('财经','中央财经大学'),('综合','北京大学')]] # 完整检索，注意（）元组
#格式不要错

		名次	总分	所在省份	所在城市	办学方向	主管部门
类型	学校名称
财经	中央财经大学	82	63.99	北京	北京市	区域特色研究型	教育部
综合	北京大学	1	100.00	北京	北京市	中国研究型	教育部

df2.xs('中央财经大学', level = 1, drop_level = False)

		名次	总分	所在省份	所在城市	办学方向	主管部门
类型	学校名称
财经	中央财经大学	82	63.99	北京	北京市	区域特色研究型	教育部

3.3直接进行条件筛选

按照数据范围进行筛选

df[筛选条件]

df2[df2.名次 > 10]

		名次	总分	所在省份	所在城市	办学方向	主管部门
类型	学校名称
综合	吉林大学	11	76.01	吉林	长春市	中国研究型	教育部
理工	中国科学技术大学	12	75.14	安徽	合肥市	中国研究型	中国科学院
理工	华中科技大学	13	75.12	湖北	武汉市	中国研究型	教育部
综合	四川大学	14	74.99	四川	成都市	中国研究型	教育部
师范	北京师范大学	15	74.75	北京	北京市	中国研究型	教育部
	...	...	...	...	...	...	...
	浙江师范大学	96	63.37	浙江	金华市	区域特色研究型	浙江省
综合	安徽大学	97	63.34	安徽	合肥市	区域研究型	安徽省
医药	首都医科大学	98	63.32	北京	北京市	区域特色研究型	北京市
综合	江南大学	99	63.31	江苏	无锡市	区域特色研究型	教育部
综合	山西大学	100	63.29	山西	太原市	区域研究型	山西省

90 rows × 6 columns

列表筛选

df.isin(values)

返回结果为相应的位置是否匹配给出的values

values为序列：对应每个具体值

values为字典：对应各个变量名称

values为数据框：同时对应数值和变量名称

df2.loc[df2.名次.isin([1, 3, 5])]#[]内是给出索引，后再用引用索引，不能用iloc哦

	名次	学校名称	总分	类型	所在省份	所在城市	办学方向	主管部门
0	1	北京大学	100.00	综合	北京	北京市	中国研究型	教育部
2	3	复旦大学	82.79	综合	上海	上海市	中国研究型	教育部
4	5	浙江大学	82.38	综合	浙江	杭州市	中国研究型	教育部

df2[df2.名次.isin([1, 3, 5])]

		名次	总分	所在省份	所在城市	办学方向	主管部门
类型	学校名称
综合	北京大学	1	100.00	北京	北京市	中国研究型	教育部
	复旦大学	3	82.79	上海	上海市	中国研究型	教育部
	浙江大学	5	82.38	浙江	杭州市	中国研究型	教育部

df2[df2.所在省份.isin(['北京','上海'])]

		名次	总分	所在省份	所在城市	办学方向	主管部门
类型	学校名称
综合	北京大学	1	100.00	北京	北京市	中国研究型	教育部
理工	清华大学	2	98.50	北京	北京市	中国研究型	教育部
综合	复旦大学	3	82.79	上海	上海市	中国研究型	教育部
	中国人民大学	6	81.98	北京	北京市	中国研究型	教育部
	上海交通大学	7	81.76	上海	上海市	中国研究型	教育部
...	...	...	...	...	...	...	...
民族	中央民族大学	89	63.78	北京	北京市	行业特色研究型	国家民委
财经	对外经济贸易大学	90	63.77	北京	北京市	区域特色研究型	教育部
师范	首都师范大学	92	63.73	北京	北京市	区域特色研究型	北京市
理工	华北电力大学	93	63.66	北京	北京市	区域特色研究型	教育部
医药	首都医科大学	98	63.32	北京	北京市	区域特色研究型	北京市

31 rows × 6 columns

df2 = pd.read_excel("高校信息.xlsx",
                    sheet_name = "full", index_col = '类型')
df2[df2.index.isin(['财经', '师范'])]

	名次	学校名称	总分	所在省份	所在城市	办学方向	主管部门
类型
师范	15	北京师范大学	74.75	北京	北京市	中国研究型	教育部
师范	28	华东师范大学	69.52	上海	上海市	中国研究型	教育部
师范	34	华中师范大学	67.92	湖北	武汉市	中国研究型	教育部
师范	40	东北师范大学	66.50	吉林	长春市	行业特色研究型	教育部
师范	50	南京师范大学	65.71	江苏	南京市	区域特色研究型	江苏省
...	...	...	...	...	...	...	...
财经	82	中央财经大学	63.99	北京	北京市	区域特色研究型	教育部
师范	86	陕西师范大学	63.88	陕西	西安市	区域特色研究型	教育部
财经	90	对外经济贸易大学	63.77	北京	北京市	区域特色研究型	教育部
师范	92	首都师范大学	63.73	北京	北京市	区域特色研究型	北京市
师范	96	浙江师范大学	63.37	浙江	金华市	区域特色研究型	浙江省

16 rows × 7 columns

df2[(df2.名次 > 10) & (df2.名次 < 90)] # 必须使用()，并且用&连接

	名次	学校名称	总分	所在省份	所在城市	办学方向	主管部门
类型
综合	11	吉林大学	76.01	吉林	长春市	中国研究型	教育部
理工	12	中国科学技术大学	75.14	安徽	合肥市	中国研究型	中国科学院
理工	13	华中科技大学	75.12	湖北	武汉市	中国研究型	教育部
综合	14	四川大学	74.99	四川	成都市	中国研究型	教育部
师范	15	北京师范大学	74.75	北京	北京市	中国研究型	教育部
...	...	...	...	...	...	...	...
综合	83	广西大学	63.89	广西	南宁市	区域研究型	广西壮族自治区
师范	86	陕西师范大学	63.88	陕西	西安市	区域特色研究型	教育部
综合	87	深圳大学	63.86	广东	深圳市	区域研究型	广东省
农林	88	北京林业大学	63.79	北京	北京市	行业特色研究型	教育部
民族	89	中央民族大学	63.78	北京	北京市	行业特色研究型	国家民委

79 rows × 7 columns

用类SQL语句进行筛选

df.query(

expr : 类SQL语句表达式

( 可以使用前缀’@'引用环境变量
等号为==，而不是=
注意：目前还不支持like语句)

inplace = False : 是否直接替换原数据框

)

用法举例：

query(’(a < b) & (b < c)’)

如果索引没有名称，df.query(‘index < b < c’)

可以进行多重索引的指定，如df.query(“code==‘600801’”)

df2.query("名次 >10 and 名次 < 90 and 类型 != '综合'")

	名次	学校名称	总分	所在省份	所在城市	办学方向	主管部门
类型
理工	12	中国科学技术大学	75.14	安徽	合肥市	中国研究型	中国科学院
理工	13	华中科技大学	75.12	湖北	武汉市	中国研究型	教育部
师范	15	北京师范大学	74.75	北京	北京市	中国研究型	教育部
理工	19	同济大学	72.85	上海	上海市	中国研究型	教育部
理工	20	天津大学	72.81	天津	天津市	中国研究型	教育部
...	...	...	...	...	...	...	...
理工	83	北京工业大学	63.89	北京	北京市	区域研究型	北京市
理工	83	福州大学	63.89	福建	福州市	区域研究型	福建省
师范	86	陕西师范大学	63.88	陕西	西安市	区域特色研究型	教育部
农林	88	北京林业大学	63.79	北京	北京市	行业特色研究型	教育部
民族	89	中央民族大学	63.78	北京	北京市	行业特色研究型	国家民委

58 rows × 7 columns

limit = 5
df2.query("名次<=@limit & 类型 == '综合'")

	名次	学校名称	总分	所在省份	所在城市	办学方向	主管部门
类型
综合	1	北京大学	100.00	北京	北京市	中国研究型	教育部
综合	3	复旦大学	82.79	上海	上海市	中国研究型	教育部
综合	4	武汉大学	82.43	湖北	武汉市	中国研究型	教育部
综合	5	浙江大学	82.38	浙江	杭州市	中国研究型	教育部

实战：筛选数据中所需的案例

df2

	名次	学校名称	总分	所在省份	所在城市	办学方向	主管部门
类型
综合	1	北京大学	100.00	北京	北京市	中国研究型	教育部
理工	2	清华大学	98.50	北京	北京市	中国研究型	教育部
综合	3	复旦大学	82.79	上海	上海市	中国研究型	教育部
综合	4	武汉大学	82.43	湖北	武汉市	中国研究型	教育部
综合	5	浙江大学	82.38	浙江	杭州市	中国研究型	教育部
...	...	...	...	...	...	...	...
师范	96	浙江师范大学	63.37	浙江	金华市	区域特色研究型	浙江省
综合	97	安徽大学	63.34	安徽	合肥市	区域研究型	安徽省
医药	98	首都医科大学	63.32	北京	北京市	区域特色研究型	北京市
综合	99	江南大学	63.31	江苏	无锡市	区域特色研究型	教育部
综合	100	山西大学	63.29	山西	太原市	区域研究型	山西省

100 rows × 7 columns

df2.query("总分 < 70 and 主管部门 == '教育部'")

	名次	学校名称	总分	所在省份	所在城市	办学方向	主管部门
类型
理工	26	东北大学	69.55	辽宁	沈阳市	中国研究型	教育部
综合	27	重庆大学	69.54	重庆	重庆市	中国研究型	教育部
师范	28	华东师范大学	69.52	上海	上海市	中国研究型	教育部
理工	29	大连理工大学	68.84	辽宁	大连市	中国研究型	教育部
理工	31	华南理工大学	68.47	广东	广州市	中国研究型	教育部
...	...	...	...	...	...	...	...
师范	86	陕西师范大学	63.88	陕西	西安市	区域特色研究型	教育部
农林	88	北京林业大学	63.79	北京	北京市	行业特色研究型	教育部
财经	90	对外经济贸易大学	63.77	北京	北京市	区域特色研究型	教育部
理工	93	华北电力大学	63.66	北京	北京市	区域特色研究型	教育部
综合	99	江南大学	63.31	江苏	无锡市	区域特色研究型	教育部

41 rows × 7 columns

df2.reset_index(inplace = True) # 将索引全部还原为变量
df2

	类型	名次	学校名称	总分	所在省份	所在城市	办学方向	主管部门
0	综合	1	北京大学	100.00	北京	北京市	中国研究型	教育部
1	理工	2	清华大学	98.50	北京	北京市	中国研究型	教育部
2	综合	3	复旦大学	82.79	上海	上海市	中国研究型	教育部
3	综合	4	武汉大学	82.43	湖北	武汉市	中国研究型	教育部
4	综合	5	浙江大学	82.38	浙江	杭州市	中国研究型	教育部
...	...	...	...	...	...	...	...	...
95	师范	96	浙江师范大学	63.37	浙江	金华市	区域特色研究型	浙江省
96	综合	97	安徽大学	63.34	安徽	合肥市	区域研究型	安徽省
97	医药	98	首都医科大学	63.32	北京	北京市	区域特色研究型	北京市
98	综合	99	江南大学	63.31	江苏	无锡市	区域特色研究型	教育部
99	综合	100	山西大学	63.29	山西	太原市	区域研究型	山西省

100 rows × 8 columns

df_new = df2.set_index('主管部门')
df_new

	类型	名次	学校名称	总分	所在省份	所在城市	办学方向
主管部门
教育部	综合	1	北京大学	100.00	北京	北京市	中国研究型
教育部	理工	2	清华大学	98.50	北京	北京市	中国研究型
教育部	综合	3	复旦大学	82.79	上海	上海市	中国研究型
教育部	综合	4	武汉大学	82.43	湖北	武汉市	中国研究型
教育部	综合	5	浙江大学	82.38	浙江	杭州市	中国研究型
...	...	...	...	...	...	...	...
浙江省	师范	96	浙江师范大学	63.37	浙江	金华市	区域特色研究型
安徽省	综合	97	安徽大学	63.34	安徽	合肥市	区域研究型
北京市	医药	98	首都医科大学	63.32	北京	北京市	区域特色研究型
教育部	综合	99	江南大学	63.31	江苏	无锡市	区域特色研究型
山西省	综合	100	山西大学	63.29	山西	太原市	区域研究型

100 rows × 7 columns

df_new.query("总分 < 70 and 主管部门 == '教育部'")

	类型	名次	学校名称	总分	所在省份	所在城市	办学方向
主管部门
教育部	理工	26	东北大学	69.55	辽宁	沈阳市	中国研究型
教育部	综合	27	重庆大学	69.54	重庆	重庆市	中国研究型
教育部	师范	28	华东师范大学	69.52	上海	上海市	中国研究型
教育部	理工	29	大连理工大学	68.84	辽宁	大连市	中国研究型
教育部	理工	31	华南理工大学	68.47	广东	广州市	中国研究型
...	...	...	...	...	...	...	...
教育部	师范	86	陕西师范大学	63.88	陕西	西安市	区域特色研究型
教育部	农林	88	北京林业大学	63.79	北京	北京市	行业特色研究型
教育部	财经	90	对外经济贸易大学	63.77	北京	北京市	区域特色研究型
教育部	理工	93	华北电力大学	63.66	北京	北京市	区域特色研究型
教育部	综合	99	江南大学	63.31	江苏	无锡市	区域特色研究型

41 rows × 7 columns

bj2012

	Year	Month	Day	Hour	Site	Parameter	Date (LST)	Value	Unit	Duration	QC Name
0	2012	1	1	0	Beijing	PM2.5	2012-1-1 0:00	303	礸/mg?	1 Hr	Valid
1	2012	1	1	1	Beijing	PM2.5	2012-1-1 1:00	215	礸/mg?	1 Hr	Valid
2	2012	1	1	2	Beijing	PM2.5	2012-1-1 2:00	222	礸/mg?	1 Hr	Valid
3	2012	1	1	3	Beijing	PM2.5	2012-1-1 3:00	85	礸/mg?	1 Hr	Valid
4	2012	1	1	4	Beijing	PM2.5	2012-1-1 4:00	38	礸/mg?	1 Hr	Valid
...	...	...	...	...	...	...	...	...	...	...	...
8779	2012	12	31	19	Beijing	PM2.5	2012-12-31 19:00	131	礸/mg?1 Hr	Valid	NaN
8780	2012	12	31	20	Beijing	PM2.5	2012-12-31 20:00	113	礸/mg?1 Hr	Valid	NaN
8781	2012	12	31	21	Beijing	PM2.5	2012-12-31 21:00	45	礸/mg?1 Hr	Valid	NaN
8782	2012	12	31	22	Beijing	PM2.5	2012-12-31 22:00	39	礸/mg?1 Hr	Valid	NaN
8783	2012	12	31	23	Beijing	PM2.5	2012-12-31 23:00	35	礸/mg?1 Hr	Valid	NaN

8784 rows × 11 columns

bj2012.query("Value >100 and Month == 10 and Hour>9 and Hour <15 ")#注意是==号

	Year	Month	Day	Hour	Site	Parameter	Date (LST)	Value	Unit	Duration	QC Name
6610	2012	10	2	10	Beijing	PM2.5	2012-10-2 10:00	140	礸/mg?1 Hr	Valid	NaN
6611	2012	10	2	11	Beijing	PM2.5	2012-10-2 11:00	145	礸/mg?1 Hr	Valid	NaN
6612	2012	10	2	12	Beijing	PM2.5	2012-10-2 12:00	145	礸/mg?1 Hr	Valid	NaN
6613	2012	10	2	13	Beijing	PM2.5	2012-10-2 13:00	164	礸/mg?1 Hr	Valid	NaN
6614	2012	10	2	14	Beijing	PM2.5	2012-10-2 14:00	169	礸/mg?1 Hr	Valid	NaN
...	...	...	...	...	...	...	...	...	...	...	...
7190	2012	10	26	14	Beijing	PM2.5	2012-10-26 14:00	293	礸/mg?1 Hr	Valid	NaN
7210	2012	10	27	10	Beijing	PM2.5	2012-10-27 10:00	222	礸/mg?1 Hr	Valid	NaN
7211	2012	10	27	11	Beijing	PM2.5	2012-10-27 11:00	232	礸/mg?1 Hr	Valid	NaN
7212	2012	10	27	12	Beijing	PM2.5	2012-10-27 12:00	166	礸/mg?1 Hr	Valid	NaN
7213	2012	10	27	13	Beijing	PM2.5	2012-10-27 13:00	105	礸/mg?1 Hr	Valid	NaN

49 rows × 11 columns

你可能感兴趣的:(数据分析,python,大数据,pandas)

scanpy保存图片的常用方法汇总 Bio Coder 空间转录组 &单细胞 scanpy 保存图片汇总
在使用Scanpy（一个用于单细胞RNA测序数据分析的Python库）时，保存图片（如可视化结果）是常见的操作。Scanpy的绘图功能主要基于Matplotlib和Seaborn，保存图片的方法也与这些库的保存机制一致。以下是Scanpy保存图片的详细方法及注意事项：1.基本保存图片的方法Scanpy的绘图函数（如sc.pl.umap、sc.pl.tsne、sc.pl.pca等）通常会返回Matp
MCP Streamable HTTP 样例（qbit） pythonagent
前言模型上下文协议（ModelContextProtocol，MCP），是由Anthropic推出的开源协议，旨在实现大语言模型与外部数据源和工具的集成，用来在大模型和数据源之间建立安全双向的连接。本文代码技术栈Python3.11.8FastMCP2.10.3MCP的传输机制StandardInput/Output(stdio)StreamableHTTPServer-SentEvents(SS
掌握变量命名与Python继承机制
掌握变量命名与Python继承机制背景简介在编程中，变量命名和继承是基础且重要的概念。良好的命名习惯可以提升代码的可读性，而继承则是一种代码复用的重要机制。本文将结合具体的书籍章节内容，深入解析变量命名规则和Python继承机制。变量命名规则变量命名是编程中最基础的部分，而正确的命名习惯能够帮助其他开发者（或未来的自己）更好地理解代码。根据书籍提供的内容，我们应当遵守以下规则：变量名只包含数字、下
从零开始：构建支持上下文窗口的AI原生应用实战指南 AI天才研究院 AI人工智能与大数据 AI-native ai
从零开始：构建支持上下文窗口的AI原生应用实战指南关键词：大语言模型（LLM）、上下文窗口、AI原生应用、token管理、对话状态保持、向量检索、记忆压缩摘要：本文从AI原生应用的核心需求出发，系统讲解支持上下文窗口的应用构建全流程。通过解析上下文窗口的技术本质、关键挑战及解决方案，结合Python代码实战和真实场景案例，帮助开发者掌握从需求分析到落地部署的完整方法。内容涵盖上下文窗口管理策略、t
python进程线程协程区别_Python：线程、进程与协程(1)——概念 weixin_39989159 python进程线程协程区别
最近的业余时间主要放在了学习Python线程、进程和协程里，第一次用python的多线程和多进程是在两个月前，当时只是简单的看了几篇博文然后就跟着用，没有仔细去研究，第一次用的感觉它们其实挺简单的，最近这段时间通过看书，看Python中文官方文档等等相关资料，发现并没有想想中的那么简单，很多知识点需要仔细去理解，Python线程、进程和协程应该是Python的高级用法。Python的高级用法有很多
全栈运维的“诅咒”与“荣光”：为什么“万金油”工程师是项目成功的隐藏MVP？云原生水神职业发展系统运维运维
大家好，今天，我们来聊一个特殊且至关重要的群体：运维工程师。特别是那些在项目制中，以一己之力扛起一个或多个产品生死的“全能战士”。你是否就是其中一员？你的技能树上点亮了：操作系统、网络协议、mysql与Redis中间件、Docker与K8s容器化、Ansible与Terraform自动化、Go/Python工具开发、Prometheus监控体系、opentelemetry可视化，甚至要负责信息安全
Pandas 学习（数学建模篇）停走的风数学建模 pandas 学习
今天学习数学建模2023年C篇（228）优秀论文2023高教社杯全国大学生数学建模竞赛C题论文展示（C228）-2023C题论文-中国大学生在线一.pd.DataFramepd.DataFrame()是pandas库中用于创建二维表格数据结构（DataFrame）的核心函数。它的作用是将各种格式的数据（如字典、列表、Series等）转换为带有行索引和列标签的表格形式，便于数据处理和分析.impor
Python Selenium 使用指南
Selenium是一个用于自动化Web浏览器交互的强大工具，常用于网页测试、数据抓取和自动化任务。以下是Python中Selenium的详细使用说明。安装Selenium首先需要安装Selenium库和浏览器驱动：pipinstallselenium然后下载对应浏览器的驱动：Chrome:ChromeDriverFirefox:GeckoDriverEdge:EdgeDriver将驱动放在系统PA
【Python进阶】Python网络协议与套接字编程：构建客户端和服务器
1、网络通信基础与网络协议1.1网络通信模型概述网络通信是信息时代基石，它如同现实世界中的邮递系统，将数据从一处传递到另一处。其中，OSI七层模型与TCP/IP四层或五层模型是理解和构建网络通信的基础。1.1.1OSI七层模型与TCP/IP四层/五层模型OSI（开放系统互连）参考模型提出了七层结构，从物理层到应用层，每一层都有其特定的功能和职责，例如物理层关注的是信号如何在介质上传输，而应用层则处
Python 网络爬虫的基本流程及 robots 协议详解女码农的重启 python 网络爬虫 JAVA 开发语言
数据驱动的时代，网络爬虫作为高效获取互联网信息的工具，其规范化开发离不开对基本流程的掌握和对robots协议的遵守。本文将系统梳理Python网络爬虫的核心流程，并深入解读robots协议的重要性及实践规范。一、Python网络爬虫的基本流程Python网络爬虫的工作过程可分为四个核心阶段，每个阶段环环相扣，共同构成数据采集的完整链路。1.1发起网络请求这是爬虫与目标服务器交互的第一步，通过发送H
python中的pydantic是什么？ John Song Python python 前端开发语言 pydantic
Pydantic是Python中一个用于数据验证和设置管理的库，主要通过Python类型注解（TypeHints）来定义数据结构，并自动验证输入数据的合法性。它广泛应用于API开发（如FastAPI）、配置管理、数据序列化等场景。核心功能数据验证自动检查输入数据是否符合类型和约束条件（如字符串长度、数字范围等）。类型转换将原始数据（如JSON、字典）转换为Python类型（如datetime、En
vivo Pulsar 万亿级消息处理实践（3）-KoP指标异常修复
作者：vivo互联网大数据团队-ChenJianbo本文是《vivoPulsar万亿级消息处理实践》系列文章第3篇。Pulsar是Apache基金会的开源分布式流处理平台和消息中间件，它实现了Kafka的协议，可以让使用KafkaAPI的应用直接迁移至Pulsar，这使得Pulsar在Kafka生态系统中更加容易被接受和使用。KoP提供了从Kafka到Pulsar的无缝转换，用户可以使用Kafka
python视频工具包 ffmpeg 使用示例 pythonffmpeg
1.简介FFMPEG堪称自由软件中最完备的一套多媒体支持库，它几乎实现了所有当下常见的数据封装格式、多媒体传输协议以及音视频编解码器，提供了录制、转换以及流化音视频的完整解决方案。2.ffmpeg的常用方法将某文件下所有ts文件按顺序合并，转换成MP4格式存储：importffmpegdeftest2():ts_folder='path/ts_files/ceshi/'output_mp4="pa
python汇率_用Python抓取汇率
抓取的是中行的数据:网址代码#-*-coding:utf-8-*-importreimporturllib.requesturl='http://www.boc.cn/sourcedb/whpj/index.html'#网址req=urllib.request.Request(url)response=urllib.request.urlopen(req)the_page=response.rea
python抓取汇率_09 使用Python爬取中国银行网站选择汇率最坑的一天
爬取2018年8月27日~9月2日的欧元汇率。先说结论：如果是现汇卖出价，可以选择2018-08-3109:19:26，现钞卖出价805.28。我刚问了报销过的人她说任选都行，可以不是中行折算价。最近出差，学校可以以人民币的形式报销路费、住宿费，汇率，可以任选出差期间的任何一天任何时候的中国银行的汇率，中国银行网站上的汇率长这样：如果想要合理利用规则，多回一点本，不妨选择汇率最坑的一天(默默给财务
使用FinancialDatasets工具包进行财务数据分析 Zbb159 数据分析数据挖掘
##技术背景介绍在现代金融分析中，获取准确且及时的财务数据是至关重要的。FinancialDatasets提供了一个强大的API，可以获取超过16,000个股票的财务数据，时间跨度超过30年。通过与OpenAI的集成，我们能够创建智能化的财务分析助手，为投资者提供深度的市场洞察。##核心原理解析FinancialDatasets工具包通过RESTAPI接口访问财务数据，为每个公开交易的公司提供详细
爬虫小结 Crescent_P python小项目 python 数据分析
python爬虫小组作业上周布置了python的小组作业,每一组要求爬取老师指定的信息,本组抽到的题目如下:从中国银行网址：http://www.boc.cn/sourcedb/whpj/获取主要外汇（美元、欧元、英镑、加拿大元、澳大利亚元、日元、韩元、新台币、澳门元和港币）的牌价信息，计算出它们的每天平均价。要求把今年5月份每天平均价格保存到Excel文件中，每种外汇的数据保存在一个工作表中，并
Python 爬虫实战：抓取华尔街日报付费文章摘要的全方位指南 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
引言在全球化的信息时代，获取高质量的新闻内容对于研究、投资和决策具有重要意义。《华尔街日报》（TheWallStreetJournal，简称WSJ）作为国际知名的财经媒体，其文章内容备受关注。然而，WSJ的大部分内容属于付费订阅，普通用户无法直接访问。本文将深入探讨如何使用Python爬虫技术，结合最新的工具和方法，抓取WSJ的付费文章摘要。一、了解目标网站结构1.1WSJ网站结构分析WSJ的官方
Python爬虫实战：使用最新技术爬取头条新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言：Python爬虫在现代数据获取中的重要性在当今信息爆炸的时代，数据已经成为最宝贵的资源之一。作为数据获取的重要手段，网络爬虫技术在各个领域发挥着越来越重要的作用。Python凭借其简洁的语法、丰富的库生态系统和强大的社区支持，已经成为网络爬虫开发的首选语言。本文将详细介绍如何使用Python及其最新的爬虫技术来爬取头条新闻数据。我们将从基础概念讲起，逐步深入到高级技巧，最后给出完整的爬虫
Python爬虫实战：爬取ETF基金持仓变化 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
1.项目背景ETF（Exchange-TradedFund，交易型开放式指数基金）作为一种在交易所上市交易的基金，其持仓信息对于投资者具有重要参考价值。了解ETF的持仓变化，可以帮助投资者判断市场趋势和资金流向。本文将通过Python爬虫技术，自动化地获取ETF基金的持仓变化数据，进行存储和分析。2.技术选型与环境准备2.1技术选型编程语言：Python3.8+爬虫框架：Scrapy数据解析：Be
【Python】（一）面试题和Py基础题戏精亿点点菜 python 开发语言
1.技术面试题（1）TCP与UDP的区别是什么？答：TCP（TransmissionControlProtocol，传输控制协议）提供的是面向连接，可靠的字节流服务。即客户和服务器交换数据前，必须现在双方之间建立一个TCP连接，之后才能传输数据。并且提供超时重发，丢弃重复数据，检验数据，流量控制等功能，保证数据能从一端传到另一端。UDP（UserDataProtocol，用户数据报协议）是一个简单
Python 爬虫实战：实时采集外汇汇率数据的全方位指南 Python爬虫项目 python 爬虫开发语言信息可视化数据分析
引言在全球化的金融市场中，外汇汇率的实时数据对于投资者、企业和研究人员来说至关重要。通过自动化的方式获取这些数据，不仅可以提高效率，还能为决策提供及时的支持。本文将深入探讨如何使用Python爬虫技术，结合最新的工具和方法，实时采集外汇汇率数据。一、外汇汇率数据的获取途径1.1使用官方API接口许多金融机构和数据提供商提供了官方的API接口，供开发者获取外汇汇率数据。例如：AlphaVantage
从零构建智能ai语音助手：ESP32s3+Python+大语言模型实战指南
从零构建智能ai语音助手：ESP32s3+Python+大语言模型实战指南一、项目概述大家好！今天给大家带来一个干货满满的实战项目——基于ESP32S3硬件和Python后端的智能语音助手系统。这个项目将物联网技术与AI技术完美结合，打造一个可以实时对话、意图识别的智能语音交互系统。相比传统的离线语音系统只能识别固定命令词，我们这套系统可以：实现自然语言理解，支持多种表达方式无需预设固定命令词，更
Python 领域 pytest 的测试用例的可维护性设计
Python领域pytest的测试用例的可维护性设计关键词：pytest、测试用例、可维护性、测试框架、自动化测试、测试设计模式、重构摘要：本文深入探讨了如何在Python测试框架pytest中设计可维护的测试用例。我们将从测试用例可维护性的核心原则出发，分析pytest的特性和最佳实践，介绍多种提高测试代码可维护性的设计模式和技巧。文章包含实际代码示例、项目实战案例以及可维护性评估指标，帮助开发
广州曼顿2P数字微断：保护电力设备的安全守护者 mdkk678 安全
在现代社会，电力设备的安全运行对各行各业至关重要。然而，电力系统中存在各种电压波动、过载和短路等问题，可能对设备造成损害。为了保护电力设备免受这些问题的影响，广州曼顿推出了2P数字微断器。本文将介绍这一创新产品的特点和优势，以及它对电力设备的保护作用。广州曼顿科技有限公司专注用户侧智慧数字电气产品研制，以及智慧电能服务大数据云平台建设。基于人工智能技术，大幅提升人触电时的生命安全保障，以及电气火灾
Python爬虫小白入门指南，成为大牛必须经历的三个阶段
学习任何一门技术，都应该带着目标去学习，目标就像一座灯塔，指引你前进，很多人学着学着就学放弃了，很大部分原因是没有明确目标，所以，一定要明确学习目的，在你准备学爬虫前，先问问自己为什么要学习爬虫。有些人是为了一份工作，有些人是为了好玩，也有些人是为了实现某个黑科技功能。不过可以肯定的是，学会了爬虫能给你的工作提供很多便利。小白入门必读作为零基础小白，大体上可分为三个阶段去实现。第一阶段是入门，掌握
python 包管理工具uv
uv--versionuvpythonfinduvpythonlistexportUV_DEFAULT_INDEX="https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple"#换成私有的repoexportUV_HTTP_TIMEOUT=120uvpythoninstall3.12uvvenvmyenv--python3.12--seeduvhtt
Python通关秘籍之基础教程(一） Smile丶Life丶 Python 通关指南：从零基础到高手之路 python 开发语言后端
引言在编程的世界里，Python就像一位温和而强大的导师，它以简洁优雅的语法和强大的功能吸引着无数初学者和专业人士。无论你是想开发网站、分析数据、构建人工智能，还是仅仅想学习编程思维，Python都是你的理想选择。Python的魅力在于它的易读性和广泛的应用场景。它的代码就像英语句子一样自然，即使是完全没有编程经验的人也能快速上手。同时，Python拥有庞大的生态系统，从Web开发（Django、
Python 包管理工具（uv） cliffordl python python uv 开发语言
Python虚拟环境（conda）Python虚拟环境（venv）Python包管理工具（uv）文章目录1.uv的特点2.安装uv2.1.使用官方推荐方式2.2.使用pip安装（Python>=3.8）2.3.使用conda/mamba安装3.基本使用方法3.1.初始化项目并创建虚拟环境3.1.1.CMD运行结果3.1.2.VScode运行结果3.2.安装依赖3.3.生成依赖文件3.4.使用pyp
Python协程从入门到精通：9个案例解析yield、gevent与asyncio实战 python_chai Python python 开发语言协程并发 yield生成器 gerrnlet gevent
引言痛点分析：传统多线程在高并发场景下的性能瓶颈。协程优势：轻量级、高并发、低资源消耗。本文目标：通过9个代码案例，系统讲解协程的核心技术和应用场景。目录引言1.协程基础：理解yield生成器1.1yield的暂停与恢复机制1.2生产者-消费者模型实战1.3双向通信：send()方法详解2.手动协程控制：greenlet进阶2.1greenlet的显式切换原理2.2多任务协作案例3.自动化协程：g
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那