★追梦赤子心★

pandas学习笔记（四）：数据的清洗、绘图以及时间数据的处理

注：学习笔记基于文彤老师的pandas的系列课程

课程链接：https://study.163.com/course/courseMain.htm?courseId=1005124008&share=1&shareId=1146477588

# 设定系统环境
import pandas as pd
pd.options.display.max_rows = 10 # 设定自由列表输出最多为10行
pd.__version__ # 显示当前Pandas版本号，默认输出最后一行内容（即使没有打印输出）

'1.1.0'

1.数据清洗

1.1 处理缺失值

系统默认的缺失值设定

系统默认的缺失值

None和np.nan #尽量要使用np.nan

确定相应数值是否为缺失值

df.isna() # 别名为isnull，反函数为notna

df2 = pd.read_csv("univ.csv", encoding ="GBK")#使用英文名称，否则可能会报错
#把文件放到了该目录下，因此不需要再写路径，注意编码要写
df2

	名次	学校名称	总分	类型	所在省份	所在城市	办学方向	主管部门
0	1	北京大学	100.00	综合	北京	北京市	中国研究型	教育部
1	2	清华大学	98.50	理工	北京	北京市	中国研究型	教育部
2	3	复旦大学	82.79	综合	上海	上海市	中国研究型	教育部
3	4	武汉大学	82.43	综合	湖北	武汉市	中国研究型	教育部
4	5	浙江大学	82.38	综合	浙江	杭州市	中国研究型	教育部
...	...	...	...	...	...	...	...	...
95	96	浙江师范大学	63.37	师范	浙江	金华市	区域特色研究型	浙江省
96	97	安徽大学	63.34	综合	安徽	合肥市	区域研究型	安徽省
97	98	首都医科大学	63.32	医药	北京	北京市	区域特色研究型	北京市
98	99	江南大学	63.31	综合	江苏	无锡市	区域特色研究型	教育部
99	100	山西大学	63.29	综合	山西	太原市	区域研究型	山西省

100 rows × 8 columns

import numpy as np

df2.名次.iloc[:3]=None
df2

	名次	学校名称	总分	类型	所在省份	所在城市	办学方向	主管部门
0	NaN	北京大学	100.00	综合	北京	北京市	中国研究型	教育部
1	NaN	清华大学	98.50	理工	北京	北京市	中国研究型	教育部
2	NaN	复旦大学	82.79	综合	上海	上海市	中国研究型	教育部
3	4.0	武汉大学	82.43	综合	湖北	武汉市	中国研究型	教育部
4	5.0	浙江大学	82.38	综合	浙江	杭州市	中国研究型	教育部
...	...	...	...	...	...	...	...	...
95	96.0	浙江师范大学	63.37	师范	浙江	金华市	区域特色研究型	浙江省
96	97.0	安徽大学	63.34	综合	安徽	合肥市	区域研究型	安徽省
97	98.0	首都医科大学	63.32	医药	北京	北京市	区域特色研究型	北京市
98	99.0	江南大学	63.31	综合	江苏	无锡市	区域特色研究型	教育部
99	100.0	山西大学	63.29	综合	山西	太原市	区域研究型	山西省

100 rows × 8 columns

df2.名次.isna()

0      True
1      True
2      True
3     False
4     False
      ...  
95    False
96    False
97    False
98    False
99    False
Name: 名次, Length: 100, dtype: bool

df2.名次.iloc[:5] = np.nan
df2.名次.isna()

0      True
1      True
2      True
3      True
4      True
      ...  
95    False
96    False
97    False
98    False
99    False
Name: 名次, Length: 100, dtype: bool

None和np.nan的核心区别：能否进行比较

None == None

True

np.nan == np.nan

False

设定inf和-inf是否被认定为缺失值(正无穷大和负无穷大)

pd.options.mode.use_inf_as_na#默认不认定

False

处理自定义缺失值

目前Pandas不支持设定自定义缺失值，因此只能考虑将其替换为系统缺失值

df.replace(‘自定义缺失值’, np.nan)

df2.所在省份.replace("北京", np.nan)

0     NaN
1     NaN
2      上海
3      湖北
4      浙江
     ... 
95     浙江
96     安徽
97    NaN
98     江苏
99     山西
Name: 所在省份, Length: 100, dtype: object

# 设定为None后的效果完全不同
df2.所在省份.replace("北京", None)#None若无新的替换值，可能保留原来，或采用上面的
                                  #因此None尽量少用

0     北京
1     北京
2     上海
3     湖北
4     浙江
      ..
95    浙江
96    安徽
97    安徽
98    江苏
99    山西
Name: 所在省份, Length: 100, dtype: object

df2na = df2.replace(["北京", 100], [np.nan, np.nan])# 后面的中括号可以简写
                                                   #简写为一个np.nan
df2na

	名次	学校名称	总分	类型	所在省份	所在城市	办学方向	主管部门
0	NaN	北京大学	NaN	综合	NaN	北京市	中国研究型	教育部
1	NaN	清华大学	98.50	理工	NaN	北京市	中国研究型	教育部
2	NaN	复旦大学	82.79	综合	上海	上海市	中国研究型	教育部
3	NaN	武汉大学	82.43	综合	湖北	武汉市	中国研究型	教育部
4	NaN	浙江大学	82.38	综合	浙江	杭州市	中国研究型	教育部
...	...	...	...	...	...	...	...	...
95	96.0	浙江师范大学	63.37	师范	浙江	金华市	区域特色研究型	浙江省
96	97.0	安徽大学	63.34	综合	安徽	合肥市	区域研究型	安徽省
97	98.0	首都医科大学	63.32	医药	NaN	北京市	区域特色研究型	北京市
98	99.0	江南大学	63.31	综合	江苏	无锡市	区域特色研究型	教育部
99	NaN	山西大学	63.29	综合	山西	太原市	区域研究型	山西省

100 rows × 8 columns

标识缺失值案例

标识缺失值

df.isna()

检查相应的数据是否为缺失值

df.isnull()

df2na.replace(["北京", 100],[np.nan, np.nan]).isna()

	名次	学校名称	总分	类型	所在省份	所在城市	办学方向	主管部门
0	True	False	True	False	True	False	False	False
1	True	False	False	False	True	False	False	False
2	True	False	False	False	False	False	False	False
3	True	False	False	False	False	False	False	False
4	True	False	False	False	False	False	False	False
...	...	...	...	...	...	...	...	...
95	False	False	False	False	False	False	False	False
96	False	False	False	False	False	False	False	False
97	False	False	False	False	True	False	False	False
98	False	False	False	False	False	False	False	False
99	True	False	False	False	False	False	False	False

100 rows × 8 columns

检查多个单元格的取值是否为指定数值

df.any(

axis : {index (0), columns (1)}
skipna = True : 检查时是否忽略缺失值
level = None : 多重索引时指定具体的级别
)

df.all(

axis : {index (0), columns (1)}
skipna = True : 检查时是否忽略缺失值
level = None : 多重索引时指定具体的级别
)

df2na.isna().any(1)

0      True
1      True
2      True
3      True
4      True
      ...  
95    False
96    False
97     True
98    False
99     True
Length: 100, dtype: bool

df2na[df2na.isna().any(1)]

	名次	学校名称	总分	类型	所在省份	所在城市	办学方向	主管部门
0	NaN	北京大学	NaN	综合	NaN	北京市	中国研究型	教育部
1	NaN	清华大学	98.50	理工	NaN	北京市	中国研究型	教育部
2	NaN	复旦大学	82.79	综合	上海	上海市	中国研究型	教育部
3	NaN	武汉大学	82.43	综合	湖北	武汉市	中国研究型	教育部
4	NaN	浙江大学	82.38	综合	浙江	杭州市	中国研究型	教育部
...	...	...	...	...	...	...	...	...
89	90.0	对外经济贸易大学	63.77	财经	NaN	北京市	区域特色研究型	教育部
91	92.0	首都师范大学	63.73	师范	NaN	北京市	区域特色研究型	北京市
92	93.0	华北电力大学	63.66	理工	NaN	北京市	区域特色研究型	教育部
97	98.0	首都医科大学	63.32	医药	NaN	北京市	区域特色研究型	北京市
99	NaN	山西大学	63.29	综合	山西	太原市	区域研究型	山西省

26 rows × 8 columns

填充缺失值

df.fillna(

value : 用于填充缺失值的数值(也可以提供dict/Series/DataFrame以进一步指明哪些索引/列会被替换,不能使用 list)
method = None : 有索引时具体的填充方法，向前填充，向后填充等
limit = None : 指定了method后设定具体的最大填充步长，大于此步长不能填充
axis : {0 or ‘index’, 1 or ‘columns’}
inplace = False
)

在构建新索引的同时完成缺失值的填充任务

df.reindex(labels = None, fill_value = np.NaN)

df2.replace(["北京", 100],[np.nan, np.nan]).fillna('未知')

	名次	学校名称	总分	类型	所在省份	所在城市	办学方向	主管部门
0	未知	北京大学	未知	综合	未知	北京市	中国研究型	教育部
1	未知	清华大学	98.5	理工	未知	北京市	中国研究型	教育部
2	未知	复旦大学	82.79	综合	上海	上海市	中国研究型	教育部
3	未知	武汉大学	82.43	综合	湖北	武汉市	中国研究型	教育部
4	未知	浙江大学	82.38	综合	浙江	杭州市	中国研究型	教育部
...	...	...	...	...	...	...	...	...
95	96	浙江师范大学	63.37	师范	浙江	金华市	区域特色研究型	浙江省
96	97	安徽大学	63.34	综合	安徽	合肥市	区域研究型	安徽省
97	98	首都医科大学	63.32	医药	未知	北京市	区域特色研究型	北京市
98	99	江南大学	63.31	综合	江苏	无锡市	区域特色研究型	教育部
99	未知	山西大学	63.29	综合	山西	太原市	区域研究型	山西省

100 rows × 8 columns

df2.replace(["北京", 100, 1, 2, 3], np.nan).fillna(df2.mean())

	名次	学校名称	总分	类型	所在省份	所在城市	办学方向	主管部门
0	52.905263	北京大学	68.5061	综合	NaN	北京市	中国研究型	教育部
1	52.905263	清华大学	98.5000	理工	NaN	北京市	中国研究型	教育部
2	52.905263	复旦大学	82.7900	综合	上海	上海市	中国研究型	教育部
3	52.905263	武汉大学	82.4300	综合	湖北	武汉市	中国研究型	教育部
4	52.905263	浙江大学	82.3800	综合	浙江	杭州市	中国研究型	教育部
...	...	...	...	...	...	...	...	...
95	96.000000	浙江师范大学	63.3700	师范	浙江	金华市	区域特色研究型	浙江省
96	97.000000	安徽大学	63.3400	综合	安徽	合肥市	区域研究型	安徽省
97	98.000000	首都医科大学	63.3200	医药	NaN	北京市	区域特色研究型	北京市
98	99.000000	江南大学	63.3100	综合	江苏	无锡市	区域特色研究型	教育部
99	52.905263	山西大学	63.2900	综合	山西	太原市	区域研究型	山西省

100 rows × 8 columns

df2.mean()

名次    52.905263
总分    68.506100
dtype: float64

删除缺失值

df.dropna(

axis = 0 : {0 or ‘index’, 1 or ‘columns’}
how = any : {‘any’, ‘all’}
any : 任何一个为NA就删除
all : 所有的都是NA才删除
thresh = None : 删除的数量阈值，int
subset : 希望在处理中包括的行/列子集
inplace = False :
)

df = pd.DataFrame([[np.nan, 2, np.nan, 0], [3, 4, np.nan, 1],
        [np.nan, np.nan, np.nan, 5]],
        columns=list('ABCD'))
df

	A	B	C	D
0	NaN	2.0	NaN	0
1	3.0	4.0	NaN	1
2	NaN	NaN	NaN	5

df.dropna(axis=1, how='all')

	A	B	D
0	NaN	2.0	0
1	3.0	4.0	1
2	NaN	NaN	5

1.2数据查重

标识出重复的行，所谓的重复第一个是保留，从第二个算起是重复

标识出重复行的意义在于进一步检查重复原因，以便将可能的错误数据加以修改

duplicated

df2['dup'] = df2.duplicated(['类型', '所在省份'])
df2

	名次	学校名称	总分	类型	所在省份	所在城市	办学方向	主管部门	dup
0	NaN	北京大学	100.00	综合	北京	北京市	中国研究型	教育部	False
1	NaN	清华大学	98.50	理工	北京	北京市	中国研究型	教育部	False
2	NaN	复旦大学	82.79	综合	上海	上海市	中国研究型	教育部	False
3	NaN	武汉大学	82.43	综合	湖北	武汉市	中国研究型	教育部	False
4	NaN	浙江大学	82.38	综合	浙江	杭州市	中国研究型	教育部	False
...	...	...	...	...	...	...	...	...	...
95	96.0	浙江师范大学	63.37	师范	浙江	金华市	区域特色研究型	浙江省	False
96	97.0	安徽大学	63.34	综合	安徽	合肥市	区域研究型	安徽省	False
97	98.0	首都医科大学	63.32	医药	北京	北京市	区域特色研究型	北京市	True
98	99.0	江南大学	63.31	综合	江苏	无锡市	区域特色研究型	教育部	True
99	100.0	山西大学	63.29	综合	山西	太原市	区域研究型	山西省	False

100 rows × 9 columns

利用索引进行重复行标识

df.index.duplicated()

df2[df2.set_index(['类型', '所在省份']).index.duplicated()]

	名次	学校名称	总分	类型	所在省份	所在城市	办学方向	主管部门	dup
5	6.0	中国人民大学	81.98	综合	北京	北京市	中国研究型	教育部	True
6	7.0	上海交通大学	81.76	综合	上海	上海市	中国研究型	教育部	True
23	24.0	东南大学	71.35	综合	江苏	南京市	中国研究型	教育部	True
24	25.0	北京航空航天大学	70.58	理工	北京	北京市	中国研究型	工业和信息化部	True
28	29.0	大连理工大学	68.84	理工	辽宁	大连市	中国研究型	教育部	True
...	...	...	...	...	...	...	...	...	...
89	90.0	对外经济贸易大学	63.77	财经	北京	北京市	区域特色研究型	教育部	True
91	92.0	首都师范大学	63.73	师范	北京	北京市	区域特色研究型	北京市	True
92	93.0	华北电力大学	63.66	理工	北京	北京市	区域特色研究型	教育部	True
97	98.0	首都医科大学	63.32	医药	北京	北京市	区域特色研究型	北京市	True
98	99.0	江南大学	63.31	综合	江苏	无锡市	区域特色研究型	教育部	True

38 rows × 9 columns

直接删除重复的行

若里面不写参数，则默认所有的内容一样的时候算重复
df.drop_duplicates(

subset : 按照指定列进行去重，默认为使用所有列
keep = ‘first’ : 是否直接删除有重复的所有记录
first : 保留第一条重复记录
last : 保留最后一条重复记录
False : 删除全部的重复记录，包括第一次出现的
inplace = False
)

df2.drop_duplicates(['类型', '所在省份'])

	名次	学校名称	总分	类型	所在省份	所在城市	办学方向	主管部门	dup
0	NaN	北京大学	100.00	综合	北京	北京市	中国研究型	教育部	False
1	NaN	清华大学	98.50	理工	北京	北京市	中国研究型	教育部	False
2	NaN	复旦大学	82.79	综合	上海	上海市	中国研究型	教育部	False
3	NaN	武汉大学	82.43	综合	湖北	武汉市	中国研究型	教育部	False
4	NaN	浙江大学	82.38	综合	浙江	杭州市	中国研究型	教育部	False
...	...	...	...	...	...	...	...	...	...
93	93.0	浙江工业大学	63.66	理工	浙江	杭州市	区域特色研究型	浙江省	False
94	95.0	华南农业大学	63.64	农林	广东	广州市	区域特色研究型	广东省	False
95	96.0	浙江师范大学	63.37	师范	浙江	金华市	区域特色研究型	浙江省	False
96	97.0	安徽大学	63.34	综合	安徽	合肥市	区域研究型	安徽省	False
99	100.0	山西大学	63.29	综合	山西	太原市	区域研究型	山西省	False

62 rows × 9 columns

df2.drop_duplicates(['类型', '所在省份'], keep = False)

	名次	学校名称	总分	类型	所在省份	所在城市	办学方向	主管部门	dup
3	NaN	武汉大学	82.43	综合	湖北	武汉市	中国研究型	教育部	False
4	NaN	浙江大学	82.38	综合	浙江	杭州市	中国研究型	教育部	False
8	9.0	国防科学技术大学	80.31	理工	湖南	长沙市	中国研究型	中央军委	False
10	11.0	吉林大学	76.01	综合	吉林	长春市	中国研究型	教育部	False
13	14.0	四川大学	74.99	综合	四川	成都市	中国研究型	教育部	False
...	...	...	...	...	...	...	...	...	...
93	93.0	浙江工业大学	63.66	理工	浙江	杭州市	区域特色研究型	浙江省	False
94	95.0	华南农业大学	63.64	农林	广东	广州市	区域特色研究型	广东省	False
95	96.0	浙江师范大学	63.37	师范	浙江	金华市	区域特色研究型	浙江省	False
96	97.0	安徽大学	63.34	综合	安徽	合肥市	区域研究型	安徽省	False
99	100.0	山西大学	63.29	综合	山西	太原市	区域研究型	山西省	False

42 rows × 9 columns

利用查重标识结果直接删除
df[~df.duplicated()]

df2[~df2.duplicated(['类型', '所在省份'])]

	类型	所在省份	名次	学校名称	总分	所在城市	办学方向	主管部门	dup
0	综合	北京	NaN	北京大学	100.00	北京市	中国研究型	教育部	False
1	理工	北京	NaN	清华大学	98.50	北京市	中国研究型	教育部	False
2	综合	上海	NaN	复旦大学	82.79	上海市	中国研究型	教育部	False
3	综合	湖北	NaN	武汉大学	82.43	武汉市	中国研究型	教育部	False
4	综合	浙江	NaN	浙江大学	82.38	杭州市	中国研究型	教育部	False
...	...	...	...	...	...	...	...	...	...
93	理工	浙江	93.0	浙江工业大学	63.66	杭州市	区域特色研究型	浙江省	False
94	农林	广东	95.0	华南农业大学	63.64	广州市	区域特色研究型	广东省	False
95	师范	浙江	96.0	浙江师范大学	63.37	金华市	区域特色研究型	浙江省	False
96	综合	安徽	97.0	安徽大学	63.34	合肥市	区域研究型	安徽省	False
99	综合	山西	100.0	山西大学	63.29	太原市	区域研究型	山西省	False

62 rows × 9 columns

1.3直接比较数据框/变量列

df.compare( # pandas 1.1版新增

df : 希望进行比较的另一个df名称
align_axis = 1 : 按行还是列方向进行对比结果的汇总输出，{0 or ‘index’, 1 or ‘columns’}
keep_shape = False : 是否在结果中保留全部行列，而不是只输出有差异的行列
keep_equal = False : 是否在结果中保留无差异的行/列，不保留则均替换为nan
) # 返回：展示所对比的两个数据框差异的结果数据框

df2 = pd.read_csv("univ.csv", encoding ="GBK")#使用英文名称，否则可能会报错
#把文件放到了该目录下，因此不需要再写路径，注意编码要写
df2

	名次	学校名称	总分	类型	所在省份	所在城市	办学方向	主管部门
0	1	北京大学	100.00	综合	北京	北京市	中国研究型	教育部
1	2	清华大学	98.50	理工	北京	北京市	中国研究型	教育部
2	3	复旦大学	82.79	综合	上海	上海市	中国研究型	教育部
3	4	武汉大学	82.43	综合	湖北	武汉市	中国研究型	教育部
4	5	浙江大学	82.38	综合	浙江	杭州市	中国研究型	教育部
...	...	...	...	...	...	...	...	...
95	96	浙江师范大学	63.37	师范	浙江	金华市	区域特色研究型	浙江省
96	97	安徽大学	63.34	综合	安徽	合肥市	区域研究型	安徽省
97	98	首都医科大学	63.32	医药	北京	北京市	区域特色研究型	北京市
98	99	江南大学	63.31	综合	江苏	无锡市	区域特色研究型	教育部
99	100	山西大学	63.29	综合	山西	太原市	区域研究型	山西省

100 rows × 8 columns

df2=df2.set_index(["类型","学校名称"])
df2

		名次	总分	所在省份	所在城市	办学方向	主管部门
类型	学校名称
综合	北京大学	1	100.00	北京	北京市	中国研究型	教育部
理工	清华大学	2	98.50	北京	北京市	中国研究型	教育部
综合	复旦大学	3	82.79	上海	上海市	中国研究型	教育部
	武汉大学	4	82.43	湖北	武汉市	中国研究型	教育部
	浙江大学	5	82.38	浙江	杭州市	中国研究型	教育部
...	...	...	...	...	...	...	...
师范	浙江师范大学	96	63.37	浙江	金华市	区域特色研究型	浙江省
综合	安徽大学	97	63.34	安徽	合肥市	区域研究型	安徽省
医药	首都医科大学	98	63.32	北京	北京市	区域特色研究型	北京市
综合	江南大学	99	63.31	江苏	无锡市	区域特色研究型	教育部
综合	山西大学	100	63.29	山西	太原市	区域研究型	山西省

100 rows × 6 columns

dftmp = df2.copy()
dftmp.loc[('综合', '北京大学'), '办学方向'] = np.nan
dftmp.head()

		名次	总分	所在省份	所在城市	办学方向	主管部门
类型	学校名称
综合	北京大学	1	100.00	北京	北京市	NaN	教育部
理工	清华大学	2	98.50	北京	北京市	中国研究型	教育部
综合	复旦大学	3	82.79	上海	上海市	中国研究型	教育部
	武汉大学	4	82.43	湖北	武汉市	中国研究型	教育部
	浙江大学	5	82.38	浙江	杭州市	中国研究型	教育部

df2.compare(dftmp)

		办学方向
		self	other
类型	学校名称
综合	北京大学	中国研究型	NaN

df2.compare(dftmp, align_axis = 0)#按行输出

			办学方向
类型	学校名称
综合	北京大学	self	中国研究型
综合	北京大学	other	NaN

df2.compare(dftmp)[('办学方向', 'self')]#列，行

类型  学校名称
综合  北京大学    中国研究型
Name: (办学方向, self), dtype: object

Series.compare( #列和df大多数情况下可以通用

other
align_axis = 1
keep_shape = False
keep_equal = False
)

df2.办学方向.compare(dftmp.办学方向)

		self	other
类型	学校名称
综合	北京大学	中国研究型	NaN

df2.办学方向.compare(dftmp.办学方向, align_axis = 0)

类型  学校名称       
综合  北京大学  self     中国研究型
          other      NaN
Name: 办学方向, dtype: object

实战：进一步整理PM2.5数据

要求：

PM2.5数据中数值-999表示缺失，请将这些数据替换为np.nan
基于上述处理结果，删除缺失值记录
在数据中查找到PM2.5数值完全相同的记录
在数据中查找到同一年中PM2.5数值完全相同的记录

bj

	Site	Date (LST)	Year	Month	Day	Hour	Value	Duration	QC Name
0	Beijing	2008-04-08 15:00	2008	4	8	15	207	1 Hr	Valid
1	Beijing	2008-04-08 16:00	2008	4	8	16	180	1 Hr	Valid
2	Beijing	2008-04-08 17:00	2008	4	8	17	152	1 Hr	Valid
3	Beijing	2008-04-08 18:00	2008	4	8	18	162	1 Hr	Valid
4	Beijing	2008-04-08 19:00	2008	4	8	19	171	1 Hr	Valid
...	...	...	...	...	...	...	...	...	...
4339	Beijing	6/30/2017 19:00	2017	6	30	19	51	1 Hr	Valid
4340	Beijing	6/30/2017 20:00	2017	6	30	20	68	1 Hr	Valid
4341	Beijing	6/30/2017 21:00	2017	6	30	21	61	1 Hr	Valid
4342	Beijing	6/30/2017 22:00	2017	6	30	22	49	1 Hr	Valid
4343	Beijing	6/30/2017 23:00	2017	6	30	23	55	1 Hr	Valid

79559 rows × 9 columns

bj=bj.replace(-999, np.nan)#-999不要加引号

bj[bj.isna().any(1)]

	Site	Date (LST)	Year	Month	Day	Hour	Value	Duration	QC Name
694	Beijing	2008-05-07 13:00	2008	5	7	13	NaN	1 Hr	Missing
695	Beijing	2008-05-07 14:00	2008	5	7	14	NaN	1 Hr	Missing
863	Beijing	2008-05-14 14:00	2008	5	14	14	NaN	1 Hr	Missing
864	Beijing	2008-05-14 15:00	2008	5	14	15	NaN	1 Hr	Missing
1027	Beijing	2008-05-21 10:00	2008	5	21	10	NaN	1 Hr	Missing
...	...	...	...	...	...	...	...	...	...
4079	Beijing	6/19/2017 23:00	2017	6	19	23	NaN	1 Hr	Missing
4080	Beijing	6/20/2017 0:00	2017	6	20	0	NaN	1 Hr	Missing
4081	Beijing	6/20/2017 1:00	2017	6	20	1	NaN	1 Hr	Missing
4184	Beijing	6/24/2017 8:00	2017	6	24	8	NaN	1 Hr	Missing
4218	Beijing	6/25/2017 18:00	2017	6	25	18	NaN	1 Hr	Missing

4459 rows × 9 columns

bj=bj.dropna(axis=0, how='any')
bj

	Site	Date (LST)	Year	Month	Day	Hour	Value	Duration	QC Name
0	Beijing	2008-04-08 15:00	2008	4	8	15	207.0	1 Hr	Valid
1	Beijing	2008-04-08 16:00	2008	4	8	16	180.0	1 Hr	Valid
2	Beijing	2008-04-08 17:00	2008	4	8	17	152.0	1 Hr	Valid
3	Beijing	2008-04-08 18:00	2008	4	8	18	162.0	1 Hr	Valid
4	Beijing	2008-04-08 19:00	2008	4	8	19	171.0	1 Hr	Valid
...	...	...	...	...	...	...	...	...	...
4339	Beijing	6/30/2017 19:00	2017	6	30	19	51.0	1 Hr	Valid
4340	Beijing	6/30/2017 20:00	2017	6	30	20	68.0	1 Hr	Valid
4341	Beijing	6/30/2017 21:00	2017	6	30	21	61.0	1 Hr	Valid
4342	Beijing	6/30/2017 22:00	2017	6	30	22	49.0	1 Hr	Valid
4343	Beijing	6/30/2017 23:00	2017	6	30	23	55.0	1 Hr	Valid

75100 rows × 9 columns

bj[bj.duplicated('Value')]

	Site	Date (LST)	Year	Month	Day	Hour	Value	Duration	QC Name
10	Beijing	2008-04-09 01:00	2008	4	9	1	64.0	1 Hr	Valid
15	Beijing	2008-04-09 06:00	2008	4	9	6	69.0	1 Hr	Valid
16	Beijing	2008-04-09 07:00	2008	4	9	7	69.0	1 Hr	Valid
17	Beijing	2008-04-09 08:00	2008	4	9	8	64.0	1 Hr	Valid
18	Beijing	2008-04-09 09:00	2008	4	9	9	69.0	1 Hr	Valid
...	...	...	...	...	...	...	...	...	...
4339	Beijing	6/30/2017 19:00	2017	6	30	19	51.0	1 Hr	Valid
4340	Beijing	6/30/2017 20:00	2017	6	30	20	68.0	1 Hr	Valid
4341	Beijing	6/30/2017 21:00	2017	6	30	21	61.0	1 Hr	Valid
4342	Beijing	6/30/2017 22:00	2017	6	30	22	49.0	1 Hr	Valid
4343	Beijing	6/30/2017 23:00	2017	6	30	23	55.0	1 Hr	Valid

74465 rows × 9 columns

bj[bj.duplicated(['Year','Value'])]

	Site	Date (LST)	Year	Month	Day	Hour	Value	Duration	QC Name
10	Beijing	2008-04-09 01:00	2008	4	9	1	64.0	1 Hr	Valid
15	Beijing	2008-04-09 06:00	2008	4	9	6	69.0	1 Hr	Valid
16	Beijing	2008-04-09 07:00	2008	4	9	7	69.0	1 Hr	Valid
17	Beijing	2008-04-09 08:00	2008	4	9	8	64.0	1 Hr	Valid
18	Beijing	2008-04-09 09:00	2008	4	9	9	69.0	1 Hr	Valid
...	...	...	...	...	...	...	...	...	...
4339	Beijing	6/30/2017 19:00	2017	6	30	19	51.0	1 Hr	Valid
4340	Beijing	6/30/2017 20:00	2017	6	30	20	68.0	1 Hr	Valid
4341	Beijing	6/30/2017 21:00	2017	6	30	21	61.0	1 Hr	Valid
4342	Beijing	6/30/2017 22:00	2017	6	30	22	49.0	1 Hr	Valid
4343	Beijing	6/30/2017 23:00	2017	6	30	23	55.0	1 Hr	Valid

70794 rows × 9 columns

2.处理日期时间变量

2.1建立Timestamp类和Period类

Timestamp对象多种格式都可以转化

from datetime import datetime # 从datetime包中引入datetime
datetime(2012, 5, 1)

datetime.datetime(2012, 5, 1, 0, 0)

pd.Timestamp(datetime(2012, 5, 1))

Timestamp('2012-05-01 00:00:00')

pd.Timestamp(datetime(2012, 5, 1, 1, 2, 3))

Timestamp('2012-05-01 01:02:03')

pd.Timestamp('2012-05-01 1:2:3')

Timestamp('2012-05-01 01:02:03')

pd.Timestamp(2012, 5, 1)

Timestamp('2012-05-01 00:00:00')

Peroid对象

可以被看作是简化之后的Timestamp对象

由于详细数据的不完整，而表示的是一段时间，而不是一个时点

但是实际使用中很可能是按照时点在使用

很多使用方法和Timestamp相同，因此不再详细介绍

freq是指数值的频率

pd.Period('2011-01')

Period('2011-01', 'M')

pd.Period('2012-05', freq='D')

Period('2012-05-01', 'D')

2.2将数据转换为Timestamp类

使用pd.Timestamp()直接转换

Timestamp只能针对某个数据转换，若想整列需要使用apply

pd.Timestamp(bj08['Date (LST)'][0])

Timestamp('2008-04-08 15:00:00')

bj08['Date (LST)'].apply(pd.Timestamp)

0      2008-04-08 15:00:00
1      2008-04-08 16:00:00
2      2008-04-08 17:00:00
3      2008-04-08 18:00:00
4      2008-04-08 19:00:00
               ...        
5082   2008-11-06 09:00:00
5083   2008-11-06 10:00:00
5084   2008-11-06 11:00:00
5085   2008-11-06 12:00:00
5086   2008-11-06 13:00:00
Name: Date (LST), Length: 5087, dtype: datetime64[ns]

用to_datetime进行批量转换，注意特点“批量”

pd.to_datetime(

arg : 需要转换为Timestamp类的数值(integer, float, string, datetime, list, tuple, 1-d array,Series)
errors = ‘raise’ : {‘ignore’, ‘raise’, ‘coerce’}
(‘raise’, 抛出错误
‘coerce’, 设定为 NaT
‘ignore’, 返回原值)

短日期的解释方式：类似"10/11/12"这样的数据如何解释
dayfirst = ‘False’ : 数值是否day在前
yearfirst = ‘False’ : 数值是否year在前，该设定优先
box = True : 是否返回为DatetimeIndex，False时返回ndarray数组
format = None : 需要转换的字符串格式设定
)

pd.to_datetime(datetime(2012, 5, 1, 1, 2, 3))

Timestamp('2012-05-01 01:02:03')

pd.to_datetime('2012-05-01 1:2:3')

Timestamp('2012-05-01 01:02:03')

pd.to_datetime(['2005/11/23', '2010.12.31'])

DatetimeIndex(['2005-11-23', '2010-12-31'], dtype='datetime64[ns]', freq=None)

pd.to_datetime(bj08['Date (LST)'], format = "%Y-%m-%d %H:%M")
#如果格式恰当，format可以不写

0      2008-04-08 15:00:00
1      2008-04-08 16:00:00
2      2008-04-08 17:00:00
3      2008-04-08 18:00:00
4      2008-04-08 19:00:00
               ...        
5082   2008-11-06 09:00:00
5083   2008-11-06 10:00:00
5084   2008-11-06 11:00:00
5085   2008-11-06 12:00:00
5086   2008-11-06 13:00:00
Name: Date (LST), Length: 5087, dtype: datetime64[ns]

基于所需的变量列合成Timestamp类

pd.to_datetime(bj08[['Year', 'Month', 'Day', 'Hour']])

0      2008-04-08 15:00:00
1      2008-04-08 16:00:00
2      2008-04-08 17:00:00
3      2008-04-08 18:00:00
4      2008-04-08 19:00:00
               ...        
5082   2008-11-06 09:00:00
5083   2008-11-06 10:00:00
5084   2008-11-06 11:00:00
5085   2008-11-06 12:00:00
5086   2008-11-06 13:00:00
Length: 5087, dtype: datetime64[ns]

2.3使用DatetimeIndex类

DatetimeIndex类对象除了拥有Index类对象的所有功能外，还针对日期时间的特点有如下增强：

1.基于日期时间的各个层级做快速索引操作
2. 快速提取所需的时间层级
3. 按照所指定的时间范围做快速切片

建立DatetimeIndex对象

建立索引时自动转换,set_index 默认原来索引的列是删除的，对于时间这个原来的会保留

使用Timestamp对象建立索引，将会自动转换为DatetimeIndex对象

bj08idx = bj08.set_index(pd.to_datetime(bj08['Date (LST)']))
print(type(bj08idx.index))
bj08idx

	Site	Date (LST)	Year	Month	Day	Hour	Value	Duration	QC Name
Date (LST)
2008-04-08 15:00:00	Beijing	2008-04-08 15:00	2008	4	8	15	207	1 Hr	Valid
2008-04-08 16:00:00	Beijing	2008-04-08 16:00	2008	4	8	16	180	1 Hr	Valid
2008-04-08 17:00:00	Beijing	2008-04-08 17:00	2008	4	8	17	152	1 Hr	Valid
2008-04-08 18:00:00	Beijing	2008-04-08 18:00	2008	4	8	18	162	1 Hr	Valid
2008-04-08 19:00:00	Beijing	2008-04-08 19:00	2008	4	8	19	171	1 Hr	Valid
...	...	...	...	...	...	...	...	...	...
2008-11-06 09:00:00	Beijing	2008-11-06 09:00	2008	11	6	9	42	1 Hr	Valid
2008-11-06 10:00:00	Beijing	2008-11-06 10:00	2008	11	6	10	46	1 Hr	Valid
2008-11-06 11:00:00	Beijing	2008-11-06 11:00	2008	11	6	11	40	1 Hr	Valid
2008-11-06 12:00:00	Beijing	2008-11-06 12:00	2008	11	6	12	35	1 Hr	Valid
2008-11-06 13:00:00	Beijing	2008-11-06 13:00	2008	11	6	13	19	1 Hr	Valid

5087 rows × 9 columns

使用date_range建立DatetimeIndex对象

这种建立方式主要是和reindx命令配合使用，以快速完成对时间序列中缺失值的填充工作

pd.date_range(

start /end = None : 日期时间范围的起点/终点，均为类日期时间格式的字符串/数据
periods = None : 准备生成的总记录数
freq = ‘D’ : 生成记录时的时间周期，可以使用字母和数值倍数的组合，如’5H’
name = None : 生成的DatetimeIndex对象的名称
)

pd.bdate_range(

主要参数和pd.date_range几乎完全相同，但默认freq = ‘B’ (business daily)
另外附加了几个针对工作日/休息日筛选的参数
)

pd.date_range('1/1/2012', periods=5)

DatetimeIndex(['2012-01-01', '2012-01-02', '2012-01-03', '2012-01-04',
               '2012-01-05'],
              dtype='datetime64[ns]', freq='D')

pd.date_range('1/1/2012', periods=5, freq='M')

DatetimeIndex(['2012-01-31', '2012-02-29', '2012-03-31', '2012-04-30',
               '2012-05-31'],
              dtype='datetime64[ns]', freq='M')

基于索引的快速切片操作

bj08idx["2008-11-1":"2008-11-5"]

	Site	Date (LST)	Year	Month	Day	Hour	Value	Duration	QC Name
Date (LST)
2008-11-01 00:00:00	Beijing	2008-11-01 00:00	2008	11	1	0	97	1 Hr	Valid
2008-11-01 01:00:00	Beijing	2008-11-01 01:00	2008	11	1	1	107	1 Hr	Valid
2008-11-01 02:00:00	Beijing	2008-11-01 02:00	2008	11	1	2	118	1 Hr	Valid
2008-11-01 03:00:00	Beijing	2008-11-01 03:00	2008	11	1	3	120	1 Hr	Valid
2008-11-01 04:00:00	Beijing	2008-11-01 04:00	2008	11	1	4	116	1 Hr	Valid
...	...	...	...	...	...	...	...	...	...
2008-11-05 19:00:00	Beijing	2008-11-05 19:00	2008	11	5	19	174	1 Hr	Valid
2008-11-05 20:00:00	Beijing	2008-11-05 20:00	2008	11	5	20	195	1 Hr	Valid
2008-11-05 21:00:00	Beijing	2008-11-05 21:00	2008	11	5	21	203	1 Hr	Valid
2008-11-05 22:00:00	Beijing	2008-11-05 22:00	2008	11	5	22	214	1 Hr	Valid
2008-11-05 23:00:00	Beijing	2008-11-05 23:00	2008	11	5	23	214	1 Hr	Valid

120 rows × 9 columns

bj08idx["2008-11"]

	Site	Date (LST)	Year	Month	Day	Hour	Value	Duration	QC Name
Date (LST)
2008-11-01 00:00:00	Beijing	2008-11-01 00:00	2008	11	1	0	97	1 Hr	Valid
2008-11-01 01:00:00	Beijing	2008-11-01 01:00	2008	11	1	1	107	1 Hr	Valid
2008-11-01 02:00:00	Beijing	2008-11-01 02:00	2008	11	1	2	118	1 Hr	Valid
2008-11-01 03:00:00	Beijing	2008-11-01 03:00	2008	11	1	3	120	1 Hr	Valid
2008-11-01 04:00:00	Beijing	2008-11-01 04:00	2008	11	1	4	116	1 Hr	Valid
...	...	...	...	...	...	...	...	...	...
2008-11-06 09:00:00	Beijing	2008-11-06 09:00	2008	11	6	9	42	1 Hr	Valid
2008-11-06 10:00:00	Beijing	2008-11-06 10:00	2008	11	6	10	46	1 Hr	Valid
2008-11-06 11:00:00	Beijing	2008-11-06 11:00	2008	11	6	11	40	1 Hr	Valid
2008-11-06 12:00:00	Beijing	2008-11-06 12:00	2008	11	6	12	35	1 Hr	Valid
2008-11-06 13:00:00	Beijing	2008-11-06 13:00	2008	11	6	13	19	1 Hr	Valid

134 rows × 9 columns

bj08idx["2008-11-1":"2008-11-5 9:00:00"]

	Site	Date (LST)	Year	Month	Day	Hour	Value	Duration	QC Name
Date (LST)
2008-11-01 00:00:00	Beijing	2008-11-01 00:00	2008	11	1	0	97	1 Hr	Valid
2008-11-01 01:00:00	Beijing	2008-11-01 01:00	2008	11	1	1	107	1 Hr	Valid
2008-11-01 02:00:00	Beijing	2008-11-01 02:00	2008	11	1	2	118	1 Hr	Valid
2008-11-01 03:00:00	Beijing	2008-11-01 03:00	2008	11	1	3	120	1 Hr	Valid
2008-11-01 04:00:00	Beijing	2008-11-01 04:00	2008	11	1	4	116	1 Hr	Valid
...	...	...	...	...	...	...	...	...	...
2008-11-05 05:00:00	Beijing	2008-11-05 05:00	2008	11	5	5	131	1 Hr	Valid
2008-11-05 06:00:00	Beijing	2008-11-05 06:00	2008	11	5	6	129	1 Hr	Valid
2008-11-05 07:00:00	Beijing	2008-11-05 07:00	2008	11	5	7	136	1 Hr	Valid
2008-11-05 08:00:00	Beijing	2008-11-05 08:00	2008	11	5	8	144	1 Hr	Valid
2008-11-05 09:00:00	Beijing	2008-11-05 09:00	2008	11	5	9	143	1 Hr	Valid

106 rows × 9 columns

2.4 对时间序列做基本处理

2.4.1 序列的分组汇总

直接取出索引的相应层级

DatetimeIndex对象可直接引用的Attributes:

date : Returns numpy array of python datetime.date objects
time : Returns numpy array of datetime.time

year : The year of the datetime
quarter : The quarter of the date
month : The month as January=1, December=12
week : The week ordinal of the year
weekday : The day of the week with Monday=0, Sunday=6
weekday_name : The name of day in a week (ex: Friday)
weekofyear : The week ordinal of the year
day : The days of the datetime
dayofweek : The day of the week with Monday=0, Sunday=6
dayofyear : The ordinal day of the year
days_in_month : The number of days in the month
daysinmonth : The number of days in the month
hour : The hours of the datetime
minute : The minutes of the datetime
second : The seconds of the datetime
microsecond : The microseconds of the datetime
nanosecond : The nanoseconds of the datetime

is_leap_year : if the date belongs to a leap year
is_month_end : if last day of month (defined by frequency)
is_month_start : if first day of month (defined by frequency)
is_quarter_end : if last day of quarter (defined by frequency)
is_quarter_start : if first day of quarter (defined by frequency)
is_year_end : if last day of year (defined by frequency)
is_year_start : if first day of year (defined by frequency)

bj08idx.index.hour

Int64Index([15, 16, 17, 18, 19, 20, 21, 22, 23,  0,
            ...
             4,  5,  6,  7,  8,  9, 10, 11, 12, 13],
           dtype='int64', name='Date (LST)', length=5087)

直接使用groupby方法进行汇总

bj08idx.groupby(bj08idx.index.month).max()#意义不大，最好指定某一列的最大值

	Site	Date (LST)	Year	Month	Day	Hour	Value	Duration	QC Name
Date (LST)
4	Beijing	2008-04-30 23:00	2008	4	30	23	610	1 Hr	Valid
5	Beijing	2008-05-31 23:00	2008	5	31	23	405	1 Hr	Valid
6	Beijing	2008-06-30 23:00	2008	6	30	23	270	1 Hr	Valid
7	Beijing	2008-07-31 23:00	2008	7	31	23	272	1 Hr	Valid
8	Beijing	2008-08-31 23:00	2008	8	31	23	195	1 Hr	Valid
9	Beijing	2008-09-30 23:00	2008	9	30	23	226	1 Hr	Valid
10	Beijing	2008-10-31 23:00	2008	10	31	23	415	1 Hr	Valid
11	Beijing	2008-11-06 13:00	2008	11	6	23	214	1 Hr	Valid

使用功能更强的resample函数

df.resample()

使用上比groupby更简单(输入更简洁)
可以将数值和汇总单位进行组合，实现更复杂的汇总计算

bj08idx.resample('3D').mean()

	Year	Month	Day	Hour	Value
Date (LST)
2008-04-08	2008.0	4.0	9.263158	12.684211	93.754386
2008-04-11	2008.0	4.0	12.000000	11.500000	67.791667
2008-04-14	2008.0	4.0	15.000000	11.500000	164.527778
2008-04-17	2008.0	4.0	18.000000	11.500000	163.166667
2008-04-20	2008.0	4.0	21.000000	11.500000	38.597222
...	...	...	...	...	...
2008-10-23	2008.0	10.0	24.000000	11.500000	17.902778
2008-10-26	2008.0	10.0	27.000000	11.500000	27.694444
2008-10-29	2008.0	10.0	30.000000	11.500000	56.861111
2008-11-01	2008.0	11.0	2.000000	11.500000	38.583333
2008-11-04	2008.0	11.0	4.838710	10.370968	113.225806

71 rows × 5 columns

2.4.2 序列的缺失值处理

时间序列要求记录的时间点连贯无缺失，因此需要：

首先建立针对整个时间范围的完整序列框架
随后针对无数据的时间点进行缺失值处理

df.reindex()是完成该任务的强有力工具

bj09idx = bj09.set_index(pd.to_datetime(bj09['Date (LST)']))
bj09idx = bj09idx[bj09idx.Value > 0]
bj09idx#从17号开始，说明之前是缺失值

	Site	Date (LST)	Year	Month	Day	Hour	Value	Duration	QC Name
Date (LST)
2009-02-17 17:00:00	Beijing	2009-02-17 17:00	2009	2	17	17	70	1 Hr	Valid
2009-02-17 18:00:00	Beijing	2009-02-17 18:00	2009	2	17	18	57	1 Hr	Valid
2009-02-17 19:00:00	Beijing	2009-02-17 19:00	2009	2	17	19	58	1 Hr	Valid
2009-02-17 20:00:00	Beijing	2009-02-17 20:00	2009	2	17	20	63	1 Hr	Valid
2009-02-17 21:00:00	Beijing	2009-02-17 21:00	2009	2	17	21	61	1 Hr	Valid
...	...	...	...	...	...	...	...	...	...
2009-12-31 18:00:00	Beijing	2009-12-31 18:00	2009	12	31	18	64	1 Hr	Valid
2009-12-31 19:00:00	Beijing	2009-12-31 19:00	2009	12	31	19	77	1 Hr	Valid
2009-12-31 20:00:00	Beijing	2009-12-31 20:00	2009	12	31	20	120	1 Hr	Valid
2009-12-31 21:00:00	Beijing	2009-12-31 21:00	2009	12	31	21	163	1 Hr	Valid
2009-12-31 22:00:00	Beijing	2009-12-31 22:00	2009	12	31	22	167	1 Hr	Valid

6779 rows × 9 columns

idx = pd.date_range(start = '2009-02-01 00:00:00',
                    end = '2009-12-31 23:00:00', freq='H')
idx

DatetimeIndex(['2009-02-01 00:00:00', '2009-02-01 01:00:00',
               '2009-02-01 02:00:00', '2009-02-01 03:00:00',
               '2009-02-01 04:00:00', '2009-02-01 05:00:00',
               '2009-02-01 06:00:00', '2009-02-01 07:00:00',
               '2009-02-01 08:00:00', '2009-02-01 09:00:00',
               ...
               '2009-12-31 14:00:00', '2009-12-31 15:00:00',
               '2009-12-31 16:00:00', '2009-12-31 17:00:00',
               '2009-12-31 18:00:00', '2009-12-31 19:00:00',
               '2009-12-31 20:00:00', '2009-12-31 21:00:00',
               '2009-12-31 22:00:00', '2009-12-31 23:00:00'],
              dtype='datetime64[ns]', length=8016, freq='H')

bj09idx.reindex(idx)#会报错，因为源数据中有重复值

bj09idx[bj09idx.index.duplicated()]

	Site	Date (LST)	Year	Month	Day	Hour	Value	Duration	QC Name
Date (LST)
2009-03-08 03:00:00	Beijing	2009-03-08 03:00	2009	3	8	3	179	1 Hr	Valid

bj09idx['2009-03-08']

	Site	Date (LST)	Year	Month	Day	Hour	Value	Duration	QC Name
Date (LST)
2009-03-08 00:00:00	Beijing	2009-03-08 00:00	2009	3	8	0	204	1 Hr	Valid
2009-03-08 01:00:00	Beijing	2009-03-08 01:00	2009	3	8	1	189	1 Hr	Valid
2009-03-08 03:00:00	Beijing	2009-03-08 03:00	2009	3	8	3	195	1 Hr	Valid
2009-03-08 03:00:00	Beijing	2009-03-08 03:00	2009	3	8	3	179	1 Hr	Valid
2009-03-08 04:00:00	Beijing	2009-03-08 04:00	2009	3	8	4	188	1 Hr	Valid
...	...	...	...	...	...	...	...	...	...
2009-03-08 19:00:00	Beijing	2009-03-08 19:00	2009	3	8	19	77	1 Hr	Valid
2009-03-08 20:00:00	Beijing	2009-03-08 20:00	2009	3	8	20	71	1 Hr	Valid
2009-03-08 21:00:00	Beijing	2009-03-08 21:00	2009	3	8	21	86	1 Hr	Valid
2009-03-08 22:00:00	Beijing	2009-03-08 22:00	2009	3	8	22	41	1 Hr	Valid
2009-03-08 23:00:00	Beijing	2009-03-08 23:00	2009	3	8	23	14	1 Hr	Valid

24 rows × 9 columns

bj09idx[~bj09idx.index.duplicated()].reindex(idx)

	Site	Date (LST)	Year	Month	Day	Hour	Value	Duration	QC Name
2009-02-01 00:00:00	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2009-02-01 01:00:00	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2009-02-01 02:00:00	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2009-02-01 03:00:00	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2009-02-01 04:00:00	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
...	...	...	...	...	...	...	...	...	...
2009-12-31 19:00:00	Beijing	2009-12-31 19:00	2009.0	12.0	31.0	19.0	77.0	1 Hr	Valid
2009-12-31 20:00:00	Beijing	2009-12-31 20:00	2009.0	12.0	31.0	20.0	120.0	1 Hr	Valid
2009-12-31 21:00:00	Beijing	2009-12-31 21:00	2009.0	12.0	31.0	21.0	163.0	1 Hr	Valid
2009-12-31 22:00:00	Beijing	2009-12-31 22:00	2009.0	12.0	31.0	22.0	167.0	1 Hr	Valid
2009-12-31 23:00:00	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN

8016 rows × 9 columns

bj09idx[~bj09idx.index.duplicated()].reindex(idx, method = 'bfill')
#用临近数值填充

	Site	Date (LST)	Year	Month	Day	Hour	Value	Duration	QC Name
2009-02-01 00:00:00	Beijing	2009-02-17 17:00	2009.0	2.0	17.0	17.0	70.0	1 Hr	Valid
2009-02-01 01:00:00	Beijing	2009-02-17 17:00	2009.0	2.0	17.0	17.0	70.0	1 Hr	Valid
2009-02-01 02:00:00	Beijing	2009-02-17 17:00	2009.0	2.0	17.0	17.0	70.0	1 Hr	Valid
2009-02-01 03:00:00	Beijing	2009-02-17 17:00	2009.0	2.0	17.0	17.0	70.0	1 Hr	Valid
2009-02-01 04:00:00	Beijing	2009-02-17 17:00	2009.0	2.0	17.0	17.0	70.0	1 Hr	Valid
...	...	...	...	...	...	...	...	...	...
2009-12-31 19:00:00	Beijing	2009-12-31 19:00	2009.0	12.0	31.0	19.0	77.0	1 Hr	Valid
2009-12-31 20:00:00	Beijing	2009-12-31 20:00	2009.0	12.0	31.0	20.0	120.0	1 Hr	Valid
2009-12-31 21:00:00	Beijing	2009-12-31 21:00	2009.0	12.0	31.0	21.0	163.0	1 Hr	Valid
2009-12-31 22:00:00	Beijing	2009-12-31 22:00	2009.0	12.0	31.0	22.0	167.0	1 Hr	Valid
2009-12-31 23:00:00	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN

8016 rows × 9 columns

序列数值平移

df.shift(

periods = 1 : 希望移动的周期数
freq : 时间频度字符串
axis = 0
)

bj08idx.shift(3)

	Site	Date (LST)	Year	Month	Day	Hour	Value	Duration	QC Name
Date (LST)
2008-04-08 15:00:00	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2008-04-08 16:00:00	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2008-04-08 17:00:00	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN	NaN
2008-04-08 18:00:00	Beijing	2008-04-08 15:00	2008.0	4.0	8.0	15.0	207.0	1 Hr	Valid
2008-04-08 19:00:00	Beijing	2008-04-08 16:00	2008.0	4.0	8.0	16.0	180.0	1 Hr	Valid
...	...	...	...	...	...	...	...	...	...
2008-11-06 09:00:00	Beijing	2008-11-06 06:00	2008.0	11.0	6.0	6.0	33.0	1 Hr	Valid
2008-11-06 10:00:00	Beijing	2008-11-06 07:00	2008.0	11.0	6.0	7.0	31.0	1 Hr	Valid
2008-11-06 11:00:00	Beijing	2008-11-06 08:00	2008.0	11.0	6.0	8.0	42.0	1 Hr	Valid
2008-11-06 12:00:00	Beijing	2008-11-06 09:00	2008.0	11.0	6.0	9.0	42.0	1 Hr	Valid
2008-11-06 13:00:00	Beijing	2008-11-06 10:00	2008.0	11.0	6.0	10.0	46.0	1 Hr	Valid

5087 rows × 9 columns

实战：建立时间索引

bj08idx = bj08.set_index(pd.to_datetime(bj08['Date (LST)']))
bj08idx

	Site	Date (LST)	Year	Month	Day	Hour	Value	Duration	QC Name
Date (LST)
2008-04-08 15:00:00	Beijing	2008-04-08 15:00	2008	4	8	15	207	1 Hr	Valid
2008-04-08 16:00:00	Beijing	2008-04-08 16:00	2008	4	8	16	180	1 Hr	Valid
2008-04-08 17:00:00	Beijing	2008-04-08 17:00	2008	4	8	17	152	1 Hr	Valid
2008-04-08 18:00:00	Beijing	2008-04-08 18:00	2008	4	8	18	162	1 Hr	Valid
2008-04-08 19:00:00	Beijing	2008-04-08 19:00	2008	4	8	19	171	1 Hr	Valid
...	...	...	...	...	...	...	...	...	...
2008-11-06 09:00:00	Beijing	2008-11-06 09:00	2008	11	6	9	42	1 Hr	Valid
2008-11-06 10:00:00	Beijing	2008-11-06 10:00	2008	11	6	10	46	1 Hr	Valid
2008-11-06 11:00:00	Beijing	2008-11-06 11:00	2008	11	6	11	40	1 Hr	Valid
2008-11-06 12:00:00	Beijing	2008-11-06 12:00	2008	11	6	12	35	1 Hr	Valid
2008-11-06 13:00:00	Beijing	2008-11-06 13:00	2008	11	6	13	19	1 Hr	Valid

5087 rows × 9 columns

bj08idx = bj08.set_index(pd.to_datetime(bj08[['Year','Month','Day','Hour']]))
bj08idx

	Site	Date (LST)	Year	Month	Day	Hour	Value	Duration	QC Name
2008-04-08 15:00:00	Beijing	2008-04-08 15:00	2008	4	8	15	207	1 Hr	Valid
2008-04-08 16:00:00	Beijing	2008-04-08 16:00	2008	4	8	16	180	1 Hr	Valid
2008-04-08 17:00:00	Beijing	2008-04-08 17:00	2008	4	8	17	152	1 Hr	Valid
2008-04-08 18:00:00	Beijing	2008-04-08 18:00	2008	4	8	18	162	1 Hr	Valid
2008-04-08 19:00:00	Beijing	2008-04-08 19:00	2008	4	8	19	171	1 Hr	Valid
...	...	...	...	...	...	...	...	...	...
2008-11-06 09:00:00	Beijing	2008-11-06 09:00	2008	11	6	9	42	1 Hr	Valid
2008-11-06 10:00:00	Beijing	2008-11-06 10:00	2008	11	6	10	46	1 Hr	Valid
2008-11-06 11:00:00	Beijing	2008-11-06 11:00	2008	11	6	11	40	1 Hr	Valid
2008-11-06 12:00:00	Beijing	2008-11-06 12:00	2008	11	6	12	35	1 Hr	Valid
2008-11-06 13:00:00	Beijing	2008-11-06 13:00	2008	11	6	13	19	1 Hr	Valid

5087 rows × 9 columns

from datetime import datetime

bj08idx = bj08idx[bj08idx.Value > 0]#去掉-999缺失值
bj08idx.groupby(bj08idx.index.month).Value.mean()

4     103.897579
5      98.406504
6      99.794444
7      89.735945
8      65.361111
9      59.312224
10     84.249326
11     73.119403
Name: Value, dtype: float64

计算大于200，方法一

bj08idx[bj08idx.Value>200].drop_duplicates(['Day']).Day.count()

计算大于200，方法二

bj08idx[bj08idx.Value>200].Day.nunique()#nuique计算非重复数值的个数

3.数据的图形展示

3.1 配置绘图系统环境

# 图形在Pandas页面同步显示的问题
%matplotlib inline

# 绘图功能的进一步美化和功能增强包，参考http://seaborn.pydata.org/
import seaborn
seaborn.set_style("whitegrid")
# 注意有中文兼容问题，需要重新导入中文设定

# 中文字符兼容问题
import matplotlib
matplotlib.rcParams['font.sans-serif'] = ['SimHei']

# 进一步在一些细节上的美化和优化
import matplotlib.pyplot as plt
plt.figure()

df2['总分'].plot.box(title='总分的箱图分布', ylim=(60, 80))

3.2 绘图命令基本框架

df.plot(

绘图用数据
data : 数据框
x = None: 行变量的名称/顺序号
y = None : 列变量的名称/顺序号

kind = ‘line’ : 需要绘制的图形种类
‘line’ : line plot (default)
‘bar’ : vertical bar plot #条图
‘barh’ : horizontal bar plot #水平的条图
‘hist’ : histogram #折方图
‘box’ : boxplot
‘kde’ : Kernel Density Estimation plot #密度图
‘density’ : same as ‘kde’
‘area’ : area plot
‘pie’ : pie plot #饼图
‘scatter’ : scatter plot #散点图
‘hexbin’ : hexbin plot

各种辅助命令
figsize : a tuple (width, height) in inches
xlim / ylim : X/Y轴的取值范围，2-tuple/list格式
logx / logy / loglog = False : 对X/Y/双轴同时使用对数尺度
title : string or list
Alpha : 图形透明度，0-1

图组命令
subplots = False : 是否分图组绘制图形
sharex : 是否使用相同的X坐标
ax = None时，取值为True，否则取值为False
sharey = False : 是否使用相同的Y坐标
ax = None : 需要叠加的 matplotlib绘图对象
)

图形种类的等价写法

df.plot.kind()

df2['总分'].plot.box(title='总分的箱图分布', ylim=(60, 80))

# 考察过去一段时间的数据分布
bj08[-100:].Value.plot(figsize=(12,8))

bj.groupby(bj.Year).Value.plot() # 有无seaborn修饰时的结果不同

条图

需要先自行完成数据汇总，绘图函数只能完成绘图工作

简单条图

# 条图
pd.value_counts(df2.类型).plot.bar()

pd.value_counts(df2.类型).plot.barh()

复式条图

行索引构成大分组，变量列构成小分组

import numpy as np
dfnew = pd.DataFrame(np.random.rand(10, 4), columns=['a', 'b', 'c', 'd'])
print(dfnew)
dfnew.plot.bar()

分段条图

plot.bar(stacked = True)

dfnew.plot.bar(stacked = True)

直方图

简单直方图

plot.hist(

by : 在df中用于分组的变量列(绘制为图组)
bins = 10 : 需要拆分的组数
)

#直方图
df2.总分.plot.hist(bins=30)

直方图图组

hist(

by : 在df中用于分组的变量列(绘制为图组)
)

df2.总分.hist(by = df2.类型, bins=10)

饼图

注意是每行代表一个饼块的数据结构，因此需要先自行汇总好变量频数

plot.pie(

y : 指定需要绘制的变量列名称
subplots = False : 多个变量列时要求分组绘图
Labels
Colors
)

简单饼图

df2.类型.value_counts().plot.pie()

pd.value_counts(df2.类型).plot.pie()#和上面的是等价的

df2.loc[:9,['名次','总分']].plot.pie(subplots = True, figsize=(8, 4))

Semicircle 半饼图

当数值总和小于1时，绘制的是semicircle

pd.Series([0.1,0.2,0.1,0.3]
          , index=['a', 'b', 'c', 'd']).plot.pie(figsize=(6, 6))

箱图针对连续变量

plot.box(

vert = True : 是否纵向绘图
)

boxplot(

by : 在df中用于分组的变量列(绘制为图组)
)

df2.plot.box(vert = False) #显示出能显示的连续变量

df2.boxplot(by='类型')

散点图

plot.scatter(

默认变量x轴的变量名和y轴的变量名
s : 控制散点大小的变量列，不能使用df中的简写方式指定
c : 控制散点颜色的变量列
)

简单散点图

df2.plot.scatter('总分', '名次')

df2.plot.scatter(x= '总分', y='名次', c='名次')

df2.plot.scatter(x= '总分', y='名次', s=df2.名次)
 #s不能写成加引号的变量名

重叠散点图

使用matplotlib的ax对象进行图形叠加
ax = df.plot.scatter(x=’’, y=’’, color=’’, label=’’);
df.plot.scatter(x=’’, y=’’, color=’’, label=’’, ax=ax);

ax = df2.plot.scatter(x='总分', y='名次'
                      , color='DarkBlue', label='Group 1');
df2.plot.scatter(x='名次', y='总分'
                 , color='DarkGreen', label='Group 2', ax = ax);

实战：图形探索PM2.5数据

基于前面数据整理实战中的成果，要求：

绘制分年度的PM2.5箱图（所有箱体在一张图上）
分图组绘制PM2.5的直方图
绘制一天24小时PM2.5均值变化的线图
各年比较的PM2.5最大值超过100、200、300、500的天数的分段条图

bj.boxplot(by='Year')

bj.Value.hist(by = bj.Year, bins=20)

bjg= bj.groupby('Hour')
bjg['Value'].mean().plot()

bj.plot.scatter('Hour', 'Value')

pd.value_counts(bj[bj.Value>200].Year).plot.bar()

你可能感兴趣的:(python,数据分析,pandas)

python基础day08 树上的 python python 开发语言
1.闭包:闭包的使用场景:当函数调用完，函数内定义的变量都销毁了，但是我们有时候需要保存函数内的这个变量，每次在这个变量的基础上完成一系列的操作，比如:每次在这个变量的基础上和其它数字进行求和计算。闭包的定义:在函数嵌套的前提下，内部函数使用了外部函数的变量，并且外部函数返回了内部函数，我们把这个使用外部函数变量的内部函数称为闭包。闭包的作用:闭包可以保存函数内的变量，不会随着函数调用完而销毁。闭
Python深度学习实践：建立端到端的自动驾驶系统 AI天才研究院 Agentic AI 实战计算 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Python深度学习实践：建立端到端的自动驾驶系统1.背景介绍自动驾驶系统是当今科技领域最具挑战性和前景的应用之一。它融合了计算机视觉、深度学习、规划与控制等多个领域的先进技术,旨在实现车辆的自主感知、决策和操控。随着人工智能技术的不断发展,越来越多的公司和研究机构投入了大量资源来开发自动驾驶系统。Python作为一种高效、易学且开源的编程语言,在这一领域扮演着重要角色。本文将探讨如何利用Pyth
华为OD机试 2025B卷 - 字符串序列判定(C++&Python&JAVA&JS&C语言) YOLO大师华为od 华为OD机试2025B卷华为OD2025B卷华为OD机试华为OD机考2025B卷
2025B卷目录点击查看：华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解2025B卷100分题型题目描述：字符串序列判定/最后一个有效字符（本题分值100）输入两个字符串S和L，都只包含英文小写字母。S长度<=100，L长度<=500,000。判定S是否是L的有效子串。判定规则：S中的每个字符在L中都能找到（可以不连续），且S在Ｌ中字符的前后顺序与S中顺序要保持一致。（例如，S=”a
在Carla上应用深度强化学习实现自动驾驶（一）寒霜似karry 自动驾驶人工智能机器学习
carla环境下基于强化学习的自动驾驶_哔哩哔哩_bilibili本篇文章是小编在pycharm上自己手敲代码学习自动驾驶的第一篇文章，主要讲述如何在Carla中控制我们自己生成的汽车并且使用rgb摄像头传感器获取图像数据。以下代码参考自：（如有侵权，请联系我将立即删除）使用Carla和Python的自动驾驶汽车第2部分——控制汽车并获取传感器数据-CSDN博客1、导入carla（其中的路径根据自
华为OD机试E卷 - 分糖果（Java & Python& JS & C++ & C ）算法大师最新华为OD机试真题华为OD机试真题 (Java/JS/Py/C)java python javascript c++华为OD2025A卷华为od
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述小明从糖果盒中随意抓一把糖果，每次小明会取出一半的糖果分给同学们。当糖果不能平均分配时，小明可以选择从糖果盒中（假设盒中糖果足够）取出一个糖果或放回一个糖果。小明最少需要多少次（取出、放回和平均分配均记一次），能将手中糖果分至只剩一颗。输入描述抓取的糖果数（<10000000000）：15输出描述最少分至一颗糖果的次数
（Python基础篇）字符串的操作 EternityArt 基础篇 python 开发语言算法
目录引言一、字符串的基本定义与访问（一）字符串的定义（二）字符串的索引与切片二、字符串的常用操作方法（一）字符串的拼接与重复（二）字符串的大小写转换（三）字符串的去除空白（四）字符串的查找与替换（五）字符串的分割与连接（六）字符串的判断方法三、字符串的格式化（一）使用%运算符（二）使用str.format()方法（三）使用f-字符串（Python3.6+）四、字符串的不可变性五、总结引言在Pyth
华为OD机试 2025B卷 - 小明减肥(C++&Python&JAVA&JS&C语言) YOLO大师华为od c++python 华为OD2025B卷华为OD机试华为机试2025B卷华为OD机试2025B卷
2025B卷目录点击查看：华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解2025B卷100分题型最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看题目描述小明有n个可选运动，每个运动有对应卡路里，想选出其中k个运动且卡路里和为t。k，t，n都是给定的。求出可行解数量输入描述第一行输入ntk第一行输入每个运动的卡路里按照空格进行分割备注00,00输出描述求出可行解
【华为OD机试真题 2025B卷】130、最多获得的短信条数、云短信平台优惠活动 | 机试真题+思路参考+代码解析（C++、Java、Py、C语言、JS） KFickle 最新华为OD机试(C++Java Py C JS)+OJ 华为od c++java javascript 华为OD机试真题 c语言最多获得的短信条数
文章目录一、题目题目描述输入输出样例1样例2二、代码与思路参考C++代码Java代码Python代码C语言代码JS代码订阅本专栏后即可解锁在线OJ刷题权限个人博客首页：KFickle专栏介绍：最新的华为OD机试真题，使用C++，Java，Python，C语言，JS五种语言进行解答，每个题目都包含解题思路，五种语言的解法，每日持续更新中，订阅后支持开通在线OJ测试刷题！！！一次订阅永久享受更新，有代
【华为OD机试真题 2025B卷】128、判断一组不等式是否满足约束并输出最大差 | 机试真题+思路参考+代码解析（C++、Java、Py、C语言、JS） KFickle 最新华为OD机试(C++Java Py C JS)+OJ 华为od c++java 华为OD机试真题 c语言 javascript
文章目录一、题目题目描述输入输出样例1样例2二、代码与思路参考C++代码Java代码Python代码C语言代码JS代码订阅本专栏后即可解锁在线OJ刷题权限个人博客首页：KFickle专栏介绍：最新的华为OD机试真题，使用C++，Java，Python，C语言，JS五种语言进行解答，每个题目都包含解题思路，五种语言的解法，每日持续更新中，订阅后支持开通在线OJ测试刷题！！！一次订阅永久享受更新，有代
Python编程菜鸟教程：从入门到精通的完全指南_python菜鸟教程 2401_89285717 python 开发语言
我们将介绍Python在数据科学、机器学习、Web开发等方面的应用，并带你了解Python社区和生态系统。基础入门Python安装：在官方网站下载安装包，根据不同操作系统进行安装。Mac用户可直接使用Homebrew进行安装Windows用户需下载安装包后进行手动安装Linux用户可使用apt-get或yum进行安装基础语法：Python是一种解释型语言，支持面向对象、函数式和面向过程等多种编程范
Python Pandas库超详细教程：从入门到精通实战指南 stormsha Python python pandas 开发语言 python3.11 数据分析
欢迎莅临我的博客，很高兴能够在这里和您见面！希望您在这里可以感受到一份轻松愉快的氛围，不仅可以获得有趣的内容和知识，也可以畅所欲言、分享您的想法和见解。推荐：「stormsha的主页」，「stormsha的知识库」持续学习，不断总结，共同进步，为了踏实，做好当下事儿~非常期待和您一起在这个小小的网络世界里共同探索、学习和成长。✨✨欢迎订阅本专栏✨✨TheStart点点关注，收藏不迷路文章目录Pyt
python中的元类Metaclass ReedSun python python
python中的元类Metaclass理解元类之前需要学习的知识如果说让我们创建一个类，最先想到的肯定是用class创建，当我们使用class创建类的时候，python解释器自动创建这个对象，但是python同样也提供了手动处理的方法来创建类，这就是用python的自建函数type()。我们所熟知的type()函数的作用是返回一个参数的类型，但是实际上，它也有一种完全不同的能力，即接受一个类的一些
python 元类的继承_Python学习_13_继承和元类五伤先生 python 元类的继承
继承继承的含义就是子类继承父类的命名空间，子类中可以调用父类的属性和方法，由于命名空间的查找方式，当子类中定义和父类同名属性或者方法时，子类的实例调用的是子类中的属性，而不是父类，这就形成了python中的多态：defSuperClass:defa_method:passdefSubClass(SuperClass):defa_method:passobj=SubClass()obj.a_meth
网络安全用什么编程语言_网络安全的5种最佳编程语言程序员羊羊 web安全网络安全开发语言数据库
网络安全用什么编程语言要成为网络安全专家，要取得成功，需要多种技能。全方位的专业人员可以放心地实施和监视安全措施，以保护计算机系统免受攻击和未经授权的访问。总部位于巴西的Python专家Henrique教人们如何使用该语言创建应用程序，他强调“除了紧跟网络安全领域的最新动态，您还需要熟悉各种编程语言。”这里有5种最佳编程语言，可帮助您提高网络安全职业的学习能力。1.C和C++C和C++是网络安全专
Python面试题：使用Python进行元编程：元类和元编程技巧
在Python中，元编程是一种编程技巧，它涉及到代码本身的结构和行为的编程。元编程允许你编写能够操作、修改或生成代码的代码。最常见的元编程技术包括使用元类、装饰器和类装饰器。以下是对Python元编程的详细讲解，包括元类和一些常用的元编程技巧。1.元类（Metaclasses）1.1定义和概念元类是用来创建类的类。换句话说，元类定义了类的行为，就像类定义了对象的行为一样。在Python中，type
Python元类基础知识示例深度剖析，从新手小白成为Python编程高手只存在于虚拟的King python 开发语言深度学习学习经验分享计算机网络程序人生
文章目录引言一、什么是元类？二、元类的工作原理三、如何定义元类四、元类的应用场景五、元类的注意事项六、结论关于Python技术储备一、Python所有方向的学习路线二、Python基础学习视频三、精品Python学习书籍四、Python工具包+项目源码合集①Python工具包②Python实战案例③Python小游戏源码五、面试资料六、Python兼职渠道引言Python是一种强大的编程语言，一部
stm32 micropython vscode_VS Code 上最硬核的 MicroPython 插件 weixin_39968309 stm32 micropython vscode
介绍VSCode上最硬核的MicroPython插件——RT-ThreadMicroPython，为MicroPython开发提供了强大的开发环境，主要特性如下：设备快速连接(串口、网络、USB)支持基于MicroPython的代码智能补全与语法检查支持MicroPythonREPL交互环境提供丰富的代码示例与demo程序提供工程同步功能支持下载单个文件或文件夹至开发板支持在内存中快速运行代码文件
Python对JSON数据操作
在Python中，对JSON数据进行增删改查及加载保存操作，主要通过内置的json模块实现。一、基础操作1.加载JSON数据•从文件加载使用json.load()读取JSON文件并转换为Python对象（字典/列表）：importjsonwithopen('data.json','r',encoding='utf-8')asf:data=json.load(f)•从字符串加载使用json.load
【转载】python json
概念序列化（Serialization）：将对象的状态信息转换为可以存储或可以通过网络传输的过程，传输的格式可以是JSON、XML等。反序列化就是从存储区域（JSON，XML）读取反序列化对象的状态，重新创建该对象。JSON（JavaScriptObjectNotation）：一种轻量级数据交换格式，相对于XML而言更简单，也易于阅读和编写，机器也方便解析和生成，Json是JavaScript中的
Python os库完全指南：文件操作必备晨曦543210 Python启航之路 python 开发语言
一、简介Python的os库。这个库主要用于和操作系统交互，比如管理文件、目录、运行系统命令等。二、导入库importos三、基础操作获取当前工作目录current_dir=os.getcwd()print("当前目录:",current_dir)切换目录os.chdir("/path/to/new/directory")列出目录内容files=os.listdir()#不传参数则默认当前目录pr
Python 爬虫实战：Selenium 爬取豆瓣相册（图片分类 + 标签提取）西攻城狮北 python 爬虫 selenium
一、引言豆瓣作为国内知名的社区平台，其相册功能允许用户上传和分享各类图片，涵盖电影海报、音乐专辑、生活记录等多个领域。这些图片数据对于了解用户兴趣、进行内容推荐和市场调研具有重要价值。然而，豆瓣对直接的数据访问设定了诸多限制，因此，本文将介绍如何通过Python爬虫技术结合Selenium自动化工具，合法高效地爬取豆瓣相册图片，并运用深度学习技术实现图片分类和标签提取。二、开发环境搭建（一）编程语
Python JSON操作完全指南
目录一、简介二、JSON和Python的对应关系三、核心函数1.json.dumps()：将Python对象→JSON字符串2.json.loads()：将JSON字符串→Python对象3.json.dump()：将Python对象→JSON文件4.json.load()：从JSON文件→Python对象四、常见错误处理1.JSON解析错误2.类型不支持错误五、总结六、常用函数1️⃣json.d
数据分析-58-SPC统计过程控制的8个判异准则皮皮冰燃数据分析数据分析 SPC
文章目录1SPC统计过程控制1.1SPC控制图1.2SPC判异准则1.2.1准则1：1个点超出控制限(UCL/LCL)1.2.2准则2：连续9点在中心线同一侧1.2.3准则3：连续6点递增或递减1.2.4准则4：连续14点交替上下波动1.2.5准则5：连续3点中有2点超出2σ警戒限1.2.6准则6：连续5点中有4点超出1σ范围1.2.7准则7：连续15点在1σ范围内1.2.8准则8：连续8点超出1
数据分析-59-SPC统计过程控制XR图和XS图和IMR图和CPK分析图皮皮冰燃数据分析数据分析 SPC
文章目录1均值极差图XR1.1适用场景1.2构造步骤1.3代码示例2均值标准差图XS2.1适用场景2.2构造步骤2.3代码示例3IMR图3.1适用场景3.2构造步骤3.3代码示例4CPK分析图4.1CPK计算4.2创建步骤4.3代码示例XR控制图：子样本数量较小。XS控制图：子样本数量较大。IMR图。CPK分析图。1均值极差图XR均值-极差图（X̄-R图，Mean-RangeChart）是统计过程
华为OD机试 - 计算某字符出现次数（Python/JS/C/C++ 2025 B卷 100分）哪吒华为od python javascript 2025B卷华为OD机试
2025B卷华为OD机试统一考试题库清单（持续收录中）以及考点说明（Python/JS/C/C++）。专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。一、题目描述写出一个程序
华为OD机试 - 取零食 - 动态规划（Python/JS/C/C++ 2024 E卷 100分）哪吒华为od 动态规划 python
2025华为OD机试题库（按算法分类）：2025华为OD统一考试题库清单（持续收录中）以及考点说明（Python/JS/C/C++）。专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随
华为OD机试 - 快速人名查找 - 深度优先搜索dfs（Python/JS/C/C++ 2025 B卷 200分）哪吒华为od 深度优先 python 2025A卷华为OD机试
一、题目描述给一个字符串，表示用","分开的人名。然后给定一个字符串，进行快速人名查找，符合要求的输出。快速人名查找要求：人名的每个单词的连续前几位能组成给定字符串，一定要用到每个单词。二、输入描述第一行是人名，用“，”分开的人名第二行是查找字符串。三、输出描述输出满足要求的人名。四、测试用例测试用例1：1、输入alicebob,charliedelta,alicecharlieac2、输出ali
2025上半年最新华为OD机试与面试指南，最新2025B卷独家总结上岸技巧，答读者问！必看！【万字长文，建议收藏】（Python/JS/C/C++）
专栏导读本专栏收录于《华为OD机试真题（Python/JS/C/C++）》。刷的越多，抽中的概率越大，私信哪吒，备注华为OD，加入华为OD刷题交流群，每一题都有详细的答题思路、详细的代码注释、3个测试用例、为什么这道题采用XX算法、XX算法的适用场景，发现新题目，随时更新。2025年5月12日，华为官方已经将华为OD机试（A卷）切换为B卷。目前正在考的是B卷，按照华为OD往常的操作，B卷题目是由往
Jetson Orin NX Super安装TensorRT-LLM u013250861 #LLM/部署&推理 elasticsearch 大数据搜索引擎
根据图片中显示的JetsonOrinNXSuper系统环境（JetPack6.2+CUDA12.6+TensorRT10.7），以下是针对该平台的TensorRT-LLM安装优化方案：一、环境适配调整基于你的实际配置：JetPack6.2（含CUDA12.6,TensorRT10.7）Python3.10.12aarch64架构需选择适配的TensorRT-LLM版本。由于官方预编译包可能未覆盖此
SpringBoot多数据源动态切换方案：AbstractRoutingDataSource详解 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot多数据源动态切换
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方

pandas学习笔记（四）：数据的清洗、绘图以及时间数据的处理

注：学习笔记基于文彤老师的pandas的系列课程

1.数据清洗

1.1 处理缺失值

系统默认的缺失值设定

处理自定义缺失值

标识缺失值案例

填充缺失值

删除缺失值

1.2数据查重

直接删除重复的行

1.3直接比较数据框/变量列

实战：进一步整理PM2.5数据

2.处理日期时间变量

2.1建立Timestamp类和Period类

Timestamp对象 多种格式都可以转化

Peroid对象

2.2将数据转换为Timestamp类

使用pd.Timestamp()直接转换

用to_datetime进行批量转换，注意特点“批量”

基于所需的变量列合成Timestamp类

2.3使用DatetimeIndex类

建立DatetimeIndex对象

使用date_range建立DatetimeIndex对象

基于索引的快速切片操作

2.4 对时间序列做基本处理

2.4.1 序列的分组汇总

直接使用groupby方法进行汇总

使用功能更强的resample函数

2.4.2 序列的缺失值处理

序列数值平移

实战：建立时间索引

3.数据的图形展示

3.1 配置绘图系统环境

3.2 绘图命令基本框架

条图

简单条图

复式条图

分段条图

直方图

简单直方图

直方图图组

饼图

简单饼图

Semicircle 半饼图

箱图 针对连续变量

散点图

简单散点图

重叠散点图

实战：图形探索PM2.5数据

你可能感兴趣的:(python,数据分析,pandas)

Timestamp对象多种格式都可以转化

箱图针对连续变量