Python实现数据分析(六)数据字典的建立

数据字典

分析数据首先要搞清楚数据字段的含义。

博主费劲千辛万苦,终于在FAA上找到了各种字段的解释

数据来源:ACAIS(航空公司活动信息系统-FFA(美国联邦航空管理局))
https://www.faa.gov/airports/planning_capacity/passenger_allcargo_stats/passenger/previous_years/
选用表:cy18-all-enplanements.xlsx

字段 解释
Rank 按旅客人数的排名(降序)
RO 美国的区域(缩写) Region
ST 美国的洲的编码(State Code)
Locid 机场缩写
City 机场所在的城市
Airport Name 机场名称
S/L 服务水平(Service Level)【类型:CS、P、GA】
Hub 枢纽类型(Hub Type(Large hub,Medium hub,Small hub,Non-hub))
CY 18 Enplanements 2018年登机的旅客
CY 17 Enplanements 2017年登机的旅客
% Change 2017年~2018年旅客人数的的变化率

说明:

FAA将旅客吞吐量占全美吞吐总量1%以上的机场定义为大型枢纽(primary large hub),旅客吞吐量占全美吞吐总量0.25%-1%的机场定义为中型枢纽(primary medium hub),旅客吞吐量占全美吞吐总量0.05-0.25%的机场定义为小型枢纽(primary small hub)。旅客吞吐量占全美吞吐总量达到1万人次,但低于旅客吞吐量占全美吞吐总量0.05的机场定义为主要非枢纽机场(primary nonhub)。年客运量至少2500人次,但不超过10000人次。定义为非主要机场(non-primary nonhub)。

现在已经知道了总表的每个字段的含义,接下来就是把原来的表进行拆分,变成一个个的子表,然后从不同方向去分析这些表。

待处理的表

我们可以将所需要的数据抽离出来,变成视图,这样方便操作

不同城市-不同机场-2017、2018乘客的人数(city_airportID_peoples.xls)

create view v_city_airportID_peoples
as
select city,Locid airportID, CY_17_Enplanements,CY_18_Enplanements
from t_passengerInfo

枢纽类型-2017、2018乘客的人数(HubType_peoples.xls)

create view v_HubType_peoples
as
select isnull(Hub,'未知') HubType,sum(CY_17_Enplanements) CY_17_Enplanements,sum(CY_18_Enplanements) CY_18_Enplanements
from t_passengerInfo group by  Hub

不同机场2017、2018的游客人数(airportID_peoples.xls)

create view v_airportID_peoples
as
select Locid airportID,CY_17_Enplanements,CY_18_Enplanements 
from t_passengerInfo

美国不同区域2017、2018游客的分布(ro_peoples.xls)

create view v_ro_peoples
as
select RO,sum(CY_17_Enplanements) CY_17_Enplanements,sum(CY_18_Enplanements) CY_18_Enplanements 
from t_passengerInfo group by RO

美国不同洲2017、2018游客的分布(st_peoples.xls)

create view v_st_peoples
as
select ST,sum(CY_17_Enplanements) CY_17_Enplanements,sum(CY_18_Enplanements) CY_18_Enplanements 
from t_passengerInfo group by ST

不同机场的服务水平(airportID_serviceLevel.xls)

create view v_airportID_serviceLevel
as
select Locid airportID,S_L serviceLevel from t_passengerInfo

不同机场的枢纽类型(airportID_HubType.xls)

create view v_airport_HubType
as
select Locid airportID,Hub HubType from t_passengerInfo where Hub is not null

表字典

Python实现数据分析(六)数据字典的建立_第1张图片

表名 含义
city_airportID_peoples.xls 不同城市-不同机场-2017、2018乘客的人数
HubType_peoples.xls 枢纽类型-2017、2018乘客的人数
airportID_peoples.xls 不同机场2017、2018的游客人数
ro_peoples.xls 美国不同区域2017、2018游客的分布
st_peoples.xls 美国不同洲2017、2018游客的分布
airportID_serviceLevel.xls 不同机场的服务水平
airportID_HubType.xls 不同机场的枢纽类型

最后,我们可以通过Pandas包的函数进行读表操作

import pandas as pd
# import xlrd
# 每个区域的2017、2018的游客人数
# airportID_serviceLevel.xls,airportID_serviceLevel
# airport_HubType.xls,airport_HubType
# city_airportID_peoples.xls,city_airportID_peoples

df4 = pd.read_excel('./DataResource/HubType_peoples.xls', 'HubType_peoples')
print(df4)

结果如下:
Python实现数据分析(六)数据字典的建立_第2张图片
到这里,对数据的整理部分就结束了,后期就开始学习统计学的基础知识了!

具体正式提交报告还有1个月,迫在眉睫啊!

【git源码地址】:https://gitee.com/sienhao/data-analysis-python.git

(看了一下自己之前的准备工作,成就感满满,期待出成果)
Python实现数据分析(六)数据字典的建立_第3张图片
求三连!!!

你可能感兴趣的:(Python数据分析,数据分析,python)