分析数据首先要搞清楚数据字段的含义。
博主费劲千辛万苦,终于在FAA上找到了各种字段的解释
数据来源:ACAIS(航空公司活动信息系统-FFA(美国联邦航空管理局))
https://www.faa.gov/airports/planning_capacity/passenger_allcargo_stats/passenger/previous_years/
选用表:cy18-all-enplanements.xlsx
字段 | 解释 |
---|---|
Rank | 按旅客人数的排名(降序) |
RO | 美国的区域(缩写) Region |
ST | 美国的洲的编码(State Code) |
Locid | 机场缩写 |
City | 机场所在的城市 |
Airport Name | 机场名称 |
S/L | 服务水平(Service Level)【类型:CS、P、GA】 |
Hub | 枢纽类型(Hub Type(Large hub,Medium hub,Small hub,Non-hub)) |
CY 18 Enplanements | 2018年登机的旅客 |
CY 17 Enplanements | 2017年登机的旅客 |
% Change | 2017年~2018年旅客人数的的变化率 |
说明:
FAA将旅客吞吐量占全美吞吐总量1%以上的机场定义为大型枢纽(primary large hub),旅客吞吐量占全美吞吐总量0.25%-1%的机场定义为中型枢纽(primary medium hub),旅客吞吐量占全美吞吐总量0.05-0.25%的机场定义为小型枢纽(primary small hub)。旅客吞吐量占全美吞吐总量达到1万人次,但低于旅客吞吐量占全美吞吐总量0.05的机场定义为主要非枢纽机场(primary nonhub)。年客运量至少2500人次,但不超过10000人次。定义为非主要机场(non-primary nonhub)。
现在已经知道了总表的每个字段的含义,接下来就是把原来的表进行拆分,变成一个个的子表,然后从不同方向去分析这些表。
我们可以将所需要的数据抽离出来,变成视图,这样方便操作
不同城市-不同机场-2017、2018乘客的人数(city_airportID_peoples.xls)
create view v_city_airportID_peoples
as
select city,Locid airportID, CY_17_Enplanements,CY_18_Enplanements
from t_passengerInfo
枢纽类型-2017、2018乘客的人数(HubType_peoples.xls)
create view v_HubType_peoples
as
select isnull(Hub,'未知') HubType,sum(CY_17_Enplanements) CY_17_Enplanements,sum(CY_18_Enplanements) CY_18_Enplanements
from t_passengerInfo group by Hub
不同机场2017、2018的游客人数(airportID_peoples.xls)
create view v_airportID_peoples
as
select Locid airportID,CY_17_Enplanements,CY_18_Enplanements
from t_passengerInfo
美国不同区域2017、2018游客的分布(ro_peoples.xls)
create view v_ro_peoples
as
select RO,sum(CY_17_Enplanements) CY_17_Enplanements,sum(CY_18_Enplanements) CY_18_Enplanements
from t_passengerInfo group by RO
美国不同洲2017、2018游客的分布(st_peoples.xls)
create view v_st_peoples
as
select ST,sum(CY_17_Enplanements) CY_17_Enplanements,sum(CY_18_Enplanements) CY_18_Enplanements
from t_passengerInfo group by ST
不同机场的服务水平(airportID_serviceLevel.xls)
create view v_airportID_serviceLevel
as
select Locid airportID,S_L serviceLevel from t_passengerInfo
不同机场的枢纽类型(airportID_HubType.xls)
create view v_airport_HubType
as
select Locid airportID,Hub HubType from t_passengerInfo where Hub is not null
表名 | 含义 |
---|---|
city_airportID_peoples.xls | 不同城市-不同机场-2017、2018乘客的人数 |
HubType_peoples.xls | 枢纽类型-2017、2018乘客的人数 |
airportID_peoples.xls | 不同机场2017、2018的游客人数 |
ro_peoples.xls | 美国不同区域2017、2018游客的分布 |
st_peoples.xls | 美国不同洲2017、2018游客的分布 |
airportID_serviceLevel.xls | 不同机场的服务水平 |
airportID_HubType.xls | 不同机场的枢纽类型 |
最后,我们可以通过Pandas包的函数进行读表操作
import pandas as pd
# import xlrd
# 每个区域的2017、2018的游客人数
# airportID_serviceLevel.xls,airportID_serviceLevel
# airport_HubType.xls,airport_HubType
# city_airportID_peoples.xls,city_airportID_peoples
df4 = pd.read_excel('./DataResource/HubType_peoples.xls', 'HubType_peoples')
print(df4)
结果如下:
到这里,对数据的整理部分就结束了,后期就开始学习统计学的基础知识了!
具体正式提交报告还有1个月,迫在眉睫啊!
【git源码地址】:https://gitee.com/sienhao/data-analysis-python.git