交通运输数据采集+数据清洗与分析+数据可视化

1.需求:

1.1 数据采集

一、 数据源 1 1(交通运输)
航空出行由于它的快捷便利,已经被越来越多的人喜欢,某航空公司通过
多年运营,积累了大量会员档案和乘坐航班信息,为对客户进行分群,明确价
值客户群体,将有限的营销资源集中于高价值客户,实现企业利润最大化。为
此,该航空公司聘请“H3CU”大数据分析公司完成此项目。
由于会员信息属于公司机密数据,该航空公司将数据脱敏后以 csv 文件传
送给“H3CU”公司进行数据处理与分析,为安全考虑“H3CU”公司需将数据
先存入数据库中备份,再进一步数据清洗与分析。请参考一下相关专业说明完
成任务。
1、 航空公司积累了大量会员档案信息和乘坐航班信息,其中包含了会员卡号、
GZ-2019032 大数据技术与应用(高职组)赛题库
- 13 -
入会时间、性别、年龄、会员卡级别、在观测窗口内的飞行公里数、飞行时
间、飞行次数等 44 个特征属性,数据存放在 csv 格式文件中。
2、 识别客户价值应用最广泛的模型是 RFM 模型。其中,R(Recency)指的是
最近一次消费时间与截止时间的时间间隔,通常 R 值越小,客户对商品或服
务最可能感兴趣。F(Frequency)指顾客某段时间的消费次数,次数越高,
顾客价值越大。M(Monetary)指顾客在某段时间内的消费金额。
3、 由于在本任务中,同样消费金额的不同客户,对航空公司的价值是不同,比
如,一位购买长航线、低等级舱位的旅客与一位购买短航线、高等级舱位的
旅客相比,可能票价是一样,但后者对航空公司的价值可能更高。所以,用
累计行程 M 和乘坐舱位对应的折扣系数 C 代替消费金额。
4、 航空公司会员入会时间也一定程度影响客户价值,因此增加客户关系长度 L
做为另一特征。构建出包含 6 个特征的模型,分别和原始数据中的 FFP_DATE
(入会时间)、LOAD_TIME(观测窗口结束时间)、FLIGHT_COUNT(观测
窗口内的飞行次数)、AVG_DISCOUNT(平均折扣系数)、SEG_KM_SUM(观
测窗口的总飞行千米数)、LAST_TO_END(最后一次乘机时间至观测窗口结
GZ-2019032 大数据技术与应用(高职组)赛题库
- 14 -
束时长)。
本次任务包括以下内容:
1、 使用 Java 或 Python 语言编写程序,将给定 csv 格式的数据文件写入
Mysql 数据库中,并将代码与运行结果截图保存。
1) 导入模块
2) 连接数据库
3) 创建表,表名称
4) 将数据写入数据库
5) 关闭数据库
2、 使用数据传输工具,将 Mysql 数据库中的航空数据导入大数据平台中进行
数据清洗,并将命令与运行结果截图并保存。

1.2 数据清洗与分析

本阶段的任务是:将客户基本信息、乘机信息、积分信息等用户信息进行
清洗和整理,并完成数据计算、分析和数据可视化。
分析统计航空公司的样例数据,使用 Java 或 Python 语言进行目标数据读
取、数据探索、数据预处理、数据特征构造等,并按题目要求输出到指定文件
中。
1、 数据处理,提取文件中每列数据中的空值个数、最大值、最小值,并打印
输出数据,截图并保存结果;
2、 剔除票价中价格(SUM_YR_1、SUM_YR_2)为空的记录,并输出修改后
的行列数量;
3、 保留票价(SUM_YR_1、SUM_YR_2)非零的、平均折扣率
(avg_discount)不为 0 且总飞行公里数(SEG_KM_SUM)大于 0 的记
录,并打印输出修改后的行列数量;
4、 剔除原始数据中不相关的属性,根据客户价值,按题目要求选择相关的 6
个属性,并打印输出前 5 行信息;
GZ-2019032 大数据技术与应用(高职组)赛题库
- 20 -
5、 通过属性构造提取题目指定额 5 个指标;
6、 由于 5 个指标之间的取值范围差异较大,需要对数据进行标准化处理,使
用标准差进行标准化处理,并打印输出前 5 行数据;
7、 计算标准化数据各列的平均值,并打印输出;
8、 计算标准化数据各列的 20%截尾均值,并打印输出;
9、 计算标准化数据各列的中位数,并打印输出;
10、  计算标准化数据各列的分位数(第四三分位),并打印输出;
11、  计算标准化数据各列的协方差,并打印输出;
12、  打印显示标准化数据各列的汇总统计量。

1.3 数据可视化:

1、 根据对航空公司 LRFMC 模型含义的理解
L:会员入会时间距离观测窗口结束的月数
R:客户最近一次乘坐飞机距观测窗口结束的月数
F:客户在观测窗口内乘坐飞机的次数
M:客户在观测窗口累计的飞行里程
C:客户在观测窗口内乘坐仓位所对应的折扣系数的平均值
使用可视化工具对给定数据结果进行分析,导出相关类别的可视化图表。

交通运输数据采集+数据清洗与分析+数据可视化_第1张图片
2、 航空会员卡是会员身份的象征,在一定程度上也是会员飞行里程的体现,飞
行里程越多,会员等级越高,也就能证明该客户为航空公司的价值客户。请
根据指定表中数据,通过指定图例进行呈现。

 

2.实现

链接:https://pan.baidu.com/s/1aY6K2yay8yPJBATMJ3BRFg 
提取码:1uz7 
复制这段内容后打开百度网盘手机App,操作更方便哦

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(大数据,python,爬虫)