植被类型预测

植被类型预测_第1张图片

参加佛山互联网协会建模大赛,主题为植被类型预测,数据量分3个阶段,10/15/15万左右的放出,暨大教授在里面加了噪音,但我EDA没做得很好;因此只拿到26名;

训练环境:WIN7,16G内存,Rstudio,xgboost,CV交叉验证;耗时比较久,因为用for语句;
最高成绩加权F1值只有0.69,Kaggle实测成绩0.72;
脚本和训练过程见下面notebook;

链接描述

去听前11名理论赛演讲,其实大家用的都差不多,还有人会用并行结构;用spss做更多eda;

大赛规则:
“数创岭南”职工技能赛赛题介绍与数据下载下载数据
1
赛题介绍

  随着计算能力、存储空间、网络的高速发展,人类所积累的数据量正在快速增长,而对特定数据的分类算法就显得尤为重要。分类是一项非常有应用价值的技术之一,它的应用遍及了社会中的各个领域,尤其是对多标签分类问题的解决方法,是机器学习中一个重要的研究领域。

2
数据集描述

  本次大赛提供数据集反映的是不同地块的植被类型情况。通过海拔、坡度、到水源的距离、地块位置等特征项,对地块植被的类型进行预测(7个类型)。数据集中共有 13个特征,由 55 列数据组成。

如下图所示:

字段名称 数据类型 量度单位 描述
Elevation 定量数据 米 海拔高度
Aspect 定量数据 度 方位角
Slope 定量数据 度 坡度
Horizontal_Distance_To_Hydrology 定量数据 米 与最近水文特征的水平距离
Vertical_Distance_To_Hydrology 定量数据 米 与最近水文特征的垂直距离
Horizontal_Distance_To_Roadways 定量数据 米 与最近道路的水平距离
Ground position 定性数据 a-l 地块位置
Hillshade_9am 定量数据 0至255的索引 早上9:00光的投射度(夏至)
Hillshade_Noon 定量数据 0至255的索引 正午光的投射度(夏至)
Hillshade_3pm 定量数据 0至255的索引 下午3:00光的投射度(夏至)
Horizontal_Distance_To_Fire_Points 定量数据 米 与最近燃火点的距离
Wilderness_Area (4个二元列) 定性数据 0或1(缺失/存在) 荒野地区等级
Soil_Type (40个二元列) 定性数据 0或1(缺失/存在) 土壤类型等级
Cover_Type (7种) 整数 0至7 地表覆盖类型
3
数据集提供方式

  这是一个模拟真实情况的过程,数据是分阶段提供的,并且包含约1‰~2‰的噪声值。每个阶段,会提供不等数量的训练和预测数据集,选手通过训练数据进行建模、优化算法,并在测试集进行预测,每个阶段的预测准确率都将计入第一轮实操赛的总成绩。

· 第一阶段提供10万条训练数据,预测2万条。时间:8月20日00:00—9月5日23:59;
· 第二阶段提供12~15万条训练数据,预测3万条。时间:9月6日00:00—9月21日23:59;
· 第三阶段提供12~15万条训练数据,预测3万条。时间:9月22日00:00—10月8日23:59。

  建议选手在考虑准确率的同时,需要考虑计算效率(运算时间),计算效率将作为第三轮答辩赛的其中一个评分指标。最终总决赛评委会根据实操赛、理论赛成绩以及现场答辩的表现对选手进行综合评分。

4
评分标准

  大赛平台将自动计算每一个阶段测试数据集中预测分类的准确率。

  本次采用宏平均值(Macro-averaging)作为各阶段的评价指标。

  宏平均(Macro-averaging),是先对每一个类统计指标值(F1-Score),然后再对所有类求加权(Qi=各类型样本量占比)平均值。


  在第一轮实操赛的三个阶段,将依据参赛队伍的预测准确率(宏平均值)进行排名,准确率越高,则排名越靠前。参赛选手可以不断优化模型,通过平台提交结果,每天最多提交3次。

· 第一轮实操赛最终总得分规则如下:
实操赛总排名按照如下公式计算:

(第一阶段预测准确率30%+第二阶段预测准确率35%+第三阶段预测准确率*35%)

实操赛标准分 = 100-(100*P1-50)/N1,P1为选手在实操赛的综合排名,N1为参加实操赛的选手人数。

5
竞赛结果提交
请选手利用建立的模型对每阶段提供的预测数据集中的地块植被类型(BD列)

进行预测(7类),预测结果按如下格式保存成CSV格式提交。

预测结果(1/2/3/4/5/6/7)

预测结果(1/2/3/4/5/6/7)

预测结果(1/2/3/4/5/6/7)

......

预测结果(1/2/3/4/5/6/7)

你可能感兴趣的:(人工智能,python,数据结构与算法)