机器学习 --- kaggle 比赛

最近AI很火,就学习了一段时间,为了检验一下学习成果,在kaggle上参见了一个比赛!

比赛地址:https://www.kaggle.com/c/home-credit-default-risk

下面记录一下过程 

 

比赛题目   家庭信用违约风险

第一步就是先清理数据 

        机器学习 --- kaggle 比赛_第1张图片

可以通过pandas 库读取数据,简单分析一下数据类型

机器学习 --- kaggle 比赛_第2张图片

看一下数据都是什么类型的,这一步处理对你模型选择有影响,因为有些模型对object的数据类型很敏感,需要把数据转换为模型可以处理的。

机器学习 --- kaggle 比赛_第3张图片

 

数据中的缺失值也需要处理,我是删除确实值超过50%的数据

机器学习 --- kaggle 比赛_第4张图片

然后可以采用填充这些缺失值,具体怎么处理看需要

机器学习 --- kaggle 比赛_第5张图片

当然还需要对数据中一些奇异值进行处理 

下面还可以对数据特征进行具体的分析了,可以看看那些数据本身关联性很大,比如年月日这类的,就可以自己先行处理了,我这里就没有做具体的分析了

以上基本数据清理工作就完成了

 

第二部就是特征提取了    

https://www.cnblogs.com/wxquare/p/5484636.html 有很多方法,需要多次验证最优

这里我分别采用了皮尔森相关系数 和 随机森林 两种方法,在这个特征集上,我测试结果是随机森林提取特征准确率更 高一些

下面是皮尔森相关系数 提取特征方法

特征提取后,还可以对数据进行归一化和标准化处理

具体为什么,可以参考 https://blog.csdn.net/u012101561/article/details/72506273/

 

第三部 就是模型选择和训练了

根据近些年来,kaggl比赛靠前名次的经验,都是选取多模型组合的方式提高成绩的

单一模型的调优,可以采用GridSearchCV 方法

机器学习 --- kaggle 比赛_第6张图片

可以多训练几个模型,通过以下方法进行组合

 

完成上面的工作,剩下的就是耐心的调优过程了,如何效果不好,可以特征工程上多想一些方法

 

由于后期没有太多时间进行调优,只是提交了几次,成绩在30%,希望以后有时间,多多参加。

你可能感兴趣的:(机器学习 --- kaggle 比赛)