一个神奇的特征 (谁能快速拿到贷款的kaggle案例)

巴黎银行贷款预测:谁能快速拿到贷款
https://www.kaggle.com/c/bnp-paribas-cardif-claims-management

炼数成金里的kaggle课程提过这个案例,对我而言比较特别的是combination函数的应用。在某位大神的方案里用了这个方法,下面分析一下:

首先看一下数据,共有11万4千多行,131个特征变量。


一个神奇的特征 (谁能快速拿到贷款的kaggle案例)_第1张图片

然后大神就简单粗暴的把所有空缺值赋为-1(我上一篇帖子大概白写了...)
再把id列删掉,另外赋给两个数据框。

data.train[is.na(data.train)] <- -1
data.test[is.na(data.test)] <- -1
x.train <- data.train[, -1]
y.train <- data.train$target
x.test <- data.test[, -1]

第二步,大刀阔斧的删去不重要的值,

omit.var <- c(1:3,4:9,11,13,15:20,23,25:29,32:33,35:37,39,41:46,48:49,51,53:55,57:61,63:65,67:71,73:74,76:78,80:90,92:107,108:111,115:128,130:131)
x.train <- x.train[, -(omit.var+1)]
x.test <- x.test[, -omit.var]

这时x.train和x.test只有25个特征变量了。x.train比test多个target列。

一个神奇的特征 (谁能快速拿到贷款的kaggle案例)_第2张图片

删掉哪些值当然也是各位大神反复试验出来的,另外,发现v22列有特殊的意义!
这是cutomer id,所以大神们做了各种组合。案例这位就用了combination函数,把customerid和其它字符串值结合起来。


第三步,将字符串的变量名归到一个新的变量集

char.vars <- colnames(x.train)[sapply(x.train, is.character)]

然后,每次从这个数据集里随机抽取两个变量,两两组合,形成v22v24,v56v66这种新特征变量。并加入到train和test数据框后面。

cmb <- combinations(n=length(char.vars), r=2, v=char.vars)
#这时候cmd是可能含有v22的变量组合,比如v22v24,
for(i in 1:nrow(cmb)) {
    x.train[[paste0(cmb[i,1], cmb[i,2])]] <- paste(x.train[[cmb[i,1]]], x.train[[cmb[i,2]]])
    x.test[[paste0(cmb[i,1], cmb[i,2])]] <- paste(x.test[[cmb[i,1]]], x.test[[cmb[i,2]]])
}
4.png

再然后,再从这个数据集里抽出不是v22的两个变量,继续两两组合,再加上v22前缀,又形成新的特征变量,并赋给train和test,比如v22v56v66

cmb <- combinations(n=length(char.vars)-1, r=2, v=char.vars[-match("v22",char.vars)])
#这时候cmd是一定不含v22的组合比如v56v66
for(i in 1:nrow(cmb)) {
    x.train[[paste0("v22", cmb[i,1], cmb[i,2])]] <- paste(x.train[["v22"]], x.train[[cmb[i,1]]], x.train[[cmb[i,2]]])
    x.test[[paste0("v22", cmb[i,1], cmb[i,2])]] <- paste(x.test[["v22"]], x.test[[cmb[i,1]]], x.test[[cmb[i,2]]])
}

现在train和test的变量列已经有170个了,比原来的还多。

一个神奇的特征 (谁能快速拿到贷款的kaggle案例)_第3张图片
5.png

第四步,是继续变态的组合....把变量10个10个的组合,感觉已经是被玩坏的节奏

cmb <- combinations(n=length(char.vars)-1, r=length(char.vars)-3, v=char.vars[-match("v22",char.vars)])
for(i in 1:nrow(cmb)) {
    new.var.train <- x.train[["v22"]]
    new.var.test <- x.test[["v22"]]
    new.var.name <- "v22"
    for(v in 1:ncol(cmb)) {
        new.var.train <- paste(new.var.train , x.train[[cmb[i,v]]])
        new.var.test <- paste(new.var.test, x.test[[cmb[i,v]]])
        new.var.name <- paste0(new.var.name, cmb[i,v])
    }
    x.train[[new.var.name]] <- new.var.train
    x.test[[new.var.name]] <- new.var.test
}

这里的双重循环代码我还不是很理解,大致是先按照行,再按照列的循环。如果自己来写的话估计会写错...
用list(colnames(x.train))来看,又增加了不少新的特征变量,一共是236个。


一个神奇的特征 (谁能快速拿到贷款的kaggle案例)_第4张图片
6.png

下面我自己没有运行出来,by=eval(var)那里总是报错,就不班门弄斧了。仅附上源代码供参考。
最后还是祭出了xgb大杀器,已经是kaggle流行标配了。

# replace with target mean
for(var in colnames(x.test)) {
    if(is.character(x.test[[var]])) {
        target.mean <- x.train[, list(pr=mean(target)), by=eval(var)]
        x.test[[var]] <- target.mean$pr[match(x.test[[var]], target.mean[[var]])]
        temp <- rep(NA, nrow(x.train))
        for(i in 1:4) {
            ids.1 <- -seq(i, nrow(x.train), by=4)
            ids.2 <- seq(i, nrow(x.train), by=4)
            target.mean <- x.train[ids.1, list(pr=mean(target)), by=eval(var)]
            temp[ids.2] <- target.mean$pr[match(x.train[[var]][ids.2], target.mean[[var]])]
        }
        x.train[[var]] <- temp
    }
}

x.train <- as.matrix(x.train)
x.test <- as.matrix(x.test)
x.train <- matrix(as.numeric(x.train), nrow(x.train), ncol(x.train))
x.test <- matrix(as.numeric(x.test), nrow(x.test), ncol(x.test))

params <- list("eta"=0.1,  "max_depth"=6,
               "colsample_bytree"=0.45,
               "objective"="binary:logistic",
               "eval_metric"="logloss")

xgb.train <- xgb.DMatrix(x.train, label=y.train)
model.xgb <- xgb.train(param=params, data=xgb.train, nrounds=260, watchlist=list(train=xgb.train), print.every.n=50)
predict <- predict(model.xgb, x.test)
predict <- cbind(ID=data.test$ID, PredictedProb=predict)
write.csv(predict, paste0("Submission.csv"), row.names=FALSE)

运算结果应该是在30/1000名之内,这对于小白我来说,已经是高不可攀的分数了...
总而言之,看来把变量各种组合也是算法的重要手段之一,在另一个竞赛的帖子里,据说冠军把20多个变量组合成了17000多个,也是服了。我们继续努力吧!

参考文件:
案例援引-Jack的方案
冠军帖子-Dexter's lab

你可能感兴趣的:(一个神奇的特征 (谁能快速拿到贷款的kaggle案例))