Xgboost的一些坑

这两天做一个竞赛,用Xgboost作为工具来做了一些事情。
主要的框架是 Xgboost的python扩展。
然后这过程中花了不少时间在解决各种Xgboost的error上。
大部分的问题都在这个函数里

dtrain = xgb.DMatrix('train.txt')
dtest = xgb.DMatrix('test.txt')

会出现各种莫名其妙的错误,我调了发现了有些神器的事情是,我的某个特征居然会影响这个函数报错。
但是完全不是格式上的问题,我检查过了。
最后总结一个事情:

  • 最好不要用SVMLib格式的文件来当做data输入

直接用numpy或者scipy等现有变量。

可能带来的一个不方便的地方是,本来需要用文件来存储计算好的特征数据,需要只调用xgboost在两个文件上进行调参。
一个代替的办法就是用pickle来存储numpy变量了。

一个小坑先写在这类。

你可能感兴趣的:(python,机器学习)