关于kaggle,之前也仅仅做浅浅的了解,在里面跑过MRI的程序,同时,这段时间也是我数模国赛结束后的一段时间,我仍然希望可以在数模和算法方面有一个合适的机会进行进一步学习。之前只知道kaggle是ml打比赛的地方,但没有详细的了解过它,在知乎看过一些人的分享和看过一些competitions的code之后,我发现了几个现象:
附上一些个人认为有价值的评论:
1.我不做图像,文本涉及也少。如果只是为了解决工程问题,其实结构化数据的问题,劈开业务逻辑外,死扣概念是没有啥意义的。**分类聚类回归推荐本质上没有区别。聚类分类本质上就是利用距离做特征计算概率,概率的计算对于电脑而言又是一个回归的计算,推荐同理。忘记概念的条条框框,你的思路会活络很多。**这方面,思路越活越容易玩出骚路子。我和作者态度一样,咱们不指望成为业界泰斗,对理论功底的要求也就那么回事,能听懂别人说啥就行,什么手撕公式真没兴趣。数据分析的目标是解决问题,所有不能对你分析问题有直接增益的东西都是细枝末节
2.兄弟,你这法子还是麻烦了点,我只需要调public kernel的seed提交2次就拿铜牌。
3.不错,我也写了篇总结。最后三天有人发的2204的kernel就是直接blend几个相关性低的public kernel。还好这次没有强开源,不然又和talkingdata那样了
4.发现大部分还都是ml的工作,xgboost太强了。。 dl一般都不会公开这么高的baseline
看了kaggle上的Titanic的competition【link】,Titanic也被众多大神称作入门最适合参加的第一个competition,在以学习的态度看了most votes的code之后,我学到了很多东西。Author用notebook的方式阐述了思考的过程,如何进行原始数据的转换和分析,把一些字符串、不规则的数据类型转换为可供分析的定量数据;再数据转换完之后,author又展示了如何将数据集放入sklearn来调用
这些模型,并使用svc.score(X_train, Y_train)
对模型进行置信度评价。
sklearn对这些机器学习和预测的算法封装的特别好,感谢前人的探索和努力。
在浅浅的入手了几个kernel之后,我发现调参并不像想象中的容易,比如像num_boost_round,verbose_eval等hyper-parameter,可以说明的是,我不可能会一点一点理解每一个参数的含义,因为在这之前我甚至连这个算法framework都没有一个很清晰的概念,只知道他们的input和ouput,所以调整这些参数对我来说有一些难度。
深入分析Kaggle新手七天拿铜牌经验 -知乎中作者的思路,