小白数据挖掘进阶之路6---总结答辩

本人对数据挖掘这方面的内容比较感兴趣,奈何专业方向不是这个,于是就自己自学。但学的比较慢,一个机缘巧合的情况下让我接触到了这个比赛,让我收获很多。这次的比赛应该算是自己第一次参加,期间认识了很多优秀的大佬,在自己遇到问题的时候他们都能够给出很有效的解决方案,在这里非常感谢他们!下面就写一些自己在比赛的过程中一些所得吧!
对一个小白来说,要想把数据挖掘学好,光有理论知识是不够的,或者说跟着市面上一大堆数据挖掘的课程上是远远不够的,因为那些东西带给你的是思维上的定势,而我们的数据更加丰富多变,更贴近我们的生活,因此这些在真正的比赛上是发挥不出多大优势的。所以,要想真正的了解一门技术的核心,还得跟着优质的代码,从代码中学习。我在刚开始接触这个比赛的时候也是很多的不懂,然后一边看着代码,一边百度,对代码中出现的算法,自己去看别人的博客,然后再尝试着把代码的公式推导出来,这样有助于加深自己对这个算法的理解。
接下来针对数据的部分,个人觉得在开始构建模型之前,一定要对自己的数据有一个充分的了解,这个了解指的并不是对数据本身,而是对数据背后的特征,以及这些特征背后有没有哪种关系,通过这些特征的组合成新的特征是否有效等。在我看来,特征工程是一个比较玄学的地方,这一部分的内容也是花的时间较多的地方,因为你无法事先知道你的特征是否对结果的提升是否有用,所以只能是一个个去试。
对于构建模型这一部分,常用的模型就那几种。而作为一个小白来说,我觉得应该从了解他们的原理,推导他们的算法开始,然后再应用到比赛中,只有这样,应该才算是掌握了,不然永远只是知道怎么用,而不知道为什么要这样用。
最后,也是最重要的一部分,记得多跟大佬交流。有时候可能就是瞎扯扯,一个新的思路就出来了,或者困惑你几天的问题就解决了,这一点我深有体会。再次感谢此次比赛主办方的帮助,让我学到了很多!

你可能感兴趣的:(小白数据挖掘进阶之路6---总结答辩)