CDA Level2建模备考心得

    从9月起正式准备,到12月底完成考试,提前半年完成了自己的6月考完Level1后的诺言,而且如愿得到了A。只是这次的成绩虽有惊喜但也并不强烈,一来自己准备了这么久,有点水到渠成的感觉;另外实际参加了其它的比赛后,愈发感觉自己基础的薄弱。所以这次的备考心得,也只能说班门弄斧,大家可以参考但也要根据自己的实际情况调整。

一、我的基础

    2019年3月开始看吴恩达的《机器学习》视频,囫囵吞枣、不明所以,所以6月整月自学统计学才仅仅以C的成绩通过了Level1。其实现在回过头再看,Level1才是重中之重,只有数据分析的相关知识搞懂了,Level2建模的时候才知道该如何处理数据,否则也就只是一个调包虾而已。
    6月考完level1后,整个7-8月都在边看唐宇迪的《Python数据分析与机器学习实战》,边打一个比赛,不过可惜最终只是入围了复赛,止步11名。不过在比赛中,实际了解了数据挖掘的方方面面,有了很大的收获,并把经验汇总成了博客《 数据挖掘:智慧教育竞赛复盘》。
    所以综上,我备考前的基础还是有一些的,只是不是很清晰,这次的考试也算帮我把基础重新搭了一遍。

二、备考经验

    由于9月开始备考,12月才考试,所以实际上有整整4个月,时间很充裕。我在这4个月里,主要做了以下几方面的工作:

1、大纲解析的阅读

    CDA Level2的大纲解析整理的真心不错,把一些数据挖掘的重点都整理了出来,当然还有一些小问题(主要是公式)。大纲我总共看过4遍,每个月1次,每次都有新的体会。
第一遍阅读,让我了解自己哪些基础不对,针对性调整。
第二遍阅读,整理出了思维导图。
CDA Level2建模备考心得_第1张图片
第三遍阅读,是和后面的两份模拟卷结合起来看的,同时在笔记本上做好笔记。
第四遍阅读,查遗补漏,最后温习。

2、模拟卷和官方题库的自学

    模拟卷很重要,实际考试中有不少都是大纲解析和模拟卷中的原题,有可能稍有变动,但只要搞清楚了得分也就很容易了。
官方题库链接:http://tiku.cda.cn/select-1-CDA二级(建模).html

3、主要书籍阅读

我这边主要推荐4本书:
1)、《数据挖掘导论》,蓝色的中文翻译版,书很厚,但是里面的内容挺有用的,大纲解析里没讲明白的地方大多都能在里面找到答案;
CDA Level2建模备考心得_第2张图片
2)、《机器学习》(西瓜书),阅读难度比《数据挖掘导论》高了一个等级,我是挑着看的;
CDA Level2建模备考心得_第3张图片
3)、《利用Python进行数据分析》,里面主要教你pandas、numpy等一些基础操作,如果已经会用的则可以略过;
CDA Level2建模备考心得_第4张图片
4)、《Python机器学习基础教程》,教你怎么用sklearn,你也可以看《机器学习实战》,不过后者我没看过,听说是用python2.7写的。
CDA Level2建模备考心得_第5张图片
CDA Level2建模备考心得_第6张图片

4、实战

    使用kaggle的练习赛是可以,但最好是参加一次实际的比赛,将学到的东西运用在比赛中会更有感觉。
相关的比赛有很多,比如kaggle、天池、CCF,甚至CDA自己举办的竞赛都是可以的。
如果想获得最新的比赛动态,可以加公众号:麻婆豆腐AI
注:第一次比赛如果找不到肯定能一同走到底的队友的话,还是建议一个人先做起来,不然被队友拖累了进度,最后大多都是半途而废。

5、整理

    学好后如果不做整理,最后必然是慢慢遗忘。在备考前,我花了一周的时间把所学所知都整理了一遍,并以博客的形式分享(就好比这一份),主要包括:
1)、《七种常用监督类预测模型的特征、优缺点整理》
2)、《CDA LEVEL2 大纲解析案例题Python实现代码》
3)、《Python:3个常用数据检验代码实现》
4)、《Python:14个常用数据清洗代码》
5)、《CDA Level2 模拟题1 Python代码实现》
6)、《CDA Level2 模拟题2 Python代码实现》
    考试后,我还把考试的实操题做了一下复盘:《CDA第11届Level2建模案例题Python代码实现》
    另外我还整理了一份常用建模代码,主要是不同的模型需要导入哪些库以及调参的注意点等等,这个因为未做好就不献丑了。
    通过整理,使我对知识结构更加清晰了。

三、提醒

    CDA Level2的考试并不难,只要认真复习了,再加上代码整理想通过小意思。但是即使通过后,除了那一张证书外,你还收获了什么?是否已经可以实际运用在工作中呢?
    对我来说,拿到一份数据后,我知道了该怎么看数据分布(上下采样),根据不同字段的属性与业务结合做不同的处理(特征筛选),使用不同的手段进行数据预处理和特征工程(缺失值填充、LabelEncoder、one-hot等等),这些基础工作是否做好直接影响到你最后模型的精准度。
    最后再提醒一下大家,Level2的证书仅仅只是代表你这次考试过了,但实际工作的场景远要复杂得多,所以当工作中碰到了问题,不妨回过头去重新看下Level2甚至Level1的大纲解析,可能你就会有不一样的思路。

你可能感兴趣的:(数据分析,数据分析)