菜鸟机器学习随笔(一)

    第一次写博客,也不知道写些啥,记录一下最近的机器学习感想,由于本科对机器学习比较感兴趣,但是本科的课程比较少与机器学习相关,所以就选择了考研,所幸,如愿以偿,进入到了高中时候的梦想学校,7月份就提前来到了学校,在导师的安排下,参加了一个工业大数据比赛,这个比赛可谓是一波三折,从对比赛的项目了解的越深,对这个比赛就越难以进行,题目的BUG太多,给出的训练数据太少,且数据的质量比较差,在小组成员以及导师的多番讨论下,都认为此题从各个角度都无从下手,也就是无法从传统的解题思路着手,主办方给出3个风机的全部数据,12号风机无故障,23号风机跟29号风机有故障,但是23号跟29号数据差异性非常大,虽然给出的是时间序列数据,但是却不能从时间序列的角度解题,这三个风机都是不同年份不同月份的数据,且采样周期也不一致,主办方需要我们根据训练数据,训练模型,来预测测试风机的高危区间,高危区间只有一个,也就是预测t2-t1,在预测时,只能根据前面的数据来预测后面的数据,在此题当中,t1比较容易确定,主要是不能确定t2,因为t1是在风机齿形带断裂前时刻,数据有明显特征,但是整个高位区间的数据与非高位区间的数据没有明显差异,且整体上来看,大部分特征呈现周期性变化,不好学习模型,学的的模型泛化性能比较差,且收敛性也比较差,试过各种算法,没有明显效果,我们是通过打标签的方式,将高危区间分为类别1,把非高危区间划分为类别0,然后训练分类器,不管是用23来预测29还是29预测23,效果都非常差,由于初赛阶段出现了非正常高分,在复赛阶段,又调整的比赛规则,测试数据将不再是某一个风机的全部数据,只是在每一个风机中随机截取一段10000左右的数据,然后预测接下来49625条数据中是否有齿形带断裂,如果有,预测齿形带断裂的位置,也就是t0的位置,比赛规则发生了比较大的变动,较之前合理些,但是由于没有相应的给出训练数据,难度更大,无从下手,总之觉得这个比赛有点坑,导师建议我们暂停这个比赛,但是我们组成员仍然想试试,毕竟也花了差不多两个月时间,总想做出点成绩

  虽然这个比赛最终可能得到不好的结果,在这个过程中还是有不少的收获,自学了python,基本掌握了基础知识,对于python的numpy、pandas、matplotlib、sklearn机器学习库有一定的了解,能够简单的用python进行数据处理,用sklearn的一些机器学习模块进行数据分析与建模,进行实际应用,通过一次比赛,能够将所学的知识用于比赛,也能通过比赛学习新知识,我觉得只是一个非常爽的过程和体验。

  有些时候仍有一点迷茫,很多人说搞机器学习不好找工作,因为在有限的研究生期间,很难学的深,学得好,最近学校将大数据分为两个方向,一个是大数据技术方向,一个是大数据分析方向,在这个十字路口,我不知道究竟选哪一个比较好,纠结了一个晚上,想通了,还是选择大数据技术开发方向,因为我觉得这个方向以后工作转分析方向也比较容易,我还是想搞技术多一点,虽然两个方向的课程大致一样,但是技术方向,老师会讲的比较深入,况且,研究生阶段,主要还是靠自己自学,所以我就给自己定了一些计划

1、继续研读周志华的机器学习这本书,俗称西瓜书,里面是各种算法的介绍以及公式推导,模型构建理念,比较好的一本书

2、继续学习python,研读《利用python进行数据分析》,希望最终能做到熟练掌握python编程,也练一练用python实现各大算法,为以后找工作笔试做准备

3、研读《统计学》这本书,补一补基础知识

4、研读《集体智慧编程》,里面有推荐系统等实际应用,用python实现,进行实际操作,理解,以便增加项目经验


你可能感兴趣的:(机器学习)