大数据、数据挖掘、数据分析学习记录

最近要换工作,做过c++,mfc界面的一些工作,但是对c++实在不感兴趣,于是考虑转到前端或UI设计或大数据方向。这些方面都没有很多经验,但是有接触过一点点,看了看招聘网站之后发现还是做大数据最赚钱,于是决定往这个方向发展下去,以此文作为开端,记录一下从零开始的学习过程。


其实也不算从零开始,在校期间参加过很多次数学建模的竞赛,获得过两次国二,数学基础也挺不错,另外数据挖掘和并行云计算的课程成绩都接近满分,然而即使这样,说到数据挖掘或数据分析,还是没有系统的概念,很多算法都听过,少量的学过或用过,不过仍然是个门外汉。去年找数据分析研究员的工作时丢了个大脸,面试官问我知道哪些监督算法,这是我第一次听这个词,一头雾水,说了些遗传算法啊粒子群算法啊这些不搭边的东西......遂我的学习之路从数据挖掘的算法分类开始。


以下参考数据挖掘算法的分类 :

根据目的——分类/聚类,预测,推荐

根据数据集——监督、半监督、无监督


所谓监督,靠有无训练样本来区分。有监督算法,即参数需要利用已有知识加以训练的算法,半监督算法,即虽不需要训练参数但需要定义任务的算法,无监督算法,即不需要任何训练样本,直接可以对数据建模的算法。据说此种算法目前不存在。


有监督算法包括:分类(knn/logit/probit/cart/treenet/svm/ann…)、预测(regression)、推理(rbr/cbr);

半监督算法包括:聚类(kmeans/birch/…)、频繁项集分析与关联分析(apriori)。


除了上面的一些概念容易混淆外,大数据、数据挖掘、数据分析外行也常常傻傻分不清,百度之后差不多能明白,这里就不解释了。提一下另外几个容易搞不清楚的,机器学习、深度学习、神经网络,常常听到,但是跟数据挖掘什么关系呢?据说机器学习几乎等同于数据挖掘,这里存疑,要通过学习体会。hadoop,spark,云计算这几个词则和大数据有关,大数据嘛,一台电脑当然是处理不了的,所以要依靠这些框架来进行云计算。另外,还有Python、R、MYSQL、BI、ETL这些也是招聘时常常需要的技能,感觉要学的东西蛮多的啊,一步步理清思路慢慢来吧。


为学习算法,给自己找了一些课程和资料:

机器学习(coursera)——视频课程

深入浅出数据分析——书籍

深度学习vs机器学习vs模式识别、数据挖掘十大经典算法系列——资料

为了学习计算的工具,也找了些资料:

疯狂的python——视频课程

《利用python进行数据分析》——书籍


学完这些视频和书籍是现阶段的目标,考阿里云大数据认证应该也是有帮助的,用过亚马逊的云服务,涉及到linux的开发环境,spark再加上一个数据挖掘导论》是后续要学的。真多啊,为了坚持下去开的这个博客,给自己加油,学习,记录,进步!

欢迎要学或正在学的朋友一起交流,期待学有所成的先辈给予指点



你可能感兴趣的:(大数据,数据挖掘,数据分析,学习笔记)