想要搞数据挖掘,该自学些啥?

统计学等等理论的东西得学下,李航的那本《统计学习方法》,周志华的《机器学习》都是很不错的

NG的机器学习课程:http://open.163.com/special/opencourse/machinelearning.html

时间充足的话可以去翻一下经典算法的源码,比如LR,决策树等等

编程语言SQL, Python Java ,scala这些语言得学,比如SQL需要会增删改查,子查询,交差并集,常用运算,索引分区。 Java需要了解集合,多线程,文件这些。python需要会pandas,numpy,文件,集合,sklearn。scala要会RDD的常用操作。

然后要会一些分布式框架,比如hadoop,spark,对应都就要学会他们的计算框架,用Java写MR,用scala写RDD的一些操作

搞点机器学习实战的书看看,《python机器学习实战》《集体智慧编程》等等

可以去git上看看kaggle选手的solution:http://www.chioka.in/kaggle-competition-solutions/

还有天池竞赛的solution:http://blog.csdn.net/bryan__/article/details/65449096

参加数据挖掘比赛,难度:kaggle>天池>DataCastle 

推荐些微信公众号:数据挖掘DW ,AI科技评论,AI前线,机器之心,机器学习研究会,全球人工智能,算法与数学之美,新智元


你可能感兴趣的:(经验总结)