前段时间读了一篇文章,将如何使用python做机器学习,原文是http://dataunion.org/15057.html
这里做一个简单总结,给没有思路的小伙伴一个方向。
1)配置环境
搜“Anaconda”
2)学习基础知识
http://www.codecademy.com/tracks/python
目标:要对类和对象的含义有了解。特别学习:Lists(列表),Tuples(元组),Dictionaries(字典)。
3)学习正则表达式
https://developers.google.com/edu/python/regular-expressions
特别是在处理文本数据时,数据清洗,很常用。
完成“baby name exercise”:https://developers.google.com/edu/python/exercises/baby-names
记住这个:https://www.debuggex.com/cheatsheet/regex/python
如果牛逼,看这个:http://www.analyticsvidhya.com/blog/2014/11/text-data-cleaning-steps-python/
4)学习Python科学库
首先,完整地练习NumPy操作课程,特别是NumPy的数组操作。http://wiki.scipy.org/Tentative_NumPy_Tutorial
接下来,看看SciPy的课程。完整学习简介和基础知识部分,剩余部分可根据个人需要进行学习。http://docs.scipy.org/doc/scipy/reference/tutorial/
最后,我们来看Pandas。它为Python提供了数据帧(DataFrame)的功能,类似于R语言。你也需要在这上面多花时间好好练习。对于所有中等规模的数据分析来说,Panda将会成为最有效的工具。从这个短小的10分钟入门开始(http://pandas.pydata.org/pandas-docs/stable/10min.html),了解一下Pandas。然后仔细看http://www.gregreda.com/2013/10/26/intro-to-pandas-data-structures/。还可以看看“用Pandas进行探索性数据分析”(http://www.analyticsvidhya.com/blog/2014/09/data-munging-python-using-pandas-baby-steps-python/)以及“用Pandas进行数据整合”(http://www.analyticsvidhya.com/blog/2014/08/baby-steps-python-performing-exploratory-analysis-python/)两篇文章。
如果需要一本有关Pandas和NumPy的教材,推荐Wes McKinney著的《Python for Data Analysis》
完成来自哈佛大学CS109课程的作业(http://nbviewer.ipython.org/github/cs109/2014/blob/master/homework/HW1.ipynb)。
5)学习数据可视化
学完这个来自CS109的课程(http://cm.dce.harvard.edu/2015/01/14328/L03/screen_H264HighBandwidthTalkingHead-16x9.shtml)
跟完这个作业(http://nbviewer.ipython.org/github/cs109/2014/blob/master/homework/HW2.ipynb)
6)学习Scikit-learn和机器学习
scikit-learn.org/stable/user_guide.html
http://cs109.github.io/2014/pages/schedule.html
下面两个也不错:
如果有一本必读的书,那就是《Programming Collective Intelligence》,非常经典。
Andrew Ng的课:https://www.coursera.org/course/ml
7)然后就是练习、练习、再练习
https://www.kaggle.com/
https://www.kaggle.com/c/data-science-london-scikit-learn
8)深度学习
http://www.analyticsvidhya.com/blog/2014/06/deep-learning-attention/
http://deeplearning.net
Geoff Hinton的课:https://www.coursera.org/course/neuralnets
好多东西呀!!!