菜鸟起飞——机器学习实战第一篇:机器学习介绍

前言

终于开始了自己的csdn博客之旅。先自我介绍一下,我叫徐曦,目前是北京工业大学(北工大)软件工程的研究生新生,研究方向为数据分析。针对于此,我想通过这三年,充分学习有关机器学习的知识,目前的计划为:1.《机器学习实战》全书学习;2.python网络爬虫收集网络数据;3.深度学习;4.python进一步学习(小甲鱼视频)。本类文章主要针对第一部分,其他部分有时间我也会总结上传,有兴趣的童鞋可以相互交流或者批评指正。

菜鸟起飞——机器学习实战第一篇:机器学习介绍_第1张图片

《机器学习实战》

我是按自己的学习步骤,详细地介绍《机器学习实战》这本书的所有内容。因为互联网上大家的学习信息比较繁多,而新手(就是说我这种的。。。)往往连试运行都不知道怎么做,所以在这里我将自己得来的每个细节(例如有些:python2.X版本代码怎么调到3.X版本,其他小工具或者坑)展示出来。尽量做到准确、充实,当然定下决心写这个博客,也是因为受到了自己工大师兄姜晔的影响,他的博客是http://blog.csdn.net/ioio_jy,讲了他的生活历程,很有意思。有兴趣的童鞋也可以去瞅一瞅。

第一章 机器学习基础

废话少说,先上配置:
 | —— python 3.5
 | —— Anaconda3 (32-bit)
新手起飞,第一步是配置问题。本书代码是用python来写,这门语言 呢,感受是里面的数据类型用起来适合计算,再加上缩进和不写分号等等优点(前者也算优点,代码规范)。我个人下的是python3.5的版本(原因是看的廖雪峰大大的教学文档/(ㄒoㄒ)/~~),而python因为种种原因, 不支持向下兼容。那么如果你是装了3.X的版本的话,那么可以参照我的文章浏览下。
Anaconda3是为了避免pip numpy库时复杂的依赖安装,直接一步到位。里面还有个 spyder(据说是和MATLAB一样的东西,没怎么用过,后期多用用)。
另外代码管理可以试试git,廖大大那里也有教程(神马?哪里有,直接问度娘:“廖雪峰git”)。
我们直接看第一章“介绍”,我个人总结如下:

1.机器学习分类

(1)监督学习:这类算法必须知道预测什么,即目标变量的分类信息。(point:给定样本信息
按任务目标,再分为:
.分类:用于标称型,有k-近邻、决策树、朴素贝叶斯、支持向量机;
. 回归:用于数值型,有线性回归、局部加权、Ridge回归、Lasso
(2)无监督学习:没有类别信息,也不会给定目标值。
按任务目标,再分为:
. 聚类:将数据集合分成由类似的对象组成的多个类;
.密度估计:寻找描述数据统计值

 2.如何选择(processon做图)

菜鸟起飞——机器学习实战第一篇:机器学习介绍_第2张图片

3.步骤

收集数据→准备输入数据→分析输入数据→训练算法(无监督无此步骤)→测试算法→使用算法

你可能感兴趣的:(Machine,Learning,in,Action)