书山有路勤为径,在学习进修的道路上,正确的路径比埋头勤奋要重要的多。
最近两年AI在线学习和教育呈喷涌式发展,机器学习的培训课程也是层出不穷,专业的教育和课程固然重要,但在这个过程中最关键的是如何规划出合理的入门路径,保证自己学习的课程、实操的项目都是符合自身的。
今天晚上我们就来探讨下初学者如何规划出近乎完美的机器学习路径。
01
机器学习基本概念
要规划出合理的学习路径,必须先对机器学习有个基本的了解。
机器学习是一种计算机程序,可以从现有的经验中学习如何完成·某项任务,并随着经验的增加,性能也会随着提升。
这里的经验也就是所谓的数据,对于机器学习来说,数据库的大小对结果起决定性作用。
根据训练方法的不同,机器学习可分为:监督学习,无监督学习,半监督学习,强化学习。
在这里我们讲2种机器学习的常用方法:监督学习,无监督学习。
监督学习是从标记的训练数据来推断一个功能的机器学习任务,可分为“回归”和“分类”问题。
定量输出称为回归,定性输出称为分类。比如根据房屋的地理位置、面积大小、以及房屋周边的配套设施等因素,来预测给定房屋的价格,这就是典型的回归问题。
但是,如果我们预测一个给定面积的房屋的价格是否比一个特定的价格高或者低的时候,这就变成了一个分类问题, 因为此时的输出是“高”或者“低”两个离散的值。
无监督学习也被称为非监督学习,无监督学习和监督学习最大的不同在于,事先没有任何训练样本,而需要直接对数据进行建模。
无监督学习只能默默地读取数据,自己寻找数据的模型和规律,比如聚类(把相似数据归为一组)和异常检测(寻找出一组数据的不同一个),在无监督学习中给定的数据没有任何标签或者说只有同一种标签。
比如小时候我们还不认识钱币,看到一堆纸币和硬币,会很自然的把纸币和硬币分开,这就是最简单的聚类原理。
02
机器学习中的经典算法
机器学习中所涉及到的算法有很多,比较典型的算法有决策树、回归、神经网络等。
决策树
决策树是机器学习中很经典的一种算法。它既是分类算法,也是回归算法,还可以用在随机森林中。
咱们学计算机的同学经常敲if 、else if、else其实就已经在用到决策树的思想了。
决策树是一种简单常用的分类器,通过训练好的决策树可以实现对未知的数据进行高效分类。
决策树的基本流程
举个例子,普通人去银行贷款的时候,银行会根据相应条件,来判断贷款人是否具有还贷能力。
贷款用户主要具备三个属性:房产、婚姻、平均月收入。
拥有房产或结过婚或月收入大于4000的贷款用户具备偿还能力。
判断偿还能力过程如图所示
例如:用户甲没有房产,没有结婚,月收入5K,通过上图的判断条件可以判断出用户甲具备偿还贷款能力。
这整个判断还贷能力的过程,就用到了决策树的思想。
回归
在统计学中,线性回归通过过拟合因变量和自变量之间的最佳线性关系来预测目标变量。
最佳拟合通过尽量缩小预测的线性表达式和实际观察结果间的距离总和来实现。没有其他位置比该形状生成的错误更少,从这个角度来看,该形状的“拟合”是最佳。
线性回归2个主要类型是简单线性回归和多元线性回顾。
简单线性回归使用一个自变量通过过拟合最佳线性关系来预测因变量的变化情况,多元线性回归就是使用多个自变量来预测因变量的变化情况。
支持向量机
支持向量机是一种分类方法,力求在样本中画出一道线,让线距离两边样本的距离最大。
它在文本分类、图像分类有较多应用。如果桌上有红豆和绿豆,我们可以把SVM想象成一个忍者,他画了一条线,把红豆和绿豆分开。
但有时候豆子掺和在一起,怎么办呢?我们可以针对红豆和绿豆的不同特性,把这些豆子通过核函数进行计算,把他们映射到高维空间去,这样豆子自然就分开了。
神经网络
神经网络也是一种分类器,它是由很多个虚拟的神经元组成的一个网络,我们可以把一个神经元看成一个分类器,那很多个神经元组成的网络就能对样本进行很多次分类。
朴素贝叶斯分类器
朴素贝叶斯分类器是一种统计学的分类方法,其基于朴素贝叶斯定理,给定一个样本观测点,预测其属于某一类的概率。
比如说,我们要识别一封邮件是不是垃圾邮件。我们随机挑选出100封垃圾邮件,分析它的特征,我们发现“便宜”这个词出现的频率很高,100封邮件里有40封出现了这个词。
那我们就以结果为依据,得出结论:如果出现了“便宜”,那么该邮件有40%的概率是垃圾邮件。
这就是基本的朴素贝叶斯分类器算法。
03
机器学习入门路径规划
学习python编程,了解算法与数据结构
Python已成为AI和大数据时代的第一开发语言,无论同学们现在处于哪个阶段,Python编程是一定要学习的首要技能,Python能够被很多第三方库支持,而且Python本身语法很简单,初学者也很容易上手。
掌握足够多的数理知识
数学对机器学习的重要性不言而喻,尤其是微积分、概率统计、矩阵、凸优化等基础数学知识,除了掌握好相应的数学知识之外,还需要了解数学在机器学习中的工业应用,理论知识和实践缺一不可。
逐步学习并熟练应用机器学习算法
涉及到具体的机器学习算法,比如我们前文提到的决策树、回归、朴素贝叶斯等,这类算法不仅仅需要掌握它们的理论知识,更需要在实际应用中了解它们的模型构建和模型优化。
机器学习实战应用
一切的学习都是以实际应用为导向的。
大家经历了前三个步骤的学习积累,基本上该掌握的理论和算法都已经掌握了,这一阶段该做的就是去实际做一些项目,将之前所学的知识融会贯通。
作者:AI研究所
链接:https://www.jianshu.com/p/1aa32aa2f9e5
來源:
著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。