机器学习概念:让计算机具有和人一样的学习能力,能够从大量的数据中提取出有用的技术的能力。
机器学习种类:监督学习
无监督学习
强化学习等。
监督学习:根据在学习中所获得的经验和技能,对没有学习过的问题也能做出正确的解答。
方向:手写文字识别、声音处理、图像处理、垃圾邮件分类与拦截、网页搜索、基因诊断以及股票预测等。
任务:预测数值型数据的回归、预测分类标签的分类、预测顺序的排序等。
无监督学习:自学,计算机通过自动收集信息,从中提取有用信息。
方向:人造卫星故障诊断、视频分析、社交网站解析和声音信号解析、数据可视化以及作为监督学习方法的前处理工具。
任务:聚类、异常检测等。
强化学习:在计算机通过自我评估不断学习的过程中,获得的没有学习过的问题的正确解答。
方向:机器人的自动控制、计算机游戏中的人工智能、市场战略的最优化等。
任务:回归、分类、聚类和降维等。
机器学习的任务:回归、分类、异常检测、聚类和降维等。
回归:把实函数在样本点附近加以近似的有监督的函数的近似问题,是对一个或多个自变量和因变量之间的关系进行建模,求解的一种统计方法。
输入:以d次方的实数向量x作为输入
输出:实数值y作为输出的函数y=f(x).
在监督学习中,真实函数f未知,输入输出样本{(xi,yi)}(n,i=1)已知。但因为输出样本yi的真实值f(xi)中经常会出现噪声,即错误的解答。如何获得真实的函数即都是正确的解答的函数f1就是监督学习的最终目标。那么通过比较函数f和f1的相似性进行分析,可以得出计算机对没有学习过的问题做出正确解答的泛化能力的大小。
分类:指对于指定的模式进行识别的有监督的模型识别问题。
输入样本:以d次方的实数向量x作为输入样本。所有的输入样本可以被划分为c个类别。
输出样本:yi,不是具体的实数,而是代表类别1,2。。。,c。
{(xi,yi)}(n,i=1)输入输出样本已知。纯粹的对样本应该属于哪一个类别进行预测,并根据预测准确与否来衡量 泛化误差。
异常检测:寻找输入样本中所包含的异常数据的问题。一般情况下,数据的正常与否是未知的。在这无监督的异常检测问题中,一般采用密度估计的方法,靠近魔都中心的数据为正常的数据,偏离密度中心的数据作为异常的数据。
聚类:无监督的模式识别问题。即只给出输入样本{xi}(n,i=1),然后判断各个样本分别属于1,2。。。,c中的哪个簇。隶属于相同簇的样本之间具有相似的性质,不同簇之间具有不同的性质。
降维,从高纬度数据中提取关键信息,将其转换为易于计算 的低维问题而进行求解的方法。
有监督降维:输入输出样本{(xi,yi)}(n,i=1)已知,将其转换为较低纬度的样本{Zi}(n,i=1)从而获得较高的泛化能力。
无监督降维:只有输入样本{(Xi)}(n,i=1)是已知的,在转换为较低纬度的样本{Zi}(n,i=1)之后,还应该保持原始输入样本{(Xi)}(n,i=1)的数据分布性质,以及数据间的近邻关系不发生变化。
机器学习的方法:对模式x的类别y进行预测的分类问题:产生式分类和判别式分类、频率派和贝叶斯派。