机器学习基础概念

欠拟合:模型的预测准确性不够

过拟合:算法模型的泛化性不太好(在训练集准确性很好,但在测试集上的效果不太好),及过度概括,如进行猫和狗进行分类时,训练数据中没有黄色的狗,但是猫大多是黄色的,这时机器将黄色的这个特征过度化,及机器认为所有的黄色都是猫

机器学习过程:向一个机器投入燃料(数据)通过马达(假设函数‘模型‘)变成动力(’预测结果‘)

机器学习常见术语:

模型:机器学习的两大组成部分模型和数据集,而模型就像一台机器,它有很多操作建(参数),通过不同的组合,可以产生不同的输出,以knn算法为例,它有不同的参数,如k,如距离,有很多

数据集:机器学习工作的原料,没有它,这个机器就是一个废铁

数据:数据集是数据的集合,在机器学习中,把一条数据叫做一个样本,样本中通常包括多个特征,如一个人,它有身高,体重,年龄‘‘’‘’‘等n个特征

特征:机器学习中,特征是某个对象的几个记录维度

假设函数(Hypotheisis Funcition):机器学习的模型训练依靠数据,但数据本身无法为模型训练提供动力,所以需要假设函数将把数据变成动力,及我们喂给机器数据,机器通过假设函数吐出一个结果

损失函数(Loss Function):机器吐出的结果,需要我们判决它到底好不好,如我们要预测年龄,结果机器学习模型返回1,1,1,1。我们在这种情况下,一下子就知道这个模型不好,但如果不是预测年龄,而返回的结果也不是111这种可以一下子看出错误的模型,我们就要用损失函数,来判断模型优劣,损失函数越大,模型效果越差

优化方法:因为在现实世界,我们我们不可能得到100%的预测结果,有人说:如果一个算法能预测人类60%的行为,那么这个算法就是最好的算法,当然机器学习能不能预测60%我不知道,只是我们要知道我们的机器学习算法是不能100%预测,我们的目的是,要损失函数最小,而让损失函数向最小的方向前进的方法就是优化方法

机器学习过程:

向模型喂入数据,通过假设函数,得到结果,将结果投入损失函数,返回损失值,将损失值投入优化方法调参重复

机器学习的一大亮点:善于处理传统方法而言太复杂或无法解决的问题

机器学习分类:有监督,无监督,半监督,和强化学习

有监督:及有参考答案,计算数据存在标记

常见算法:k-近邻,线性回归,逻辑回归,支持向量机,决策树,随机森林,神经网络

无监督:无参考答案,计算数据无标记

常见算法:聚类,k-均值,DBSCAN,分层聚类(HCA),...

半监督:通常数据标注是很耗时的且昂贵的,所以,你往往得到大量未标记的和少量标记的数据,有些算法通常可以处理部分有标记的数据,叫半监督学习(没研究过,所以不是太了解),大多数半监督学习都是无监督和有监督的结合

强化学习则是一个非常与众不同的“巨兽”。它的学习系统,能够观察环境,做出选择,执行动作,并获得回报,所以它必须自行学习什么是最好的策略,从而随着时间的推移获得最大的回报(没有太大的研究)

划分测试集和训练集的意义:

一个模型的好坏,主要看的是他的模型泛化能力,而将数据划分成训练数据和测试数据,顾名思义,训练数据用做训练,测试数据用作测试

你可能感兴趣的:(笔记,机器学习,人工智能,数据挖掘)