机器学习

机器学习的几种学习方法

  • 统计学习:监督学习,无监督学习,半监督学习,强化学习。
  • 这里引入统计学习和机器学习的区别:
    1.统计学习是theory-driven,对数据分布进行假设,以强大的数学理论支撑解释因果,注重参数推断(Inference);机器学习是data-driven,依赖于大数据规模预测未来,弱化了收敛性问题,注重模型预测(Prediction);
    2.机器学习建立在统计学习基础之上。(这里引入一链接可较为容易理解机器学习与统计学习)

监督学习

  • 如图1:
    机器学习_第1张图片
  • 1.(x₁,y₁),(x₂,y₂),…即为步骤1中有限的训练数据集合。
    2.通过学习系统对应的步骤2,3,4求解出最优模型。通过预测系统输入Xn+1得到Yn+1。
  • 如图2:
    机器学习_第2张图片
  • 1.训练集包含N个样本点,每个样本点包括两个属性:x和y。这里x作为输入,一般为n维向量。
    2.x对应输入空间,y对应输出空间。一般来说特征空间与输入空间相一致,但并不总是。例如:比如我们拿到的是x数据,但我们想用(x,x²,x³)这样的组合,那么此时的输入空间是一维的,特征空间是三维的。
    3.学习系统中拿到最优模型,模型形式分为两种:决策函数条件概率分布。决策函数通过输入的x得到输出的y;条件概率分布通过输入的x得到y的分布,实际当中一般取max(y)。
  • 如图3:(统计学习三要素:模型+策略+算法)
    机器学习_第3张图片
  • 决策函数中,输入变量为x,输出变量为y。则a₀和a₁决定所有的一维直线,在该一维空间里找到适合该问题的a₀和a₁,即为θ对应的函数f(X),即为最优模型。同理条件概率分布。
  • 如图4:
    机器学习_第4张图片
  • 1.策略即如何从备选模型中以什么样的标准来找到最优模型。
  • 2.策略体现在损失函数上,损失函数表示的是对于每一个实例,预测值和真实值的差别的惩罚。
  • 3.常见的损失函数
    ①为0/1损失函数,这个函数一般用在分类问题上。输入的X通过模型输出f(X)为预测值,若和观测值Y不相等,则认为它是有损失的,损失值记作1,相等则没有损失,记作0。所有的实例都会通过这个损失函数计算出来损失。
    ②为平方损失函数,一般用于回归问题。观测值Y和预测值f(X)是连续值,对于连续值我们可以用差值的平方来表示它们的差别,计算出其损失。
    ③为绝对损失函数,一般用在回归问题上。观测值Y和预测值f(X)是连续值,对于连续值我们也可以用差值的绝对值来表示它们的差别,计算出其损失。它与平方损失函数的区别就是惩罚的力度不一样,当预测值和观测值差别较大时,平方损失函数计算出的损失更大,即对差别大的数灵敏度更高。
    ④为对数似然损失函数。输入的X得到对应的P的条件概率分布,此时预测值和观测值Y之间的度量,需要用-logP(Y|X)来衡量。将观测值Y代入进去计算得到的值作为损失值。
  • 如图5:
    机器学习_第5张图片
  • 如何根据N个有限训练集产生的N个损失来选择最优模型呢?这里还有两个准则:
  • 1.经验风险最小化: 假设空间中的每一个模型f,L计算出该模型中Xi实例的损失值,求和得到N个实例的总损失值,再计算得到该模型的平均损失值。计算所有模型的平均损失值,值最小的模型即为最优模型。
  • 2.结构风险最小化: 在经验风险最小化的基础上加了一个正则项,J是f的函数,J(f)这个函数没有给具体的形式,表示的是f这个模型的模型复杂度。即期望找到这个模型经验风险小,模型复杂度也小。λ是衡量经验风险最小化和模型复杂度重要程度的指标,λ若更大则表示倾向于选择模型复杂度更小的。

你可能感兴趣的:(机器学习)