01统计学习及监督学习概论

2019.06.26
开始统计学习方法,在此记录下学习历程,梳理思路。

分类

1.主要可以分为监督学习、无监督学习、半监督学习、强化学习

  • 监督学习的主要任务有回归问题和分类问题,回归问题中,输出是连续的值,分类问题中,输出是分类标签
  • 监督学习和无监督学习的区别是有无预先标记的训练实例
  • 半监督学习:部分训练实例有标记,部分没有,利用未标注数据中的信息,辅助标注数据,进行监督学习(就是说学习的是有标注的数据)
  • 强化学习,强调如何基于环境行动,以取得最大预期收益,应用如AlphaGo。书中原话:智能系统的目标不是短期奖励的最大化,而是长期累积奖励的最大化。强化学习过程中,系统不断地试错,以达到学习最优策略的目的。感觉这个tm讲的既是game,又是人生...

2.按模型分类,又可以分成概率模型和非概率模型
非概率模型:


概率模型:


1641699452.jpg

监督学习中,概率模型是生成模型,非概率模型是判别模型,区别:


1255780150.jpg

统计学习方法三要素

方法=模型+策略+算法
1.模型就是所要学习的条件概率分布或者决策函数
假设空间:


1461131520.jpg

2.策略就是选取最优模型的方法

  • 对于单个实例的损失函数
  • 对于整个数据集的风险函数

两个基本策略:

  • 经验风险最小化
  • 结构风险最小化
    区别是结构风险最小化加了一个正则化项,λJ(f),这是个衡量模型复杂度的函数

模型评估和模型选择

模型选择常用方法:正则化和交叉验证
交叉验证就是将原来的训练集分成训练集和验证集,训练集用于训练模型,验证集用于模型选择,测试集用于最终对模型的评估

精确率和召回率

0是负类,1是正类


2116282833.jpg

应用

分类的应用:

  • 利用日志数据的分类对非法入侵进行检测
  • 文本分类(情感、专业领域等)
  • 标注问题-->常用隐马尔科夫模型、条件随机场(HMM和CRF)

回归问题:
回归问题的学习等价于函数拟合,选择一条函数曲线使其能很好地拟合已知数据且能很好地预测未知数据。

极大似然估计和贝叶斯估计

1924014739.jpg
1910210701.jpg

你可能感兴趣的:(01统计学习及监督学习概论)