机器学习理论基础

介绍
第一部分参数方法——类密度模型参数估计
第二部分监督学习——分类（基于似然的方法）
第三部分监督学习——分类（基于判别式的方法）（参数方法——判别式参数估计）
第四部分监督学习——回归
第五部分监督学习——关联规则
第六部分维度规约（特征的提取和组合）
第七部分半参数方法
第八部分非监督学习——聚类
第九部分非参数方法——密度估计
第十部分非参数方法——决策树实现的判别式
第十一部分多层感知器——非参数估计器
第十二部分局部模型
第十三部分支持向量机与核机器
第十四部分隐马尔科夫模型
第十五部分参数的贝叶斯估计
第十六部分集成学习——组合多学习器
第十七部分增强学习
第十八部分机器学习实验
第十九部分特征工程与数据预处理

各种应用场景之中的问题繁杂多样，不同的具体问题，往往各有其独有的优解。计算机执行算法，也就是指令的序列，来解决一个问题。但面对繁复的问题，往往由于缺乏相应的知识，不能保证对每种问题都了如指掌，从而很难直接最优的解决方案供计算机指令执行。

但作为补偿，我们有数据。从数据中提取有用的知识，解决问题，是数据应用的核心目的。

机器学习在大数据中的应用可称为数据挖掘，其发掘数据中所蕴含的知识信息。机器学习也是人工智能的组成部分。智能化的系统，在变化的应用环境中需要具备学习的能力，来适应这些变化。这样，系统的设计者就不必预见所有的情况，并未它们提供解决方案了。同样，在人工智能常见的应用场景——视觉、语音识别等方面，机器学习也提供了很多帮助。

机器学习在构建模型时利用了统计学理论，其核心任务就是用样本推理（这也正是统计学的任务）。而计算机科学在机器学习中的角色分为两部分。第一，在训练时，需要对优化问题求解、同时面对大数据的存储和处理需要保证算法的高效和稳定。第二、在学习得到模型后，使用模型进行推理的算法也需要是高效的。

机器学习的主要应用包括学习关联性、分类、回归、聚类、策略增强学习等。

根据数据情况，可分为监督学习和非监督学习。相比于监督学习，非监督学习——没有输出信息，我们的目的是发现输入空间所具有的某种结构。统计学中，可称为密度估计。通过密度估计，也可实现回归的分析目的。

对于属于非监督学习的聚类问题，其数据，相比监督学习的数据缺少输出标签。分类问题是利用数据已有的标签，学习属于同一标签下数据的特征。而聚类与分类问题的不同，就在于类标签不是事先已知的。

此外还有增强学习也属于机器学习的一种应用。系统多次输出的动作构成策略，而学习目的是评估策略的好坏，进而产生好的策略。

本文档，旨在以机器学习的目的（分类、回归等）为线索，梳理各种机器学习方法。对同样的学习目的，尽量将各种方法归在一起介绍，着重对比。这是因为很多方法可以用于实现不同的学习目的。将方法手段技巧，与学习目的分开讨论，有利于更好掌握机器学习基础理论。

机器学习理论基础

你可能感兴趣的:(机器学习理论基础)