机器学习总结——前言

机器学习任务类型主要分为两大类:
        • 监督学习(Supervised Learning)
        – 分类 (Classification)
        – 回归 (Regression)
        – 排序 (Ranking)
        • 非监督学习 (Unsupervised Learning)
        – 聚类 (Clustering)
        – 降维 (Dimensionality Reduction)

        – 概率密度估计 (density estimation)

监督学习:学习到一个x->y的映射f,从而对新输入的x进行预测 f (x) 。数据特征分为两大类即输入特征和预测特征。

                  分类中的预测采用最大后验估计,即选择概率最大的。

非监督学习:发现数据中的“有意义的模式”,亦被称为知识发现。

                 • 降维是一种将原高维空间中的数据点映射到低维度空间的技术。其本质是学习一个映射函数 f:x->x',其中x是原始数据点的表达, x'是数据点映射后的低维向量表达。
                 • 在很多算法中,降维算法为数据预处理的一部分,如主成分分析( PCA)。

过拟合:在训练集上表现优越,在测试集上表现差劲,推广性差

正则项:其作用是防止过拟合,即增加约束条件,方程原型其实是拉格朗日乘数法

L0正则化的值是模型参数中非零参数的个数。

L1正则化表示各个参数绝对值之和。

L2正则化标识各个参数的平方的和的开方值

K-折交叉验证:将训练数据分成容量大致相等的K份,每次留出第k份数据作为验证数据,其余K-1份数据用于训练,根据预测数据计算出误差,共有k份结果,然后加和求平均。

NumPy:矩阵计算;

SciPy:数学工具,比如求导;

Pandas:数据结构和数据分析,类似于SQL,

                主要有 2 种重要数据类型:Series(一维序列),DataFrame(二维表,机器学习数据的常用数据结构)

Matplotlib/Seaborn:2D绘图工具

Scikit-Learn:机器学习方法。

                     • 基本功能有六个部分:分类、回归、聚类、数据降维、模型选择、数据预处理。
                     • 对于具体的机器学习问题,通常可以分为三个步骤
                       – 数据准备与预处理( Preprocessing 、 Dimensionality reduction )
                       – 模型选择与训练( Classification 、 Regression 、 Clustering )
                       – 模型验证与参数调优 (Model Selection)
 




 

你可能感兴趣的:(机器学习理论,机器学习操作)