机器学习笔记

1.什么是机器学习

数据中自动分析获得模型,并利用模型对位置数据进行预测

    关键词:

           数据

           模型

           预测


2.机器学习算法分类

    2.1监督学习

            数据集有标签

            监督学习三要素:

                 模型

                 算法

                 策略

        2.1.1分类classification

                   离散型数据

                   常用算法:Knn,朴素贝叶斯,svm,决策树与随机森林,逻辑回归

        2.1.2回归regression

                   连续型数据

                   常用算法:线性回归,岭回归

    2.2非监督学习

            数据集无标签

            常用算法:聚类,K—means

 

        降维:PCA, LDA, SVD

3.机器学习开发流程

    获取数据

    处理数据

    特征工程

    机器学习算法训练—模型

    模型评估

    应用

4.特征工程

    数据集

    特征工程介绍

    特征抽取

    特征预处理

    特征降维

    主成分分析

5.监督学习入门

    监督学习三要素:模型,算法,策略


    5.1模型评估策略

            5.1.1训练集测试集

            5.1.2损失函数和经验风险

                0-1损失函数

                平方损失函数

                绝对值损失函数

                对数损失函数

                经验风险:模型f(x) 关于训练数据集的平均损失成为经验风险(empririal risk),                         记作Remp

            5.1.3训练误差和测试误差


    5.2 模型选择

                过拟合和欠拟合

                正则化和交叉验证

                    正则化:

                    结构风险最小化(SRM)

                        在ERM基础上,为了防止过拟合提出来的策略

                        在经验风险上加上标识模型复杂度的正则化项(regularizer),或者叫惩罚项

                        正则化项一半是模型复杂度的单调递增函数,模型越复杂,正则化值

                    交叉验证:

                        如果样本数据足够充足,可将数据随机切成三部分:

                             训练集:训练模型

                             验证集:模型的选择

                             测试集:学习方法的评估


                     数据不充足的时候,可以重复利用数据——交叉验证(cross validation)

                             S折交叉验证:将数据随机切分s个互不相交,相同大小的子集,

                              s-1个作训练集,一个测试集

你可能感兴趣的:(机器学习笔记)