机器学习知识随笔

机器学习算法分为:

回归算法:

线性回归

分类算法:

逻辑回归(logistic):使用logistic函数估计概率,来衡量因变量(待预测的标签)与一个或多个自变量(特征)之间的关系。

朴素贝叶斯——已知类别的情况下,每个变量相互独立。

K近邻——对测试样本进行分类时,先通过扫描训练样本集,找到与该测试样本最相似的个训练样本,根据这个样本的类别进行投票确定测试样本的类别。

决策树(一种有监督的机器学习算法):

  1. 实现逻辑:从训练数据中学习得到一个树状结构的模型。测试时,在树的内部节点处用某一属性值进行判断,根据结果决定进入哪个分支节点,直到到达叶节点处,得到分类结果。
  2. 常用确定继续划分集合的三种指标(信息增益、信息增益率、基尼指数)
  •  信息增益:按照某一特征划分数据集后熵的减少量,选择减少量最多的特征进行划分,但是偏好特征取值较多的特征,常见模型ID3(迭代二分器)。
  • 信息增益率:信息增益的基础上除以一个固有值,对取值数目较多的特征有更多惩罚,偏好取值数较少的特征,常见模型C4.5
  • 基尼指数:从样本集D中随机抽取两个样本,其类别标记不一致的概率,因此越小越好

集成学习(通过构建并结合多个学习器完成学习任务):

Bagging(并行):核心是投票,少数服从多数,同质弱学习器 独立并行学习。多次采样,每次从训练集中抽取一个固定大小的训练集A,随机重抽样,训练多个分类器,集体投票,旨在减小方差。

常用算法:

  • 随机森林(RF):用多棵(随机生成的)决策树生成最后的输出结果。

       

Boosting(串行):同质弱学习器 顺序串行学习.(强调个体学习器之间存在强依赖关系)基分类器层层叠加,聚焦分错的样本,旨在减小方差。

Boosting主要思想:迭代式学习

该算法主要分为加法模型(强分类器由一系列弱分类器线性相加而成)和前向分步算法(在训练过程中,下一轮迭代产生的分类器是在上一轮的基础上训练得来的。)

基本原理:从初始训练集训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整,提高被错误分类的样本的权重,降低被正确分类的样本的权重,使得先前基学习器做错的训练样本在后续受到更多的关注,然后基于调整后的样本分布来训练下一个基学习器;重复训练直到基学习器数目达到T值,最后将T个基学习器进行加权结合。

常用算法:

  1. AdaBoost  ——可用于分类和回归。采样权重是数据实例重要性的衡量指标。
  2. XGBoost——按照广度优先算法展开(层展开);其在训练前,先对数据进行排序,保存为block结构,迭代中可以重复使用这个结构(预排序);
  3. GBDT——把所有树的结论累加起来做最终结论,核心在于,每一棵树学的是之前所有树结论和的残差。

Stacking:多次采样,训练多个分类器,将输出作为最后的输入特征,由K-NN、随机森林和朴素贝叶斯基础分类器组成,预测结果由作为元分类器的Loqistic回归组合。

Blending:一种模型融合的方式,第一层通过将训练集出一部分作为holdout set,然后通过剩下的数据生成模型对holdout set进行预测;第二层,直接对预测结果建模生成第二层的模型。

lightGBM——按照深度优先算法展开(带有深度限制的节点展开);旨在提供一个快速高效、低内存占用、高准确度、支持并行和大规模数据处理的数据科学工具;直方图算法

支持向量机(SVM):

SVM核函数

  • 分类:线性核函数、多项式核函数、径向基函数、高斯核函数、幂指数核函数、拉普拉斯核函数、ANOVA核函数、二次有理核函数、多元二次核函数、逆多元二次核函数、Sigmoid核函数
  • 特点:解决小样本下机器学习问题、维度灾难和线性不可分问题;核函数将特征从低维映射到高维,计算在低维进行,分类在高维。
  • 经典loss:Hinge Loss(合页损失函数)

降维算法:

PCA

lasso——通过参数缩减达到降维目的。

线性鉴别法(LDA)——通过找到一个空间使得类内距离最小类间距离最大。

小波分析——

聚类算法(无监督学习):

EM算法——只有观测序列,无状态序列时来学习模型参数。

K-means算法

LDA主题模型


分类问题中,正负样本数据量不等时,处理方法有:

  1. 重采样:改变数据分布消除不平衡,但可导致过拟合。
  2. 欠采样:提高少数类的分类性能,可能丢失多数类的重要信息。
  3. 权值调整

隐马尔可夫(HMM)模型:

评估问题——用前向、后向算法解决。给定一个模型,求某特定观测序列的概率,用于评估该序列最匹配的模型。

模型训练问题——用Baum-Welch算法解决。即参数估计,是一种无监督的训练法,主要通过EM迭代实现。

预测(通信中解码)问题——用维特比算法解决。给定一个模型和某个特定的输出序列,求最可能产生这个输出的状态序列。

已知图片大小,经过卷积后,输出特征图大小求法:

输出尺寸=(输入尺寸-卷积核尺寸+2*padding)/stride +1

你可能感兴趣的:(秋招笔试面试,机器学习,人工智能,算法)