李宏毅机器学习hw1~4作业 强化点

李宏毅机器学习hw1~4作业 强化点总结

  • 李宏毅机器学习hw1
    • 1. 特征选择
    • 2. 激活函数
    • 3. 学习率
  • 李宏毅机器学习hw2
    • HMM
  • 李宏毅机器学习hw3
    • 1. dropout
    • 2. 目标检测Loss设置
    • 3. 模型融合
  • 李宏毅机器学习hw4
    • 1. Conformer
    • 2. Self-attention pooling

李宏毅机器学习hw1

1. 特征选择

利用sklearn中的特征选择方法,选择了少量最有影响的特征。对特征进行归一化处理,将其转换到[0, 1]区间内。
参考:基于sklearn的特征选择方法

2. 激活函数

LeakyReLU

优点:
1、针对Relu函数中存在的Dead Relu Problem,Leaky Relu函数在输入为负值时,给予输入值一个很小的斜率,在解决了负输入情况下的0梯度问题的基础上,也很好的缓解了Dead Relu问题;
2、该函数的输出为负无穷到正无穷,即leaky扩大了Relu函数的范围,其中α的值一般设置为一个较小值,如0.01;

缺点:
1、理论上来说,该函数具有比Relu函数更好的效果,但是大量的实践证明,其效果不稳定,故实际中该函数的应用并不多。
2、由于在不同区间应用的不同的函数所带来的不一致结果,将导致无法为正负输入值提供一致的关系预测。

ELU

优点:
1、ELU具有Relu的大多数优点,不存在Dead Relu问题,输出的均值也接近为0值;
2、该函数通过减少偏置偏移的影响,使正常梯度更接近于单位自然梯度,从而使均值向0加速学习;
3、该函数在负数域存在饱和区域,从而对噪声具有一定的鲁棒性;

缺点:
1、计算强度较高,含有幂运算;
2、在实践中同样没有较Relu更突出的效果,故应用不多;

3. 学习率

余弦退火算法

余弦退火通过周期性的改变学习率大小,在可能陷入局部最小值时,有可能跳出“局部最小值”。

李宏毅机器学习hw2

HMM

利用HMM与分词、词性标注、命名实体识别

下面引用 HMM隐马尔可夫模型详解

使用HMM模型时我们的问题一般有这两个特征:
1)我们的问题是基于序列的,比如时间序列,或者状态序列。
2)我们的问题中有两类数据,一类序列数据是可以观测到的,即观测序列;而另一类数据是不能观察到的,即隐藏状态序列,简称状态序列。

有了这两个特征,那么这个问题一般可以用HMM模型来尝试解决。这样的问题在实际生活中是很多的。比如:我现在在打字写博客,我在键盘上敲出来的一系列字符就是观测序列,而我实际想写的一段话就是隐藏序列,输入法的任务就是从敲入的一系列字符尽可能的猜测我要写的一段话,并把最可能的词语放在最前面让我选择,这就可以看做一个HMM模型了。再举一个,我在和你说话,我发出的一串连续的声音就是观测序列,而我实际要表达的一段话就是状态序列,你大脑的任务,就是从这一串连续的声音中判断出我最可能要表达的话的内容。

从这些例子中,我们可以发现,HMM模型可以无处不在。但是上面的描述还不精确,下面我们用精确的数学符号来表述我们的HMM模型。

原理可参考:HMM(隐马尔可夫)简介

李宏毅机器学习hw3

1. dropout

dropout,一般用来解决过拟合问题

注意:dropout一定放到全连接层,千万不要放到卷积层

参考:深度学习中Dropout原理解析

2. 目标检测Loss设置

FocalLoss

FocalLoss相对于CrossEntropy,考虑样本不均衡的问题并增加了错误分类样本loss的权重,可以通过减少易分类样本的权重,使得模型在训练时更专注于难分类的样本。

Equalized Focal Loss

通过将一个类别相关的调制因子引入Focal Loss。具有两个解耦的动态因子(即聚焦因子和加权因子)的调制因子独立处理不同类别的正负不平衡。focusing factor根据硬正样本对应类别的不平衡程度,决定了对硬正样本的学习集中度。加权因子增加了稀有类别的影响,确保了稀有样本的损失贡献不会被频繁的样本所淹没。这两个因素的协同作用使EFL在长尾场景中应用一阶段检测器时,能够均匀地克服前景-背景不平衡和前景类别不平衡。
————————————————
版权声明:本文为CSDN博主「中科哥哥」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_38353277/article/details/123369497

3. 模型融合

感觉与作业的初衷不符,这里只简单的做个介绍

【机器学习】kaggle比赛大杀器——模型融合

kaggle比赛集成指南

李宏毅机器学习hw4

1. Conformer

论文地址: Conformer
conformer的思路很简单,就是将Transformer和CNN进行结合。原因:
1.Transformer中由于attention机制,拥有很好的全局性。
2.CNN拥有较好的局部性,可以对细粒度的信息进行提取。
两者结合在语音上有较好的效果。论文中阐述了具体的model架构。
————————————————
版权声明:本文为CSDN博主「loco_monkey」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/loco_monkey/article/details/125635953

参考:深度学习中Dropout原理解析

2. Self-attention pooling

self attention pooling论文
主要看论文中的self-attention pooling架构,和mean pooling相比之下,self-attention
pooling是通过可学习参数来进行pooling,相比mean pooling可以提取到一些信息。 参考大佬视频讲解
————————————————
版权声明:本文为CSDN博主「loco_monkey」的原创文章,遵循CC 4.0
BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/loco_monkey/article/details/125635953

你可能感兴趣的:(李宏毅机器学习,机器学习,人工智能,sklearn,深度学习)