比赛细节笔记总结

2020-10-06

  1. res 的思想,与 ensemble 的 思想 , 加入很多层 ensemble 一下 也算是集成模型 res 的思想 一般是加比较好
  2. 序列问题可以加入 pos embedding: an照 transformer 的方法加入 embedding
  3. 在 gcn 的邻接矩阵里加入一个 conv2d 等于 atten 吗
  4.         `nn.BatchNorm1d(out_dim),
         	 nn.Dropout(0.1),
         	 nn.LeakyReLU()`  在一个模块后面加入 这三个优化项 其中 bn要加在dp之前 有科学依据
    
  5. 模型可以很深 加很多 res 模块就没事了…

2020-10-07
6. wavenet 的模板get 在 github
7. transformer 的模板 get 在 github
8. transformer 训练的时候要加入 mask 来正则化
9. transformer 可以屏蔽掉句子里的一些 无用的词汇
10. 损失函数一定要改,什么样的损失函数就有什么样的模型 #??#
11. 加入对抗训练提高性能
12. 加入分数据集的方法 skf 等 在 github

2020-10-8
13. stacking 不能只做简单的带权平均 具体stacking方法 见csdn
14. 调bert 见 github
15. bert 是上游的embedding生成器,transformer layer 是特征提取器 两者是不一样的
16. 保存val最优的模型不可取,大佬说的
17. 伪造label方法 :回归fl 也是可以做的

2020-10-9
18. 快照学习 – pytorch 版本 pytorch keras 见知乎
19. Backward Elimination 不错的集成方法 集成
20. 今天就到这吧

2020-10-11
21. pytorch 固定部分参数训练 见
22. get 了一整套 训练保存框架 感觉简单易用 看了 mlm的 具体训练方式, 合并成一个文件保存到了github,余弦退火啥的详见余弦退火
23. fast.ai 高级api ,未完待续

2020-10-19
24. 要对整个过程进行神经网络方面的模拟,建模、motivaition正确结果就会是好的
25.nn 特征的维度不在于有多少,但需要精妙的设计
25. nn 建模就像讲故事,要把来龙去脉讲得合理 然人看完说一声合理 , 而不是觉得简单粗暴 , 虽然神经网络不可以解释,但是机理要能说清楚

2020-10-20
26. 数据预处理: 1. clap 2. 对y 进行变换 3. 数据清理 4. 归一化 或者 加权 5. label smoothing
27. label smoothing: tf实现很容易改成 pytorch 实现 改一下损失函数
29. Lookahead 优化器
30. pooling 的所用 scale不变性 , 平移旋转不变性 , 等 可以将不同形态的同性质 提取出来 学习到本质
31. 加入 ae pretrain 作为分类任务的初始权重

AE的pre-train一般来说只是对自身的拟合。但是这样的权值用来初始化其他任务,比如分类任务为什么效果会好呢?小白,不是很懂。。

其实我已经在评论中回复过了,我在说下:pretrain目前的研究认为,获得了一个比较好的初值。这个初值直接对应一个隐层表达,隐层表达直接作用于最终分类

  1. VAE 吹的天花乱坠,实际上也就这么几行 VAE pytoch 实现

2020-10-22
33. 比 relu 更好用: gelu()gelu
34. mesh 也是好的激活函数

2020-10-24
35. 看文章要看完整哦,模型只是一部分,如何训练,数据如何喂进去大有讲究
36. 今日学习transformer 学到很多
37. 全局 xsiver 参数都要初始化 或者pre train 比随机初始化稳定多了

for p in model.parameters():
        if p.dim() > 1:
            nn.init.xavier_uniform(p)
  1. Note: This part is very important. Need to train with this setup of the model.
    意思是训练的梯度设置也非常重要,不按照这个策略做得不到这个结果

  2. 老师训练策略…
  3. transformer 不需要循环也可以依次预测 见blog

2020-10-24
41. 在lstm中 h0=c0 是隐层的初始化状态,一般是零向量。
42. 模型与真实事件,模型需要贴近真实事件关系模型,所以真实事件的数据要能反映真实事件的力学模型。数据要能贴合力学模型所描绘的关系。
模型是对真实事件的一种简化,去除掉了随机性,去除掉了神秘力量(无关紧要的数据之间的联系),真实数据要贴合模型,满足模型的力学关系,关系不足欠拟合,或者有没建模到的神秘扰动,都会使训练出来的模型不好,所以说模型决定了预测的上限,数据决定了模型训练的上限(数据不贴合模型会使模型的效果不好,达不到模型的上限,会折上加折,确信),那么怎样去捕捉没有建模到的神秘扰动呢… 加一个不同类型的并行layer上去 加一个小权重加上去… 感觉世界线收束了 , 在我看到万能提取器之前先这么干吧…现在看不到数学层,感觉下一步就是使用数学层进行建模。目前道行不够

2020-10-25
43. 多任务学习,共享表示:本质上是对模型的完整建模,只单个任务不足以对整个模型进行表示。
44. 多语言任务学习: 不同的语言,不同类型的数据不共用一套参数,multi 思路

2020-10-26
45. 提取side信息 用不同的层 提取加一个小权重,加起来 或逐元素相乘 或者max
46. 同样的层设置不同参数 也可以提取不同的信息
47. 多对一attention ,lookahead 加 Radam 见 github
48. 今日学习 nni 自动调参 感觉吊吊的

2020-10-27
49. 自动调参大成功 详见 服务器nni 与 nni文档 感觉芜湖起飞
50. 假期一个月写作 最大的收获就是 学会了这个 embedding 类型 见 github

2020-11-3
51. [类别特征编码] 感觉看了也没啥用(https://blog.csdn.net/weixin_39671140/article/details/84801409)

处置妥当的情况下,无论是线性模型,还是非线性模型,目标编码都是最佳的编码方式。

  1. 自动特征工程

你可能感兴趣的:(python,统计,create)