NLP-D52-nlp比赛D21&刷题D8&&量化&&图D1

—0628
先改模型跑起来要尝试bert和roberta作为baseline

Autotokenizer

应该会自动填充完那些需要的字符,比如[CLS]
NLP-D52-nlp比赛D21&刷题D8&&量化&&图D1_第1张图片

参考:https://zhuanlan.zhihu.com/p/341994096

NLP-D52-nlp比赛D21&刷题D8&&量化&&图D1_第2张图片

https://www.kaggle.com/code/maroberti/fastai-with-transformers-bert-roberta/notebook

Roberta-base训练资料

NLP-D52-nlp比赛D21&刷题D8&&量化&&图D1_第3张图片

Bert-base训练资料

与roberta相似,好吧,一致
NLP-D52-nlp比赛D21&刷题D8&&量化&&图D1_第4张图片

deberta-base

娇奢的batch=2048
训练语料只有78G,是上面的一半。
在这里插入图片描述
—0744终于调完了,但是有2个因为没有算力了,只能等等了。

原来scale操作是transformer祖传秘诀啊

NLP-D52-nlp比赛D21&刷题D8&&量化&&图D1_第5张图片
d是hidden_size,这个操作主要是希望计算出来的H,不要受字符长度的影响???
https://zhuanlan.zhihu.com/p/451168707

还有另一种解释,避免softmax函数梯度过小。

但当输入向量的维度 d 比较高,点积模型的值通常有比较大方差,从 而导致softmax函数的梯度会比较小。因此, 缩放点积模型可以较好地解决这个问题。

cnblogs.com/nxf-rabbit75/p/11555683.html

800

eee挑战成功了

798差分矩阵

因为计时间,有很多细节性的比武,并且add函数的±也写错了一点
NLP-D52-nlp比赛D21&刷题D8&&量化&&图D1_第6张图片

799 最长连续不重复子序列

NLP-D52-nlp比赛D21&刷题D8&&量化&&图D1_第7张图片

2816判断子序列

第一次失败了是因为在判断里写的全部是a数组,忘记了还有b数组了
NLP-D52-nlp比赛D21&刷题D8&&量化&&图D1_第8张图片
----2025去看量化啦~~
芜湖,代码写的不咋样,找了好多bug出来hh

现在去改一下代码,然后跑起来就可以睡了!!

----2212写完了写完了再写写总结可以睡了。

你可能感兴趣的:(机器学习,量化,每日一题,自然语言处理,深度学习,人工智能)