【自然语言处理】专业术语汇总(持续更新...)

基础NLP 的名词:

分词(Segment)
词性标注(Label)
命名实体识别(Named Entity Recognition)
句法分析(Syntax Parsing)
情感识别(Emotion Recognition)
纠错(Correction)
问答系统(QA System)

正则化(normalization)
标准化(scale)
标记化(tokenization)
标记(token)
语料库 corpus

未登录词:由于中文中存在很多没有被收录在分词词表中但必须切分出来的词,包括各类专有名词(人名、地名、机构名等)、新词等等,从而产生未登录词的难题,不过目前已经广泛使用命名实体识别(NER)来识别出名、地名、机构名等专有名词
softmax:是分类器也可以做归一化

多模态系列文章:

VQA:视觉问答
annotation:标注(应该是指标注数据集吧)
motivation:动机
cross attention:交叉注意力机制
meme:主要就是图片+文字的形式,玩梗,也有别的形式(动图、纯图片、短视频等等)。
OCR:文字识别
multi-modal:多模态
SOTA:state of the art 技术发展最新水平
MLP:多层感知机
spectral approaches:谱方法
non-spectral approaches:非谱方法(基于空间的方法)
backbone:主干网络,主干网络大多时候指的是提取特征的网络,其作用就是提取图片中的信息,共后面的网络使用。这些网络经常使用的是resnet VGG等,而不是我们自己设计的网络,因为这些网络已经证明了在分类等问题上的特征提取能力是很强的。在用这些网络作为backbone的时候,都是直接加载官方已经训练好的模型参数,后面接着我们自己的网络。让网络的这两个部分同时进行训练,因为加载的backbone模型已经具有提取特征的能力了,在我们的训练过程中,会对他进行微调,使得其更适合于我们自己的任务。
2.head:head是获取网络输出内容的网络,利用之前提取的特征,head利用这些特征,做出预测。
3.neck:是放在backbone和head之间的,是为了更好的利用backbone提取的特征
4.bottleneck:瓶颈的意思,通常指的是网网络输入的数据维度和输出的维度不同,输出的维度比输入的小了许多,就像脖子一样,变细了。经常设置的参数 bottle_num=256,指的是网络输出的数据的维度是256 ,可是输入进来的可能是1024维度的。
5.GAP:在设计的网络中经常能够看到gap这个层,我之前不知道是干啥的,后了解了,就是Global Average Pool全局平均池化,就是将某个通道的特征取平均值,经常使用AdaptativeAvgpoold(1),在pytorch中,这个代表自适应性全局平均池化,说人话就是将某个通道的特征取平均值。

专业术语

BERT 及它一系列文章:

seq2seq :输出长度不确定的模型(如:RNN)
transformer:使用了很多 self-attention 的 seq2seq 模型
BERT:unsupervised 训练的 transformer

GNN 系列文章:

GCN:使用拉普拉斯算子进行 GNN 权重加载
GAT:使用self-attention进行 GNN 权重加载

基础数学的一些名词:

inner product:内积(就是点积)
dot product:点积
dot:点积
dim(dimension):维度
matrix:矩阵
element:元素

你可能感兴趣的:(深度学习,自然语言处理,nlp,深度学习,机器学习)